Навіщо нам український ШІ? Відповідає дослідник Олесь Петрів

Навіщо нам український ШІ? Відповідає дослідник Олесь Петрів

З одного боку, великі фундаційні моделі від Google та інших великих корпорацій швидкі й уже відносно дешеві, зазначає виконавчий продюсер та співзасновник Reface, дослідник систем ШІ Олесь Петрів. Усе нібито класно, зручно та доступно. Але саме ця простота призводить до того, що все менше контролю у розробника певного продукту. Адже той, хто замішує тісто, має визначати інгредієнти. Китайці ліплять із тіста пельмені, італійці піцу, а українці вареники. І тісто має бути українським. Таким образним порівнянням Олесь Петрів пояснив в ефірі Радіо Культура потребу в українському штучному інтелекті.

0:00 0:00
10
1x
Програма:

Олесь Петрів та Вадим Карп’як у студії Радіо Культура

Спілкування з цією моделлю для більшості вже знайоме

Міністерство цифрової трансформації України заявило про те, що Україна починає розробляти власну велику мовну модель. Цим красивим словосполученням називають те, що ми звикли називати ШІ. До кінця року Україна має амбітний план: почати тестувати власний штучний інтелект, над яким і буде працювати Міністерство цифрової трансформації спільно з компанією Київстар. Що таке державний штучний інтелект? Навіщо нам власний ШІ, якщо є безліч іноземних зразків? Навіщо Україні починати городити город і розробляти власний?

Усі ці мовні моделі також називають фундаційними моделями. Адже технічно – це певний набір програмного забезпечення, певний набір параметрів цього програмного забезпечення, яке отримується шляхом тренування штучного інтелекту на величезних об'ємах даних: всього, що люди написали в книжках, наговорили в фільмах і на форумах. На основі цих величезних даних, проганяючи їх через певний алгоритм, на виході отримується гігабайти так званих коефіцієнтів штучних нейронних мереж, через які, якщо прогнати певний текст, на виході можна отримати інший текст. Спілкування з цією моделлю для більшості вже знайоме.

Фундаційні моделі використовуються в мільйонах різноманітних продуктових обгорток

Та це вже не просто спілкування. Я знаю купу людей, які навіть свої медичні проблеми довіряють штучному інтелекту. Не кажучи вже про дипломні роботи.

І ще багато-багато інших речей. Ці фундаційні моделі, які спочатку з'явилися від компанії Google, а зараз їх вже є цілий зоопарк, вони варіюються вартістю отримання одного токена. Token – це слово або частинка слова. І всі ці моделі генерують послідовності токенів. За кожен токен хтось повинен платити гроші. Оскільки для того, щоб нейромережа, отримавши на вхід текст, видала якийсь інший текст, якась відеокарта повинна спалити певну кількість електроенергії. За цю електроенергію хтось повинен заплатити. Для того, щоб він за неї заплатив, він повинен мати якусь ринкову мотивацію, навіщо інвестувати мільйони і мільярди доларів в те, щоб палити електроенергію і перетворювати її в слова. І великі корпорації інвестують зараз десятки мільйонів доларів шаленими темпами в те, щоб створювати нові, все більші і потужніші фундаційні моделі, на основі яких вже потім робляться продукти, такі, як чат GPT чи Gemini. Але окрім інтерфейсу просто чату, куди ви заходите, ці ж фундаційні моделі використовуються в тисячах, якщо не мільйонах, різноманітних продуктових обгорток. Під капотом, так би мовити, використовується та чи інша лінгвістична модель.

Навіщо нам власна модель

То чому ми не можемо взяти існуючі моделі, а будемо робити власну?

І тут найцікавіший момент. Бо, з одного боку, великі фундаційні моделі від великих корпорацій, швидкі й уже відносно дешеві, зі зручною інтеграцією в різноманітні продукти. Все нібито класно, зручно і доступно. І саме ця простота призводить до того, що все менше і менше контролю в того, хто розробляє певний продукт. І не важливо що це: продукт для розваг, якийсь мобільний додаток чи це заміна голосового асистента в сервісі підтримки банку.

Тобто, люди цим користуються, не розуміючи підґрунтя всього цього? Я собі уявляю цей алгоритм, як тісто, з якого китайці ліплять пельмені, італійці піцу, а українці хочуть вареника.

Так. Але бажано з українського тіста. Через те, що той, хто замішує тісто, визначає, які там будуть інгредієнти.

Що тоді робитиме всю цю масу цифр і букв українською? Що в цьому всьому буде українське?

По-перше, це контроль над дата-сетом. Дата-сет – це набір даних, тексти, відео, зображення.

Найважливіше – дотренування моделі

Чат GPT и Gemini і зараз орієнтуються в українських текстах...

Вони всі орієнтуються в українських текстах, із часом робитимуть це все краще і краще. Питання в тому, яким методом відбувалося дотренування. Бо фундаційні великі лінгвістичні моделі тренуються на дуже прості задачі насправді: просто спрогнозувати наступне слово в тексті. Вся ця нейромагія виникає, як побічний ефект, від того, що ми беремо дуже величезну нейромережу, згодовуємо їй дуже величезну кількість терабайтів тексту, і нейромережа вирішує надзвичайно просту задачу: дати відповідь на питання, яке слово повинно бути наступним в реченні. Вона прогнозує наступне слово, тобто тепер речення стало на одне слово довшим, і вона знову вирішує цю задачу, яке слово повинно бути наступним. І все. Це мовна модель. Яка моделює мову. Моделює таку послідовність слів, яка виглядає, як те, що люди пишуть в інтернеті, в книжках тощо.

Чому не можна кохатися з москалями

Тобто, український штучний інтелект буде більше тренований на українських текстах, щоб більше розуміти український контекст? Наведу такий приклад. Якщо у чата GPT запитати, хто найвідоміший український поет, він відповість –  Шевченко. Якщо запитати, який найвідоміший вірш Шевченка, він відповість "Катерина". Якщо запитати, яка найвідоміша цитата з "Катерини", він відповість: "Кохайтеся чорнобриві, та не з москалями". Але якщо у чата GPT запитати, чому не можна кохатися з москалями, він говорить, що не може дати відповідь на це запитання, розповідає про політкоректність, про те, що не хоче когось образити тощо. Чи правильно я розумію, що український штучний інтелект зможе дати відповідь на запитання, чому не можна чорнобривим кохатися з москалями?

Український штучний інтелект, в моєму розумінні, точно мав би відповідати на це запитання. І для того, щоб він відповідав, важливим етапом після тренування моделі мови, є саме дотренування. Бо базова модель мови просто вчиться прогнозувати наступне слово і генерувати текст. Який би вид текст не закинули на вхід, вона його просто продовжить. Якщо взяти сиру нетреновану модель і поставити їй запитання, вона, швидше за все, просто продовжить ваше запитання. Не дасть відповідь, а просто почне генерувати продовження тексту.

Тобто контексту вона не розуміє?

Лінгвістична модель контекст розуміє, але оцей досвід, коли ви спілкуєтеся в режимі діалогу, він вже виникає в процесі додаткового етапу тренування нейромережі, в якому нейромережу тренують вести діалог. Не просто продовжувати текст, а продовжувати текст, який виглядає ніби діалог.

Навіщо обмеження

Але ж для того, щоб ввести діалог, треба тому, хто нам відповідає, мати якісь переконання і знання. Він відповідає з висоти свого досвіду, помноженого на знання.

З того, що ми бачимо, знання є в самій мові. Мова без особистості містить в собі колосальну кількість знань. Мовні моделі вже містять всі знання, які були в датасеті, на якому їх тренували. Але для того, щоб виникла ілюзія діалогу, потрібно цю мовну модель додатково дотренувати. Для того, щоб відповідати в манері співрозмовника, у цього співрозмовника повинні бути риси особистості, певні переконання, певні теми, на які співрозмовник буде хотіти спілкуватися і теми, на які співрозмовник не буде хотіти спілкуватися.

І це дуже важливий етап, на який витрачається величезна кількість часу після тренування самої мовної моделі. Через те, що в інтернеті, наприклад, точно є інструкції виготовлення вибухівки або біологічної зброї в домашніх умовах. І зрозуміло, що ніхто з розробників штучного інтелекту не хотів би, щоб наступного дня після релізу їхньої нової нейромережі, тисячі не дуже хороших людей почали б в себе вдома, запитавши у штучного інтелекту, створювати біологічну зброю.

Тому вони ставили ці обмеження?

І багато інших.

Хто навчить ШІ розрізняти добре і погане

А якщо йдеться про державну модель, хто від імені української держави буде вставляти в український ШІ ці обмеження? Хто навчить ШІ розрізняти добре і погане?Для нас добре – це росіяни за Уралом, для росіян добре – це Київ руський город. І це дві принципово різні моделі. Хто повинен дати їм поняття про добро і зло?

От, власне, чому нам і потрібно мати свою фундаційну модель. Зараз багато нових великих фундаційних моделей розроблені на 80% великими корпораціями, які знаходяться десь в Каліфорнії, частина розроблені в Китаї, частина – в Європі. Кожна з цих моделей була дотренована зі своїми наративами. Якщо у китайської моделі запитати, що відбулося на площі Тяньаньмень, вона буде ухилятися від прямої відповіді на це запитання. Але навіть якщо цю модель дотренувати наприклад, як потрібно вести діалог і відповідати правдиво, то ця ж модель почне відповідати більш правдиво.

Ідеальний вид інформаційної зброї

Усі держави чудово усвідомили, що великі мовні моделі зараз – це один з найефективніших інструментів та ідеальний вид інформаційної зброї. Саме активної інформаційної зброї. Не лише для захисту, а й для трансляції тих чи інших наративів, тих чи інших ціннісних орієнтирів, які досить важко окреслити в якійсь конкретні слова, але вони дуже добре читаються поміж слів. Людина, коли читає текст, бачить те, що в ньому написано. Але людина не бачить текст, який не був написаний, але був би доречний в цьому питанні, не бачить теми, які недовисвітлені, не бачить теми, які подані однобоко. Перша відповідь, яка видається, виглядає правдоподібно. Якщо виглядає правдоподібно, значить окей. І це найбільша вразливість людської психіки перед системами штучного інтелекту.

Як замикається дофамінова петля

Навіть коли ми намагаємося критично підходити до того, що пише нейромережа, наш мозок вчиться і пристосовується. Одна справа, коли ми вперше пробуємо штучний інтелект, ставимо йому запитання і отримуємо правдиву відповідь. Інша справа, коли штучний інтелект дає не зовсім коректну відповідь. І зовсім інша річ, коли чат GPT чи ще якась нейромережа стає щоденним інструментом. Він править і коригує наші щоденні листи, перекладає тексти, пише дисертації або привітання з днем народження друзів. І щоразу, коли нейромережа успішно виконала завдання, у нас замикається дофамінова петля, виникає підкріплення, що це надійне джерело інформації. І чим більше прикладів, коли це надійне джерело виконало нашу задачу, тим менше ресурсів ми інвестуємо в те, щоб перевіряти наступний результат.

Громадський сектор і прозорість базових орієнтирів

То все ж, хто ці люди чи структура, які розкажуть штучному інтелекту, що правильно, а що ні?

План, який є у Мінцифри, зі створення наших українських фундаційних моделей, передбачає доволі активне залучення не просто приватної компанії для тренування. Одна річ, надати обчислювальні потужності, які коштують доволі великих грошей для того, щоб дотренувати нейромережу, а інша річ це тренування моделі, щоб вона відповідала наперед заданим умовам відносно наративів, які вона транслює, формулювань, які використовує в тих чи інших питаннях. І цей аспект планується робити не зовсім закритого типу. Не буде якоїсь головної людини в країні, яка відповідає за мову в країні і те, як люди будуть спілкуватися. Планується максимально широко залучати експертів в технічних речах. Приватні компанії і державні структури відповідатимуть за технічне впровадження і всі нюанси тренування і дотренування. А також залучатиметься громадський сектор для того, щоб, з одного боку, була певна прозорість відносно закладених базових орієнтирів, з іншого боку, це дозволить потім ефективно оцінювати те, що вийшло в результаті відносно набору конкретних задач, для яких планується використовувати цю модель.