Український клуб штучного інтелекту: Новітній ШІ дивує потужністю, але лякає непередбачуваністю

Останні моделі OpenAI отримали високу оцінку, але з важливими застереженнями: експерти помітили їх непередбачуваність. Вони перевершують попередні рекорди в деяких завданнях, але дають збої в інших.

Чому це важливо: Моделі "передового ШІ" продовжують рухатися в нові сфери, але їхній прогрес не став більш науковим чи передбачуваним за два з половиною роки після того, як ChatGPT потряс світ технологій.

Швидкий огляд: Тиждень тому OpenAI випустила моделі o3 і меншу версію o4-mini, заявивши, що це "найрозумніші моделі, які вони коли-небудь випускали".

Компанія та перші тестувальники високо оцінили модель o3 за її здатність до міркувань — можливість реагувати на запити користувачів, плануючи, виконуючи та пояснюючи серію кроків. Вони також підкреслили надійність o3 при виконанні пошукових запитів в Інтернеті та використанні інших цифрових інструментів без постійного нагляду або втручання користувача.

Модель o3 отримала похвалу не тільки за базові функції, такі як написання, малювання, обчислення та програмування, а й за досягнення в області зорових можливостей.

Один із популярних — і для експертів з приватності потенційно тривожних — трюків, який став вірусним: використання o3 для аналізу практично будь-якої цифрової фотографії та визначення місця її створення.

Що говорять експерти:

"Ці моделі можуть проводити пошукові запити як частину процесу мислення перед тим, як дати остаточну відповідь.",

— написав розробник Саймон Віллісон.

"Це найбільший 'вау'-момент, який я мав з новою моделлю OpenAI з часів GPT-4",

— повідомив Дан Шиппер з Every.

Економіст і блогер Тайлер Коен заявив, що модель o3 знаменує початок ери AGI:

"Я думаю, що це справжній AGI, серйозно... Бенчмарки, бенчмарки, все це... я розумію, що це, коли бачу".

Але є й "але": Багато рецензентів знайшли причини для критики o3, зокрема математичні помилки та обмани.

Дослідження продуктивності моделей в аналізі фінансів показало, що o3 займає перше місце, але точність її результатів становить лише 48,3%, а вартість запиту — $3,69, що є найвищим показником. (Деталі у Washington Post).

Між рядками: Важливою є примітка OpenAI, що, незважаючи на вражаючі можливості o3, модель все ж має певні регресії, зокрема схильність до "галюцинацій" — вигадування неправильних відповідей.

У одному з широко використовуваних тестів на точність OpenAI виявило, що o3 "галюцінує" більш ніж удвічі частіше, ніж її попередник o1.

o3 також дає більше відповідей — і більшість з них є правильними — порівняно з o1. OpenAI зазначає, що "потрібні подальші дослідження", щоб зрозуміти, чому помилковий показник o3 збільшився.

Аналітик ШІ Ітан Моллік описує вражаючі, але розрізнені результати o3 як приклад "рваного фронтиру": "У деяких завданнях ШІ ненадійний. В інших він суперлюдський".

Моллік стверджує, що "останні моделі є чимось якісно новим у порівнянні з тим, що було раніше, незалежно від того, чи назвемо ми це AGI. Їхні агентні властивості, разом з їхніми рваними можливостями, створюють по-справжньому нову ситуацію, без чітких аналогій".

Розробники програмного забезпечення та програмісти багато років намагаються зробити свою роботу більш надійною, масштабованою та гнучкою, і їм це вдалося.

Створення ШІ — новіша, дивніша і досі недостатньо зрозуміла область, щоб її можна було зробити передбачуваною наукою.

Процес проектування, побудови та навчання ШІ моделей залишається уперто стійким до спроб розробників накласти на нього наукову строгість або відтворити свої результати.

Очевидно, що цей процес більше схожий на виховання дитини, ніж на будівництво мосту. Це додає до відчуття таємничості та можливостей, що оточують розробку ШІ, але також ускладнює зусилля щодо "приручення" цієї технології або використання її для економічних вигод.

Авторка: Дар’я Бровченко

Джерело