пʼятниця, 17 січня 2025 р.

OpenAI O3 досягає значного прогресу в ARC-AGI, спричиняючи дебати щодо розумових можливостей ШІ


Остання модель OpenAI o3 досягла прориву, який здивував спільноту дослідників ШІ. o3 набрала безпрецедентні 75,7% у складному тесті ARC-AGI в стандартних обчислювальних умовах і досягла 87,5% у високопродуктивний версії. Хоча досягнення в ARC-AGI вражає, воно ще не доводить, що код штучного загального інтелекту (AGI) зламано.


Abstract Reasoning Corpus(ARC) 

ARC-AGI базується на тесті, який перевіряє здатність штучного інтелекту адаптуватися до нових завдань і показувати високий рівень інтелекту. Тест складається з візуальних головоломок, що вимагають розуміння базових концепцій, таких як об'єкти, межі та розуміння простору. Люди зазвичай можуть швидко розв'язувати такі головоломки з мінімальною кількістю прикладів, а ось штучний інтелект має з цим проблеми. Це робить ARC одним із найскладніших тестів для ШІ.

(Приклад головоломки ARC)

Головною особливістю ARC є те, що його неможливо вирішити, просто навчаючи модель на мільйонах прикладів, щоб охопити всі можливі варіанти головоломок.  Тест складається з набору зі 400 простих головоломок, доступного для всіх учасників, щоб вони могли тренувати свої моделі. Крім того, є складніший набір головоломок для перевірки. В змаганні ARC-AGI також є приватні набори з 100 головоломок, які не публікуються, щоб уникнути витоку інформації. Учасникам обмежують кількість обчислень, щоб запобігти вирішенню головоломок за допомогою простих методів.

Прорив у вирішенні нових завдань

Моделі o1-preview та o1 показали лише 32% результатів на тесті ARC-AGI. Натомість метод, розроблений дослідником Джеремі Берманом, поєднав Claude 3.5 Sonnet з генетичними алгоритмами та інтерпретатором коду і досягнув 53%, що є найкращим результатом до появи o3. Франсуа Шолле, творець ARC, у своєму блозі описав результати o3 як «вражаюче та важливе досягнення», яке демонструє нові можливості штучного інтелекту в адаптації до нових завдань, яких раніше не могли виконувати моделі GPT. Варто зазначити, що навіть збільшення обчислювальних ресурсів на попередніх моделях не дало б таких результатів. Наприклад, моделям знадобилося 4 роки, щоб підняти результат з 0% у GPT-3 у 2020 році до 5% у GPT-4o на початку 2024 року. Франсуа Шолле підкреслив, що прогрес o3 — це не просто покращення, а справжній прорив, що дозволяє моделі адаптуватися до нових завдань і наближатися до людського рівня у розв'язанні задач ARC-AGI. Проте висока продуктивність o3 має свою ціну. На менш потужній конфігурації модель витрачає від 17 до 20 доларів і 33 мільйони токенів для вирішення кожної головоломки. На потужнішій конфігурації витрати зростають в 172 рази — обчислення займають набагато більше ресурсів, а кількість токенів на одну задачу вимірюється мільярдами. Однак, з часом витрати на обчислення зменшуються, і ці цифри можуть стати більш обґрунтованими.

 Нова концепція для LLM

Ключем до вирішення нових завдань є те, що Шолле та інші дослідники називають «програмним синтезом». Це означає, що система повинна мати здатність створювати невеликі програми для розв'язання конкретних проблем, а потім поєднувати їх для розв'язання складних завдань. Класичні мовні моделі містять багато знань та внутрішніх програм, але їм бракує здатності комбінувати ці програми, що ускладнює вирішення головоломок, які виходять за межі їхнього навчального досвіду.            Інформації про те, як працює o3, небагато, і вчені мають різні думки з цього приводу. Шолле вважає, що o3 використовує метод програмного синтезу, поєднуючи ланцюгове міркування (CoT) з механізмом пошуку та моделлю винагороди для вдосконалення рішень під час генерації токенів. Це нагадує те, що досліджували відкриті моделі міркувань. З іншого боку, Натан Ламберт з Інституту Аллена вважає, що o1 і o3 — це етапи однієї мовної моделі. Дослідник OpenAI Нат МакАліз зазначив, що o1 — це просто мовна модель, навчена за допомогою посиленого навчання (RL), а o3 — це її наступний етап. Денні Чжоу з DeepMind вважає, що поєднання пошукових методів і підкріплювального навчання — не найкращий підхід. Він вірить, що справжня сила мовних моделей полягає в здатності самостійно генерувати процес мислення без використання додаткових пошукових методів. Хоча подробиці роботи o3 можуть здатися не такими важливими, вони можуть вказувати на наступний етап у розвитку мовних моделей. Наразі вчені обговорюють, чи не досягли LLM межі свого розвитку через обмеження в даних і обчисленнях. Це питання може визначити подальший шлях розвитку цієї технології.

 Не AGI

Назва ARC-AGI може вводити в оману, бо її можна сприймати як досягнення штучного загального інтелекту (AGI). Однак Шолле пояснює, що ARC-AGI не є тестом для AGI. Він наголошує, що навіть модель o3 ще не є AGI, бо вона не може виконувати деякі прості завдання, що показує, що вона сильно відрізняється від людського інтелекту. Шолле також зазначає, що o3 не може самостійно навчатися новим навичкам і потребує зовнішніх перевірок під час прийняття рішень, а також міркувань, позначених людиною, під час навчання. 

Інші вчені, зокрема Мелані Мітчелл, говорять, що модель OpenAI була адаптована для досягнення високих результатів на наборі завдань ARC. Вона пропонує перевірити, чи здатна модель вирішувати нові завдання з іншими концепціями. Шолле та його команда зараз працюють над новим тестом, який може знизити результат o3 до менш як 30%, навіть з великими обчислювальними витратами. Тим часом люди зможуть вирішити 95% таких завдань без навчання. Шолле додає, що справжній прогрес у ШІ буде помітний, коли завдання, які легкі для людини, стануть складними для ШІ.

Автор:Дар'я Бровченко


Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.