Фундація Arc Prize, некомерційна організація, співзаснована відомим дослідником в галузі ШІ Франсуа Шоле, оголосила в блозі в понеділок про створення нового складного тесту для вимірювання загального інтелекту провідних моделей ШІ. Наразі новий тест, що отримав назву ARC-AGI-2, став на заваді більшості моделей.
ШІ-моделі, що спеціалізуються на «міркуванні», як-от o1-pro від OpenAI та R1 від DeepSeek, набрали лише від 1% до 1,3% на тесті ARC-AGI-2, згідно з Arc Prize. Потужніші моделі, що не займаються міркуванням, такі як GPT-4.5, Claude 3.7 Sonnet і Gemini 2.0 Flash, отримали приблизно 1%.
Тести ARC-AGI складаються з задач, схожих на головоломки, де ШІ має виявити візуальні патерни з набору різнокольорових квадратів і сформувати правильну «відповідну» сітку. Завдання створено так, щоб змусити ШІ адаптуватися до нових проблем, з якими він раніше не стикався.
Для встановлення людської бази Фундація Arc Prize залучила понад 400 осіб для проходження тесту ARC-AGI-2. В середньому «панелі» цих учасників дали правильні відповіді на 60% запитань тесту — набагато кращий результат, ніж у жодної з моделей.
Приклад запитання з ARC-AGI-2.
У пості на платформі X Шоле стверджує, що ARC-AGI-2 є кращим показником фактичного інтелекту моделі ШІ, ніж перша версія тесту, ARC-AGI-1. Тести Arc Prize спрямовані на оцінку здатності ШІ ефективно набувати нові навички поза межами даних, на яких він був навчений.
Шоле зазначив, що на відміну від ARC-AGI-1, новий тест не дозволяє моделям ШІ покладатися на «грубую силу» — великі обчислювальні потужності — для знаходження рішень. Раніше Шоле визнав це суттєвим недоліком ARC-AGI-1. Щоб усунути ці недоліки, ARC-AGI-2 вводить новий показник: ефективність. Тест також вимагає, щоб моделі інтерпретували патерни на льоту, а не покладалися на запам'ятовування.
«Інтелект не визначається лише здатністю розв'язувати задачі чи досягати високих результатів», — написав співзасновник Arc Prize Грег Камрадт у блозі.
«Ефективність, з якою ці можливості набуваються та використовуються, є важливою складовою. Основне питання, яке ставиться, це не тільки 'Чи може ШІ набути навички для вирішення завдання?', але й 'З якою ефективністю або ціною?'»
ARC-AGI-1 був непереможним протягом приблизно п’яти років, поки в грудні 2024 року OpenAI не випустила свою передову модель для міркування — o3, яка перевершила всі інші моделі ШІ та досягла людського рівня на оцінці. Однак, як ми зазначали раніше, досягнення o3 на ARC-AGI-1 супроводжувалися великими витратами.
Версія моделі OpenAI o3, що першою досягла нових висот на ARC-AGI-1 (отримавши 75,7% на тесті), набрала лише 4% на ARC-AGI-2 при витраті $200 на обчислювальні потужності на кожне завдання.
Порівняння результатів моделей ШІ на ARC-AGI-1 та ARC-AGI-2.
Поява ARC-AGI-2 відбувається на тлі закликів у технологічній індустрії до створення нових, незаповнених бенчмарків для вимірювання прогресу в ШІ. Співзасновник Hugging Face Томас Вольф нещодавно заявив TechCrunch, що індустрія ШІ потребує більше тестів для оцінки ключових ознак штучного загального інтелекту, зокрема креативності.
Разом з новим бенчмарком Фундація Arc Prize оголосила про новий конкурс Arc Prize 2025, в якому розробникам пропонується досягти 85% точності на тесті ARC-AGI-2, витрачаючи лише $0,42 на кожне завдання.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.