вівторок, 22 квітня 2025 р.

ШІ не може перемогти в "Doom": чому навіть найсучасніші моделі не проходять класичний тест

Попри бурхливу увагу до штучного інтелекту, навіть найрозвинутіші моделі з обробки зображень і тексту — GPT-4o, Claude Sonnet 3.7 та Gemini 2.5 Pro — все ще мають труднощі з виконанням навіть класичних завдань, таких як гра в культовий шутер від першої особи "Doom".

Цього четверга було презентовано новий дослідницький проєкт, який представив VideoGameBench — стандарт тестування ШІ, що має на меті перевірити, чи можуть сучасні моделі з обробки зображень і тексту (VLM) грати в ігри та перемагати в 20 популярних відеоіграх, використовуючи тільки те, що вони бачать на екрані.

“За нашим досвідом, сучасні передові VLM мають значні труднощі в іграх через високу затримку інтерпретації”, — зазначили дослідники.

“Коли агент робить скріншот і запитує VLM, яку дію виконати, до того часу, як відповідь надходить, стан гри вже значно змінився, і дія стає неактуальною”.

Вони зазначили, що для тестування моделей вибрали класичні ігри для Game Boy та MS-DOS через їхні простіші графіки та різноманітні типи введення, такі як миша, клавіатура або ігровий контролер. Це дозволяє краще перевірити просторове мислення VLM, порівняно з текстовими іграми.

VideoGameBench був розроблений комп'ютерним вченим та дослідником штучного інтелекту Алексом Чжаном. Набір ігор такі як Warcraft II, Age of Empires та Prince of Persia.

Дослідники відзначили, що найбільше труднощів штучний інтелект має в іграх від першої особи, таких як "Doom". В умовах швидких змін у грі ворог, що з'являється на екрані, може вже встигнути переміститися або навіть досягти гравця до того, як модель встигне діяти. Для розробників ігор "Doom" вже давно є тестом технологічних можливостей у відеоігровому середовищі.

Ми всі стикалися з ситуацією, коли намагаємося потрапити на сайт, але зустрічаємося з жахливим CAPTCHA. Але що, якщо замість того, щоб вгадувати приховані літери, каченят або сходи, нам потрібно було б знищувати демонів з пекла? Це ідея нового проєкту Doom CAPTCHA, який використовує класичний шутер від першої особи, щоб довести, що користувач не є ботом. Doom CAPTCHA є результатом роботи інженера-програміста та CEO Vercel Гільєрмо Раука, який поділився відео з проєктом у соціальній мережі X (колишній Twitter).

“Виведення "Doom" з тіней 90-х у сучасне світло обумовлене не тільки її захоплюючим ігровим процесом, а й привабливим обчислювальним дизайном”, 

 — зазначала дослідниця з біотехнологій MIT Лорен Рамлан у своєму інтерв'ю для Decrypt.

“Побудована на движку id Tech 1, гра була розроблена так, щоб її можна було запускати навіть на найпростіших системах”.

Крім того, що моделі мають проблеми з розумінням ігрового середовища, вони часто не можуть виконувати базові дії в самій грі.

“Ми часто спостерігали випадки, коли агент не міг зрозуміти, як його дії, наприклад, рух вправо, будуть відображатися на екрані”,

— зазначили дослідники.

“Найбільш поширеним невдачею серед усіх передових моделей, які ми тестували, була нездатність точно керувати мишею в таких іграх, як Civilization та Warcraft II, де точні й часті рухи миші є критично важливими”.

Щоб краще зрозуміти обмеження сучасних систем ШІ, VideoGameBench підкреслює важливість оцінки їхніх можливостей на таких динамічних і складних середовищах, як відеоігри.

“На відміну від складних завдань, таких як нерозв'язані математичні доведення або задачі олімпіадного рівня, гра в відеоігри — це не завдання, яке потребує надлюдського мислення, але моделі все одно мають труднощі з його виконанням”,
— зазначили дослідники.

Авторка: Дар’я Бровченко


Джерело


Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.