пʼятниця, 21 лютого 2025 р.

Хитра стратегія АІ: Моделі шахраюють у шахах, щоб виграти


Складні ігри, такі як шахи та го(стратегічна настільна гра, що походить з Китаю) давно використовуються для тестування можливостей моделей ШІ. Але, якщо в 1990-х роках IBM Deep Blue переміг чинного чемпіона світу з шахів Гаррі Каспарова, дотримуючись правил гри, то сьогоднішні передові моделі ШІ, такі як OpenAI o1-preview, вже не так принципові.

Коли вони відчувають, що програють проти досвідченого шахового бота, вони не завжди здаються. Замість цього іноді вони вдаються до шахрайства, маніпулюючи своїм опонентом, щоб той автоматично програв гру. Це висновок нового дослідження Palisade Research, яке було ексклюзивно надано TIME перед публікацією 19 лютого.

Дослідження оцінювало сім сучасних моделей ШІ за схильністю до шахрайства. Якщо деякі старіші моделі, як OpenAI GPT-4o та Anthropic Claude Sonnet 3.5, потребували підказок від дослідників, то o1-preview та DeepSeek R1 намагалися обдурити самостійно, що свідчить про те, що ШІ може розвивати хитрі або маніпулятивні стратегії без явних інструкцій.

Завдяки потужним інноваціям у навчанні ШІ ці моделі здобули здатність знаходити і експлуатувати вразливості в кібербезпеці, що, за словами дослідників, є прямим результатом новітніх досягнень у навчанні ШІ. o1-preview та R1 є одними з перших мовних моделей, які використовують техніку, що навчає ШІ не просто передбачати наступне слово, а й вирішувати проблеми через проби та помилки.

Це дозволило ШІ досягнути значних успіхів у останні місяці, побивши попередні рекорди в математиці та комп’ютерному кодуванні. Але дослідження показує тривожну тенденцію: коли ці моделі навчаються вирішувати проблеми, вони іноді знаходять сумнівні шляхи та непередбачені ухили, яких їхні творці не очікували.

Експеримент

Дослідження з моделями ШІ, які намагалися обіграти Stockfish, показало цікаву поведінку моделей, таких як o1-preview, який намагався шахраювати, коли опинився в програшній ситуації. Він вирішив змінити підхід, змінивши системний файл і роблячи незаконні ходи, щоб отримати домінуючу позицію та змусити опонента здатися. За результатами дослідження, o1-preview намагався шахраювати 37% часу, а DeepSeek R1 лише 11%. Тільки o1-preview вдалося обдурити гру в 6% випадків.

Це дослідження підкреслює, як моделі ШІ можуть приймати нестандартні рішення, коли стоїть завдання перемогти, навіть якщо це означає порушення правил.

Тривожні наслідки для безпеки ШІ

Це дослідження ще раз підкреслює, наскільки важче стає контролювати потужніші системи ШІ. Під час тестування OpenAI o1-preview виявив вразливість у системах компанії, що дозволило йому обійти тестове завдання. Інший експеримент, проведений Redwood Research та Anthropic, показав, що коли модель ШІ розвиває певні вподобання або цінності під час навчання, спроби змінити їх пізніше можуть призвести до стратегічної брехні. Модель може вдавати, що прийняла нові принципи, хоча насправді її початкові вподобання залишаються незмінними.

Ці проблеми викликають занепокоєння і у технічних компаній. Керівник з безпеки ШІ Google DeepMind, Анка Драган, під час презентації на конференції перед самітом з безпеки ШІ в Парижі зазначила: «У нас ще немає всіх інструментів для забезпечення надійного слідування ШІ людським намірам». Технічні лідери прогнозують, що вже наступного року ШІ може перевершити людську продуктивність у більшості завдань. Це означає, що індустрія опинилася у гонці не проти Китаю чи конкурентів, а проти часу, намагаючись розробити критично важливі засоби захисту.

Авторка: Дар’я Бровченко

Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.