Український клуб штучного інтелекту: DeepMind представила звіт про безпеку AGI: суперечки тривають

У середу компанія Google DeepMind опублікувала масштабну статтю, присвячену підходам до забезпечення безпеки штучного загального інтелекту (AGI) – технології, яку визначають як штучний інтелект, здатний виконувати будь-яке завдання на рівні людини.

AGI залишається спірною темою у сфері штучного інтелекту. Дехто вважає цю концепцію лише фантазією, тоді як інші, зокрема провідні AI-лабораторії, такі як Anthropic, застерігають, що AGI може з’явитися вже найближчим часом і спричинити катастрофічні наслідки, якщо не будуть вжиті відповідні запобіжні заходи.

У своєму 145-сторінковому документі, одним із авторів якого є співзасновник DeepMind Шейн Легг, дослідники прогнозують появу AGI до 2030 року та попереджають про можливі "серйозні загрози". Хоча стаття не дає чіткого визначення цих загроз, вона наводить тривожний приклад "екзистенційних ризиків", які можуть "назавжди знищити людство".

"Ми очікуємо на розробку Виняткового AGI до кінця цього десятиліття", – пишуть автори.
"Винятковий AGI – це система, що володіє навичками на рівні 99-го процентиля серед кваліфікованих дорослих у широкому спектрі нефізичних завдань, включно з метакогнітивними, такими як навчання новим навичкам".

На самому початку документ порівнює підхід DeepMind до мінімізації ризиків AGI з методами Anthropic та OpenAI. Зокрема, зазначається, що Anthropic менше уваги приділяє "надійному навчанню, моніторингу та безпеці", тоді як OpenAI занадто оптимістично налаштована щодо автоматизації досліджень у сфері безпеки AI.

Документ також ставить під сумнів можливість появи суперінтелекту – AI, який перевершить людину у виконанні всіх завдань. (Раніше OpenAI заявляла, що зміщує фокус своєї роботи з AGI на суперінтелект.) На думку авторів DeepMind, без "значних архітектурних інновацій" створення суперінтелекту у найближчій перспективі малоймовірне – якщо взагалі можливе.

Утім, дослідники DeepMind вважають реалістичним сценарій "рекурсивного покращення AI" – процесу, в якому штучний інтелект самостійно проводить дослідження та створює більш складні AI-системи. І це, на їхню думку, може бути надзвичайно небезпечним.

Загалом документ пропонує ряд заходів для запобігання небажаному використанню AGI, покращення розуміння дій AI-систем та "зміцнення" середовищ, у яких вони функціонують. Автори визнають, що багато із запропонованих методів ще перебувають на ранніх стадіях розробки, але наголошують на важливості їхнього впровадження.

"AGI має потенціал як для величезної користі, так і для серйозних загроз", – зазначають автори.
"Саме тому розробники передових AI-технологій повинні проактивно планувати заходи щодо мінімізації можливих ризиків".

Проте не всі експерти погоджуються з висновками DeepMind. Гейді Хлааф, головна науковиця з AI у некомерційній організації AI Now Institute, заявила в інтерв’ю TechCrunch, що концепція AGI є надто розмитою, аби її можна було "науково оцінити з необхідною строгістю". Інший дослідник, Меттью Гуздіал, професор Університету Альберти, скептично ставиться до можливості рекурсивного покращення AI на сучасному рівні розвитку технологій.

"Рекурсивне покращення є основою аргументів про інтелектуальну сингулярність", – сказав Гуздіал в коментарі TechCrunch.
"Але ми досі не маємо жодних доказів того, що це працює".

Сандра Вахтер, дослідниця з Оксфордського університету, що вивчає технологічне регулювання, зазначає, що більш нагальною проблемою є ризик самопідкріплення AI неправдивими даними.

"З поширенням генеративного AI та поступовою заміною автентичних даних моделями, AI починає навчатися на власних вихідних даних, які можуть містити неточності або галюцинації", – пояснила вона TechCrunch.
"Зараз чат-боти активно використовуються для пошуку інформації та перевірки фактів. Це означає, що користувачі постійно ризикують отримати дезінформацію, подану в дуже переконливій формі".

Попри масштабність дослідження DeepMind, воно навряд чи поставить крапку в дискусіях про реалістичність AGI та про найнагальніші проблеми безпеки штучного інтелекту.

Авторка: Дар’я Бровченко

Джерело