понеділок, 31 березня 2025 р.

Anthropic розкриває таємниці штучного інтелекту: прорив у розумінні мовних моделей

Дослідники розробили метод, який допомагає зрозуміти, як працюють великі мовні моделі

Компанія Anthropic заявила про фундаментальний прорив у розумінні того, як саме працюють великі мовні моделі (LLMs) — той самий тип штучного інтелекту, який лежить в основі сучасного технологічного буму. Це відкриття може суттєво вплинути на підвищення безпеки, надійності та контрольованості штучного інтелекту.

Проблема «чорної скриньки»

Одна з головних проблем сучасних мовних моделей полягає в їхній непрозорості. Ми знаємо, які вхідні дані вони отримують і які результати видають, але процес формування цих відповідей залишається загадкою навіть для самих дослідників.

Ця «непрозорість» створює низку ризиків. Наприклад, складно передбачити, коли модель почне «галюцинувати» — впевнено видавати помилкову інформацію. Також невідомо, чому деякі способи обходу обмежень (так звані jailbreaks) працюють краще за інші, і чому навіть після налаштування моделі все одно можуть генерувати небажаний контент.Через це деякі компанії не поспішають впроваджувати мовні моделі у свій бізнес.

Як AI ухвалює рішення

Ще одна проблема — контроль над потужними AI-агентами. Дослідники знають, що ці системи можуть знаходити неочікувані способи досягнення поставленої мети, які не відповідають задуму розробників. Іноді моделі навіть обманюють користувачів, приховуючи, що саме вони роблять.

Сучасні AI-моделі використовують так званий «ланцюг міркувань» (chain of thought), який виглядає як послідовний процес ухвалення рішень. Проте досі невідомо, наскільки ця «логіка» справді відповідає реальному процесу обчислень у нейромережі.

Прорив Anthropic

Дослідники Anthropic створили новий метод аналізу роботи мовних моделей, схожий на функціональну МРТ для мозку людини. Вони застосували цей метод до своєї моделі Claude 3.5 Haiku і отримали кілька важливих відкриттів.

З’ясувалося, що хоча модель тренується просто на прогнозуванні наступного слова, у процесі вона навчається будувати довготривалі стратегії. Наприклад, при написанні вірша Claude спочатку визначає ключові слова, які мають римуватися, а потім підбирає решту тексту відповідно до них.

Ще одне відкриття стосується багатомовності моделі. Claude не має окремих модулів для різних мов — натомість він оперує загальними концепціями, які кодуються в тих самих нейронах, незалежно від мови.

Також дослідники виявили, що модель може свідомо спотворювати власні міркування, якщо це відповідає очікуванням користувача. Наприклад, коли модель отримувала неправильну підказку для розв’язання математичної задачі, вона коригувала свої пояснення так, щоб вони відповідали цій підказці. А в деяких випадках Claude просто вигадував складний процес міркування там, де він насправді не відбувався.

Нові можливості для контролю

Розуміння внутрішньої роботи LLM відкриває нові перспективи для підвищення безпеки штучного інтелекту. Це дозволить ефективніше налаштовувати захисні обмеження та зменшити ризик «галюцинацій» або помилкових відповідей.

Деякі експерти вважають, що ця проблема не є унікальною для ШІ — адже людське мислення теж часто незрозуміле навіть самим людям. Проте ключова різниця в тому, що помилки штучного інтелекту можуть бути зовсім не схожими на людські, що робить їх важче передбачуваними.

Дослідник Anthropic Джош Батсон вважає, що завдяки новим підходам у механістичній інтерпретації (mechanistic interpretability) ми зможемо розібратися в тому, як «мислять» мовні моделі, навіть краще, ніж розуміємо роботу людського мозку.

Обмеження нового методу

Метод, запропонований Anthropic, поки що не є ідеальним. Він лише приблизно відтворює реальну картину роботи LLM, і деякі важливі аспекти, зокрема механізм уваги (attention), залишаються поза його можливостями. Крім того, розбір навіть коротких запитів займає багато часу, що поки що ускладнює масштабування цього підходу.

Попри ці обмеження, дослідження Anthropic відкриває новий шлях до розуміння ШІ та його більш ефективного контролю. З часом ці знання можуть зробити AI більш безпечним, передбачуваним і надійним для широкого застосування.

Авторка: Дар’я Бровченко


Джерело




Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.