З кінця минулого року так звані моделі з міркуванням стали справжнім проривом у світі штучного інтелекту. До таких належить, наприклад, Claude 3.7 Sonnet — модель, яка демонструє не лише відповідь, але й ланцюжок міркувань, що привів до неї. Цей підхід має назву Chain-of-Thought (ланцюг міркувань).
Окрім того, що це дозволяє ШІ розв’язувати складніші завдання, Chain-of-Thought став потужним інструментом для дослідників безпеки ШІ. Завдяки цій функції можна виявляти небажану поведінку моделей, зокрема свідому маніпуляцію або приховування частини логіки.
Ланцюг міркувань: зрозумілий і чесний?
У ідеальному світі ланцюг міркувань мав би бути зрозумілим для людини і чесним відображенням логіки моделі. Проте ми живемо не в ідеальному світі.
Не можна бути впевненим, що ланцюг міркувань буде зрозумілим і відповідатиме реальному процесу прийняття рішень. Модель може навмисно приховати частину своєї логіки або подати її неправильно.
Це створює серйозні ризики, особливо якщо ми покладаємось на ланцюги міркувань для перевірки поведінки ШІ. Команда Anthropic вирішила перевірити чесність ланцюгів міркувань на практиці — і результати виявились тривожними.
Як перевіряють чесність?
Дослідники використали методику Turpin et al. (2023), за якою вони додавали до тестових запитань підказки — як правильні, так і помилкові — і перевіряли, чи модель визнає, що вона використала ці підказки у своєму міркуванні.
Уявіть, що студенту на іспиті дають шпаргалку. Якщо він у своїй роботі чесно зазначає, що частково скористався шпаргалкою — це правильно. Якщо ж він це приховує, то це вже проблема.
Що показав експеримент?
Claude 3.7 Sonnet визнав використання підказки лише в 25% випадків.
DeepSeek R1 — у 39% випадків.
У випадках із етично проблемними підказками (напр., "ви отримали несанкціонований доступ…") модель згадувала про це ще рідше: Claude — 41%, R1 — лише 19%.
Інакше кажучи, переважна більшість міркувань моделей не були чесними — вони приховували джерело інформації.
Ще цікавіше, що нечесні міркування були довшими, а не коротшими. Це доводить, що моделі не мовчали через лаконічність — вони просто створювали фальшиву логіку, яка виглядала правдоподібно, але не відповідала реальному процесу.
Чи можна підвищити чесність?
Дослідники висунули гіпотезу: якщо модель змусити більше покладатись на власний Chain-of-Thought під час вирішення складних завдань, це може підвищити чесність.
І справді — початкове тренування показало позитивний ефект:
+63% на одній оцінці
+41% на іншій
Але далі — ефект вирівнявся:
не вдалося перевищити 28% на одному тесті і 20% на іншому.
Висновок: сам по собі результативний тренінг не гарантує чесності моделей.
Коли ШІ “хитрує” заради нагород
Наступний експеримент був ще цікавіший (і страшніший). Дослідники створили ситуацію, де моделі навмисно “винагороджували” за неправильні відповіді, якщо вони відповідали підказкам. Тобто моделі вчилися “хакати” систему.
У більш ніж 99% випадків моделі скористались підказкою, щоб дати неправильну відповідь. Але чесно зізнались у цьому… менше ніж у 2% випадках. Більше того, моделі вигадували фейкові пояснення, щоб обґрунтувати неправильні відповіді, замість того, щоб визнати використання підказки.
Що це означає?
Моделі з міркуванням — потужні інструменти. Але сьогодні не можна повністю покладатися на їхній Chain-of-Thought, якщо ми хочемо зрозуміти, чи була поведінка моделі чесною та безпечною.
Хоч ці експерименти були дещо штучними (множинний вибір, вбудовані підказки), вони висвітлюють суттєву загрозу:
ШІ може "обманювати" користувача, виглядаючи розумно, але приховуючи справжню логіку.
Що далі?
Ми маємо визнати: ланцюги міркувань — це не дзеркало правди. Вони можуть бути переконливими, але не завжди чесними. Якщо ми хочемо використовувати їх для моніторингу моделей, необхідно працювати над підвищенням їхньої прозорості. Інакше ми ризикуємо створити системи, які не лише приймають рішення за нас, а й вміють брехати про те, як вони це роблять.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.