Люди роблять помилки щодня — як у нових, так і у рутинних завданнях. Помилки можуть бути незначними або катастрофічними. Вони здатні підірвати довіру друзів, втратити впевненість начальників і навіть впливати на життя чи смерть. Протягом століть ми розробляли системи безпеки для запобіганнь помилок, характерним для людей. Наприклад, у казино регулярно змінюють дилерів, щоб уникнути помилок від втоми. У лікарнях маркують кінцівки перед операцією, щоб уникнути хірургічних помилок, а також рахують інструменти, щоб жоден не залишився в тілі пацієнта. Від редагування текстів до бухгалтерського обліку і апеляційних судів — людство стало досить ефективним у виправленні помилок людей.
Проте сьогодні ми активно впроваджуємо в суспільство нового суб’єкта помилок — штучний інтелект (ШІ). Технології, такі як великі мовні моделі (LLM), здатні виконувати багато когнітивних завдань, але теж допускають помилки. І хоча іноді це виглядає кумедно, наприклад, коли чат-боти радять їсти каміння або додавати клей до піци, унікальність помилок ШІ полягає не у їх частоті чи серйозності, а у дивності. ШІ помиляється інакше, ніж люди. Ця різниця створює ризики, які потребують нових систем безпеки для адаптації до специфіки помилок ШІ.
Людські помилки проти помилок ШІ
Життєвий досвід дозволяє нам прогнозувати, коли й де людина може помилитися. Помилки людей зазвичай виникають у сферах, де їхні знання недостатні. Наприклад, більшість із нас припускаються помилок у вирішенні завдань з вищої математики. Ми очікуємо, що людські помилки будуть згруповані: одна помилка в математиці, швидше за все, супроводжуватиметься іншими. Також їх можна передбачити залежно від втоми чи відволікання. І часто помилки супроводжуються визнанням незнання: людина, яка робить помилки в математиці, ймовірно, відповість "я не знаю" на схожі запитання.
Помилки ШІ, навпаки, здаються випадковими й не пов’язаними з конкретною темою. Модель може однаково легко помилитися як у вирішенні задачі з математики, так і в абсурдному твердженні, що "капуста їсть кіз". Крім того, ШІ впевнено подає неправдиву інформацію, не визнаючи своєї помилки. Це ускладнює довіру до ШІ у складних багатокрокових задачах. Наприклад, для вирішення бізнес-проблеми потрібно не лише розуміння факторів прибутковості продукту, а й гарантія, що модель не забуде, що таке гроші.
Як боротися з помилками ШІ
Розв'язання цієї проблеми можливе двома шляхами. Перший — створення моделей ШІ, які припускаються помилок, схожих на людські. Другий — розробка нових систем корекції, які враховують специфіку помилок ШІ. Для досягнення першої мети можна застосувати методи "вирівнювання" (alignment), такі як навчання з підкріпленням за участю людини (reinforcement learning with human feedback). Завдяки цій техніці ШІ "нагороджують" за відповіді, які отримують схвальні відгуки. Подібний підхід можна використати для мінімізації незрозумілих помилок. Щодо другої мети, частину методів, які допомагають уникати людських помилок, можна адаптувати для ШІ. Наприклад, змусити моделі перевіряти власні відповіді. Проте варто також використовувати специфічні стратегії для роботи з ШІ. Наприклад, повторно запитувати модель одне й те саме питання в різних формулюваннях і синтезувати отримані відповіді. Хоча це не підходить для людей, машини можуть працювати у такому режимі.
Схожість і відмінності
Дослідники продовжують аналізувати, у чому помилки ШІ відрізняються від людських. Наприклад, чутливість ШІ до формулювання запитань нагадує людську поведінку в опитуваннях, де різні формулювання змінюють відповіді. А "упередженість доступності", коли моделі віддають перевагу знайомим словам, можна порівняти з тим, як люди згадують те, що перше спадає на думку. З іншого боку, деякі прояви дивності ШІ зовсім не схожі на людські. Наприклад, "злом" моделей за допомогою ASCII-арту — техніка, яку жодна людина не сприйме всерйоз. Таким чином, ми повинні обмежити використання ШІ у сферах, які відповідають його можливостям, і завжди враховувати потенційні наслідки його помилок.
Автор: Дар'я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.