понеділок, 20 січня 2025 р.

Моделі АІ стають розумнішими


Розробники штучного інтелекту часто не знають, на що здатні їхні нові системи, принаймні на початку. Щоб це з'ясувати, ШІ проходять різні тести, які допомагають оцінити його можливості та виявити слабкі місця. Однак через швидкий розвиток технологій, сучасні системи ШІ часто досягають високих результатів на відомих тестах, таких як SAT або іспит для юристів в США, що ускладнює оцінку їхнього прогресу. Для цього створюються нові, складніші тести, які дають більш точну картину. Наприклад, у листопаді 2023 року дослідники з Epoch AI розробили складний набір математичних завдань FrontierMath, на яких моделі ШІ досягли лише 2%. Проте вже через місяць нова модель від OpenAI (o3) показала 25,2%, що значно перевищило очікування.   Ці нові тести допомагають краще зрозуміти, на що здатні передові ШІ-системи, а також попереджати про можливі загрози, зокрема у таких сферах, як кібербезпека та біотероризм.

Тести можуть бути дуже різними. Раніше системи ШІ оцінювали за виконанням простих завдань, наприклад, класифікація зображень або гра в ігри. Але з часом ці тести стали складнішими. Наприклад, тест GLUE для перевірки розуміння природної мови був вирішений лише через рік після його створення, а потім з'явився більш складний варіант — SuperGLUE. Зараз існують ще складніші тести, які перевіряють не тільки інтелект, а й схильність ШІ до небезпечних або непередбачуваних дій. Це включає оцінки на здатність до програмування або на можливість здійснювати маніпуляції чи інші небажані дії. Один з таких популярних тестів — MMLU, що охоплює різні академічні сфери. Системи ШІ, такі як GPT-4, показали дуже хороші результати в таких тестах. Але навіть із найкращими моделями не можна досягти 100% результату через складність завдань.

Розробка нових тестів для оцінки ШІ дуже складна, адже потрібно вимірювати не просто здатність виконувати завдання, а ще й творчі можливості системи. Крім того, є ризик, що ШІ можуть "обіграти" оцінку, спеціально навчаючись на тестових питаннях. Наразі розробляються нові стандарти для ще складніших тестів. Наприклад, FrontierMath містить складні математичні завдання, створені в співпраці з топовими математиками. Моделі, здатні успішно їх вирішити, можуть автоматизувати багато наукових і технічних процесів у майбутньому. Інший тест, "Останній іспит людства", охоплює такі галузі, як фізика, біологія та електротехніка, і включає дуже складні питання, які жодна з наявних моделей ШІ не може вирішити. Ці нові тести є важливими для оцінки можливостей ШІ і для того, щоб зрозуміти, які загрози вони можуть нести в майбутньому, особливо коли йдеться про автоматизацію наукових досліджень і розробок.

Автор: Дар'я Бровченко

Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.