Тести можуть бути дуже різними. Раніше системи ШІ оцінювали за виконанням простих завдань, наприклад, класифікація зображень або гра в ігри. Але з часом ці тести стали складнішими. Наприклад, тест GLUE для перевірки розуміння природної мови був вирішений лише через рік після його створення, а потім з'явився більш складний варіант — SuperGLUE. Зараз існують ще складніші тести, які перевіряють не тільки інтелект, а й схильність ШІ до небезпечних або непередбачуваних дій. Це включає оцінки на здатність до програмування або на можливість здійснювати маніпуляції чи інші небажані дії. Один з таких популярних тестів — MMLU, що охоплює різні академічні сфери. Системи ШІ, такі як GPT-4, показали дуже хороші результати в таких тестах. Але навіть із найкращими моделями не можна досягти 100% результату через складність завдань.
Розробка нових тестів для оцінки ШІ дуже складна, адже потрібно вимірювати не просто здатність виконувати завдання, а ще й творчі можливості системи. Крім того, є ризик, що ШІ можуть "обіграти" оцінку, спеціально навчаючись на тестових питаннях. Наразі розробляються нові стандарти для ще складніших тестів. Наприклад, FrontierMath містить складні математичні завдання, створені в співпраці з топовими математиками. Моделі, здатні успішно їх вирішити, можуть автоматизувати багато наукових і технічних процесів у майбутньому. Інший тест, "Останній іспит людства", охоплює такі галузі, як фізика, біологія та електротехніка, і включає дуже складні питання, які жодна з наявних моделей ШІ не може вирішити. Ці нові тести є важливими для оцінки можливостей ШІ і для того, щоб зрозуміти, які загрози вони можуть нести в майбутньому, особливо коли йдеться про автоматизацію наукових досліджень і розробок.
Автор: Дар'я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.