Український клуб штучного інтелекту: Штучний інтелект може скласти "Останній іспит людства" вже за 9 місяців

четвер, 20 березня 2025 р.

Штучний інтелект може скласти "Останній іспит людства" вже за 9 місяців

Штучний інтелект (ШІ) може досягти суттєвого прориву у своїх знаннях вже до кінця 2025 року. Вчені прогнозують, що сучасні мовні моделі (LLM) значно покращать свої результати в тесті "Останній іспит людства" (HLE), який вважається найскладнішим академічним випробуванням для штучного інтелекту.

Що таке "Останній іспит людства"?

HLE був створений для перевірки меж можливостей великих мовних моделей (LLM), таких як ChatGPT, Gemini та DeepSeek. Це випробування включає найскладніші питання, розроблені експертами в різних галузях, щоб змусити ШІ довести, що він справді "знає все". Наразі жодна модель не змогла скласти тест навіть на базовий рівень: їхня точність варіюється від 3% до 14%.

Проте, через стрімку еволюцію ШІ, очікується, що вже до кінця 2025 року мовні моделі досягнуть щонайменше 50% правильних відповідей.

Як тестують ШІ?

Експеримент проводиться за участю експертів Центру безпеки ШІ (Center for AI Safety) та компанії Scale AI, яка працює з великими технологічними гігантами. Результати дослідження були опубліковані на платформі arXiv, проте ще не пройшли рецензування.

HLE включає питання з різних дисциплін:

41% – математика
11% – біологія та медицина
10% – інформатика
9% – фізика
9% – гуманітарні та соціальні науки
6% – хімія
5% – інженерія
9% – інші теми

Питання мають чіткі правильні відповіді, які не можна швидко знайти в інтернеті. Наприклад, одне із завдань просить розшифрувати давньоримський напис, а інше – визначити кількість парних сухожиль, що підтримуються певною кісткою.

Наступний етап еволюції ШІ

Однією з головних проблем для ШІ є випадкові здогадки. Моделі можуть вгадати правильну відповідь у тестах з одним варіантом відповіді або у запитаннях з вибором варіантів. Наступним кроком стане навчання штучного інтелекту усвідомлювати власну невпевненість. Нові моделі не лише відповідатимуть на запитання, а й вказуватимуть рівень впевненості у відповідях від 0% до 100%.

"Хоча нинішні мовні моделі показують низьку точність у HLE, історія розвитку ШІ демонструє, що технології можуть досягати значного прогресу за короткий час – від майже нульової точності до майже досконалих результатів", – зазначають дослідники.

Очевидно, що мовні моделі швидко вдосконалюються. Проте, навіть якщо ШІ навчиться розпізнавати свої помилки, він навряд чи колись відчує провину за них – адже до справжньої самосвідомості йому ще далеко.

Авторка: Дар’я Бровченко

Джерело

Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.

четвер, 20 березня 2025 р.