Український клуб штучного інтелекту: Дослідники OpenAI визнали, що навіть найкращі ШІ «не здатні розв’язати більшість» завдань із програмування

середа, 26 лютого 2025 р.

Дослідники OpenAI визнали, що навіть найкращі ШІ «не здатні розв’язати більшість» завдань із програмування

Дослідники OpenAI визнали, що навіть найкращі моделі штучного інтелекту поки що не можуть зрівнятися з людськими програмістами. У новому науковому дослідженні команда OpenAI виявила, що навіть найсучасніші й передові моделі «все ще не здатні розв’язати більшість» завдань із програмування.

Для оцінки можливостей ШІ дослідники створили спеціальний тест під назвою SWE-Lancer. Він базується на більш ніж 1 400 завданнях із програмування, взятих із фріланс-платформи Upwork. У межах тестування OpenAI перевірила три великі мовні моделі (LLM): власний алгоритм o1 reasoning, флагманський GPT-4o, а також модель Claude 3.5 Sonnet від компанії Anthropic.

Дослідження охопило два типи завдань із Upwork:

Окремі завдання, які вимагали виправлення багів і впровадження правок.
Керівницькі завдання, де моделі мали ухвалювати стратегічні рішення на вищому рівні.

При цьому ШІ не мав доступу до інтернету, що унеможливило пошук готових рішень.

Хоча загальна вартість виконаних завдань сягала сотень тисяч доларів, моделі змогли виправити лише незначні помилки в коді. Водночас вони не змогли самостійно виявити баги у великих проєктах або зрозуміти їхні глибинні причини. Такі «поверхневі» рішення знайомі всім, хто працював із ШІ: моделі генерують переконливі відповіді, але на практиці вони часто виявляються хибними.

Попри те, що ШІ працював значно швидше за людину, як зазначають дослідники, він не розумів масштабу помилок і контексту завдань. Це призводило до того, що його рішення були або неправильними, або недостатньо комплексними.

Серед трьох протестованих моделей найкраще впорався Claude 3.5 Sonnet. Втім, більшість його відповідей також були помилковими. На думку дослідників, для реального використання в програмуванні ШІ-моделям потрібна набагато вища надійність.

Простіше кажучи, дослідження підтверджує, що передові мовні моделі можуть швидко виконувати окремі завдання, але їхня майстерність все ще далека від рівня людських інженерів.

Хоча штучний інтелект розвивається стрімко і, ймовірно, продовжить удосконалюватися, він поки що не здатен замінити реальних програмістів. Однак це не заважає деяким керівникам компаній звільняти своїх співробітників заради недосконалих ШІ-моделей.

Авторка: Дар’я Бровченко

Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.

середа, 26 лютого 2025 р.

Дослідники OpenAI визнали, що навіть найкращі ШІ «не здатні розв’язати більшість» завдань із програмування

Немає коментарів:

Дописати коментар

середа, 26 лютого 2025 р.