пʼятниця, 4 квітня 2025 р.

Дослідники стверджують, що OpenAI тренувала свої моделі на платних книгах O'Reilly

OpenAI неодноразово звинувачували у використанні захищеного авторським правом контенту без дозволу для тренування своїх AI-моделей. Тепер нова робота від організації, яка займається наглядом за штучним інтелектом, висуває серйозне звинувачення: компанія все частіше використовувала непублічні книги, на які не мала ліцензії, для тренування більш складних моделей штучного інтелекту.

Моделі штучного інтелекту — це по суті складні двигуни для прогнозування. Вони тренуються на великій кількості даних — книг, фільмів, телевізійних шоу тощо — і вивчають шаблони та нові способи екстраполяції на основі простого запиту. Коли модель «пише» есе на тему грецької трагедії або «малює» зображення в стилі Ghibli, вона просто використовує свої великі знання для апроксимації. Вона не створює нічого нового.

Хоча багато лабораторій ШІ, включаючи OpenAI, почали використовувати дані, створені штучним інтелектом, для навчання моделей, коли реальні джерела (переважно з інтернету) вичерпуються, лише деякі відмовляються від реальних даних повністю. Це, ймовірно, через те, що тренування на суто синтетичних даних має свої ризики, такі як погіршення роботи моделі.

Нова стаття, опублікована в межах проекту AI Disclosures Project, некомерційної організації, заснованої у 2024 році медіамагнатом Тімом О’Рейлі та економістом Іланом Штраусом, стверджує, що OpenAI ймовірно тренувала свою модель GPT-4o на платних книгах від O'Reilly Media. (О’Рейлі є генеральним директором O'Reilly Media.)

У ChatGPT GPT-4o є стандартною моделлю. Водночас, O'Reilly не має ліцензійної угоди з OpenAI, стверджується в статті.

"GPT-4o, новіша і потужніша модель OpenAI, демонструє сильне впізнавання платного контенту з книг O'Reilly… порівняно з більш старою моделлю GPT-3.5 Turbo", — зазначають автори дослідження.

"Натомість, GPT-3.5 Turbo більше розпізнає публічно доступні фрагменти книг O'Reilly."

У статті використано метод DE-COP, який вперше був представлений у 2024 році, для виявлення авторських прав на контент в даних для тренування мовних моделей. Цей метод також відомий як "атака на перевірку членства", і перевіряє, чи може модель точно відрізнити тексти, написані людьми, від перефразованих або згенерованих штучним інтелектом версій цих самих текстів. Якщо може, це свідчить про те, що модель має попереднє знання про ці тексти з даних для навчання.

Автори дослідження — О’Рейлі, Штраус та дослідник ШІ Срулі Розенблат — заявляють, що вони досліджували знання GPT-4o, GPT-3.5 Turbo та інших моделей OpenAI щодо книг O'Reilly Media, опублікованих до і після їхнього терміну тренування. Вони використали 13,962 фрагменти з 34 книг O'Reilly для оцінки ймовірності того, що певний фрагмент був включений у набір даних для тренування моделі.

За результатами дослідження, GPT-4o "визнає" значно більше платного контенту з книг O'Reilly, ніж старіші моделі OpenAI, зокрема GPT-3.5 Turbo. Це навіть після врахування потенційних факторів, що можуть спотворювати результати, таких як поліпшення здатності нових моделей визначати, чи є текст авторським.

"GPT-4o, ймовірно, має попереднє знання про багато непублічних книг O'Reilly, опублікованих до її терміну тренування", — зазначають автори.

Але вони також уточнюють, що це не є беззаперечним доказом. Автори визнають, що їхній експериментальний метод не є бездоганним, і OpenAI могла отримати фрагменти платних книг від користувачів, які копіювали і вставляли їх у ChatGPT.

Ще більш складним питанням є те, що автори не оцінювали останню колекцію моделей OpenAI, яка включає GPT-4.5 і моделі для "міркувань", такі як o3-mini та o1. Можливо, ці моделі не були треновані на платних книгах O'Reilly або були треновані на меншій кількості даних, ніж GPT-4o.

Однак не є секретом, що OpenAI, яка виступає за ослаблення обмежень на розробку моделей за допомогою захищених авторським правом даних, вже тривалий час шукає дані високої якості для тренування своїх моделей. Компанія навіть найняла журналістів для того, щоб допомогти вдосконалити свої моделі. Це є загальним трендом у галузі: компанії ШІ залучають експертів у таких сферах, як наука та фізика, щоб ці експерти фактично «постачали» свої знання для систем ШІ.

Варто зазначити, що OpenAI платить за частину своїх даних для тренування. Компанія має ліцензійні угоди з видавцями новин, соціальними мережами, бібліотеками медіа та іншими. OpenAI також пропонує механізми для відмови — хоча й недосконалі — які дозволяють власникам авторських прав позначити контент, який вони не хочуть, щоб компанія використовувала для навчання.

Проте, поки OpenAI веде кілька судових справ щодо своїх практик використання даних для тренування та ставлення до авторського права в судах США, стаття О'Reilly не додає компанії популярності.

OpenAI не відповіла на запит щодо коментаря.

Авторка: Дар’я Бровченко


Джерело



Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.