вівторок, 8 квітня 2025 р.

DeepSeek готує нову революцію в AI з моделями, що самовдосконалюються

Ще кілька місяців тому, коли на генеративний штучний інтелект зробили великі ставки на Уолл-стріт, DeepSeek змінив хід подій. Попри свою обмежену відкритість, ця модель ШІ довела, що для розробки передових моделей для логічного мислення не обов'язково потрібно мати мільярди доларів — можна досягти значних результатів, використовуючи навіть обмежені ресурси.

Модель швидко знайшла комерційне застосування у таких гігантів, як Huawei, Oppo та Vivo, а також отримала місце на платформах Microsoft, Alibaba і Tencent. Тепер наступним кроком компанії є розробка самовдосконалювальних моделей ШІ, які застосовують підхід з циклічною оцінкою та нагородами для постійного покращення своїх результатів.

З інформацією Bloomberg дослідники з DeepSeek і Тсінхуа університету в Китаї описують новий підхід, який може зробити моделі ШІ розумнішими і ефективнішими, дозволяючи їм самостійно вдосконалюватися. Цей підхід базується на технології, що отримала назву самостійне налаштування критики (SPCT), а сам процес називається генеративним моделюванням з винагородою (GRM).

Принцип роботи

Простіше кажучи, цей підхід можна описати як створення зворотного зв'язку в реальному часі. Модель ШІ удосконалюється завдяки збільшенню її розміру під час навчання. Це зазвичай вимагає великих витрат людських ресурсів та обчислювальних потужностей. Однак DeepSeek пропонує систему, в якій «суддя» надає моделі свої критичні зауваження та принципи, коли вона готує відповіді на запитання користувача.

Ці зауваження порівнюються з тими статичними правилами, які закладені в самій моделі ШІ, а також із бажаним результатом. Якщо є велика схожість між критичними зауваженнями та бажаним результатом, генерується сигнал нагороди, який сприяє покращенню результатів у наступному циклі роботи моделі.

Експерти, які працюють над цим проєктом, називають нові самовдосконалювальні моделі DeepSeek-GRM. За результатами бенчмарків, наведених у статті, ці моделі працюють краще за такі відомі системи, як Google Gemini, Meta Llama і OpenAI GPT-4. DeepSeek повідомляє, що ці інноваційні моделі будуть доступні через відкритий вихідний код.

Самовдосконалювальний ШІ: перспективи та небезпеки

Тема самовдосконалювальних моделей ШІ викликає різні думки та суперечки. Колишній генеральний директор Google, Ерік Шмідт, заявив, що для таких систем слід мати механізм вимкнення.

"Якщо система може самовдосконалюватися, ми маємо серйозно подумати про її вимкнення", — цитує його Fortune.

Ідея рекурсивного самовдосконалення ШІ не є новою. Вона виникла ще у 1965 році, коли математик І. Дж. Гуд запропонував концепцію ультраінтелектуальної машини, здатної створювати ще кращі машини. У 2007 році експерт з ШІ Еліезер Юдковський запропонував гіпотезу про Seed AI — штучний інтелект, розроблений для саморозуміння, самозміни та рекурсивного самовдосконалення.

У 2024 році японська компанія Sakana AI описала концепцію "AI Scientist" — системи, здатної пройти весь процес створення наукової роботи від початку до кінця. У березні цього року Meta опублікувала дослідження, яке зосереджувалося на самонагороджувальних мовних моделях, де ШІ сам виступає як суддя і надає нагороди під час навчання.

Тести Meta на своїй моделі Llama 2, використовуючи нову техніку самонагороджування, показали, що вона перевершує конкурентів, таких як Anthropic’s Claude 2, Google Gemini Pro та OpenAI GPT-4. Amazon-підтримувана компанія Anthropic також розкрила проблему "маніпулювання винагородами", коли модель самостійно змінює свою систему нагород.

Google також активно розвиває цю концепцію. У дослідженні, опублікованому в журналі Nature на початку цього місяця, фахівці Google DeepMind показали алгоритм Dreamer, здатний до самовдосконалення, використовуючи Minecraft як приклад.

Експерти IBM розробляють свій підхід під назвою "методика дедуктивного закриття", в якій модель ШІ оцінює свої відповіді, порівнюючи їх з навчальними даними для подальшого покращення. Однак такий підхід має й певні ризики.

Дослідження показують, що коли ШІ тренує себе на синтетичних даних, які він сам генерує, це може призвести до дефектів, що відомі як "колапс моделі". Тому залишається питання, як саме DeepSeek реалізує цей підхід і чи зможе зробити це економніше, ніж їхні західні конкуренти.

Авторка: Дар’я Бровченко


Джерело





Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.