УРЮМЧІ, КИТАЙ — 13 ЛЮТОГО: Інженер перевіряє дата-центр у місті Урумчі, розташованому в Сіньцзян-Уйгурському автономному районі Китаю. Тут китайська компанія DeepSeek запустила інфраструктуру для підтримки своєї великої мовної моделі штучного інтелекту (ШІ).
Бюджетна альтернатива ШІ та виклики ринку
Коли DeepSeek представила свою модель R1, заявивши, що її розробка коштувала лише 6 мільйонів доларів, це викликало нову хвилю критики в адресу американських компаній, таких як OpenAI, які витрачають мільярди на створення власних моделей.
Незважаючи на сумніви щодо реальної вартості розробки DeepSeek, довіра інвесторів до OpenAI залишається незмінною. Компанія планує залучити новий раунд фінансування на 40 мільярдів доларів, оцінюючись у 300 мільярдів, та прогнозує зростання доходу до 12,7 мільярда доларів цього року. Тим часом чип CoreWeave може стати ключовим фактором для відродження ринку IPO в сегменті ШІ. Однак, зростає стурбованість тим, що ринок розвивається надто швидко і з надмірними витратами.
ШІ-бульбашка та китайський виклик
Технологічний сектор відчуває змішані настрої: акції «Великої сімки» цього року демонструють нестабільність, а співзасновник Alibaba Джо Цай попереджає про можливу ШІ-бульбашку в США. Це впливає як на інвестиційні стратегії, так і на геополітичні рішення, зокрема посилення обмежень на експорт чипів до Китаю.
Попри ці ризики, американські дослідники продовжують експериментувати з генеративним ШІ. Наприклад, команда з UC Berkeley змогла створити маломасштабну мовну модель на базі DeepSeek всього за 30 доларів. Це стало можливим завдяки використанню двох Nvidia H200 GPU та простих математичних алгоритмів для навчання моделі з трьома мільярдами параметрів.
Нові можливості у сфері досліджень
Керівниця проєкту TinyZero, аспірантка UC Berkeley Цзяї Пан, зазначає, що їхній експеримент дозволив дослідити, як ШІ може навчитися міркувати перед тим, як давати відповіді. DeepSeek R1 став першою моделлю, яка пояснила цей підхід, проте навіть її бюджет у 6 мільйонів доларів виявився недосяжним для багатьох лабораторій.
Команда TinyZero використала алгоритм DeepSeek R1-Zero для тренування ШІ у математичній грі Countdown. Спочатку модель шукала рішення випадковим чином, але з часом навчилася коригувати стратегію та знаходити оптимальніші варіанти.
«Навіть модель з трьома мільярдами параметрів може навчитися міркувати», — зазначає Пан.
Це доводить, що здатність до логічного мислення не обов’язково залежить від розміру моделі.
Відкритий код і новий підхід до ШІ
Проєкт TinyZero привернув увагу дослідників, включаючи команду зі Стенфорда, яка відтворила експерименти в грі Countdown. Їхнє дослідження також використало систему VERL від ByteDance та відкриту модель Qwen від Alibaba Cloud, що зменшило витрати на розробку.
Старший науковець з машинного навчання Ніна Сінгер підкреслює, що такі проєкти, як TinyZero, доводять: розмір моделі не є ключовим фактором у її ефективності.
«Менші моделі, спеціально налаштовані для окремих завдань, можуть конкурувати з великими нейромережами при значно менших витратах», — зазначає вона.
Майбутнє ШІ: ефективність замість масштабу
Головний висновок TinyZero — якість тренування та специфіка задачі важливіші за кількість параметрів. Це кидає виклик традиційному уявленню, що лише величезні моделі, як ChatGPT, здатні до самовдосконалення. Успіх таких проєктів може змусити великі компанії робити свої ШІ-моделі більш відкритими для дослідницьких ініціатив.
Таким чином, майбутнє штучного інтелекту може змінитися з акценту на гігантські моделі до ефективних, доступних і спеціалізованих рішень.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.