Команда дослідників зі Стенфорда та Вашингтонського університету змогла навчити AI-модель для «міркувань» всього за $50, використовуючи хмарні обчислювальні ресурси. Про це йдеться у дослідженні, опублікованому минулої п’ятниці.
Нова модель, відома як s1, демонструє результати, співставні з передовими AI-моделями для міркувань, такими як o1 від OpenAI та R1 від DeepSeek. Вона здатна вирішувати математичні задачі та завдання з програмування на рівні топових аналогів. Код моделі, а також дані та алгоритми її навчання, опубліковані у відкритому доступі на GitHub.
Як працює s1
Розробники s1 почали з готової базової моделі, а потім оптимізували її за допомогою дистиляції. Цей метод дозволяє «екстрагувати» здатність до міркувань із потужнішої AI-моделі шляхом навчання на її відповідях.
Згідно з дослідженням, s1 отримала свої навички завдяки дистиляції моделі Gemini 2.0 Flash Thinking Experimental від Google. Цей підхід вже застосовували раніше: минулого місяця дослідники з Берклі створили аналогічну AI-модель за $450.
Факт, що кілька вчених можуть створити конкурентоспроможний AI без багатомільйонних бюджетів, виглядає багатообіцяюче. Водночас s1 піднімає питання про комодифікацію (перетворення в товар) AI-моделей.
Якщо можна майже безкоштовно відтворити модель, яка коштувала мільйони доларів на розробку, то де ж «захисний бар’єр» для великих AI-компаній?
Реакція великих AI-лабораторій
Не дивно, що великі AI-компанії не в захваті. OpenAI, наприклад, звинувачує DeepSeek у незаконному зборі даних з їхнього API для дистиляції моделей.
Команда s1 прагнула знайти найпростіший спосіб досягти високої якості міркувань та масштабування часу тестування (здатності AI довше обдумувати відповідь перед її подачею). Це одна з ключових інновацій OpenAI в моделі o1, яку намагаються повторити інші лабораторії.
Що означає прорив s1
Автори дослідження стверджують, що моделі для міркувань можна навчити навіть на відносно невеликому наборі даних, використовуючи метод керованого донавчання (SFT). Він передбачає, що AI чітко вказують, як діяти, на основі спеціально підготовлених прикладів.
Важливо зазначити, що Google дозволяє безкоштовно користуватися Gemini 2.0 Flash Thinking Experimental через платформу Google AI Studio. Однак в її правилах заборонено зворотний інжиніринг та використання моделей для створення конкурентних продуктів. Google ще не надала офіційного коментаря щодо ситуації.
Як було створено s1
S1 базується на маленькій, загальнодоступній AI-моделі від китайської лабораторії Qwen (належить Alibaba). Для її навчання команда дослідників створила набір із 1000 ретельно підібраних запитань із відповідями та поясненням логіки їх розв’язання, отриманими від Gemini 2.0 Flash Thinking Experimental.
Сам процес навчання зайняв менше 30 хвилин на 16 графічних процесорах Nvidia H100. Один із розробників, Ніклас Мюнігофф зі Стенфорду, заявив, що сьогодні оренда такого обчислювального ресурсу коштує всього $20.
Ще один цікавий прийом, який застосували вчені: вони змусили s1 довше міркувати над відповідями. Додавання до запитів слова «wait» (почекай) допомогло моделі покращити точність.
Що далі?
У 2025 році Meta, Google та Microsoft планують інвестувати сотні мільярдів доларів у розвиток AI-інфраструктури, зокрема для створення нових поколінь моделей.
Втім, хоча дистиляція дозволяє здешевити відтворення існуючих моделей, вона не створює принципово нових проривів. А це означає, що великі AI-лабораторії все ще мають перевагу в розробці наступних інновацій.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.