Meta випустила нову серію моделей Llama 4, яка є прямою відповіддю на прорив китайської AI-компанії DeepSeek, яка здивувала ринок у січні 2025-го своїм мовним моделем DeepSeek R1. R1, за словами аналітиків, зрівнявся з моделями від таких гігантів, як Meta, при цьому витративши на тренування набагато менше грошей. Відповідно, Meta була змушена переглянути свою стратегію і в результаті випустила нову серію моделей Llama 4, яка має відразу кілька потужних нововведень.
Нова лінійка включає дві основні моделі: Llama 4 Scout, яка має 109 мільярдів параметрів, та Llama 4 Maverick з 400 мільярдами параметрів. Обидві ці моделі доступні для завантаження та самостійного налаштування. Крім того, анонсована ще більш потужна модель Llama 4 Behemoth з 2 трильйонами параметрів, хоча вона поки що в процесі тренування, і точні терміни її релізу поки не оголошені.
Однією з головних особливостей нових моделей є підтримка мультимодальності — тепер Llama 4 здатна обробляти не тільки текст, а й зображення та відео, що значно розширює можливості її застосування. Ще одна важлива новинка — це дуже довгі контекстні вікна. Наприклад, модель Llama 4 Scout здатна працювати до 10 мільйонами токенів, що дає можливість обробляти тисячі сторінок тексту за один запит. Це особливо корисно для таких сфер, як наука, медицина та інженерія, де велика кількість даних потребує обробки в одному запиті.
Також Llama 4 використовує архітектуру Mixture-of-Experts (MoE), яка дозволяє більш ефективно використовувати ресурси, активуючи тільки ті аспекти, які потрібні для конкретного завдання. Це дозволяє знизити витрати на інференс і підвищити ефективність роботи моделей.
Meta не планує надавати хостинг для своїх нових моделей, натомість фокусується на відкритому доступі для розробників, які можуть завантажити моделі і самостійно налаштовувати їх для своїх потреб. Тим не менше, провайдери хмарного інференсу, такі як Groq, уже інтегрували ці моделі в свої сервіси за доступними цінами. Наприклад, Llama 4 Scout доступна за $0.13 за мільйон токенів, що значно дешевше за інші подібні моделі на ринку.
Серед ключових переваг Llama 4 Meta зазначає також вдосконалені алгоритми для вирішення складних задач, таких як математичні рівняння, логіка та програмування. Вони покращили здатність моделі до розв'язання проблем з високою складністю, використовуючи нові методи навчання, такі як MetaP, що дозволяє зберігати ефективність моделей при їх масштабуванні на різні типи завдань.
Загалом, нові моделі Llama 4 від Meta стають серйозною конкурентною відповіддю DeepSeek і OpenAI, пропонуючи високий рівень ефективності при значно менших витратах на інфраструктуру, а також відкритий доступ для розробників. Це зміщує баланс на користь більш доступних і потужних рішень у світі штучного інтелекту.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.