Український клуб штучного інтелекту: Китай представив найпотужнішу модель штучного інтелекту DeepSeek V3

Китайська компанія DeepSeek представила свою нову модель штучного інтелекту — DeepSeek V3, яка, за заявами розробників, перевершує своїх американських конкурентів. Ця модель, що є відкритою для використання, демонструє відмінні результати в задачах з програмування, перекладу, написання есе та електронних листів на основі запитів, повідомляє TechCrunch. Згідно з внутрішніми тестами компанії, DeepSeek V3 перевершує не лише моделі, які можна завантажити, але й "закриті" моделі, до яких доступ можливий тільки через API.
Зокрема, нова модель перемогла в змаганнях з програмування на платформі Codeforces, обігнавши таких конкурентів, як Llama 3.1 405B від Meta, GPT-4o від OpenAI та Qwen 2.5 72B від Alibaba. DeepSeek V3 також показує кращі результати в тесті Aider Polyglot, який оцінює здатність моделі створювати новий код, що легко інтегрується в існуючі проекти. Модель була навчена на великому датасеті обсягом 14,8 трильйона токенів (для порівняння, 1 мільйон токенів — це приблизно 750 тисяч слів). Кількість параметрів моделі складає 671 мільярд, що на 1,6 раза більше, ніж у Llama 3.1 405B (405 мільярдів). Параметри — це внутрішні змінні, які модель використовує для прогнозування чи прийняття рішень. Більша кількість параметрів зазвичай означає вищу продуктивність, але також збільшує вимоги до апаратного забезпечення. Для роботи DeepSeek V3 потрібні висококласні GPU, щоб забезпечити швидку обробку запитів. Розробникам вдалося навчити модель за два місяці, використовуючи центр обробки даних з Nvidia H800 GPUs, з витратами лише $5,5 мільйона, що значно менше за витрати на розробку моделей на зразок GPT-4 від OpenAI. Цікаво, що Nvidia H800 GPUs нещодавно були заборонені до експорту в Китай Міністерством торгівлі США, але це не зупинило компанію.
Однак модель має й недоліки. Наприклад, на запити щодо подій на площі Тяньаньмень DeepSeek V3 не надає відповіді. Оскільки компанія працює в Китаї, вона повинна відповідати вимогам місцевих інтернет-регуляторів, які перевіряють, чи відповідають відповіді моделей «ключовим соціалістичним цінностям». З цієї причини китайські моделі штучного інтелекту часто уникають відповідей на політичні запитання або теми, що можуть викликати роздратування у регуляторів, такі як питання про політику чи режим Сі Цзіньпіна.

Автор: Дар'я Бровченко

Український клуб штучного інтелекту

понеділок, 20 січня 2025 р.

Китай представив найпотужнішу модель штучного інтелекту DeepSeek V3

Немає коментарів:

Дописати коментар

понеділок, 20 січня 2025 р.

Китай представив найпотужнішу модель штучного інтелекту DeepSeek V3

Немає коментарів:

Дописати коментар

понеділок, 20 січня 2025 р.