четвер, 27 березня 2025 р.

OpenAI заявляє про прорив у створенні зображень для ChatGPT

Компанія витратила рік на навчання моделі GPT-4o за допомогою людських тренерів для створення реалістичних зображень та якісних текстів. OpenAI представила оновлену версію свого штучного інтелекту GPT-4o, яка здатна створювати більш реалістичні зображення. Це стало результатом річної роботи команди тренерів, які вдосконалювали модель.

GPT-4o тепер замінює DALL-E 3 як основну систему генерації зображень у ChatGPT, і ця функція стала доступною користувачам безкоштовної версії ChatGPT, а також планів Plus, Team та Pro, повідомила компанія.

GPT-4o було представлено минулого року як мультифункціональну модель, здатну працювати з текстом, відео, аудіо та зображеннями. Це була більш доступна версія найпотужнішої моделі OpenAI на той час.

Оновлений GPT-4o полегшує створення реалістичних зображень, структурованих текстів, логотипів та навіть презентацій, що робить його корисним як для звичайних користувачів, так і для бізнесу, зазначили в OpenAI.

Роль людських тренерів у покращенні GPT-4o

Ключову роль у вдосконаленні моделі відіграли «людські тренери», які аналізували дані навчання, вказуючи на помилки, такі як неточності у відображенні облич та рук у згенерованих зображеннях, пояснив Габріель Го, головний дослідник проєкту. Завдяки цьому процесу модель навчилася краще розуміти людські інструкції, що дозволило їй створювати більш точні та корисні зображення.

Така методика відома як «навчання з підкріпленням на основі людського зворотного зв’язку» (Reinforcement Learning from Human Feedback, RLHF) і широко використовується в індустрії штучного інтелекту для вдосконалення моделей після початкового навчання.

З огляду на масштаби роботи OpenAI — понад 400 мільйонів користувачів ChatGPT щотижня — вплив людських тренерів на якість моделей є значним. Загалом у цьому процесі взяли участь трохи більше ніж 100 осіб.

«Базова модель вже має певний рівень інтелекту, а процес RLHF допомагає розкрити цей потенціал і зробити модель ще точнішою», — пояснив Го.

Що нового в GPT-4o?

За словами представників OpenAI, GPT-4o тепер значно корисніший для споживачів та бізнесу. Наприклад, попередні версії ChatGPT не могли створювати читабельні тексти разом із зображеннями, тоді як GPT-4o успішно виконує такі завдання.

Крім того, оновлена модель може генерувати зображення з прозорим фоном, що дозволяє компаніям легко створювати логотипи та інші візуальні матеріали. Також користувачі можуть завантажувати власні брендбуки, щоб AI створював зображення відповідно до стилю компанії, зазначила Джекі Шеннон, керівниця продукту OpenAI, відповідального за мультимодальні можливості ChatGPT.

Компанія GoDaddy, відома своїми послугами у сфері хостингу та аналітики даних, вже впроваджує GPT-4o для автоматизації створення контенту, зокрема для генерації стокових зображень і логотипів.

Обмеження та етичні питання

Попри покращення, генерація зображень GPT-4o ще не є ідеальною. Наприклад, в одному з тестів користувач завантажив фото своєї вітальні з двома вікнами, але AI відобразив лише одне з них у згенерованій версії.

Використання ШІ для створення зображень залишається суперечливим. Деякі художники вважають, що такі системи загрожують їхньому заробітку та можуть копіювати їхні роботи.

OpenAI стверджує, що GPT-4o навчався на «публічно доступних даних», а також на матеріалах, отриманих через партнерства з компаніями, такими як Shutterstock.

«Ми поважаємо права художників і маємо політику, що забороняє генерацію зображень, які прямо імітують стиль живих митців», — запевнив головний операційний директор OpenAI Бред Лайткап.

Авторка: Дар’я Бровченко


Джерело



Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.