Manus, платформа з "агентними" можливостями, яка була представлена на тестуванні минулого тижня, набирає популярності швидше, ніж концерт Тейлор Свіфт.
Керівник продукту в Hugging Face назвав Manus «найвражаючим інструментом ШІ, який я коли-небудь пробував». Дослідник політики штучного інтелекту Дін Балл описав Manus як «найсучасніший комп’ютер, що використовує ШІ». Офіційний сервер Discord для Manus швидко набрав понад 138 000 учасників, а коди для запрошень на платформу продаються за тисячі доларів на китайському ринку перепродажу Xianyu.
Але чи виправданий весь цей ажіотаж?
Manus не був розроблений з нуля. За інформацією з соцмереж, платформа використовує комбінацію існуючих та налаштованих моделей ШІ, включаючи Claude від Anthropic і Qwen від Alibaba, щоб виконувати завдання, такі як складання дослідницьких звітів та аналіз фінансових документів.
Проте на своєму вебсайті китайський стартап Butterfly Effect, який стоїть за Manus, дає кілька дивовижних прикладів того, що платформа нібито може виконувати — від купівлі нерухомості до програмування відеоігор.
У вірусному відео на платформі X, Ічао «Пік» Джі, керівник досліджень для Manus, натякнув, що платформа перевершує такі інструменти, як OpenAI’s deep research і Operator. Manus показує кращі результати на популярному бенчмарку для загальних помічників ШІ GAIA, який тестує здатність ШІ виконувати завдання через веб-браузинг, використання програмного забезпечення та інше, — заявив Джі.
«Manus— це не просто ще один чат-бот чи робочий процес», — сказав Джі у відео. «Це абсолютно автономний агент, який з’єднує концепцію і виконання […] Ми бачимо в цьому наступну парадигму співпраці між людиною та машиною».
Але деякі ранні користувачі кажуть, що Manus не є панацеєю.
Олександр Дорія, співзасновник стартапу AI Pleias, повідомив у пості на X, що під час тестування Manus він стикався з помилками та нескінченними петлями. Інші користувачі на X зазначили, що Manus допускає помилки у фактичних питаннях і не завжди коректно цитує джерела — часто пропускаючи інформацію, яку можна легко знайти в Інтернеті.
Досвід використання Manus виявився не таким позитивним, як очікувалося. Користувач попросив платформу виконати, здавалося б, просте завдання — замовити сендвіч з смаженим курячим філе в одному з кращих ресторанів швидкого харчування в районі. Проте через 10 хвилин Manus просто зламався. Після другого запиту платформа знайшла пункт меню, що відповідав вимогам, але не змогла завершити процес замовлення та навіть не надала посилання на оформлення покупки.
Manus також не впорався з завданням бронювання рейсу з Нью-Йорка до Японії. При чіткій вказівці (наприклад, «знайти бізнес-клас, з пріоритетом на ціну та гнучкість дат») найкращим результатом стало подання посилання на тарифи на кількох вебсайтах авіакомпаній і пошукових системах, таких як Kayak, деякі з яких не працювали.
Намагаючись отримати кращий результат, користувач попросив забронювати стіл для однієї особи в ресторані на відстані пішої прогулянки. Через кілька хвилин Manus знову не зміг виконати завдання.
Представник Manus надіслав TechCrunch заяву через DM, в якій зазначалося: «Як маленька команда, ми орієнтовані на постійне вдосконалення Manus та створення агентів ШІ, які справді допомагають користувачам вирішувати проблеми […] Основною метою поточної закритої бета-версії є стрес-тестування різних частин системи та виявлення проблем. Ми дуже вдячні за цінні зауваження від усіх».
Тож, якщо Manus не виправдовує свої технічні обіцянки, чому він став настільки популярним? Це пояснюється кількома факторами, зокрема ексклюзивністю, яку створює дефіцит запрошень.
Китайські ЗМІ швидко розповсюдили новину про Manus як про прорив в AI, а видання QQ News навіть називало його «гордістю вітчизняних продуктів». Тим часом AI-інфлюенсери в соцмережах поширювали дезінформацію щодо можливостей Manus. Вірусне відео показало програму, яка нібито виконувала дії через кілька додатків на смартфоні. Однак Джі підтвердив, що це відео не було демонстрацією Manus.
Інші впливові акаунти в X намагалися провести паралелі між Manus і китайською AI-компанією DeepSeek, хоча такі порівняння часто не мали фактичного підґрунтя. Butterfly Effect не розробляв моделі внутрішньо, на відміну від DeepSeek.
Згідно з заявами компанії, Manus ще перебуває на ранньому етапі доступу. Butterfly Effect працює над масштабуванням обчислювальних потужностей і виправленням помилок на основі відгуків користувачів. Однак наразі Manus виглядає як випадок, коли ажіотаж випереджає реальні технічні досягнення.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.