Запитайте Яна Лекуна, головного науковця Meta, лауреата премії Тюрінга, професора даних в університеті Нью-Йорка та одного з піонерів штучного інтелекту, про майбутнє великих мовних моделей (LLM), таких як ChatGPT від OpenAI, Gemini від Google, Llama від Meta та Claude від Anthropic, і його відповідь може вас здивувати: він вважає, що ці моделі будуть переважно застарілими вже за п’ять років.
«Ми з моїми колегами з [Facebook AI Research] працюємо над новим напрямком, і якщо нам вдасться реалізувати це за три-п’ять років, ми отримаємо значно кращу парадигму для систем, здатних до міркувань і планування», — пояснює Лекун у новій частині інтерв’ю серії "Вплив ШІ" від Newsweek з Маркусом Вельдоном. Він описує останні досягнення своєї команди в рамках архітектури Joint Embedding Predictive Architecture (JEPA). Лекун сподівається, що цей підхід зробить сучасні моделі великих мовних моделей (LLM) застарілими, оскільки нові системи матимуть реальні уявлення про світ. Як він зазначає, ці системи будуть «контрольованими», оскільки можна буде поставити перед ними конкретні цілі, і вони зможуть досягати цих цілей завдяки своїй конструкції.
Його переконання настільки сильне, що на конференції минулого року він порадив молодим розробникам:
«Не працюйте над LLM. Ці моделі]знаходяться в руках великих компаній, і ви не можете нічого нового внести. Працюйте над наступними поколіннями ШІ-систем, які позбудуться обмежень LLM».
Цей парадокс вражає: один з головних архітекторів нинішнього буму ШІ — також один з найбільших скептиків цієї технології. Поки компанії змагаються у впровадженні дедалі складніших розмовних агентів, а інвестори вкладають мільярди у стартапи з великими мовними моделями та в дата-центри для їх обробки, Лекун залишається незадоволеним від того, що багато хто вважає передовою частиною штучного інтелекту, незважаючи на те, що його команда створила одну з основних базових моделей, що використовується сьогодні: Llama.
Для Лекуна сучасні моделі ШІ — навіть ті, що несуть його інтелектуальний відбиток — це досить спеціалізовані інструменти, що працюють у простому, дискретному просторі — мова, і при цьому не мають жодного істотного розуміння фізичного світу, яким легко опановують люди та тварини. Обережність Лекуна узгоджується з попередженням Родні Брукса про так звану «магічну думку» щодо ШІ, коли, за словами Брукса, ми схильні антропоморфізувати ШІ-системи, коли вони добре працюють у обмежених сферах, неправильно припускаючи, що вони володіють більш широкими компетенціями.
Є багато причин, щоб уважно поставитися до застереження Лекуна: він провів десятки років, створюючи нейронні мережі, які стали основою для сучасного буму ШІ, і є одним з трьох «мушкетерів глибокого навчання» разом з Джеффрі Хінтоном та Йошуа Бенгіо, які в 2018 році отримали премію Тюрінга за свої внески в цю галузь.
Лекун пояснює обмеження сьогоднішніх мовних моделей:
«LLM виробляє один токен за іншим. Воно проходить фіксовану кількість обчислень для отримання токена, і це, безумовно, система 1 — вона реактивна. Тут немає міркування»
— говорить він, посилаючись на відому модель Деніела Канемана, що розрізняє швидке, інтуїтивне мислення людини (система 1) та повільніше, більш розсудливе міркування (система 2).
Однак ці обмеження стають очевидними, коли розглядаємо так званий парадокс Моравеца — спостереження комп’ютерного вченого та робототехніка Ганса Моравеца, що навчити ШІ високорозвинених навичок, таких як гра в шахи або складання стандартних тестів, набагато простіше, ніж «основних» людських здібностей, як-от сприйняття чи рух. Причина цього, як стверджує Моравець, полягає в тому, що навички, пов'язані з тим, як людина взаємодіє з навколишнім світом, сформувалися за мільярди років еволюції, і їх можна автоматизувати, тоді як більш пізніше розвинуте міркування потребує набагато більше свідомих когнітивних зусиль для освоєння.
Цей парадокс яскраво демонструє мовні моделі: вони досягли високого рівня в мовній компетентності, не освоївши при цьому жодних основних людських здатностей.
«Ми маємо ці мовні системи, які можуть здати іспит на адвоката, вирішувати рівняння, обчислювати інтеграли, але де наш домашній робот?» — запитує Лекун.
«Де робот, який був би таким же, як кіт у фізичному світі?»
Найбільша відмінність між сучасними ШІ та людським інтелектом полягає в тому, що люди можуть обробляти набагато більше даних, ніж навіть найсучасніші моделі ШІ. Лекун додає:
«Велика LLM сьогодні тренується на даних обсягом приблизно 10 в 14-й степені байт. Для того, щоб ми змогли прочитати це все, нам знадобилося б 400 000 років. Але потім він зауважує, що люди здатні отримувати набагато більший обсяг візуальних даних, ніж навіть ці моделі ШІ».
Лекун вважає, що найбільш важливим аспектом інтелекту є здатність швидко здобувати нові навички, застосовуючи знання з попереднього досвіду. Це вміння адаптувати свої знання до нових ситуацій — це те, чого сучасні ШІ не досягли.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.