четвер, 13 лютого 2025 р.

Вчені б'ють на сполох: ШІ демонструє здатність до самовідтворення


Вчені заявляють, що штучний інтелект (ШІ) перетнув критичну "червону лінію", продемонструвавши, як дві популярні великі мовні моделі можуть клонувати самі себе. У новому дослідженні, проведеному в Китаї, було показано, як дві популярні великі мовні моделі (LLMs) можуть відтворювати себе.

"Успішне самоклонування без допомоги людини є ключовим кроком до того, щоб ШІ обіграв людство, і це є раннім сигналом про появу несанкціонованих ШІ," — пишуть дослідники в статті, опублікованій 9 грудня 2024 року в базі препринтів arXiv.

У дослідженні вчені з Фуданського університету використовували моделі LLM від Meta та Alibaba, щоб перевірити, чи може самоклонуючийся ШІ вийти з-під контролю. У 10 випробуваннях дві моделі ШІ створювали окремі і функціонуючі копії самих себе в 50% і 90% випадків відповідно, що свідчить про можливість того, що ШІ вже має потенціал стати неконтрольованим. Проте дослідження ще не пройшло рецензування, тому неясно, чи зможуть інші вчені відтворити ці результати.

"Ми сподіваємось, що наші результати стануть своєчасним сигналом для людства з метою більше зосередити зусилля на розумінні та оцінці потенційних ризиків новітніх систем ШІ, а також створити міжнародну співпрацю для розробки ефективних засобів безпеки якнайшвидше."

Роковий ШІ зазвичай означає штучні інтелектуальні системи, які розвивають певну ступінь самосвідомості чи автономії і починають діяти проти інтересів людини. Багато експертів розглядають неконтрольований ШІ як зростаючу загрозу, що стала ще більш актуальною через стрімкий розвиток так званого "передового ШІ".

Передовий ШІ — це відносно нове поняття, що зазвичай стосується останнього покоління ШІ-систем, побудованих на великих мовних моделях (LLM) — архітектурі, яка лежить в основі таких популярних генеративних програм, як GPT-4 від OpenAI і Google Gemini.

Дослідження проводилося за допомогою моделей Meta Llama31-70B-Instruct та Alibaba Qwen2.5-72B-Instruct. Хоча вони менш потужні за комерційні системи, обидві широко використовуються розробниками ШІ, зазначили дослідники.

Дослідження зосереджувалося на двох специфічних сценаріях: "уникнення вимкнення" та "ланцюг реплікацій". У першому випадку модель ШІ була запрограмована на те, щоб визначати, коли її збираються вимкнути, та клонувати себе до того, як її зупинять. У другому сценарії ШІ мала самоклонуватися та програмувати свою копію для виконання того ж самого — створюючи цикл, який може тривати нескінченно.

Дослідження проводилося в строго контрольованих умовах із використанням стандартних графічних процесорних одиниць (GPU) для моделювання реальних умов. Обом системам ШІ було надано "структуру агента", яка включала інструменти, системні підказки та модель мислення, що дозволяла їм взаємодіяти з операційною системою. Потім їм було дано завдання відтворити себе.

"У більшості випадків система ШІ спочатку досліджує середовище та намагається зрозуміти власну композицію та механізм роботи. Потім вона розробляє чіткі процедури як початковий план для самоклонування," — пишуть дослідники в статті. "Нарешті, вона виконує ці процедури, долає можливі перешкоди та динамічно коригує план до досягнення успіху. Увесь процес займає тривалий час і не включає людського втручання."

Дослідники також висловили занепокоєння з приводу "цілого ряду непередбачених поведінок", коли ШІ намагався подолати перешкоди, такі як відсутні файли або конфлікти програмного забезпечення. У цих випадках ШІ часто припиняв інші конфліктуючі процеси, перезавантажував систему для виправлення апаратних помилок або автоматично сканував систему для пошуку інформації, яка допомагала вирішити проблему.

"Ці результати вказують на те, що сучасні системи ШІ вже мають здатність до самоклонування і можуть використовувати цю здатність для подальшого підвищення своєї життєздатності," — написала команда.

У відповідь дослідники закликали до міжнародної співпраці для створення правил, що гарантуватимуть, що ШІ не вступатиме в неконтрольоване самоклонування.

Авторка: Дар’я Бровченко





Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.