Боти штучного інтелекту, які жадібно збирають дані, випадково виводять з ладу сайти з відкритим кодом, але люди знаходять засоби протидії.
Розробник програмного забезпечення Xe Iaso досяг межі терпіння, коли агресивний трафік від AI-скрейперів Amazon буквально завалив його Git-репозиторій, спричинивши нестабільність і регулярні перебої в роботі. Навіть після застосування стандартних методів захисту — налаштування robots.txt, блокування відомих ботів та фільтрації підозрілих запитів — Iaso виявив, що штучний інтелект постійно знаходить нові способи обходу обмежень. Боти змінювали user-agent, використовували проксі-сервери з IP-адресами звичайних користувачів та маскувалися під реальних відвідувачів.
У розпачі Iaso створив власну систему захисту — "Anubis", яка змушує браузери вирішувати обчислювальні задачі перед отриманням доступу до сайту.
"Марно намагатися блокувати AI-ботів — вони брешуть, змінюють user-agent, використовують резидентні IP-адреси та багато іншого", — написав він у своєму блозі під назвою "Відчайдушний крик про допомогу".
Від атак страждає вся спільнота Open Source
Ситуація, з якою зіткнувся Iaso, є частиною масштабної кризи, яка дедалі більше загрожує спільноті розробників відкритого коду. Відповідно до звіту LibreNews, деякі проєкти FOSS (Free and Open Source Software) повідомляють, що до 97% їхнього трафіку надходить від ботів AI-компаній. Це створює величезне навантаження на сервери, спричиняє нестабільність та різко підвищує витрати на хостинг.
Kevin Fenzi, адміністратор Fedora Pagure, повідомив, що його команді довелося заблокувати весь трафік з Бразилії, оскільки жодні інші заходи не допомогли стримати навалу AI-скрейперів. У свою чергу, GNOME GitLab запровадив систему "Anubis", щоб змушувати браузери проходити перевірку перед завантаженням контенту. Статистика показала, що лише 3,2% запитів (2 690 із 84 056) пройшли перевірку, що свідчить про величезний обсяг автоматизованого трафіку.
KDE GitLab також тимчасово вийшов з ладу через масові запити з IP-адрес Alibaba. А адміністратор соціальної мережі Diaspora Деніс Шуберт заявив, що через AI-ботів 70% усього трафіку його сервісу стало автоматизованим, що він назвав "буквально DDoS-атакою на весь інтернет".
Витрати зростають, а Open Source бореться
Різке зростання трафіку AI-скрейперів має не лише технічні, а й фінансові наслідки. Read the Docs, популярний сервіс документації, повідомив, що після блокування ботів добовий трафік зменшився з 800 ГБ до 200 ГБ, заощадивши приблизно 1 500 доларів на місяць.
Багато розробників відкритого коду зіштовхуються з тим, що AI-компанії ігнорують загальноприйняті правила індексації, такі як robots.txt, і активно маскують свій трафік. Мартін Оуенс із проєкту Inkscape зазначив, що проблеми спричинені не лише "типовими китайськими DDoS-атаками, а й компаніями, які просто ігнорують наші директиви для ботів та підробляють дані браузера".
Обговорення на Hacker News також виявили обурення серед розробників. Один із користувачів зауважив, що AI-компанії працюють за принципом, що "добра воля не має значення, якщо у вас є 100 мільярдів доларів інвестицій".
Крім проблем із перевантаженням серверів, розробники почали стикатися з фейковими звітами про помилки, згенерованими штучним інтелектом. Наприклад, у грудні 2023 року Даніель Стенберг (розробник Curl) виявив, що частина звітів містила вигадані уразливості, витрачаючи дорогоцінний час програмістів на аналіз неіснуючих проблем.
Хто винен і що робити?
AI-компанії давно відомі своєю схильністю збирати дані без дозволу. Наприклад, аналіз трафіку Diaspora показав, що:
25% запитів надходили від ботів OpenAI,
15% — від Amazon,
4,3% — від Anthropic.
Деякі AI-компанії збирають дані для тренування мовних моделей, а інші — виконують постійний моніторинг контенту. За словами Шуберта, AI-скрейпери не просто завантажують сторінки раз — вони повертаються кожні 6 годин, витягаючи дані знову і знову.
Деякі компанії ведуть себе агресивніше за інших. Наприклад, OpenAI та Anthropic принаймні відкрито вказують свою приналежність у user-agent, тоді як деякі китайські AI-компанії повністю приховують свою діяльність.
Нові методи боротьби: пастки та лабіринти
У відповідь на атаки спільнота Open Source почала активно розробляти захисні інструменти. Один із них — "Nepenthes", створений анонімним розробником під ніком "Aaron". Це спеціальна пастка для AI-ботів, яка змушує їх безкінечно блукати по фейкових сторінках, витрачаючи ресурси AI-компаній.
Також Cloudflare представила новий сервіс "AI Labyrinth", який аналогічно заманює боти в лабіринти, змушуючи їх витрачати час і гроші на обробку фейкових даних.
Окрім цього, проєкт "ai.robots.txt" пропонує список AI-ботів і готові файли для їх блокування.
Висновок
Наразі агресивні методи збору даних AI-компаніями загрожують майбутньому Open Source. Без чітких правил та відповідальності штучний інтелект не лише руйнує інфраструктуру спільноти, а й загрожує самій екосистемі інтернету.
Якщо великі AI-компанії не почнуть співпрацювати з розробниками відкритого коду, війна між ненаситними AI-скрейперами та захисниками вільного інтернету буде лише загострюватися.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.