четвер, 27 березня 2025 р.

Невидимі вороги в мережі: як AI-боти руйнують сайти з відкритим кодом

Боти штучного інтелекту, які жадібно збирають дані, випадково виводять з ладу сайти з відкритим кодом, але люди знаходять засоби протидії.


Розробник програмного забезпечення Xe Iaso досяг межі терпіння, коли агресивний трафік від AI-скрейперів Amazon буквально завалив його Git-репозиторій, спричинивши нестабільність і регулярні перебої в роботі. Навіть після застосування стандартних методів захисту — налаштування robots.txt, блокування відомих ботів та фільтрації підозрілих запитів — Iaso виявив, що штучний інтелект постійно знаходить нові способи обходу обмежень. Боти змінювали user-agent, використовували проксі-сервери з IP-адресами звичайних користувачів та маскувалися під реальних відвідувачів.

У розпачі Iaso створив власну систему захисту — "Anubis", яка змушує браузери вирішувати обчислювальні задачі перед отриманням доступу до сайту.

"Марно намагатися блокувати AI-ботів — вони брешуть, змінюють user-agent, використовують резидентні IP-адреси та багато іншого", — написав він у своєму блозі під назвою "Відчайдушний крик про допомогу".

Від атак страждає вся спільнота Open Source

Ситуація, з якою зіткнувся Iaso, є частиною масштабної кризи, яка дедалі більше загрожує спільноті розробників відкритого коду. Відповідно до звіту LibreNews, деякі проєкти FOSS (Free and Open Source Software) повідомляють, що до 97% їхнього трафіку надходить від ботів AI-компаній. Це створює величезне навантаження на сервери, спричиняє нестабільність та різко підвищує витрати на хостинг.

Kevin Fenzi, адміністратор Fedora Pagure, повідомив, що його команді довелося заблокувати весь трафік з Бразилії, оскільки жодні інші заходи не допомогли стримати навалу AI-скрейперів. У свою чергу, GNOME GitLab запровадив систему "Anubis", щоб змушувати браузери проходити перевірку перед завантаженням контенту. Статистика показала, що лише 3,2% запитів (2 690 із 84 056) пройшли перевірку, що свідчить про величезний обсяг автоматизованого трафіку.

KDE GitLab також тимчасово вийшов з ладу через масові запити з IP-адрес Alibaba. А адміністратор соціальної мережі Diaspora Деніс Шуберт заявив, що через AI-ботів 70% усього трафіку його сервісу стало автоматизованим, що він назвав "буквально DDoS-атакою на весь інтернет".

Витрати зростають, а Open Source бореться

Різке зростання трафіку AI-скрейперів має не лише технічні, а й фінансові наслідки. Read the Docs, популярний сервіс документації, повідомив, що після блокування ботів добовий трафік зменшився з 800 ГБ до 200 ГБ, заощадивши приблизно 1 500 доларів на місяць.

Багато розробників відкритого коду зіштовхуються з тим, що AI-компанії ігнорують загальноприйняті правила індексації, такі як robots.txt, і активно маскують свій трафік. Мартін Оуенс із проєкту Inkscape зазначив, що проблеми спричинені не лише "типовими китайськими DDoS-атаками, а й компаніями, які просто ігнорують наші директиви для ботів та підробляють дані браузера".

Обговорення на Hacker News також виявили обурення серед розробників. Один із користувачів зауважив, що AI-компанії працюють за принципом, що "добра воля не має значення, якщо у вас є 100 мільярдів доларів інвестицій".

Крім проблем із перевантаженням серверів, розробники почали стикатися з фейковими звітами про помилки, згенерованими штучним інтелектом. Наприклад, у грудні 2023 року Даніель Стенберг (розробник Curl) виявив, що частина звітів містила вигадані уразливості, витрачаючи дорогоцінний час програмістів на аналіз неіснуючих проблем.

Хто винен і що робити?

AI-компанії давно відомі своєю схильністю збирати дані без дозволу. Наприклад, аналіз трафіку Diaspora показав, що:

  • 25% запитів надходили від ботів OpenAI,

  • 15% — від Amazon,

  • 4,3% — від Anthropic.

Деякі AI-компанії збирають дані для тренування мовних моделей, а інші — виконують постійний моніторинг контенту. За словами Шуберта, AI-скрейпери не просто завантажують сторінки раз — вони повертаються кожні 6 годин, витягаючи дані знову і знову.

Деякі компанії ведуть себе агресивніше за інших. Наприклад, OpenAI та Anthropic принаймні відкрито вказують свою приналежність у user-agent, тоді як деякі китайські AI-компанії повністю приховують свою діяльність.

Нові методи боротьби: пастки та лабіринти

У відповідь на атаки спільнота Open Source почала активно розробляти захисні інструменти. Один із них — "Nepenthes", створений анонімним розробником під ніком "Aaron". Це спеціальна пастка для AI-ботів, яка змушує їх безкінечно блукати по фейкових сторінках, витрачаючи ресурси AI-компаній.

Також Cloudflare представила новий сервіс "AI Labyrinth", який аналогічно заманює боти в лабіринти, змушуючи їх витрачати час і гроші на обробку фейкових даних.

Окрім цього, проєкт "ai.robots.txt" пропонує список AI-ботів і готові файли для їх блокування.

Висновок

Наразі агресивні методи збору даних AI-компаніями загрожують майбутньому Open Source. Без чітких правил та відповідальності штучний інтелект не лише руйнує інфраструктуру спільноти, а й загрожує самій екосистемі інтернету.

Якщо великі AI-компанії не почнуть співпрацювати з розробниками відкритого коду, війна між ненаситними AI-скрейперами та захисниками вільного інтернету буде лише загострюватися.

Авторка: Дар’я Бровченко


Джерело


Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.