Wikipedia відчуває наслідки буму штучного інтелекту: онлайн-енциклопедія зіштовхнулася зі зростанням витрат через ботів, які масово збирають її статті для навчання ШІ-моделей, що перевантажує сервери сайту.
У вівторок неприбуткова організація Wikimedia Foundation, яка адмініструє Wikipedia, повідомила, що "кількість автоматизованих запитів до нашого контенту зросла експоненційно". Це може призвести до збоїв у роботі сайту, змушуючи платформу нарощувати серверні потужності та підвищувати витрати на центри обробки даних.
"Наша інфраструктура розрахована на різкі стрибки трафіку від людей під час важливих подій, але обсяг трафіку від ботів для скрапінгу даних є безпрецедентним і несе нові ризики та витрати," — зазначають у Wikimedia Foundation.
Масове завантаження мультимедійного контенту
Фонд наводить приклад: "З січня 2024 року використання трафіку для завантаження мультимедійного контенту зросло на 50%." При цьому значна частина цього трафіку надходить не від реальних користувачів, а від автоматизованих програм, які безперервно завантажують відкрито ліцензовані зображення для навчання моделей штучного інтелекту.
Ще одна проблема — боти часто збирають дані з менш популярних статей.
"Наш аналіз показав, що щонайменше 65% ресурсоємного трафіку надходить від ботів, хоча їхня частка у загальному перегляді сторінок становить лише 35%," — зазначає Wikimedia Foundation.
Боти також активно сканують розробницьку інфраструктуру Wikipedia, включаючи платформи для рецензування коду та відстеження помилок, що створює додаткове навантаження на ресурси сайту.
Відповідь Wikipedia: обмеження доступу
У відповідь на зростаючу проблему адміністратори Wikipedia запровадили індивідуальні обмеження трафіку для деяких ботів або навіть повністю блокували їх. Проте для довгострокового вирішення питання Wikimedia Foundation розробляє план "Відповідального використання інфраструктури", який має знизити навантаження від ШІ-скраперів.
Фонд також збирає відгуки від спільноти Wikipedia щодо методів ідентифікації ботів та обмеження їх доступу. Один із можливих варіантів — запровадження обов’язкової автентифікації для операторів ботів, які здійснюють масовий збір інформації через API.
"Наш контент безкоштовний, але інфраструктура — ні: ми маємо діяти зараз, щоб відновити баланс," — наголошують у Wikimedia Foundation.
Досвід Reddit: як інші компанії вирішують проблему
З подібною ситуацією вже стикалася платформа Reddit у 2023 році. Microsoft, наприклад, не повідомила Reddit про те, що збирає його контент для власних ШІ-рішень. Згодом Reddit заборонив Microsoft сканувати свій сайт, що викликало критику з боку гендиректора Reddit Стіва Хаффмана, який назвав це "справжнім головним болем".
Крім того, Reddit вирішив запровадити плату за доступ до API для сторонніх розробників. Це спричинило масовий протест серед спільноти, тимчасове блокування деяких сабреддітів та закриття популярних додатків для роботи з платформою.
Wikipedia зараз стоїть перед вибором: як обмежити надмірну активність ШІ-ботів, не порушуючи принципи відкритого доступу до знань.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.