Коли контент стає сміттям. Як штучний інтелект руйнує інтернет
Результатом популярності генеративних ШІ-чатботів є не лише їхнє активне використання студентами, копірайтерами та топ-менеджерами. Зростання створеного ними "синтетичного" контенту буквально отруює інтернет

Поява ChatGPT та аналогів стала справжньою знахідкою для студентів, школярів, блогерів та маркетологів. Люди, до чиїх обов’язків входило написання текстів, стали так чи інакше використовувати ШІ-боти. Одні шукали ідеї та покращували власні тексти, інші послуговувалися ШІ більш "інвазивно" та просто видавали роботу ШІ за власну. Наслідком цього стала поява в Мережі великої кількості синтетичних або штучно згенерованих текстів.
Як "Вікіпедія" відмовлялась від ШІ
"Сліди" ШІ в Мережі проявлялися у різному вигляді. До прикладу, ще наприкінці 2024 року у "Вікіпедії" з’явилась стаття про неіснуючий об’єкт під назвою Amberlisihar. У ній розповідалося про османську фортецю 13го століття, було наведено історію її створення та детально пояснювалося про те, де ж вона розташована. Проте насправді такої фортеці та такого об’єкту ніколи не існувало. А стаття стала результатом глобального галюцинування одного із ШІ-чатботів, причому редактори "Вікіпедії" випустили її назагал і вона стала доступною усім користувачам інтернету.
Історія із Amberlisihar – це найвідоміший приклад роботи ШІ-ботів стосовно створення контенту на такому унікальному краудсорсинговому проекті як "Вікіпедія". Саме тому після того, як про Amberlisihar написало багато медій, автори енциклопедії ініціювали проект WikiProject AI Cleanup. Його мета – очистити "Вікіпедію" від ШІ-сміття. Цікаво, що досвідчені редактори проекту виявилися не готовими до того, що на теренах цього сайту почне з’являтися синтетичний контент, і що давно працююча система колективних правок та рекомендацій не зможе його виявити на самому початку. Ймовірно, занадто велика кількість редакторів проекту стала тією лазівкою, крізь яку буквально "проліз" ШІ-контент, та ще й в такому найгіршому вигляді.
Проте уже за рік, у 2025му році "Вікіпедії" знову довелось зустрітись із негативними проявами синтетичного контенту на її сторінках. На початку червня енциклопедія почала тестувати функцію підсумування довгих статей, яка працювала з допомогою штучного інтелекту. Юзери на смартфонах могли бачити ШІ-підсумки статей, якими вони зацікавилися. Проте ця функція була доступна буквально декілька днів, після чого від неї відмовилися. Головна причина полягала в тому, що створені підсумки виявилися недолугими, вони не розкривали суть статей, а часом і відверто брехали. У "Вікімедії", організації, що управляє роботою "Вікіпедії", сказали, що шукають способи використання ШІ у своїй роботі, але в нинішньому вигляді ця опція несе лише шкоду та знищує довіру до проекту. Один із редакторів навіть попередив, що це "спричинить негайну та незворотну шкоду нашим читачам і нашій репутації як гідного довіри джерела".
Модельний колапс та ШІ-забруднення
Значне зростання в Мережі синтетичних текстів, тобто тих, які були згенеровані ШІ, має негативні наслідки для самих ШІ-моделей. В якийсь момент ШІ-чатботи починають навчатися на власному ж "згенерованому" контенті. Адже для успішної роботи ШІ-інструментів вони повинні "навчитися" — прочитати величезні обсяги текстів. В певний момент помежи "людських" текстів для навчання потрапляють синтетичні і ШІ вчиться на тому, що раніше згенерував ШІ. В цьому випадку ШІ-інструменти поступово втрачають інформацію про рідковживані, але важливі блоки даних й стають занадто передбачливими. Принаймні саме так оцінили це явище навчання ШІ на ШІ-даних автори наукової статті у Nature. В результаті такого навчання страждає якість даних. Відповідно, майбутні моделі починають видавати дедалі одноманітніші та хибні тексти. Це явище називають "модельним колапсом" (model collapse) або "ШІ-забрудненням" (AI pollution) даних. Автори матеріалу в Nature пояснюють, що через надмірну ШІ-зацію контенту ШІ починає "помилково сприймати реальність" і його галюцинації – помилки, що виникають при генерації контенту та його упередженість значно зростають. Поки не зрозуміло, чи не призведе ШІ-засмічення до того, що ШІ буде генерувати виключно цифрове сміття, але очевидно, що наступним моделям стане важче навчатися.
Фахівці вводять і суміжні терміни. Деякі дослідники назвали цю проблему Model Autophagy Disorder (MAD) – "розлад самопожирання моделі", маючи на увазі, що моделі починають "споживати" власний контент і деградують з часом. Вчені підкреслюють, що "кожен, хто користується генеративним ШІ, забруднює єдиний пул даних для всіх". У подальшому вони попереджають: якщо "всі ваші дані будуть повністю забруднені, очистити їх буде надзвичайно дорого і майже неможливо". Таким чином, навіть з технічної точки зору, небезпека полягає не лише у відверто неправильних відповідях зараз, але і у довгостроковій ерозії навчальних даних.
Як ШІ вводить в обману в Google AI Overviews
Не лише енциклопедії страждають від некоректної роботи ШІ. Після глобального оновлення Google Search у травні 2024 року найпопулярніша пошукова система стала пропонувати користувачам на початку видачі AI-огляди (AI Overviews) – узагальнення відповідей на пошуковий запит. Однак користувачі швидко помітили їх недоліки, ба більше, навіть кричущі помилки. В перші тижні роботи в медіа активно публікували тисячі скріншотів дивних і помилкових відповідей, які викликали іронію та занепокоєння.
Керівник пошуку Ліз Рід визнала, що в системі дійсно з’явилися "деякі дивні, неточні або безглузді" відповіді, причому поява таких помилок була очікувана. Адже алгоритми пошукової платформи поєднують різні фрагменти з інтернету, і серед них можуть бути відверті помилки, які потенційно можуть бути небезпечними. До прикладу, однією із найвідоміших було відображення отруйних грибів поміж їстівних. Ще одним резонансним прикладом став запит "скільки мусульманських президентів США було?": Google AI Overviews відповіла, що "один – Барак Обама", повністю ігноруючи факт, що Обама не мусульманин.
З часом компанія покращила роботу AI Overviews, але не відмовилась від цієї опції. На конференції для розробників Google I/O у травні 2025-го пошуковий гігант анонсував ще більше сервісів, пов'язаних із глибокою інтеграцією штучного інтелекту, більше того, навіть придумав, як монетизувати AI Overviews. Проте, враховуючи зростання ШІ-забруднення, це може призвести до ситуації, коли пошук від Google помилятиметься частіше, або відповідатиме лише на загальновідомі питання, з якими добре знайомі ШІ-моделі.
Інші приклади поширення низькоякісного AI-контенту
ШІ-забруднення проявляється також в зростанні неякісного ШІ-контенту для користувачів. До прикладу, на Amazon з’явилась велика кількість підробних книг, створених за допомогою ШІ – про це попередила спільнота Авторської гільдії (Authors Guild). Зловмисники пишуть книги за допомогою ШІ, випускають "довідники" чи "путівники", а часом автори справжніх книг знаходили на Amazon шахрайські "конспекти" своїх творів вже наступного дня після релізу. Ці "книги" не містять оригінального змісту, а лиш переповідають очевидні факти, часто – в скороченому варіанті. Хоч Amazon і намагається оперативно видаляти цей контент, система модерації проекту явно не справляється із їх навалою.
ШІ-згенерованими текстами в соцмережах та на форумах сьогодні нікого особливо не здивуєш, то ж адміністраціям таких ресурсів доводиться боротися з цими потоками ШІ-спаму, особливо від цього страждають професійні форуми на кшалт ресурсу для ІТ-фахівців Stack Overflow.
Проте найбільш небезпечним результатом ШІ-забруднення є ШІ-потоки політичних фейків, які існують і у вигляді діпфейків, і у вигляді великої кількості штучно згенерованих повідомлень в соцмережах. Особливо вправною в цьому виявилась Росія з її кампаніями Doppelganger, Pravda та CopyCop.
(не)світле ШІ-майбутнє інтернету
Ситуація із ШІ-забруденням щороку буде погіршуватися. Адже уже сьогодні в інтернеті повно контенту, повністю чи частково створеного ШІ-чатботами. На думку фахівців Європолу, уже до 2026 року частка нового онлайн-контенту, створеного за допомогою штучного інтелекту, наблизиться до 90%. То ж сумнівів в тому, що вибухова хвиля технології штучного інтелекту забруднить онлайн-середовище величезними обсягами синтетичних даних, уже немає. Проблема полягає в тому, як справитися із цим викликом та як зменшити вплив синтетичних даних на нові мовні моделі та ШІ-чатботи.
Одним із шляхів вирішення цієї проблеми можуть стати правила, що вимагатимуть чіткого маркування синтетичних даних на локальному рівні (при публікації в соцмережах чи в медіа) та створенні великих наборів "чистих" (не синтетичних) даних на глобальному рівні – компаніями, які навчають великі мовні моделі та створюють ШІ-чатботи.
Саме про необхідність створення "чистих" репозиторіїв даних також говорять й вчені, які досліджують створення ШІ-моделей. Моріс Чіодо, науковий співробітник Центру дослідження екзистенційних ризиків Кембриджського університету та один із авторів статті про чистоту даних для ШІ переконаний, що саме "чисті людські" дані цінні не лише через зміст інформації, але й через стиль, креативність та різноманіття реальних людських комунікацій.
Наразі попри усі застереження забруднення інформаційного простору лише зростає, а теорія мертвого інтернету, згідно з якої контент Мережі все більше складається із ШІ-контенту, стає все реалістичнішою. Якщо уже сьогодні не захищатися від засилля синтетичного контенту, який впливає на роботу ШІ-чатботів в майбутньому, то розвиток самого штучного інтелекту може зайти в глухий кут. Інакше інтернет із джерела знань перетвориться на дзеркальну кімнату з безкінечними відбитками беззмістовних машинних слів.