
Жалобы на бедность в сельской Китае. Новостной репортаж о коррумпированном члене Коммунистической партии. Крик о помощи в связи с коррупцией полицейских, трясущих предпринимателей.
Это всего лишь несколько из 133 000 примеров, поданных в сложную модель обработки естественного языка, которая разработана для автоматического обнаружения любого контента, считаемого чувствительным для китайского правительства.
Протечка базы данных, виденная TechCrunch, показывает, что Китай создал систему искусственного интеллекта, которая дополняет уже могучую цензурную машину, простираясь далеко за традиционные табу вроде трагедии на площади Тяньаньмэн.
Система, кажется, главным образом ориентирована на цензурирование китайских граждан в Интернете, но может быть использована и для других целей, вроде улучшенияужесуществующей обширной цензуры китайских моделей искусственного интеллекта.

Сяоцян, исследователь из Университета Калифорнии в Беркли, который изучает китайскую цензуру и также изучил набор данных, сказал TechCrunch, что это "явное доказательство" того, что китайское правительство или его аффилированные лица хотят использовать LLM для усиления репрессий.
“В отличие от традиционных механизмов цензуры, которые опираются на человеческий труд для фильтрации по ключевым словам и ручного просмотра, LLM, обученный по таким инструкциям, существенно повысил бы эффективность и детализированность государственного информационного контроля", - сказал Кянг TechCrunch.
Это добавляется к растущему доказательству того, что тоталитарные режимы быстро принимают последние достижения искусственного интеллекта. В феврале, например, OpenAI заявила, что смогла захватить несколько китайских организаций, использующих LLM для отслеживания антиправительственных постов и клеветы на китайских диссидентов.
Посольство Китая в Вашингтоне, округ Колумбия, сказало TechCrunch в заявлении, что противится "необоснованным нападкам и клевете на Китай" и что Китай обращает большое внимание на развитие этичного искусственного интеллекта.
Данные найдены на виду
Базу данных обнаружил исследователь по безопасности НетАскари, который поделился образцом с TechCrunch после того, как нашел его в незащищенной базе данных Elasticsearch, размещенной на сервере Baidu.
Это не указывает на участие какой-либо из компаний - все виды организаций хранят свои данные с такими провайдерами.
Нет признаков того, кто именно создал набор данных, но записи показывают, что данные свежие, с последними записями, датируемыми декабрем 2024 года.
LLM для выявления диссидентов
Язык, напоминающий о том, как люди подают ChatGPT, создатель системы поручает неименованному LLM выяснить, связан ли кусок контента с чувствительными темами, связанными с политикой, социальной жизнью и военным делом. Такой контент считается "высшим приоритетом" и требует немедленного обозначения.
Темами высшего приоритета являются скандалы с загрязнением и безопасностью пищевых продуктов, финансовое мошенничество и трудовые споры, которые вызывают острое недовольство в Китае и иногда приводят к общественным протестам - например, протестам против загрязнения в Шифанге 2012 года.
Явно целевым становится любая форма "политической сатиры". К примеру, если кто-то использовал исторические аналогии, чтобы сделать замечание о "современных политических деятелях", это должно быть незамедлительно обозначено, а также все, связанное с "политикой Тайваня". Военные вопросы широко целевые, включая отчеты о военных передвижениях, учениях и вооружении.
Отрывок из набора данных можно увидеть ниже. Код внутри него ссылается на панели представлений и LLM, подтверждая, что система использует модель искусственного интеллекта для выполнения своих задач:

Внутри тренировочных данных
Из этого огромного сборника из 133 000 примеров, которые LLM должен оценить для цензуры, TechCrunch собрал 10 представительных кусков контента.
Темы, которые, вероятно, вызовут социальные потрясения, являются повторяющейся темой. Один отрывок, например, - это пост владельца бизнеса, жалующегося на коррумпированных местных полицейских, трясущих предпринимателей, становящийся растущей проблемой в Китае в условиях экономических трудностей.
Другой кусок контента плачет о сельской бедности в Китае, описывая обветшалые города, в которых остались только пожилые люди и дети. Есть также новостной отчет о исключении Китайской коммунистической партией (КПК) местного должностного лица за серьезную коррупцию и веру в "суеверия" вместо марксизма.
Есть обширный материал, связанный с Тайванем и военными вопросами, такие как комментарии о военном потенциале Тайваня и детали о новом китайском истребителе. Китайское слово для Тайваня (台湾) упоминается более 15 000 раз в данных, что показывает поиск TechCrunch.
Также целевым кажется тонкое диссидентство. Один отрывок, включенный в базу данных, - это анекдот о мимолетной природе власти, использующий популярную китайскую пословицу “Когда дерево падает, обезьяны разбегаются”.
Передачи власти - особенно деликатная тема в Китае из-за его авторитарной политической системы.
Создано для "работы с общественным мнением"
Набор данных не включает информации о его создателях. Но он говорит, что предназначен для "работы с общественным мнением", что предлагает крепкую подсказку, что он должен служить целям китайского правительства, объяснил эксперт TechCrunch.
Майкл Кастер, менеджер программы в Азии в правозащитной организации Article 19, объяснил, что "работа с общественным мнением" контролируется мощным регулятором китайского правительства, Управлением киберпространства Китая (ЦАК), и обычно относится к усилиям по цензуре и пропаганде.
Конечная цель - обеспечение защищенности онлайн-нарративов китайского правительства, тогда как любые альтернативные мнения уничтожаются. Сам президент Китая Си Цзиньпин сам описал интернет как "фронтовую линию" в "работе с общественным мнением" КПК.
Репрессии становятся умнее
Набор данных, исследованный TechCrunch, является последним доказательством того, что авторитарные правительства стремятся использовать искусственный интеллект для репрессивных целей.
OpenAI опубликовала отчет в прошлом месяце, показывая, что неопознанный субъект, вероятно, действующий из Китая, использовал генеративный искусственный интеллект для мониторинга разговоров в социальных сетях - особенно тех, которые агитируют в поддержку массовых протестов за права человека против Китая - и пересылает их правительству Китая.
OpenAI также обнаружило, что технология используется для создания комментариев, сильно критикующих известного китайского диссидента, Цай Ся.
Традиционно методы цензуры в Китае опиралис на более основные алгоритмы, которые автоматически блокировали бы содержание, упоминая слова в черном списке, вроде "трагедия на Тяньаньмэне" или "Си Цзиньпин", как многие пользователи испытали, используя DeepSeek в первый раз.
Но новые технологии искусственного интеллекта, как LLM, могут сделать цензуру более эффективной, находя даже тонкую критику в огромных масштабах. Некоторые системы искусственного интеллекта могут также постоянно совершенствоваться, поглощая все больше и больше данных.
“Я считаю важным подчеркнуть, как эволюционирует цензура, управляемая искусственным интеллектом, делающая государственный контроль над общественным дискурсом еще более сложным, особенно в то время, когда китайские модели искусственного интеллекта, такие как DeepSeek, составляют волну”, - сказал Xiao, исследователь из Беркли, TechCrunch.