Американский стартап в сфере искусственного интеллекта Anthropic заявил, что три крупных китайских разработчика ИИ создали более 24 тысяч поддельных учетных записей, чтобы незаконно скачивать информацию из их флагманской модели Claude для обучения собственных систем. Об этом сообщает The Wall Street Journal.

Как работала схема

По данным компании, китайские фирмы DeepSeek, Moonshot AI и MiniMax сгенерировали более 16 миллионов запросов к Claude. Целью этих действий было использование тактики, известной как «дистилляция». Это процесс, когда ответы мощной и уже обученной модели используются в качестве учебного материала для создания другой, меньшей программы.

В Anthropic отмечают, что сама по себе дистилляция имеет законное применение, когда компании создают уменьшенные копии собственных продуктов. Однако использование чужих алгоритмов позволяет конкурентам создавать аналоги «за долю времени и за долю стоимости», избегая миллиардных затрат на базовые исследования.

Это заявление появилось вскоре после того, как ранее в этом месяце главный конкурент Anthropic — компания OpenAI — направила письмо американским конгрессменам, в котором также обвинила DeepSeek в копировании своих продуктов через механизм дистилляции.

Кто скачал больше всего информации

Масштабы использования американской нейросети существенно различались в зависимости от компании:

MiniMax оказалась самой активной — более 13 миллионов взаимодействий с Claude.

Moonshot AI осуществила более 3,4 миллиона запросов.

DeepSeek имела наименьшую долю среди этой тройки — 150 тысяч взаимодействий.

Ни одна из указанных китайских компаний не ответила на просьбу журналистов прокомментировать эти обвинения.

Как оправдываются разработчики из Китая

В последнее время китайские фирмы активно выпускают новые модели ИИ с улучшенными возможностями логического мышления и написания программного кода, а DeepSeek в ближайшее время готовится представить систему следующего поколения. Еще в прошлом году стремительный успех DeepSeek вызвал подозрения среди экспертов, что Китай смог так быстро догнать США именно благодаря дистилляции, несмотря на отсутствие доступа к самым современным микрочипам.

В своем обновленном сентябрьском исследовании представители DeepSeek уверяли, что на финальных этапах обучения своей главной модели V3 использовали только обычные веб-страницы и электронные книги, избегая так называемых «синтетических данных» (сгенерированных другим ИИ). Однако они признали, что некоторые сайты содержали «значительное количество ответов, сгенерированных моделью OpenAI», поэтому их система могла получить эти знания опосредованно.

В то же время в своем техническом отчете за июль разработчики Moonshot открыто признали использование синтетических данных для обучения своей модели Kimi K2. Дефицит качественной информации в интернете заставляет компании все чаще прибегать к этому методу, особенно когда речь идет о создании систем, способных самостоятельно выполнять задачи вместо пользователя.

Угроза национальной безопасности США

Руководство Anthropic подчеркивает, что такие действия китайских разработчиков представляют прямую угрозу национальной безопасности Соединенных Штатов.

«Иностранные лаборатории, которые дистиллируют американские модели, могут затем интегрировать эти незащищенные возможности в военные, разведывательные и системы наблюдения», — подчеркнули в компании.