ШІ-стартап Anthropic звинувачує китайських конкурентів у масовій крадіжці даних

Американський стартап у сфері штучного інтелекту Anthropic заявив, що три великі китайські розробники ШІ створили понад 24 тисячі підроблених облікових записів, щоб незаконно викачувати інформацію з їхньої флагманської моделі Claude для навчання власних систем. Про це повідомляє The Wall Street Journal.

► Підписуйтесь на телеграм-канал «Мінфіну»: головні фінансові новини

Як працювала схема

За даними компанії, китайські фірми DeepSeek, Moonshot AI та MiniMax згенерували понад 16 мільйонів запитів до Claude. Метою цих дій було використання тактики, відомої як «дистиляція». Це процес, коли відповіді потужної та вже навченої моделі використовуються як навчальний матеріал для створення іншої, меншої програми.

В Anthropic зазначають, що сама по собі дистиляція має законне застосування, коли компанії створюють зменшені копії власних продуктів. Однак використання чужих алгоритмів дозволяє конкурентам створювати аналоги «за частку часу та за частку вартості», уникаючи мільярдних витрат на базові дослідження.

Ця заява з'явилася невдовзі після того, як раніше цього місяця головний конкурент Anthropic — компанія OpenAI — надіслала листа американським конгресменам, у якому також звинуватила DeepSeek у копіюванні своїх продуктів через механізм дистиляції.

Хто викачав найбільше інформації

Масштаби використання американської нейромережі суттєво відрізнялися залежно від компанії:

MiniMax виявилася найактивнішою — понад 13 мільйонів взаємодій із Claude.
Moonshot AI здійснила понад 3,4 мільйона запитів.
DeepSeek мала найменшу частку серед цієї трійки — 150 тисяч взаємодій.

Жодна із зазначених китайських компаній не відповіла на прохання журналістів надати коментар щодо цих звинувачень.

Як виправдовуються розробники з Китаю

Останнім часом китайські фірми активно випускають нові моделі ШІ з покращеними можливостями логічного мислення та написання програмного коду, а DeepSeek найближчим часом готується представити систему наступного покоління. Ще минулого року стрімкий успіх DeepSeek викликав підозри серед експертів, що Китай зміг так швидко наздогнати США саме завдяки дистиляції, попри відсутність доступу до найсучасніших мікрочіпів.

У своєму оновленому вересневому дослідженні представники DeepSeek запевняли, що на фінальних етапах навчання своєї головної моделі V3 використовували лише звичайні вебсторінки та електронні книги, уникаючи так званих «синтетичних даних» (згенерованих іншим ШІ). Однак вони визнали, що деякі сайти містили «значну кількість відповідей, згенерованих моделлю OpenAI», тому їхня система могла отримати ці знання опосередковано.

Водночас у своєму технічному звіті за липень розробники Moonshot відкрито визнали використання синтетичних даних для навчання своєї моделі Kimi K2. Дефіцит якісної інформації в інтернеті змушує компанії все частіше вдаватися до цього методу, особливо коли йдеться про створення систем, здатних самостійно виконувати завдання замість користувача.

Загроза національній безпеці США

Керівництво Anthropic наголошує, що такі дії китайських розробників становлять пряму загрозу національній безпеці Сполучених Штатів.

«Іноземні лабораторії, які дистилюють американські моделі, можуть потім інтегрувати ці незахищені можливості у військові, розвідувальні та системи спостереження», — підкреслили в компанії.

Автор:

Ярослав Голобородько