Как происходит отравление данных?

ИИ-системы основываются на анализе огромных массивов информации. И именно поэтому данные, которыми «обучают» модели, могут быть отравленными. То есть их могут намеренно насыщать ложными или манипулятивными фактами, которые потребители будут воспринимать как правдивую информацию.

Отравление данных искусственного интеллекта происходит, когда злоумышленник манипулирует результатами работы ИИ или модели машинного обучения, изменяя обучающие данные. Обычно целью злоумышленника в атаке является замена данных на пристрастные или вообще опасные результаты работы модели.

Секрет в том, что модели ИИ имеют два основных компонента: обучающие данные и алгоритмы. Представьте себе алгоритм — как двигатель автомобиля, а обучающие данные — как бензин, дающий двигателю что-то для сжигания. Также данные заставляют модель ИИ работать и генерировать данные. Атака с отравлением данных похожа на то, если бы кто-то добавил в топливо дополнительный ингредиент, заставивший авто сломаться.

Потенциальные последствия отравления данных с каждым днем становятся все более серьезными, поскольку все больше компаний и людей начинают полагаться на ответы ИИ в своей повседневной деятельности. И это уже не гипотетический сценарий: хакеры и киберпреступники активно используют эти инструменты, чтобы распространять фейки или влиять на поведение систем искусственного интеллекта.

К примеру, российские пропагандисты уже используют технологии ИИ для распространения ложной информации. Так, если у сервиса, в который интегрировано ИИ, спросить о чем-то совсем актуальном, например, последние новости, то он проанализирует не данные, которые ему «кормили» раньше на этапе обучения, а релевантные запросу страницы сайтов по поисковой выдаче. Именно этим и пользуются россияне. Как? По одному из примеров: они создают целые сети сайтов с недостоверной информацией и продвигают их, придавая вес, чтобы сервисы основывали ответы именно на информации этих ресурсов. Это, к сожалению, уже хорошо работает.

Какие могут быть типы воздействия на данные?

Рассмотрим 3 типа атак.

Подсовывание ложных данных. Во время этого типа атак злоумышленники манипулируют набором данных, добавляя фиктивную информацию, что приводит к неточным результатам обучения и прогнозам. Например, манипулирование системой рекомендаций по включению ошибочных оценок клиентов может изменить то, как оценивают качество продукта.

Изменение существующих данных. При этом типе атак злоумышленники изменяют подлинные данные, преднамеренно внося ошибки и вводя систему в заблуждение. Примером может служить изменение значений в базе данных финансовых транзакций с целью компрометации систем обнаружения мошенничества или создания неправильных расчетов накопленной прибыли или убытков.

Удаление данных. Во время этого типа атаки создаются пробелы, которые влияют на производительность модели в крайних случаях — на тех же сценариях, на выявление которых и рассчитано много систем, критически важных для безопасности. Например, система кибербезопасности может стать невосприимчивой к определенным сетевым атакам, если данные об атаках исчезнут.

Проанализируем несколько подробнее: злоумышленники могут использовать специально подготовленные дата-сеты, на которых будут учить модель. Именно в них будут находиться ложные данные. Поскольку модель сама не может «понять», что является правдой (там может вообще не быть правды), ответы будут подготовлены на основе ложных данных. Как эти дата-сеты «поддвинуть» нужной аудитории — это уже другое дело. Да и как обнаружить в этих терабайтах фейки — тоже большой вопрос. Также киберпреступники могут влиять на сам алгоритм формулировки ответа, где будут проигнорированы правильные утверждения.

Еще один подход, который могут практиковать киберпреступники или даже рядовые пользователи — влияние на сервис через вопросы. Например, если у пользователя (или сети аккаунтов) в сервисе с ИИ настроено «обучать модель на пользовательских данных», то потенциально таким образом тоже можно влиять на модели некоторых сервисов.

Деталей, насколько глубоко и как именно технически это учитывается или не учитывается — пока мало. Но рано или поздно пользовательский запрос может превратиться в утверждение, которое предоставит уже сам сервис. И это может оказаться проблемой. Потому что с одной стороны таким сервисам нужны пользовательские данные для обучения (недаром галочка об обучении стоит по умолчанию), а с другой — это возможность для data poisoning.

Здесь уместно вспомнить историю с подобным отравлением почти 10 лет назад. В 2016 году компания Microsoft запустила чат Tay, который должен был учиться от пользователей в Twitter. Но пользователи в течение нескольких часов «научили» его использовать в ответах на расистские и сексистские элементы и стать «приверженцем» конспирологии.

Что делать пользователям

Хорошо, когда люди понимают принцип работы сервисов с ИИ и меньше подвергают себя опасности. Однако есть люди, для которых все это магия. Как правило, у них уровень доверия к выдаче такой информации высок. Действительно, ответы ИИ практически всегда смотрятся убедительно. Понимая, как люди взаимодействуют с сервисами, злоумышленники (если обобщить это понятие) могут попытаться повлиять на результаты ответов. Причин это делать — куча.

С развитием технологий растет и уровень сложности киберугроз. Современные атаки становятся все более незаметными, но в то же время чрезвычайно опасными. Для жертв таких вторжений последствия могут быть разрушительными: от потери персональных данных до серьезных репутационных или финансовых потерь.

Некоторые формы отравления данных могут иметь исключительно преступные цели. Все чаще злоумышленники прибегают к манипуляциям с искусственным интеллектом, чтобы внедрять вредоносные алгоритмы или угонять конфиденциальную информацию.

Учитывая, что цифровые технологии все глубже интегрируются во все сферы нашей жизни, от медицины до финансов, вопрос защиты ИИ-систем от кибератак становится критически важным. Ведь любая уязвимость может использоваться хакерами для серьезного вмешательства в работу систем, которые мы ежедневно воспринимаем как надежные.

Читайте также: За 3−5 лет ИИ-агенты будут тратить средства своих владельцев

Что же с этим делать обычным пользователям? Понятно, что вряд ли кто-то откажется от использования разумных сервисов, потому что это удобно и эффективно. Но я бы не стал полагаться на то, что разработчики будут прилагать усилия в первую очередь к борьбе с дезинформацией. Следовательно, не доверяйте всему, что говорит тот или иной сервис в своих ответах. Обязательно старайтесь проверять. Особенно в вопросах, влияющих на ваши решения. Пока только так можно уменьшить риски стать жертвой отравленных данных.