3 березня 2026, 19:48

ШІ навчився деанонімізувати користувачів за коментарями в соціальних мережах

AI-інженер Саймон Лермен і його колеги представили роботу «Large-Scale Online Deanonymization with LLMs», в якій оцінили можливості LLM встановлювати особистість користувачів за анонімними постами на різних майданчиках. Експерименти проводилися на даних Hacker News, Reddit, LinkedIn, а також на знеособлених інтерв'ю з датасету Anthropic.

Ідея не нова. Ще на початку 2000-х професор Гарварду Латанья Суїні дійшла висновку, що 87% населення США можна ідентифікувати лише за трьома параметрами: поштовим індексом, статтю та датою народження. Але на практиці деанонімізація довго залишалася трудомістким ручним процесом: дані розкидані, не структуровані, і зібрати з них портрет конкретної людини міг хіба що досвідчений аналітик.

LLM прискорюють і автоматизують цей процес, причому роблять це економічно ефективно, стверджують Лермен і його співавтори.

Як це працює

Спочатку модель витягує з коментарів користувача непрямі відомості. Потім за допомогою пошуку на основі ембеддінгів (векторних математичних «відбитків» тексту) формується пул із 100 найбільш ймовірних кандидатів, і на фінальному етапі LLM «розмірковує» і вибирає найкращий збіг.

Для перевірки в одному з тестів дослідники відібрали 338 користувачів Hacker News, чиї профілі містили посилання на LinkedIn. Після видалення прямих ідентифікаторів моделі пропонувалося відновити відповідність між анонімізованим акаунтом і реальною людиною. Модель дала правильну відповідь у 226 випадках із 338 (67%). При цьому точність склала 90% — тобто в тих випадках, коли система взагалі видавала результат, вона майже завжди виявлялася права.

В іншому експерименті історію одного облікового запису Reddit штучно ділили за часом і за тематичними спільнотами. Завданням моделі було «зшити» фрагменти назад. Комбінація ембеддінгів і логічного аналізу значно перевершила базові методи зіставлення за метаданими та активністю.

У міру збільшення пулу кандидатів до десятків тисяч точність знижувалася плавно, без обвалу. Автори екстраполювали результати на бази в 100 млн користувачів і дійшли висновку, що при достатніх обчислювальних потужностях вже можна «атакувати» великі платформи. А з розвитком LLM поріг входу буде тільки знижуватися.

У дослідженні наводиться і реальний кейс. На датасеті знеособлених інтерв'ю вчених модель змогла встановити особи 9 із 125 учасників. Але еталонних даних для даного завдання не було, і результати перевірялися вручну.

Весь експеримент обійшовся приблизно в $2000. Вартість деанонімізації одного профілю — від $1 до $4 (правда, це все в експериментальних умовах, в реальному житті цифра була б зовсім іншою).

Чому це важливо

Автори перераховують кілька сценаріїв зловживань. Уряди можуть використовувати технологію для переслідування журналістів і активістів, корпорації — для побудови надточних рекламних профілів, а зловмисники — для цільового фішингу та соціальної інженерії.

Проте в мережі нагадують, що деанонімізація за непрямими ознаками відома давно. Частина користувачів вказує на обмеженість експериментальних умов, а деякі зазначають, що LLM не створюють принципово нової загрози, а лише автоматизують вже існуючі методи.

Автор: