12 квітня 2026, 15:05

Україна створює власну мовну модель «Сяйво»: архіви надали 10 терабайтів даних для навчання ШІ

В Україні триває розробка національної великої мовної моделі (LLM) під назвою «Сяйво». Головна мета проєкту — створити штучний інтелект, який максимально точно розумітиме український культурний контекст, історію та унікальні діалекти. Про деталі розробки повідомив в.о. міністра цифрової трансформації Олександр Борняков.

► Читайте «Мінфін» в Instagram: головні новини про інвестиції та фінанси

Архівні фонди

Ключовим етапом навчання моделі став збір унікальних даних, які раніше не використовувалися для тренування глобальних чат-ботів. До ініціативи вже долучилися понад 50 організацій.

Найбільшим постачальником «знань» став Укрдержархів, який передав для розробки 10 терабайтів інформації. Для порівняння, цей обсяг даних еквівалентний бібліотеці з 70 тисяч друкованих книжок. Це перший випадок в історії України, коли архівні фонди безпосередньо залучені до створення передових цифрових сервісів.

Плани до кінця 2026 року

За словами Борнякова, Україна вже займає провідні позиції у світі за темпами оцифрування архівів. Проте в уряді планують значне масштабування. Зараз у цифровому форматі доступно близько 150 млн копій документів.

Прогнозується, що до кінця 2026 року кількість цифрових копій перевищить 200 млн. Усі ці дані стануть базою для тренування «Сяйва».

Автор: