В Україні триває розробка національної великої мовної моделі (LLM) під назвою «Сяйво». Головна мета проєкту — створити штучний інтелект, який максимально точно розумітиме український культурний контекст, історію та унікальні діалекти. Про деталі розробки повідомив в.о. міністра цифрової трансформації Олександр Борняков.
Україна створює власну мовну модель «Сяйво»: архіви надали 10 терабайтів даних для навчання ШІ
► Читайте «Мінфін» в Instagram: головні новини про інвестиції та фінанси
Архівні фонди
Ключовим етапом навчання моделі став збір унікальних даних, які раніше не використовувалися для тренування глобальних чат-ботів. До ініціативи вже долучилися понад 50 організацій.
Найбільшим постачальником «знань» став Укрдержархів, який передав для розробки 10 терабайтів інформації. Для порівняння, цей обсяг даних еквівалентний бібліотеці з 70 тисяч друкованих книжок. Це перший випадок в історії України, коли архівні фонди безпосередньо залучені до створення передових цифрових сервісів.
Плани до кінця 2026 року
За словами Борнякова, Україна вже займає провідні позиції у світі за темпами оцифрування архівів. Проте в уряді планують значне масштабування. Зараз у цифровому форматі доступно близько 150 млн копій документів.
Прогнозується, що до кінця 2026 року кількість цифрових копій перевищить 200 млн. Усі ці дані стануть базою для тренування «Сяйва».
Коментарі