Multi від Мінфін
(8,9K+)
Оформи кредит — виграй iPhone 16 Pro Max!
Встановити
12 квітня 2026, 15:05

Україна створює власну мовну модель «Сяйво»: архіви надали 10 терабайтів даних для навчання ШІ

В Україні триває розробка національної великої мовної моделі (LLM) під назвою «Сяйво». Головна мета проєкту — створити штучний інтелект, який максимально точно розумітиме український культурний контекст, історію та унікальні діалекти. Про деталі розробки повідомив в.о. міністра цифрової трансформації Олександр Борняков.

Україна створює власну мовну модель «Сяйво»: архіви надали 10 терабайтів даних для навчання ШІ
Фото: pixabay

► Читайте «Мінфін» в Instagram: головні новини про інвестиції та фінанси

Архівні фонди

Ключовим етапом навчання моделі став збір унікальних даних, які раніше не використовувалися для тренування глобальних чат-ботів. До ініціативи вже долучилися понад 50 організацій.

Найбільшим постачальником «знань» став Укрдержархів, який передав для розробки 10 терабайтів інформації. Для порівняння, цей обсяг даних еквівалентний бібліотеці з 70 тисяч друкованих книжок. Це перший випадок в історії України, коли архівні фонди безпосередньо залучені до створення передових цифрових сервісів.

Плани до кінця 2026 року

За словами Борнякова, Україна вже займає провідні позиції у світі за темпами оцифрування архівів. Проте в уряді планують значне масштабування. Зараз у цифровому форматі доступно близько 150 млн копій документів.

Прогнозується, що до кінця 2026 року кількість цифрових копій перевищить 200 млн. Усі ці дані стануть базою для тренування «Сяйва».

Автор:
Роман Мирончук
Редактор стрічки новин Роман Мирончук
Пише на теми: Економіка, фінанси, банки, криптовалюти, інвестиції, технології

Коментарі - 7

+
0
SergValin
SergValin
12 квітня 2026, 17:10
#
Крайне интересно, какой у проекта бюджет -- и зачем этот проект вообще нужен.
+
0
Мордехай Шнеерсоненко
Мордехай Шнеерсоненко
12 квітня 2026, 22:30
#
Отмывка бабла
+
0
Oleksii Ch
Oleksii Ch
12 квітня 2026, 19:22
#
10 терабайт тексту для навчання LLM — це взагалі не цифра.
Особливо, якщо там застаріле все.
+
0
Boba Feta
Boba Feta
12 квітня 2026, 22:04
#
GPT-3
300−500 млрд токенів
приблизно 1−2 ТБ тексту
GPT-4 (оцінки)
1−10 трильйонів токенів
приблизно 4−40 ТБ текстових даних
+
0
Oleksii Ch
Oleksii Ch
13 квітня 2026, 7:04
#
Круто! Думав, маштаби сорсів більші…
Дякую
+
0
HooToo
HooToo
13 квітня 2026, 9:15
#
Якщо «сяйво» буде світити як GPT-4 то це патужно
+
0
HooToo
HooToo
13 квітня 2026, 9:15
#
100 разів завантажили Battlefield 6
Щоб залишити коментар, потрібно увійти або зареєструватися