Multi от Минфин
(8,9K+)
Оформи кредит — выиграй iPhone 16 Pro Max!
Установить
12 апреля 2026, 15:05 Читати українською

Украина создает собственную языковую модель «Сяйво»: архивы предоставили 10 терабайтов данных для обучения ИИ

В Украине идет разработка национальной крупной языковой модели (LLM) под названием «Сяйво». Главная цель проекта — создать искусственный интеллект, максимально точно понимающий украинский культурный контекст, историю и уникальные диалекты. О деталях разработки сообщил и.о. министра цифровой трансформации Александра Борнякова.

Украина создает собственную языковую модель «Сяйво»: архивы предоставили 10 терабайтов данных для обучения ИИ
Фото: pixabay

► Читайте «Минфин» в Instagram: главные новости об инвестициях и финансах

Архивные фонды

Ключевым этапом обучения модели стал сбор уникальных данных, ранее не использовавшихся для тренировки глобальных чат-ботов. К инициативе уже присоединились более 50 организаций.

Крупнейшим поставщиком знаний стал Укргосархив, передавший для разработки 10 терабайтов информации. Для сравнения, этот объем данных эквивалентен библиотеке из 70 тысяч печатных книг. Это первый случай в истории Украины, когда архивные фонды напрямую вовлечены в создание передовых цифровых сервисов.

Планы до конца 2026 года

По словам Борнякова, Украина уже занимает лидирующие позиции в мире по темпам оцифровки архивов. Однако в правительстве планируют значительное расширение масштабов. Сейчас в цифровом формате доступно около 150 млн копий документов.

Прогнозируется, что к концу 2026 года количество цифровых копий превысит 200 млн. Все эти данные станут базой для обучения «Сяйва».

Автор:
Роман Мирончук
Редактор ленты новостей Роман Мирончук
Пишет на темы: Экономика, финансы, банки, криптовалюты, инвестиции, технологии

Комментарии - 7

+
0
SergValin
SergValin
12 апреля 2026, 17:10
#
Крайне интересно, какой у проекта бюджет -- и зачем этот проект вообще нужен.
+
0
Мордехай Шнеерсоненко
Мордехай Шнеерсоненко
12 апреля 2026, 22:30
#
Отмывка бабла
+
0
Oleksii Ch
Oleksii Ch
12 апреля 2026, 19:22
#
10 терабайт тексту для навчання LLM — це взагалі не цифра.
Особливо, якщо там застаріле все.
+
0
Boba Feta
Boba Feta
12 апреля 2026, 22:04
#
GPT-3
300−500 млрд токенів
приблизно 1−2 ТБ тексту
GPT-4 (оцінки)
1−10 трильйонів токенів
приблизно 4−40 ТБ текстових даних
+
0
Oleksii Ch
Oleksii Ch
13 апреля 2026, 7:04
#
Круто! Думав, маштаби сорсів більші…
Дякую
+
0
HooToo
HooToo
13 апреля 2026, 9:15
#
Якщо «сяйво» буде світити як GPT-4 то це патужно
+
0
HooToo
HooToo
13 апреля 2026, 9:15
#
100 разів завантажили Battlefield 6
Чтобы оставить комментарий, нужно войти или зарегистрироваться