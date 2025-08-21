Multi від Мінфін
21 серпня 2025, 13:47

DeepSeek випустила оновлену модель ШІ

Китайська ШІ-компанія DeepSeek представила нову версію своєї флагманської великої мовної моделі — DeepSeek V3.1. Компанія тихо анонсувала оновлення 19 серпня 2025 року у своїй групі в WeChat, без публікацій на офіційних каналах, повідомляє Gizmochina.

Китайська ШІ-компанія DeepSeek представила нову версію своєї флагманської великої мовної моделі — DeepSeek V3.1.
Фото: freepik.com

► Читайте «Мінфін» в Instagram: головні новини про інвестиції та фінанси

Ключові оновлення DeepSeek V3.1

Найважливішою зміною у V3.1 стало збільшення контекстного вікна до 128 000 токенів, що дозволяє моделі опрацьовувати обсяги інформації, еквівалентні книзі на 300−400 сторінок.

Це значно покращує можливості генерації довгого контенту, аналізу технічних документів та ведення тривалих багатоступеневих діалогів. Хоча модель V3 вже мала внутрішню підтримку розширеного контексту, у новій версії вона була офіційно активована для всіх інтерфейсів.

DeepSeek V3.1 продовжує використовувати архітектуру Mixture-of-Experts (MoE), що дозволяє активувати лише 37 мільярдів із загальних 685 мільярдів параметрів на кожен токен. Це підвищує ефективність та знижує витрати на роботу моделі.

Модель доступна для розробників через API або для завантаження на Hugging Face під відкритою ліцензією MIT.

Високі оцінки та зміна стратегії

Оновлена модель показала хороші результати в незалежних тестах. Вона набрала 71,6% на тесті Aider для програмування, випередивши Claude Opus 4 і ставши однією з найсильніших відкритих моделей для написання коду.

DeepSeek V3.1 також продемонструвала покращену продуктивність у математичних та логічних завданнях, хоча деякі користувачі не помітили явних покращень у міркуванні порівняно з попередньою моделлю R1−0528.

DeepSeek прибрала всі згадки про модель R1 зі свого чат-інтерфейсу, що свідчить про перехід до єдиної гібридної архітектури. Компанія, схоже, інтегрувала можливості міркування у V3.1, замість того, щоб підтримувати окрему модель.

Затримка моделі R2 через чипи Huawei

Очікувалося, що наступним великим релізом DeepSeek стане довгоочікувана модель R2, яка мала б просунути можливості міркування. Однак, згідно з нещодавньою заявою Financial Times, випуск R2 було відкладено через постійні технічні проблеми з використанням ШІ-чипів Huawei Ascend.

Читайте також: DeepSeek відклала випуск нової моделі через проблеми з китайськими чіпами

Повідомляється, що Пекін наполягав на використанні обладнання Ascend для зниження залежності від Nvidia, що відповідає національній стратегії Китаю щодо самозабезпечення в галузі ШІ.

Попри підтримку інженерів Huawei, навчання моделі на чипах Ascend провалилося через проблеми сумісності та продуктивності. Зрештою, компанія була змушена перейти на GPU від Nvidia для навчання, а чипи Ascend залишити для менш вимогливих завдань.

Цей інцидент підкреслив обмеження внутрішньої інфраструктури Китаю для чипів та труднощі, з якими стикаються стартапи, намагаючись одночасно задовольнити політичні та технічні вимоги. Поки конкуренти, як-от Alibaba з моделлю Qwen3, рухаються вперед, DeepSeek намагається вирішити проблеми з розробкою.

Автор:
Роман Мирончук
Редактор стрічки новин Роман Мирончук
Пише на теми: Економіка, фінанси, банки, криптовалюти, інвестиції, технології
Джерело: Мінфін
