Китайская ИИ-компания DeepSeek представила новую версию своей флагманской большой языковой модели DeepSeek V3.1. Компания тихо анонсировала обновление 19 августа 2025 года в своей группе в WeChat, без публикаций на официальных каналах, сообщает Gizmochina.
DeepSeek выпустила обновленную модель ИИ
► Читайте «Минфин» в Instagram: главные новости об инвестициях и финансах
Ключевые обновления DeepSeek V3.1
Важнейшим изменением в V3.1 явилось увеличение контекстного окна до 128 000 токенов, что позволяет модели прорабатывать объемы информации, эквивалентные книге на 300−400 страниц.
Это значительно улучшает возможности создания длинного контента, анализа технических документов и ведения длительных многоступенчатых диалогов. Хотя модель V3 уже имела внутреннюю поддержку расширенного контекста, в новой версии она была официально активирована для всех интерфейсов.
DeepSeek V3.1 продолжает использовать архитектуру Mixture-of-Experts (MoE), позволяющую активировать только 37 миллиардов из общих 685 миллиардов параметров на каждый токен. Это повышает эффективность и снижает затраты на работу модели.
Модель доступна для разработчиков через API или загрузки на Hugging Face под открытой лицензией MIT.
Высокие оценки и изменение стратегии
Обновленная модель показала хорошие результаты в независимых тестах. Она набрала 71,6% на тесте Aider для программирования, опередив Claude Opus 4 и став одной из самых мощных открытых моделей для написания кода.
DeepSeek V3.1 также продемонстрировала улучшенную производительность в математических и логических задачах, хотя некоторые пользователи не заметили явных улучшений по сравнению с предыдущей моделью R1−0528.
DeepSeek убрала все упоминания о модели R1 из своего чат-интерфейса, что свидетельствует о переходе к единой гибридной архитектуре. Компания, похоже, интегрировала возможности соображения в V3.1, вместо того чтобы поддерживать отдельную модель.
Задержка модели R2 через чипы Huawei
Ожидалось, что следующим большим релизом DeepSeek станет долгожданная модель R2, которая должна продвинуть возможности рассуждения. Однако, согласно недавнему заявлению Financial Times, выпуск R2 был отложен из-за постоянных технических проблем с использованием ИИ-чипов Huawei Ascend.
Читайте также: DeepSeek отложила выпуск новой модели из-за проблем с китайскими чипами
Сообщается, что Пекин настаивал на использовании оборудования Ascend для снижения зависимости от Nvidia, соответствующей национальной стратегии Китая по самообеспечению в области ИИ.
Несмотря на поддержку инженеров Huawei, обучение модели на чипах Ascend провалилось из-за проблем совместимости и производительности. В конце концов компания была вынуждена перейти на GPU от Nvidia для обучения, а чипы Ascend оставить для менее требовательных задач.
Этот инцидент подчеркнул ограничение внутренней инфраструктуры Китая для чипов и трудности, с которыми сталкиваются стартапы, пытаясь одновременно удовлетворить политические и технические требования. Пока конкуренты, такие как Alibaba с моделью Qwen3, двигаются вперед, DeepSeek пытается решить проблемы с разработкой.
Комментарии