► Подписывайтесь на телеграм-канал «Минфина»: главные финансовые новости
Новый лидер рейтинга
Новая модель GPT-5.5 заняла безусловное лидерство, набрав 60 баллов и обойдя своих главных конкурентов: системы Claude Opus 4.7 (в режиме max) от Anthropic, Gemini 3.1 Pro Preview от Google и предыдущую версию GPT-5.4 от самой OpenAI. Все они набрали по 57 баллов.
Сложная система оценки
Чтобы получить комплексную оценку возможностей искусственного интеллекта, аналитики проверяли системы по 10 чрезвычайно сложным критериям, оценивающим программирование, логику и научное мышление. В перечень тестов вошли:
- оценка экономической полезности
- симуляция работы в службе технической поддержки
- программирование и администрирование в терминале
- написание кода для научных исследований
- умение работать с объемными документами
- база знаний и склонность к «галлюцинациям»
- вопросы на уровне отраслевых экспертов
Переход к «агентским» системам и изменение ценообразования
По данным специализированных технологических блогов, выпуск GPT-5.5 знаменует переход от обычных чат-ботов к автономным «агентам». Система разработана таким образом, чтобы самостоятельно выполнять многоэтапные корпоративные задачи — от поиска информации в сети до проверки собственного кода без дополнительных пошаговых инструкций от человека. Что касается финансовой составляющей, то стоимость обработки данных в GPT-5.5 номинально выросла, однако благодаря оптимизации алгоритмов модель использует почти на 40% меньше вычислительных единиц (токенов) для генерации ответов. Это позволяет частично компенсировать подорожание и делает ее более эффективной для масштабного развертывания в бизнес-процессах.