► Підписуйтесь на телеграм-канал «Мінфіну»: головні фінансові новини

Новий лідер рейтингу

Нова модель GPT-5.5 здобула беззаперечне лідерство, набравши 60 балів, залишивши позаду своїх головних конкурентів: системи Claude Opus 4.7 (у режимі max) від Anthropic, Gemini 3.1 Pro Preview від Google та попередню версію GPT-5.4 від самої OpenAI. Усі вони набрали по 57 балів.

Складна система оцінювання

Аби отримати комплексну оцінку можливостей штучного інтелекту, аналітики перевіряли системи за 10 надскладними критеріями, що тестують програмування, логіку та наукове мислення. До переліку бенчмарків увійшли:

  • оцінка економічної корисності
  • симуляція роботи в технічній підтримці
  • програмування та адміністрування в терміналі
  • написання коду для наукових досліджень
  • здатність працювати з довгими документами
  • база знань та схильність до «галюцинацій»
  • питання на рівні галузевих експертів

Перехід до «агентних» систем та зміна ціноутворення

За даними спеціалізованих техноблогів, реліз GPT-5.5 знаменує перехід від звичайних чат-ботів до автономних «агентів». Система розроблена таким чином, щоб самостійно виконувати багатоетапні корпоративні завдання — від пошуку інформації в мережі до перевірки власного коду без додаткових покрокових інструкцій від людини. Щодо фінансової складової, то вартість обробки даних у GPT-5.5 номінально зросла, проте завдяки оптимізації алгоритмів модель використовує майже на 40% менше обчислювальних одиниць (токенів) для генерації відповідей. Це дозволяє частково компенсувати здорожчання та робить її більш ефективною для масштабного розгортання в бізнес-процесах.