► Підписуйтесь на телеграм-канал «Мінфіну»: головні фінансові новини

Замість роботи на техногіганта, вони вирішили піти власним шляхом і створити штучний інтелект, який працює за принципом людського мозку. І тепер їхній стартап Sapient Intelligence демонструє результати, що перевершують моделі від OpenAI та Anthropic у тестах на абстрактне мислення. Про це пише Fortune.

OpenChat: перший успіх і лист від Маска

Усе почалося в лабораторії мозку Університету Цінхуа в Пекіні. Чен і Ван створили OpenChat — невелику мовну модель, яку тренували не на гігантських масивах даних з інтернету, а на маленькому, ретельно відібраному наборі якісних діалогів. Ключовою фішкою стало використання навчання з підкріпленням (RL), коли система вчиться на власних помилках, як жива істота.

Їхній проєкт «вибухнув» у наукових колах, довівши, що якість даних важливіша за їх кількість. Саме тоді вони отримали пропозицію від Маска, який шукав таланти для xAI.

«Ми вирішили, що великі мовні моделі мають свої обмеження. Ми хотіли нову архітектуру, яка подолає структурні обмеження масштабного машинного навчання», — пояснив Чен причину відмови.

HRM: прорив о 3-й ночі

Хлопці вірили, що шлях до справжнього штучного інтелекту (AGI) лежить не через збільшення розмірів моделей, а через зміну їхньої архітектури. Так народилася модель HRM (Hierarchical Reasoning Model).

Прорив стався в червні 2024 року. О 3-й ночі Чен і Ван побачили результати тестів свого експериментального прототипу. Крихітна модель на 27 мільйонів параметрів (це мікроскопічний розмір порівняно з GPT-4) обійшла гігантів індустрії в задачах на логіку:

  • Вирішила складні судоку (Sudoku-Extreme).
  • Знайшла оптимальні шляхи в лабіринтах 30×30.
  • Показала вражаючі результати в бенчмарку ARC-AGI.

Як це працює: мислення замість вгадування

На відміну від трансформерів (архітектура GPT), які просто передбачають наступне слово на основі статистики, HRM імітує роботу людського мозку. Вона має дворівневу структуру, що поєднує «повільне» глибоке мислення з «швидкими» рефлекторними реакціями.

«Це не вгадування. Це мислення», — каже Чен.

За його словами, їхня модель значно рідше «галюцинує» (вигадує факти) і вже показує результати рівня state-of-the-art у прогнозуванні погоди, трейдингу та медицині.

Майбутнє Sapient

Зараз засновники готуються відкрити офіс у США та залучити нове фінансування. Їхня головна теза залишається радикальною: AGI (загальний штучний інтелект, рівний людському) неможливо створити, просто додаючи більше обчислювальної потужності до старих моделей. Майбутнє — за ефективними, «мозкоподібними» архітектурами.

Чому це важливо

Історія Чена та Вана руйнує міф про те, що для створення проривного ШІ потрібні мільярди доларів і дата-центри розміром з місто. Вона доводить, що в епоху гігантів (Google, OpenAI, Microsoft) все ще є місце для «гаражних» інновацій, якщо вони базуються на геніальній ідеї, а не на грубій силі обчислень.