► Подписывайтесь на телеграм-канал«Минфина»: главные финансовые новости

Что такое «физический ИИ» и почему он важен

В отличие от больших языковых моделей (LLM), которые обрабатывают текстовую информацию, «мировые модели» анализируют визуальные данные для прогнозирования и моделирования событий в реальном мире. Цель состоит в том, чтобы научить алгоритмы ориентироваться в физическом пространстве. Это может стать технологическим фундаментом для прорыва в области самоуправляемых автомобилей, промышленной робототехники и создания полноценных ИИ-агентов.

По словам вице-президента Nvidia по технологиям симуляции Рева Лебаредиана, потенциальный рынок для таких систем колоссален.

«Если мы создадим интеллект, способный понимать и действовать в физическом мире, масштаб возможностей будет колоссальным», — подчеркнул он, оценивая рынок в $100 трлн, что почти равно объему всей мировой экономики.

Кто участвует в гонке

Технологические гиганты уже активно работают над собственными проектами в этой сфере:

  • Google DeepMind в августе представил модель Genie 3, которая способна создавать видео покадрово, анализируя предыдущие кадры и взаимодействия.
  • Meta под руководством Яна ЛеКуна разрабатывает модель V-JEPA, которая обучается на необработанном видеоконтенте, имитируя процесс познания мира ребенком.
  • Nvidia делает ставку на платформу Omniverse, которая симулирует физические среды для тренировки роботов. Глава компании Дженсен Хуанг заявил, что следующая эра Nvidia будет связана именно с «физическим ИИ».

Стартапы также присоединяются к гонке. World Labs создает трехмерные игровые миры из одного изображения, Runway сотрудничает с Голливудом для генерации реалистичных сцен, а Niantic использует данные из игры Pokémon Go для создания детальной карты мира для обучения своих систем.

Инвестиции и риски

Конкуренция в сфере ИИ стимулирует огромные инвестиции, однако аналитики предупреждают о значительных рисках. По данным Morgan Stanley, финансовый разрыв в отрасли оценивается в $1,5 трлн. Прибыли компаний пока не успевают за расходами, что, по мнению некоторых инвесторов, превращает бум ИИ в «спекулятивное безумие». Несмотря на это, ведущие игроки рынка готовы идти на масштабную перестройку инфраструктуры, поскольку верят, что искусственный интеллект полностью переформатирует рынок.

В то же время эксперты отмечают, что до создания систем с человеческим уровнем интеллекта может пройти еще как минимум десятилетие.

Концепция Яна ЛеКуна: ИИ, который учится как человек

Стоит добавить, что подход, который продвигает главный ученый Meta и один из «крестных отцов» И И Ян ЛеКуна, существенно отличается от направления развития больших языковых моделей, таких как ChatGPT. ЛеКуна неоднократно критиковал LLM за отсутствие истинного понимания мира. По его мнению, такие модели только предсказывают следующее слово в предложении, но не способны к рассуждениям и планированию.

Его концепция «мировых моделей» заключается в создании ИИ, который, подобно людям и животным, формирует внутреннюю модель реальности. Это позволяет системе прогнозировать последствия своих действий и эффективно планировать. Архитектура V-JEPA, которую разрабатывает Meta, как раз и направлена на то, чтобы научить ИИ создавать такие абстрактные представления о мире, анализируя видео, а не просто обрабатывая текст.

Почему это важно

Эта новость знаменует собой потенциальный сдвиг в стратегии развития искусственного интеллекта. Если раньше главным полем битвы было создание чат-ботов, способных идеально имитировать человеческую речь, то теперь акцент смещается на наделение ИИ способностью действовать в реальном мире.

Это шаг от цифрового интеллекта к физическому. Представьте разницу между ИИ, который может написать инструкцию по сборке мебели, и ИИ-роботом, который может самостоятельно эту мебель собрать, ориентируясь в пространстве и манипулируя объектами. Успех в создании «мировых моделей» определит лидеров следующей технологической эпохи и может кардинально изменить такие отрасли, как производство, логистика, медицина и бытовая жизнь.