SIMA 2: ИИ-агент DeepMind с интеллектом Gemini

Google DeepMind представил SIMA 2 — новое поколение универсальных ИИ-агентов, сочетающих языковые и логические способности модели Gemini. Это позволяет SIMA 2 не просто следовать инструкциям, но и осмысленно взаимодействовать с окружающей средой.

Подобно другим разработкам DeepMind, таким как AlphaFold, первая версия SIMA обучалась на сотнях часов игровых данных, осваивая различные 3D-игры на уровне человека. SIMA 1, представленная в марте 2024 года, могла выполнять базовые команды в виртуальных мирах, но её успех в сложных задачах составлял всего 31% против 71% у людей.

«SIMA 2 — это качественный скачок по сравнению с SIMA 1», — отметил Джо Марино, ведущий научный сотрудник DeepMind. — «Это более универсальный агент, способный выполнять сложные задачи в незнакомых средах. К тому же, он самосовершенствуется на основе собственного опыта, приближая нас к созданию более универсальных роботов и систем общего искусственного интеллекта (AGI)».

SIMA 2 использует модель Gemini 2.5 Flash-Lite. AGI — это искусственный интеллект, способный выполнять широкий спектр интеллектуальных задач, обучаться новым навыкам и обобщать знания из различных областей.

DeepMind подчёркивает важность «воплощённых агентов» (embodied agents) для развития общего интеллекта. Марино пояснил, что такой агент взаимодействует с миром через «тело», получая информацию и совершая действия, подобно роботу или человеку. В отличие от него, невоплощённые агенты работают с календарями, заметками или кодом.

Джейн Ван, ведущий научный сотрудник DeepMind, добавила, что SIMA 2 выходит далеко за рамки игр. «Мы требуем от него понимания происходящего, смысла запросов пользователя и способности дать разумный ответ, что само по себе является сложной задачей».

Интеграция с Gemini позволила SIMA 2 удвоить производительность по сравнению с предшественником, объединив продвинутые языковые и логические возможности Gemini с навыками взаимодействия с окружающей средой, полученными в ходе обучения.

Во время демонстрации в игре "No Man's Sky" SIMA 2 описала окружение — скалистую планету — и, распознав аварийный маяк, определила дальнейшие действия. Используя Gemini для внутренней логики, агент в другой игре, получив команду добраться до дома цвета спелого помидора, рассуждал так: "спелые помидоры красные, значит, иду к красному дому", после чего нашёл и приблизился к нему.

Благодаря Gemini, SIMA 2 также понимает инструкции, выраженные с помощью эмодзи: «Вы даёте команду 🪓🌲, и он идёт рубить дерево», — пояснил Марино.

Марино также продемонстрировал, как SIMA 2 ориентируется в новых фотореалистичных мирах, созданных моделью Genie от DeepMind, корректно идентифицируя и взаимодействуя с объектами, такими как скамейки, деревья и бабочки.

Gemini также позволяет SIMA 2 самосовершенствоваться без значительного объёма человеческих данных. Если SIMA 1 обучалась исключительно на основе игрового процесса людей, то SIMA 2 использует его как отправную точку. Помещая агента в новую среду, команда просит другую модель Gemini генерировать новые задачи, а специализированная модель оценивает попытки агента. Используя этот самогенерируемый опыт как обучающие данные, агент учится на своих ошибках, постепенно улучшая производительность и осваивая новые навыки методом проб и ошибок, подобно человеку, но с руководством ИИ-обратной связи.

DeepMind рассматривает SIMA 2 как шаг к созданию более универсальных роботов.

«Чтобы робот мог выполнять задачи в реальном мире, ему необходимы два компонента», — пояснил Фредерик Бессе, ведущий инженер-исследователь DeepMind. — «Во-первых, это высокоуровневое понимание реального мира и задач, а также способность к рассуждению».

Например, если попросить гуманоидного робота в доме проверить количество банок с фасолью в шкафу, система должна понять концепции фасоли, шкафа и затем добраться до нужного места. По словам Бессе, SIMA 2 в большей степени отвечает за такое высокоуровневое поведение, нежели за низкоуровневые действия, такие как управление физическими суставами или колёсами.

Команда не предоставила точных сроков внедрения SIMA 2 в физические робототехнические системы. Бессе сообщил, что недавно представленные DeepMind фундаментальные модели для робототехники, способные анализировать физический мир и составлять многошаговые планы, обучались иначе и отдельно от SIMA.

Хотя конкретных сроков выпуска SIMA 2, кроме предварительного просмотра, пока нет, Ван отметила, что цель состоит в демонстрации разработок DeepMind и поиске возможностей для сотрудничества и потенциального применения.

Комментарии

Комментариев пока нет.