Dreamer 4: ИИ учится в "воображаемом" мире Minecraft
Искусственный интеллект (ИИ) добился значительных успехов в виртуальных средах за последнее десятилетие, научившись играть в игры, управлять роботами и выполнять различные задачи. Однако большинству таких систем для достижения даже минимальной компетентности требуются миллионы проб и ошибок. Такой подход, основанный на "грубой силе", ограничивает их применение в реальном мире, где эксперименты могут быть медленными, дорогими или опасными.
Для решения этих проблем исследователи обратились к моделям мира — симуляторам, где агенты могут безопасно практиковаться и учиться. Эти модели призваны не просто имитировать визуальную составляющую мира, но и его динамику: как объекты движутся, сталкиваются и реагируют на действия. Тем не менее, несмотря на успех в простых играх, таких как Atari и Go, модели мира до сих пор не справлялись с богатой, открытой физикой сложных миров, подобных Minecraft, или сред робототехники.
Команда Google DeepMind разработала Dreamer 4 — новый ИИ-агент, способный осваивать сложные поведенческие модели исключительно в масштабируемой модели мира, опираясь лишь на ограниченный набор заранее записанных видео. Эта разработка стала первым ИИ-агентом, получившим алмазы в Minecraft без предварительной практики в самой игре. Это достижение открывает перспективы использования Dreamer 4 для обучения ИИ-агентов "в воображении", что имеет большое значение для будущей робототехники.
"Мы, люди, выбираем действия, основываясь на глубоком понимании мира и предвидим потенциальные исходы заранее", — отметил Данижар Хафнер, ведущий автор исследования. "Эта способность требует внутренней модели мира и позволяет нам очень быстро решать новые задачи. В отличие от этого, предыдущие ИИ-агенты обычно учились методом "грубой силы" с огромным количеством проб и ошибок. Но это невыполнимо для таких приложений, как физические роботы, которые легко могут сломаться".
В то время как предыдущие модели мира, используемые в играх вроде Atari и Go, не могли точно воспроизвести физические взаимодействия в более сложных средах, таких как Minecraft, современные видеомодели, вроде Veo и Sora, демонстрируют впечатляющие успехи в генерации реалистичных видео. Однако они не интерактивны и слишком медленны для использования в качестве "нейронных симуляторов" для обучения агентов. Целью Dreamer 4 было создание успешных агентов, обучающихся исключительно внутри моделей мира, способных реалистично симулировать сложные среды.
Исследователи выбрали Minecraft в качестве тестовой площадки для Dreamer 4 из-за его безграничных сгенерированных миров и долгосрочных задач, требующих более 20 000 последовательных действий мышью и клавиатурой. Одна из таких задач — добыча алмазов, которая включает в себя длинную цепочку предварительных действий: рубка деревьев, создание инструментов, добыча и плавка руды. Ключевым моментом было обучение агента исключительно в "воображаемых" сценариях, без практики в реальной игре, аналогично тому, как роботам придется учиться в симуляции.
Искусственный агент построен на базе большой трансформерной модели, обученной предсказывать будущие наблюдения, действия и вознаграждения. Dreamer 4 тренировался на фиксированном офлайн-наборе данных, содержащем записанные игровые видеоролики Minecraft, созданные игроками. После обучения Dreamer 4 учился выбирать всё более эффективные действия в широком диапазоне воображаемых сценариев посредством обучения с подкреплением. Разработчики внедрили эффективную трансформерную архитектуру и новый метод обучения под названием "shortcut forcing", что позволило ускорить генерацию предсказаний более чем в 25 раз по сравнению с типичными видеомоделями.
Dreamer 4 — первый ИИ-агент, который добыл алмазы в Minecraft, обучаясь исключительно на офлайн-данных, без практики в реальной среде. Это демонстрирует способность агента автономно решать сложные долгосрочные задачи. Обучение исключительно офлайн особенно актуально для тренировки роботов, которые могут легко повредиться при практике в физическом мире. Исследование предлагает перспективный подход к созданию умных роботов для выполнения домашних и промышленных задач.
В ходе начальных тестов Dreamer 4 точно предсказывал взаимодействие объектов и игровую механику, создавая надежную внутреннюю модель мира, которая значительно превосходила модели предыдущих агентов. Модель поддерживает взаимодействие в реальном времени на одном GPU, позволяя людям исследовать его "воображаемый" мир. Агент точно предсказывает динамику добычи и размещения блоков, создания простых предметов и даже использования дверей, сундуков и лодок. Важно отметить, что Dreamer 4 достиг выдающихся результатов, несмотря на обучение на небольшом объеме данных действий (видеозаписей нажатий клавиш и кнопок мыши).
"Модель мира может изучить большую часть своих знаний только по видео", — пояснил Хафнер. "Всего за несколько сотен часов данных действий модель общего назначения понимает эффекты движения мыши и нажатий клавиш, что переносится на новые ситуации. Это очень обнадеживает, поскольку записи данных для роботов медленны, но интернет содержит множество видеозаписей взаимодействия людей с миром, из которых Dreamer 4 мог бы учиться в будущем".
Работа исследователей DeepMind может способствовать развитию робототехнических систем, упрощая обучение алгоритмов для надежного выполнения ручных задач в реальном мире. В планах команды — дальнейшее улучшение модели мира Dreamer 4 путем интеграции компонента долговременной памяти для поддержания согласованности симулируемых миров. Добавление понимания языка приблизит создание агентов, способных к сотрудничеству с людьми и выполнению их задач. Обучение модели мира на общих интернет-видео предоставит агенту здравый смысл о физическом мире, позволяя обучать роботов в разнообразных воображаемых сценариях.
Галерея
Комментарии
Комментариев пока нет.