Роботы обучаются с помощью пространственных данных: новые возможности
Машины по своей природе имеют недостаток в навигации по окружающей среде по сравнению с людьми. Чтобы улучшить способности визуального восприятия, необходимые им для понимания мира, исследователи разработали новый набор данных для повышения пространственной осведомленности роботов.
В новом исследовании эксперименты показали, что роботы, обученные с использованием этого набора данных, названного RoboSpatial, превзошли роботов, обученных на базовых моделях, при выполнении той же роботизированной задачи. Это демонстрирует сложное понимание как пространственных отношений, так и манипулирования физическими объектами.
Для человека визуальное восприятие формирует то, как мы взаимодействуем с окружающей средой, от распознавания различных людей до поддержания осведомленности о движениях и положении нашего тела. Несмотря на предыдущие попытки наделить роботов этими навыками, они оказались не совсем успешными, поскольку большинство из них обучаются на данных, которым не хватает сложного пространственного понимания.
Поскольку глубокое пространственное понимание необходимо для интуитивного взаимодействия, если эти проблемы пространственного рассуждения останутся нерешенными, они могут помешать будущим системам ИИ понимать сложные инструкции и работать в динамичных средах, сказал Люк Сонг, ведущий автор исследования и нынешний аспирант в области инженерии Университета штата Огайо.
«Чтобы иметь действительно универсальные фундаментальные модели, робот должен понимать 3D-мир вокруг себя», — сказал он. «Поэтому пространственное понимание является одной из важнейших способностей для него».
Исследование было недавно представлено в виде устного доклада на Конференции по компьютерному зрению и распознаванию образов. Работа опубликована в журнале 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
Чтобы научить роботов лучше интерпретировать перспективу, RoboSpatial включает более миллиона реальных изображений интерьеров и столешниц, тысячи подробных 3D-сканов и 3 миллиона меток, описывающих богатую пространственную информацию, актуальную для робототехники. Используя эти обширные ресурсы, система сопоставляет 2D-эгоцентрические изображения с полными 3D-сканами одной и той же сцены, чтобы модель научилась определять объекты, используя либо распознавание плоских изображений, либо 3D-геометрию. По данным исследования, этот процесс тесно имитирует визуальные сигналы в реальном мире.
Например, в то время как современные наборы данных для обучения могут позволить роботу точно описать «миску на столе», модель не сможет определить, где именно на столе она находится, где ее следует разместить, чтобы она оставалась доступной, или как она может сочетаться с другими объектами. Напротив, RoboSpatial может строго проверять эти навыки пространственного рассуждения в практических роботизированных задачах, сначала демонстрируя перестановку объектов, а затем оценивая способность моделей обобщаться на новые сценарии пространственного рассуждения за пределами их исходных обучающих данных.
«Это означает не только улучшения в отдельных действиях, таких как поднятие и размещение предметов, но и более естественное взаимодействие роботов с людьми», — сказал Сонг.
Одной из систем, на которых команда тестировала эту структуру, был робот Kinova Jaco — вспомогательная рука, которая помогает людям с ограниченными возможностями взаимодействовать с окружающей средой.
Во время обучения он смог правильно ответить на простые закрытые пространственные вопросы, такие как «Можно ли поставить стул перед столом?» или «Кружка находится слева от ноутбука?».
Эти многообещающие результаты показывают, что нормализация пространственного контекста за счет улучшения восприятия роботами может привести к созданию более безопасных и надежных систем ИИ, сказал Сонг.
Хотя остается много нерешенных вопросов о разработке и обучении ИИ, работа приходит к выводу, что RoboSpatial имеет потенциал служить основой для более широких применений в робототехнике, отмечая, что от него, вероятно, произойдут новые захватывающие пространственные достижения.
«Я думаю, что в ближайшие пять-десять лет мы увидим много больших улучшений и классных возможностей для роботов», — сказал Сонг.
Среди соавторов — Ю Су из Университета штата Огайо, а также Валтс Блукис, Джонатан Тремблей, Стивен Тайри и Стэн Бирчфилд из NVIDIA.
Комментарии
Комментариев пока нет.