Роботы находят объекты с 89% точностью, используя жесты и речь

📁 Категория: Искусственный интеллект

👤 Автор: Гена

📅 14.03.2026

👁️ Просмотров: 31

Роботы-помощники, способные приносить предметы людям, могут быть чрезвычайно полезны как на кухне, так и в цеховых помещениях. Группа ученых разработала метод, улучшающий способность роботов точно опр

Новый подход позволяет роботам использовать как вербальные команды, так и жесты человека при поиске и доставке целевых объектов. Исследование, представленное на международной конференции по взаимодействию человека и робота, продемонстрировало 89%-ную точность нахождения правильного объекта в сложных средах, что превосходит другие методы поиска.

Поиск объектов требует от робота навигации в больших пространствах. С современными технологиями роботы хорошо идентифицируют объекты, но в условиях беспорядка, перемещения предметов или их частичного скрытия задача усложняется. Данная работа фокусируется на использовании комбинации языка и жестов для упрощения поиска.

Исследование основывается на математическом подходе под названием POMDP (частично наблюдаемый процесс принятия решений Маркова), который позволяет роботу рассуждать в условиях неопределённости. В реальном мире роботы редко имеют идеальное понимание окружения: различные объекты могут выглядеть похоже, в комнате может быть несколько одинаковых предметов, некоторые могут быть скрыты. POMDP преобразует неоднозначности в вероятностную модель, помогающую роботу отслеживать уверенность в информации и обновлять убеждения с учетом новых данных, включая сведения от моделей компьютерного зрения и языка.

Инновация этого исследования — POMDP, объединяющий как речевые, так и жестовые сигналы, такие как указание на объект. Для моделирования жестов авторы обратились к исследованиям лаборатории, изучавшей, как собаки интерпретируют человеческие указания. Исследование тонкостей человеческого указания и его восприятия собаками помогло создать вероятность объекта жеста в виде конуса.

Было обнаружено, что люди используют взгляд для выравнивания с объектом указания, поэтому конус строится на линии от глаза через локоть к запястью — это достаточно точная аппроксимация направления указания. Работа в лаборатории, изучающей поведение собак, показала сложность коммуникации собак с людьми, что делает их естественной моделью для интуитивного взаимодействия. Данное исследование переводит интуитивное понимание собаками взгляда и указания в вероятностную модель, позволяющую роботу справляться с неоднозначностью человеческой коммуникации.

Жестовая модель была объединена с моделью компьютерного зрения и языка (VLM) — ИИ-системой, интерпретирующей визуальные сцены вместе с естественным языком. Результат — POMDP, способный учитывать и язык, и жесты для планирования действий робота.

В лабораторных испытаниях четвероногий робот искал разбросанные предметы. При использовании комбинации жестов и языка робот находил правильный объект в почти 90% случаев, значительно превосходя результаты при использовании только одного типа сигнала.

Это исследование — шаг к роботам, способным работать рядом с людьми дома и на рабочем месте. Разработанная система прокладывает путь к бесшовному мультимодальному взаимодействию человека и робота. В будущем с роботами-помощниками можно будет общаться так же, как люди взаимодействуют через речь, жесты, взгляды, демонстрации и другие способы.

Подчеркивается важность междисциплинарного сотрудничества информатики и когнитивной науки для создания систем, соответствующих естественным человеческим наклонностям и интуициям.

← Вернуться на главную

Роботы находят объекты с 89% точностью, используя жесты и речь

Рекомендуемые товары