ИИ-модель улучшит распознавание объектов роботами
Исследователи из Стэнфордского университета разработали новаторскую модель компьютерного зрения, которая распознает реальные функции объектов. Это открывает новые возможности для автономных роботов, позволяя им более эффективно выбирать и использовать инструменты.
В области искусственного интеллекта, известной как компьютерное зрение, специалисты успешно обучили модели идентифицировать объекты на двумерных изображениях. Этот навык критически важен для создания роботов, способных автономно ориентироваться в мире. Однако распознавание объектов — это лишь первый шаг. ИИ также должен понимать назначение частей объекта: отличать носик от ручки или лезвие ножа для хлеба от ножа для масла.
Эксперты в области компьютерного зрения называют такое совпадение функциональности «функциональным соответствием». Это одна из самых сложных задач в этой сфере. Но теперь, в статье, которая будет представлена на Международной конференции по компьютерному зрению (ICCV 2025), ученые из Стэнфорда представят новую модель ИИ. Она способна не только распознавать различные части объекта и определять их реальное назначение, но и сопоставлять их на уровне пикселей между разными объектами.
В будущем робот сможет, например, отличить топорик от ножа для хлеба или садовый совок от лопаты, выбирая нужный инструмент для конкретной задачи. Исследователи предполагают, что робот однажды сможет перенести навыки использования совка на лопату или бутылки на чайник, чтобы выполнить работу с разными инструментами.
«Наша модель может рассматривать изображения стеклянной бутылки и чайника и распознавать носик на каждом из них, но также она понимает, что носик используется для наливания», — объясняет один из первых авторов статьи, Стефан Стоянов, научный сотрудник Стэнфордского университета под руководством профессоров Цзяцзюнь Ву и Дэниела Яминса. «Мы хотим создать систему зрения, которая поддерживала бы такого рода обобщение — способность проводить аналогии, переносить навыки с одного объекта на другой для достижения той же функции».
Установление соответствия — это процесс определения того, какие пиксели на двух изображениях относятся к одной и той же точке в реальном мире, даже если фотографии сделаны под разными углами или изображают разные объекты. Это достаточно сложно, даже если на изображении один и тот же объект. В примере с бутылкой и чайником реальный мир редко бывает таким однозначным. Автономные роботы должны будут обобщать информацию по категориям объектов и принимать решения о том, какой объект использовать для той или иной задачи.
В будущем исследователи надеются, что робот на кухне сможет выбрать чайник для приготовления чашки чая, понять, за какую ручку его взять, и использовать носик для наливания горячей воды.
Автономность в действии
Истинное функциональное соответствие сделает роботов гораздо более адаптивными, чем они есть сейчас. Домашнему роботу не потребуется обучение для каждого доступного ему инструмента; он сможет рассуждать по аналогии, понимая, что, хотя нож для хлеба и нож для масла оба режут, каждый из них выполняет свою специфическую функцию.
Исследователи отмечают, что им удалось достичь «плотного» функционального соответствия, тогда как предыдущие попытки обеспечивали лишь «редкое» соответствие, определяя лишь несколько ключевых точек на каждом объекте. Основной проблемой до сих пор был дефицит данных, которые обычно приходилось собирать с помощью ручной разметки.
«В отличие от традиционного обучения с учителем, где есть входные изображения и соответствующие метки, написанные людьми, невозможно вручную разметить тысячи пикселей, выравнивая их между двумя разными объектами», — говорит другой автор статьи, Линань «Фрэнк» Чжао, недавно получивший степень магистра компьютерных наук в Стэнфорде. «Поэтому мы попросили ИИ помочь».
Команде удалось найти решение с помощью так называемого слабого обучения: использование моделей компьютерного зрения и языка для генерации меток, идентифицирующих функциональные части, и привлечение экспертов только для контроля качества конвейера данных. Это гораздо более эффективный и экономичный подход к обучению.
«То, что еще несколько лет назад было бы очень трудно изучить с помощью обучения с учителем, теперь можно сделать с гораздо меньшими человеческими усилиями», — добавляет Чжао.
Например, в случае с чайником и бутылкой, каждый пиксель носика чайника выравнивается с пикселем носика бутылки, обеспечивая плотное функциональное отображение между двумя объектами. Новая система зрения способна определять функцию в структуре различных объектов — ценное сочетание функционального определения и пространственной согласованности.
Видя будущее
В настоящее время система тестировалась только на изображениях, а не в реальных экспериментах с роботами. Однако команда считает, что модель представляет собой многообещающий шаг вперед для робототехники и компьютерного зрения. Плотное функциональное соответствие является частью более широкой тенденции в ИИ, где модели переходят от простого распознавания образов к рассуждениям об объектах. Если раньше модели видели только закономерности пикселей, то новые системы могут выявлять намерения.
«Это урок о том, как форма следует за функцией», — говорит Юньчжи Чжан, аспирант Стэнфордского университета по компьютерным наукам. «Части объектов, выполняющие определенную функцию, как правило, остаются неизменными между объектами, даже если другие части сильно различаются».
В дальнейшем исследователи планируют интегрировать свою модель в воплощенные агенты и создавать более богатые наборы данных.
«Если мы сможем найти способ получить более точное функциональное соответствие, это станет важным шагом вперед», — говорит Стоянов. «В конечном итоге, обучение машин видеть мир через призму функций может изменить траекторию развития компьютерного зрения — сделать его менее о закономерностях и более о полезности».
Комментарии
Комментариев пока нет.