Обучение ИИ-роботов: от инструкций к реальности
Искусственный интеллект освоил онлайн-мир, но теперь ему предстоит научиться двигаться в реальном. По всему миру растет армия тренеров, помогающих ИИ выйти за пределы компьютеров и освоить наши дома, офисы и заводы, обучая его человеческим движениям.
В одном из промышленных городов южной Индии 28-летний Навин Кумар начинает свой рабочий день, складывая махровые полотенца сотни раз с максимальной точностью. Он не работает в отеле, а трудится в стартапе, специализирующемся на создании физических данных для обучения ИИ. Закрепив камеру GoPro на лбу, он следует строгому списку движений рук, чтобы точно запечатлеть процесс складывания полотенца с его точки зрения.
Сегодня ему нужно было взять каждое полотенце из корзины справа от стола, используя только правую руку, затем расправить его обеими руками и аккуратно сложить три раза. После этого сложенное полотенце следовало поместить в левый угол стола. Если задача занимала более минуты или пропускались какие-либо шаги, приходилось начинать все заново.
Его фирма, компания по маркировке данных Objectways, отправила 200 видеороликов со складыванием полотенец своему клиенту в США. В компании работает более 2000 сотрудников; примерно половина из них занимается маркировкой сенсорных данных для беспилотных автомобилей и робототехники, а остальные — генеративным ИИ. Большинство из них — инженеры, и мало кто имеет опыт в складывании полотенец, поэтому они по очереди выполняют эту физическую работу.
«Иногда нам приходится удалять около 150 или 200 видео из-за нелепых ошибок в том, как мы складываем или размещаем предметы», — говорит Кумар, выпускник инженерного факультета, проработавший в Objectways шесть лет.
Тщательно отрепетированные движения призваны уловить все нюансы человеческих действий — от вытягивания руки и захвата пальцами до скольжения ткани — при складывании одежды. Затем Кумар и его команда аннотируют полученные видео. Они рисуют рамки вокруг различных частей видео, помечают полотенца и указывают, двигалась ли рука влево или вправо, классифицируя каждый жест.
Кумар и его коллеги из города Карур, расположенного примерно в 300 милях к югу от Бенгалуру, представляют собой необычный набор наставников для следующего поколения роботов на базе ИИ. «Компании создают базовые модели, подходящие для физического мира, — говорит Ульрик Стиг Хансен, соучредитель Encord, платформы управления данными из Сан-Франциско, которая сотрудничает с Objectways для сбора демонстрационных данных от людей. — Наблюдается огромное возрождение интереса к робототехнике».
Encord сотрудничает с такими робототехническими компаниями, как Physical Intelligence (при поддержке Джеффа Безоса) и Dyna Robotics. Tesla, Boston Dynamics и Nvidia входят в число лидеров в США в гонке за разработку роботов нового поколения. Tesla уже использует своих роботов Optimus — которые часто управляются удаленно — для различных корпоративных мероприятий. Google имеет собственные модели ИИ для робототехники. OpenAI расширяет свои амбиции в области робототехники. Nvidia прогнозирует, что рынок человекоподобных роботов может достичь 38 миллиардов долларов в течение следующего десятилетия. Существует также множество менее известных компаний, стремящихся предоставить аппаратное, программное обеспечение и данные для создания массового многозадачного человекоподобного робота.
Большие языковые модели, лежащие в основе чат-ботов, таких как ChatGPT, освоили использование языка, изображений, музыки, кода и других навыков, поглощая все, что есть в интернете. Они используют весь интернет, чтобы понять, как все связано, и имитировать наши действия, например, отвечая на вопросы и создавая фотореалистичные видео. Данные о том, как устроен физический мир — например, сколько усилий требуется для складывания салфетки — получить и преобразовать в формат, понятный ИИ, сложнее.
По мере совершенствования робототехники и ее объединения с ИИ, способным ориентироваться в физическом мире, роботы могут начать появляться на рабочих местах и в домах. Хотя многие опасаются, что это может привести к потере рабочих мест и безработице, оптимисты полагают, что продвинутые роботы освободят людей от рутинной работы, снизят затраты на рабочую силу и в конечном итоге дадут людям больше времени для отдыха или сосредоточения на более интересной и важной работе.
Многие компании включились в «золотую лихорадку» ИИ, выступая в роли «продавцов лопат», видя возможность собирать данные для так называемого физического ИИ. Одна группа компаний обучает ИИ действовать в реальном мире, позволяя людям удаленно управлять роботами. Али Ансари, основатель Micro1 из Сан-Франциско, говорит, что сбор данных для зарождающейся робототехники все больше фокусируется на телеоперациях. Люди с помощью контроллеров заставляют робота выполнять такие действия, как поднять чашку или приготовить чай. ИИ получает видео успешных и неудачных попыток выполнения задачи и учится делать это.
Обучение с удаленным управлением может проходить как в одном помещении с роботами, так и с контроллером в другой стране. Хансен из Encord говорит, что в Восточной Европе планируются склады, где большие группы операторов будут сидеть с джойстиками, управляя роботами по всему миру.
По словам Мохаммада Мусы, основателя Deepen AI, калифорнийской фирмы по аннотированию данных, появляется все больше таких, так называемых «ферм рук», по мере роста спроса. «Сегодня используется смесь реальных и синтетических данных, собранных из демонстраций людей, сеансов телеопераций и смоделированных сред, — говорит он. — Большая часть этой работы по-прежнему выполняется за пределами Запада, но автоматизация и симуляция со временем снижают эту зависимость».
Некоторые критикуют телеуправляемых гуманоидов, считая их более эффектными, чем функциональными. Они могут впечатлять, когда ими управляют другие, но все еще далеки от полной автономности. Micro1 Ансари также занимается так называемым сбором человеческих данных. Компания платит людям за ношение умных очков, которые записывают повседневные действия. Это происходит в Бразилии, Аргентине, Индии и США. Компания Figure AI из Сан-Хосе в партнерстве с гигантом недвижимости Brookfield записывает видео из 100 000 домов. Будут собираться данные о движениях людей для обучения человекоподобных роботов передвижению в человеческом пространстве. Компания заявила, что потратит значительную часть из 1 миллиарда долларов, которые она привлекла, на сбор данных от первого лица.
Scale AI, поддерживаемая Meta, собрала 100 000 часов аналогичных обучающих видео для робототехники через свою прототипную лабораторию, созданную в Сан-Франциско. Тем не менее, обучение роботов — не всегда простая задача. 20-летний Дев Мандал основал компанию в Бенгалуру, надеясь заработать на потребности в физических данных для обучения ИИ. Он предлагал недорогую рабочую силу в Индии для записи движений. После размещения своих услуг он получил запросы на помощь в обучении роботизированной руки приготовлению пищи, а также робота для подключения и отключения кабелей в центрах обработки данных.
Однако ему пришлось отказаться от бизнеса, поскольку потенциальные клиенты требовали, чтобы физические данные о движениях собирались очень специфическим образом, что затрудняло ему заработок, даже с учетом недорогой рабочей силы в Индии. Например, клиенты хотели, чтобы использовался конкретный роботизированный манипулятор и стол с фиолетовыми лампами. «Все, вплоть до цвета стола, должно было быть указано ими, — сказал он. — И они сказали, что это должен быть именно такой цвет».
Тем не менее, для специалистов по складыванию полотенец из Карура работы остается много. Их босс, основатель Objectways Рави Шанкар, говорит, что за последние месяцы его фирма записала и аннотировала видео, где роботизированные манипуляторы складывают картонные коробки и футболки, а также выбирают предметы определенного цвета со стола. Недавно они начали аннотировать видео с более продвинутых человекоподобных роботов, помогая обучить их сортировать и складывать различные полотенца и одежду, складывая их и помещая в разные углы стола. Его команде пришлось аннотировать 15 000 видеороликов, демонстрирующих, как роботы выполняют эти задачи.
«Иногда руки робота бросают одежду и не складывают ее должным образом. Иногда стопка разлетается», — но роботы быстро учатся, говорит Кавин, 27-летний сотрудник Objectways, выступающий под одним именем. — Через пять или десять лет они смогут выполнять все задачи, и для нас работы не останется».
Комментарии
Комментариев пока нет.