AI-тренировка: как компании собирают уникальные данные
Летом этого года Тейлор и ее соседка по комнате провели неделю, прикрепив камеры GoPro к своим лбам, пока занимались рисованием, лепкой и домашними делами. Они обучали модель ИИ, тщательно синхронизируя свои видеозаписи, чтобы система могла получать изображения с разных ракурсов одного и того же действия. Это была непростая работа, но оплачивалась она хорошо, к тому же позволяла Тейлор проводить большую часть дня за творчеством.
«Мы просыпались, выполняли обычные утренние дела, затем надевали камеры на голову и синхронизировали время», — рассказала она. «Потом мы готовили завтрак и мыли посуду. После этого расходились по своим комнатам и занимались искусством».
Им ставили задачу создавать пять часов синхронизированных видео в день, но Тейлор быстро поняла, что ей потребуется семь часов, чтобы успеть сделать перерывы и восстановиться. «От этого болела голова», — призналась она. «Когда снимаешь камеру, на лбу остается красный квадрат».
Тейлор, пожелавшая не называть свою фамилию, работала фрилансером по сбору данных для Turing — компании, занимающейся искусственным интеллектом, которая связала ее с TechCrunch. Цель Turing заключалась не в обучении ИИ написанию картин маслом, а в развитии более абстрактных навыков решения последовательных задач и визуального восприятия. В отличие от больших языковых моделей, модель визуального восприятия Turing обучалась исключительно на видео, большая часть которого собиралась непосредственно компанией.
Наряду с художниками, подобными Тейлор, Turing привлекает шеф-поваров, строителей и электриков — всех, кто работает руками. Главный сотрудник по искусственному общему интеллекту (AGI) Turing, Сударшан Сиварамана, сообщил TechCrunch, что ручной сбор данных — единственный способ получить достаточно разнообразный набор данных. «Мы собираем данные для множества различных видов рабочих профессий, чтобы обеспечить разнообразие в фазе предварительного обучения», — сказал Сиварамана. «После сбора всей этой информации модели смогут понимать, как выполняется та или иная задача».
Работа Turing над моделями визуального восприятия является частью растущего сдвига в том, как ИИ-компании подходят к работе с данными. Если раньше наборы данных свободно собирались из интернета или от низкооплачиваемых аннотаторов, то теперь компании готовы платить высокие суммы за тщательно подобранные данные.
Поскольку сырая мощь ИИ уже доказана, компании ищут проприетарные обучающие данные как конкурентное преимущество. И вместо того, чтобы отдавать эту задачу на аутсорсинг, они часто берут ее на себя.
Компания Fyxer, использующая модели ИИ для сортировки электронных писем и составления ответов, является одним из таких примеров. После первых экспериментов основатель Ричард Холлингсворт обнаружил, что наилучший подход заключается в использовании массива небольших моделей с узкоспециализированными обучающими данными. В отличие от Turing, Fyxer строит свою работу на основе существующей базовой модели, но основная идея та же. «Мы поняли, что именно качество данных, а не их количество, определяет производительность», — сказал мне Холлингсворт.
На практике это означало некоторые нетрадиционные кадровые решения. В начальный период инженеры и менеджеры Fyxer иногда уступали в численности опытным исполнительным ассистентам, необходимым для обучения модели, говорит Холлингсворт. «Мы привлекли много опытных исполнительных ассистентов, потому что нам нужно было обучить модель основам того, следует ли отвечать на электронное письмо», — сказал он. «Это очень человекоориентированная задача. Найти отличных людей очень сложно».
Темп сбора данных не замедлялся, но со временем Холлингсворт стал более избирательным в отношении наборов данных, предпочитая меньшие, но более тщательно подобранные наборы данных для постобучения. Как он выражается: «качество данных, а не их количество, определяет производительность».
Это особенно актуально при использовании синтетических данных, которые расширяют как спектр возможных сценариев обучения, так и влияние любых недостатков в исходном наборе данных. В области визуального восприятия Turing оценивает, что 75-80% их данных являются синтетическими, экстраполированными из оригинальных видео GoPro. Но это делает еще более важным поддержание максимально высокого качества исходного набора данных. «Если данные предварительного обучения сами по себе невысокого качества, то и все, что вы делаете с синтетическими данными, не будет высокого качества», — утверждает Сиварамана.
Помимо вопросов качества, существует сильная конкурентная логика, лежащая в основе сохранения сбора данных внутри компании. Для Fyxer трудоемкий процесс сбора данных является одним из лучших «рвов», защищающих компанию от конкурентов. Как видит это Холлингсворт, любой может встроить в свой продукт модель с открытым исходным кодом, но не каждый может найти экспертных аннотаторов для обучения ее в рабочем продукте. «Мы считаем, что лучший способ сделать это — через данные», — сказал он. «Через построение пользовательских моделей, через высококачественное обучение данных под руководством человека».
Комментарии
Комментариев пока нет.