ИИ учится видеть и слышать как человек

Ученые из Университета Ливерпуля создали новую компьютерную модель, способную объединять визуальную и слуховую информацию подобно тому, как это делает человеческий мозг. Разработка, вдохновленная биологическими процессами, открывает новые перспективы для развития искусственного интеллекта и систем машинного восприятия.

Модель базируется на механизме, впервые обнаруженном у насекомых и отвечающем за распознавание движения. Доктор Чезаре Парис, старший преподаватель психологии, адаптировал этот принцип для создания системы, которая обрабатывает реальные аудиовизуальные сигналы — видео и звук — вместо абстрактных параметров, используемых в предыдущих моделях.

Когда мы наблюдаем за говорящим человеком, наш мозг автоматически сопоставляет увиденное с услышанным. Это может приводить к различным перцептивным иллюзиям, таким как эффект МакГурка, когда несоответствие звука и движения губ создает новое восприятие, или иллюзия чревовещания, при которой голос кажется исходящим от неодушевленного предмета. Исследователи задались вопросом: как именно мозг определяет совпадение звука и изображения?

Существовавшие ранее модели пытались объяснить этот феномен, но их возможности были ограничены, поскольку они не работали напрямую с реальными аудиовизуальными сигналами. Доктор Парис отмечает: "Несмотря на десятилетия исследований в области аудиовизуального восприятия, у нас до сих пор не было модели, способной справиться с такой простой задачей, как получение видеофайла и определение, воспринимается ли аудио как синхронное".

Эта модель устраняет давнее препятствие в интеграции сенсорной информации. Она развивает предыдущие работы Париса и Марка Эрнста (Университет Билефельда, Германия), которые предложили принцип корреляционного детектирования как возможное объяснение того, как мозг объединяет сигналы от разных органов чувств. Это привело к разработке модели Multisensory Correlation Detector (MCD), способной имитировать реакцию человека на простые аудиовизуальные стимулы, такие как вспышки и щелчки.

В текущем исследовании Парис смоделировал группу таких детекторов, расположенных в виде сетки в визуальном и слуховом пространстве. Такая архитектура позволила модели обрабатывать сложные, реальные стимулы и успешно воспроизвела результаты 69 известных экспериментов с участием людей, обезьян и крыс. Это самая масштабная симуляция, проведенная в данной области.

Модель демонстрирует согласованность поведения у разных видов и превосходит по эффективности ведущую модель байесовского каузального вывода, используя при этом одинаковое количество настраиваемых параметров. Она также предсказывает, куда люди будут смотреть при просмотре аудиовизуальных фильмов, выступая в качестве легкой модели определения значимости.

Парис считает, что модель может быть полезна не только в нейронауке. "Эволюция уже решила задачу согласования звука и зрения с помощью простых, универсальных вычислений, которые масштабируются между видами и контекстами. Ключевым моментом здесь является вычислимость на основе стимулов: поскольку модель работает непосредственно с необработанными аудиовизуальными сигналами, ее можно применять к любым реальным данным".

Он добавил: "Современные системы ИИ по-прежнему испытывают трудности с надежным объединением мультимодальной информации, а модели аудиовизуальной значимости полагаются на большие, ресурсоемкие сети, обученные на огромных наборах данных с метками. В отличие от них, решетка MCD легка, эффективна и не требует обучения. Это делает модель перспективным кандидатом для приложений следующего поколения".

Парис заключает: "То, что начиналось как модель машинного зрения у насекомых, теперь объясняет, как мозг — человеческий или любой другой — интегрирует звук и зрение в широком диапазоне контекстов. От предсказания иллюзий, таких как эффект МакГурка и чревовещание, до вывода причинно-следственных связей и генерации динамических карт аудиовизуальной значимости, она предлагает новый план как для нейронауки, так и для исследований в области искусственного интеллекта".

Комментарии

Комментариев пока нет.