ИИ-генераторы изображений: успехи и неудачи в иллюстрации
Искусственный интеллект (ИИ) создает изображения по текстовым описаниям, но насколько точно он понимает наши запросы? Ученые из Университета Льежа, Университета Лотарингии и EHESS провели междисциплинарное исследование, чтобы разобраться в этом вопросе. Они изучили, как ИИ-системы Midjourney и DALL·E переводят слова в визуальные образы, используя методы семиотики, информатики и искусствоведения.
Исследование, опубликованное в журнале Semiotic Review, показало, что, несмотря на впечатляющие эстетические результаты, эти ИИ часто испытывают трудности с выполнением даже простых инструкций. Например, запросы вроде "собака без хвоста" могут привести к изображению собаки с хвостом или кадрированию, скрывающему его. ИИ с трудом справляются со сложными пространственными отношениями, правильным расположением объектов, а также с последовательным изображением взглядов и расстояний между объектами, как в случае с запросом "две женщины за дверью". Действия, такие как "драка", могут трансформироваться в сцены танца, а временные последовательности, например, "начало еды" или "завершение еды", часто игнорируются.
"Эти генеративные ИИ позволяют нам по-новому взглянуть на то, как мы сами воспринимаем и изображаем мир", — комментирует Энцо Д'Арменио, ведущий автор статьи. Он также отметил, что ИИ склонны воспроизводить визуальные стереотипы, часто основанные на западных образах, что выявляет ограничения в переводе между вербальным и визуальным языком.
Для обеспечения надежности результатов, каждый запрос повторялся до пятидесяти раз. Выяснилось, что у моделей есть свои уникальные стили: Midjourney склонен к "эстетизации" изображений, добавляя детали, которые могут искажать точное соответствие инструкции, тогда как DALL·E, будучи более "нейтральным" в плане текстур, предлагает лучший композиционный контроль, но может варьироваться в ориентации или количестве объектов.
Эксперимент с запросом "три вертикальные белые линии на черном фоне" наглядно продемонстрировал эти тенденции. Midjourney показал относительную стабильность, но с частыми артефактами, а DALL·E — вариативность в количестве и ориентации линий.
Ученые подчеркивают, что ИИ являются статистическими моделями. "Генеративные ИИ создают наиболее вероятный результат, основываясь на своих обучающих базах данных и настройках разработчиков", — поясняет Адриен Делиж, математик из Университета Льежа. Этот процесс может стандартизировать взгляд и усиливать существующие стереотипы. Например, при запросе "CEO выступает с речью" DALL·E может генерировать изображения преимущественно женщин, в то время как другие модели могут создавать образы исключительно мужчин среднего возраста, что указывает на влияние разработчиков и наборов данных на "видение" мира машиной.
Исследователи настаивают на необходимости комплексной оценки этих технологий, выходящей за рамки статистической эффективности. Использование инструментов гуманитарных наук крайне важно для понимания их культурного и символического воздействия. "Инструменты ИИ — это не просто автоматические механизмы", — заключает Энцо Д'Арменио. "Они интерпретируют наши слова, руководствуясь собственной логикой, сформированной базами данных и алгоритмами. Гуманитарные науки играют ключевую роль в их изучении и оценке".
Несмотря на то, что ИИ-инструменты уже помогают в создании иллюстраций, им еще предстоит долгий путь до совершенства в передаче наших идей.
Галерея
Комментарии
Комментариев пока нет.