ИИ в играх: почему самообучение не всегда находит оптимальные ходы
Новое исследование, опубликованное в журнале Machine Learning, демонстрирует, что одного лишь обучения по образцам (pattern learning) недостаточно для подготовки искусственного интеллекта к решению игровых задач. Для преодоления ограничений могут потребоваться абстрактные представления или гибридные подходы.
Многие специалисты по ИИ рассматривают игровые задачи как «Формулу-1» искусственного интеллекта: это контролируемая тестовая среда с чёткими правилами и критериями успеха. В данном исследовании эта идея используется для диагностики на примере очень простой игры — Ним (детская игра со спичками), оптимальная стратегия которой точно известна.
Поскольку правильный ход известен для каждой позиции, исследователи могли оценить, насколько оптимально действует агент по всему пространству состояний. Выяснилось, что даже на небольших полях, несмотря на интенсивное обучение и поиск, агенты проявляют «слепые пятна» и упускают оптимальные ходы. При увеличении размеров поля производительность ухудшается, а качество ходов приближается к случайному. Это указывает на то, что для беспристрастных игр часто требуются аналитические представления, а не только распознавание образов.
Что это значит для машинных игр? Самообучающиеся ИИ могут быть очень сильны, однако в играх, где оба игрока используют общие «фишки», а выигрышная стратегия представляет собой абстрактное арифметическое правило, распознавания образов по сырым позициям может оказаться недостаточно.
Результаты не умаляют достижений ИИ, обучённого самоигрой, в шахматах и Го. Напротив, они помогают картографировать границы современных методов и выявлять области, где более абстрактные представления или гибридные подходы могут быть полезны. В более широком смысле, это напоминание о том, что системы могут хорошо работать в типичных случаях, но оставаться хрупкими в редких, но важных ситуациях.
Доктор Сёрен Риис из Университета королевы Марии в Лондоне объясняет: «Ним — это детская игра с полным математическим решением, однако самообучение в стиле AlphaZero всё равно может развивать слепые пятна, становясь конкурентоспособным, но при этом пропуская оптимальные ходы во многих позициях. Это говорит о том, что для будущих исследований в области ИИ одни лишь впечатляющие результаты не являются доказательством того, что система усвоила базовый принцип. Могут понадобиться методы, которые учитывают абстрактную структуру, чтобы сократить слепые пятна».
Комментарии
Комментариев пока нет.