ИИ обучается самостоятельно, превосходя алгоритмы человека
Прогресс в области искусственного интеллекта (ИИ) открывает новые горизонты: машины учатся самостоятельно, превосходя даже разработки человеческих инженеров. Недавно разработанная система ИИ продемонстрировала способность к самообучению, создав алгоритм, который показал лучшие результаты по сравнению с алгоритмами, созданными людьми, в решении ряда сложных задач.
Традиционно, в обучении ИИ, особенно в области обучения с подкреплением (RL), где ИИ учится методом проб и ошибок, полагаются на алгоритмы и правила, разработанные человеком. Этот процесс, хотя и естественен для живых организмов благодаря эволюции, требовал явного обучения для машин. Он часто был трудоемким и ограничивался человеческой интуицией.
Исследователи, вдохновившись эволюционным процессом, представляющим собой случайный подбор и тестирование, создали обширную цифровую популяцию ИИ-агентов. Эти агенты решали множество задач в разнообразных и сложных средах, используя определенное правило обучения. Над ними был установлен «мета-алгоритм» — родительский ИИ, который анализировал эффективность агентов и модифицировал правило обучения для ускорения и улучшения процесса обучения у следующего поколения.
Этот подход позволил системе обнаружить новое правило обучения, получившее название DiscoRL (изначально оцененное на 57 играх Atari и названное Disco57). Оно превзошло все ранее разработанные человеком алгоритмы. Затем команда использовала Disco57 для обучения нового ИИ-агента и сравнила его производительность с ведущими человеческими алгоритмами, такими как PPO и MuZero. ИИ прошел тестирование как на знакомых играх Atari, так и на совершенно новых задачах, включая игры ProcGen, Crafter и NetHack.
Результаты оказались впечатляющими. В рамках Atari Benchmark (набор классических видеоигр Atari, используемый для оценки производительности ИИ) агент, обученный с помощью DiscoRL, показал лучшие результаты, чем все человеческие алгоритмы. При столкновении с незнакомыми задачами он продемонстрировал передовой уровень производительности, подтвердив, что система самостоятельно открыла эффективное правило обучения.
«Наши выводы предполагают, что алгоритмы RL, необходимые для продвинутого искусственного интеллекта, могут вскоре автоматически обнаруживаться на основе опыта агентов, а не вручную проектироваться», — пишут исследователи в своей статье, опубликованной в журнале Nature. «Эта работа стала шагом к созданию алгоритмов обучения с подкреплением, разработанных машинами, которые смогут конкурировать и даже превосходить лучшие вручную разработанные алгоритмы в сложных условиях».
Комментарии
Комментариев пока нет.