ИИ не умножает: как модели учатся считать

Современные большие языковые модели впечатляют своими возможностями: от написания сложного кода до продвинутых рассуждений. Однако, когда дело доходит до элементарной арифметики, такой как умножение четырехзначных чисел, даже передовые системы испытывают трудности. Исследование, опубликованное на arXiv, проливает свет на причины этой проблемы.

Ученые из Университета Чикаго, совместно с коллегами из MIT, Гарварда, Университета Ватерлоо и Google DeepMind, изучали так называемую "зубчатую границу" возможностей ИИ – способность преуспевать в сложных задачах, но спотыкаться на, казалось бы, простых.

Почему стандартное обучение не работает

Умножение многозначных чисел требует запоминания промежуточных результатов – переносов и частичных сумм – для их последующего сложения. Эти процессы, связанные с хранением информации для дальнейшего использования, называются "долгосрочными зависимостями". Стандартные модели ИИ обучаются путем выявления закономерностей в данных. Однако, чем сложнее задача, тем меньше вероятность, что модель столкнется с ней в точности во время обучения. Обычное обучение, такое как "стандартная доводка" (standard fine-tuning), опирается на увеличение объема данных или количества слоев модели. Исследователи обнаружили, что даже модели с 12 слоями достигали менее 1% точности при умножении четырехзначных чисел, так как они сходятся к "локальному оптимуму", неспособному обработать такие задачи.

Прорыв с Implicit Chain of Thought (ICoT)

Альтернативный подход, Implicit Chain of Thought (ICoT), показал поразительные результаты, достигнув 100% точности. Исследование выявило, что ICoT-модель эффективно отслеживает долгосрочные зависимости, запоминая и используя промежуточную информацию. В отличие от стандартных моделей, она научилась "внутренне" представлять операции, используя такие структуры, как Фурье-базисы, и применяя геометрические операции, например, сумму Минковского, для арифметических вычислений. Модель организует свое "внимание" по разным временным путям, эффективно сохраняя и извлекая нужные данные.

Простое решение для улучшения

Команда исследователей предположила, что недостаток "встроенного руководства" в стандартных моделях можно исправить. Путем добавления простого обучающего объекта, который заставляет модель отслеживать текущие суммы на каждом шаге, они смогли добиться 99% точности умножения даже на двухслойной модели, ранее не справлявшейся с задачей. Модель научилась механизмам, схожим с ICoT, эффективно сохраняя и извлекая промежуточные результаты.

Новый взгляд на обучение ИИ

Исследование подчеркивает, что преодоление проблем, требующих долгосрочных зависимостей, не всегда решается простым масштабированием. Архитектурные решения и специальные методы обучения играют ключевую роль. Понимание того, как именно ИИ учится и "думает", особенно важно по мере его интеграции в критически важные области принятия решений. Будущие исследования направлены на разработку более универсальных подходов для улучшения обучения моделей в задачах, требующих длительного отслеживания информации.

Комментарии

Комментариев пока нет.