ИИ для проверки рукописных задач по математике

Исследовательская группа из Университета науки и технологий Ульсана (UNIST) представила новую систему искусственного интеллекта, способную оценивать и предоставлять подробную обратную связь по рукописным математическим решениям, включая самые небрежные, подобно живому преподавателю.

Разработанная под руководством профессора Тэхуана Кима (UNIST) и профессора Сунгана Ко (POSTECH), модель под названием VEHME (Vision-Language Model for Evaluating Handwritten Mathematics Expressions) предназначена для анализа сложных рукописных математических выражений. Результаты исследования опубликованы на сервере препринтов arXiv.

Автоматическая проверка открытых математических задач традиционно требовала значительных временных и трудовых затрат. Сложность заключается в многообразии форматов ответов — от уравнений и графиков до диаграмм, а также в различиях почерка и способах представления решений студентами. Создание ИИ, способного точно понимать и оценивать такой разнообразный и неструктурированный контент, оставалось серьезным препятствием.

VEHME решает эту задачу, имитируя процесс работы человека-экзаменатора: модель тщательно анализирует положение и значение каждого элемента в условии и решении для выявления ошибок. В ходе тестов, охватывающих широкий спектр — от высшей математики до начальной арифметики — VEHME продемонстрировала точность, сопоставимую с крупными проприетарными моделями, такими как GPT-4o и Gemini 2.0 Flash, при этом являясь более легкой и эффективной моделью. Примечательно, что в сложных случаях с сильно искаженными или неразборчивыми ответами VEHME превзошла коммерческие модели, продемонстрировав более надежное обнаружение ошибок.

В то время как такие модели, как GPT-4 и Gemini, содержат сотни миллиардов параметров, VEHME работает всего с 7 миллиардами, что доказывает возможность достижения высокой производительности без колоссальных вычислительных ресурсов. Этот прорыв стал возможен благодаря специализированной технологии визуального промптинга — Expression-aware Visual Prompting Module (EVPM) — в сочетании с двухэтапным процессом обучения. EVPM позволяет VEHME понимать сложные многострочные выражения, виртуально «обрамляя» их, что помогает модели сохранять понимание структуры задачи. Второй этап обучения не только помогает VEHME распознавать правильные ответы, но и обучает ее объяснять, где и почему были допущены ошибки в процессе решения.

Учитывая нехватку качественных наборов данных рукописных решений с подробными аннотациями ошибок, команда сгенерировала синтетические обучающие данные с помощью большой языковой модели (QwQ-32B), что значительно улучшило способности VEHME к обучению и оценке.

Важно отметить, что VEHME является открытым исходным кодом и свободно доступна, что делает ее практичным инструментом для образовательных учреждений и исследователей, заинтересованных во внедрении или улучшении подобных систем.

Профессор Ким отметил: «Оценка рукописных математических ответов — одна из самых сложных задач в образовательном ИИ, требующая тонкого понимания как изображений, так и языка. Способность VEHME следовать сложным шагам решения и точно определять ошибки знаменует собой важный шаг к практическому применению в классах».

«Наша технология EVPM может автоматически интерпретировать сложную визуальную информацию, что открывает потенциал для применения за пределами образования, например, в обработке документов, анализе технических чертежей и цифровом архивировании рукописных записей».

Комментарии

Комментариев пока нет.

Информация

Опубликовано: 30 декабря 2025
Категория:
Просмотров: 1