OpenAI GDPval: ИИ против профессионалов в тесте эффективности
OpenAI представила новый бенчмарк GDPval, который оценивает производительность искусственного интеллекта в сравнении с человеческими специалистами из различных отраслей. Этот тест представляет собой в

OpenAI представила новый бенчмарк GDPval, который оценивает производительность искусственного интеллекта в сравнении с человеческими специалистами из различных отраслей. Этот тест представляет собой важный шаг в понимании того, насколько системы компании приблизились к превосходству над людьми в экономически значимой работе.

Согласно данным компании, модели GPT-5 и Claude Opus 4.1 демонстрируют результаты, сопоставимые с качеством работы отраслевых экспертов. Однако исследователи подчеркивают, что текущая версия теста охватывает ограниченный спектр задач и не означает немедленной замены человеческого труда.

Бенчмарк GDPval основан на анализе девяти ключевых отраслей, вносящих наибольший вклад в валовой внутренний продукт США. Среди них здравоохранение, финансы, производство и государственный сектор. Тестирование включает 44 профессии — от разработчиков программного обеспечения до медицинских сестер и журналистов.

В первой версии теста GDPval-v0 эксперты сравнивали аналитические отчеты, созданные искусственным интеллектом и профессионалами. Модель GPT-5-high показала результат выше или равный человеческому в 40,6% случаев, в то время как Claude Opus 4.1 достиг 49% успешных сравнений.

Главный экономист OpenAI доктор Аарон Чаттерджи отмечает, что прогресс моделей позволяет специалистам делегировать рутинные задачи искусственному интеллекту и сосредоточиться на более сложной работе. Исследователь Тежал Патвардхан подчеркивает ускорение развития: если модель GPT-4o демонстрировала всего 13,7% успеха, то GPT-5 улучшил этот показатель почти втрое.

Несмотря на впечатляющие результаты, эксперты признают необходимость разработки более комплексных тестов, учитывающих многообразие профессиональных обязанностей. В будущем OpenAI планирует расширить бенчмарк для оценки интерактивных рабочих процессов и дополнительных отраслей.

Информация

Опубликовано: 25 сентября 2025
Категория: Искусственный интеллект
Просмотров: 3

Комментарии

Комментариев пока нет.