Разрыв в обучении ИИ: почему кодинг прогрессирует быстрее

Инструменты искусственного интеллекта для написания кода стремительно совершенствуются. Если вы не работаете в сфере разработки, может быть трудно заметить, насколько быстро меняется ситуация, но появление GPT-5, Gemini 2.5 и Sonnet 4.5 открыло новые возможности для автоматизации задач программирования.

В то же время другие навыки развиваются медленнее. Например, использование ИИ для составления писем даёт примерно тот же результат, что и год назад. Даже когда модель улучшается, конечный продукт не всегда выигрывает — особенно если это чат-бот, выполняющий множество разнородных задач. Прогресс в области ИИ продолжается, но он становится всё менее равномерным.

Разница в темпах развития объясняется довольно просто. Приложения для генерации кода benefit от миллиардов легко измеримых тестов, которые позволяют обучать их созданию работоспособного кода. Это обучение с подкреплением (reinforcement learning, RL) — arguably главный драйвер прогресса ИИ за последние полгода, и его методы постоянно усложняются.

Человеческие оценщики тоже могут участвовать в RL, но метод наиболее эффективен, когда есть чёткий критерий «прошёл/не прошёл», позволяющий проводить миллиарды итераций без остановки для ручной проверки.

По мере того как индустрия всё больше полагается на обучение с подкреплением, становится очевидной разница между навыками, которые можно автоматически оценить, и теми, которые нельзя. Исправление ошибок в коде и решение математических задач быстро улучшаются, в то время как написание текстов прогрессирует лишь незначительно.

Короче говоря, существует разрыв в обучении — и он становится одним из ключевых факторов, определяющих, что могут и не могут делать системы ИИ.

В некотором смысле, разработка программного обеспечения — идеальный объект для reinforcement learning. Даже до появления ИИ существовала целая дисциплина, посвящённая тестированию устойчивости кода — потому что разработчикам нужно было убедиться, что их программы не сломаются перед запуском. Даже самый изящный код должен пройти модульное, интеграционное, безопасностное и другие виды тестирования.

Люди-разработчики используют эти тесты для проверки своего кода, и, как отметил старший директор Google по инструментам для разработчиков, они столь же полезны для валидации кода, сгенерированного ИИ. Более того, они идеально подходят для обучения с подкреплением, поскольку уже систематизированы и могут повторяться в огромных масштабах.

Нет простого способа оценить хорошо составленное письмо или удачный ответ чат-бота — эти навыки inherently субъективны и сложнее поддаются масштабному измерению. Но не все задачи четко делятся на «легко тестируемые» и «трудно тестируемые».

У нас нет готовых тестовых наборов для квартальных финансовых отчётов или актуарных расчётов, но хорошо финансируемый стартап в области бухгалтерии probably мог бы создать их с нуля. Одни тестовые системы будут работать лучше других, и некоторые компании окажутся умнее в подходе к проблеме. Но тестируемость underlying процесса станет решающим фактором в том, можно ли превратить его в functional продукт, а не просто в эффектную демонстрацию.

Некоторые процессы оказываются более тестируемыми, чем можно было ожидать. Если бы меня спросили на прошлой неделе, я бы отнёс генерацию видео с помощью ИИ к категории «трудно тестируемых», но огромный прогресс новой модели Sora 2 от OpenAI показывает, что, возможно, это не так сложно, как кажется.

В Sora 2 объекты больше не появляются и не исчезают из ниоткуда. Лица сохраняют форму, выглядят как конкретный человек, а не просто как набор черт. Видеоролики Sora 2 соблюдают законы физики как в очевидных, так и в subtle аспектах. Подозреваю, что за кулисами скрывается robust система обучения с подкреплением для каждого из этих качеств. Вместе они создают разницу между фотореалистичностью и занимательной галлюцинацией.

Важно подчеркнуть, что это не жёсткое правило искусственного интеллекта. Это следствие центральной роли, которую reinforcement learning играет в развитии ИИ, и ситуация может easily измениться по мере развития моделей. Но пока RL остаётся основным инструментом вывода AI-продуктов на рынок, разрыв в обучении будет only расти — с серьёзными последствиями как для стартапов, так и для экономики в целом.

Если процесс оказывается на «правильной» стороне разрыва, стартапы, вероятно, succeed в его автоматизации — и те, кто занимается этой работой сейчас, могут оказаться в поиске новой карьеры. Вопрос о том, какие медицинские услуги можно обучать через RL, имеет enormous implications для структуры экономики в следующие 20 лет. И если сюрпризы вроде Sora 2 являются показателем, ждать ответа, возможно, придётся недолго.