Чипы размером с тарелку: новый скачок в развитии ИИ

Современным системам искусственного интеллекта (ИИ) становится все труднее масштабироваться для дальнейшего прогресса. Они требуют огромных объемов памяти, чтобы все их процессоры могли оперативно обмениваться генерируемыми данными для слаженной работы.

На протяжении последнего десятилетия бум глубокого обучения в основном подпитывался графическими процессорами (GPU). Изначально разработанные для игр, они оказались неоптимальны для ИИ-моделей, где каждый шаг обработки должен выполняться менее чем за миллисекунду.

Каждый GPU обладает ограниченным объемом памяти. Поэтому большие языковые модели (LLM), лежащие в основе наших ИИ-систем, приходится разбивать на множество GPU, соединенных высокоскоростными сетями. LLM обучаются на огромных массивах текста, и каждый этап их работы включает перемещение данных между чипами — процесс, который не только медленный и энергозатратный, но и требует все больше чипов по мере роста моделей.

К примеру, OpenAI использовала около 200 000 GPU для создания своей последней модели GPT-5, что примерно в 20 раз больше, чем у модели GPT-3, лежащей в основе первой версии Chat-GPT три года назад.

Чтобы преодолеть ограничения GPU, такие компании, как Cerebras из Калифорнии, начали разрабатывать новый тип чипов — процессоры вафельного размера. Они достигают размера тарелки, примерно в пять раз превосходя GPU, и лишь недавно стали коммерчески доступными. Каждый такой чип обладает огромной встроенной памятью и сотнями тысяч отдельных процессоров (ядер).

Основная идея проста: вместо координации десятков маленьких чипов, все вычисления сосредоточены на одном кристалле кремния, что исключает необходимость передачи данных по аппаратным сетям. Это критически важно, поскольку каждая задержка при генерации ответа ИИ (этап, называемый инференсом) накапливается.

Время отклика модели называется задержкой (latency), и ее сокращение крайне важно для приложений, работающих в реальном времени, таких как чат-боты, научно-аналитические движки и системы обнаружения мошенничества.

Однако одних только вафельных чипов недостаточно. Без специально разработанной для их архитектуры программной системы значительная часть их теоретического прироста производительности так и не будет реализована.

Более глубокая задача

Вафельные процессоры обладают уникальным набором характеристик. Каждое ядро имеет очень ограниченную память, поэтому существует острая потребность в обмене данными внутри чипа. Ядра могут получать доступ к своим данным за наносекунды, но их настолько много на такой большой площади, что чтение памяти на противоположной стороне кристалла может быть в тысячу раз медленнее.

Ограничения в маршрутизирующей сети каждого чипа также означают, что он не может обрабатывать все возможные коммуникации между ядрами одновременно. В итоге ядра не могут получать доступ к памяти достаточно быстро, не могут свободно общаться и, в конечном счете, тратят большую часть времени на ожидание.

Недавно мы работали над решением под названием WaferLLM, совместным проектом Эдинбургского университета и Microsoft Research, разработанным для эффективной работы крупнейших LLM на вафельных чипах. Наша цель — реорганизовать работу LLM таким образом, чтобы каждое ядро на чипе в основном обрабатывало данные, хранящиеся локально.

В первой статье, посвященной этой проблеме с точки зрения программного обеспечения, мы разработали три новых алгоритма, которые разбивают большие математические операции модели на гораздо более мелкие части. Эти части затем организуются так, чтобы соседние ядра могли обрабатывать их совместно, передавая лишь мельчайшие фрагменты данных следующему ядру. Это обеспечивает локальное перемещение информации по всей пластине и позволяет избежать дальних коммуникаций, замедляющих весь чип.

Мы также внедрили новые стратегии для распределения различных частей (или слоев) LLM по сотням тысяч ядер, не оставляя больших участков кристалла простаивать. Это включает координацию обработки и коммуникаций, чтобы гарантировать, что когда одна группа ядер выполняет вычисления, другая перемещает данные, а третья подготавливает следующую задачу.

Эти корректировки были протестированы на LLM, таких как Llama от Meta и Qwen от Alibaba, с использованием крупнейшего в Европе объекта для вафельных ИИ-чипов в Эдинбургском международном центре обработки данных. WaferLLM позволил вафельным чипам генерировать текст примерно в 100 раз быстрее, чем раньше.

По сравнению с кластером из 16 GPU, это привело к десятикратному снижению задержки, а также к двукратной экономии энергии. Таким образом, хотя некоторые утверждают, что следующий скачок производительности ИИ может прийти от чипов, специально разработанных для LLM, наши результаты предполагают, что можно разработать программное обеспечение, соответствующее структуре существующего оборудования.

В ближайшей перспективе более быстрая инференция при более низкой стоимости открывает перспективы более отзывчивых ИИ-инструментов, способных оценивать гораздо больше гипотез в секунду. Это улучшит все: от ассистентов для рассуждений до научно-аналитических движков. Даже более ресурсоемкие приложения, такие как обнаружение мошенничества и проверка идей посредством симуляций, смогут обрабатывать значительно большие рабочие нагрузки без необходимости использования массивных кластеров GPU.

Будущее

GPU остаются гибкими, широкодоступными и поддерживаются зрелой программной экосистемой, поэтому вафельные чипы их не заменят. Вместо этого они, вероятно, будут использоваться для рабочих нагрузок, которые зависят от ультранизкой задержки, чрезвычайно больших моделей или высокой энергоэффективности, таких как разработка лекарств и финансовый трейдинг.

Тем временем GPU не стоят на месте: лучшее программное обеспечение и постоянные улучшения в дизайне чипов помогают им работать более эффективно и обеспечивать большую скорость. Со временем, при условии сохранения потребности в еще большей эффективности, некоторые архитектуры GPU также могут принять вафельные решения.

Более общий урок заключается в том, что инфраструктура ИИ становится проблемой совместного проектирования: аппаратное и программное обеспечение должны развиваться вместе. По мере роста моделей простое масштабирование с помощью большего количества GPU больше не будет достаточным. Системы, подобные WaferLLM, показывают, что переосмысление программного стека необходимо для раскрытия следующего поколения производительности ИИ.

Для общественности преимущества будут проявляться не в виде новых чипов на полках, а в виде ИИ-систем, поддерживающих приложения, которые ранее были слишком медленными или слишком дорогими для запуска. Будь то в области научных открытий, государственных услуг или высокообъемной аналитики, переход к вафельным вычислениям знаменует новый этап в построении ИИ-систем и в том, чего они могут достичь.