Компактные ИИ-модели: будущее локального искусственного интеллекта

В условиях, когда уровень дефолтов частных компаний превысил 9,2% — самый высокий показатель за последние годы — венчурная фирма Lux Capital недавно рекомендовала компаниям, использующим ИИ, получить подтверждение своих вычислительных обязательств в письменном виде. В условиях финансовой нестабильности, распространяющейся по цепочке поставок ИИ, Lux предупредила, что соглашения на основе рукопожатия недостаточны.

Однако существует совершенно другой вариант — полностью отказаться от внешней вычислительной инфраструктуры. Меньшие ИИ-модели, работающие непосредственно на устройстве пользователя — без дата-центра, облачного провайдера, без контрагентского риска — становятся достаточно хорошими, чтобы их стоило рассмотреть. И Multiverse Computing поднимает руку.

Испанский стартап до сих пор сохранял более низкий профиль по сравнению с некоторыми конкурентами, но по мере роста спроса на эффективность ИИ это меняется. После сжатия моделей от крупных ИИ-лабораторий, включая OpenAI, Meta*, DeepSeek и Mistral AI, компания запустила как приложение, демонстрирующее возможности своих сжатых моделей, так и API-портал — шлюз, позволяющий разработчикам получать доступ и работать с этими моделями — который делает их более широко доступными.

Приложение CompactifAI, название которого совпадает с технологией квантового сжатия Multiverse, является инструментом ИИ-чата в духе ChatGPT или Le Chat от Mistral. Задайте вопрос — модель ответит. Разница в том, что Multiverse встроила Gilda — модель настолько маленькую, что она может работать локально и в автономном режиме, согласно компании.

Для конечных пользователей это проба ИИ на краю сети с данными, которые не покидают их устройства и не требуют подключения. Но есть оговорка: мобильным устройствам должно хватать оперативной памяти и хранилища. Если их недостаточно — а многие старые iPhone не удовлетворят этим требованиям — приложение переключается обратно на облачные модели через API. Маршрутизация между локальной и облачной обработкой автоматически выполняется системой, которую Multiverse назвала Ash Nazg, название которой зазвучит знакомо для поклонников Толкина, так как ссылается на надпись на Кольце Всевластья из «Властелина колец». Но когда приложение направляет запросы в облако, оно теряет свое главное преимущество в плане конфиденциальности.

Эти ограничения означают, что CompactifAI пока не готов для массового внедрения клиентами, хотя это, возможно, никогда и не было целью. Согласно данным Sensor Tower, приложение скачали менее 5000 раз за последний месяц.

Реальной целью являются предприятия. Сегодня Multiverse запускает самообслуживаемый API-портал, который предоставляет разработчикам и предприятиям прямой доступ к своим сжатым моделям — без необходимости использования AWS Marketplace.

«API-портал CompactifAI [теперь] предоставляет разработчикам прямой доступ к сжатым моделям с прозрачностью и контролем, необходимыми для запуска их в продакшене», — заявил в своем заявлении генеральный директор Энрике Лисасо.

Одной из ключевых функций API является мониторинг использования в реальном времени, и это не случайно. Наряду с потенциальными преимуществами развертывания на краю сети, снижение вычислительных затрат является одной из основных причин, по которой предприятия рассматривают малые модели как альтернативу большим языковым моделям (LLM).

Помогает также то, что малые модели уже не так ограничены, как раньше. На этой неделе Mistral обновила свое семейство малых моделей, запустив Mistral Small 4, который, по заявлению французской компании, оптимизирован одновременно для общего чата, программирования, агентских задач и рассуждений. Компания также выпустила Forge — систему, которая позволяет предприятиям создавать пользовательские модели, включая малые модели, для которых они могут выбрать компромиссы, которые лучше всего подходят для их вариантов использования.

Недавние результаты Multiverse также свидетельствуют о том, что разрыв с LLM сокращается. Ее последняя сжатая модель HyperNova 60B 2602 основана на gpt-oss-120b — модели OpenAI, чей исходный код общедоступен. Компания утверждает, что она теперь обеспечивает более быстрые ответы по более низкой цене, чем оригинал, от которого она была получена, преимущество, которое особенно важно для агентских рабочих процессов кодирования, где ИИ автономно выполняет сложные многошаговые программистские задачи.

Сжатие моделей до размеров, позволяющих им работать на мобильных устройствах, при сохранении полезности — большая проблема. Apple Intelligence обошла эту проблему, комбинируя локальную и облачную модели. Приложение CompactifAI от Multiverse также может направлять запросы через API на gpt-oss-120b, но его основная цель — продемонстрировать, что локальные модели, такие как Gilda и ее будущие замены, имеют преимущества, выходящие за рамки экономии затрат.

Для работников критически важных сфер модель, способная работать локально без подключения к облаку, обеспечивает большую конфиденциальность и устойчивость. Но большая ценность заключается в бизнес-вариантах использования, которые это может разблокировать — например, внедрение ИИ в дроны, спутники и другие среды, где подключение нельзя считать само собой разумеющимся.

Компания уже обслуживает более 100 глобальных клиентов, включая Bank of Canada, Bosch и Iberdrola, но расширение клиентской базы может помочь ей привлечь дополнительное финансирование. После привлечения $215 млн в рамках раунда Series B в прошлом году, компания сейчас, как сообщается, привлекает новый раунд финансирования в размере €500 млн при оценке более €1,5 млрд.

Компактные ИИ-модели: будущее локального искусственного интеллекта

Рекомендуемые товары