Cohere представила Transcribe: открытую модель распознавания речи
Компания Cohere, специализирующаяся на корпоративном искусственном интеллекте, анонсировала свой первый голосовой продукт — Transcribe. Эта модель с открытым исходным кодом предназначена для автоматического распознавания речи и может использоваться для таких задач, как ведение заметок и анализ произнесенного текста.
nTranscribe обладает относительно небольшим размером — всего 2 миллиарда параметров, что позволяет ей работать на видеокартах потребительского уровня. Это делает модель доступной для самостоятельного развертывания. На данный момент Transcribe поддерживает 14 языков, включая английский, французский, немецкий, итальянский, испанский, португальский, греческий, нидерландский, польский, китайский, японский, корейский, вьетнамский и арабский.
nПо данным Cohere, Transcribe демонстрирует превосходные результаты по сравнению с такими моделями, как Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 и Qwen3-ASR-1.7B Speech. На открытой доске лидеров ASR (Automatic Speech Recognition) модель достигла среднего показателя частоты ошибок по словам (WER) в 5,42%, что является лучшим результатом среди всех представленных моделей.
nКомпания утверждает, что в ходе пользовательской оценки точности, связности и удобства транскрипций Transcribe в 61% случаев превосходила другие модели. Однако при работе с португальским, немецким и испанским языками модель показала результаты ниже, чем у конкурентов.
nCohere заявляет, что Transcribe способна обрабатывать 525 минут аудио за одну минуту, что является впечатляющим показателем для моделей такого класса. В планах компании — интеграция Transcribe в платформу оркестрации корпоративных агентов North. Модель также будет доступна бесплатно через API Cohere и на платформе Model Vault.
nМодели распознавания речи становятся все более востребованными в связи с ростом популярности приложений для ведения заметок и диктовки, таких как Granola и Wispr Flow.
Комментарии
Комментариев пока нет.