Cohere 发布专为语音转写打造的开源语音模型

Hero

#引言

过去几年中，开源语音转文本（STT）领域主要由少数几个核心玩家主导。尽管现有的模型设定了很高的标准，但在构建企业级应用时，开发者依然经常受限于延迟、特定领域的准确率以及计算开销等问题。业界对一款轻量级、高精度且真正开源的替代方案的需求达到了前所未有的高度。

就在此时，Cohere 登场了。Cohere 历来以其顶尖的企业级大语言模型（LLMs）和检索增强生成（RAG）能力而闻名，现在刚刚宣布将业务拓展至音频领域。根据 TechCrunch AI 的最新报道，该公司发布了一款专为转写任务打造的全新开源语音模型。

#事件回顾

2026年3月26日，Cohere 公布了其在音频模型领域的首次尝试。与那些专注于通用的、多模态“任意到任意（any-to-any）”模型（同时处理文本、音频和视觉）的竞争对手不同，Cohere 采取了一种刻意专精的策略。他们此次发布的是一款开源模型，其设计目标只有一个，且极为明确：以无与伦比的精度和效率将语音转化为文本。

此次发布包含了一系列模型权重——从适合边缘部署的轻量级版本，到功能强大的大型企业级变体。所有这些模型均基于宽松的开源许可证发布，允许开发者在自己的基础设施上托管、微调和部署这些模型，从而摆脱了受限的 API 绑定。

公告中强调的主要特性包括：

SOTA级别的词错率（WER）： 在标准基准测试中，可直接与现有的专有 API 竞争，并且在许多情况下表现更优。
内置说话人分离（Speaker Diarization）： 原生支持在单一音频流中识别并标记不同的说话人，无需额外的复杂聚类管道。
声学鲁棒性： 在包含噪音的数据集上进行了强化训练，使其在处理电话会议、播客和现场录音等真实世界音频时极为高效。

#重要意义

像 Cohere 这样的重量级 AI 实验室发布开源 STT 模型，是一个具有重要意义的里程碑，原因如下。

#1. 打破 API 依赖

对于许多初创公司和企业开发者而言，依赖托管 API 进行语音转写会带来无法接受的隐私风险，并在规模化应用时产生不可预测的成本。通过开源这种级别的模型，Cohere 赋予了组织完全在本地或其虚拟私有云（VPCs）内部处理敏感音频数据（如医疗口述、财务财报电话会议或法律程序）的能力。

#2. 专精胜过通用

近期，AI 行业对“全能（omni）”模型趋之若鹜。虽然在技术上令人印象深刻，但庞大的多模态架构往往伴随着巨大的推理成本。通过剥离音频生成功能并纯粹专注于转写，Cohere 的模型效率得到了极大的提升。它需要更少的显存（VRAM），执行速度更快，并且能更好地扩展以应对高吞吐量的批处理工作负载。

#3. 多语言优势

Cohere 历来在多语言 NLP 领域表现出色。他们的 Command 模型以能够无缝处理多种语言而闻名。这种专业能力似乎已经直接转化到了他们的语音模型中，该模型在数十种语言中展现了强大的零样本（zero-shot）翻译和转写能力，并且能够优雅地处理浓重口音和语码转换（在同一个句子中混合使用多种语言）。

#技术影响

对于工程师和开发者来说，Cohere 新模型背后的架构选择才是真正有趣的地方。虽然机器学习社区仍在消化完整的技术报告，但早期迹象表明，它采用了一种高度优化的基于 Transformer 的架构，并利用了新颖的注意力机制来处理长上下文的音频片段。

#推理效率

该模型在设计上开箱即用地兼容标准的推理引擎，如 ONNX Runtime 和 TensorRT-LLM。这意味着你可以将其无缝集成到现有的 MLOps 管道中。

以下是使用标准 Python 生态系统运行推理的示例代码：

import torch
import torchaudio
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq

# Load Cohere's new transcription model and processor
model_id = "cohere/voice-transcribe-base"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, 
    torch_dtype=torch.float16, 
    low_cpu_mem_usage=True
).to("cuda")

# Load and resample audio
audio_input, sample_rate = torchaudio.load("meeting_recording.wav")
if sample_rate != 16000:
    resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
    audio_input = resampler(audio_input)

# Process and transcribe
inputs = processor(audio_input.squeeze(), sampling_rate=16000, return_tensors="pt").to("cuda", torch.float16)

with torch.no_grad():
    predicted_ids = model.generate(inputs.input_features, max_length=400)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print(transcription)

#性能对比

虽然独立的基准测试还需要几周时间才能得出定论，但初步指标显示出极具竞争力的表现：

模型层级	参数量	平均 WER (英语)	VRAM 需求	是否开源？
Cohere Transcribe (Base)	~500M	4.1%	~2GB	是 (Apache 2.0)
Cohere Transcribe (Large)	~1.5B	3.2%	~6GB	是 (Apache 2.0)
专有 API X	N/A	3.1%	N/A	否

注：这些是基于早期发布说明和社区测试的初步数据。

#未来展望

我们预计该模型将在开源社区中迅速得到广泛采用。像 faster-whisper 这样的工具以及各种本地 AI 运行器很可能会在几周（甚至几天）内集成对其的支持，让开发者能够在边缘设备和消费级硬件上运行推理。

在 Ichiban Tools，我们对这一进展感到无比兴奋。作为开发者实用工具（包括我们自己的语音转写和处理工作流）的构建者，我们一直在不断评估能够为我们的服务提供支持的最佳基础模型。一款将准确率放在首位且包含原生说话人分离的开源模型，是整合到我们内部管道和未来产品特性中的完美候选者。我们将对该模型进行广泛的基准测试，看看它与我们现有技术栈相比表现如何。

此外，我们预计将会出现一波由社区驱动的微调热潮。因为该模型是完全开源的，所以医疗保健、航空和法律等领域的领域专家不可避免地会训练出针对其特定行业术语量身定制的专用变体，从而突破开源语音 AI 所能达到的边界。

#总结

Cohere 决定推出一款专为转写打造的专用开源语音模型，这对开发者来说是一个巨大的胜利。通过将特定任务的卓越表现置于通用的多模态能力之上，他们提供了一款性能卓越、运行成本低且完全私密的工具。随着社区获取到这些权重并开始将其集成到生产系统中，自动转写的标准无疑将被推向新的高度。

仅仅依赖闭源 API 来实现高质量语音识别的时代正在消退。对于正在构建下一代语音感知应用的软件工程师来说，他们手中的工具箱刚刚得到了显著的增强。