OpenAI 的音频应用 whisper 介绍：

admin · 发表于 2023-6-1 18:22:08

Whisper的网站链接地址为：[https://openai.com/research/whisper/]. https://openai.com/research/whisper/

Whisper是OpenAI开发的一种自动语音识别（ASR）系统。它在从网络收集的680,000小时多语言和多任务监督数据上进行了训练。由于使用了如此大量和多样的数据集，Whisper在对口音、背景噪音和技术语言的健壮性上得到了提升。此外，它还可以实现多种语言的转录，以及将这些语言翻译成英语。OpenAI为了支持建立有用的应用并进行对强健语音处理的进一步研究，开源了模型和推理代码。

Whisper的架构是一种简单的端到端方法，实现为编码器-解码器变压器。输入的音频被分割成30秒的片段，转换成对数梅尔频谱图，然后传入编码器。解码器被训练来预测相应的文本字幕，其中混合了特殊的标记，这些标记指导单一模型执行诸如语言识别、短语级时间戳、多语言语音转录和到英语的语音翻译等任务。

其他现有的方法通常使用较小的、更紧密配对的音频-文本训练数据集，或使用广泛但无监督的音频预训练。由于Whisper在大量和多样的数据集上进行了训练，并且没有对任何特定的数据集进行微调，所以它在LibriSpeech性能上不如专门在语音识别中表现出色的模型。然而，当我们在许多不同的数据集上衡量Whisper的零击败性能时，我们发现它更加健壮，错误率比那些模型少50%。

Whisper的音频数据集中约有三分之一是非英语的，它可以选择在原语言中进行转录或翻译成英语。我们发现这种方法在学习语音到文本的翻译上特别有效，并且在CoVoST2到英语的零击败翻译上超越了有监督的最新技术。

我们希望Whisper的高准确率和易用性能让开发人员将语音界面添加到更多的应用中。你可以查看论文、模型卡和代码以了解更多细节并试用Whisper。

AI语音生成

OpenAI 的音频应用 whisper 介绍：