AI语音生成

AI语音生成

本版块未设置版块简介!请后台版块编辑添加。
  • 49帖子
  • 112讨论
  • 0关注

OpenAI 的音频应用 whisper 介绍:

40

主题

5

回帖

291

积分

管理员

积分
291
发表于 2023-6-1 18:22:08 | 显示全部楼层 |阅读模式
126 0
   
    Whisper的网站链接地址为:[https://openai.com/research/whisper/].     https://openai.com/research/whisper/





    Whisper是OpenAI开发的一种自动语音识别(ASR)系统。它在从网络收集的680,000小时多语言和多任务监督数据上进行了训练。由于使用了如此大量和多样的数据集,Whisper在对口音、背景噪音和技术语言的健壮性上得到了提升。此外,它还可以实现多种语言的转录,以及将这些语言翻译成英语。OpenAI为了支持建立有用的应用并进行对强健语音处理的进一步研究,开源了模型和推理代码。


    Whisper的架构是一种简单的端到端方法,实现为编码器-解码器变压器。输入的音频被分割成30秒的片段,转换成对数梅尔频谱图,然后传入编码器。解码器被训练来预测相应的文本字幕,其中混合了特殊的标记,这些标记指导单一模型执行诸如语言识别、短语级时间戳、多语言语音转录和到英语的语音翻译等任务。


    其他现有的方法通常使用较小的、更紧密配对的音频-文本训练数据集,或使用广泛但无监督的音频预训练。由于Whisper在大量和多样的数据集上进行了训练,并且没有对任何特定的数据集进行微调,所以它在LibriSpeech性能上不如专门在语音识别中表现出色的模型。然而,当我们在许多不同的数据集上衡量Whisper的零击败性能时,我们发现它更加健壮,错误率比那些模型少50%。


    Whisper的音频数据集中约有三分之一是非英语的,它可以选择在原语言中进行转录或翻译成英语。我们发现这种方法在学习语音到文本的翻译上特别有效,并且在CoVoST2到英语的零击败翻译上超越了有监督的最新技术。


    我们希望Whisper的高准确率和易用性能让开发人员将语音界面添加到更多的应用中。你可以查看论文、模型卡和代码以了解更多细节并试用Whisper。


   

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册
发表评论