Mozilla 开源音频数据库已成为第二大公开语音数据集


开源最前线(ID:OpenSourceTop) 猿妹 编译

综合自:http://www.zdnet.com/article/mozilla-releases-dataset-and-model-to-lower-voice-recognition-barriers/

ZDNet 消息,Mozilla 的开源音频数据库 Common Voice 已收集了来自 20,000 个人的近 40 万个录音,整体时间已超过 500 个小时,据称这是公开发布的第二大语音数据集。


音频数据库 Common Voice


授权协议:MPL

开发语言:Typescript Html/CSS

操作系统:跨平台

开发厂商:Mozilla

Github:https://github.com/mozilla/voice-web


Common Voice 简介



Common Voice 是 Mozilla 今年7月推出的一个大型公共数据集,并已开源。它允许用户通过 iOS 应用或网站捐赠他们的话语,提交他们自己阅读特定句子的简短音频记录。


语音识别现状


Mozilla 新兴技术高级副总裁肖恩·怀特(Sean White)在一篇博客文章中曾表示,“商业上可用的语言服务很少的一个原因是缺乏数据。当我们开始打造语音识别系统时,我们发现我们可以在已有算法的基础上工作,并在算法方面进行一些创新。但是要想让语音识别系统真正起作用,数据的策划,创建和聚合是一个绕不开的挑战,如果你想做一个新的语音识别系统,你无法找到一个现成的高质量音频数据集。” 



除了数据集之外,Mozilla还发布了基于中国互联网巨头百度的开源项目DeepSpeech语音识别模型。据称,LibriSpeech数据集的错误率为6.5%,DeepSpeech接近人类的认可程度。


微软公司在8月份表示,它已经达到了交换机语料库5.1%的语音识别错误率,这与专业的人类记录仪相同。


尽管有了新的里程碑,但微软承认机器仍然很难识别不同的口音和口语风格,并且在噪声条件下表现不佳。今年早些时候,谷歌表示,它的语音识别软件的错误率为4.9%。


目前,Common Voice 收集的重点是英文,计划在2018年上半年将其扩展到其他语言。

推荐↓↓↓
开源最前线
上一篇:GitHub上11月份最热门的Java项目 下一篇:开源工具Emscripten,让C++秒变JavaScript