Facebook 开源语音识别工具包wav2letter

开源最前线(ID:OpenSourceTop) 猿妹 整编

来源:GitHub

近日,Facebook AI 研究院开源了端到端语音识别系统 wav2letter,本文是该架构的论文实现,读者可据此做语音转录。

ASR 系统 wav2letter


授权协议:BSD

开发语言:Lua

操作系统:跨平台

开发厂商:Facebook

项目地址:https://github.com/facebookresearch/wav2letter


Facebook AI 研究院近日开源了一款简单高效的端到端自动语音识别(ASR)系统 wav2letter,wav2letter 实现的是论文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 和 Letter-Based Speech Recognition with Gated ConvNets 中提出的架构。


wav2letter 简介


wav2letter 是 Facebook AI 研究院今天开源的简单高效的端到端自动语音识别(ASR)系统。该实现的原作者包括 Ronan Collobert、Christian Puhrsch、Gabriel Synnaeve、Neil Zeghidour 和 Vitaliy Liptchinsky。


如果你使用 wav2letter 或相关的预训练模型,需引用其中的一篇论文。 


另外,如果想要立刻进行语音转录的,Facebook 还提供了 Librispeech 数据集上预训练模型。


预训练模型:https://github.com/facebookresearch/wav2letter#pre-trained-models

Librispeech 数据集:http://www.openslr.org/12


wav2letter 训练


数据文件夹包含多个用于预处理多种数据集的脚本。目前我们仅提供 LibriSpeech 和 TIMIT。以下是预处理 LibriSpeech ASR 语料库的例子:



在多 GPU 上训练



使用 OpenMPI 进行多 GPU 训练:



这里,我们假定 mpirun 位于$PATH。


安装要求


● MacOS 或 Linux 操作系统

● Torch,我们在下文介绍了安装教程

● 在 CPU 上训练:Intel MKL

● 在 GPU 上训练:NVIDIA CUDA Toolkit (cuDNN v5.1 for CUDA 8.0)

● 读取录音文件:Libsndfile(必须在任何标准发行版中可用)

● 标准语音特征:FFTW(必须在任何标准发行版中可用)

推荐↓↓↓
开源最前线
上一篇:苹果加入开放媒体联盟 共同打造下一代视频压缩技术 下一篇:百度在美宣布 Apollo 2.0 正式开放 共有 16.5 万行代码