ESPNET中fbank特征怎么用conv2D 在espnet中最基本的端到端语音识别的模型rnn模型,它的编码网络由VGG和RNN组成,直觉上语音应该是一个1维的,应该是只与时间相关,但是espnet用的却是pytorch上的conv2D,让我们来看一下是怎么一回事。 下面就是espnet中两层VGG代码的定义,用了四个卷积层将channel数从1增加到128,卷积核大小为3*3,因为padding和步长都为1,所以经过卷积后大小是不会发生变 2022-04-23 espnet espnet cnn
端到端语音识别模型中的LM Fusion 端到端(E2E)语音识别(ASR)的目标是直接讲输入特学特征映射到字符序列,现在已经在各种任务上取得了很好的性能,最流行的有CTC、RNN-T和AED模型。但是E2E模型似乎对域转移适应的不是很好,尽管有很多方法,但都需要对应的语音-文本作为适应数据。 而语言模型(LM)集成可能是E2E模型用来测试跨域和域内应用的纯文本场景下一种比较好的方法,因为文本相对于配对的语音-文本不在一个数量级上,因为外 2022-04-20 LM-Fusion E2E LM LM fusion
ESPnet源码解析(二)asr_train.py 这部分的代码是声学模型训练的代码的第一部分,以前看的,我代码能力比较薄弱吧,反正只能慢慢改了。 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808 2022-04-17 ESPnet ESPnet ESPnet_train
ESPnet源码解析(一)run.sh 网上关于ESPnet的相关内容比较少,我也只能靠自己不断摸索总结,这是我对自己看的源码进行的一些记录,应该会有很多错误,希望各位大佬在评论区大力斧正!!! 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656 2022-04-17 ESPnet ESPnet 源码
ESPnet基础理论(一)总览 这是我2021年9月份做的一次组会报告,不知道咋上传ppt,因此以图片上传上来,基本概括了ESPnet涉及到的最基础的理论知识吧,后面我有时间将会将涉及到的CTC、RNNT、Attention等逐一进行讲解,有时间的话,还有一些最新的端到端语音识别知识,比如语言模型的融合,这是最近在看的东西,当然得我学会还有时间才会写啊。 2022-04-17 ESPnet ESPnet End-to-End CTC/Attention
kaldi学习笔记(三)生成L.fst kaldi项目新路径:kaldi/egs/xuexi/s5 L.fst是lexicon的WFST格式,L_disambig.fst引入了消歧符号。L.fst的输入音素序列,输出词序列。在这假设大家已经知道WFST,下面我们用一个小lexicon.txt来演示怎么生成L.fst等,词典放在data/local/dict下。 1234567891011 2022-04-14 kaldi kaldi L.fst WFST lexicon
kaldi学习笔记(五)特征提取 原理语音识别的第一步就是特征提取了,本文主要讲述如何根据音频信号提取MFCC和FBank特征(还有PLP,做孤立词识别用过,但没深究),这两种特征也是目前语音识别中使用最广泛的特征了。目前还有wav2vec也可以做特征提取,在无监督语音识别效果不错。 语音产生的过程:肺部呼出气体,然后通过声门的开启与闭合产生的周期信号,再通过声道产生声音,因为声道的不同,产生的声音也不同,比如拼音a、o、zi,三 2022-04-14 kaldi kaldi mfcc 特征提取
基于kaldi+GStreamer搭建web版实时语音识别系统 本文将会主要介绍怎么结合kaldi语音识别工具和两个GStreamer插件件(gst-kaldi-nnet2-online、kaldi-gstreamer-server)以及dictate.js来搭建线上的实时语音识别系统。 本人配置环境:腾讯云服务器、ubuntu 18.04。 一.kaldiKaldi是当前最流行的开源语音识别工具(Toolkit),它使用WFST来实现解码算法。Kal 2022-04-13 kaldi kaldi GStreamer 语音识别系统
ESPnet安装 版本:cuda 10.1 pytorch1.4 centos7.80.准备需要准备安装好anaconda3,kalid(可以见kaldi安装) 1.创建虚拟环境并激活执行下面命令创建虚拟环境: 12conda create -n espnet python=3.7.3conda activate espnet conda换源,建议换清华的源,阿里的源下载的pytorch和cuda以及cudnn的 2022-04-13 espnet espnet linux 安装
因为德芙的第一篇文章 嘻嘻嘻嘻,今天是4月12号,夏冬疯狂交替的日子,但是由于目前全国疫情又到处爆发了,大家还是要小心注意。 这里是我的个人博客,这是我在博客上写的第一篇文章,主要是欢迎各位小伙伴的到来。 说起来,为什么突然想搞个博客呢,因为就是突然想搞个博客,嘻嘻,以前都是用石墨文档写学习记录给自己看,现在想用博客记录自己的学习记录(主要是自己学习和吸收的一个过程,当然可能会有错误,欢迎大家指正)。但是我还是个在校学 2022-04-12