如何拼写样品拼音?:Listen,Attend,andSpell(LAS)
信息与通信工程硕士
这是第一个使用深度学习进行语音识别的模型。
语音识别深度学习的一般做法是
通过一串声音通过声学模型获得文本,声音信号的内容往往大于文本字符串Token有许多表达形式,包括Phoneme,Grapheme,Word,Morepheme,Bytes
Phoneme,它是发音的基本单位模型将声音转化为Phoneme,然后通过发音的基本单位来确定单词的拼写。由于发音与字母的关系非常相似,这种方法在过去没有深入学习时被广泛使用,因为模型不应该学习太多。
Grapheme,它是最小的字符单元,这意味着我们通过模型将声音转换为字母也是语音识别中使用最多的方法
Word,该模型直接将声音转换为单词看起来不错,但不适用于词汇量大的语言。例如,土耳其语总能创造出更复杂的词汇。如果你用词汇作为这种语言的基本单位,你就不能把所有的的单词。
Morpheme,大致意思是词根词缀。单位长度比word要小比Grapheme要大
Bytes!二进制确实是一个想法。
上述大概讲了一下语音识别输出端用到的基本单位,Listen,Attend,andSpell(LAS),可以看出,改论文分为三部分Listen(encoder编码器),Attend(注意机制),Spell(decoder解码器)
Listen,这部分我们需要做的是专注于我们所听到的,消除噪音
我们通过encoder可选择编码器RNN,CNN(通常是1D-CNN),CNN RNN,self-attention,因为声音采集通常是大数据量的,比如采样率16KHz1.6万个采样点需要在一秒钟内收集,因此通常需要对声音进行采样。减少样本参数。采样方法可参考RNN的方法(PyramidRNN,Poolingovertime)
CNN降采样法(是的,1维空洞卷积,我估计17年的空洞卷积是按照这个想法产生的)
将多维向量映射到一维向量,因为相邻的编码类别差别不大,为了减少计算量,只取两端,TruncatedSelf-attention该方法旨在减少注意力的范围。Attention
顾名思义,注意机制是指我们应该注意的。通过端到端的训练,我们总能让模型知道拿一些很重要。注意机制如下图所示。Z可以是训练的向量,Z与H做match得到a。为什么要注意?我们可以在解码后直接编码输出,但我们目前的编码解码不仅限于此编码向量,还取决于周围的编码向量。Attention如下图所示。
在match上面的文章尝试过,
additiveattention在注意力机制方面,我们也可以使用注意力作为当前输入或下一层输入。本文中使用的方法是两者的结合。
两者的结合,但直觉告诉我们,注意力最初是在翻译中产生的,但语音作为输入不应该考虑那么多,每个时间点我们的注意力只是集中在这个时间点,比如我现在的发音an我集中精力an最多考虑一下这个时间点。因此,作者提出了一种只考虑当前时间点的注意机制。
Spell
我们已经通过编码器和注意力获得了编码向量。接下来,我们需要通过编码获得向量来解码我们想要的单词。也就是说,在论文中Spell部分。Z是我们训练的,当字符串结束时输出
在decoder当我们做搜索时,目的是找到最有可能的字符,使用贪婪算法可以解决,但显然不一定是最好的,所有搜索找到最有可能的字符太耗时,所有这里我们使用BeamSearch,这种方法相当于贪婪算法,每次都取B个最大值,最后输出取最大值。
Train
在训练过程中,可能会出现一个问题,即前一个字符的错误输出会影响以下输出结果。面对这样的问题,我们可以使用它TeacherForcing,TeacherForcing这样做的一件事是,无论之前的输出结果是什么,当我们只计算这个输出结果时,我们会调用上一个字符的正确结果。如图所示
我只想说,它的开始很简单,它毕也必巨!
毕业证样本网创作《如何拼写样品拼音?(Listen,Attend,and)》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/180604.html