如何拼写样品拼音?(Listen,Attend,and)

摘要:文章介绍了使用深度学习进行语音识别的模型Listen,Attend,andSpell(LAS)。该模型通过编码器将声音转化为基本单位,如Phoneme和Word等,并应用注意机制来确定单词的拼写。文章详细描述了编码器、注意机制和解码器的运作方式,包括使用的技术如RNN、CNN和Self-attention。同时,提到了在训练过程中可能遇到的问题及解决方法,如使用TeacherForcing来避免错误输出的影响。该模型通过结合注意力机制和编码解码技术,实现了高效的语音识别。

如何拼写样品拼音?:Listen,Attend,andSpell(LAS)

信息与通信工程硕士

如何拼写样品拼音?(Listen,Attend,and)

这是第一个使用深度学习进行语音识别的模型。

语音识别深度学习的一般做法是

通过一串声音通过声学模型获得文本,声音信号的内容往往大于文本字符串Token有许多表达形式,包括Phoneme,Grapheme,Word,Morepheme,Bytes

Phoneme,它是发音的基本单位模型将声音转化为Phoneme,然后通过发音的基本单位来确定单词的拼写。由于发音与字母的关系非常相似,这种方法在过去没有深入学习时被广泛使用,因为模型不应该学习太多。

Grapheme,它是最小的字符单元,这意味着我们通过模型将声音转换为字母也是语音识别中使用最多的方法

Word,该模型直接将声音转换为单词看起来不错,但不适用于词汇量大的语言。例如,土耳其语总能创造出更复杂的词汇。如果你用词汇作为这种语言的基本单位,你就不能把所有的的单词。

Morpheme,大致意思是词根词缀。单位长度比word要小比Grapheme要大

Bytes!二进制确实是一个想法。

上述大概讲了一下语音识别输出端用到的基本单位,Listen,Attend,andSpell(LAS),可以看出,改论文分为三部分Listen(encoder编码器),Attend(注意机制),Spell(decoder解码器)

Listen,这部分我们需要做的是专注于我们所听到的,消除噪音

我们通过encoder可选择编码器RNN,CNN(通常是1D-CNN),CNN RNN,self-attention,因为声音采集通常是大数据量的,比如采样率16KHz1.6万个采样点需要在一秒钟内收集,因此通常需要对声音进行采样。减少样本参数。采样方法可参考RNN的方法(PyramidRNN,Poolingovertime)

CNN降采样法(是的,1维空洞卷积,我估计17年的空洞卷积是按照这个想法产生的)

将多维向量映射到一维向量,因为相邻的编码类别差别不大,为了减少计算量,只取两端,TruncatedSelf-attention该方法旨在减少注意力的范围。Attention

顾名思义,注意机制是指我们应该注意的。通过端到端的训练,我们总能让模型知道拿一些很重要。注意机制如下图所示。Z可以是训练的向量,Z与H做match得到a。为什么要注意?我们可以在解码后直接编码输出,但我们目前的编码解码不仅限于此编码向量,还取决于周围的编码向量。Attention如下图所示。

在match上面的文章尝试过,

additiveattention在注意力机制方面,我们也可以使用注意力作为当前输入或下一层输入。本文中使用的方法是两者的结合。

两者的结合,但直觉告诉我们,注意力最初是在翻译中产生的,但语音作为输入不应该考虑那么多,每个时间点我们的注意力只是集中在这个时间点,比如我现在的发音an我集中精力an最多考虑一下这个时间点。因此,作者提出了一种只考虑当前时间点的注意机制。

Spell

我们已经通过编码器和注意力获得了编码向量。接下来,我们需要通过编码获得向量来解码我们想要的单词。也就是说,在论文中Spell部分。Z是我们训练的,当字符串结束时输出

在decoder当我们做搜索时,目的是找到最有可能的字符,使用贪婪算法可以解决,但显然不一定是最好的,所有搜索找到最有可能的字符太耗时,所有这里我们使用BeamSearch,这种方法相当于贪婪算法,每次都取B个最大值,最后输出取最大值。

Train

在训练过程中,可能会出现一个问题,即前一个字符的错误输出会影响以下输出结果。面对这样的问题,我们可以使用它TeacherForcing,TeacherForcing这样做的一件事是,无论之前的输出结果是什么,当我们只计算这个输出结果时,我们会调用上一个字符的正确结果。如图所示

我只想说,它的开始很简单,它毕也必巨!

毕业证样本网创作《如何拼写样品拼音?(Listen,Attend,and)》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/180604.html

(0)
上一篇 2022年4月29日
下一篇 2022年4月29日

相关推荐

  • 如何拼写样品拼音?(Listen,Attend,and)

    摘要:文章介绍了使用深度学习进行语音识别的模型Listen,Attend,andSpell(LAS)。该模型通过编码器将声音转化为基本单位,如Phoneme和Word等,并应用注意机制来确定单词的拼写。文章详细描述了编码器、注意机制和解码器的运作方式,包括使用的技术如RNN、CNN和Self-attention。同时,提到了在训练过程中可能遇到的问题及解决方法,如使用TeacherForcing来避免错误输出的影响。该模型通过结合注意力机制和编码解码技术,实现了高效的语音识别。

    2022年4月29日 上午11:51
    270
  • 各个国家的签证单:再见用各国语言怎么说

    本文介绍了各个国家的签证单的解释,包括多种语言的“早安”和“再见”等表达方式,并列举了多种语言的早上好表达方式的发音模拟。此外,文章还提到了全球三大情报机构之一的摩萨德的历史和成功行为。文章旨在为读者提供关于签证单和相关语言习惯的知识。摘要:本文介绍了各个国家签证单的相关知识,包括各种语言的问候语表达方式及其发音模拟。同时提及了全球情报机构的传奇——摩萨德的历史和成功行为。对于想要了解签证单和相关语言文化的读者来说,本文提供了有价值的信息。

    2022年5月8日
    220
  • these怎么读音(these和this发音区别)

    本文提供了关于“these”的发音及用法说明。文章指出,“these”在英语中作为复数形式的代词、限定词和形容词使用,表示“这些”。文章还列举了一些例句和短语,如“These are my children”、“These fish are very aggressive”等,同时给出了音标和发音指导。总之,本文帮助读者了解“these”的正确发音和用法。

    2023年2月12日
    80
客服微信
客服微信
返回顶部