平码五不中公式规律
  • / 19
  • 下载费用:30 金币  

神经网络训练设备和方法以及语音识别设备和方法.pdf

关 键 ?#21097;?/dt>
神经网络 训练 设备 方法 以及 语音 识别
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201610977394.5

申请日:

2016.11.07

公开号:

CN106683663A

公开日:

2017.05.17

当前法律状态:

实审

?#34892;?#24615;:

审中

法?#19978;?#24773;: 实质审查的生效IPC(主分类):G10L 15/02申请日:20161107|||公开
IPC分类号: G10L15/02; G10L15/06(2013.01)I; G10L15/26; G06N3/04; G06N3/08 主分类号: G10L15/02
申请人: 三星电子株式会社
发明人: 李镐式; 崔喜烈
地址: 韩国京畿?#28010;?#21407;市
优?#28909;ǎ?/td> 2015.11.06 KR 10-2015-0156152
专利代理机构: 北京铭硕知识产权代理有限公司 11286 代理人: 张川绪;王兆赓
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201610977394.5

授权公告号:

|||

法律状态公告日:

2018.09.04|||2017.05.17

法律状态类型:

实质审查的生效|||公开

摘要

提供一种神经网络训练设备和方法以及语音识别设备和方法。神经网络训练设备包括:初级训练器,被构造为基于干净的训练数据和与干净的训练数据对应的目标数据,来执行神经网络模型的初级训练;二级训练器,被构造为基于带噪训练数据和在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的输出概率分布,来执行已经执行初级训练的神经网络模型的二级训练。

权利要求书

1.一种神经网络训练设备,包括:
初级训练器,被构造为:基于干净的训练数据和与干净的训练数据对应的目标数据,来
执行神经网络模型的初级训练;
二级训练器,被构造为:基于带噪训练数据和在神经网络模型的初级训练期间计算的
针对干净的训练数据的输出类的概率分布,来执行已经执行初级训练的神经网络模型的二
级训练。
2.根据权利要求1所述的神经网络训练设备,其中,二级训练器还被构造为:使用带噪
训练数据作为输入并且使用在神经网络模型的初级训练期间计算的针对干净的训练数据
的输出类的概率分布作为目标,来执行已经执行初级训练的神经网络模型的二级训练。
3.根据权利要求1所述的神经网络训练设备,其中,带噪训练数据包括:使干净的训练
数据失真所得的数据或者干净的训练数据与训练噪声数据混合的数据。
4.根据权利要求1所述的神经网络训练设备,其中,神经网络模型是基于神经网络的声
学模型。
5.根据权利要求1所述的神经网络训练设备,其中,初始训练器还被构造为:使用执行
神经网络模型的训练以从干净的训练数据获得目标数据的第一目标函数,来执行初级训
练。
6.根据权利要求1所述的神经网络训练设备,其中,二级训练器还被构造为:使用作为
在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经
网络模型的输出层的激活函数的组合的第二目标函数,来执行二级训练。
7.根据权利要求1所述的神经网络训练设备,其中,二级训练器还被构造为:使用作为
以下两个目标函数的加权和的第二目标函数来执行二级训练:执行神经网络模型的训练以
从干净的训练数据获得目标数据的目标函数,以及作为在神经网络模型的初级训练期间计
算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组
合的目标函数。
8.一种神经网络训练方法,包括:
基于干净的训练数据和与干净的训练数据对应的目标数据,来执行神经网络模型的初
级训练;
基于带噪训练数据和在神经网络模型的初级训练期间计算的针对干净的训练数据的
输出类的概率分布,来执行已经执行初级训练的神经网络模型的二级训练。
9.根据权利要求8所述的神经网络训练方法,其中,二级训练包括:使用带噪训练数据
作为输入并且使用在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类
的概率分布作为目标,来执行已经执行初级训练的神经网络模型的二级训练。
10.根据权利要求8所述的神经网络训练方法,其中,带噪训练数据包括:使干净的训练
数据失真所得的数据或者干净的训练数据与训练噪声数据混合的数据。
11.根据权利要求8所述的神经网络训练方法,其中,神经网络模型是基于神经网络的
声学模型。
12.根据权利要求8所述的神经网络训练方法,其中,执行初级训练的步骤包括:使用执
行神经网络模型的训练以从干净的训练数据获得目标数据的第一目标函数,来执行初级训
练。
13.根据权利要求8所述的神经网络训练方法,其中,执行二级训练的步骤包括:使用作
为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神
经网络模型的输出层的激活函数的组合的第二目标函数,来执行二级训练。
14.根据权利要求8所述的神经网络训练方法,其中,执行二级训练的步骤包括:使用作
为以下两个目标函数的加权和的第二目标函数来执行二级训练:执行神经网络模型的训练
以从干净的训练数据获得目标数据的目标函数,以及作为在神经网络模型的初级训练期间
计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的
组合的目标函数。
15.一种语音识别设备,包括:
特征提取器,被构造为:提取带噪语音数据的特征;
音素概率计算器,被构造为:使用声学模型来计算与提取的特征对应的音素的概率;
其中,声学模型是已经执行了初级训练和二级训练的声学模型,其中,基于语音训练数
据和与语音训练数据对应的音素序列执行初级训练,并?#19968;?#20110;带噪语音训练数据和在声学
模型的初级训练期间计算的针对语音训练数据的输出类的概率分布执行二级训练。
16.根据权利要求15所述的语音识别设备,其中,使用语音训练数据作为输入并且使用
与语音训练数据对应的音素序列作为目标,来执行声学模型的初级训练。
17.根据权利要求15所述的语音识别设备,其中,使用带噪语音训练数据作为输入并且
使用在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布作为目标,
来执行声学模型的二级训练。
18.根据权利要求15所述的语音识别设备,其中,带噪语音训练数据包括:使语音训练
数据失真所得的数据或者语音训练数据与训练噪声数据混合的数据。
19.根据权利要求15所述的语音识别设备,其中,声学模型是基于神经网络的声学模
型。
20.根据权利要求15所述的语音识别设备,其中,使用执行声学模型的训练以从语音训
练数据获得音素的第一目标函数,来执行声学模型的初级训练。
21.根据权利要求15所述的语音识别设备,其中,使用作为在声学模型的初级训练期间
计算的针对语音训练数据的输出类的概率分布与声学模型的输出层的激活函数的组合的
第二目标函数,来执行声学模型的二级训练。
22.根据权利要求15所述的语音识别设备,其中,使用作为以下两个目标函数的加权和
的第二目标函数来执行声学模型的二级训练:执行声学模型的训练以从语音训练数据获得
音素的目标函数,以及作为在声学模型的初级训练期间计算的针对语音训练数据的输出类
的概率分布与声学模型的输出层的激活函数的组合的目标函数。
23.一种神经网络训练设备,包括:
初级训练器,被构造为:基于干净的训练数据和硬目标数据,来执行神经网络模型的初
级训练;
二级训练器,被构造为:基于带噪训练数据和在神经网络模型的初级训练期间获得的
软目标数据,来执行已经执行初级训练的神经网络模型的二级训练。
24.根据权利要求23所述的神经网络训练设备,其中,通过使干净的训练数据失真或将
干净的训练数据与噪声进行混合,来获得带噪训练数据。
25.根据权利要求23所述的神经网络训练设备,其中,软目标数据是在神经网络模型的
初级训练期间计算的针对干净的训练数据的输出类的概率分布。
26.根据权利要求23所述的神经网络训练设备,其中,二级训练器还被构造为:基于带
噪训练数据、软目标数据和神经网络模型的输出层的激活函数,来执行二级训练。

说明书

神经网络训练设备和方法以及语音识别设备和方法

本申请要求于2015年11月6日提交到韩国知识产权局的第10-2015-0156152号韩
国专利申请的权益,所述韩国专利申请的全部公开出于所有的目的通过引用?#21916;?#20110;此。

技术领域

下面的描述涉及神经网络训练设备和方法以及语音识别设备和方法。

背景技术

相比于以前的语音识别技术,最新的语音识别技术吸引了广泛的关注。引起这样
的原因是,当实现语音识别技术时,即使在用户正在驾驶车?#20928;?#32773;执行对于用户很难使用
他或她的手的其他任务时,除了互联网接入或者办公?#19968;?#20854;他服务的使用能够满足各种用
户的需求之外,可通过语音更加方便地操作因特网信息、电子商务或者各种普?#39542;?#22659;的使
用。

语音识别技术中的重要的问题是从周围环境?#34892;?#22320;去除噪声。由于来自周围环境
的噪声引起的训练环境与实际语音识别环?#25345;?#38388;的不匹配是语音识别系统的语音识别性
能下降的主要原因之一。

发明内容

提供本发明内容用于以简化的形式来介绍在下面具体实施方式中进一步描述的
构思的选择。本发明内容不意在标识要求保护的主题的关键特征或必要特征,也不意在作
为帮助确定要求保护的主题的范围而被使用。

在一个总体方面中,一种神经网络训练设备包括:初级训练器,被构造为基于干净
的训练数据和与干净的训练数据对应的目标数据,来执行神经网络模型的初级训练;二级
训练器,被构造为基于带噪训练数据和在神经网络模型的初级训练期间计算的针对干净的
训练数据的输出类的概率分布,来执行已经执行初级训练的神经网络模型的二级训练。

二级训练器还可被构造为:使用带噪训练数据作为输入并且使用在神经网络模型
的初级训练期间计算的针对干净的训练数据的输出类的概率分布作为目标,来执行已经执
行初级训练的神经网络模型的二级训练。

带噪训练数据可包括:使干净的训练数据失真所得的数据或者干净的训练数据与
训练噪声数据混合的数据。

神经网络模型可以是基于神经网络的声学模型。

初始训练器还可被构造为:使用执行神经网络模型的训练以从干净的训练数据获
得目标数据的第一目标函数,来执行初级训练。

二级训练器还可被构造为:使用作为在神经网络模型的初级训练期间计算的针对
干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的第二
目标函数,来执行二级训练。

二级训练器还可被构造为:使用作为以下两个目标函数的加权和的第二目标函数
来执行二级训练:执行神经网络模型的训练以从干净的训练数据获得目标数据的目标函
数,以及作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率
分布与神经网络模型的输出层的激活函数的组合的目标函数。

在另一个总体方面中,一种神经网络训练方法包括:基于干净的训练数据和与干
净的训练数据对应的目标数据,来执行神经网络模型的初级训练;基于带噪训练数据和在
神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布,来执行已
经执行初级训练的神经网络模型的二级训练。

二级训练可包括:使用带噪训练数据作为输入并且使用在神经网络模型的初级训
练期间计算的针对干净的训练数据的输出类的概率分布作为目标,来执行已经执行初级训
练的神经网络模型的二级训练。

带噪训练数据可包括:使干净的训练数据失真所得的数据或者干净的训练数据与
训练噪声数据混合的数据。

神经网络模型可以是基于神经网络的声学模型。

执行初级训练的步骤可包括:使用执行神经网络模型的训练以从干净的训练数据
获得目标数据的第一目标函数,来执行初级训练。

执行二级训练的步骤可包括:使用作为在神经网络模型的初级训练期间计算的针
对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的第
二目标函数,来执行二级训练。

执行二级训练的步骤可包括:使用作为以下两个目标函数的加权和的第二目标函
数来执行二级训练:执行神经网络模型的训练以从干净的训练数据获得目标数据的目标函
数,以及作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率
分布与神经网络模型的输出层的激活函数的组合的目标函数。

在另一个总体方面中,一种计算机可读存储介质存储在被处理器执行时使得处理
器执行上述方法的指令。

在另一个总体方面中,一种语音识别设备包括:特征提取器,被构造为提取带噪语
音数据的特征;音素概率计算器,被构造为使用声学模型来计算与提取的特征对应的音素
的概率;其中,声学模型是已经执行了初级训练和二级训练的声学模型,其中,基于语音训
练数据和与语音训练数据对应的音素序列执行初级训练,并?#19968;?#20110;带噪语音训练数据和在
声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布执行二级训练。

可使用语音训练数据作为输入并且使用与语音训练数据对应的音素序列作为目
标,来执行声学模型的初级训练。

可使用带噪语音训练数据作为输入并且使用在声学模型的初级训练期间计算的
针对语音训练数据的输出类的概率分布作为目标,来执行声学模型的二级训练。

带噪语音训练数据可包括:使语音训练数据失真所得的数据或者语音训练数据与
训练噪声数据混合的数据。

声学模型可以是基于神经网络的声学模型。

可使用执行声学模型的训练以从语音训练数据获得音素的第一目标函数,来执行
声学模型的初级训练。

可使用作为在声学模型的初级训练期间计算的针对语音训练数据的输出类的概
率分布与声学模型的输出层的激活函数的组合的第二目标函数,来执行声学模型的二级训
练。

可使用作为以下两个目标函数的加权和的第二目标函数来执行声学模型的二级
训练:执行声学模型的训练以从语音训练数据获得音素的目标函数,以及作为在声学模型
的初级训练期间计算的针对语音训练数据的输出类的概率分布与声学模型的输出层的激
活函数的组合的目标函数。

在另一个总体方面中,一种神经网络训练设备包括:初级训练器,被构造为基于干
净的训练数据和硬目标数据,来执行神经网络模型的初级训练;二级训练器,被构造为基于
带噪训练数据和在神经网络模型的初级训练期间获得的软目标数据,来执行已经执行初级
训练的神经网络模型的二级训练。

可通过使干净的训练数据失真或将干净的训练数据与噪声进行混合,来获得带噪
训练数据。

软目标数据可以是在神经网络模型的初级训练期间计算的针对干净的训练数据
的输出类的概率分布。

二级训练器还可被构造为:基于带噪训练数据、软目标数据和神经网络模型的输
出层的激活函数,来执行二级训练。

从下面的具体实施方式、附图和权利要求,其他特征和方面将是清楚的。

附图说明

图1是示出神经网络训练设备的示例的示图。

图2是示出神经网络训练设备的另一示例的示图。

图3是示出语音识别设备的示例的框图。

图4是示出神经网络训练方法的示例的流程图。

图5是示出神经网络训练方法的另一示例的流程图。

图6是示出语音识别方法的示例的流程图。

图7是示出计算带噪语音数据的音素概率的方法的示例的流程图。

贯穿附图和具体实施方式,相同的参考标号表示相同的元件。附图可不成比例,并
且为了清楚、说明和方便,附图中的元件的相对大小、比例和描绘可被夸大。

具体实施方式

提供下面详细的描述来帮助读者获得对在此描述的方法、设备和/或系统的全面
理解。然而,在理解了本申请的公开之后,在此描述的方法、设备和/或系统的各种改变、修
改和等同物将是清楚的。例如,在此描述的操作的顺序仅是示例,并?#20063;?#21463;限于在此阐述的
顺序,而是除了必须按特定的顺序发生的操作之外,在理解了本申请的公开之后将会清楚,
操作顺序可被改变。另外,为了更加清楚和简明,本领域已知的特征的描述可被省略。

在此描述的特征可以以不同的形式来实现,并?#20063;?#34987;解释为受限于在此描述的示
例。相反,已经提供在此描述的示例,仅为了示出实现在此描述的方法、设备和/或系统的许
多可行方式中的一些,这在理解了本申请的公开之后将是清楚的。

图1是示出神经网络训练设备的示例的示图。

神经网络训练设备100是使用多条件训练(MCT)技术训练神经网络模型的设备。在
一个示例中,神经网络模型是包括多个隐藏层的基于神经网络的声学模型,但这仅是示例,
神经网络模型不受限于此。可使用典型的反向传播技术(例如,梯度下降算法、随机梯度下
降算法或其他反向传播技术)来训练神经网络模型。

参照图1,神经网络训练设备100可包括初级训练器110和二级训练器120。

初级训练器110基于干净的训练数据和与干净的训练数据对应的目标数据来执行
神经网络模型的初级训练。换言之,初级训练器110基于干净的训练数据和硬目标数据来执
行神经网络模型的初级训练。干净的训练数据是不包含噪声的训练数据。在一个示例中,初
级训练器110使用干净的训练数据作为输入并且使用与干净的训练数据对应的目标数据作
为目标,来执行神经网络模型的初级训练。

在一个示例中,初级训练器110使用执行神经网络模型的训练以从干净的训练数
据获得对应的目标数据的目标函数(以下,称为第一目标函数),来执行神经网络模型的初
级训练。例如,第一目标函数可使用主要用于多类分类的交叉熵。这可以通过下面的等式1
来表示。


在等式1中,n表示输入数据(即,干净的训练数据)的样本的索引,N表示输入数据
的样本的总数量,k表示输出类的索引,K表示输出类的总数量,Xn表示干净的训练数据的第
n样本,yk(Xn)表示神经网络模型的输出层的激活函数。当针对Xn的第k输出类是目标类时,
tnk具有1值,否则,tnk具有0值。

二级训练器120基于带噪训练数据和在神经网络模型的初级训练期间计算的针对
干净的训练数据的输出类的概率分布,来执行已经执行初级网络训练的神经网络模型的二
级训练。换言之,二级训练器120基于带噪训练数据和在神经网络模型的初级训练期间获得
的软目标数据,来执行已经执行初级训练的神经网络模型的二级训练。其中,软目标数据是
在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布。在一个
示例中,二级训练器120使用带噪训练数据作为输入并且使用在神经网络模型的初级训练
期间计算的针对干净的训练数据的输出类的概率分布作为目标,来执行神经网络模型的二
级训练。带噪训练数据可以是使干净的训练数据失真所得的数据或者干净的训练数据与训
练噪声数据混合的数据。例如,带噪训练数据可以是干净的训练数据与各种噪声数据混合
的数据,或者可以是通过将各种修改(例如,在图像数据情况下的旋转、部分覆盖、颜色或照
明度的改变或者其他修?#27169;?#20197;及在语音数据情况下的混响或者其他修改)添加到干净的训
练数据而生成的失真数据。

在一个示例中,二级训练器120使用执行训练以获得在神经网络模型的初级训练
期间计算的针对干净的训练数据的输出类的概率分布的目标函数(以下,称为第二目标函
数),来执行已经执行初级训练的神经网络模型的二级训练。第二目标函数可以由在神经网
络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型
的输出层的激活函数的组合组成。

例如,第二目标函数可使用主要用于多类分类的交叉熵。这可以通过下面的等式2
来表示。



在等式2中,n表示输入数据(即,带噪训练数据)的样本的索引,N表示输入数据的
样本的总数量,k表示输出类的索引,K表示输出类的总数量,Xn表示带噪训练数据的第n样
本,yk(Xn)表示神经网络模型的输出层的激活函数。snk表示作为在神经网络模型的初级训
练期间计算的干净的训练数据的输出类的概率分布的针对第n干净的训练数据样本的第k
输出类的概率分布。

在另一个示例中,第二目标函数可使用主要用于回归的欧几里得距离。这可以通
过下面的等式3来表示。



在等式3中,n表示输入数据(即,带噪训练数据)的样本的索引,k表示输出类的索
引,Xn表示带噪训练数据的第n样本,yk(Xn)表示神经网络模型的输出层的激活函数。snk表示
作为在神经网络模型的初级训练期间计算的干净的训练数据的输出类的概率分布的针对
第n干净的训练数据样本的第k输出类的概率分布。

在另一个示例中,第二目标函数可以由等式1的目标函数与等式2的目标函数的加
权和,或者等式1的目标函数与等式3的目标函数的加权和组成。这可以通过下面的等式4和
等式5来表示。





在等式4和等式5中,λ表示权重,并且可根据系统的性能和应用被设置为各种值。

目前描述了初级训练器110和二级训练器120使用各自的目标函数训练神经网络
模型的示例,但是第一目标函数和第二目标函数可被集成为单个集成目标函数。

在一个示例中,集成目标函数可通过下面的等式6来表示。



在等式6中,dn在输入为干净的训练数据时具有0值,在输入为带噪训练数据时具
有1值。λ(dn)表示权重,?#20197;赿n为0时(即,在输入为干净的训练数据时)具有0值。λ(dn)可在
dn为1时(即,在输入为带噪训练数据时)根据系统的性能和应用被设置为各种值。

在另一个示例中,集成目标函数可通过下面的等式7来表示。



在等式7中,dn在输入为干净的训练数据时具有0值,在输入为带噪训练数据时具
有1值。λ(dn)表示权重,?#20197;赿n为0时(即,在输入为干净的训练数据时)具有0值。λ(dn)可在
dn为1时(即,在输入为带噪训练数据时)根据系统的性能和应用被设置为各种值。

图2是示出神经网络训练设备的另一示例的示图。

参照图2,当与图1的神经网络训练设备100相比时,神经网络训练设备200还包括
数据获取器210、混合器220、特征提取器230和存储单元240。

数据获取器210获取用于训练神经网络模型的干净的训练数据和训练噪声数据。
在一个示例中,数据获取器210从预定的数据库(DB)或外部装置获取干净的训练数据和训
练噪声数据。

混合器220通过将干净的训练数据与训练噪声数据混合来生成带噪训练数据。可
选择地,混合器220通过将各种改变(例如,在图像数据情况下的旋转、部分覆盖、颜色或照
明度的改变或者其他修?#27169;?#20197;及在语音数据情况下的混响或者其他修改)添加到干净的训
练数据,来生成带噪训练数据。

特征提取器230使用预定的算法来提取干净的训练数据和带噪训练数据的特征
(例如,滤波器组)。只要能够提取可从干净的训练数据和带噪训练数据识别出干净的训练
数据和带噪训练数据中的每一个的特征,对于预定的算法的类型和功能就没有限制。

初级训练器110使用通过特征提取器230提取的干净的训练数据的特征数据作为
输入来执行神经网络模型的初级训练,二级训练器120使用通过特征提取器230提取的带噪
训练数据的特征数据作为输入来执行已经执行初级训练的神经网络模型的二级训练。

存储单元240存储通过初级训练器110获得的神经网络模型的初级训练结果以及
在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布。

存储单元240可作为存储介质包括以下项中的?#25105;?#19968;个、或?#25105;?#20004;个或更多个的
?#25105;?#32452;合:闪存、硬盘、多媒体卡(MMC)、MMCmicro、存储卡(例如,安全数字(SD)存储卡或极
速数字(XD)存储卡)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器
(ROM)、电可擦可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘和光
盘。

在图2的示例中,存储单元240包括在神经网络训练设备200中,但不受限于此。换
句话讲,存储单元240可如图2所示位于神经网络训练设备200的内部,或者可以是连接到神
经网络训练设备200的分开的外部组件。

以下,将详细描述使用由图1的神经网络训练设备100或图2的神经网络训练设备
200生成的声学模型的语音识别的设备。

图3是示出语音识别设备的示例的框图。语音设别设备300可以以?#24067;?#33455;片的形式
制造,并安装在电子装置中。电子装置可以是TV、导?#38477;?#20803;、车载电子装置、智能电话、平板
PC、智能手表、台式计算机、膝上型PC或可穿戴装置,但不受限于此。

参照图3,语音识别设备300包括输入单元310、声学模型存储单元320和计算器
330。

输入单元310接收将被执行语音识别的带噪语音数据。带噪语音数据是混合有噪
声的语音数据。

声学模型存储单元320存储预先训练的声学模型。声学模型可以是通过神经网络
训练设备100或神经网络训练设备200训练的基于神经网络的声学模型。

在一个示例中,声学模型是作为基于神经网络的声学模型的使用MCT技术训练的
声学模型。例如,声学模型是已经执行了初级训练和二级训练的声学模型,其中,基于语音
训练数据和与语音训练数据对应的音素序列执行初级训练,并基于带噪语音训练数据和在
声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布执行二级训练。训
练的带噪语音训练数据可以是通过将语音训练数据与训练噪声数据进行混合获得的数据。

可使用等式1至等式7的目标函数中的?#25105;?#19968;个来训练声学模型。例如,可使用等
式1的目标函数来对声学模型执行初级训练,然后可使用等式2至等式5的目标函数中的一
个来对声学模型执行二级训练。在另一个示例中,可使用等式6和等式7的集成目标函数中
的一个来对声学模型执行初级训练和二级训练二者。

声学模型存储单元320可作为存储介质包括以下各项中的?#25105;?#19968;个、或?#25105;?#20004;个
或更多个的?#25105;?#32452;合:闪存、硬盘、多媒体卡(MMC)、MMCmicro、存储卡(例如,SD存储卡或XD
存储卡)、RAM、SRAM、ROM、EEPROM、PROM、磁存储器、磁盘和光盘。

在图3的示例中,声学模型存储单元320包括在语音识别设备300中,但不受限于
此。换句话讲,声学模型存储单元320可如图3所示位于语音识别设备300的内部,或者可以
是连接到语音识别设备300的分开的外部组件。

计算器330使用存储在声学模型存储单元320中的声学模型来计算接收的带噪语
音数据的音素概率。为了完成这个操作,计算器330包括特征提取器331和音素概率计算器
332。

特征提取器331使用预定的算法来提取接收的带噪语音数据的特征。只要能够提
取可从其他带噪语音数据中识别出带噪语音数据的特征,对于预定的算法的类型和功能就
没有限制。

音素概率计算器332使用存储在声学模型存储单元320中的声学模型来计算与通
过特征提取器331提取的带噪语音数据的特征对应的音素的概率。

在图3的示例中,语音识别设备300包括输入单元310和声学模型存储单元320,但
是可根据系统的性能和应用省略输入单元310和声学模型存储单元320。

图4是示出神经网络训练方法的示例的流程图。可通过图1的神经网络训练设备
100执行图4的神经网络训练方法。

参照图1和图4,在操作410中,神经网络训练设备100基于干净的训练数据和与干
净的训练数据对应的目标数据,来执行神经网络模型的初级训练。例如,神经网络训练设备
100使用干净的训练数据作为输入并且使用与干净的训练数据对应的目标数据作为目标,
来执行神经网络模型的初级训练。神经网络模型可以是包括多个隐藏层的基于神经网络的
声学模型,但这仅是示例,神经网络模型不受限于此。

在一个示例中,神经网络训练设备100使用等式1的目标函数(第一目标函数)来执
行神经网络模型的初级训练。

在操作420中,神经网络训练设备100基于带噪训练数据和在神经网络模型的初级
训练期间计算的针对干净的训练数据的输出类的概率分布,来执行已经执行初级训练的神
经网络模型的二级训练。例如,神经网络训练设备100使用带噪训练数据作为输入并且使用
在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布作为目
标,来执行已经执行初级训练的神经网络模型的二级训练。带噪训练数据可以是使干净的
训练数据失真所得的数据或者干净的训练数据与训练噪声数据混合的数据。例如,带噪训
练数据可以是干净的训练数据与各种噪声数据混合的数据,或者可以是通过将各种修改
(例如,在图像数据情况下的旋转、部分覆盖、颜色或照明度的改变或者其他修?#27169;?#20197;及在语
音数据情况下的混响或者其他修改)添加到干净的训练数据而生成的失真数据。

在一个示例中,神经网络训练设备100使用等式2至等式5的目标函数(第二目标函
数)中的一个,来执行已经执行初级训练的神经网络模型的二级训练。

虽然已经描述了神经网络训练设备100在初级训练操作410和二级训练操作420中
使用各自的目标函数(第一目标函数和第二目标函数)来训练神经网络模型的示例,但是第
一目标函数和第二目标函数可被集成为单个集成目标函数。例如,神经网络训练设备100可
使用等式6或等式7的集成目标函数,来执行初级训练操作410和二级训练操作420二者。

图5是示出神经网络训练方法的另一个示例的流程图。可通过图2的神经网络训练
设备200来执行图5的神经网络训练方法。

当与图4的神经网络训练方法相比时,图5的神经网络训练方法还包括操作510至
操作540。图5中的操作410和操作420与图4中的操作410和操作420相同,因?#31169;?#30465;?#36816;?#20204;的
重复的描述。

参照图2和图5,在操作510中,神经网络训练设备200获取用于训练神经网络模型
的干净的训练数据和训练噪声数据。在一个示例中,神经网络训练设备200从预定的DB或外
部装置获取干净的训练数据和训练噪声数据。

在操作520中,神经网络训练设备200通过将干净的训练数据和训练噪声数据混合
来生成带噪训练数据。可选择地,神经网络训练设备200可通过将各种修改(例如,在图像数
据情况下的旋转、部分覆盖、颜色或照明度的改变或者其他修?#27169;?#20197;及在语音数据情况下的
混响或者其他修改)添加到干净的训练数据来生成带噪训练数据。

在操作530中,用于训练神经网络的神经网络训练设备200使用预定的算法,来提
取干净的训练数据和带噪训练数据的特征(例如,滤波器组)。只要能够提取可从干净的训
练数据和带噪训练数据识别出干净的训练数据和带噪训练数据中的每一个样本的特征,对
于预定的算法的类型和功能就没有限制。

在操作540中,神经网络训练设备200存储神经网络模型的初级训练的初级训练结
果以及在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布。

图6是示出语音识别方法的示例的流程图。可通过图3的语音识别设备300执行图6
的语音识别方法。

参照图3和图6,在操作610中,语音识别设备300接收将被执行语音识别的带噪语
音数据。带噪语音数据是混合有噪声的语音数据。在操作620中,语音识别设备300使用预先
训练的声学模型来计算接收的带噪语音数据的音素概率。

声学模型可以是作为基于神经网络的声学模型的使用MCT技术训练的声学模型。
例如,声学模型可以是已经执行了初级训练和二级训练的声学模型,其中,基于语音训练数
据和与语音训练数据对应的音素序列执行初级训练,并基于带噪语音训练数据和在声学模
型的初级训练期间计算的针对语音训练数据的输出类的概率分布执行二级训练。训练的带
噪语音训练数据可以是通过将语音训练数据与训练噪声数据进行混合获得的数据。

在一个示例中,使用等式1至等式7的目标函数中的?#25105;?#19968;个来训练声学模型。在
一个示例中,使用等式1的目标函数来对声学模型执行初级训练,并使用等式2至等式5的目
标函数中的一个来对已经执行了初级训练的声学模型执行二级训练。在另一个示例中,使
用等式6和等式7的集成目标函数中的一个来对声学模型执行初级训练和二级训练二者。

图7是示出计算带噪语音数据的音素概率的方法的示例的流程图。图7的计算带噪
语音数据的音素概率的方法是图6的操作620的示例。

参照图3和图7,在操作710中,语音识别设备300使用预定的算法来提取接收的带
噪语音数据的特征。只要能够提取可从带噪语音数据的其他样本识别出带噪语音数据的每
一个样本的特征,对于预定的算法的类型和功能就没有限制。

在操作720中,语音识别设备300使用预先训练的声学模型,来计算与带噪语音数
据的提取的特征对应的音素的概率。

通过?#24067;?#32452;件来实?#31181;?#34892;本申请中描述的操作的图1和图2中的初级训练器110和
二级训练器120,图2中的数据获取器210、混合器220、提取器230和存储单元240,以及图3中
的输入单元310、声学模型存储单元320、特征提取器331和音素概率计算器332,其中,?#24067;?br />组件被构造为执行本申请中描述的由?#24067;?#32452;件执行的操作。可被用于在适当的情况下执行
本申请中描述的操作的?#24067;?#32452;件的示例包括:控制器、传感器、生成器、驱动器、存储器、比
较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器以及被配置为执行本申请中
描述的操作的?#25105;?#20854;他电子组件。在其他示例中,执行本申请中描述的操作的?#24067;?#32452;件中
的一个或多个?#24067;?#32452;件通过计算?#24067;?例如,通过一个或多个处理器或计算机)来实现。可
通过一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元、数?#20013;?#21495;处理器、微
型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被构造为
以定义的方式响应并执行指令以实现期望的结果的?#25105;?#20854;他装置或装置的组合)来实?#25191;?br />理器或计算机。在一个示例中,处理器或计算机包括存储由处理器或计算机执行的指令或
软件的一个或多个存储器,或者连接到存储由处理器或计算机执行的指令或软件的一个或
多个存储器。通过处理器或计算机实现的?#24067;?#32452;件可执行指令或软件(诸如,操作系统(OS)
和在OS上运行的一个或多个软件应用),以执行本申请中描述的操作。?#24067;?#32452;件还?#19978;?#24212;于
指令或软件的执行来访问、操控、处理、创建并且存储数据。为了简单起见,单数术语“处理
器?#34987;頡?#35745;算机”可用于本申请中所述的示例的描述,但是在其他的示例中,多个处理器或计
算机可被使用,或者一个处理器或计算机可包括多个处理元件或多种类型的处理元件或二
者。例如,单个?#24067;?#32452;件或者两个或更多个?#24067;?#32452;件可通过单个处理器、或者两个或更多个
处理器、或者一个处理器和一个控制器来实现。一个或多个?#24067;?#32452;件可通过一个或多个处
理器、或者一个处理器和一个控制器来实现,一个或多个其他?#24067;?#32452;件可通过一个或多个
其他处理器、或者另一个处理器和另一个控制器来实现。一个或多个处理器或者一个处理
器和一个控制器可实现单个?#24067;?#32452;件或者两个或更多个?#24067;?#32452;件。?#24067;?#32452;件可具有?#25105;?#19968;
个或多个不同的处理配置,其示例包括:单个处理器、独立处理器、并行处理器、单指令单数
据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多
数据(MIMD)多处理。

图4至图7所示的执行本申请中描述的操作的方法通过计算?#24067;?例如,通过一个
或多个处理器或计算机)来执行,一个或多个处理器或计算机如上所述地被实现为执行指
令或软件,以执行本申请中描述的通过该方法执行的操作。例如,单个操作或者两个或更多
个操作可通过单个处理器或者两个或更多个处理器或者一个处理器和一个控制器来执行。
一个或多个操作可通过一个或多个处理器或者一个处理器和一个控制器来执行,并且一个
或多个其他操作可通过一个或多个其他处理器或者另一个处理器和另一个控制器来执行。
一个或多个处理器或者一个处理器和一个控制器可执行单个操作或者两个或更多个操作。

用于控制计算?#24067;?例如,一个或多个处理器或计算机)实现?#24067;?#32452;件并执行如上
所述的方法的指令或软件可被编写为计算机程序、代码段、指令或它们的?#25105;?#32452;合,以单独
地或共同地指?#20928;?#37197;置一个或多个处理器或者计算机如机器或专用计算机那样进行操作,
以执行由?#24067;?#32452;件执行的操作和如上所述的方法。在一个示例中,指令或软件包括由一个
或多个处理器或者计算机直接执行的机器代码(诸如,由编译器生成的机器代码)。在另一
个示例中,指令或软件包括由一个或多个处理器或者计算机使用解释器执行的高级代码。
可基于附图中所示的框图和流程图以及说明书(其公开了用于执行由?#24067;?#32452;件执行的操作
和如上所述的方法的算法)中的相应描述,使用?#25105;?#32534;程语言来编写指令或软件。

用于控制计算?#24067;?例如,一个或多个处理器或者计算机)实现?#24067;?#32452;件并且执行
如上所述的方法的指令或软件以及?#25105;?#30456;关联的数据、数据文件和数据结构可被记录、存
储或固定在一个或多个非暂时性计算机可读存储介质中,或者可被记录、存储或固定在一
个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括:只
读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、
DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数
据存储装置、光学数据存储装置、硬盘、固态盘以及任何其它装置,其中,该任何其它装置被
配置为:以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构,并
且为一个或多个处理器或者计算机提供指令或软件以及任何相关联的数据、数据文件和数
据结构,使得一个或多个处理器或者计算机能够执行指令。在一个示例中,指令或软件以及
任何相关联的数据、数据文件和数据结构分布于联网的计算机系统,使得指令和软件以及
任何相关联的数据、数据文件和数据结构通过一个或多个处理器或者计算机以分布的形式
被存储、访问和执行。

虽然本公开包括特定的示例,但是在理解了本申请的公开之后将清楚,在不脱离
权利要求和它们的等同物的精神和范围的情况下,可在这些示例中进行形式和?#38468;?#30340;各种
改变。在此描述的示例仅在描述性意义上被考虑,而不是为了限制的目的。每一个示例中的
特征或方面的描述被认为可应用于其他示例中的相似特征或方面。如果描述的技术以不同
的顺序被执行,和/或如果描述的系统、架构、装置或电?#20998;?#30340;组件以不同方式被组合,和/
或被其他组件或它们的等同物替换或补充,则可实?#36136;?#24403;的结果。因此,本公开的范围不是
由具体实施方式限定,而是由权利要求和它们的等同物限定,并?#20197;?#26435;利要求和它们的等
同物的范围内的所有变化将被解释为包括在本公开内。

关于本文
本文标题:神经网络训练设备和方法以及语音识别设备和方法.pdf
链接地址:http://www.pqiex.tw/p-6079950.html
关于我们 - 网站声明 - 网?#38236;?#22270; - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 极速快3预测 技巧方法 重庆百变王牌50期 双色球红球号码顺序 湖南幸运赛车直播视频 高频彩票吧 趣彩网 湖北十一选五走势图表 重庆百变王牌遗漏 体育彩票青海11选5开奖结果走势图