平码五不中公式规律
  • / 24
  • 下载费用:30 金币  

具有情感内容的文字至语音转换.pdf

关 键 ?#21097;?/dt>
具有 情感 内容 文字 语音 转换
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201580048224.2

申请日:

2015.09.07

公开号:

CN106688034A

公开日:

2017.05.17

当前法律状态:

实审

有效性:

审中

法?#19978;?#24773;: 实质审查的生效IPC(主分类):G10L 13/033申请日:20150907|||公开
IPC分类号: G10L13/033(2013.01)I 主分类号: G10L13/033
申请人: 微软技术许可有限责任公司
发明人: 栾剑; 何磊; M·梁
地址: 美国华盛顿州
优?#28909;ǎ?/td> 2014.09.11 US 14/483,153
专利代理机构: ?#26412;?#24066;金杜律师事务所 11256 代理人: 王茂华;张昊
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201580048224.2

授权公告号:

|||

法律状态公告日:

2017.06.09|||2017.05.17

法律状态类型:

实质审查的生效|||公开

摘要

本发明公开了用于将文字转换为具有情感内容的语音的技术。在一个方面中,使用中性模型针对脚本预测情感中性声轨迹,并且使用情感特有模型独立地预测情感特有声轨迹调整。中性轨迹和情感特有调整被组合来生成具有情感内容的变换语音输出。在另一方面中,通过根据语境和状态变化的情感特有因子来变换用于中性声音的统计参数模型的状态参数。情感依赖调整因子可以使用情感特有判定树或者不同于判定树的用于中性声音模型的其他集群方案来进行集群和存储。

权利要求书

1.一种用于文字至语音转换的装置,包括:
中性生成块,被配置为生成脚本的情感中性表示,所述情感中性表示包括与多个音素
中的每个音素相关联的至少一个参数;以及
调整块,被配置为基于情感类型针对所述多个音素中的每个音素区别地调整所述至少
一个参数,以生成变换表示。
2.根据权利要求1所述的装置,还包括:声码器,被配置为根据所述变换表示合成语音
波形。
3.根据权利要求1所述的装置,每个音素包括多个帧,所述至少一个参数包括与每个音
素的每帧相关联的频谱系数,所述调整块被配置为基于所述情感类型和每个音素的语言语
境识别通过添加调整因子来调整所述频谱系数。
4.根据权利要求1所述的装置,还包括:存储器,存储中性判定树和不同于所述中性判
定树的情感特有判定树,所述中性生成块进一步被配置为从所述中性判定树中检索所述至
少一个参数,并且所述调整块被配置为从所述情感特有判定树中检索用于调整所述至少一
个参数中的每个参数的情感特有调整因子。
5.根据权利要求4所述的装置,所述至少一个参数包括与每个音素相关联的隐马尔科
夫模型(HMM)的每个状态的参数,所述中性生成块进一步被配置为从所述中性判定树中检
索所述HMM的每个状态的参数,并且所述调整块被配置为从所述情感特有判定树中检索对
应于所述HMM的每个状态的调整因子。
6.根据权利要求5所述的装置,所述HMM的状态的参数包括用于每个状态的平均矢量,
所述调整块被配置为通过使用所检索的调整因子向每个状态的所述平均矢量应用?#24459;?#21464;
换来针对所述多个音素中的每个音素区别地调整所述至少一个参数,所述?#24459;?#21464;换基于所
述情感类型以及每个音素的语言语境识别。
7.根据权利要求5所述的装置,所述HMM的状态的参数包括用于每个状态的协方差矩
阵,所述调整块被配置为使用所检索的调整因子向每个状态的所述协方差矩阵应用线性变
换,所述线性变换基于所述情感类型以及每个音素的语言语境识别。
8.根据权利要求5所述的装置,所述情感特有判定树包括多个叶节点,每个叶节点与所
述HMM的至少一个集群状态相对应,所述情感特有判定树进一步包括被选择以最大化所述
HMM的集群状态的对数似然函数的加权和的问题。
9.一种用于文字至语音转换的方法,包括:
生成脚本的情感中性表示,所述情感中性表示包括与多个音素相关联的至少一个参
数;以及
基于情感类型针对所述多个音素中的每个音素区别地调整所述至少一个参数,以生成
变换表示。
10.根据权利要求9所述的方法,每个音素包括多个帧,与所述多个音素相关联的所述
至少一个参数包括与所述多个音素中的每个音素的每帧相关联的至少一个参数,针对所述
多个音素中的每个音素区别地调整所述至少一个参数包括:针对所述多个帧中的每帧区别
地调整所述至少一个参数。

说明书

具有情感内容的文字至语音转换

技术领域

本公开涉及用于具有情感内容的文字至语音转换的技术。

背景技术

计算机语音合成是在现代计算设备中?#19994;?#30340;越来越普遍的人机界面特征。在许多
应用中,由合成语音传达的情感表达对于总体的用户体验来说是很重要的。语音的感知情
感内容可以通过诸如合成语音的节奏和?#19979;?#30340;因素来影响。

文字至语音转换技术通常仅通过生成给定脚本的情感“中性”再现而忽视整个合
成语音的情感内容。可替换地,文字至语音转换技术可以利用独立的声音模型来用于独立
的情感类型,导致与在对应于许多情感类型的存储器中存储独立的声音模型相关联的相对
较高的成本。在用于生成具有还不存在声音模型的情感内容的语音时,这些技术还是不灵
活的。

因此,期望提供一?#20013;?#39062;且有效的技术来用于具有情感内容的文字至语音转换。

发明内容

本发明内容部分用于以简化的形式引入概念的选择,这将在下文的具体实施方式
部分进一步进行描述。本发明内容部分不用于确定所要求主题的关键特征或重要特征,也
不用于限制所要求主题的范围。

简而言之,本文所述主题的各个方面在于用于生成具有情感内容的语音输出的技
术。在一个方面中,使用情感中性模型来准备脚本的“中性?#21271;?#31034;。基于用于语音输出的期望
情感类型,针对脚本独立地准备情感特有(emotion-specific)调整,并且情感特有调整被
应用于中性表示以生成变换表示。在一个方面中,情感特有调整可基于每个音素
(phoneme)、基于每个状态或者基于每个帧来应用,并且可以通过独立的情感特有判定树或
其他分群方案来进行存储和分类(或分群)。用于每个情感类型的分群方案可以相互不同并
且与用于中性模型参数的分群方案不同。

其他优势可以根据以下详细描述和附图而变得显而?#20934;?br />

附图说明

图1示出了采用智能?#21482;?#30340;场景,其中可应用本公开的技术。

图2示出了可由用于实施语音对话系统的设备的处理器和其他元件执行的处理的
示例性实施例。

图3示出了用于生成具有预定情感类型的语音输出的文字至语音(TTS)转换技术
的示例性实施例。

图4示出了图3中的块的示例性实施例,其中,使用情感特有调整来修改中性声轨
迹。

图5示出了图3中的块的示例性实施例,其中,使用情感特有调整来改编HMM状态模
型参数。

图6示出了根据本公开的判定树集群(decision tree clustering)的示例性实施
例。

图7示出了用于存储可在文字至语音系统中指定的多个情感类型中的每一个的独
立判定树的方案的示例性实施例。

图8A和图8B示出了根据本公开的得到情感特有调整因子的技术的示例性实施例。

图9示出了根据本公开的方法的示例性实施例。

图10示意性示出了可执行一个或多个上述方法和处理的非限制性计算系统。

图11示出了根据本公开的用于文字至语音转换的装置的示例性实施例。

具体实施方式

本文所述技术的各个方面总的来?#30340;?#30340;在于用于生成具有给定情感类型的语音
输出的技术。以下结合附图给出的详细描述用作本发明的示例性方面的描述而不用于仅表
示可以实践本发明的示例性方面。本说明书中使用的术语“示例性?#21271;?#31034;“用作实例、示例或
例证?#20445;?#24182;且不是必须解释为相对于其他示例性方面是优选或有利的。详细描述包括具体的
?#38468;冢?#29992;于提供本发明的示例性方面的完整理解。本领域技术人员将明白,在不具有这些具
体?#38468;?#30340;情况下也可以实践本发明的示例性方面。在一些情况下,以框图形式示出已知的
结构和设备,以避免模糊本文表示的示例性方面的新颖性。

图1示出了采用智能?#21482;?#30340;场景,其中可应用本公开的技术。注意,仅为了说明的
目的示出图1,并且不用于将本公开的范围限制于仅将本公开应用于智能?#21482;?#20363;如,本文
描述的技术可以容易地应用于其他场景,例如笔记本或桌上型计算机的人机界面系统、汽
?#26723;?#33322;系统等。这些可替换的应用预期包括在本公开的范围内。

在图1中,用户110与计算设备120(例如,手持电话)通信。用户110可以向设备120
上的麦克风124提供语音输入122。设备120内的一个或多个处理器125可以处理由麦克风
124接收的语音信号,例如执行下文进一步参照图2描述的功能。应注意,用于执行这些功能
的处理器125不需要具有任何特定的形式、形状或功能划分。

基于处理器125执行的处理,设备120可以使用音频扬声器128响应于语音输入122
生成语音输出126。注意,在替换处理场景中,设备120还可以生成与语音输入122无关的语
音输出126,例如设备120可以独立地以语音输出126的形式从其他用户(未示出)向用户110
提供警告或中继消息。

图2示出了可由用于实施语音对话系统200的设备120的处理器125或其他元件执
行的处理的示例性实施例。应注意,仅为了说明的目的示出处理200,并且不表示将本公开
的范围限于图2所示的任何具体序列或操作的集合。例如,在替换示例性实施例中,可以与
图2所示处理200独立地应用用于执行具有给定情感类型的文字至语音转换的特定技术。例
如,可以在指定脚本和情感类型的任何场景中应用本文公开的技术。此外,根据系统中的具
体功能划分,可以组合或省略图2所示的一个或多个块,因此图2不表示建议所示块的任何
功能依赖性或独立性。在替换示例性实施例中,块的序列可以不同于图2所示。这种替换示
例性实施例被预期包括在本公开的范围内。

在图2中,对语音输入122执行语音识别210。语音输入122例如可以从设备120上的
麦克风124得到,并且例如可以对应于从麦克风124接收的音频波形。

语音识别210生成语音输入122中的口头语言的文字再?#24103;?#29992;于语音识别的技术可
以利用例如具有从文字数据库训练的统计参数的隐马尔?#21697;?#27169;块(HMM)。

对语音识别210的输出执行语言理解220。在示例性实施例中,可以执行诸如语法
分析和文法分析的功能以根据自然语言理解技术得到语音的预期含义。

情感响应判定230生成由语言理解220确定的用户语音输入的适当情感响应。例
如,如果通过对话系统200确定用户的语音输入要求“快?#24103;?#24773;感响应,则输出情感判定230
可以指定对应于“快?#24103;?#30340;情感类型230a。

输出脚本生成240响应于由语言理解220确定的用户语音输入220a并?#19968;?#22522;于由
情感响应判定230确定的情感类型230a生成适当的输出脚本240a。输出脚本生成240以自然
语言格式呈现生成的响应脚本240a,例如顺从词汇和语法规则,用于用户的快速理解。脚本
生成240的输出脚本240a例如可以为目标语言的句子的形式,以自然语言格式将适当响应
传输给用户。

文字至语音(TTS)转换250合成具有由输出脚本240a确定的本文内容和由情感类
型230a确定的情感内容的语音输出126。文字至语音转换250的语音输出126可以是音频波
形,并且可以经由编码解码器(图2中未示出)、设备120的扬声器128和/或其他元件提供给
收听者(例如,图1中的用户110)。

如上所述,期望在特定应用中语音输出126不仅被生成为文字的情感中性再现,而
且语音输出126进一步将特定的情况内容传输给用户110。用于生成具有情感内容的人工语
音的技术依赖于传输具有预定情感类型的语音的扬声器的文字记?#36857;?#25110;者另外要求针对每
个情感类型训练完整的语音模型,导致用于模型的禁止存储要求并?#19968;?#23548;致情感输出表达
的受限范围。因此,期望提供有效率和起作用的技术来用于具有情感内容的文字至语音转
换。

图3示出了具有情感内容的文字至语音(TTS)转换250的示例性实施例250.1。注
意,仅为了说明的目的示出图3,并且不表示将本公开的范围限制于文字至语音转换的任何
特定示例性实施例。

在图3中,脚本240a被输入至TTS转换250.1的块310,其根据脚本240a创建音素
(phoneme)序列310a。具体地,块310可以构造音素序列310a以对应于脚本240a中?#19994;?#30340;文
字的发音。

在块320中,从脚本240a中进一步提取语境特征,以修改音素序列310a并生成语言
语境特征序列320a作为(p1,…,pt,…,pT),其中,pt表示序列中的特征,t=1至T。例如,对音
素序列310a的调整可以在块320中进行来说明由于脚本的音素和语言语境特征所引起的语
音变化,从而生成语言语境特征序列320a。注意,序列320a可以基于每个音素的识别以及其
他语境信息(诸如每个音素所属的词语的语音部分、当前音素所属的前一词语的音节的数
量等)。因此,序列320a的每个元素在本文通常可称为“语言语境”音素。

序列320a被提供给块330,其中预测序列320a的声轨迹330a。具体地,声轨迹330a
指定用于序列320a的声参数的集合,包括?#20013;?#26102;间(Dur)、基频或间距(F0)和频谱
(Spectrum或谱系数)。在示例性实施例中,可以针对序列320a中的每个特征指定Dur(pt),
同时可以针对特征pt的Ft帧中的每一帧f指定F0(f)和Spectrum(f)。在示例性实施例中,持
续时间模型预测音素的每个状态可以?#20013;?#22810;少帧。声轨迹330a中的声参数的序列随后被提
供给声码器350,其可以合成对应于语音输出126的语音波形。

如图3所示,块330中的声轨迹的预测参照中性声音模型332和情感特有模型334来
执行。具体地,为了生成声轨迹330a中的声参数,序列320a可以被指定给中性声音模型332。
中性声音模型332可以返回与序列320a的情感中性再现相对应的声和/或模型参数332a。在
示例性实施例中,基于统计参数语音合成技术,可以从模型参数中得到声参数。

一种这样的技术包括基于隐马尔?#21697;?#27169;型(HMM)的语音合成,其中,语音输出被建
模为由统计参数(诸如初始状态概?#30465;?#29366;态转换概率和状态输出概率)表征的多个状态。可
以?#21451;?#32451;HMM中得到中性声音模型332的基于HMM的实施的统计参数,以建模在具有已知语
音内容的一个或多个语音数据库中?#19994;?#30340;语音样本。统计参数可以存储在存储器(图3中未
示出)中来用于语音合成期间的检索。

在示例性实施例中,情感特有模型334生成情感特有调整334a,将情感特有调整
334a施加于从中性声音模型334a中得到的参数以改编合成语音来具有给定情感类型23a0
的特性。具体地,基于具有在一个或多个语音数据库(其具有已知语音内容和情感类型)中
?#19994;?#30340;预定情感类型的语音样本,?#21451;?#32451;模型中得到情感特有调整334a。在示例性实施例
中,情感特有调整334a被提供作为对中性声音模型332的输出参数332a的调整而非独立地
足以产生用于每个情感类型的声轨迹的情感特有统计或声参数。如此,调整通常将要求较
少的存储器来存储独立充分的情感特有参数,当根据本公开生成具有预定情感类型的语音
时可以保藏存储资源。在示例性实施例中,可以针对?#19978;?#32479;指定的每个情感类型独立地训
练和存储情感特有调整334a。

在示例性实施例中,例如基于每个音素、每个状态或每个帧,可以存储情感特有调
整334a并施加于中性声音模型332。例如,在示例性实施例中,对于具有三个状态的音素HMM
来说,可以存储三个情感特有调整334a并基于每个状态施加于每个音素。可替换地,如果三
状态音素的每个状态对应于两帧(例如,每一帧具有10毫秒的?#20013;?#26102;间),则可以基于每帧
存储六个情感特有调整334a并施加于每个音素。注意,根据由情感特有模型334指定的情感
特有调整334a,通常可以基于情感类型针对每个对应的音素明显地调整声或模型参数。

图4示出了图3的块330中的示例性实施例330.1,其中,使用情感特有调整来改编
中性声参数。注意,仅为了说明的目的示出图4,并且不表示将本公开的范围限于仅将情感
特有调整应用于声参数。

在图4中,序列320a被输入至块410,用于预测序列320a的中性声轨迹。具体地,序
列320a被指定给中性声音模型332.1。与情感类型230a一起,序列320a被进一步指定给情感
特有模型334.1。基于中性声音模型332.1的?#20013;?#26102;间参数332.1a,针对序列320a预测中性
?#20013;?#26102;间Durn(pt)或405a。应注意,与音素pt的单个状态s相关联的每个声参数通常可以是
矢量,例如在每音素三状态模型中,Durn(pt)可以表示与第t个情感中性音素相关联的三状
态?#20013;?#26102;间的矢量等。

情感特有模型334.1生成情感类型230a和序列320a特有的?#20013;?#26102;间调整参数Dur_
adje(p1),…,Dur_adje(pT)或334.1a。?#20013;?#26102;间调整块410向中性?#20013;?#26102;间405a施加?#20013;?#26102;
间调整参数334.1a以生成调整的?#20013;?#26102;间序列Dur(p1),…,Dur(pT)或410a。

基于调整的?#20013;?#26102;间序列410a,在块420中预测用于F0和频谱的中性轨迹420a。具
体地,基于中性声音模型332.1的F0和频谱参数332.1b以及之前从410a得到的调整的?#20013;?br />时间参数Dur(p1),…,Dur(pT),中性声轨迹420a包括用于声参数F0n(f)和Spectrumn(f)的
预测。

在块430中,情感特有F0和频谱调整334.1b被施加于420a的对应中性F0和频谱参
数。具体地,基于序列320a和情感类型230a,通过情感特有模型334.1生成F0和频谱调整F0_
adje(1),…,F0_adje(FT),Spectrum_adj(1),…,Spectrum_adj(FT)334.1b。块430的输出
330.1a包括情感特有调整?#20013;?#26102;间、F0和频谱参数。

在示例性实施例中,块410和430处施加的调整可以对应于以下等式:

Dur(pt)=Durn(pt)+Dur_adje(pt) (等式1)

F0(f)=F0n(f)+F0_adje(f) (等式2)以及

Spectrum(f)=Spectrumn(f)+Spectrum_adje(f) (等式3)

其中,例如,等式1可以通过块410来应用,以及等式2和3可以通过块430来应用。所
得到的声参数330.1a(包括Dur(pt)、F0(f)和Spectrum(f))可以被提供给声码器用于语音
合成。

注意,在通过等式1-3描述的示例性实施例中,情感特有调整被应用为将在语音合
成期间与中性声参数组合的附加调整因子。将理解,在可选示例性实施例中,情感特有调整
可以容易地以可选方式来存储和/或应用,例如,乘法地、使用?#24459;?#21464;换地、非线性地等。这
些替换的示例性实施例预期包括在本公开的范围内。

进一步注意,虽然在等式1中?#20013;?#26102;间调整被示为基于每个音素来应用以及在等
式2和3中F0和频谱调整被示为基于每帧来应用,但将理解,替换的示例性实施例可以基于
任何每状态、每音素或每帧来调整任何声参数。这种替换的示例性实施例预期包括在本公
开的范围内。

图5示出了图3中的块330的替换示例性实施例330.2,其中使用情感特有调整来改
编中性HMM状态参数。应注意,示出图5仅是为了说明的目的,而不表示将本公开的范围限于
HMM状态参数的情感特有改编。

在图5中,块510使用中性声音模型332.2生成由序列320a构建的中性HMM序列
510a。中性HMM序列510a指定中性HMM的每状态模型参数(表示为λn),包括与每个音素的状
态相关联的平均矢量的序列μn(p1,s1),…,μn(pt,sm),…,μn(pT,sM)以及协方差矩阵的对应
序列Σn(p1,s1),…,Σn(pt,sm),…,Σn(pT,sM),其中,(pt,sm)表?#38236;趐t个音素的(M个状态中
的)第m个状态,其中M可以依赖于音素。中性HMM序列510a进一步指定中性每音素?#20013;?#26102;间
Durn(p1),…,Durn(pT)。在示例性实施例中,每个平均矢量μn(pt,sm)都可以包括对应状态的
观测矢量的频谱部分(例如,Spectrum)的平均值作为元素,包括Ct(统计特征系数,例如
mel-cepstral系数)、Δct(第一阶动态特征系数)和Δ2ct(第二阶动态特征系数),而每个协
方差矩阵Σn(pt,sm)可以指定这些特征的协方差。

与情感类型230a一起,序列320a进一步被指定作为情感特有模型334.2的输入。情
感特有模型334.2的输出334.2a指定情感特有模型调整因子。在示例性实施例中,调整因子
334.2a包括基于每状态的模型调整因子αe(p1,s1),…,αe(pT,sM),βe(p1,s1),…,βe(pT,sM),
γe(p1,s1),…,γe(pT,sM)以及基于每音素的情感特有?#20013;?#26102;间调整因子ae(p1),…,ae
(pT),be(p1),…,be(pT)。

块520向中性HMMλn的对应参数施加由块334.2指定的情感特有模型调整因子
334.2a,以生成输出520a。在示例性实施例中,可以如下施加调整:

μ(pt,sm)?#28293;羍(pt,sm)μn(pt,sm)+βe(pt,sm) (等式4)

Σ(pt,sm)?#28293;胑(pt,sm)Σn(pt,sm) (等式5)以及

Dur(pt)=ae(pt)Durn(pt)+be(pt) (等式6)

其中μ(pt,sm)、μn(pt,sm)和βe(pt,sm)是矢量,αe(pt,sm)是矩阵,以及αe(pt,sm)μn
(pt,sm)表示μn(pt,sm)与αe(pt,sm)的左乘法(left-multiplication),而Σ(pt,sm)、γe(pt,
sm)和Σn(pt,sm)都是矩阵,以及γe(pt,sm)Σn(pt,sm)表示Σn(pt,sm)与γe(pt,sm)的左乘
法。将理解,等式4和6的调整有效地向中性平均矢量μn(pt,sm)和?#20013;?#26102;间Durn(pt)施加?#24459;?br />变换(即,线性变换并添加常数),以生成新模型参数μ(pt,sm)和Dur(pt)。在该说明书和权利
要求中,μ(pt,sm)、Σ(pt,sm)和Dur(pt)通常表示“变换”模型参数。应注意,替换的示例性实
施例不需要施加?#24459;?#21464;换来生成变换模型参数,并?#19968;?#21487;以采用诸如非线性变换的其他变
换。这些替换的示例性实施例预期包括在本公开的范围内。

基于变换的模型参数,声轨迹(例如,F0和频谱)随后可以在块530中被预测,并且
预测的声轨迹330.2a被输出至声码器以生成语音波形。基于情感特有调整因子的选择,应
理解,声参数330.2a被有效地改编以生成具有情感特有特性的语音。

在示例性实施例中,集群技术可用于减少存储情感特有状态模型或声参数所需的
存储资源以及使能训练数据不可用或稀疏(sparse)的状态的模型参数的估计。在采用判定
树集群的示例性实施例中,判定树可以针对每个情感类型而独立地建立,从而使情感特有
调整集群。应理解,以这种方式提供独立的情感特有判定树可以更加精确地建模与目标情
感类型相关联的特有?#19979;?#29305;性,因为可以针对每个情感类型具体地选择和优化用于集群情
感特有状态的问题。在示例性实施例中,情感特有判定树的结构可以不同于用于存储中性
模型或声参数的判定树的结构。

图6示出了根据本公开的判定树集群的示例性实施例600。将理解,仅为了说明的
目的示出图6,并且不表示将本公开的范围限于所示判定树的任何特定结构或其他特性。此
外,图6不用于将本公开的范围仅限于用于集群所示模型参数的判定树集群,可以使用判定
树技术容易地集群其他参数(诸如用于F0、Spectrum和Duration的情感特有调整值)。进一
步地,图6不表示将本公开的范围限于用于集群的判定树的使用,还可以使用其他集群技
术,诸如条件随机域(CRF)、人工神经网络(ANN)等。例如,在替换示例性实施例中,每个情感
类型都可以与不同的CRF相关联。这种替换的示例性实施例被预期包括在本公开的范围内。

在图6中,由(p,s)表示的音素的状态s被提供给两个独立的判定树:中性判定树
610和情感特有判定树620。中性判定树610基于施加于状态s及其语境的多个中性问题q1_
n、q2_n等将状态s分为多个中性叶节点N1、N2、N3等中的一个。与中性判定树610的每个叶节
点相关联的是对应的模型参数,例如指定中性平均矢量μn(p,s)、中性协方差矩阵Σn(p,s)
等的高斯模型参数。

另一方面,情感特有判定树620基于施加于状态s及其语境的多个情感特有问题
q1_e、q2_e等将状态分为多个情感特有叶节点E1、E2、E3等中的一个。与情感特有判定树610
的每个叶节点相关联的可以是对应的情感特有调整因子,例如αe(p,s)、βe(p,s)、γe(p,s)
和/或将被施加为情感特有调整的其他因子,例如如等式1-6所指定的。应注意,情感特有叶
节点的结构和用于情感特有判定树620的情感特有问题的选择通常可以完全不同于中性叶
节点的结构以及用于中性判定树610的中性问题的选择,即中性和情感特有判定树可以是
“不同的”。判定树的结构的差异例如使得每个情感特有判定树针对给定的情感类型进行优
化构造,以更加精确地捕获情感特有调整因子。

在示例性实施例中,每个变换判定树都可以基于用于选择问题的各种标准来构
造,例如一系列问题可以被选择以最大化模型辅助函数(诸如用于叶节点的对数似然函数
的加权和),其中所施加的权重可以基于对应状态的状态占用概?#30465;?#25353;照用于构造判定树已
知的迭代算法,问题的选择可以基于诸如由最小描述长度(MDL)和其他交叉验证方法指定
的度量来前进和终止。

图7示出了用于针对可以在系统中指定的多个情感类型中的每一个存储独立的判
定树的方案的示例性实施例700,其中该系统用于将文字合成为具有情感内容的语音。将理
解,图7所示的技术例如可以应用于图5所示块510、332.2、334.2和520的具体实施。

在图7中,由(p,s)索引的音素的状态s被提供给中性判定树710和选择块720。中性
判定树710输出用于状态s的中性参数710a,而选择块720基于给定情感类型230a从多个情
感特有判定树730.1至730.N中进行选择。例如,情感类型1判定树730.1可以存储用于第一
情感类型的情感调整因子(例如,“?#29420;帧?,而情感类型2判定树730.2可以存储用于第二情
感类型的情感调整因子(例如,“悲哀”)等。每个情感特有判定树730.1可以包括例如参照图
6中的情感特有判定树620选择和构造的问题和叶节点。

情感特有判定树730.1至730.N中的所选一个的输出被设置为730a,其包括用于给
定情感类型230a的情感特有调整因子。

调整块740向中性模型参数710a应用调整因子730a,例如先前参照等式4和5所描
述的,从而生成变换模型或声参数。

图8A和图8B示出了根据本公开的得到用于单个情感类型的情感特有调整因子的
技术的示例性实施例800。应注意,仅为了说明的目的示出图8A和图8B,并且不用于将本公
开的范围限于用于得到情感特有调整因子的任何具体技术。在以下描述中,训练音频802和
训?#26041;?#26412;802不需要对应于语音的单个部分或者来自单个扬声器的语音的多个部分,而是
可以对应于具有预定情感类型的语音的任何语料库(corpus)。

在图8A中,训?#26041;?#26412;801被提供给块810,其?#21451;盜方?#26412;801中提取语境特征。例如,
可以提取音素的语言语境以优化状态模型。在块820中,根据情感中性声音模型825合成对
应于训?#26041;?#26412;801的中性语音模型的参数。块820的输出820a例如包括训?#26041;?#26412;中的文字的
情感中性再现的模型参数,还表示为

对应于训?#26041;?#26412;801的训练音频802被进一步提供给块830。训练音频820对应于具
有预定情感类型802a的训?#26041;?#26412;801的文字的再现(rendition)。例如,可以通过预先记录
被构造为读取具有给定情感类型802a的训?#26041;?#26412;801的人类扬声器来生成训练音频802。在
块830处,?#21451;?#32451;音频802中提取声特征830a。声特征830a的示例例如可以包括?#20013;?#26102;间、
F0、频谱系数等。

提取的声特征830a被提供给块840(例如,作为观测矢量),其生成与具有预定情感
类型802a的训练音频802相对应的用于语音模型的参数的集合,本文也表示为“初始情感模
型”。应注意,块840对提取的声特征830a执行分析以得到初始情感模型参数,因为块840可
以不直接提供有对应于训练音频802的训?#26041;?#26412;801。应理解,例如可以使用迭代过程(诸如
期望最大化(EM)算法(Baum-Welch算法)或最大似然(ML)算法)执行用于训练音频802的模
型参数的优化集合(例如,HMM输出概率和状态转换概?#23454;?。为了帮助收敛,用于初始化块
840中的迭代算法的参数集合可以从中性模型参数820a中得到。

对于每个状态s,块840生成情感特有模型参数λμ,∑(p,s)840a以及状态占用概率
840b,例如:

用于状态s的占用统计=Occ[s]=P(O,s|λμ,∑(p,s)) (等式7)

其中,O表示观测矢量的总集合。在示例性实施例中,如上文所描述的,占用统计
840b可以帮助生成用于情感特有模型参数的判定树。

在块850中,针对情感特有调整的语境集群来构建判定树。应理解,考虑到本公开,
可以使用用于集群情感特有调整的任何适当技术来构建判定树。在示例性实施例中,可以
直接使用情感特有模型参数λμ,∑(p,s)840a来构建判定树。在替换示例性实施例中,可以使
用变换模型的版本来构建判定树,例如通过将上文的等式4-6中指定的等式应用于中性模
型的参数820a来生成变换模型参数。在这?#36136;?#20363;性实施例中,根据需要,可以通过
应用线性回归技术来估计将应用于变换的对应调整因子(例如,αe(pt,sm)、βe(pt,sm)和γe
(p,s)以及?#20013;?#26102;间调整),以得到针对情感特有模型λμ,∑(p,s)840a的中性模型
820a的变换参数的最佳线性拟合。

将理解,判定树的构建(例如基于情感特有模型或变换模型)例如可以通过选择适
当的问题来进行,以使树的叶节点的对数似然比的加权和最大化。在示例性实施例中,在加
权和中应用的权重可以包括占用统计Occ[s]840b。可以进行分支和叶节点的添加,直到例
如基于度量(诸如由最小描述长度(MDL)或其他交叉验证技术指定的)而终止。

参照作为图8A的继续的图8B,块850的输出850a指定包括一系列问题q1_t、q2_t、
q3_t等的判定树,用于将(p,s)的状态集群为多个叶节点。这种输出850a被进一步提供给训
练块860,其得到用于判定树的每个叶节点的调整因子的单个集合,例如αe(pt,sm)、βe(pt,
sm)、γe(p,s)和?#20013;?#26102;间调整。在示例性实施例中,可以使用最大似然线性回归(MLLR)技术
来生成调整因子的单个集合,例如通过使用?#24459;?#25110;线性变换将叶节点状态的中性模型参数
最佳地适应(fitting)到对应的情感模型参数。

在块870中,在存储器中存储所构建判定树的结构以及用于每个叶节点的调整因
子,例如用于稍后用作情感特有模型334.3。块870的在存储器中存储该信息完成了训?#26041;?br />段。在语音合成期间,例如根据图5所示的示例性实施例,情感特有调整可以从存储器中检
索在训?#26041;?#27573;的块870中存储的调整因子作为情感特有模型334.3。

图9示出了根据本公开的方法900的示例性实施例。应注意,仅为了说明的目的示
出图9,并且不用于将本公开的范围限于所示的任何特定方法。

在图9中,在块910中,生成脚本的情感中性表示。该情感中性表示可以包括与多个
音素相关联的至少一个参数。

在块920中,基于情感类型针对多个音素中的每个音素区别地调整至少一个参数,
以生成变换表示。

图10示意性示出了可以执行一个或多个上述方法和处理的非限制性计算系统
1000。以简化形式示出了计算系统1000。将理解,实际上,在不背离本公开的范围的情况下
可以使用任何计算机架构。在不同的实施例中,计算系统1000可以采用大型计算机、服务器
计算机、桌上型计算机、笔记本电脑、平板电脑、家庭娱乐计算机、网络计算设备、移动计算
设备、移动通信设备、智能?#21482;?#28216;戏设备等的形式。

计算系统1000包括处理器1010和存储器1020。计算系统1000可以任选地包括显示
子系统、通信子系统、传感器子系统、相机子系统和/或图10中未示出的其他部件。计算系统
1000还可以任选地包括用户输入设备,诸如键盘、鼠标、游戏控制器、相机、麦克风和/或触
摸屏。

处理器1010可以包括被配置为执行一个或多个指令的一个或多个物理设备。例
如,处理器可以被配置为执行作为一个或多个应用程序、服务、程序、线程、库、对象、部件、
数据结构或其他逻辑结构的一部分的一个或多个指令。这种指令可以被实施以执行任务、
实现数据类型、变换一个或多个设备的状态或者以其他方式达到期望的结果。

处理器可以包括被配置为执行软件指令的一个或多个处理器。附加地或可选地,
处理器可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑机。处理器可
以是单核或多核,并且其上执行的程序可以被配置用于并行或分布式处理。处理器可以任
选地包括在两个或更多个设备中分布的对应部件,其可以远程地定位和/或配置用于协调
处理。处理器的一个或多个方面可以被虚拟化并且被在云计算结构中配置的远程访问网络
计算设备执行。

存储器1020可以包括一个或多个物理设备,其被配置为保持可由处理器执行的数
据和/或指令以实施本文描述的方法和处理。当实施这些方法和处理时,可以变换存储器
1020的状态(以例如保持不同的数据)。

存储器1020可以包括可移除介质和/或内置设备。存储器1020可以包括光学存储
设备(例如,CD、DVD、HD-DVD、蓝光盘等)、半导体存储设备(例如,RAM、EPROM、EEPROM等)和/
或磁性存储设备(例如,硬盘驱动器、软盘驱动器、带驱动器、MRAM等)等。存储器1020可以包
括具有一个或多个以下特性的设备:?#36164;?#24615;、?#19988;资?#24615;、动态、静态、读/写、只读、随机存取、
顺序存取、位置可寻址、文件可寻址和内容可寻址。在一些实施例中,处理器1010和存储器
1020可以集成到一个或多个普通设备中,诸如专用集成电路或芯片上系统。

存储器1020还可以采用可移除计算机可读存储介质的形式,其可用于存储和/或
传输可被执行以实施本文描述的方法和处理的数据和/或指令。可移除计算机可读存储介
质1030可以采用CD、DVD、HD-DVD、蓝光盘、EEPROM和/或软盘等的形式。

应理解,存储器1020包括用于存储信息的一个或多个物理设备。术语“模块”、“程
序”和“引擎”可用于描述被实施以执行一个或多个特定功能的计算系统1000的方面。在一
些情况下,这种模块、程序或引擎可以经由执行由存储器1020保持的指令的处理器1010来
实例化。应理解,不同的模块、程序和/或引擎可以?#19978;?#21516;的应用程序、服务、代码块、对象、
库、线程、API、函数等来实例化。类似地,可以通过不同的应用程序、服务、代码块、对象、线
程、API、函数等来实例化相同的模块、程序和/或引擎。术语“模块”、“程序”和“引擎”用于包
括可执行文件、数据文件、库、驱动器、脚本、数据库记录等的个体或组。

在一个方面中,计算系统1000可以对应于包括存储器1020的计算设备,存储器保
持可由处理器1010执行的指令以生成脚本的情感中性表示,情感中性表示包括与多个音素
相关联的至少一个参数。存储器1020可以进一步保持可由处理器1010执行的指令,以基于
情感类型针对多个音素中的每个音素区别地调整至少一个参数,从而生成变换表示。应注
意,这种计算设备将理解为对应于处理、机器、制造或物质组成。

图11示出了根据本公开的用于文字至语音转换的装置的示例性实施例1100。在图
11中,中性生成块1110被配置为生成脚本1101的情感中性表示1110a。情感中性表示1110a
包括与多个音素相关联的至少一个参数。在示例性实施例中,至少一个参数例如可以包括
以下参数中的任何一个或所有?#22909;?#24103;的每个音素的?#20013;?#26102;间、每个音素的每帧的基频、每帧
的频谱系数或者与每个音素的隐马尔?#21697;?#27169;型的状态相关联的统计参数(诸如平均矢量或
协方差矩阵)。在示例性实施例中,中性生成块1110可以被配置为从中性判定树中检索HMM
的状态的参数。

调整块1120被配置为基于情感类型1120b针对多个帧中的每个音素区别地调整情
感中性表示1110a中的至少一个参数。调整块1120的输出对应于变换表示1120a。在示例性
实施例中,调整块1120可以例如参照块440或520等向上述至少一个参数应用例如线性或仿
射变换。变换表示例如可以对应于变换模型参数(诸如上文参照图4-6所描述的)或者变换
声参数(诸如上文参照等式1-3所描述的)。变换表示1120a可以进一步提供给块(例如,图5
中的块530),用于预测声轨迹(如果变换表示1120a对应于模型参数),或者提供给声码器
(图11中未示出)(如果变换表示1120a对应于声轨迹)。

在示例性实施例中,调整块1120可以被配置为从情感特有判定树中检索对应于
HMM的状态的调整因子。

在该说明书和权利要求中,应理解,当元件被称为“连接至?#34987;頡?#32806;合至”另一元件,
则其可以直接连接或耦合至另一元件或者可以存在中间元件。相反,当元件被称为“直接连
接至?#34987;頡?#30452;接耦合至”另一元件,则不存在中间元件。此外,当元件被称为“电连接”至另一
元件时,这表示在这些元件之间存在低阻的路径,而当元件被简称为“耦合”至另一元件时,
可以在这些元件之间存在或者可以不存在低阻的路径。

可以至少部分地通过一个或多个硬件和/或软件逻辑部件来执行本文描述的功
能。例如但不限制,可以使用的硬件逻辑部件的所示类型包括现场可编程门阵列(FPGA)、程
序专用集成电路(ASIC)、程序专用标准产品(ASSP)、芯片上系统(SOC)、复杂可编程逻辑器
件(CPLD)等。

虽然本发明受各?#20013;?#25913;和替换构造影响,但其特定的所示实施例在附图中示出并
且在上文详细描述。然而,应该理解,不将本发明限制于所公开的特定形式,而是相反地覆
盖落入本发明的精神和范围内的所有修改、替换构造和等效物。

关于本文
本文标题:具有情感内容的文字至语音转换.pdf
链接地址:http://www.pqiex.tw/p-6091625.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 股票融资平台ˉ杨方配资 股票配资招商 2012年股票推荐 2008上证指数最高 股票指数期货是为适应人们管理股市风险 股票融资余额和融资买入 2010年上证指数走势图 同花顺股票软件下载 包钢稀土股票行情 今日股票行情查询