平码五不中公式规律
  • / 31
  • 下载费用:30 金币  

声音合成装置、声音合成方法及程序.pdf

关 键 ?#21097;?/dt>
声音 合成 装置 方法 程序
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201580046128.4

申请日:

2015.09.09

公开号:

CN106688035A

公开日:

2017.05.17

当前法律状态:

实审

有效性:

审中

法?#19978;?#24773;: 实质审查的生效IPC(主分类):G10L 13/10申请日:20150909|||公开
IPC分类号: G10L13/10 主分类号: G10L13/10
申请人: 株式会社东芝; 东芝解决方案株式会社
发明人: 平野薰; 铃木优; 水谷博之
地址: 日本东京都
优?#28909;ǎ?/td> 2014.10.30 JP 2014-221770
专利代理机构: 永新专利商标代理有限公司 72002 代理人: 徐殿军
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201580046128.4

授权公告号:

|||

法律状态公告日:

2017.06.09|||2017.05.17

法律状态类型:

实质审查的生效|||公开

摘要

实施方式的声音合成装置(1)具有内容选择部(10)、内容生成部(20)、以及内容登记部(30)。内容选择部(10)从被登记于内容存储部(40)的多个内容中决定选择内容,内容是包含对成为声音合成的对象的文本附加了控制声音合成用的标签信息的带标签文本的内容。内容生成部(20)将选择内容所包含的带标签文本的标签信息适用于所指定的文本,并生成新的内容。内容登记部(30)将所生成的新的内容登记在内容存储部(40)中。

权利要求书

1.一种声音合成装置,具有:
内容选择部,从被登记于内容存储部的多个内容中决定选择内容,所述内容是包含对
成为声音合成的对象的文本附加了控制声音合成用的标签信息的带标签文本的内容;
内容生成部,将所述选择内容中包含的所述带标签文本的所述标签信息适用于所指定
的文本,并生成新的所述内容;以及
内容登记部,将所生成的新的所述内容登记在所述内容存储部中。
2.根据权利要求1所述的声音合成装置,
所述内容包括所述带标签文本和与该带标签文本对应的合成声音的声音波形,
所述内容生成部具有:
标签信息抽取部,从所述选择内容所包含的所述带标签文本中抽取所述标签信息;
带标签文本生成部,将所述标签信息抽取部抽取的所述标签信息适用于所指定的文
本,并生成所述带标签文本;以及
声音波形生成部,使用声音合成辞典生成与所述带标签文本生成部生成的所述带标签
文本对应的合成声音的声音波形,
所述内容登记部将新的所述内容登记在所述内容存储部中,该新的所述内容包括由所
述带标签文本生成部生成的所述带标签文本、和由所述声音波形生成部生成的所述声音波
形。
3.根据权利要求2所述的声音合成装置,
所述内容生成部还具有对所述声音波形生成部生成的合成声音的声音波形进行再现
的再现部。
4.根据权利要求2或3所述的声音合成装置,
所述内容生成部还具有根据用户的操作修正所述带标签文本生成部生成的所述带标
签文本的带标签文本修正部,
在所述带标签文本修正部修正了所述带标签文本的情况下,所述声音波形生成部生成
与被修正后的所述带标签文本对应的合成声音的声音波形。
5.根据权利要求1所述的声音合成装置,
所述内容登记部按照与在所述内容存储部预先登记的成为标记的所述内容即标志内
容的相似度,将所生成的所述内容与所述标志内容相关联地登记在所述内容存储部中,
所述内容选择部具有:
标志内容提示部,对所述标志内容的一览进行提示;
关联内容提示部,对与从所述标志内容的一览中选择的所述标志内容相关联的所述内
容即关联内容的一览进行提示;以及
选择内容决定部,将从所述关联内容的一览中选择的所述关联内容决定为所述选择内
容。
6.根据权利要求5所述的声音合成装置,
所述关联内容提示部对将多个所述关联内容按照与相对于所述标志内容的相似度对
应的排列顺序而排列后的所述关联内容的一览进行提示。
7.根据权利要求5所述的声音合成装置,
所述关联内容提示部对将多个所述关联内容按照与过去被决定为所述选择内容的次
数对应的排列顺序而排列后的所述关联内容的一览进行提示。
8.根据权利要求5~7中?#25105;?#19968;项所述的声音合成装置,
所述内容选择部还具有再现部,该再现部对所述标志内容中包含的合成声音的声音波
形或者所述关联内容中包含的合成声音的声音波形进行再现。
9.根据权利要求1所述的声音合成装置,
所述内容选择部具有:
内容检索部,从在所述内容存储部登记的多个所述内容中,检索包含适合所输入的关
键?#23454;?#25152;述带标签文本的内容;
检索内容提示部,对由所述内容检索部检索的所述内容即检索内容的一览进行提示;
以及
选择内容决定部,将从所述检索内容的一览中选择的所述检索内容决定为所述选择内
容。
10.根据权利要求9所述的声音合成装置,
所述内容选择部还具有对所述检索内容中包含的合成声音的声音波形进行再现的再
现部。
11.一种由计算机执行的声音合成方法,包括以下步骤:
从被登记于内容存储部的多个内容中决定选择内容,所述内容是包含对成为声音合成
的对象的文本附加了控制声音合成用的标签信息的带标签文本的内容;
将所述选择内容所包含的所述带标签文本的所述标签信息适用于所指定的文本,并生
成新的所述内容;
将所生成的新的所述内容登记在所述内容存储部中。
12.一种程序,使计算机实现以下功能:
从被登记于内容存储部的多个内容中决定选择内容,所述内容是包含对成为声音合成
的对象的文本附加了控制声音合成用的标签信息的带标签文本的内容;
将所述选择内容中包含的所述带标签文本的所述标签信息适用于所指定的文本,并生
成新的所述内容;
将所生成的新的所述内容登记在所述内容存储部中。

说明书

声音合成装置、声音合成方法及程序

技术领域

本发明涉及声音合成装置、声音合成方法及程序。

背景技术

在声音合成的领域中,例如作为对得到伴随有各种情感表现等的期望的合成声音
的有效方法,已知有根据带标签文本生成合成声音的声音波形的方法。带标签文本是对成
为声音合成的对象的文本附加了用置标语言记述的标签信息的文本。标签信息是用于控制
针对用标签包围的文本的声音合成的信息。声音合成引擎根据该标签信息,例如选择在声
音合成中使用的辞典、调整?#19979;?#21442;数,由此能够得到期望的合成声音。

带标签文本能够由用户使用编辑器对文本附加标签信息而生成,但是在该方法中
用户的作业烦杂。因此,通常是将事前生成的模板适用于成为声音合成的对象的文本,由此
生成带标签文本。

但是,在以往的通常的方法中,为了应对各种标签信息,需要事前生成多个模板,
事前的准备需要大量工时。虽然也有通过机械学习自动生成模板的技术,但是在该方法中
需要另外准备机械学习用的训练数据和正确数据,比较烦杂。因此,期望构建用于高效地生
成带标签文本的新机构。

现有技术文献

专利文献

专利文献1:日本特开2003-295882号公报

专利文献2:日本特开2007-233912号公报

发明内容

发明要解决的课题

本发明要解决的课题是,提供能够高效地生成带标签文本的声音合成装置、声音
合成方法及程序。

用于解决课题的手段

实施方式的声音合成装置具有内容选择部、内容生成部、以及内容登记部。内容选
择部从被登记于内容存储部的多个内容中决定选择内容,内容是包含对成为声音合成的对
象的文本附加了控制声音合成用的标签信息的带标签文本的内容。内容生成部将所述选择
内容所包含的所述带标签文本的所述标签信息适用于所指定的文本,并生成新的所述内
容。内容登记部将所生成的新的所述内容登记在所述内容存储部中。

附图说明

图1是表示实施方式的声音合成装置的概略结构的框图。

图2是表示内容选择部的结构例的框图。

图3是表示内容生成部的结构例的框图。

图4是表示内容登记部的结构例的框图。

图5是表示在内容存储部登记的内容的一例的概念图。

图6是说明内容存储部中的内容的存储形式的图。

图7是说明在用户终端显示的UI画面的画面推移的图。

图8是表示标志内容一览画面的一例的图。

图9是表示关联内容一览画面的一例的图。

图10是表示内容详情画面的一例的图。

图11是表示内容生成画面的一例的图。

图12是表示内容选择部的处理步骤的一例的流程图。

图13是表示内容生成部的处理步骤的一例的流程图。

图14是表示内容登记部的处理步骤的一例的流程图。

图15是表?#38236;?实施方式的内容选择部的结构例的框图。

图16是说明在用户终端显示的UI画面的画面推移的图。

图17是表示内容检索画面的一例的图。

图18是表示基于第2实施方式的内容选择部的处理步骤的一例的流程图。

图19是概略地表示声音合成装置的硬件结构的一例的框图。

具体实施方式

下面,参照附图详细说明实施方式的声音合成装置、声音合成方法及程序。实施方
式的声音合成装置是根据对成为声音合成的对象的文本附加了标签信息的带标签文本进
行声音合成的装置,特别具有高效地生成带标签文本的机构。下面,将带标签文本?#36879;?#25454;该
带标签文本生成的合成声音的声音波形的组合称为“内容”。在内容中,除带标签文本和合
成声音的声音波形以外,还可以包含例如在声音合成中使用的声音合成辞典的识别信息等
其它信息。另外,关于声音合成的方法,例如能够采用语音单元结合型的声音合成、使用了
HMM(隐马尔?#21697;?#27169;型)的声音合成?#28909;?#20309;公知的方法,因而省略详细说明。

(第1实施方式)

图1是表示本实施方式的声音合成装置1的概略结构的框图。本实施方式的声音合
成装置1例如能够作为网络上的服务器来实现,对作为客户端而连接于网络的用户终端2提
供Web网页的服务。用户终端2是用户使用的个人电脑、平板终端、智能电话等信息设备,安
装了CPU和存储器等构成计算机系统的各种资源、以及显示装置和扬声器、各种输入设备等
硬件、OS(操作系统)和Web浏览器等各种软件。

另外,本实施方式的声音合成装置1不需要构成为单体的装置,但可以构成为使多
个装置协作工作的系统。并且,声音合成装置1?#37096;?#20197;作为在云系统中进行工作的假想设备
来实现。

声音合成装置1如图1所示具有内容选择部10、内容生成部20、内容登记部30、内容
存储部40、声音合成辞典50。

内容选择部10使用户终端2显示UI(用户界面)画面并受理使用了该UI画面的用户
的操作输入,从被登记于内容存储部40的多个内容中,根据用户的操作决定选择内容。即,
选择内容是按照用户的操作从多个内容中选择的内容。

内容生成部20使用户终端2显示UI画面并受理使用了该UI画面的用户的操作输
入,将由内容选择部10决定的选择内容中包含的带标签文本的标签信息适用于用户指定的
文本,并生成新的内容。

内容登记部30将由内容生成部20生成的新的内容(新内容)登记在内容存储部40
中。

内容存储部40存储成为标记的内容即标志内容和由内容生成部20生成的内容。标
志内容是强调特定的特点的内容,被事前登记在内容存储部40中。由内容生成部20生成的
内容通过内容登记部30,按照与标志内容的相似度,与标志内容相关联地被登记在内容存
储部40中。

另外,内容存储部40?#37096;?#20197;在声音合成装置1的外部。在这种情况下,内容登记部
30例如经由网络访问声音合成装置1的外部的内容存储部40,将由内容生成部20生成的内
容登记在内容存储部40中。并且,内容选择部10例如经由网络访问声音合成装置1的外部的
内容存储部40,按照用户操作从内容存储部40取得所需要的内容。

声音合成辞典50是在内容生成部20根据带标签文本生成合成声音的声音波形时
使用的辞典。声音合成辞典50例如按照要生成的合成声音的特点被分类,根据带标签文本
的标签信息选择最佳的辞典。另外,声音合成辞典50?#37096;?#20197;在声音合成装置1的外部。在这
种情况下,内容生成部20例如经由网络访问声音合成装置1的外部的声音合成辞典50,从声
音合成辞典50取得所需要的信息。

下面,说明构成本实施方式的声音合成装置1的各个部分的具体情况。

图2是表示内容选择部10的结构例的框图。内容选择部10如图2所示具有标志内容
提示部11、关联内容提示部12、选择内容决定部13、再现部14。

标志内容提示部11将在内容存储部40登记的标志内容的一览提示给用户。例如,
标志内容提示部11生成后述的标志内容一览画面SC1(参照图8)作为在用户终端2显示的UI
画面,并显示于用户终端2。

关联内容提示部12将与用户从标志内容的一览中选择的标志内容相关联的内容
即关联内容的一览提示给用户。例如,关联内容提示部12生成后述的关联内容一览画面SC2
(参照图9)作为在用户终端2显示的UI画面,并显示于用户终端2。

选择内容决定部13将从关联内容一览中选择的关联内容决定为选择内容。例如,
选择内容决定部13将用户从在用户终端2显示的关联内容一览画面SC2中选择的关联内容
决定为选择内容。

再现部14按照用户的操作对标志内容中包含的合成声音的声音波形、或者关联内
容中包含的合成声音的声音波形进行再现,并作为声音从例如用户终端2的扬声器进行输
出。例如,再现部14对用户从在用户终端2显示的标志内容一览画面SC1中指定的标志内容
中包含的合成声音的声音波形、或者用户从在用户终端2显示的关联内容一览画面SC2中指
定的关联内容中包含的合成声音的声音波形进行再现,并作为声音从用户终端2的扬声器
进行输出。

图3是表示内容生成部20的结构例的框图。内容生成部20如图3所示具有标签信息
抽取部21、带标签文本生成部22、带标签文本修正部23、声音波形生成部24、再现部25。

标签信息抽取部21从由选择内容决定部13决定的选择内容中包含的带标签文本
中抽取标签信息。标签信息包括在应用该标签信息的文本的前面配置的开始标签、和在应
用该标签信息的文本的后面配置的结束标签。在开始标签及结束标签中记述了要素名称,
在开始标签中记述了用要素名称表示的要素的属性值。在要素包括多?#36136;?#24615;的情况下,在
开始标签中记述了这些属性及每?#36136;?#24615;的属性值。作为标签信息的要素,例如可以举出性
别(属性值为?#34892;?女性)、情感(作为属性包括喜悦、哀伤、生气、…、和蔼等)、?#19979;?作为属
性包括声音的高低、讲话的快慢等)?#21462;?br />

例如,假设由选择内容决定部13决定的选择内容中包含的带标签文本是<性别=
“女性”><prosody pitch=“+5%”rate=“-2%”>早上好</prosody></性别>。在这种情况
下,标签信息抽取部21抽取该带标签文本的标签信息<性别=“女性”><prosody pitch=“+
5%”rate=“-2%”></prosody></性别>。另外,在上述的例子中,prosody是表示?#19979;?#30340;要
素名称,pitch是表示prosody要素中的声音的高低的属性(属性值为+5%),rate是表示
prosody要素中的讲话的快慢的属性(属性值为-2%)。

带标签文本生成部22将标签信息抽取部21抽取的标签信息适用于用户指定的文
本,并生成带标签文本。例如,假设用户指定的文本是“你好?#20445;?#36890;过标签信息抽取部21抽取
了上述的标签信息。在这种情况下,带标签文本生成部22生成如下的带标签文本。

<性别=“女性”><prosody pitch=“+5%”rate=“-2%”>你好</prosody></性别
>

带标签文本修正部23根据用户的操作,修正带标签文本生成部22生成的带标签文
本。例如,带标签文本修正部23根据用户的操作,修正带标签文本生成部22生成的带标签文
本中包含的标签信息的属性值(在上述的例子中是指+5%、-2%等的值)?#21462;?br />

声音波形生成部24使用声音合成辞典50生成与带标签文本生成部22生成的带标
签文本对应的合成声音的声音波形。在带标签文本修正部23修正了带标签文本生成部22生
成的带标签文本的情况下,声音波形生成部24生成与被修正后的带标签文本对应的合成声
音的声音波形。

再现部25按照用户的操作对声音波形生成部24生成合成声音的声音波形进行再
现,并作为声音从例如用户终端2的扬声器进行输出。

图4是表示内容登记部30的结构例的框图。内容登记部30如图4所示具有相似度计
算部31、分类部32、利用频次更新部33。

相似度计算部31计算新内容与标志内容的相似度,以便将通过内容生成部20生成
的新的内容(新内容)与标志内容相关联地登记在内容存储部40中。

标志内容如上所述是被事前登记在内容存储部40中的强调特定的特点的内容。例
如,假设能够将表示情感的属性(喜悦、哀伤、生气…和蔼等)的属性值设定为0~100(%),
能够将声音的高低(pitch)的属性值及讲话的快慢(rate)的属性值设定在-10~+10(%)的
范围内。在这种情况下,例如按照图5所示将强调了特定的特点的标志内容M1、M2、…、Mk事
前登记在内容存储部40中。另外,图5是表示在内容存储部40登记的内容的一例的概念图。

在通过内容生成部20生成了新内容时,相似度计算部31计算新内容与事前登记在
内容存储部40中的各个标志内容的相似度。例如,通过计算下述式(1)及式(2)所示的内容
间距离D(ci,cj),能够求出两个内容ci,cj的相似度。

D(ci,cj)=√A……(1)

A={喜悦(ci)-喜悦(cj)}2+{哀伤(ci)-哀伤(cj)}2+{生气(ci)-生气(cj)}2+…+
{和蔼(ci)-和蔼(cj)}2+{声音的高低(ci)-声音的高低(cj)}2+{讲话的快慢(ci)-讲话的快
慢(cj)}2……(2)

在根据式(1)及式(2)计算出的内容间距离D(ci,cj)越小时,表示两个内容ci,cj
越相似。另外,此处把性别的属性值相同的各个内容作为距离计算的对象,但?#37096;?#20197;将与性
别的属性值相关的项目记入下述式(2)中,计算跨越性别的内容间距离D(ci,cj)。

分类部32根据?#19978;?#20284;度计算部31计算出的相似度,将由内容生成部20生成的内容
分类。此处的分类是将由内容生成部20生成的内容、与?#36879;?#20869;容相似的标志内容(例如,与
该内容的内容间距离为规定的阈值以下的标志内容)相关联地登记在内容存储部40中的处
理。当存在多个与由内容生成部20生成的内容相似的标志内容的情况下,将该内容与这些
多个标志内容中的各个标志内容相关联地登记在内容存储部40中。每当通过内容生成部20
生成新的内容时,分类部32进行该内容的分类。由此,对于每个标志内容,将与该标志内容
相关联的内容按照例如相似度顺序存储在内容存储部40中。

图6是说明内容存储部40中的内容的存储形式的图。由内容生成部20生成的内容
C1、C2、…、Cm如图6所示以被分类成由与各个内容C1、C2、…、Cm相似的标志内容M1、M2、…、
Ml代表的类别的状态,被存储在内容存储部40中。并且,各个内容与该内容的利用频次的信
息相对应。利用频次表示该内容被用作选择内容的次数。即,每当在内容生成部20生成新的
内容并被用作选择内容时,将被用作选择内容的内容的利用频次的值加1(+1)。内容的利用
频次成为对用户提示该内容是否是具有人气的内容的指标。

利用频次更新部33在内容生成部20生成的新的内容的登记时,使在生成该内容时
被用作选择内容的内容的利用频次的?#26723;?#22686;而更新。

下面,关于本实施方式的声音合成装置1在用户终端2显示的UI画面的具体例子,
参照图7~图11进行说明。

图7是说明在用户终端2显示的UI画面的画面推移的图。本实施方式的声音合成装
置1例如按照图7所示的画面推移,在用户终端2依次显示作为UI画面的标志内容一览画面
SC1、关联内容一览画面SC2、内容详情画面SC3及内容生成画面SC4。

图8是表示标志内容一览画面SC1的一例的图。标志内容一览画面SC1是将事前在
内容存储部40登记的标志内容的一览提示给用户的UI画面。在该标志内容一览画面SC1中,
如图8所示设有“标题”栏101、“性别”栏102、“参数”栏103、性别切换按钮104、上下按钮105、
“再现”按钮106、“内容”按钮107及“close”按钮108。

在“标题”栏101显示各个标志内容的名称。在“性别”栏102显示各个标志内容的性
别的属性值(?#34892;?女性)。在“参数”栏103显示各个标志内容的情感和?#19979;?#30340;属性及属性值
(参数)。另外,图8所示的标志内容一览画面SC1是按照?#34892;?女性的性别提示标志内容的一
览的结构,通过操作性别切换按钮104?#36766;?#25442;要提示的标志内容的性别。在图8中示出了提
示?#34892;?#30340;标志内容的一览的状态。

上下按钮105是用于使未图示的光标上下移动,从标志内容的一览中指定?#25105;?#30340;
标志内容的按钮。

“再现”按钮106是用于对所指定的标志内容中包含的合成声音的声音波形进行再
现并输出声音的按钮。当在从所提示的标志内容的一览中指定了?#25105;?#30340;标志内容的状态下
按下“再现”按钮106时,从用户终端2的扬声器输出所指定的标志内容的合成声音。用户能
够利用该“再现”按钮106试听期望的标志内容的合成声音。

“内容”按钮107是用于从标志内容的一览中选择期望的标志内容的按钮。当在从
所提示的标志内容的一览中指定了?#25105;?#30340;标志内容的状态下按下“内容”按钮107时,在用
户终端2显示的UI画面从标志内容一览画面SC1进入关联内容一览画面SC2,并提示与所指
定的标志内容相关联的关联内容的一览。

“close”按钮108是用于关闭标志内容一览画面SC1的按钮。在按下该“close”按钮
108时,用户终端2中的UI画面的显示结束。

图9是表示关联内容一览画面SC2的一例的图。关联内容一览画面SC2是将与用户
使用标志内容一览画面SC1选择的标志内容相关联地登记在内容存储部40中的关联内容的
一览提示给用户的UI画面。在该关联内容一览画面SC2中,如图9所示设有“标题”栏201、“距
离”栏202、“利用频次”栏203、上下按钮204、“再现”按钮205、“返回”按钮206、“详情”按钮
207及“close”按钮208。

在“标题”栏201显示在标志内容一览画面SC1中选择的标志内容及各个关联内容
的名称。在“距离”栏202显示各个关联内容与标志内容的内容间距离D(ci,cj)。在“利用频
次”栏203显示标志内容及各个关联内容的利用频次。在关联内容一览画面SC2中,如图9所
示按照内容间距离D(ci,cj)的值?#26377;?#21040;大的顺序一览显示与标志内容相关联的多个关联
内容,即,使得与标志内容越相似的关联内容越靠上位。并且,对内容间距离D(ci,cj)的值
相同的各个关联内容,以使利用频次的?#21040;?#22823;的关联内容处于上位的方式进行一览显示。
另外,关联内容的排列顺序不限于图9所示的例子。例如,?#37096;?#20197;以使利用频次的值越大的
关联内容越靠上位的方式一览显示多个关联内容。

上下按钮204是用于使未图示的光标上下移动,从关联内容的一览中指定?#25105;?#30340;
关联内容的按钮。

“再现”按钮205是用于对所指定的关联内容中包含的合成声音的声音波形进行再
现并输出声音的按钮。当在从所提示的关联内容的一览中指定了?#25105;?#30340;关联内容的状态下
按下“再现”按钮205时,从用户终端2的扬声器输出所指定的关联内容的合成声音。用户能
够利用该“再现”按钮205试听期望的关联内容的合成声音。

“返回”按钮206是用于使在用户终端2显示的UI画面从图9的关联内容一览画面
SC2返回到图8的标志内容一览画面SC1的按钮。

“详情”按钮207是用于确认期望的关联内容的详细情况的按钮。当在从所提示的
关联内容的一览中指定了?#25105;?#30340;关联内容的状态下按下“详情”按钮207时,在用户终端2显
示的UI画面从关联内容一览画面SC2进入内容详情画面SC3,并显示所指定的关联内容的详
细信息。

“close”按钮208是用于关闭关联内容一览画面SC2的按钮。在按下该“close”按钮
208时,用户终端2中的UI画面的显示结束。

图10是表示内容详情画面SC3的一例的图。内容详情画面SC1是将用户使用关联内
容一览画面SC2选择的关联内容的详细信息提示给用户的UI画面。在该内容详情画面SC2
中,如图10所示设有内容名称栏301、“使用辞典”栏302、“文本”栏303、“标签信息”栏304、
“再现”按钮305、“返回”按钮306、?#26696;?#21046;”按钮307及“close”按钮308。

在内容名称栏301显示该内容的名称。在“使用辞典”栏302显示在生成该内容中包
含的合成声音的声音波形时使用的声音合成辞典50的名称。在“文本”栏302显示该内容中
包含的带标签文本的文本部分(文本整体)。在“标签信息”栏304显示在“文本”栏302显示的
文本中指定的范围的带标签文本。用户通过在“文本”栏302显示的文本中指定?#25105;?#30340;范围,
能够在“标签信息”栏304确认该部分的标签信息。

“再现”按钮305是用于对与在“标签信息”栏304显示的带标签文本对应的部分的
合成声音的声音波形进行再现并输出声音的按钮。当在用户指定的范围中的带标签文本被
显示于“标签信息”栏304的状态下按下“再现”按钮305时,从用户终端2的扬声器输出与该
带标签文本对应的部分的合成声音。用户能够利用该“再现”按钮305试听期望的部位的合
成声音。

“返回”按钮306是用于使在用户终端2显示的UI画面从图10的内容详情画面SC3返
回到图9的关联内容一览画面SC2的按钮。

?#26696;?#21046;”按钮307是用于将该内容决定为选择内容的按钮。在按下该?#26696;?#21046;”按钮307
时,在用户终端2显示的UI画面从内容详情画面SC3进入内容生成画面SC4。

“close”按钮308是用于关闭内容详情画面SC3的按钮。在按下该“close”按钮308
时,用户终端2中的UI画面的显示结束。

图11是表示内容生成画面SC4的一例的图。内容生成画面SC4是适用选择内容的标
签信息生成新的内容用的UI画面。在该内容生成画面SC4中,如图11所示设有“标题”栏401、
“使用辞典”栏402、“文本”栏403、“标签信息”栏404、“适用”按钮405、“再现”按钮406、“编
辑”按钮407、“返回”按钮408、“登记”按钮409及“close”按钮410。

“标题”栏401显示使用内容生成画面SC4生成的新的内容的名称。用户通过在该
“标题”栏401写入?#25105;?#30340;名称,能够对新的内容设定期望的名称。在“使用辞典”栏402显示
在生成选择内容中包含的合成声音的声音波形时使用的声音合成辞典50的名称。用户通过
变更在该“使用辞典”栏402显示的声音合成辞典50的名称,能够变更在生成新的内容中包
含的合成声音的声音波形时使用的声音合成辞典50的名称。在“文本”栏403显示成为声音
合成的对象的文本。用户通过在该“文本”栏403写入?#25105;?#30340;文本,能够指定成为声音合成的
对象的文本。在“标签信息”栏404显示带标签文本,该带标签文本是通过将选择内容中包含
的带标签文本的标签信息适用于在“文本”栏403显示的文本中而生成的。

“适用”按钮405是用于生成与在“标签信息”栏404显示的带标签文本对应的合成
声音的声音波形的按钮。当在“标签信息”栏404显示带标签文本的状态下按下“适用”按钮
405时,根据在“标签信息”栏404显示的带标签文本生成合成声音的声音波形。此时,使用在
“使用辞典”栏402显示的声音合成辞典50。

“再现”按钮406是用于对根据在“标签信息”栏404显示的带标签文本生成的合成
声音的声音波形进行再现并输出声音的按钮。当在“适用”按钮405被按下后按下“再现”按
钮406时,从用户终端2的扬声器输出根据“适用”按钮405的操作而生成的合成声音。用户能
够利用该“再现”按钮406试听新生成的内容的合成声音。

“编辑”按钮407是用于修正在“标签信息”栏404显示的带标签文本的按钮。在按下
“编辑”按钮407时,能够进行在“标签信息”栏404显示的带标签文本的编辑。用户通过按下
该“编辑”按钮407,进行对在“标签信息”栏404显示的带标签文本修正例如标签信息的属性
值(在图11的例子中是+5%)等的操作,能够修正新生成的内容的带标签文本。

“返回”按钮408是用于使在用户终端2显示的UI画面从图11的内容生成画面SC4返
回到图10的内容详情画面SC3的按钮。

“登记”按钮409是用于将所生成的新的内容登记在内容存储部40中的按钮。在按
下“登记”按钮409时,将在“标签信息”栏404显示的带标签文本?#36879;?#25454;该带标签文本生成的
合成声音的声音波形的组合,作为新的内容登记在内容存储部40中。

“close”按钮410是用于关闭内容生成画面SC4的按钮。在按下该“close”按钮410
时,用户终端2中的UI画面的显示结束。

下面,说明声音合成装置1的动作例,声音合成装置1使用户终端2显示图7~图11
所示例的UI画面并生成内容进行登记。

首先,参照图12说明通过内容选择部10进行的处理。图12是表示内容选择部10的
处理步骤的一例的流程图。

在图12的流程图所示的处理开始时,首先标志内容提示部11将图8示例的标志内
容一览画面SC1显示在用户终端2(步骤S101)。另外,在图12的流程图中省略了记载,在将标
志内容一览画面SC1显示在用户终端2后,在操作标志内容一览画面SC1的性别切换按钮104
时,将要一览显示的标志内容的性别被切换。并且,当在?#25105;?#23450;时按下“close”按钮108时,
处理结束。

然后,判定是否在指定了在标志内容一览画面SC1中一览显示的?#25105;?#19968;个标志内
容的状态下按下了“再现”按钮106(步骤S102)。并且,在按下了“再现”按钮106的情况下(步
骤S102:是),再现部14对所指定的标志内容中包含的合成声音的声音波形进行再现,并从
用户终端2的扬声器进行声音输出(步骤S103),然后返回到步骤S102。

另一方面,在未按下“再现”按钮106的情况下(步骤S102:否),然后判定是否在指
定了所一览显示的?#25105;?#19968;个标志内容的状态下按下了“内容”按钮107(步骤S104)。并且,在
未按下“内容”按钮107的情况下(步骤S104:否),返回到步骤S102。另一方面,在按下了“内
容”按钮107的情况下(步骤S104:是),关联内容提示部12将图9示例的关联内容一览画面
SC2显示在用户终端2(步骤S105)。

另外,在图12的流程图中省略了记载,在将关联内容一览画面SC2显示在用户终端
2后,当在?#25105;?#23450;时按下“返回”按钮206时,返回到步骤S101,在用户终端2再次显示标志内
容一览画面SC1。并且,当在?#25105;?#23450;时按下“close”按钮208时,处理结束。

然后,判定是否在指定了在关联内容一览画面SC2中一览显示的?#25105;?#19968;个关联内
容的状态下按下了“再现”按钮205(步骤S106)。并且,在按下了“再现”按钮205的情况下(步
骤S106:是),再现部14对所指定的关联内容中包含的合成声音的声音波形进行再现,并从
用户终端2的扬声器进行声音输出(步骤S107),然后返回到步骤S106。

另一方面,在未按下“再现”按钮205的情况下(步骤S106:否),然后判定是否在指
定了所一览显示的?#25105;?#19968;个关联内容的状态下按下了“详情”按钮207(步骤S108)。并且,在
未按下“详情”按钮207的情况下(步骤S108:否),返回到步骤S106。另一方面,在按下了“详
情”按钮207的情况下(步骤S108:是),选择内容决定部13将图10示例的内容详情画面SC3显
示在用户终端2(步骤S109)。

另外,在图12的流程图中省略了记载,在将内容详情画面SC3显示在用户终端2后,
当在?#25105;?#23450;时按下“返回”按钮306时,返回到步骤S105,在用户终端2再次显示关联内容一
览画面SC2。并且,当在?#25105;?#23450;时按下“close”按钮308时,处理结束。

然后,判定是否在内容详情画面SC3的“标签信息”栏304显示带标签文本的状态下
按下了“再现”按钮305(步骤S110)。并且,在按下“再现”按钮305的情况下(步骤S110:是),
再现部14对与在“标签信息”栏304显示的带标签文本对应的合成声音的声音波形进行再
现,并从用户终端2的扬声器进行声音输出(步骤S111),然后返回到步骤S110。

另一方面,在未按下“再现”按钮305的情况下(步骤S110:否),接?#25490;?#23450;是否在“标
签信息”栏304显示带标签文本的状态下按下了?#26696;?#21046;”按钮307(步骤S112)。并且,在未按下
?#26696;?#21046;”按钮307的情况下(步骤S112:否),返回到步骤S110。另一方面,在按下了?#26696;?#21046;”按钮
307的情况下(步骤S112:是),选择内容决定部13将通过内容详情画面SC3显示详情信息的
内容决定为选择内容(步骤S113),将处理转交给内容生成部20,通过内容选择部10进行的
一系列的处理结束。

下面,参照图13说明通过内容生成部20进行的处理。图13是表示内容生成部20的
处理步骤的一例的流程图。

在图13的流程图所示的处理开始时,首先标签信息抽取部21将图11示例的内容生
成画面SC4显示在用户终端2(步骤S201)。用户在该内容生成画面SC4的“文本”栏403写入成
为声音合成的对象的文本。此时,标签信息抽取部21从选择内容的带标签文本中抽取标签
信息。并且,带标签文本生成部22将标签信息抽取部21抽取的标签信息适用于在“文本”栏
403写入的文本,由此生成带标签文本。在内容生成画面SC4的“标签信息”栏404显示带标签
文本生成部22生成的带标签文本。

另外,在图13的流程图中省略了记载,当在用户终端2显示内容生成画面SC4后,当
在?#25105;?#23450;时按下“返回”按钮408时,返回到图12的步骤S109,在用户终端2再次显示内容详
情画面SC3。并且,当在?#25105;?#23450;时按下“close”按钮410时,处理结束。

然后,判定是否在“标签信息”栏404显示带标签文本的状态下按下了“编辑”按钮
407(步骤S202)。并且,在按下了“编辑”按钮407的情况下(步骤S202:是),带标签文本修正
部23受理用户对带标签文本的修正操作,在修正了在“标签信息”栏404显示的带标签文本
后(步骤S203),返回到步骤S202。

另一方面,在未按下“编辑”按钮407的情况下(步骤S202:否),然后判定是否在“标
签信息”栏404显示带标签文本的状态下按下了“适用”按钮405(步骤S204)。并且,在未按下
“适用”按钮405的情况下(步骤S204:否),返回到步骤S202。另一方面,在按下了“适用”按钮
405的情况下(步骤S204:是),声音波形生成部24根据在“标签信息”栏404显示的带标签文
本,使用在“使用辞典”栏402显示的声音合成辞典50生成合成声音的声音波形(步骤S205)。

然后,判定是否按下了“再现”按钮406(步骤S206)。并且,在按下了“再现”按钮406
的情况下(步骤S206:是),再现部25对在步骤S205生成的合成声音的声音波形进行再现,并
从用户终端2的扬声器进行声音输出(步骤S207),然后返回到步骤S206。

另一方面,在未按下“再现”按钮406的情况下(步骤S206:否),然后判定是否按下
了“登记”按钮409(步骤S208)。并且,在未按下“登记”按钮409的情况下(步骤S208:否),返
回到步骤S206。另一方面,在按下了“登记”按钮409的情况下(步骤S208:是),将处理转交给
内容登记部30,通过内容生成部20进行的一系列的处理结束。

下面,参照图14说明通过内容登记部30进行的处理。图14是表示内容登记部30的
处理步骤的一例的流程图。

在图14的流程图所示的处理开始时,首先?#19978;?#20284;度计算部31计算通过内容生成部
20生成的新的内容与在内容存储部40登记的各个标志内容之间的内容间距离D(ci,cj)(步
骤S301)。

然后,分类部32根据在步骤S301计算出的内容间距离D(ci,cj),将通过内容生成
部20生成的新的内容分类,并与?#36879;?#20869;容相似的标志内容相关联地登记在内容存储部40中
(步骤S302)。被登记在内容存储部40中的新的内容成为以后生成其它内容时利用的选择内
容的候选。

然后,利用频次更新部33更新在内容生成部20生成新的内容时被用作选择内容的
内容的利用频次(步骤S303),通过内容登记部30进行的一系列的处理结束。

如以上举出具体示例详细说明的那样,本实施方式的声音合成装置1按照利用UI
画面的用户的操作,从在内容存储部40登记的内容中决定在生成新的内容时利用的选择内
容。并且,将所决定的选择内容中包含的带标签文本的标签信息适用于用户指定的文本,并
生成新的内容。并且,将所生成的新的内容作为选择内容的候选登记在内容存储部40中。因
此,根据本实施方式的声音合成装置1,不需要为生成带标签文本而事前准备多个模板,也
不需要为自动生成模板而准备训练数据和正确数据,能够利用过去生成的内容从?#25105;?#30340;文
本生成带标签文本,因而能够高效地生成带标签文本。

并且,根据本实施方式的声音合成装置1,用户能够一面试听过去生成的内容的合
成声音和在适用了期望的标签信息的情况下生成的合成声音,一面选择应该适用的标签信
息生成带标签文本,并且能够根据需要修正带标签文本,因而能够有效地得到用户要求的
合成声音。

(第2实施方式)

下面,说明第2实施方式。第2实施方式的声音合成装置的内容选择部的结构与第1
实施方式不同。下面,将第2实施方式的声音合成装置表述为“声音合成装置1’?#20445;?#20197;便与第1
实施方式进行区分,将该声音合成装置1’的特征性的内容选择部表述为内容选择部60,以
便与第1实施方式进行区分。除此以外的结构与第1实施方式相同,因而下面?#23454;?#30465;略与第1
实施方式重复的说明,对本实施方式的特征性的内容选择部60进行说明。

图15是表示内容选择部60的结构例的框图。内容选择部60如图15所示具有内容检
索部61、检索内容提示部62、选择内容决定部63、再现部64。

内容检索部61从在内容存储部40登记的内容中检索包括适合于所输入的关键词
的带标签文本的内容。例如,内容检索部61使在用户终端2显示后述的内容检索画面SC5(参
照图17)作为在用户终端2显示的UI画面,从在内容存储部40登记的内容中检索包括适合用
户使用该内容检索画面SC5输入的关键?#23454;?#24102;标签文本的内容。

检索内容提示部62将由内容检索部61检索的内容即检索内容的一览提示给用户。
例如,检索内容提示部62使在作为UI画面而显示于用户终端2的内容检索画面SC5上,显示
由内容检索部61检索的检索内容的一览。

选择内容决定部63将从检索内容的一览中选择的检索内容决定为选择内容。例
如,选择内容决定部63将用户从在内容检索画面SC5上显示的检索内容的一览中选择的检
索内容决定为选择内容。

再现部64按照用户的操作,对检索内容中包含的合成声音的声音波形进行再现,
并作为声音从例如用户终端2的扬声器进行输出。例如,再现部64对用户从在内容检索画面
SC5上显示的检索内容的一览中指定的检索内容中包含的合成声音的声音波形进行再现,
并作为声音从用户终端2的扬声器进行输出。

图16是说明第2实施方式的声音合成装置1’在用户终端2显示的UI画面的画面推
移的图。本实施方式的声音合成装置1’例如按照图16所示的画面推移,在用户终端2依次显
示作为UI画面的内容检索画面SC5、内容详情画面SC3及内容生成画面SC4。

图17是表示内容检索画面SC5的一例的图。内容检索画面SC5是受理用于检索内容
的关键?#23454;?#36755;入,并且将检索结果即检索内容的一览提示给用户的UI画面。在该内容检索
画面SC5中,如图17所示设有“关键词”输入栏501、“标题”栏502、“利用频次”栏503、“检索”
按钮504、上下按钮505、“再现”按钮506、“详情”按钮507及“close”按钮508。

“关键词”输入栏501是用于输入在检索中使用的关键?#23454;那?#22495;。用户能够在该“关
键词”输入栏501中输入例如与成为声音合成的对象的文本相同的文本?#28909;我?#25991;本作为关
键词。在“标题”栏502显示作为检索结果而得到的各个检索内容的名称。在“利用频次”栏
503显示作为检索结果而得到的各个检索内容的利用频次。

“检索”按钮504是用于使用在“关键词”输入栏501中输入的关键?#24335;?#34892;检索的按
钮。当在“关键词”输入栏501中输入了关键?#23454;?#29366;态下按下“检索”按钮504时,包括适合该
关键?#23454;?#24102;标签文本的检索内容被从内容存储部40中检索出来,所得到的检索内容的名称
及利用频次分别显示在“标题”栏502及“利用频次”栏503中。

上下按钮505是用于使未图示的光标上下移动,从检索内容的一览中指定?#25105;?#30340;
检索内容的按钮。

“再现”按钮506是用于对所指定的检索内容中包含的合成声音的声音波形进行再
现并输出声音的按钮。当在从所提示的检索内容的一览中指定了?#25105;?#30340;检索内容的状态下
按下“再现”按钮506时,从用户终端2的扬声器输出所指定的检索内容的合成声音。用户能
够利用该“再现”按钮506试听期望的检索内容的合成声音。

“详情”按钮507是用于确认期望的检索内容的详细情况的按钮。当在从所提示的
检索内容的一览中指定了?#25105;?#30340;检索内容的状态下按下“详情”按钮507时,在用户终端2显
示的UI画面从内容检索画面SC5进入内容详情画面SC3(参照图10),并显示所指定的检索内
容的详细信息。

“close”按钮508是用于关闭内容检索画面SC5的按钮。在按下该“close”按钮508
时,用户终端2中的UI画面的显示结束。

下面,参照图18说明内容选择部60的处理,内容选择部60使在用户终端2显示图17
示例的内容检索画面SC5和图10示例的内容详情画面SC3,并决定选择内容。图18是表示内
容选择部60的处理步骤的一例的流程图。

在图18的流程图所示的处理开始时,首先内容检索部61将图17示例的内容检索画
面SC5显示在用户终端2(步骤S401)。另外,虽然在图18的流程图中省略了记载,在将内容检
索画面SC5显示于用户终端2后,当在?#25105;?#23450;时按下“close”按钮508时,处理结束。

然后,判定是否在内容检索画面SC5的“关键词”输入栏501中输入关键?#23454;?#29366;态下
按下了“检索”按钮504(步骤S402)。并且,在未按下“检索”按钮504的情况下(步骤S402:
否),返回到步骤S402反复判定。另一方面,在按下了“检索”按钮504的情况下(步骤S402:
是),内容检索部61从在内容存储部40登记的内容中检索包括适合在“关键词”输入栏501中
输入的关键?#23454;?#24102;标签文本的检索内容(步骤S403)。并且,内容检索部61将作为检索结果
而得到的检索内容的一览显示在内容检索画面SC5上(步骤S404)。

然后,判定是否在指定了在内容检索画面SC5上显示的?#25105;?#19968;个检索内容的状态
下按下了“再现”按钮506(步骤S405)。并且,在按下了“再现”按钮506的情况下(步骤S405:
是),再现部64对所指定的检索内容中包含的合成声音的声音波形进行再现,并从用户终端
2的扬声器进行声音输出(步骤S406),然后返回到步骤S405。

另一方面,在未按下“再现”按钮506的情况下(步骤S405:否),然后判定是否在指
定了所一览显示的?#25105;?#19968;个关联内容的状态下按下了“详情”按钮507(步骤S407)。并且,在
未按下“详情”按钮507的情况下(步骤S407:否),返回到步骤S405。另一方面,在按下了“详
情”按钮507的情况下(步骤S407:是),选择内容决定部63将图10示例的内容详情画面SC3显
示在用户终端2(步骤S408)。

另外,虽然在图18的流程图中省略了记载,在将内容详情画面SC3显示在用户终端
2后,当在?#25105;?#23450;时按下“返回”按钮306时,返回到步骤S401,在用户终端2再次显示内容检
索画面SC5。并且,当在?#25105;?#23450;时按下“close”按钮308时,处理结束。

然后,判定是否在内容详情画面SC3的“标签信息”栏304显示带标签文本的状态下
按下了“再现”按钮305(步骤S409)。并且,在按下了“再现”按钮305的情况下(步骤S409:
是),再现部64对与在“标签信息”栏304显示的带标签文本对应的合成声音的声音波形进行
再现,并从用户终端2的扬声器进行声音输出(步骤S410),然后返回到步骤S409。

另一方面,在未按下“再现”按钮305的情况下(步骤S409:否),然后判定是否在“标
签信息”栏304显示带标签文本的状态下按下了?#26696;?#21046;”按钮307(步骤S411)。并且,在未按下
?#26696;?#21046;”按钮307的情况下(步骤S411:否),返回到步骤S409。另一方面,在按下了?#26696;?#21046;”按钮
307的情况下(步骤S411:是),选择内容决定部63将通过内容详情画面SC3显示详情信息的
检索内容决定为选择内容(步骤S412),将处理转交给内容生成部20,通过内容选择部60进
行的一系列的处理结束。

如以上说明的那样,本实施方式的声音合成装置1’按照利用UI画面的用户的操
作,从在内容存储部40登记的内容中检索包括与关键词一致的带标签文本的内容,从所得
到的检索内容中决定在生成新的内容时利用的选择内容。并且,将所决定的选择内容中包
含的带标签文本的标签信息适用于用户指定文本,生成新的内容。并且,将所生成的新的内
容作为选择内容的候选登记在内容存储部40中。因此,根据本实施方式的声音合成装置1’,
与第1实施方式的声音合成装置1一样能够利用过去生成的内容从?#25105;?#30340;文本生成带标签
文本,因而能够高效地生成带标签文本。另外,在本实施方式的声音合成装置1’中,能够使
用关键词圈定选择内容的候选,因而能够更高效地进行带标签文本的生成。

(补充说明)

以上说明的实施方式的声音合成装置1的各功能性构成要素,例如能够通过使用
通用的计算机系统作为基本硬件而执行的程序(软件)来实现。

图19是概略地表示声音合成装置1的主要部分的硬件结构的一例的框图。声音合
成装置1的主要部分如图19所示构成为包括CPU等处理器71、RAM等主存储部72、使用了各种
存储装置的辅助存储部73、通信接口74、连接这些各个部分的总线75在内的通用的计算机
系统。另外,辅助存储部73?#37096;?#20197;通过有线或者无线的LAN(Local Area Network:局域网)
等与各个部分连接。

例如,处理器71利用主存储部72执行在辅助存储部73等中存储的程序,由此实现
声音合成装置1的各功能性构成要素。该程序例如能够以可安装的形式或者可执行的形式
的文件记录在计算机可读的记录介质中,作为计算机程序产?#26041;?#34892;提供,该记录介质包括
CD-ROM(Compact Disc Read Only Memory:光盘只读存储器)、软盘(FD)、CD-R(Compact
Disc Recordable:可录光盘)、DVD(Digital Versatile Disc:数?#21482;?#35270;频光盘)?#21462;?br />

并且,?#37096;?#20197;构成为将该程序存储在与因特网等网络连接的其它计算机中,通过
经由网络下载进行提供。并且,?#37096;?#20197;构成为经由因特网等网络来提供或者颁发该程序。并
且,?#37096;?#20197;构成为将该程序预先安装在计算机内部的ROM(辅助存储部73)等中进行提供。

该程序形成为包括声音合成装置1的功能性构成要素(内容选择部10、内容生成部
20及内容登记部30)的模块结构,作为实?#23454;?#30828;件,例如由处理器71从上述记录介质读出程
序并执行程序,由此将上述的各构成要素读出在主存储部72中,在主存储部72中生成上述
的各构成要素。另外,声音合成装置1的功能性构成要素的一部?#21482;?#32773;全部也能够使用专用
集成电路(ASIC:Application Specific Integrated Circuit)或?#19978;?#22330;编程门阵列
(FPGA:Field-Programmable Gate Array)等专用的硬件实现。

以上说明了本发明的一些施方式,但该实施方式仅是作为示例而示出的,不能理
解为限定本发明的范围。该新的实施方式可以通过其他各种方式来实施,能够在不脱离发
明宗旨的范围内进行各?#36136;?#30053;、置换、变更。这些实施方式及其变形包含于发明的范围和宗
旨中,并且包含于在权利要求书记载的发明及其均等的范围中。

关于本文
本文标题:声音合成装置、声音合成方法及程序.pdf
链接地址:http://www.pqiex.tw/p-6091601.html
关于我们 - 网站声明 - 网?#38236;?#22270; - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 博远棋牌 天易棋牌 湖南幸运赛车有什么技巧 福彩3d号码分类软件 贵州11选5开奖结果今天 456娱乐棋牌分 3d开奖号码 辽宁11选5开奖 分分彩走势图 浙江舟山飞鱼开奖结果 北京快中彩开奖记录