平码五不中公式规律
  • / 22
  • 下载费用:30 金币  

说话人识别方法及装置、计算机设备及计算机可读介质.pdf

关 键 ?#21097;?/dt>
说话 识别 方法 装置 计算机 设备 可读 介质
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201710142901.8

申请日:

2017.03.10

公开号:

CN106683680A

公开日:

2017.05.17

当前法律状态:

实审

有效性:

审中

法?#19978;?#24773;: 实质审查的生效IPC(主分类):G10L 17/04申请日:20170310|||公开
IPC分类号: G10L17/04(2013.01)I; G10L17/18(2013.01)I; G10L25/24(2013.01)I; G10L25/12(2013.01)I 主分类号: G10L17/04
申请人: 百度在线网络技术(?#26412;?有限公司
发明人: 曹莹; 刘霄; 胡鹏; 周杰; 文石磊
地址: 100085 ?#26412;?#24066;海淀区上地十街10号百度大厦
优先权:
专利代理机构: ?#26412;?#40511;德海业知识产权代理事务所(普通合伙) 11412 代理人: 袁媛
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201710142901.8

授权公告号:

|||

法律状态公告日:

2017.06.09|||2017.05.17

法律状态类型:

实质审查的生效|||公开

摘要

本发明提供一种说话人识别方法及装置、计算机设备及计算机可读介质。其所述方法包括:接收目标群体中的待识别用户的目标语音数据;根据目标语音数据、预先采集的语音数据库和预先训练的说话人识别模型,获取目标语音数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征;说话人识别模型采用卷积神经网络模型;根据目标语音数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征,识别目标语音数据对应的用户。本发明通过采用基于卷积神经网络模型的说话人识别模型,能够更加准确地获取各语音数据的语音输出特征,从而更加准确地对目标语音数据对应的用户进行识别,进而能够大大地提高对说话?#35828;?#35782;别效率。

权利要求书

1.一种说话人识别方法,其特征在于,所述方法包括:
接收目标群体中的待识别用户的目标语音数据;
根据所述目标语音数据、预先采集的语音数据库和预先训练的说话人识别模型,获取
所述目标语音数据对应的语音输出特征以及所述语音数据库中每个所述语音数据对应的
语音输出特征;所述说话人识别模型采用卷积神经网络模型;
根据所述目标语音数据对应的语音输出特征以及所述语音数据库中每个所述语音数
据对应的语音输出特征,识别所述目标语音数据对应的用户。
2.根据权利要求1所述的方法,其特征在于,根据所述目标语音数据、预先采集的语音
数据库和预先训练的说话人识别模型,获取所述目标语音数据对应的语音输出特征以及所
述语音数据库中每个所述语音数据对应的语音输出特征之前,所述方法还包括:
采集数条已知用户标识的训练语音数据,生成训练语音数据库;
根据所述训练语音数据库中各条所述训练语音数据,获取各条所述训练语音数据的梅
尔频域倒谱系数和/或感知线性预测特征,作为对应的所述训练语音数据的语音输入特征;
根据各条所述训练语音数据的语音输入特征、以及各所述训练语音数据的用户标识,
训练所述说话人识别模型。
3.根据权利要求2所述的方法,其特征在于,根据各条所述训练语音数据的语音输入特
征、以及各所述训练语音数据的用户标识,训练所述说话人识别模型,具体包括:
将所述训练语音数据库中的各条所述训练语音数据的语音输入特征依次输入至所述
说话人识别模型中,得到对应的所述训练语音数据的语音输出特征;
根据所述训练语音数据的语音输出特征和所述训练语音数据的用户标识,生成所述训
练语音数据的损失函数;
计算所述训练语音数据的损失函数对所述说话人识别模型中各参数的导数;
根据所述说话人识别模型中的各所述参数以及所述训练语音数据的损失函数对各所
述参数的导数,更新所述说话人识别模型中的各所述参数,从而确定本次训练后的所述说
话人识别模型;
重复执行上述?#34903;瑁?#30452;至所述训练语音数据库中的数个所述训练语音数据都对所述说
话人识别模型进行训练,确定本轮训练后的所述说话人识别模型。
4.根据权利要求3所述的方法,其特征在于,根据各条所述训练语音数据的语音输入特
征、以及各所述训练语音数据的用户标识,训练所述说话人识别模型,还包括:
按照上述每一轮训练中所述训练语音数据库中的数个所述训练语音数据对所述说话
人识别模型的训练,使用所述训练语音数据库中的数个所述训练语音数据重复对所述说话
人识别模型训练N轮,得到最终的所述说话人识别模型。
5.根据权利要求1-4任一所述的方法,其特征在于,根据所述目标语音数据对应的语音
输出特征以及所述语音数据库中每个所述语音数据对应的语音输出特征,识别所述目标语
音数据对应的用户,具体包括:
分别计算所述目标语音数据对应的语音输出特征与所述语音数据库中各所述语音数
据对应的语音输出特征的相似度;
获取与所述目标语音数据对应的语音输出特征的相似度大于或者等于预设相似度阈
值的所述语音数据对应的用户标识,作为所述目标语音数据对应的用户的标识;或者获取
与所述目标语音数据对应的语音输出特征的相似度最大的所述语音数据对应的用户标识,
作为所述目标语音数据对应的用户的标识。
6.一种说话人识别装置,其特征在于,所述装置包括:
接收模块,用于接收目标群体中的待识别用户的目标语音数据;
特征获取模块,用于根据所述目标语音数据、预先采集的语音数据库和预先训练的说
话人识别模型,获取所述目标语音数据对应的语音输出特征以及所述语音数据库中每个所
述语音数据对应的语音输出特征;所述说话人识别模型采用卷积神经网络模型;
识别模块,用于根据所述目标语音数据对应的语音输出特征以及所述语音数据库中每
个所述语音数据对应的语音输出特征,识别所述目标语音数据对应的用户。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:采集模块和训练模块;
所述采集模块,用于采集数条已知用户标识的训练语音数据,生成训练语音数据库;
所述特征获取模块,还用于根据所述训练语音数据库中各条所述训练语音数据,获取
各条所述训练语音数据的梅尔频域倒谱系数和/或感知线性预测特征,作为对应的所述训
练语音数据的语音输入特征;
所述训练模块,用于根据各条所述训练语音数据的语音输入特征、以及各所述训练语
音数据的用户标识,训练所述说话人识别模型。
8.根据权利要求7所述的装置,其特征在于,所述训练模块,具体用于:
将所述训练语音数据库中的各条所述训练语音数据的语音输入特征依次输入至所述
说话人识别模型中,得到对应的所述训练语音数据的语音输出特征;
根据所述训练语音数据的语音输出特征和所述训练语音数据的用户标识,生成所述训
练语音数据的损失函数;
计算所述训练语音数据的损失函数对所述说话人识别模型中各参数的导数;
根据所述说话人识别模型中的各所述参数以及所述训练语音数据的损失函数对各所
述参数的导数,更新所述说话人识别模型中的各所述参数,从而确定本次训练后的所述说
话人识别模型;
重复执行上述?#34903;瑁?#30452;至所述训练语音数据库中的数个所述训练语音数据都对所述说
话人识别模型进行训练,确定本轮训练后的所述说话人识别模型。
9.根据权利要求8所述的装置,其特征在于,所述训练模块,具体还用于按照上述每一
轮训练中所述训练语音数据库中的数个所述训练语音数据对所述说话人识别模型的训练,
使用所述训练语音数据库中的数个所述训练语音数据重复对所述说话人识别模型训练N
轮,得到最终的所述说话人识别模型。
10.根据权利要求6-9任一所述的装置,其特征在于,所述识别模块,具体用于:
分别计算所述目标语音数据对应的语音输出特征与所述语音数据库中各所述语音数
据对应的语音输出特征的相似度;
获取与所述目标语音数据对应的语音输出特征的相似度大于或者等于预设相似度阈
值的所述语音数据对应的用户标识,作为所述目标语音数据对应的用户的标识;或者获取
与所述目标语音数据对应的语音输出特征的相似度最大的所述语音数据对应的用户标识,
作为所述目标语音数据对应的用户的标识。
11.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实
现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行
时实现如权利要求1-5中任一所述的方法。

说明书

说话人识别方法及装置、计算机设备及计算机可读介质

【技术领域】

本发明涉及计算机应用技术领域,尤其涉及一种说话人识别方法及装置、计算机
设备及计算机可读介质。

【背景技术】

说话人识别(Speaker Recognition;SR),还可以称为声纹识别(Voiceprint
Recognition;VPR),是生物识别技术的一种,具体地,是通过语音判断一句话是谁说的。

现有技术中的声纹识别包括文本相关(Text-Dependent)和文本无关(Text-
Independent)两种。与文本有关的声纹识别系统要求用户按照规定的内容发音,每个?#35828;?br />声纹模型逐个被精确地建立,而识别?#24065;?#24517;须按规定的内容发音,因此可以达到较好的识
别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用
户。与文本无关的识别系统则?#36824;?#23450;说话?#35828;?#21457;音内容,模型建立相对困难,但用户使用方
便,可应用范围较宽。例如,现有技术的、与文本无关的说话人识别方案中,主要利用混合高
斯模型从大量说话以及背景音数据中学出高斯聚类中?#27169;?#20316;为说话?#35828;?#35821;音数据对应的i-
vecotr。对于每一条待识别的语音数据,获取该待识别的语音数据的i-vecotr。然后将待识
别的语音数据的i-vecotr与各个已知说话?#35828;?#35821;音数据的i-vecotr进行相似度计算,将该
待识别的说话人识别为相似度最高的语音数据对应的说话人。

但是,现有技术中利用混合高斯模型从大量说话以及背景音数据中学出高斯聚类
中?#27169;?#20316;为说话?#35828;?#35821;音数据对应的i-vecotr,是一种线?#28304;?#29702;方案,学出的i-vecotr不能
非常准确地表征说话?#35828;?#35821;音数据的特征,导致对说话人识别的效?#24335;系汀?br />

【发明内容】

本发明提供了一种说话人识别方法及装置、计算机设备及计算机可读介质,用于
提高对说话识别的效率。

本发明提供一种说话人识别方法,所述方法包括:

接收目标群体中的待识别用户的目标语音数据;

根据所述目标语音数据、预先采集的语音数据库和预先训练的说话人识别模型,
获取所述目标语音数据对应的语音输出特征以及所述语音数据库中每个所述语音数据对
应的语音输出特征;所述说话人识别模型采用卷积神经网络模型;

根据所述目标语音数据对应的语音输出特征以及所述语音数据库中每个所述语
音数据对应的语音输出特征,识别所述目标语音数据对应的用户。

进一步可选地,如上所述的方法中,根据所述目标语音数据、预先采集的语音数据
库和预先训练的说话人识别模型,获取所述目标语音数据对应的语音输出特征以及所述语
音数据库中每个所述语音数据对应的语音输出特征之前,所述方法还包括:

采集数条已知用户标识的训练语音数据,生成训练语音数据库;

根据所述训练语音数据库中各条所述训练语音数据,获取各条所述训练语音数据
的梅尔频域倒谱系数和/或感知线性预测特征,作为对应的所述训练语音数据的语音输入
特征;

根据各条所述训练语音数据的语音输入特征、以及各所述训练语音数据的用户标
识,训练所述说话人识别模型。

进一步可选地,如上所述的方法中,根据各条所述训练语音数据的语音输入特征、
以及各所述训练语音数据的用户标识,训练所述说话人识别模型,具体包括:

将所述训练语音数据库中的各条所述训练语音数据的语音输入特征依次输入至
所述说话人识别模型中,得到对应的所述训练语音数据的语音输出特征;

根据所述训练语音数据的语音输出特征和所述训练语音数据的用户标识,生成所
述训练语音数据的损失函数;

计算所述训练语音数据的损失函数对所述说话人识别模型中各参数的导数;

根据所述说话人识别模型中的各所述参数以及所述训练语音数据的损失函数对
各所述参数的导数,更新所述说话人识别模型中的各所述参数,从而确定本次训练后的所
述说话人识别模型;

重复执行上述?#34903;瑁?#30452;至所述训练语音数据库中的数个所述训练语音数据都对所
述说话人识别模型进行训练,确定本轮训练后的所述说话人识别模型。

进一步可选地,如上所述的方法中,根据各条所述训练语音数据的语音输入特征、
以及各所述训练语音数据的用户标识,训练所述说话人识别模型,还包括:

按照上述每一轮训练中所述训练语音数据库中的数个所述训练语音数据对所述
说话人识别模型的训练,使用所述训练语音数据库中的数个所述训练语音数据重复对所述
说话人识别模型训练N轮,得到最终的所述说话人识别模型。

进一步可选地,如上所述的方法中,根据所述目标语音数据对应的语音输出特征
以及所述语音数据库中每个所述语音数据对应的语音输出特征,识别所述目标语音数据对
应的用户,具体包括:

分别计算所述目标语音数据对应的语音输出特征与所述语音数据库中各所述语
音数据对应的语音输出特征的相似度;

获取与所述目标语音数据对应的语音输出特征的相似度大于或者等于预设相似
度阈值的所述语音数据对应的用户标识,作为所述目标语音数据对应的用户的标识;或者
获取与所述目标语音数据对应的语音输出特征的相似度最大的所述语音数据对应的用户
标识,作为所述目标语音数据对应的用户的标识。

本发明还提供一种说话人识别装置,所述装置包括:

接收模块,用于接收目标群体中的待识别用户的目标语音数据;

特征获取模块,用于根据所述目标语音数据、预先采集的语音数据库和预先训练
的说话人识别模型,获取所述目标语音数据对应的语音输出特征以及所述语音数据库中每
个所述语音数据对应的语音输出特征;所述说话人识别模型采用卷积神经网络模型;

识别模块,用于根据所述目标语音数据对应的语音输出特征以及所述语音数据库
中每个所述语音数据对应的语音输出特征,识别所述目标语音数据对应的用户。

进一步可选地,如上所述的装置中,还包括:采集模块和训练模块;

所述采集模块,用于采集数条已知用户标识的训练语音数据,生成训练语音数据
库;

所述特征获取模块,还用于根据所述训练语音数据库中各条所述训练语音数据,
获取各条所述训练语音数据的梅尔频域倒谱系数和/或感知线性预测特征,作为对应的所
述训练语音数据的语音输入特征;

所述训练模块,用于根据各条所述训练语音数据的语音输入特征、以及各所述训
练语音数据的用户标识,训练所述说话人识别模型。

进一步可选地,如上所述的装置中,所述训练模块,具体用于:

将所述训练语音数据库中的各条所述训练语音数据的语音输入特征依次输入至
所述说话人识别模型中,得到对应的所述训练语音数据的语音输出特征;

根据所述训练语音数据的语音输出特征和所述训练语音数据的用户标识,生成所
述训练语音数据的损失函数;

计算所述训练语音数据的损失函数对所述说话人识别模型中各参数的导数;

根据所述说话人识别模型中的各所述参数以及所述训练语音数据的损失函数对
各所述参数的导数,更新所述说话人识别模型中的各所述参数,从而确定本次训练后的所
述说话人识别模型;

重复执行上述?#34903;瑁?#30452;至所述训练语音数据库中的数个所述训练语音数据都对所
述说话人识别模型进行训练,确定本轮训练后的所述说话人识别模型。

进一步可选地,如上所述的装置中,所述训练模块,具体还用于按照上述每一轮训
练中所述训练语音数据库中的数个所述训练语音数据对所述说话人识别模型的训练,使用
所述训练语音数据库中的数个所述训练语音数据重复对所述说话人识别模型训练N轮,得
到最终的所述说话人识别模型。

进一步可选地,如上所述的装置中,所述识别模块,具体用于:

分别计算所述目标语音数据对应的语音输出特征与所述语音数据库中各所述语
音数据对应的语音输出特征的相似度;

获取与所述目标语音数据对应的语音输出特征的相似度大于或者等于预设相似
度阈值的所述语音数据对应的用户标识,作为所述目标语音数据对应的用户的标识;或者
获取与所述目标语音数据对应的语音输出特征的相似度最大的所述语音数据对应的用户
标识,作为所述目标语音数据对应的用户的标识。

本发明还提供一种计算机设备,所述设备包括:

一个或多个处理器;

存储器,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理
器实现如上所述的说话人识别方法。

本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执
行时实现如上所述的说话人识别方法。

本发明的说话人识别方法及装置、计算机设备及计算机可读介质,通过接收目标
群体中的待识别用户的目标语音数据;根据目标语音数据、预先采集的语音数据库和预先
训练的说话人识别模型,获取目标语音数据对应的语音输出特征以及语音数据库中每个语
音数据对应的语音输出特征;其中说话人识别模型采用卷积神经网络模型;根据目标语音
数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征,识别目标
语音数据对应的用户。本发明的技术方案,由于采用基于卷积神经网络模型的说话人识别
模型,能够更加准确地获取各语音数据的语音输出特征,从而更加准确地对目标语音数据
对应的用户进行识别,进而能够大大地提高对说话?#35828;?#35782;别效率。

【附图说明】

图1为本发明的说话人识别方法实施例一的流程图。

图2本发明的说话人识别方法中提供的二维卷积的示意图。

图3为本发明的说话人识别方法中提供的一维卷积的示意图。

图4为本发明的说话人识别方法实施例二的流程图。

图5为本发明的说话人识别方法实施例三的流程图。

图6为本发明的说话人识别装置实施例一的结构图。

图7为本发明的说话人识别装置实施例二的结构图。

图8为本发明的计算机设备实施例的结构图。

图9为本发明提供的一种计算机设备的示例图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对
本发明进行详?#35813;?#36848;。

图1为本发明的说话人识别方法实施例一的流程图。如图1所示,本实施例的说话
人识别方法,具体可以包括如下?#34903;瑁?br />

100、接收目标群体中的待识别用户的目标语音数据;

101、根据目标语音数据、预先采集的语音数据库和预先训练的说话人识别模型,
获取目标语音数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出
特征;

102、根据目标语音数据对应的语音输出特征以及语音数据库中每个语音数据对
应的语音输出特征,识别目标语音数据对应的用户。

本实施例的说话人识别方法的执行主体为说话人识别装置,该说话人识别装置可
以为一个实体的电子装置,也可以为采用软件集成的装置。

本实施例的说话人识别方法是一种基于卷积神经网络模型的说话人识别方法,即
本实施例的说话人识别模型具体采用卷积神经网络模型。本实施例的说话人识别方法通过
对属于某目标群体中的某个用户的语音数据进行分析,从而识别该用户是目标群体中的哪
个用户。也就是说,在本实施例的?#34903;?00之前,可选地,还需要采集目标群体内每个用户的
语音数据,生成语音数据库,语音数据库中的语音数据可以按照用户标识与该用户标识对
应的用户的语音数据的对应关系存储,这样,可以知道每一条语音数据对应属于哪个用户。
且本实施例的说话人识别模型在对用户识别之前预先进行训练得到,且本实施例的说话人
识别模型训练时所使用的训练语音数据库与使用时采集的语音数据库可以没有关系,也就
是说,该说话人识别模型在训练时和使用时是两个独立的过程,该说话人识别模型虽然采
用训练语音数据库进行训练,但是不仅可以对该训练数据库中的各条训练语音数据的说话
人进行识别,还可以对该训练数据库中之外的其他?#25105;?#35821;音数据库中的说话人进行识别,
即本实施例的说话人识别模型使用非常广?#28023;?#20351;用之前,仅需要采集该目标群体中的各个
用户的语音数据,生成语音数据库,便可以根据语音数据对该目标群体中的任一用户进行
识别。

首先,当获取到一条目标语音数据时,仅知道该目标语音数据属于哪个目标群体,
但不确定该目标语音数据属于该目标群体中的哪个人时,可以将该目标语音数据输入至说
话人识别装置中,以获取目标语音数据对应的语音输出特征,并根据目标语音数据的语音
输出特征以及语音数据库中每个语音数据对应的语音输出特征,以对该目标语音数据的说
话人进行识别。对应地,本实施例的说话人识别装置首先可以接收目标群体中的待识别用
户的目标语音数据;然后可以根据目标语音数据和预先训练的说话人识别模型获取目标语
音数据对应的语音输出特征,并根据预先采集的语音数据库和预先训练的说话人识别模
型,获取语音数据库中每个语音数据对应的语音输出特征。即本实施例中,该说话人识别模
型可以对语音数据的特征进行抽取,获取最能够表征该语音数据的特征即语音输出特征,
并输出。本实施例的说话人识别模型采用卷积神经网络模型,而现有的普通卷积神经网络
应用于图像数据,将一个矩形?#30446;?#38388;区域做卷积,而声音的语音数据并没有空间维度,只有
时间维,且声音的语音数据的特征不随时间变化而变化,因此可以采用一维卷积神经网络
模型来作为本实施例的说话人识别模型。图2本发明的说话人识别方法中提供的二维卷积
的示意图。图3为本发明的说话人识别方法中提供的一维卷积的示意图。可以参考上述图2
和图3,可以将二维卷积转化为一维卷积,从而可以应用在本实施例的说话人识别模型中。

进一步可选地,本实施例的?#34903;?01“根据目标语音数据、预先采集的语音数据库
和预先训练的说话人识别模型,获取目标语音数据对应的语音输出特征以及语音数据库中
每个语音数据对应的语音输出特征?#20445;?#20855;体可以包括如下?#34903;瑁?br />

(a1)分别提取目标语音数据和语音数据库中每个用户的语音数据的梅尔频域倒
谱系数(Mel-Frequency Cepstral Coefficients;MFCC)和/或感知线性预测(Perceptual
Linear Predictive;PLP)特征,作为目标语音数据的语音输入特征和每个用户的语音数据
的语音输入特征;

(a2)根据目标语音数据的语音输入特征和预先训练的说话人识别模型,获取目标
语音数据对应的语音输出特征;

(a3)根据每个用户的语音数据的语音输入特征和说话人识别模型,获取对应的用
户的语音数据的语音输出特征。

从语音数据中提取MFCC和PLP特征的方式可以参考相关语音技术领域的提取。本
实施例中对说话人识别时,所选择的语音输入特征可以仅包括MFCC或者PLP特征,也可以两
者?#21450;?#25324;。且从待识别的目标语音数据中提取的语音输入特征所包括的信息量应该与语音
数据库中每个用户的语音数据的语音输入特征所包括的信息量的多少相同。即如果待识别
的目标语音数据中提取的语音输入特征仅包括MFCC和PLP特征中的某一个,对应的语音数
据库中每个用户的语音数据的语音输入特征也包括对应的MFCC或者PLP特征。如果待识别
的目标语音数据中提取的语音输入特征包括MFCC和PLP特征两个特征,对应地语音数据库
中每个用户的语音数据的语音输入特征也包括MFCC或者PLP特征两个特征。实际应用中,语
音数据的语音输入特征为矩阵的形式,该矩阵的其中一个维度固定为60维,另一个维度与
语音数据的长度有关,语音数据的长度越长,对应的维度越大。例如以每10ms为一个参考单
位,语音数据的长度每增加10ms,对应的维度增加60,即语音数据的长度每增加1s,对应的
维度增加60*100=6000。由上述可以,对于不同时间长度的语音数据,对应的语音输入特征
的维度也不相同。而现有技术中采用卷积神经网络模型做图像分类时,输入的图像大小都
是一致的。因此,普通的卷积神经网络模型无法处理此类数据。本发明的作为说话人识别模
型的卷积神经网络模型中,具体可以采用序列平均池化技术实现对变长的数据即变长的语
音输入特征进行处理。所谓序列平均池化技术,就是将?#25105;?#38271;度的一个序列看作一个向量,
取该向量所有元素的平均值作为输出值。这样,可以保证本实施例的说话人识别模型对任
意长度的语音数据的语音输入特征,均能够输出固定大小的语音输出特征。具体地,将该目
标语音数据的语音输入特征输入至预先训练的说话人识别模型,该说话人识别模型可以输
出目标语音数据对应的语音输出特征。分别将每个用户的语音数据的语音输入特征输入至
与预先训练的说话人识别模型,该说话人识别模型可以输出该用户的语音数据的语音输出
特征。且该说话人识别模型输出的目标语音数据对应的语音输出特征的向量的维度,与该
说话人识别模型输出的各用户的语音数据的语音输出特征的向量的维度相同。

本实施例的说话人识别模型,由于采用卷积神经网络模型,根据语音数据的语音
输入特征抽取语音数据的语音输出特征的过程,?#23545;?#27604;现有技术的混合高斯模型采用线性
方式获取i-vecotr的过程,所获取的表征语音数据的特征的内容更加丰富,也能够更加准
确地表示该语音数据。

本实施例的说话人识别方法中,当采集的语音数据库和说话人识别模型确定时,
也可以预先根据?#34903;?a3),获取预先采集的语音数据库中每个用户的语音数据的语音输出
特征,并可以将该语音输出特征也存储在语音数据库中,具体存储时,可以根据用户的索引
号来存储对应的用户的语音数据的语音输出特征;或者也可以再建立一个语音输出特征数
据库,专门用来存储该语音数据库中各语音数据对应的语音输出特征。当进行说话人识别
时,可以仅获取目标语音数据的语音输出特征,然后直接从语音数据库或者语音输出特征
数据库中获取预先存储的每个用户的语音数据的语音输出特征,然后直接进行说话人识别
的后续处理即可;这样,可以节省每次说话人识别的流程,节省说话人识别的时间,提高说
话人识别的效率。

进一步可选地,本实施例的?#34903;?02“根据目标语音数据对应的语音输出特征以及
语音数据库中每个语音数据对应的语音输出特征,识别目标语音数据对应的用户?#20445;?#20855;体可
以包括如下?#34903;瑁?br />

(b1)分别计算目标语音数据对应的语音输出特征与语音数据库中各语音数据对
应的语音输出特征的相似度;

(b2)获取与目标语音数据对应的语音输出特征的相似度大于或者等于预设相似
度阈值的语音数据对应的用户标识,作为目标语音数据对应的用户的标识;或者获取与目
标语音数据对应的语音输出特征的相似度最大的语音数据对应的用户标识,作为目标语音
数据对应的用户的标识。

由于本实施例的目标语音数据对应的语音输出特征与语音数据库中各语音数据
对应的语音输出特征均采用向量表示,可以计算目标语音数据对应的语音输出特征与语音
数据库中各语音数据对应的语音输出特征的相似度值。然后可以从语音数据库中获取与目
标语音数据对应的相似度值大于或者等于预设相似度阈值的语音输出特征对应的语音数
据,并取该语音数据对应的用户标识作为目标语音数据对应的用户标识,即将该语音数据
对应的用户识别为目标语音数据对应的用户。本实施例的预设相似度阈值可以根据实际需
求设置为95%,90%或者0-1之间的其它百?#36136;?#20248;选地,预设相似度阈值至少需要大于
60%。或者也可以直接根据得到的多个相似度值,从中获取最大的相似度值,并从语音数据
库中获取该最大的相似度值对应的语音数据对应的用户标识,并取该语音数据对应的用户
标识作为目标语音数据对应的用户标识,即将该语音数据对应的用户识别为目标语音数据
对应的用户。或者上述两种方案也可以结合使用,先根据得到的多个相似度值,判断是否存
在大于或者等于预设相似度阈值的相似度值,若存在,直接取大于或者等于预设相似度阈
值的相似度值对应的语音数据对应的用户标识,作为目标语音数据对应的用户标识;否则
若不存在,从中获取最大的相似度值,并从语音数据库中获取该最大的相似度值对应的语
音数据对应的用户标识,作为目标语音数据对应的用户标识。

本实施例的说话人识别方法,通过接收目标群体中的待识别用户的目标语音数
据;根据目标语音数据、预先采集的语音数据库和预先训练的说话人识别模型,获取目标语
音数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征;其中说
话人识别模型采用卷积神经网络模型;根据目标语音数据对应的语音输出特征以及语音数
据库中每个语音数据对应的语音输出特征,识别目标语音数据对应的用户。本实施例中,由
于采用基于卷积神经网络模型的说话人识别模型,能够更加准确地获取各语音数据的语音
输出特征,从而更加准确地对目标语音数据对应的用户进行识别,进而能够大大地提高对
说话?#35828;?#35782;别效率。

图4为本发明的说话人识别方法实施例二的流程图。本实施例的说话人识别方法,
在上述图1所示实施例的技术方案的基础上,对图1所示实施例的说话人识别场景进行扩
展,以对目标语音数据的说话人进行验证。如图4所示,本实施例的说话人识别方法,具体可
以包括如下?#34903;瑁?br />

200、采集目标群体内每个用户的语音数据,生成语音数据库;

具体地,语音数据库中的各个用户的语音数据按照该用户标识(如可以为用户的
索引号)和该用户的语音数据的对应关系存储。详细可以参考上述实施例的相关记载,在此
不再赘述。

201、接收携带待识别用户的目标语音数据和可疑用户标识的验证请求;

其中待识别用户为目标群体中的用户,可疑用户标识也为目标群体中的一个用户
的标识。本实施例中的说话人识别方法,具体是用于验证该目标语音数据对应的用户是否
为可疑用户。

202、从语音数据库中获取该可疑用户标识对应的语音数据;

203、分别提取目标语音数据和该可疑用户标识对应的语音数据的MFCC和PLP特
征,作为目标语音数据的语音输入特征和可疑用户标识的语音数据的语音输入特征;

本实施例中以输入特征同时包括MFCC和PLP特征为例,实际应用中,也可以仅包括
其中一个。

204、分别将目标语音数据的语音输入特征和可疑用户标识的语音数据的语音输
入特征,输入至预先训练的说话人识别模型,获取目标语音数据对应的语音输出特征和可
疑用户标识的语音数据对应的语音输出特征;

205、计算目标语音数据对应的语音输出特征和可疑用户标识的语音数据的对应
的语音输出特征的相似度;

206、判断该相似度是否大于或者等于预设相似度阈值;若是,则确定目标语音数
据对应的待识别用户为该可疑用户;否则确定目标语音数据对应的待识别用户不是该可疑
用户。

本实施例的说话人识别方法是对上述图1所示实施例的说话人识别方法的扩展。
与上述图1所示实施例的说话人识别方法的区别在于:上述图1所示实施例的说话人识别方
法是用于对待识别用户是属于目标群体中的哪个用户进行识别;而图2所示实施例是对待
识别用户是否为目标群体的某可疑用户进行验证,其具体识别过程是相似的,详细实现过
程可疑参考上述图1所示实施例的相关记载,在此不再赘述。

本实施例的说话人识别方法,通过采用上述技术方案,由于采用基于卷积神经网
络模型的说话人识别模型,能够更加准确地获取各语音数据的语音输出特征,从而更加准
确地对目标语音数据对应的用户进行识别,进而大大地提高对说话?#35828;?#35782;别效率。

图5为本发明的说话人识别方法实施例三的流程图。本实施例的说话人识别方法,
在上述图1所示实施例的技术方案的基础上,在?#34903;?01“根据目标语音数据、预先采集的语
音数据库和预先训练的说话人识别模型,获取目标语音数据对应的语音输出特征以及语音
数据库中每个语音数据对应的语音输出特征”之前,还可以包括如下?#34903;瑁?br />

300、采集数条已知用户标识的训练语音数据,生成训练语音数据库;

301、根据训练语音数据库中各条训练语音数据,获取各条训练语音数据的MFCC
和/或PLP特征,作为对应的训练语音数据的语音输入特征;

302、根据各条训练语音数据的语音输入特征、以及各训练语音数据的用户标识,
训练说话人识别模型。

本实施例的?#34903;?00-303是用于对说话人识别模型进行训练。本实施例在训练说
话人识别模型时,首先采集数条已知用户标识的训练语音数据,生成训练语音数据库来对
说话人识别模型进行训练。本实施例的训练语音数据库中包括的训练语音数据的条数越
多,训练的说话人识别模型的参数越准确,后续根据该说话人识别模型得出的语音数据的
语音输出特征越准确,从而对说话?#35828;?#35782;别越准确,识别效?#35797;?#39640;。例如本实施例的训练语
音数据库中可以包括20万-30万甚至更多的训练语音数据。

本实施例中根据各训练语音数据,获取训练语音数据的语音输入特征时,与在使
用该说话人识别模型识别说话人时,所获取的目标语音数据的语音输入特征所包括的信息
量相同,两者必须一致。即如果训练时,采用的语音输入特征为MFCC或者PLP特征,识别时采
用的语音输入特征也必须为对应的MFCC或者PLP特征。如果训练时,采用的语音输入特征为
MFCC和PLP特征,识别时采用的语音输入特征也必须为对应的MFCC和PLP特征。最后根据各
条训练语音数据的语音输入特征、以及各训练语音数据的用户标识,训练说话人识别模型。
本实施例的各训练语音数据的用户标识具体采用的是该用户在该训练语音数据库中的一
个类别标识。例如该训练语音数据库中包括10000个训练用户的30万条语音数据,每个训练
用户至少包括一条训练语音数据,各个训练用户的标识可以采用采用1-10000来表示,此时
对应的用户标识可以为该用户在训练语音数据库中属于该用户的类别标识。例如10000个
用户中的的5个用户的标识可以表示为A10000,5。

例如该?#34903;?02“根据各条训练语音数据的语音输入特征、以及各训练语音数据的
用户标识,训练说话人识别模型?#20445;?#20855;体可以包括如下?#34903;瑁?br />

(c1)将训练语音数据库中的各条训练语音数据的语音输入特征依次输入至说话
人识别模型中,得到对应的训练语音数据的语音输出特征;

本实施例中,在训练说话人识别模型的过程中,说话人识别模型中的参数是不断
地变化的,即说话人识别模型是在不断地变化。在每一次训练时,所采用的说话人识别模型
均为上一次训练更新后的说话人识别模型。而本实施例的说话人识别模型被初次使用?#22791;?br />参数采用的是预设的初始值。

(c2)根据训练语音数据的语音输出特征和训练语音数据的用户标识,生成训练语
音数据的损失函数;

具体地,可以先将训练语音数据的语音输出特征进行维度转化,得?#25509;?#35757;练语音
数据库中的用户类别对应的矩阵,然后对该矩阵中的所有元素进行归一化处理,归一化处
理后的矩阵中的每一个元素表?#38236;?#21069;的训练语音数据为该元素所对应的用户类别的预测
概率。例如某个元素在该归一化处理后的矩阵中的位置为A10000,57,其中10000为该训练语音
数据库中的所有用户的数量,A10000,57表示10000个用户中的第57个用户在该矩阵中的位
置,也可以采用A10000,57表示该用户在该训练语音数据库的类别的标识,也可以称为用户标
识。该位置的元素的数值为0.78,表?#38236;?#21069;的训练语音数据属于10000个用户中的第57个用
户的概率为0.78。因此归一化处理后的矩阵也可以称为预测概率矩阵。由于预测的概率矩
阵中每一个元素表示的是当前的训练语音数据属于该位置的用户的预测概?#21097;?#25152;以该预测
概率矩阵中每一个元素的数值均为大于等于0,小于等于1的数值。然后在根据该训练数据
的用户标识,生成该训练数据对应的用户类别的真实概率矩阵,由于真实概率矩阵是根据
该训练语音数据的真实的用户标识生成的,所以该真实概率矩阵中仅在该训练语音数据对
应的用户标识的位置的元素为1,而其余位置的元素为0。例如若?#31243;?#35757;练语音数据的用户
标识正好为A10000,57,那么则该训练语音数据对应的真实概率矩阵中,仅A10000,57的位置处概
率值为1,其余位置处的概率均为0。由于预测的概率矩阵与真实的概率矩阵存在差距,本实
施例中可以根据预测概率矩阵和真实概率矩阵的差生成该训练语音数据的损失函数。损失
函数的值越大,表示预测概率矩阵与真实概率矩阵差距较大,此时需要优化参数,减小损失
函数,直到损失函数无限趋于零,使得说话人识别模型输出的语音输出特征能够更加真实
地反应输入的语音数据。

(c3)计算训练语音数据的损失函数对说话人识别模型中各参数的导数;

(c4)根据说话人识别模型中的各参数以及训练语音数据的损失函数对各参数的
导数,更新说话人识别模型中的各参数,从而确定本次训练后的说话人识别模型;

(c5)重复执行上述?#34903;?c1)-(c4),直至训练语音数据库中的数条训练语音数据
都对说话人识别模型进行训练,确定本轮训练后的说话人识别模型。

具体地,由于说话人识别模型中是包括多个参数,当输入的语音数据为确定时,也
可以将损失函数看作是关于参数的函数,此时可以计算语音数据的损失函数对说话人识别
模型中各参数的导数;对于说话人识别模型中的每一个参数,在更新时,可以将说话人识别
模型中该参数更新为该参数减去损失函数对该参数的导数,每一次训练都对说话人识别模
型进行更新。更新完说话人识别模型之后,然后返回到?#34903;?c1)开始使用下一条训练语音
数据的语音输入特征对说话人识别模型进行训练,直到?#34903;?c4),完?#19978;?#19968;条训练语音数
据的语音输入特征对说话人识别模型的训练,并再次更新说话人识别模型中的各参数,从
而更新说话人识别模型;依次类推,直至数条训练语音数据都对说话人识别模型进行训练,
确定本轮训练后的说话人识别模型。此时得到的说话人识别模型也可以应用于说话人识别
中。

因为损失函数表征的是一个向梯度方向下降的值,损失函数值越大,表示说话人
识别模型的对输入的语音数据的语音输入特征进行处理后输出的结果越不准确,本实施例
中通过不断地调整损失函数,使得损失函数的最终点的梯度为0。损失函数的值越小,表示
说话人识别模型的处理结果越准确。上述实施例的技术方案,在更新说话人识别模型的时
候,具体是在朝着损失函数逐渐?#26723;?#30340;方向更新。因此,通过不断的训练,不断地优化损失
函数,不断地更新说话人识别模型的参数,从而不断的更新说话人识别模型,使得最终得到
的说话人识别模型能够非常准确地对语音数据进行处理,提取出更加准确地语音输出特
征。

进一步可选地,还可以按照上述?#34903;?c1)-(c5)所示的每一轮训练中训练语音数
据库中的数条训练语音数据对说话人识别模型的训练,使用训练语音数据库中的数条训练
语音数据重复对说话人识别模型训练N轮,得到最终的说话人识别模型。

例如当训练语音数据库中包括20万条训练语音数据时,按照顺序依次使用训练语
音数据库中的20万条训练语音数据对说话人识别模型进行训练后,可以认为完成一轮对说
话人识别模型的训练;然后按照每一轮对说话人识别模型的训练,再使用训练语音数据库
中的20万条训练语音数据对说话人识别模型进行N-1轮训练,可以得到最终的说话人识别
模型。本实施例中,经过多轮训练,可以将损失函数的数值趋于零,从而可以进一步提高训
练得到的说话人识别模型提取的语音数据的语音输出特征的准确性,进而进一步提高基于
说话人识别模型进行说话人识别的效率。本实施例中的N可以根据实际经验选取一个正整
数,例如该N可以为5、6或者8、10之类的正整数。

本实施例的说话人识别方法,通过采用上述的基于卷积神经网络模型的说话人识
别模型,能够更加准确地获取各语音数据的语音输出特征,从而更加准确地对目标语音数
据对应的用户进行识别,进而大大地提高对说话?#35828;?#35782;别效率。

图6为本发明的说话人识别装置实施例一的结构图。如图6所示,本实施例的说话
人识别装置,具体可以包括:接收模块10、特征获取模块11和识别模块12。

其中接收模块10用于接收目标群体中的待识别用户的目标语音数据;

特征获取模块11用于根据接收模块10接收的目标语音数据、预先采集的语音数据
库和预先训练的说话人识别模型,获取目标语音数据对应的语音输出特征以及语音数据库
中每个语音数据对应的语音输出特征;本实施例的说话人识别模型采用卷积神经网络模
型;

识别模块12用于根据特征获取模块11获取的目标语音数据对应的语音输出特征
以及特征获取模块11获取的语音数据库中每个语音数据对应的语音输出特征,识别目标语
音数据对应的用户。

本实施例的说话人识别装置,通过采用上述模块实现说话人识别的实现原理以及
技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,
在此不再赘述。

图7为本发明的说话人识别装置实施例二的结构图。如图7所示,本实施例的说话
人识别装置,在上述图6所示实施例的技术方案的基础上,进一步更加详细地介绍本发明的
技术方案。

如图7所示,本实施例的说话人识别装置,还包括:采集模块13和训练模块14。

其中采集模块13用于采集数条已知用户标识的训练语音数据,生成训练语音数据
库;

特征获取模块11还用于根据采集模块13采集的训练语音数据库中各条训练语音
数据,获取各条训练语音数据的梅尔频域倒谱系数和/或感知线性预测特征,作为对应的训
练语音数据的语音输入特征;

训练模块14用于根据特征获取模块11获取的各条训练语音数据的语音输入特征、
以及各训练语音数据的用户标识,训练说话人识别模型。

对应地,特征获取模块11用于根据接收模块10接收的目标语音数据、预先采集的
语音数据库和训练模块14预先训练的说话人识别模型,获取目标语音数据对应的语音输出
特征以及语音数据库中每个语音数据对应的语音输出特征。

进一步可选地,本实施例的说话人识别装置中,训练模块14具体用于:

将特征获取模块11获取的训练语音数据库中的各条训练语音数据的语音输入特
征依次输入至说话人识别模型中,得到对应的训练语音数据的语音输出特征;本实施例的
说话人识别模型被初次使用?#22791;?#21442;数采用预设的初始值;

根据训练语音数据的语音输出特征和训练语音数据的用户标识,生成训练语音数
据的损失函数;

计算训练语音数据的损失函数对说话人识别模型中各参数的导数;

根据说话人识别模型中的各参数以及训练语音数据的损失函数对各参数的导数,
更新说话人识别模型中的各参数,从而确定本次训练后的说话人识别模型;重复执行上述
?#34903;瑁?#30452;至训练语音数据库中的数条训练语音数据都对说话人识别模型进行训练,确定本
轮训练后的说话人识别模型。

进一步可选地,本实施例的说话人识别装置中,训练模块14具体还用于按照上述
每一轮训练中训练语音数据库中的数条训练语音数据对说话人识别模型的训练,使用训练
语音数据库中的数条训练语音数据重复对说话人识别模型训练N轮,得到最终的说话人识
别模型。

进一步可选地,本实施例的说话人识别装置中,识别模块12用于:

分别计算目标语音数据对应的语音输出特征与语音数据库中各语音数据对应的
语音输出特征的相似度;

获取与目标语音数据对应的语音输出特征的相似度大于或者等于预设相似度阈
值的语音数据对应的用户标识,作为目标语音数据对应的用户的标识;或者获取与目标语
音数据对应的语音输出特征的相似度最大的语音数据对应的用户标识,作为目标语音数据
对应的用户的标识。

本实施例的说话人识别装置,通过采用上述模块实现说话人识别的实现原理以及
技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,
在此不再赘述。

图8为本发明的计算机设备实施例的结构图。如图8所示,本实施例的计算机设备,
包括:一个或多个处理器30,以及存储器40,存储器40用于存储一个或多个程序,当存储器
40中存储的一个或多个程序被一个或多个处理器30执行,使得一个或多个处理器30实现如
上图1-图7所示实施例的说话人识别方法。图8所示实施例中以包括多个处理器30为例。

例如,图9为本发明提供的一种计算机设备的示例图。图9示出了适于用?#35789;?#29616;本
发明实施方式的示例性计算机设备12a?#30446;?#22270;。图9显示的计算机设备12a仅仅是一个示例,
不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示,计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可
以包括但不限于:一个或者多个处理器16a,系统存储器28a,连接不同系统组件(包括系统
存储器28a和处理器16a)的总线18a。

总线18a表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,
外围总线,图形加速端口,处理器或者使用多种总线结构中的?#25105;?#24635;线结构的局域总线。举
例来说,这些体?#21040;?#26500;包括但不限于工业标准体?#21040;?#26500;(ISA)总线,微通道体?#21040;?#26500;(MAC)
总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够
被计算机设备12a访问的可用介质,包括?#36164;?#24615;和非?#36164;?#24615;介质,可移动的和不可移动的介
质。

系统存储器28a可以包括?#36164;源?#20648;器形式的计算机系统可读介质,例如随机存
取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/
不可移动的、?#36164;?#24615;/非?#36164;?#24615;计算机系统存储介质。仅作为举例,存储系统34a可以用于读
写不可移动的、非?#36164;源?#20171;质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,
可以提供用于对可移动非?#36164;源?#30424;(例如“软盘”)读写的磁盘驱动器,以及对可移动非易
失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个
驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少
一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执
行本发明上述图1-图7各实施例的功能。

具有一组(至少一个)程序模块42a的程序/实用工具40a,可以存储在例如系统存
储器28a中,这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、
其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实
现。程序模块42a通常执行本发明所描述的上述图1-图7各实施例中的功能和/或方法。

计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器
24a等)通信,还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信,和/或
与使得该计算机设备12a能与一个或多个其它计算设备进?#22411;?#20449;的任何设备(例如网卡,调
制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且,计算机设备
12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或
公共网络,例如因特网)通信。如图所示,网络适配器20a通过总线18a与计算机设备12a的其
它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12a使用其它硬件和/或软件
模块,包括但不限于:微代码、设备驱动器、冗余处理器、外?#30475;?#30424;驱动阵列、RAID系统、磁带
驱动器以及数据备份存储系统?#21462;?br />

处理器16a通过运行存储在系统存储器28a中的程序,从而执行各种功能应用以及
数据处理,例如实现上述实施例所示的说话人识别方法。

本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执
行时实现如上述实施例所示的说话人识别方法。

本实施例的计算机可读介质可以包括上述图9所示实施例中的系统存储器28a中
的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。

随着科技的发展,计算机程序的传播途径不再受限于有形介质,还可以直接从网
络下载,或者采用其他方式获取。因此,本实施例中的计算机可读介质不仅可以包括有形的
介质,还可以包括无形的介质。

本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的?#25105;?#32452;合。
计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介
质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或
者?#25105;?#20197;上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个
或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、
可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光
存储器件、磁存储器件、或者上述的?#25105;?#21512;适的组合。在本文件中,计算机可读存储介质可
以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或
者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,
其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但
不限于——电磁信号、光信号或上述的?#25105;?#21512;适的组合。计算机可读的信号介质还可以是
计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者
传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限
于——无线、电线、光缆、RF等等,或者上述的?#25105;?#21512;适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机
程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,
还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以
完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部
分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在
涉及远程计算机的情形中,远程计算机可以通过?#25105;?#31181;类的网络——包括局域网(LAN)或
广域网(WAN)—连接?#25509;?#25143;计算机,或者,可以连接到外部计算机(例如利用因特网服务提
供商来通过因特网连接)。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以
通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的
划分,仅仅为一种逻辑功能划分,实际实?#36136;?#21487;以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显
示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个
网络单元上。可以根据实际的需要选择其中的部?#21482;?#32773;全部单元?#35789;?#29616;本实施例方案的目
的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以
是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存
储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机
设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个
实施例所述方法的部分?#34903;琛?#32780;前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-
Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种
可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精
神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

关于本文
本文标题:说话人识别方法及装置、计算机设备及计算机可读介质.pdf
链接地址:http://www.pqiex.tw/p-6079835.html
关于我们 - 网站声明 - 网?#38236;?#22270; - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 上海快3专家推荐号 360老时时安全购 淘宝联盟推广赚钱代理怎么弄 三公扑克牌出千技巧 开淘宝店铺能赚钱吗 雪缘园足彩比分直播 博彩源码哪里可以买 西游争霸游戏机打法 万博 捕鱼来了炮台哪个好