平码五不中公式规律
  • / 19
  • 下载费用:30 金币  

音频序列对准的概率评分的导出.pdf

关 键 ?#21097;?/dt>
音频 序列 对准 概率 评分 导出
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201580035264.3

申请日:

2015.06.29

公开号:

CN106663110A

公开日:

2017.05.10

当前法律状态:

实审

有效性:

审中

法?#19978;?#24773;: 著录事项变更IPC(主分类):G06F 17/30变更事项:申请人变更前:谷歌公司变更后:谷歌有限责任公司变更事项:地址变更前:美国加利福尼亚州变更后:美国加利福尼亚州|||实质审查的生效IPC(主分类):G06F 17/30申请日:20150629|||公开
IPC分类号: G06F17/30; G06N7/00 主分类号: G06F17/30
申请人: 谷歌公司
发明人: 佩德罗·戈内·安?#28388;?
地址: 美国加利福尼亚州
优?#28909;ǎ?/td> 2014.06.29 US 62/018,635
专利代理机构: ?#24615;?#20449;达知识产权代理有限责任公司 11219 代理人: ?#24459;?周亚荣
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201580035264.3

授权公告号:

||||||

法律状态公告日:

2018.02.06|||2017.06.06|||2017.05.10

法律状态类型:

著录事项变更|||实质审查的生效|||公开

摘要

一种匹配评分提供来自两个对应音频序列的两个色度的听觉相似性的语义上有意义的量化。匹配评分可应用到两个对应音频序列的色度对,并且独立于所述序列的长度,因此允许跨越不同长度的序列进行匹配的比较。因此,用于识别“良好”音频序列匹配的单个截止评分可被确定,并具有良好精确率和良好查全率度量两者。一种用于确定匹配评分的函数通过如下方式来确定:建立指示色度对应评分指示语义对应的概率的函数PM以及指示色度对应评分指示随机对应的概率的函数PR,基于应用到具有已知语义对应的音频序列的PM和匹配函数的现有值而重复地更新PM和匹配函数。

权利要求书

1.一种用于匹配音频序列的计算机实施的方法,所述方法包括:
导出第一概率密度函数PM,所述第一概率密度函数PM输出音频序列的一对色度向量的
初始对应评分指示所述色度向量之间的语义对应的概率;
导出第二概率密度函数PR,所述第二概率密度函数PR输出音频序列的一对色度向量的
所述初始对应评分指示所述色度向量具有随机对应的概率;
使用PM和PR导出匹配函数,所述匹配函数指示音频序列的给定的一对色度向量是否在
语义上对应;
获得第一音频序列;
使用所述匹配函数来比较所述第一音频序列与多个已知音频序列;以及
基于所述比较而从所述已知音频序列识别所述第一音频序列的最佳匹配音频序列。
2.根据权利要求1所述的计算机实施的方法,其中,所述匹配函数针对所述给定的一对
色度向量的初始对应评分,输出相比所述给定的一对色度向量具有随机对应,所述给定的
一对色度向量更可能在语义上对应的程度的指示。
3.根据权利要求1所述的计算机实施的方法,其中,PR是概率密度函数,并且导出PR包
括:
随机地选择音频序列对的集合;
导出所述音频序列对的集合的初始对应评分;以及
将所述初始对应评分拟合到概率分布。
4.根据权利要求1所述的计算机实施的方法,其中,导出所述匹配函数包括:
从已确定为具有语义对应的音频序列识别音频序列对的集合SM;
从SM识别多对色度向量,从来自SM的一对音频序列中的第一音频序列识别所述多对色
度向量中的第一色度向量以及从来自SM的所述一对音频序列中的第二音频序列识别所述
多对色度向量中的第二色度向量;以及
通过以下方式来迭代地改进所述匹配函数:
基于所述函数PM和PR来更新所述匹配函数;
使用所述匹配函数来对所识别的多对色度向量评分;
基于所述评分识别色度向量的子序列的最佳匹配对;以及
通过针对所述子序列的最佳匹配对中的色度向量对,将初始对应评分映射到概率分布
函数而更新所述函数PM。
5.根据权利要求3所述的计算机实施的方法,其中,识别所述最佳匹配对包括使用动态
编程以在SM的音频序列中识别连续色度向量的子序列对,所述子序列对内的色度向量对具
有所述匹配函数的最高评分总和。
6.根据权利要求1所述的计算机实施的方法,其中,针对一对色度向量的、来自所述匹
配函数的输出0指示相比所述色度向量仅具有随机选择的色度所特有的对应度的情况,所
述色度向量不会更具有语义对应。
7.根据权利要求1所述的计算机实施的方法,还包括将所述匹配函数导出为PM与PR的比
的对数。
8.根据权利要求1所述的计算机实施的方法,其中,所述第一音频序列是从用户接收的
言语输入,并且所述最佳匹配音频序列是歌曲。
9.一种用于匹配音频序列的非暂时性计算机可读存储介?#21097;?#25152;述计算机可?#20004;?#36136;存储
处理器可执行指令,所述处理器可执行指令包括:
用于导出第一概率密度函数PM的指令,所述第一概率密度函数PM输出音频序列的一对
色度向量的初始对应评分指示所述色度向量之间的语义对应的概率;
用于导出第二概率密度函数PR的指令,所述第二概率密度函数PR输出音频序列的一对
色度向量的所述初始对应评分指示所述色度向量具有随机对应的概率;
用于使用PM和PR导出匹配函数的指令,所述匹配函数指示音频序列的给定的一对色度
向量是否在语义上对应;
用于获得第一音频序列的指令;
用于使用所述匹配函数来比较所述第一音频序列与多个已知音频序列的指令;以及
用于基于所述比较而从所述已知音频序列识别所述第一音频序列的最佳匹配音频序
列的指令。
10.根据权利要求9所述的非暂时性计算机可读存储介?#21097;?#20854;中,所述匹配函数针对所
述给定的一对色度向量的初始对应评分,输出相比所述给定的一对色度向量具有随机对
应,所述给定的一对色度向量更可能在语义上对应的程度的指示。
11.根据权利要求9所述的非暂时性计算机可读存储介?#21097;?#20854;中,PR是概率密度函数,并
且导出PR包括:
随机地选择音频序列对的集合;
导出所述音频序列对的集合的初始对应评分;以及
将所述初始对应评分拟合到概率分布。
12.根据权利要求9所述的非暂时性计算机可读存储介?#21097;?#20854;中,导出所述匹配函数包
括:
从已确定为具有语义对应的音频序列识别音频序列对的集合SM;
从SM识别多对色度向量,从来自SM的一对音频序列中的第一音频序列识别所述多对色
度向量中的第一色度向量以及从来自SM的所述一对音频序列中的第二音频序列识别所述
多对色度向量中的第二色度向量;以及
通过以下方式来迭代地改进所述匹配函数:
基于所述函数PM和PR来更新所述匹配函数;
使用所述匹配函数来对所识别的多对色度向量评分;
基于所述评分识别色度向量的子序列的最佳匹配对;以及
通过针对所述子序列的最佳匹配对中的色度向量对,将初始对应评分映射到概率分布
函数而更新所述函数PM。
13.根据权利要求12所述的非暂时性计算机可读存储介?#21097;?#20854;中,识别所述最佳匹配对
包括使用动态编程以在SM的音频序列中识别连续色度向量的子序列对,所述子序列对内的
色度向量对具有所述匹配函数的最高评分总和。
14.根据权利要求9所述的非暂时性计算机可读存储介?#21097;?#20854;中,针对一对色度向量的、
来自所述匹配函数的输出0指示相比所述色度向量仅具有随机选择的色度所特有的对应度
的情况,所述色度向量不会更具有语义对应。
15.根据权利要求9所述的非暂时性计算机可读存储介?#21097;?#25152;述指令还包括用于将所述
匹配函数导出为PM与PR的比的对数的指令。
16.根据权利要求9所述的非暂时性计算机可读存储介?#21097;?#20854;中,所述第一音频序列是
从用户接收的言语输入,并且所述最佳匹配音频序列是歌曲。
17.一种用于匹配音频序列的计算机系统,所述系统包括:
计算机处理器;以及
非暂时性计算机可读存储介?#21097;?#23384;储在由所述计算机处理器执行时执行动作的指令,
所述动作包括:
导出第一概率密度函数PM,所述第一概率密度函数PM输出音频序列的一对色度向量的
初始对应评分指示所述色度向量之间的语义对应的概率;
导出第二概率密度函数PR,所述第二概率密度函数PR输出音频序列的一对色度向量的
所述初始对应评分指示所述色度向量具有随机对应的概率;
使用PM和PR而导出匹配函数,所述匹配函数指示音频序列的给定的一对色度向量是否
在语义上对应;
获得第一音频序列;
使用所述匹配函数来比较所述第一音频序列与多个已知音频序列;以及
基于所述比较而从所述已知音频序列识别所述第一音频序列的最佳匹配音频序列。
18.根据权利要求17所述的计算机系统,其中,所述匹配函数针对所述给定的一对色度
向量的初始对应评分,输出相比所述给定的一对色度向量具有随机对应,所述给定的一对
色度向量更可能在语义上对应的程度的指示。
19.根据权利要求17所述的计算机系统,其中,PR是概率密度函数,并且导出PR包括:
随机地选择音频序列对的集合;
导出所述音频序列对的集合的初始对应评分;以及
将所述初始对应评分拟合到概率分布。
20.根据权利要求17所述的计算机系统,其中,导出所述匹配函数包括:
从已确定为具有语义对应的音频序列识别音频序列对的集合SM;
从SM识别多对色度向量,从来自SM的一对音频序列中的第一音频序列识别所述多对色
度向量中的第一色度向量以及从来自SM的所述一对音频序列中的第二音频序列识别所述
多对色度向量中的第二色度向量;以及
通过以下方式来迭代地改进所述匹配函数:
基于所述函数PM和PR来更新所述匹配函数;
使用所述匹配函数来对所识别的多对色度向量评分;
基于所述评分而识别色度向量的子序列的最佳匹配对;以及
通过针对所述子序列的最佳匹配对中的色度向量对,将初始对应评分映射到概率分布
函数而更新所述函数PM。

说明书

音频序列对准的概率评分的导出

技术领域

本发明总的来说涉及数字音频的领域,并且更具体来说,涉及导出可用于有意义
地比较数字音频的部分的评分的方式。

背景技术

能够有意义地比较音?#21482;?#20854;它数字音频的两个序列以例如发?#25351;?#38899;乐内的匹配
子序列是有价值的。为此,量化构成序列和子序列的个别单元(“色度(chromae)”)的对应度
并将子序列的对应度作为整体量化是有用的。

音频单元和子序列的对应度的常规量度通常缺少固有的含义。例如,对于一些量
度来说,评分3可指示强匹配,但对于其它量度来说,评分3可指示弱匹配,评分72指示强匹
配。类?#39057;兀?#24120;规量度不固有地传达评分11比评分10强多少,或评分9比评分10弱多少,或具
有评分5的两个匹配是否表示与具有评分10的单个匹配一样好的匹配。因此,这些常规量度
需要额外经验知识以能够适当地解译或应用所得评分。

发明内容

在一个实施例中,一种用于匹配音频序列的计算机实施的方法包括:导出第一概
率密度函数PM,该第一概率密度函数PM输出音频序列的一对色度向量的初始对应评分指示
色度向量之间的语义对应的概率;导出第二概率密度函数PR,该第二概率密度函数PR输出音
频序列的一对色度向量的初始对应评分指示色度向量具有随机对应的概率;使用PM和PR而
导出指示音频序列的给定的一对色度向量是否在语义上对应的匹配函数;获得第一音频序
列;使用匹配函数来比较第一音频序列与多个已知音频序列;以及基于比较而从已知音频
序列识别第一音频序列的最佳匹配音频序列。

在一个实施例中,一种非暂时性计算机可读存储介质存储处理器可执行指令,所
述处理器可执行指令包括:用于导出第一概率密度函数PM的指令,该第一概率密度函数PM输
出音频序列的一对色度向量的初始对应评分指示色度向量之间的语义对应的概率;用于导
出第二概率密度函数PR的指令,该第二概率密度函数PR输出音频序列的一对色度向量的初
始对应评分指示色度向量具有随机对应的概率;用于使用PM和PR而导出指示音频序列的给
定的一对色度向量是否在语义上对应的匹配函数的指令;用于获得第一音频序列的指令;
用于使用匹配函数来比较第一音频序列与多个已知音频序列的指令;以及用于基于比较而
从已知音频序列识别第一音频序列的最佳匹配音频序列的指令。

在一个实施例中,一种用于匹配音频序列的计算机系统包括:计算机处理器;以及
存储指令的非暂时性计算机可读存储介质。所述指令在由计算机处理器执行时,执行包括
以下各者的动作:导出第一概率密度函数PM,该第一概率密度函数PM输出音频序列的一对色
度向量的初始对应评分指示色度向量之间的语义对应的概率;导出第二概率密度函数PR,
该第二概率密度函数PR输出音频序列的一对色度向量的初始对应评分指示色度向量具有
随机对应的概率;使用PM和PR而导出指示音频序列的给定的一对色度向量是否在语义上对
应的匹配函数;获得第一音频序列;使用匹配函数来比较第一音频序列与多个已知音频序
列;以及基于比较而从已知音频序列识别第一音频序列的最佳匹配音频序列。

附图说明

图1图示根据一个实施例的发生音频分析的计算环境。

图2A图示根据一个实施例的两个不同音频序列的一个实例。

图2B图示根据一个实施例的实例子序列匹配。

图3是图示根据一个实施例的图1的音频分析模块的详细视图的高阶框图。

图4图示根据一个实施例由图3的对评分模块针对图2A和图2B的两个实例序列而
产生的评分的实例集合。

图5A图示根据一个实施例的概率密度函数PM和PR的样本β分布。

图5B图示根据一个实施例的对应于图5A的样本PM和PR的样本match()函数。

图6是图示根据一个实施例的在计算PM和PR(以及取决于PM和PR的match()函数)时
的音频分析模块105的操作的数据流程图。

图7是图示根据一个实施例的用作图1的音频服务器或客户端的一部分或全部的
计算机700的物理组件的高阶框图。

图8是根据一个实施例的响应于用户提供声音输入而寻找的歌曲音频序列的匹配
集合的实例用户界面。

附图仅出于图示的目的而描绘本发明的实施例。本领域的技术人员将容?#29366;?#19979;文
描述认识到,可在不偏离本文所述的本发明的原理的情况?#29575;?#29992;本文所说明的结构和方法
的替代实施例。

具体实施方式

图1图示根据一个实施例的其中发生音频分析的计算环境。音频服务器100包含:
音频存储库101,其中音频存储库101存储不同数字音频序列(例如,歌曲)的集合;以及音频
分析模块105,其中音频分析模块105包含分析并比较音频序列的功能性。用户使用客户端
装置110与音频互动,例如,从音频存储库101获得并播放序列,提交对音频序列的查询,将
音频序列提交到音频数据库等?#21462;?br />

音频服务器100和客户端110经由网络140而连接。网络140可?#20801;?#36866;用于数据传输
的任何适当通信网络。网络140使用标准通信技术和/或协议,并且可包含因特网。在另一实
施例中,网络140包含定制和/或专用的数据通信技术。

音频存储库101中的音频序列可表示任何类型的音频,例如,音?#21482;?#35821;音,并且包
括元数据(例如,标题、标签和/或描述)和音频内容。在一个实施例中,音频内容由离散的按
时间排序的单元(下文称为“色度”)构成。每一色度对应于音频序列内的特定时间间隔(例
如,特定50毫秒间隔),并具有测量频率的集合中的每一测量频率的值。例如,在一个实施例
中,每一色度具有8音度(octave)中的12个半音(semitone)中的每一个的浮点值,其中该浮
点?#24403;?#31034;对应时间间隔期间的此特定半音的频率的强度。不同测量频率的值的集合(例如,
针对测量12个频率的实施例,集合<0.25、1.1、2.5、1.0、0.6、0.79、1.9、2.3、1.11、4.6、1.5、
2.0>)被称为色度的“色度向量(chroma vector)”。在替代实施例中,音频内容作为连续信
号而存储,并且在由音频分析模块105分析之前动态转换为离散色度。

音频分析模块105分析音频存储库101中的音频序列,以确定音频序列对的“语义
对应(semantic correspondence)?#20445;?#21363;,音频序列对对于人类收听者来说听起来相同。例如
图2A和图2B在视觉上图示的,音频分析模块105所执行的一种类型的分析是在一对音频序
列内寻找对应子序列。图2A图示两个不同音频序列(SequenceA 201和SequenceB202)的一个
实例。为了实例的简单起见,图2A和图2B中的每一序列由8个色度组成(对于SequenceA 201
来说,A0到A7,并且对于SequenceB202来说,B0到B7)。然而,应?#31169;猓?#20004;个序列可具有任何数量
的色度(例如,3,600个,假设是3分钟长的音频序列,并且每一色度对应于50毫秒间隔),并
且不需要具有与另一个相同的数量的色度。图2B图示实例子序列匹配,其中已发现色度A1
到A3在语义上对应于色度B3到B5,这意味作为整体,色度向量对<A1,B3>、<A2,B4>和<A3,B5>具
有极类似值,并且因此将对于人类收听者来说听起来一样。

在两个声音序列内寻找对应子序列的能力实现许多应用。一种应用是确定一首歌
曲是否与另一首相同(例如,由于歌曲的大的子序列对应)。另一应用是响应于用户唱出或
以其它方式通过音频输入描述歌曲的一部分,通过试图在已知歌曲内寻?#20197;?#35821;义上对应于
用户所提供的音频输入的子序列而寻找该歌曲。

为了确定个别色度——或多个色度的子序列——在语义上是否相互对应,需要语
义对应度的某一量度。作为实例,量化两个色度c1与c2之间的语义对应度的相似函数可被定
义为sim(c1,c2)=c1·c2/|c1||c2|。作为3元素色度向量c1=<1,0,1>和c2=<1,1,0>(其中向
量值是0或1以简化实例)的简化实例,相似评分是sim(c1,c2)=<1,0,1>·<1,1,0>/|<1,0,1
>||<1,1,0>|=(1*1+0*1+1*0)/[(12+02+12)*(12+12+02)]=1/[2*2]=1/4。

然而,可难?#36234;?#35793;特定相似函数所产生的对应评分的含义。在上文的实例中,评分
1/4不固有地传达该评分是否是“良好”评分,即,与原本通常在随机选择的色度对内发生的
色度向量相似所导致的评分相比,该评分是否表示色度之间的有意义的语义对应度(?#20801;?br />得色度将可能对于人类收听者来说听起来一样)。额外经验知识对于知晓例如0.6是在具有
真正有意义的语义对应的色度向量与仅具有偶然对应度的色度向量之间最有效地进行区
别的适当截止评分?#21040;?#26159;必要的。额外经验知识对于确定具有评分0.6的10个连续色度匹
配是否表示比具有评分0.5的12个连续色度匹配强也将是必要的。在甚至单个色度对的对
应评分也不能传达对应是否确实强的、例如上文所述的实例中,确定由许多色度构成的整
个子序列的有意义的对应评分更困?#36873;?br />

图3是图示根据一个实施例的图1的音频分析模块105的详细视图的高阶框图。使
用关于子序列之间的确实的语义对应的已知信息并通过比较这些语义对应与随机选择的
子序列中所固有的较弱对应,音频分析模块105导出适用于色度对的对应函数(下文称为
match()函数)。在直观上,所导出的对应函数match(),针对使用某初始对应函数(例如,上
文所述的实例函数sim(c1,c2))而获得的第一色度对应评分,而表示相比色度c1和c2仅在其
色度向量中具有偶然相似,该评分更可能指示色度c1和c2在语义上对应的程度。因此,所导
出的对应函数match()所产生的语义对应评分传达固有含义,而不求助于关于评分的含义
的额外经验知识。

音频分析模块105包括表示音频分析模块导出的函数305的集合的数据。所述函数
包含概率密度函数PM,其中概率密度函数PM将色度对的给定初始对应函数(例如,sim(c1,
c2))的输出映射到其指示两个色度的有意义的对应的概率。所述函数还包含概率密度函数
PR,其中概率密度函数PR将给定初始对应函数的输出映射到其指示随机地选择的/具有随机
对应而不是具有确实的语义对应的一对色度的概率。所述函数还包含所导出的对应函数
match(),其中所导出的对应函数match()继而是PM的PR的函数。在一个实施例中,match()
函数被定义为match(c1,c2)=log(PM/PR)。

音频分析模块105包括输入集合形成模块310,其中输入集合形成模块310建立充
当对函数导出模块340的输入的音频序列的集合,其中函数导出模块340导出函数305。具体
来说,输入集合形成模块310识别含有已被确定为具有语义对应的音频序列的第一集合SM。
如果一对音频序列中的两个序列已被确定为具有类似音频性质(在直观上,听起来一样),
那么所述一对音频序列被称为具有语义对应。在一个实施例中,音频序列具有类似音频性
质的确定是手动地进行,例如,通过人类专家收听不同音频序列(例如,歌曲)并确定它们听
起来一样。

输入集合形成模块310还形成含有输入集合形成模块从音频存储库101随机地选
择的音频序列的集合SR。因此,不同于集合SM内的序列,集合SR内的序列尚未被确定为在语
义上对应,并且可能不在语义上对应。

音频分析模块105还包括对评分模块320,其中对评分模块320针对任何两个音频
序列而产生第一序列与第二序列之间的各种可能色度对的评分。评分由所导出的对应函数
match()的当前状态产生,其中所导出的对应函数match()继而是PM的PR的函数。例如,图4
图示对评分模块320针对图2A和图2B的两个实例序列(即,SequenceA 201和SequenceB 202)
而产生的评分的实例集合,其中图2A和图2B的两个实例序列都具有8色度。因此,对评分模
块320产生可如图4的栅格所图示而可视化的8*8=64个评分的集合,其?#24615;?#32032;Hi,j表示
match(ci,cj)所输出的评分,ci是SequenceA 401中的第i色度向量,并且cj是SequenceB 402
中的第j色度向量。

音频分析模块105还包括子序列识别模块330,其中子序列识别模块330将对评分
模块320针对一对色度而产生的对评分的集合作为输入。基于对评分,子序列识别模块330
基于子序列的构成色度的语义对应度而识别最强地具有语义对应的子序列。例如,给定图4
所图示的对评分的样本集合,子序列识别模块330可基于对应match()评分H1,3、H2,4和H3,5
的总和相对高于其它子序列的match()评分的总和而将子序列A1到A3和B3到B5识别为具有
语义对应。

在一个实施例中,子序列识别模块330使用具有?#24459;?#31354;?#29615;?#20998;(affine gap
penalty)的动态编程算法以在全部序列中识别具有最大match()评分总和的连续色度的
集合。

音频分析模块105还包括函数导出模块340,其中函数导出模块340从输入集合形
成模块310所产生的输入集合导出函数PM、PR和match()。函数导出模块340基于集合SR的值
而在单个迭代中导出函数PR。即,初始对应函数(例如,sim())的评分是针对来自SR的不同
对的随机选择的音频序列而计算。所述评分接着拟合到概率分布(例如,例如β概率分布),
其中该概率分布接着用作函数PR。

函数导出模块340在多个迭代上导出函数PM和match()。在第一迭代中,PM被设定
为?#33268;?#21021;始近似,其中?#33268;?#21021;始近似随后在稍后迭代?#26800;?#21040;改进。例如,在一个实施例中,
PM被初始化为PM(x)=2–2x,其中x是初始色度对应函数(例如,如上所述,sim(c1,c2))所输
出的值,但应?#31169;猓?#21487;同样使用许多其它初始函数。所导出的对应函数(match())的输出可
接着依据PM的当前值和PR而得以计算。

在每一迭代中,函数导出模块340使用PR的值与PM的当前值以及match(),?#36234;?#19968;
步改进PM和match()函数。例如,函数导出模块340通过使用对评分模块320而导出PM的新
值,以产生输入集合SM中的已知的语义上对应的子序列对的对评分。函数导出模块340还使
用子序列识别模块330?#20801;?#21035;具有最大match()评分总和的色度的子序列。函数导出模块
340将来自初始对应函数的评分(例如,如上所述,sim()函数)拟合到概率分布,其中所述
概率分布充当PM的新值。

在一个实施例中,概率分布是β分布,如图5A所图示,但其它分布也是可能的。具体
来说,图5A图示特定相似函数(即,如上文所定义的sim(c1,c2)=c1·c2/|c1||c2|)的样本PM
和PR函数,如β分布概率密度函数所建模。实线所表示的PM函数针对约0.93的sim()评分而
达到峰值,从而指示具有语义对应的一对色度将最可能产生0.93的sim()评分。PM针对低于
0.7(举例来说)的sim()评分而产生的相对低的值指示具有语义对应的一对色度将产生低
于0.7的sim()评分是根本不可能的。类?#39057;兀琍R函数针对约0.79的sim()评分而达到峰值,
从而意味典型的随机选择的一对色度将产生约0.79的sim()评分。

在一个实施例中,所导出的对应函数match()被定义为match(c1,c2)=log(PM/
PR)。图5B图示对应于图5A的样本PM和PR概率密度函数的样本match()函数的曲线图。

由于对数的性?#21097;琹og(PM/PR)=log PM-log PR。因此,0的match()评分指示log PM
(sim(c1,c2))=log PR(sim(c1,c2)),即PM(sim(c1,c2))=PR(sim(c1,c2)),从而意味着与色
度c1和c2仅具有随机选择的色度特有的对应度的情况相比,色度c1和c2不会更具有语义对
应。图5B的样本match()函数针对约0.83(PM和PR曲线图在图5A中交叉之处的值)的输入具
有值0。

此外,由于logΠPi=Σlog Pi(即,一起发生的?#24405;i的概率的对数等于个别发生
的?#24405;?#30340;概率的对数的总和)的对数性?#21097;?#26469;自色度对的连续范围的所导出的对应函数
match()的评分的总和等于该范围上的匹配的组合概率的对数。因此,该范围的评分X(即,
在该范围的所有对<ci,cj>上评估的评分Σlog(PM(sim(ci,cj))/PR(sim(ci,cj)))在一对语
义上对应的序列中发生的可能性是在随机选择的一对序列中的eX倍。因为match()评分甚
至不取决于匹配范围中的色度对的数量,所以不同长度的子序列的无偏比较是可能的。例
如,与具有弱匹配的长子序列一样同样不可能偶然发生的具有强匹配的短子序列将被?#27010;?br />相同累加match()评分。

因此,因为色度对的连续范围的匹配评分不取决于长度,并且因为因此不同长度
的子序列的匹配可被有意义地比较,所以单个范围的匹配评分可被确定且应用到任何长度
的范围,从而构成截止评分,其?#34892;?#20110;截止评分的评分被视为指示非匹配,并且大于或等于
截止评分的评分被视为指示匹配。在无法有意义地比较不同长度的子序列的匹配评分的其
它系?#25345;校?#38590;以选择产生良好精确率与良好查全率(recall)两者的截止评分。例如,对于实
际上长度10的子序列的色度对的平均匹配评分5约等于长度20的子序列上的平均匹配评分
3的系统来说,平均评分5的截止或平均评分3的截止都不会良好适用于长度10的子序列与
长度20的子序列两者。例如,选择产生良好精确率(即,减少假阳性)的高截止评分(例如,在
上述实例中,5)倾向于过度保守,并且导致低劣查全率(即,不能识别许多良好匹配);相反
选择产生良好查全率(即,识别多数良好匹配)的低截止评分(即,在上述实例中,3)倾向于
过度激进并且产生低劣精确率(即,将许多低劣匹配识别为良好匹配)。相比于这些其它系
统,因为上文所述的match()评分值跨越不同长度的子序列保持一致,所以总的来说良好
适用于子序列的单个截止可被选择,而不论子序列长度,并且因此可产生良好精确率而不
牺牲查全率,反之亦然。因此,截止match()评分可被选择——手动地且根据经验,或基于
具有已知良好和低劣匹配的子序列的训练集合而以编程方式——?#20801;?#21035;任意长度的子序
列的“良好”匹配,并且截止评分将关于精确率与查全率两者而产生有利的结果。

应注意,函数match()所产生的评分在以下意义上独立于所使用的特定初始对应
函数(例如,上文的sim()):评分具有上文所论述的性?#21097;?#32780;不论所使用的初始对应函数如
何。例如,不论所使用的初始对应函数如何,一对色度的match()评分0指示相比该对色度
被随机选择的情况,该对不会更具有语义对应。

音频分析模块105视情况包含近似产生模块350,其中近似产生模块350产生近似
函数match()并可较有效地计算的函数。例如,在一个实施例中,近似产生模块350计算形
式为(anxn+an-1xn-1+…+a1x+a0)/(bmxm+bm-1xm-1+…+b1x+b0)的有理内插函数,其中系数ai和bj
是定义有理内插函数的所计算的参数。假设分子和分母由多项式函数定义,那么分子和分
母可被有效地计算。

音频分析模块105视情况包含音频对应识别模块360,其中音频对应识别模块360
识别音频序列之间的语义对应。具体来说,给定第一音频序列和第二音频序列,对应识别模
块360通过使用对评分模块320?#20801;?#29992;函数导出模块340所确定的最终match()函数而产生
两个音频序列的色度对之间的match()评分,来识别两个音频序列之间的最佳匹配子序
列。给定match()函数所使用的评分,对应识别模块360进一步使用子序列识别模块330以
识别最佳子匹配。对应识别模块360可接着基于所识别的子序列,例如,所识别的子序列的
数量、所识别的子序列的累加match()评分(即,子序列中的色度对的match()评分的总和)
或其某一组合,而确定两个音频序列作为整体是否具有语义对应。

整体识别音频序列的语义对应的能力允许进行各种音频匹配操作。作为来自一个
实施例的一个实例,用户吹口哨或哼唱一首曲子,或以其它方式提供言语音频输入,并且音
频对应识别模块360比较该曲子的音频序列与音频存储库101中的已知音频序列,从而将音
频序列的最佳匹配作为整体向用户呈现,如上文所解释。例如,图8是根据一个实施例的图
示响应于用户对用户的装置麦克风输入哼唱而发现的歌曲音频序列801到804的匹配集合
并允许用户收听这些音频序列的实例用户界面。在变化中,用户例如通过上传含有音乐的
片段的文件以与已知歌曲匹配而提供非言语音频输入。作为来自一个实施例的另一实例,
系统使用音频对应识别模块360以比较给定音频序列与已知的版权所有的音频序列?#20801;?#21035;
可能的版权?#22336;浮?#20363;如,音频服务器100自身可针对已存在于音频存储库101中的版权所有
的音频序列而检查提交给音频存储库101的新音频序列,从而如果发现具有相对于版权所
有的音频序列的语义对应,那么标记新音频序列。作为来自一个实施例的又一实例,系统使
用音频对应识别模块360以比较用户语音与已知语?#38405;?#22411;以便执行语音识别。

图6是图示根据一个实施例的在计算PM和PR(以及取决于PM和PR的match()函数)时
的音频分析模块105的操作的数据流程图。

在步骤610中,音频分析模块105例如如上文关于输入集合形成模块310所论述而
建立输入集合SM和SR。音频分析模块105还基于集合SR来计算620函数PR,并且将函数PM初始
化为函数2–2x,如上文所论述。

为了计算较佳函数PM,音频分析模块105基于所导出的对应函数match()(其继而
基于PM和PR)的当前迭代的值而迭代地重新计算PM。这涉及识别630SM中match()函数指示具
有最强语义对应的音频序列的子序列对。这可如上文关于子序列识别模块330所论述来实
现。接着,例如如上文关于函数导出模块340所论述通过将所识别的子序列中的色度的初始
对应函数(例如,sim())所产生的评分拟合到概率密度函数(例如,β分布函数)而更新PM函
数。迭代继续直到PM函数稳定(即,如步骤650所评估的,先前迭代以来的PM函数的改变小于
给定阈值)为止。所计算的PM和PR函数存储在分?#21363;?#20648;库305中。

视情况,也可计算660相对于函数match()=log(PM/PR)的更具计算效率的近似,
如上文关于近似产生模块350所描述。

在一个实施例中,集合SM和SR是针对音频存储库101的音频序列的不同数量的子集
中的每一个而形成。例如,输入集合形成模块310可基于音频序列的已知音?#22336;?#26684;(例如,爵
士音乐、?#29575;?#32426;音乐、凯尔特音乐、饶舌音乐、R&B音?#20540;?而识别歌曲音频序列的不同子集,
从而形成每一个的集合SM和SR,并?#19968;?#25191;行步骤610到660以产生适用于每一个的函数PM和
PR(以及match())。适当子集的数据接着用于额外分析。例如,当试图识别语义上对应于给
定歌曲的歌曲音频序列时,给定歌曲的风格用于识别对应子集,并且适用于该子集的函数
PM和PR(以及match())用于识别匹配的子序列。具有风格特定数据(例如,SM、SR、PM、PR和
match())允许例如更准确地确定已知处于给定风格内的项目之间的语义对应。

图7是图示根据一个实施例的用作图1的音频服务器100或客户端110的一部分或
全部的计算机700的物理组件的高阶框图。图示耦接到芯片组704的至少一个处理器702。存
储器706、存储装置708、键盘710、图形适配器712、指向装置714和网络适配器716也耦接到
芯片组704。?#20801;?#22120;718耦接到图形适配器712。在一个实施例中,芯片组704的功能性由存储
器控制器集线器720和/或I/O控制器集线器722提供。在另一实施例中,存储器706直接耦接
到处理器702而不是芯片组704。

存储装置708是任何非暂时性计算机可读存储介?#21097;?#20363;如,硬盘、压缩光盘只读存
储器(CD-ROM)、DVD或固态存储器装置。存储器706保持处理器702所使用的指令和数据。指
向装置714可?#20801;?#40736;标、轨迹球或其它类型的指向装置,并且结合键盘710而使用?#36234;?#25968;据
输入到计算机700中。图形适配器712在?#20801;?#22120;718上?#20801;?#22270;像和其它信息。网络适配器716
将计算机700耦接到局域网或广域网。

如此项技术中已知,计算机700可具有除图7所示的组件以外的不同的和/或其它
的组件。此外,计算机700可缺少某些所图示的组件。在一个实施例中,充当服务器的计算机
700可缺少键盘710、指向装置714、图形适配器712和/或?#20801;?#22120;718。此外,存储装置708可处
于计算机700?#38236;?#21644;/或?#29420;?#35745;算机700(例如,体现在存储区域网络(SAN)内)。

如此项技术中已知,计算机700适用于执行用于提供本文所述的功能性的计算机
程序模块。如本文所使用,术语“模块”是指用于提供指定功能性的计算机程序逻辑。因此,
模块可实施在?#24067;?#22266;件和/或软件中。在一个实施例中,程序模块存储在存储装置708上,
加载到存储器706中并由处理器702执行。

其它事项

已关于一个可能实施例特别详细地描述本发明。本领域的技术人员应?#31169;猓?#26412;发
明可?#23548;?#22312;其它实施例中。首先,组件和变量的特定命名、术语的大写、属性、数据结构或任
何其它编程或结构方面不是强制性的或重要的,并且实施本发明或其特征的机制可具有不
同名称、格式或协议。并且,本文所述的各种系统组件之间的功能性的特定划分仅是出于实
例的目的,并且不是强制性的;单个系统组件所执行的功能可改为由多个组件执行,并且多
个组件所执行的功能可改为由单个组件执行。

上文描述的一些部分在关于信息的操作的算法和符号表示方面呈现本发明的特
征。这些算法描述和表示是数据处理领域的技术人员所使用以最大有效地将其工作的实质
传达给本领域的技术人员的方式。这些操作虽然是在功能或逻辑上描述,但被理解为由计
算机程序实施。此外,已被证实时常方便的是,将操作的这些布置称为模块或功能名称,而
不损失通用性。

除非另外具体?#29575;?#20026;从上文的论述清楚,否则应?#31169;猓?#22312;本说明书全文中,利用例
如“确定?#34987;頡跋允盡?#31561;术语进行的论述表示计算机系统或类?#39057;?#23376;计算装置的动作或过程,
该计算机系统或类?#39057;?#23376;计算装置在计算机系统存储器或寄存器或其它此种信息存储、传
输或?#20801;?#35013;置内的操作和变换被表示为物理(电子)量的数据。

本发明的某些方面包含本文所述的呈算法的形式的过程步骤和指令。应注意,本
发明的过程步骤和指令可体现在软件、固件或?#24067;?#20013;,并且当体现在软件中时,可被下载以
常驻在实时网络操作系统所使用的不同平台上并从所述不同平台操作。

本发明还涉及用于执行本文中的操作的设备。此设备可针对所需用途来专门构
造,或可包括可由计算机存取的计算机可?#20004;?#36136;上所存储的计算机程序选择性激活或重新
配置的通用计算机。此计算机程序可存储在非暂时性计算机可读存储介质中,例如,但不限
于任何类型的盘片(包含软盘、光盘、CD-ROM和磁光盘)、只读存储器(ROM)、随机存取存储器
(RAM)、EPROM、EEPROM、磁卡或光卡、专用集成电路(ASIC)或适用于存储电子指令并各自耦
接到计算机系统总线的任何类型的计算机可读存储介质。此外,本说明书中所引用的计算
机可包含单个处理器或可?#20801;?#20351;用多个处理器设计以提高计算能力的架构。

本文所呈现的算法和操作不是固有地与任何特定计算机或其它设备相关。各种通
用系统也可根据本文中的教示与程序一起使用,或可被证实方便的是,构造较专业化的设
备以执行所需的方法步骤。各种这些系统的所需结构与等同变化对于本领域的技术人员来
?#21040;?#26159;清楚的。此外,不参考任何特定编程语言来描述本发明。应?#31169;猓?#21508;种编程语言可用
于实施如本文所述的本发明的教示,并且对特定语言的任?#25105;?#29992;被提供以用于发明本发明
的实现和最佳模式。

本发明良好适用于许多拓扑的广泛各种计算机网络系统。在此领域内,大型网络
的配置和管理包括在例如因特网等网络上通信地耦接到不同计算机和存储装置的存储装
置和计算机。

最终,应注意,本说明书中所使用的语言已主要出于可?#21015;?#21644;指导的目的来选择,
并且可并不是为了描绘或限制本发明主题来选择。因此,本发明的公开内容希望说明而不
是限制本发明的范围。

关于本文
本文标题:音频序列对准的概率评分的导出.pdf
链接地址:http://www.pqiex.tw/p-6091887.html
关于我们 - 网站声明 - 网?#38236;?#22270; - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 猴年四大生肖买彩票易中大奖 广东十一选五app下载 新疆时时彩开奖号码 双色球复式投注矩阵图 泳坛夺金中奖结果查询 腾讯分分彩玩法和倍率 湖北十一选五任选五 江苏11选5前三计划 新浪围棋app 晓游棋牌官网