平码五不中公式规律
  • / 26
  • 下载费用:30 金币  

学习和使用用于查询消歧的上下文内容检索规则.pdf

关 键 ?#21097;?/dt>
学习 使用 用于 查询 上下文 内容 检索 规则
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201580033087.5

申请日:

2015.06.16

公开号:

CN106663104A

公开日:

2017.05.10

当前法律状态:

实审

有效性:

审中

法?#19978;?#24773;: 实质审查的生效IPC(主分类):G06F 17/30申请日:20150616|||公开
IPC分类号: G06F17/30 主分类号: G06F17/30
申请人: 微软技术许可有限责任公司
发明人: P·班尼特; K·柯林斯-汤普森; S·萨尔基佐瓦; M·斯霍科希; M·斯隆
地址: 美国华盛顿州
优?#28909;ǎ?/td> 2014.06.17 US 14/306,500
专利代理机构: ?#26412;?#24066;金杜律师事务所 11256 代理人: 王茂华
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201580033087.5

授权公告号:

|||

法律状态公告日:

2017.06.06|||2017.05.10

法律状态类型:

实质审查的生效|||公开

摘要

本文描述了涉及生成和应用内容检索规则的各种技术。内容检索规则将查询和上下文的组合?#25104;?#21040;查询重组或内容中的一个。从搜索引擎的搜索日志中学习内容检索规则,并且当搜索引擎处接受到具有上下文的查询时,应用该内容检索规则。

权利要求书

1.一种计算系统,包括:
处理器;以及
存储器,所述存储器包括由所述处理器执行的规则应用器系统,所述规则应用器系统
被配置为:
响应于接收查询,向所述查询分配上下文,所述查询通过客户端计算设备和所述计算
系?#25345;?#38388;的网络连接从所述客户端计算设备被接收;
基于所述查询和被分配给所述查询的所述上下文来标识内容检索规则,所述内容检索
规则将所述查询和所述上下文的组合?#25104;?#21040;内容或查询重组之一;以及
响应于标?#31471;?#36848;内容检索规则,执行所述内容检索规则,其中所述内容检索规则的执
行引起以下各项中的至少一项:
所述内容通过所述网络连接被传输到所述客户端计算设备;或者
搜索系统向所述客户端计算设备传输对应于所述查询重组的搜索结果。
2.根据权利要求1所述的计算系统,所述内容检索规则将所述查询和所述上下文的组
合?#25104;?#21040;所述重组的查询,所述规则应用器系统被配置为向在索引上执行所述重组的查询
的搜索系统传输所述重组的查询。
3.根据权利要求2所述的计算系统,所述搜索系?#25345;?#34892;所述查询和所述重组的查询二
者,并且其中所述搜索系统被配置为向所述客户端计算设备返回搜索引擎结果页面,所述
搜索引擎结果页面包括由所述搜索系统基于所述查询和所述重组的查询检索的内容。
4.根据权利要求3所述的计算系统,所述内容包括以下各项中的至少一项:?#25104;洹?#23454;体
卡或由所述搜索系统基于所述重组的查询检索的广告。
5.根据权利要求1所述的计算系统,所述内容检索规则将所述查询和所述上下文的所
述组合?#25104;?#21040;所述内容,所述内容是网页。
6.根据权利要求1所述的计算系统,其中所述规则应用器系统包括上下文标识符部件,
所述上下文标识符部件基于关于发出所述查询的用户的观察来将所述上下文分配给所述
查询。
7.根据权利要求6所述的计算系统,所述上下文标识符部件分配针对当前搜索会话的
所述上下文。
8.根据权利要求6所述的计算系统,关于所述用户的所述观察包括以下各项中的至少
一项:与社交网络应用的交互、由所述用户发出的先前查询或所述用户的计算设备的网络
地址。
9.根据权利要求1所述的计算系统,所述存储器还包括基于搜索引擎的搜索日志生成
多个内容检索规则的规则生成器系统,所述多个内容检索规则包括所述内容检索规则。
10.根据权利要求9所述的计算系统,所述规则生成器系统包括分数分配器部件,所述
分数分配部件将相应的分数分配给所述多个内容检索规则,其中所述内容检索规则基于被
分配给所述内容检索规则的分数而被分配给所述查询。
11.一种由计算机处理器执行的方法,所述方法包括:
基于关于查询的发出者的观察来将上下文分配给接收到的所述查询,所述查询从客户
端计算设备并且通过网络连接接收;
基于所述查询和被分配给所述查询的所述上下文来标识内容检索规则,所述内容检索
规则将所述查询和所述上下文的组合?#25104;?#21040;查询重组或内容之一;以及
响应于标?#31471;?#36848;内容检索规则,执行所述内容检索规则,所述内容检索规则的执行引
起以下各项中的至少一项:
对应于所述查询重组的搜索结果被传输到所述客户端计算设备;或者
所述内容被传输到所述客户端计算设备。
12.根据权利要求11所述的方法,所述内容检索规则将所述查询和所述上下文的所述
组合?#25104;?#21040;所示查询重组,所述方法还包括:
基于所述查询执行搜索;以及
基于所述查询重组执行另一搜索。
13.根据权利要求12所述的方法,还包括:
向所述客户端计算设备传输搜索引擎结果页面,所述搜索引擎结果页面包括在所述搜
索中检索到的搜索结果和在所述另一搜索中检索到的另一搜索结果。
14.根据权利要求13所述的方法,还包括:
在所述另一搜索结果中突出显示所述重组的查询的关键?#21097;?#25152;述查询没有所述突出显
示的关键词。
15.一种包括指令的计算机可读存储介?#21097;?#25152;述指令在由处理器执行时使得所述处理
器执行以下动作,包括:
基于查询和被分配给所述查询的上下文来标识内容检索规则,所述上下文指示历史上
?#36824;?#23519;为?#36816;?#36848;查询的发出者?#34892;?#36259;的主题,所述查询通过网络连接从所述查询的所述发
出者的客户端计算设备被接收;
标?#31471;?#36848;查询和所述上下文的组合与所述查询的重组之间的预定义的?#25104;洌?#20197;及
响应于标?#31471;?#36848;预定义的?#25104;洌?#22522;于所述查询的所述重组使得内容呈现在所述客户端
计算设备的显示器上。

说明书

学习和使用用于查询消歧的上下文内容检索规则

背景技术

发出到搜索引擎的查询经常是未详细说明的或者有歧义的。在一个示例中,发出
查询“公牛”的用户可能指的是股票、动物、运动队、在潘普洛纳的活动等等。传统的搜索引
擎难以消除用户的信息检索(IR)意图的歧义,因此可能提供与用户无关的搜索结果。这反
过来可以使得用户失去对搜索引擎的选择,由此使得用户使用不同的搜索引擎。

发明内容

以下是本文更详细描述的主题的简要总结。本发明内容不旨在限制权利要求书的
范围。

本文描述了计算系统。该计算包括处理器和存储器,其中存储器包括由处理器执
行的规则应用器系统。规则应用器系统被配置为响应于接收到查询而向查询分配上下文。
规则应用器系统还被配置为基于查询和分配给查询的上下文来标识内容检索规则,其中内
容检索规则将查询和上下文的组合?#25104;?#21040;内容或查询重组之一。规则应用器系统还被配置
为响应于标识内容检索规则来执行内容检索规则。

附图说明

图1是促进内容检索规则的创建和分析的示例性计算系统的功能框图。

图2是被配置为基于搜索引擎日志生成内容检索规则的示例性规则生?#19978;?#32479;的功
能框图。

图3描绘了示出用于标识候选查询重组对的辨别方法的示例性维恩图。

图4描绘了示出用于标识候选查询重组对的生成方法的示例性维恩图。

图5是被配置为基于搜索引擎日志来估计相应内容检索规则的有效性的规则分析
器系统的功能框图。

图6是被配置为响应于查询的接收来标识适用的内容检索规则的示例性计算系统
的功能框图。

图7是被配置为向接收到的查询分配上下文并?#19968;?#20110;查询和所分配的上下文来标
识内容检索规则的示例性规则应用器系统的功能框图。

图8是被配置为基于内容检索规则执行搜索的示例性搜索系统的功能框图。

图9是描绘搜索引擎结果页面(SERP)的示例性图形用户界面,其中SERP包括基于
内容检索规则检索的搜索结果。

图10是出于比较而描绘一对SERP的示例性图形用户界面。

图11是图示用于生成内容检索规则的示例性方法的流程图。

图12是图示用于标识和执行内容检索规则的示例性方法的流程图。

图13是图示用于基于所接收的查询和查询的重组生成SERP的示例性方法的流程
图。

图14是示例性计算系统。

具体实施方式

现在参考附图描述与生成和应用内容检索规则有关的各种技术,其中相同的附图
标记始终用于指代相同的元件。在下面的描述中,为了解释的目的,阐述了许多具体?#38468;?#20197;
便提供对一个或多个方面的透彻理解。然而,可以明白的是,这些方面可以在没有这些具体
?#38468;?#30340;条件下实施。在其他实例中,以框图形式示出了公知的结构和设备,以便于描述一个
或多个方面。此外,应当理解,描述为由某些系统部件执行的功能可以由多个部件执行。类
似地,例如,部件可以被配置为执行被描述为由多个部件执行的功能。

此外,术语“或”旨在表示包括性的“或”而非排他性的“或”。即,除非另有说明或者
从上下文清楚可见,短语“X使用A或B”旨在表示任何自然的包括性排列。也就是说,短语“X
使用A或B”通过以下任何实例来满足:X使用A;X使用B;或X使用A和B两者。此外,除非另有说
明或从上下文清楚可见指向单数形式,本申请和所附权利要求中使用的冠词“一”和“一个”
通常应被解释为意指“一个或多个”。

此外,如本文所使用的,术语“部件”和“系统”旨在包括配置有计算机可执行指令
的计算机可读数据存储装置,所述计算机可执行指令使得当其被处理器执行时某些功能被
执行。计算机可执行指令可以包括例程,函数等。还应当理解,部件或系统可以位于单个设
备上或分布在多个设备上。此外,如本文所使用的,术语“示例性”旨在表示用作某事物的图
示或示例,并且不旨在指示偏好。

现在参考图1,图示了被配置为生成内容检索规则的示例性计算系统100。如本文
将更详细地描述的,基于向搜索引擎发出查询的用户的相应上下文来生成内容检索规则。
计算系统100可以是计算设备或分布式计算系统。例如,计算系统100可以是或可以被包括
在企业计算系统,数据中心等之中。因此,计算系统100的元件可以被包括在单个设备上或
分布在多个计算设备上。

计算系统100包括数据存储102。数据存储102包括搜索引擎的历史搜索日志104。
搜索日志104可以包括但不限于包括:1)各个用户的标识符(例如,其中标识符匿名地标识
用户);2)由用户发出的查询;3)基于发出的查询呈现给用户的搜索结果的标识;4)由用户
选择的搜索结果的标识;5)被分配到被标识为满足用户的IR意图的搜索结果的标签(例如,
如果用户停留了某一阈值量的时间(例如,30秒)或者如果搜索结果是在搜索会话中查看的
最后搜索结果,则搜索结果可以被标注为满足用户的IR意图));以及6)分配到查询指示查
询何时被发出的时间戳;7)分配给用户选择的搜索结果指示搜索结果何时被选择的时间
戳;8)分配给用户选择的搜索结果指示搜索结果被用户驻留多长时间等的时间戳。搜索日
志104还可以包括特定搜索会话的标识,其中搜索会话可以由用户与搜索引擎的交互定义。
例如,交互序列中的交互可以定义搜索会话,其中每个连续交互之间的?#20013;?#26102;间小于预定
义的阈值?#20013;?#26102;间,诸如五?#31181;印?#21313;?#31181;印?#20108;十?#31181;印?#19977;十?#31181;?#31561;。因此,在搜索会话中,用户
“连续地”与搜索引擎交互。此外,虽然未示出,但是数据存储102可以包括未被搜索引擎直
接捕获的信息,诸如被用户访问的网页、关于用户的人口统计信息、社交媒体数据(例如,由
用户提出的明确批准的指示)等等。

数据存储102还可以包括上下文数据106,该上下文数据106包括可以分配给搜索
日志104中的数据的上下文。例如,包括在搜索日志104中的网页可以具有分配给它的至少
一个上下文。例如,这样的上下文可以基于通过开放数据政策(ODP)分配给网页的标签、基
于命名实体识别(NER)、基于从维基页面获取的信息等。此外,搜索日志104中的查询可以具
有向其分配的至少一个上下文。例如,分配给查询的上下文可以基于分配给被发出查询的
用户访问的搜索结果(例如,网页)的上下文(例如,其中搜索结果满足用户的IR意图)。

系统100另外包括处理器108和与处理器108通信的存储器110。存储器110可以包
括规则生?#19978;?#32479;112和规则分析器系统114。简而言之,规则生?#19978;?#32479;112被配置为基于搜索
日志104和上下文数据106生成内容检索规则。规则生?#19978;?#32479;112可以使得这些规则作为规
则116被存储在数据存储102中。规则分析器系统114被配置为基于搜索日志104和上下文数
据106估计这些规则116的有效性。

现在提供规则116和规则116的示例的简要解释。向搜索引擎发出的查询经常是未
详细说明的或有歧义的。通常,关于查询的发出者(用户)的上下文或背景可以提供消除用
户的需要的信息歧义的信息,并且可以被用于自动地预测用户的更有效的查询(并且因此
检索)。由规则生?#19978;?#32479;112学习并包括在规则116中的规则可以具有以下格式:

[上下文]查询→查询重组或内容

因此,示例性的内容检索规则可以是:

1)[运动]公牛→芝加哥公牛;和

2)[运动]公牛→www.ChicagoBulls.com

规则1)可以被解释如下:当用户最近已经查看关于运动的网页并且发出查询“公
牛”时,推断用户实际上意指查询是“芝加哥公牛”。第二规则可以解释如下:当用户最近点
击关于运动的网页并且发出查询“公牛”时,为用户检索网页www.ChicagoBulls.com。假定
用户的实际意图被更准确地推?#24076;?#21017;更好的结果可以为用户检索。如本文将更详细描述的,
关于改变了的查询,原始查询或两者的混合的结果可以被检索并且向用户提供。

因此,可以确定内容检索规则将上下文和查询的组合?#25104;?#21040;重组的查询或内容。
上下文并非旨在限于搜索会话的主题上下文。例如,上下文可以是,但不限于,特定搜索会
话的主题上下文、长期主题上下文、短期主题上下文、社交指示符(例如,社交网站上的用户
所属的自?#20918;曄度?#32452;,用户上的学校、用户明确批准的内容等)、用户的位置、与用户所选择
的网页的内容相对应的位置、季节(例如,春季、夏季、秋季、冬季)、时间相关事件等。本文描
述的与内容检索规则有关的方法可以适用于广告、上下文敏感的拼写校正以及除了添加单
词之外的变更,以及可以包括在搜索引擎结果页面(SERP)中的或其触发影响SERP的组成的
各种元素,诸如即时答案(触发和排名)、实体窗格相关搜索,用户体验(UX)解释以及诸如图
像和视频的多媒体垂直。

规则分析器系统114通常被配置为估计由规则生?#19978;?#32479;112生成的内容检索规则
的有效性。例如,如本文将更详细地描述的,规则分析器系统114可以被配置为分析基于触
发的重组查询生成的SERP,以及计算指示SERP的质量的值,以及因此触发内容检索规则的
质量。随后,当接收到查询并且标识了应用于查询的内容检索规则时,内容检索规则的质量
可以被用于对规则进?#20449;?#21517;,从而通常,响应于查询的接收最有效的内容检索规则将被使
用。

尽管规则生?#19978;?#32479;112和规则分析器系统114被图示为包括在计算系统100中,但
是应当理解,规则生?#19978;?#32479;112和规则分析器系统114可以被包括在分离的计算系统。例如,
规则生?#19978;?#32479;112可以驻留在第一计算系统上,并且可以向包括规则分析器系统114的第二
计算系统输出一组规则。

现在参考图2,图示了规则生?#19978;?#32479;112的功能框图。如上所述,规则生?#19978;?#32479;112
可以访问搜索日志104和上下文数据106。规则生?#19978;?#32479;112包括配置为生成候选内容检索
规则的候选规则标识符部件202。为此,候选规则标识符部件202可以标识候选(QA,QB)对(在
本文中称为“查询重组对”),其中QA是初始查询并且是QB初始查询的重组。对于每个查询重
组对,候选规则标识符部件202可以标识对应于在查询重组对中QA的上下文。

存在设想用于标识候选查询重组对的多种方法。例如,候选规则标识符部件202可
以利用用于标识候选查询重组对的辨别性方法。在另一示例中,候选规则标识符部件202可
以利用用于标识候选查询重组对的生成方法。当候选规则标识符部件202利用生成方法时,
条件概率分布被用于标识候选查询重组对。相反,当候选规则标识符部件202利用辨别方法
时,联合概率分布被用于标识候选查询重组对。

根据示例,规则标识符部件202可以标识搜索日志104中最频繁接收的查询的阈值
数目(例如,从来自搜索日志104的样本计算的前100个最常见的查询),最流行的1000个查
询(如从搜索日志104的样本计算的)等)。然后,候选规则标识符部件202可以基于搜索日志
104来标识查询重组对,其中查询重组对包括最频繁发出的查询中的一个查询作为初始查
询(QA)和对应的重组(QB)。

关于用于标识候选内容检索规则的示例性辨别方法的附加?#38468;?#29616;在参照图3进行
阐述。图3示出了维恩图300,其图形地描绘了搜索日志104中的查询空间A,查询重组空间B
和类别空间C。通常,当采用辨别方法时,候选规则标识符部件202基于查询空间A,重组空间
B和类别空间C之间的重叠区域P(A,B,C)标识候选重组对。

在示例中,候选规则标识符部件202可以从查询空间A中选择流行查询QA,并且QA可
以被用作种子查询。例如,当QA表示歧义的命名实体时,候选规则标识符部件202可以标识
到QA(来自重组空间B)的扩展。这些扩展可以从各种知识源获得,诸如维基页面、ODP、将模
糊术语?#25104;?#21040;命名实体的?#20540;?#31561;。在另一个示例中,候选规则标识符部件202可以基于查询
之间的关系(诸如,QA和QB之间项重叠,或者在相同的搜索会话中用于查询QA和QB的由搜索
引擎公开的搜索结果中的重叠)。在另一示例中,候选规则标识符部件202可以利用子集关
系来标识候选重组对。例如,当两个查询都出现在单个搜索会话中并且QB(在搜索会话中QA
之后发出)包括QA所有的项加上一个或多个附加项(例如,以及因此QA和QB在A,B和C的重叠
区域中)时,候选规则标识符部件202可以把QA和QB作为候选重组对。这种方法背后的直观是
通过使用上下文,用户为了改进其查询而添加的项可以被自动地预测。结果是在查询空间
A,重组空间B和类别空间C之间的重叠中的一对候选查询(QA,QB),其中该对包括?#26174;?#26597;询QA
和较晚查询QB。候选规则标识符部件202也可以把(QA,QB)作为候选对。这种类型的自我重组
可以对比较和确定查询重组是否可能比保持初始查询更成功而言是有用的。

如上所述,在另一示例中,候选规则标识符部件202可以利用生成方法来基于搜索
日志104来标识候选重组对,其通常在图4中呈现。图4图示了描述查询空间A,重组B和上下
文空间C的维恩图400。在生成方法中,重组空间B中的重组查询基于查询空间A中具有类别
空间中的一些类别的查询的条件:P(B|A,C)来标识。例如,如前所述,搜索日志104中的查询
QA可以被分配类别空间C中的上下文的(类别)数据,其中该数据可以基于被分配给搜索结
果的上下文(类别),该搜索结果由搜索引擎基于查询检索。假定(QA,C)对,候选规则标识符
部件202可以被配置为预测可以被并行发出的QA的重组的概率。例如,假定已经观察到(QA,
C),候选规则标识符部件202可以计算发出查询QA的用户稍后将发出查询QB的概率。

在另一个示例中,候选规则标识符部件204可以根据候选重组对的相互信息来标
识或排序候选重组对。在这种情况下,A,B和C之间的相互信息可以被定义如下:


其中p(ar br c)是A,B和C的联合概率分布函数,并且p(a)、p(b)和p(c)分别是A,B
和C的边缘概率分布函数。

响应于标识候选查询重组对(使用生成式或辨别性方法),对于每个标识的候选重
组对,候选规则标识符部件202可以生成在查询QA被发出时可用的一组上下文。示例性上下
文包括但不限于:1)空的上下文;2)顶级类-这指的是在搜索会话中直到查询QA被发出的点
点击的搜索结果中最频繁的主题(类别);3)在前N个类中-该上下文表示主题(类别)是在搜
索会话中直到查询QA被发出的点的点击的搜索结果的前N个主题之一;4)置信等级大于阈
值-该上下文反映何时被点击的搜索的结果的主题(类别)在搜索会话中直到查询QA被发出
的点的置信度超过(指定的)阈值。可由候选规则标识符部件202分配给查询重组对的其他
上下文包括?#20309;?#32622;(城市、州、国?#19994;?#20316;为上下文);包括基于地址的(例如,用户所使用的计
算设备的网络地址的一部分作为上下文);社交上下文(用户已经“?#19981;丁?#30340;实体可以用作上
下文);长期的主题兴趣,其类似于搜索会话主题上下文,但是在用户的较长交互范围(例
如,搜索和点击行为的几个星期,而不是搜索会话期间)上;由用户发出的先前查询(在多个
时间范围上)或其他搜索会话主题表示。在这种情况下,搜索引擎中的查询或所有返回的文
档的主题可以用作上下文,而不是仅用于点击的文档。一旦候选规则标识符部件202将上下
文分配给查询重组对,则生成内容检索规则。使用上面阐述的示例性方法,候选规则标识符
部件202可以基于搜索日志104自动生成多个内容检索规则。

此外,在示例中,候选规则标识符部件202可以向查询QA被发出时的上下文分配置
信度。例如,基于用户属性,在搜索会话期间所选择的文档等,候选规则标识符部件202可以
向分配给查询重组对的上下文分配置信?#31181;?因此,查询重组对可以具有分配给它的多个
上下文,每个都有自己的置信度值。

规则生?#19978;?#32479;112还包括分数分配器部件204,其可以被配置为向由候选规则标识
符部件202输出的每个内容检索规则分配相应的分数。分配给内容检索规则的分数可以指
示当被执行时规则的有效性,并且可以基于搜索日志104的内容。例如,如果查询改变将用
户引导到相关文档,则规则可以被认为是有效的。例如,在搜索日志104中,相关文档可以被
定义为用户停留一段阈值量的时间的搜索结果或者完成搜索会话的搜索结果(例如,用户
在查看搜索结果时停止与搜索引擎交互)。为了生成有效性分数,分数分配器部件204可以
分析搜索日志104并且聚合搜索会话,其中观察到正被分析的规则(例如,观察到匹配的查
询和上下文,之后用户发出查询改变)。分数分配器部件204可以对观察到规则的次数以及
规则被发现是有效的次数进行计数。

分数分配器部件204可以使用这样的计数来根据规则的平均有效性对给定查询的
规则进?#20449;?#21517;。例如,分数分配器部件204可以基于分配给它的平均有效性对规则进?#20449;?br />名。然而,还设想了其他方法,例如有效性的上限,其可用于决定规则是否可能有效,但是该
规则没有经常?#36824;?#23519;到。因此,分数分配器部件204可以为每个查询-上下文组合输出内容
检索规则的排序列表。

规则生?#19978;?#32479;112可以可选地包括修剪器部件206,修剪器部件206可以过滤一个
或多个内容检索规则以增加由规则生?#19978;?#32479;112输出的最终规则集的精度,从而将输出规
则限制为仅上下文重写。在修剪规则时修剪器部件206可以使用的过滤器包括但不限于:1)
移除在搜索日志104中没有观察到足够次数的规则(例如,修剪器部件206可以确保只有在
搜索日志104中?#36824;?#23519;到阈值次数的内容检索规则被保留);2)移除在搜索日志104中的成
功率不高于当原始查询被发出时观察到的成功率的候选规则;3)移除在搜索日志104中的
成功率不高于上下文相关的自我重组的候选规则;4)移除搜索日志104中的成功率不高于
以上下文无关的方式发出的候选规则;5)移除候选内容检索规则,其中对应QB的成功率不
高于对应的QA成功率某个阈值;6)移除候选规则,其中上下文重组(QB)发生小于查询(QA)发
生的时间的某个百分比;以及7)移除规则,其中该规则的预测的搜索性能(质量)预期为低
(这也可以在检索期间在线完成:即,如果它们?#36824;?#35745;为具有低质量,则从重组返回的结果
可以被忽略)。

在另一个示例中,可以单独地标识歧义查询,并且此后规则生?#19978;?#32479;112可以学习
查询重组规则。例如,规则生?#19978;?#32479;112可以包括训练为将查询标记为有歧义的或无歧义的
分类器。例如,分类器可以被提供有在搜索日志104中N个最频繁出现的查询,并且可以标识
被分类器标识为有歧义的那些查询的子集。此后,规则生?#19978;?#32479;112可以使用上文阐明的技
术生成内容检索规则。

现在参考图5,图示了规则分析器系统114的功能框图。规则分析器系统114包括可
以访问搜索日志104并从其提取搜索会话的采样器部件502。如前所述,搜索会话由关于搜
索引擎的连续用户活动的序列定义。匹配器部件504接收由采样器部件502标识的搜索会
话,并且从由规则生?#19978;?#32479;112输出的内容检索规则中标识至少一个内容检索规则。规则分
析器系统114还包括搜索引擎结果页面(SERP)构造器部件506,其基于搜索日志中的QA来构
造SERPA,并且进一步构造由所标识的内容检索规则触发的至少一个SERPB。SERP构造器部件
506可以进一步构造包括搜索结果的排序列表的假设SERPF,其可以是搜索结果在SERPA和
SERPB中的混合。另外,SERP构造器部件506可以包括在SERPF中的广告,即时答案,实体卡等。

规则分析器系统114还包括评估器部件508,其可以当用户发出查询QA时接收SERPF
并且至少向搜索会话的用户提供SERPA。评估器部件508可以基于搜索日志104中的搜索会
话中标识的用户的交互来输出指示规则集的有效性的分数。例如,如果SERPF包括不包括在
SERPA中的搜索结果,但是在用户提出的查询重组被用户在搜索日志中选择之后,SERPF可以
被分配指示超过SERPA改进的分数。评估器部件508可以采用各种技术来分配指示提供给用
户的超过tSERPA的SERPF的改进的分数。

现在参考图6,图示了被配置为通过内容检索规则的应用向用户602提供内容的示
例性计算系统600。例如,计算系统600可以包括在搜索引擎中或用于实例化搜索引擎。因
此,例如,计算系统600可以是企业计算系统、数据中心(例如,私人数据中心)等。计算系统
600包括数据存储604,其中数据存储604包括由规则生?#19978;?#32479;112生成的规则116。再次,规
则的格式可以是[C]QA→QB或内容。例如,不是指向查询重组的内容检索规则,可以理解的
是,规则生?#19978;?#32479;112可以被配置为基于所发出的查询和上下文(例如,通常访问的网页)来
标识特定内容。数据存储604还可以包括可搜索的索引608,诸如可通过万维网访问的网页
的索引。数据存储604还可以包括可以被直接提供给用户602的内容610,诸如即时答案,实
体卡,单个网页等。

计算系统600另外包括处理器612和存储器614,存储器614包括由处理器612执行
的系统和部件。虽然计算系统600被图示为与计算系统100分离,但是应当理解计算系统100
和600可以包括在相同的计算系统中。

存储器614包括规则应用器系统616,其被配置为响应于来自己用户602的查询的
接收来标识内容检索规则。规则应用器系统616还被配置为执行所标识的规则。存储器614
还可以包括与规则应用器系统616通信的搜索系统618。在示例中,搜索系统618可以接收查
询重组(和原始查询),并且可以通过索引608基于查询和/或查询重组执行搜索。可选地,搜
索系统618可以基于内容检索规则使?#32654;?#33258;内容610的内容被提供给用户602。

更具体地,用户602可以发出用于搜索系统618的查询。规则应用器系统616可以接
收查询并且向接收的查询分配一个或多个上下文。如上所述,该上下文可以基于用户602在
包括查询的搜索会话期间访问的网页,用户一般随时间(在搜索会话之外)浏览的网页,用
户602在社交媒体应用中的交互,由用户602发出的先前查询等。应当理解,在一个示例中,
由规则应用器系统616采用的来向查询分配上下文的信息可以被明确地批准用于这样的使
用。此外,规则应用器系统602可以向查询分配多个上下文,其中上下文具有分配给它的置
信分数。例如,规则应用器系统602可以向查询分配上下文为“运动”的概率为0.8。

响应于标识可被分配给查询的上下文,规则应用器系统616搜索规则116以寻?#19968;?br />于查询和上下文触发的至少一个内容检索规则。当可?#28304;?#21457;多个规则时,规则应用器系统
616可以选择具有分配给它的最高有效性分数的一些阈值数目的规则。即,规则应用器系统
616可以在给定查询和分配给查询的上下文的情况下,从应用的规则116中标识出一些阈值
数目的最高排名的规则。一旦规则被标识,规则应用器系统616可以执行该规则,其可以包
括将在规则(以及可选地原始查询)中标识的重组的查询传输到搜索系统618。搜索系统618
然后可以基于查询重组将内容传递给用户602(使得内容显示在由用户602使用的计算设备
的显示器上)。规则的执行还旨在包括?#26144;?#20869;容检索-例如,规则的执行可以导致将查询呈
现为查询建议,其可以由用户选择以检索内容。

现在参考图7,图示了规则应用器系统616的功能框图。如先前所指示的,规则应用
器系统616接收潜在的有歧义查询。规则应用器系统616包括上下文标识符部件702,其被配
置为响应于这样的查询的接收而向查询分配上下文。在一个示例中,上下文标识符部件702
可以基于关于用户602的观察向查询分配上下文。例如,关于用户602的观察可以包括关于
发出查询的搜索会话的观察(例如,搜索由用户选择的结果或用户未选择的搜索结果),在
较长时间(例如,一周)内的观察,关于更长时间(例如,三个月至六个月)的观察等。观察还
可以包括,但不限于,先前由用户602发出的查询,由用户602访问的网页,用户关于社交网
络网页(例如,用户“?#19981;丁?#30340;实体)的交互等。此外,关于用户602的观察可以包括用户的属
性,诸如关于用户602的人口统计信息(例如,年龄,性别,种族,...),用户602的高度,用户
602的头发颜色等等。此外,观察可以包括用户602的位置,用户602的计算设备的网络地址,
一天中的时间,星期几,季节等。

匹配部件704可以从上下文标识符部件702接收查询和分配给查询的上下文,并且
可以标识?#25104;?#21040;查询和上下文的组合的规则606中的规则。在一些情况下,可以将多于一个
上下文分配给查询,这可以导致在规则606中多于一个规则的标识。

规则应用器系统616还可包括发射器部件706,其例如将所标识的规则发射到搜索
系统618。附加地或备选地,发射器部件706可被配置为对由匹配部件704输出的规则进?#20449;?br />名。如前所述,规则可以具有向其分配的有效性分数,并且发射器部件706可以基于它们各
自的有效性得分对规则排序。然后,搜索系统618可以至少基于规则中排名最高的规则来执
行搜索。

参考图8,图示了搜索系统618的功能框图。搜索系统618包括接收由用户602提出
的查询和由内容检索规则标识的重组的查询的搜索部件802。因此,搜索部件802可以执行
至少两个搜索,基于由用户602发出的原始查询的搜索和基于由规则应用器系统616标识的
重组的查询的另一搜索。

搜索系统618还可以包括混合器部件804,其可以基于搜索接收一组搜索结果,并
?#19968;?#20110;另一搜索接收另一组搜索结果,并且生成包括一组搜索结果中至少一个搜索结果和
另一组搜索结果中的至少一个搜索结果的SERP。因此,混合器部件804可以混合基于不同查
询检索到的搜索结果。当执行这样的混合时,混合器部件804可以利用任何合适的技术。例
如,搜索结果可以具有分别分配给其的用于查询的相关性分数。混合器部件804可以基于分
配给两组搜索结果中的搜索结果相应的相关性分数来混合来自两组搜索结果的搜索结果。

在另一示例中,混合器部件804可以基于重组的查询使计算机实现的广告被呈现
在SERP上。这样的广告可以包括在边栏中显示的广告,横幅广告等。在又一个示例中,混合
器部件804可以基于重组的查询使实体卡被显示在SERP上。实体卡可以包括关于可以在
SERP中显示的实体的信息。例如,实体可以是人、地点或事物,并且实体卡可以显示人、地点
或事物的属性。在又一示例中,当重组的查询与位置有关时,混合器部件804可以使得位置
的?#25104;?#22312;SERP上呈现。在一个示例中,当原始查询是“公牛”并且重组的查询是“芝加哥公
牛”时,混合器部件804可以使得芝加哥的地图被呈现在SERP上。此外,混合器部件804可以
基于重组的查询使得即时答案被呈现在SERP上。在又一示例中,混合器部件804可以使得在
重组的查询中(但不在原始查询中)的关键词在搜索结果页面上所示的搜索结果中被突出
显示,从而向用户提供重组的查询的视觉指示。此外,混合器部件804可以将重组的查询显
示为建议查询,其中在用户选择重组的查询时,搜索部件802可以仅基于重组的查询执行搜
索。

搜索系统618还包括输出部件806,其使由混合器部件804生成的SERP呈现在由用
户602采用的计算设备的显示器上。

现在参考图9,图示了可以由混合器部件804生成并由输出部件806输出的SERP的
示例性图形用户界面900。图形用户界面900包括查询字段902。可以确定,用户已经将原始
查询“鹰”提出到搜索字段902中。在图形用户界面900中描绘的示例中,分配给查询“鹰”的
上下文是“前N名的运动?#20445;?#24182;且标识了将“鹰”和上下文“前N名的运动”的组合?#25104;?#21040;重组的
查询“费城鹰队(Philadelphia Eagles)”的内容检索规则。搜索部件802可以执行两个搜
索:基于查询“鹰”的搜索和基于查询“费城鹰队”的另一搜索。混合器部件804混合搜索结
果,输出部件806输出在图形用户界面900中示出的SERP。在该示例中,SERP包括用于实体费
城鹰队的实体卡904。实体卡904包括关于费城鹰队的属性,包括例如现役运动?#20445;?#20307;育场,
建立日期,教?#36820;取ERP还包括若干搜索结果。搜索结果可以包括与在SERP中的搜索结果的
前几位附近的重组的查询高度相关的搜索结果。然而,其他搜索结果可以基于更有歧义的
查询“鹰”。例如,SERP中的搜索结果之一可以涉及老鹰乐队。

现在参考图10,图示了一对图形用户界面1002和1004。第一图形用户界面1002描
绘了包括基于可能有些歧义的查询“nycb”的搜索结果的SERP。例如,查询可以是可以描述
纽约社区银行、纽约社区银行的股票行情、纽约社区银?#26800;?#25276;公司、纽约市芭蕾舞等的首字
母缩?#28304;省?#28982;而,查询“nycb”可能已经在特定上下文中阐述-例如,发出查询的用户已经查
看了与艺术相关的网页。“nycb”和上下文的组合可?#28304;?#21457;包括查询“纽约市芭蕾舞”的内容
检索规则。图形用户界面1004中示出的SERP是混合器部件804输出的SERP,其包括搜索结果
针对查询“nycb”和重组的查询“New York City Ballet”二者的搜索结果。通过将图形用户
界面1002中示出的SERP与图形用户界面1004中示出的SERP进行比较可以确定图形用户界
面1004描绘了几个与纽约市芭蕾舞相关的搜索结果,而图形用户界面1002包括与纽约市芭
蕾相关(并且在搜索结果中排名相对?#31995;?的单个搜索结果。然后,有效地,查询的发出者更
可能被提供有用户?#34892;?#36259;的搜索结果,而不需要用户实际重组其查询。

图11至图13图示了与内容检索规则相关的示例性方法。虽然方法被示出和描述为
在序列中执行的一系列动作,但是应当理解和意识到,方法不被序列的顺序的限制。例如,
一些动作可以以与本文所描述的顺序不同的顺序发生。此外,一个行为可以与另一个行为
同时发生。此外,在一些情况下,并不需要所有动作?#35789;?#29616;本文所描述的方法。

此外,本文描述的动作可以是可以由一个或多个处理器实现和/或存储在计算机
可读介质上的计算机可执行指令。计算机可执行指令可以包括例程,子例程,程序,执行的
线程和/或类似物。此外,方法的动作的结果可?#28304;?#20648;在计算机可读介质中,显示在显示设
备上等。

现在参考图11,图示了用于输出内容检索规则的示例性方法1100。方法1100在
1102开始,并且在1104,标识候选重组对。可以使用上面关于候选规则标识符部件202?#33268;?br />的任何技术来标识候选重组对。例如,生成方法和辨别方法可以用于从搜索日志数据学习
查询重组。

在1106,针对每个查询重组对生成一组内容检索规则。上文已经关于候选规则标
识符部件202描述了用于生成规则组的示例性技术。

在1108,可以计算指示规则的有效性的值。根据示例,多臂赌博机(multi-armed
bandit)方法可以被用于通过有效性分数或通过有效性分数的上限来提供所提出的内容检
索规则的排名。在1110,基于在1108处计算的值对规则进?#20449;?#21517;,并且在1112处,可选地修
剪内容检索规则。例如,可以如上关于修剪器部件206所述修剪规则。方法1100在1114完成。

现在参考图12,图示了有助于执行内容检索规则的示例性方法1200。方法1200开
始1202,并且在1204,接收查询。在1206,标识用于查询的上下文。在1208,确定查询和上下
文是否?#25104;?#21040;内容检索规则。如果没有用于查询和上下文的组合的内容检索规则,则方法
1200进行到1210,其中基于所接收的查询1204执行搜索.如果在1208确定内容检索规则映
射到在1204接收的查询和在1206标识的上下文,则在1212,基于查询和上下文来标识内容
检索规则。内容检索规则,例如,可以标识可以被发送到搜索系统的查询重组。在1214,向搜
索引擎发送在内容检索规则中标识的查询重组,搜索引擎基于所接收的查询1204和查询重
组来执行搜索。方法1200在1216完成。

现在参考图13,图示了有助于基于内容检索规则生成SERP的示例性方法1300。方
法1300在1302开始,并且在1304,接收查询和查询重组。已经基于将查询及其上下文的组合
?#25104;?#21040;重组的查询的内容检索规则来标识查询重组。在1306,分别基于查询和查询重组来
执行搜索。在1308,SERP被生成,其包括基于查询的搜索结果和基于查询重组的搜索结果。
也就是说,SERP包括来自两个单独搜索的搜索结果的混合。方法1200在1210完成。

现在阐述各种示例。

示例1:一种计算系统,包括:处理器;以及存储器,其包括由处理器执行的规则应
用器系统,规则应用器系统被配置为?#21512;?#24212;于接收到查询,向查询分配上下文;基于查询和
分配给查询的上下文来标识内容检索规则,内容检索规则将查询和上下文的组合?#25104;?#21040;内
容或查询重组之一;以及响应于标识内容检索规则来执行内容检索规则。

示例2:根据示例1的计算系统,内容检索规则将查询和上下文的组合?#25104;?#21040;重组
的查询,规则应用器系统被配置为将重组的查询传送到在索引上执行重组的查询的搜索系
统。

示例3:根据示例1-2中任一项的计算系统,搜索系?#25345;?#34892;查询和重组的查询二者,
并且其中搜索系统被配置为返回搜索引擎结果页面,搜索引擎结果页面包括由搜索系统基
于查询和重组的查询检索的内容。

示例4:根据示例3的计算系统,内容包括由搜索系统基于查询检索的搜索结果和
由搜索系统基于重组的查询检索的其他搜索结果。

示例5:根据示例3的计算系统,内容包括以下中的至少一个:?#25104;洹?#23454;体卡或由搜
索系统基于重组的查询检索的广告。

示例6:根据示例1的计算系统,内容检索规则将查询和上下文的组合?#25104;?#21040;内容,
内容是网页。

示例7:根据示例1的计算系统,其中规则应用器系统包括上下文标识符部件,其基
于关于发出查询的用户的观察来将上下文分配给查询。

示例8:根据示例7的计算系统,上下文标识符部件分配当前搜索会话的上下文。

示例9:根据示例7的计算系统,关于用户的观察还包括以下中的至少一个:与社交
网络应用的交互,由用户发出的先前查询或用户的计算设备的网络地址。

示例10:根据示例1-9中任一项的计算系统,存储器还包括基于搜索引擎的搜索日
志生成多个内容检索规则的规则生成器系统,多个内容检索规则包括内容检索规则。

示例11:根据示例10的计算系统,规则生成器系统包括分数分配器部件,其将相应
的分数分配给多个内容检索规则,其中基于分配给内容检索规则的分数将内容检索规则分
配给查询。

示例12:一种方法,包括:基于关于查询的发出者的观察来将上下文分配给接收到
的查询;基于查询和分配给查询的上下文来标识内容检索规则,内容检索规则将查询和上
下文的组合?#25104;?#21040;查询重组或内容之一;以及响应于标识内容检索规则,执行内容检索规
则。

示例13:根据示例12的方法,内容检索规则将查询和上下文的组合?#25104;?#21040;查询重
组,方法还包括:基于查询执行搜索;以及基于查询重组执行另一搜索。

示例14:根据示例13的方法,还包括:基于搜索和另一搜索输出搜索引擎结果页
面,搜索引擎结果页面包括在搜索中检索的搜索结果和在另一搜索中检索的另一搜索结
果。

示例15:根据示例14的方法,还包括:在另一搜索结果中突出重构重组的查询的关
键?#21097;?#26597;询没有突出显示的关键词。

示例16:根据示例12的方法,内容检索规则将查询和上下文的组合?#25104;?#21040;查询重
组,该方法还包括:基于查询执行搜索;基于查询生成搜索引擎结果页面;以及在搜索引擎
结果页面上呈现作为建议查询的查询重组。

示例17:根据示例12的方法,内容检索规则将查询和上下文的组合?#25104;?#21040;内容,并
且其中执行内容检索规则包括使得内容在显示器上被显示到查询的发出者。

示例18:根据示例12-17中任一项的方法,其中关于查询的发出者的观察包括查询
的发出者的人口统计。

示例19:根据示例12-18中任一项的方法,其中关于查询的发出者的观察包括由查
询的发出者提出的先前查询和由查询的发出者选择或未选择的搜索结果。

示例20:一种包括指令的计算机可读存储介?#21097;?#25351;令在由处理器执行时使得处理
器执行动作,包括:基于查询和分配给查询的上下文来标识内容检索规则,上下文指示历史
上?#36824;?#23519;为查询的发出者?#34892;?#36259;的主题;标识查询和上下文的组合与查询的重构之间的预
定义的?#25104;洌?#20197;及响应于标识预定义的?#25104;洌?#22522;于查询的重组使得内容被呈现在显示器上。

示例21:一种系统,包括用于基于关于查询的发出者的观察来将上下文分配给接
收到的查询的装置;用于基于查询和分配给查询的上下文来标识内容检索规则的装置,内
容检索规则将查询和上下文的组合?#25104;?#21040;查询重组或内容中的一个;以及用于执行内容检
索规则的装置。

现在参考图14,图示了可以根据本文公开的系统和方法可以使用的示例性计算设
备1400的高级图示。例如,计算设备1400可以被使用在支持生成内容检索规则的系统中。作
为另一示例,计算设备1400可以被使用在支持内容检索规则的应用的系统中。计算设备
1400包括至少一个处理器1402,该至少一个处理器1402执行存储在存储器1404中的指令。
指令可以是,例如,用于实现被描述为由上述一个或多个部件执行的功能的指令或用于实
现一个或更多的上述方法的指令。处理器1402可以通过系统总线1406访问存储器1404。除
了存储可执行指令之外,存储器1404还可?#28304;?#20648;索引、内容检索规则、内容等。

计算设备1400另外包括可由处理器1402通过系统总线1406可访问的数据存储
1408。数据存储1408可以包括可执行指令、内容检索规则、索引、内容等。计算设备1400还包
括允许外部设备与计算设备1400通信的输入接口1410。例如,输入接口1410可以被用于从
外部计算机设备,从用户等接收指令。计算设备1400还包括将计算设备1400与一个或多个
外部设备接合的输出接口1412。例如,计算设备1400可以通过输出接口1412显示文本、图像
等。

设想经由输入接口1410和输出接口1412与计算设备1400通信的外部设备可以被
包括在提供用户可以与之交互的基本上任何类型的用户接口的环境中。用户接口类型的示
例包括图形用户接口,自然用户接口等。例如,图形用户界面可以接受来自使用诸如键盘,
鼠标,遥控器等输入设备的用户的输入,并在诸如显示器的输出设备上提供输出。此外,自
然用户界面可以实现用户以不受诸如键盘,鼠标,遥控器等的输入设备强加的?#38469;?#30340;方式
与计算设备1400交互。相反,自然用户界面可以?#35272;?#20110;语音识别,触摸和指示笔识别,屏幕
上和屏幕附近的?#36136;?#35782;别,空气?#36136;疲?#22836;部和眼睛跟踪,声音和语音,视觉,触摸,?#36136;疲?#26426;器
智能和等等。

另外,虽然被图示为单个系统,但是应当理解,计算设备1400可以是分布式系统。
因此,例如,若干设备可以通过网络连接进行通信,并且可以共同地执行被描述为由计算设
备1400执行的任务。

本文中描述的各种功能可以被实现在硬件、软件或者它们的组合中。如果在软件
中实现,则功能可以作为一个或多个指令或代码被存储在计算机可读介质上或在计算机可
读介质上传送。计算机可读介质包括计算机可读存储介质。计算机可读存储介质可以是可
以被计算机访问的任何可用存储介质。以举例的方式,而非限制,这样的计算机可读存储介
质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置,?#25490;?#23384;储装置或其它磁存储设
备,或可以被用来承载或存储以指令或数据结构形式的需要的程序代码并且可以被计算机
访问的其他?#25105;?#20171;质。如本文中使用的?#25490;?#21644;光盘包括压缩盘(CD)、激光盘、光盘、数字多
功能光盘(DVD),软盘和蓝光光盘(BD),其中?#25490;?#36890;常?#28304;?#24615;方式再现数据,而光盘通常用
激光光学地重现数据。此外,传播信号不包括在计算机可读存储介质的范围内。计算机可读
介质还包括包括在其中有助于将计算机程序传送从一个地方到另一个的任何介质的通信
介质。例如,连接可以是通信介质。例如,如果使用同轴电?#38534;?#20809;纤电?#38534;?#21452;绞线,数字用户线
(DSL),或无线技术诸如红外线、无线电和微波,则同轴电缆,光纤电缆,双绞线,DSL,或无线
技术诸如红外线,无线电和微波也被包含在通信介质的定义中。上述的组合也应当被包括
在计算机可读介质的范围内。

可替代地,或另外地,本文描述的功能可以至少部分地被一个或多个硬件逻辑部
件执行。例如,但不限于,可以被使用的硬件逻辑部件的说明类型包括现场可编程门阵列
(FPGA)、特定程序集成电路(ASIC)、特定程序标准产品(AS SP),片上系统(SOC),复杂可编
程逻辑设备(CPLD)等。

上文已经描述的内容包括一个或多个实施例的示例。当然它不可能出于描述前面
提及的方面的目的描述上文中的装置或方法的每个?#19978;?#21040;的修改和改变,但是本领域一般
技术人员可以意识到各种方面的许多进一步的修改和变换是可能的。因此,所描述的方面
旨在包含所有落入所附权利要求的精神和范围内的改变、修改和变化。此外,就术语“包含”
被使用在?#38468;?#25551;述或权利要求书中的程度,这样的术语意指是包容性的以类似于术语“包
括”如用作权利要求中的过渡词语时“包括?#21271;?#35299;释的方式。

关于本文
本文标题:学习和使用用于查询消歧的上下文内容检索规则.pdf
链接地址:http://www.pqiex.tw/p-6091711.html
关于我们 - 网站声明 - 网?#38236;?#22270; - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 股票配资论坛b互利计划 贵州茅台股票分析报告论文 明天有什么好股票推荐 中国股票配资网 股票指数期货有哪些 股票行情软件下载 企业如何从股票融资 今天股票指数 上证指数行情走势 小米股票