平码五不中公式规律
  • / 32
  • 下载费用:30 金币  

提问句生成装置以及计算机程序.pdf

关 键 词:
提问 生成 装置 以及 计算机 程序
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201580043433.8

申请日:

2015.08.10

公开号:

CN106663125A

公开日:

2017.05.10

当前法律状态:

实审

?#34892;?#24615;:

审中

法?#19978;?#24773;: 实质审查的生效IPC(主分类):G06F 17/30申请日:20150810|||公开
IPC分类号: G06F17/30 主分类号: G06F17/30
申请人: 国立研究开发法人情报通信研究机构
发明人: 鸟泽健太郎; 后藤淳; 朱利安·克洛埃特泽; 川田拓也
地址: 日本国东京都
优?#28909;ǎ?/td> 2014.08.21 JP 2014-168702
专利代理机构: 中科专利商标代理有限责任公司 11021 代理人: 高颖
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201580043433.8

授权公告号:

|||

法律状态公告日:

2017.06.06|||2017.05.10

法律状态类型:

实质审查的生效|||公开

摘要

提供对用户进行辅助的装置,针对用户?#34892;?#36259;的问题,能容易地作成保证能在提问应答系统中得到具有一定以上的精度的回答的提问句。提问句生成装置与提问应答系统一起使用,包括:单词接收单元,其接收成为提问句生成的基础的单词等(480);和提问句生成用数据库(502),其由提问句生成用的多个条目构成。多个条目各自以单词作为键且包含在提问应答系统中使用的与该单词同时出现的回答句句型。提问句生成装置还包括:提问句生成部(506),其以由单词接收单元接收到的单词等(480)作为键从提问句生成用数据库(502)中检索回答句句型,从检索到的回答句句型和接收到的单词等(480)生成提问句。

权利要求书

1.一种提问句生成装置,与提问应答系统一起使用,其中,
所述提问句生成装置包括:
单词接收单元,其接收成为提问句生成的基础的单词或单词串;和
提问句生成用数据库,其由提问句生成用的多个记录构成,
所述多个记录各自以单词作为键且包含在所述提问应答系统中使用的与该单词同时
出现的回答句句型,
所述提问句生成装置还包括:
第1提问句生成单元,其以由所述单词接收单元接收到的单词作为键从所述提问句生
成用数据库中检索回答句句型,从检索到的回答句句型和接收到的所述单词生成提问句。
2.根据权利要求1所述的提问句生成装置,其中,
所述提问句生成装置还包括:
同义词辞典,其保存单词或回答句句型、或者该双方的同义关系或含意关系;和
提问句归并单元,其响应于所述提问句生成单元生成了多个提问句这一情况,参照所
述同义词辞典将所述多个提问句归并成更少数量的提问句并输出。
3.根据权利要求1所述的提问句生成装置,其中,
所述提问句生成装置还包括:
词库,其保存将单词或回答句句型、或者该双方按照它们的意思在体系上进行分类后
的分类信息;和
提问句归并单元,其响应于所述提问句生成单元生成了多个提问句这一情况,参照所
述词库将所述多个提问句归并成更少数量的提问句并输出。
4.根据权利要求1~3中任一项所述的提问句生成装置,其中,
所述单词接收单元能接收多个单词,
所述提问句生成用数据库能以由所述单词接收单元接收到的多个单词作为键来检索
与该多个单词同时出现的回答句句型。
5.根据权利要求1~4中任一项所述的提问句生成装置,其中,
所述提问句生成单元包括:
提问/回答生成单元,其以由所述单词接收单元接收到的单词作为键从所述提问句生
成用数据库中检索回答句句型,从检索到的回答句句型和接收到的所述单词生成提问句以
及针对该提问句的回答句。
6.根据权利要求1~5中任一项所述的提问句生成装置,其中,
所述提问应答系统包括:
事实型提问应答子系统,其若被提供事实型的提问句,则将该提问句的句型和该提问
句中包含的单词或单词串作为键来检索回答句生成用数据库并生成回答句候补,
所述提问应答系统的所述回答句生成用数据库和所述提问句生成装置的所述提问句
生成用数据库包含从相同的语料库生成的共同的记录。
7.根据权利要求1~6中任一项所述的提问句生成装置,其中,
所述提问应答系统还包括:
非事实型提问应答子系统,其若被提供非事实型的提问句,则从语料库中提取多个成
为回答句候补的段,通过预先学习完毕的分数算出单元算出表示作为针对被提供的所述提
问的回答的适合度的分数,将具有最上位的分数的回答句候补作为针对被提供的所述提问
的回答而输出,
所述提问句生成装置还包括:
提问句数据库,其存储多个提问句,所述多个提问句各自是从预先准备的不具有提问
和回答这样的明示的区别的段的集合内的任一个段生成的提问句,且以成为生成该提问句
的基础的段作为回答;
第2提问句生成单元,其若接收到成为提问句生成的基础的单词或单词串,则参照所述
提问句数据库,从成为该提问句生成的基础的单词或单词串、或者它们的同义词或含?#20852;?br />们的意思的词、和存储于所述提问句数据库的提问句生成新的提问句并输出;和
用于将所述第1提问句生成单元以及第2提问句生成单元输出的提问句汇总输出的单
元。
8.一种提问句生成装置,与提问应答系统一起使用,其中,
所述提问应答系统包括:
非事实型提问应答子系统,其若被提供非事实型的提问句,则从语料库中提取多个成
为回答句候补的段,通过预先学习完毕的分数算出单元在各段算出表示作为针对被提供的
所述提问的回答的适合度的分数,将具有最上位的分数的回答句候补作为针对被提供的所
述提问的回答而输出,
所述提问句生成装置包括:
提问句数据库,其存储多个提问句,所述多个提问句各自是从所述语料库内的任一个
段生成的提问句,且以成为生成该提问句的基础的段作为回答;和
提问句生成单元,其若接收到成为提问句生成的基础的单词或单词串,则参照所述提
问句数据库,从成为该提问句生成的基础的单词或单词串、或者它们的同义词或含?#20852;?#20204;
的意思的词、和存储于所述提问句数据库的提问句生成新的提问句并输出。
9.一种计算机程序,使计算机作为与提问应答系统一起使用的提问句生成装置发挥功
能,其中,
该计算机与提问句生成用的多个记录所构成的提问句生成用数据库连接来使用,所述
多个记录各自以单词作为键且包含在所述提问应答系统中使用的与该单词同时出现的回
答句句型,
所述计算机程序使所述计算机作为如下单元发挥功能:
单词接收单元,其接收成为提问句生成的基础的单词或单词串;和
提问句生成单元,其以由所述单词接收单元接收到的单词作为键从所述提问句生成用
数据库中检索回答句句型,从检索到的回答句句型和接收到的所述单词生成提问句。

?#24471;?#20070;

提问句生成装置以及计算机程序

技术领域

本发明涉及提问应答系统,特别涉及使利用者更易于使用提问应答系统的技术。

背景技术

已经开发出了应用自然语?#28304;?#29702;技术的各种提问应答系统。在这样的系统中,若
将自然语言句子所构成的提问句提供给系统,则回答以自然语言句子给出。在计算机技术
以及网络技术实现了长足进步的现在,广泛利用这样的提问应答系统的条件已经齐备。但
是,广泛渗透到一般的用户的提问应答系统可以说完全没有。

作为其理由而能考虑各种理由。例如在现有的提问应答系统中,用户关于自己感
兴趣的事情创建提问句,提供给提问应答系统,并接收其回答。但是,即使如这样对提问应
答系统提问,也很少会得到正确的答案,大多情况下必须多次重新进行提问。若这样的情况
重复发生,最初对提问应答系统怀?#34892;?#36259;的用户最后也不再利用提问应答系统。另外,即使
用户怀有某些疑问,很多情况下也不能将其表现为具体的提问。而提问应答系统若不以某
些形态进行具体的提问,就得不到回答。因此,即使有某些疑问,只要不能使其成为明确的
提问句的形态,就得不到正确的回答,结果是难以效率良好地使用提问应答系统。

另一方面,还有利用所谓的关键词的信息检索这样的技术。在该技术中,若将关键
词提供给系统,就从数据库中检索与该关键?#20351;?#32852;高的句子,对用户显示该句子。在该方法
中,存在以下问题:若?#20063;?#21040;正确的关键词就得不到适合的信息作为针对提问的回答。并
且,由于对于提问不能得到精确的回答,因此还存在必须阅读检索到的大量文档的问题。

作为这样的对关键词检索进行辅助的技术,有以?#28388;?#35859;的关键词建议功能:若输
入关键词,就实时辅助显示与该关键词同时输入的机会多的关键词。用户能通过选择被建
议的关键词来提高检索的精度。

但是,存在即使使用了关键词建议功能也不能使关键词之间的关系明确这样的问
题。看起?#35789;牽?#21482;要不能指定多个关键词在怎样的状况下使用,检索的精度就会停滞在?#25345;?br />程度的阶段。结果,不能解决用户不阅读大量的文档就得不到回答这样的问题。

发明内容

发明要解决的课题

现有的提问应答系统未渗透到用户的原因被认为是作成提问句时的成本的高低。
在提问应答系统中,用户根据自身的兴趣来作成适当的提问句并不一定很容易。例如,对于
虽然对TPP?#34892;?#36259;但不知道能问询什么才好的用户来说,现有的提问应答系统无能为力。另
外,为了得到更好的结果,用户需要多?#26410;?#24314;提问句并进行变更来对系统进行询问。即使用
户为了作成提问句而花费了时间,只要所得到的回答与其时间不相称,用户就也不会再积
极地利用提问应答系统。

另一方面,在利用了关键词建议功能的关键词检索的情况下,输入成为关键词的
罗列。得到的结果虽然?#37096;?#33021;是与关键词的关联高的文档,但给出针对用户的提问的适当
的回答的可能性不高。其结果是,用户为了得到针对自己的疑问的回答而需要阅读大量的
检索的结果得到的文档,便利性很低。

因此,在利用自然语?#28304;?#29702;技术的提问应答系统中,谋求用于使提问句的作成成
本?#26723;?#19988;用户能容易地生成基于自然语言句子的适当的提问句的技术。这?#20445;?#26399;望不准备
人工的回答就能生成对各种领域的用户的提问都能得到适当的回答的提问句。

因此,本发明的目的在于,提供对用户进行辅助的装置以及计算机程序,在想要利
用提问应答系统针对用户?#34892;?#36259;的问题得到回答的情况下,用户能容易地作成能得到精度
高的回答的提问句。

本发明的其他目的在于,提供对用户进行辅助的装置以及计算机程序,针对用户
?#34892;?#36259;的问题,能容易地作成保证能在提问应答系统中得到具有一定以上的精度的回答的
提问句。

用于解决课题的手段

本发明的第1?#32622;?#25152;涉及的提问句生成装置与提问应答系统一起使用,包括:单词
接收单元,其接收成为提问句生成的基础的单词或单词串;和提问句生成用数据库,其由提
问句生成用的多个记录构成。多个记录各自以单词作为键(key)且包含在提问应答系统中
使用的与该单词同时出现的回答句句型(pattern)。提问句生成装置还包括第1提问句生成
单元,该第1提问句生成单元以由单词接收单元接收到的单词作为键从提问句生成用数据
库中检索回答句句型,从检索到的回答句句型和接收到的单词生成提问句。

优选地,提问句生成装置还包括?#21644;?#20041;词辞典,其保存单词或回答句句型、或者该
双方的同义关系或含意关系;和提问句归并单元,其响应于提问句生成单元生成了多个提
问句这一情况,参照同义词辞典将多个提问句归并成更少数量的提问句并输出。

更优选地,提问句生成装置还包括:词库(thesaurus),其保存将单词或回答句句
型、或者该双方按照它们的意思在体系上进行分类后的分类信息;和提问句归并单元,其响
应于提问句生成单元生成了多个提问句这一情况,参照词库将多个提问句归并成更少数量
的提问句并输出。

更优选地,单词接收单元能接收多个单词,提问句生成用数据库能以由单词接收
单元接收到的多个单词作为键来检索与该多个单词同时出现的回答句句型。

提问句生成单元可以包括提问/回答生成单元,该提问/回答生成单元以由单词接
收单元接收到的单词作为键从提问句生成用数据库中检索回答句句型,从检索到的回答句
句型和接收到的单词生成提问句以及针对该提问句的回答句。

提问应答系统可以包括事实型提问应答子系统,该事实型提问应答子系统若被提
供事实型的提问句,则将该提问句的句型和该提问句中包含的单词或单词串作为键来检索
回答句生成用数据库并生成回答句候补。提问应答系统的回答句生成用数据库和提问句生
成装置的所述提问句生成用数据库能包含从相同的语料库生成的共同的记录。

优选地,提问应答系统还包括非事实型提问应答子系统,该非事实型提问应答子
系统若被提供非事实型的提问句,则从语料库中提取多个成为回答句候补的段(passage),
通过预先学习完毕的分数算出单元算出表示作为针对被提供的提问的回答的适合度的分
数,将具有最上位的分数的回答句候补作为针对被提供的所述提问的回答而输出。提问句
生成装置还包括:提问句数据库,其存储多个提问句,该多个提问句各自是从预先准备的不
具有提问和回答这样的明示的区别的段的集合内的任一个段生成的提问句,且以成为生成
该提问句的基础的段作为回答;第2提问句生成单元,其若接收到成为提问句生成的基础的
单词或单词串,则参照提问句数据库,从成为该提问句生成的基础的单词或单词串、或者它
们的同义词或含?#20852;?#20204;的意思的词、和存储于提问句数据库的提问句生成新的提问句并输
出;和用于将第1提问句生成单元以及第2提问句生成单元输出的提问句汇总输出的单元。

本发明的第2?#32622;?#25152;涉及的提问句生成装置与提问应答系统一起使用。提问应答
系统包括非事实型提问应答子系统,该非事实型提问应答子系统若被提供非事实型的提问
句,则从语料库中提取多个成为回答句候补的段,通过预先学习完毕的分数算出单元在各
段算出表示作为针对上述提问的回答的适合度的分数,将具有最上位的分数的回答句候补
作为针对上述提问的回答而输出。提问句生成装置包括:提问句数据库,其存储多个提问
句,该多个提问句各自是从语料库内的任一个段生成的提问句,且以成为生成该提问句的
基础的段作为回答;和提问句生成单元,其若接收到成为提问句生成的基础的单词或单词
串,则参照提问句数据库,从成为该提问句生成的基础的单词或单词串、或者它们的同义词
或含?#20852;?#20204;的意思的词、和存储于提问句数据库的提问句生成新的提问句并输出。

本发明的第3?#32622;?#25152;涉及的计算机程序是使计算机作为与提问应答系统一起使用
的提问句生成装置发挥功能的计算机程序。该计算机与提问句生成用的多个记录所构成的
提问句生成用数据库连接来使用。多个记录各自以单词作为键且包含在提问应答系统中使
用的与该单词同时出现的回答句句型。计算机程序使计算机作为如下单元发挥功能:单词
接收单元,其接收成为提问句生成的基础的单词或单词串;和提问句生成单元,其以由单词
接收单元接收到的单词作为键从提问句生成用数据库中检索回答句句型,从检索到的回答
句句型和接收到的单词生成提问句。

附图?#24471;?br />

图1是表示利用了采用本发明的实施方式所涉及的提问句生成装置的提问应答系
统的网络的整体构成的概略框图。

图2是表示本发明的实施方式所涉及的提问应答系统的整体构成的框图。

图3是表示图2所示的提问应答系统当中的提问应答子系统的构成的框图。

图4是表示图3所示的提问应答子系统当中的事实型提问应答子系统的构成的框
图。

图5是表示图3所示的提问应答子系统当中的非事实型提问应答子系统的构成的
框图。

图6是表示图2所示的提问应答系统当中的事实型提问句生成子系统的构成的框
图。

图7是表示图2所示的提问应答系统当中的非事实型提问句生成子系统的构成的
框图。

图8是表示在图2所示的提问应答系统中按照输入对处理进行划分的程序的控制
结构的流程图。

图9是表示图2所示的提问应答系统的初始画面的一例的图。

图10是表示在图9所示的画面中输入单词等时显示的提问应答系统的画面的一例
的图。

图11是表示实现采用本发明的实施方式所涉及的提问句生成装置的提问应答系
统的计算机的硬件构成的框图。

具体实施方式

在以下的?#24471;?#20197;及附图中,对同一部件标注同一参照编号。因此,不再重复对它们
的详细的?#24471;鰲?br />

[构成]

在到此为止开发出的提问应答系统中,对于例如“安倍政权在寻求什?#30784;?#36825;样的提
问,生成“A在寻求B”这样的句型,以该句型和A?#20581;?#23433;倍政权”这样的2个键来检索数据库,得
到相当于B的单词作为回答。数据库从因特网的WEB?#38236;?#25910;集大量的句子,以一个单词和句
型作为键,以另一个单词作为回答而登记在表格中,由此进行准备。在该示例中,若数据库
中有“安倍政权在寻求参加TPP”这样的句子,则对于上述那样的提问就能从数据库中得到B
?#20581;安?#21152;TPP”这样的回答。

在提问中,有以下提问:作为回答,能用单纯的单词或短的词组来回答的类型的提
问(称作事实型提问);和理由、做事的方法等不能用单词或短的词组来回答的类型的提问
(称作非事实型提问)。上述所示的“安倍政权在寻求什?#30784;?#26159;事实型提问的示例。“安倍政权
为什么要寻求TPP”是非事实型提问的示例。以?#28388;得?#30340;实施方式所涉及的系统?#36824;?#23545;事实
型提问还是对非事实型提问,都通过对用户提示提问例来进行用于用户进行适当的提问的
辅助。

参照图1,采用本发明的一实施方式所涉及的提问句生成系统的提问应答系统164
与因特网162连接,用于对从与相同的因特网162连接的移动终端166以及计算机168提供的
提问句给出适当的回答。提问应答系统164为此预先从因特网上的WEB?#38236;?#30340;集合170收集
大量的文本数据,生成用于生成针对提问的应答的数据库(以下称作“DB”)并保持。

图2是表示图1所示的提问应答系统164的概略构成的框图。参照图2,提问应答系
统164包括:提问应答系统用语料库200,其由从因特网收集的句子构成;前处理部202,其进
行前处理,该前处理用来从存储于提问应答系统用语料库200的句子生成针对提问的回答
的生成用DB以及用于辅助用户作成适当的提问句的提问句生成用DB;提问应答子系统240,
其若被提供提问句,则检索自己所保持的回答生成用DB来生成并输出自然语言的回答句;
事实型提问句生成子系统242,其若接收到1个或多个单词(以下称作“单词等”),则以该单
词等作为键,参照事实型提问句生成用DB,来生成以与该单?#20351;?#32852;的单词、事物等作为回答
的多个事实型提问句,并输出其列表;非事实型提问句生成子系统244,其若接收到单词等,
则基于该单词等,参照非事实型提问句生成用DB,来生成探寻与该单?#20351;?#32852;的某些理由、方
法、定义等的非事实型提问句;提问应答系统的前端210;提问应答子系统用数据生成部
204,其使用前处理部202的输出来生成用于提问应答子系统240的DB;事实型提问句生成子
系统用数据生成部206,其使用前处理部202的输出来生成用于事实型提问句生成子系统
242的DB;和非事实型提问句生成子系统用数据生成部208,其使用前处理部202的输出来生
成用于非事实型提问句生成子系统244的DB。

前端210包括:接口230,其提供向因特网162的连接;WEB服务器232;WEB?#38236;?#21709;应
用DB234;WEB?#38236;?#21709;应用程序存储部236;和程序执行系统238,其按照经由接口230以及WEB
服务器232从其他终端给出的请求,从WEB?#38236;?#21709;应用程序存储部236读出适当的程序,从
WEB?#38236;?#21709;应用DB234中检索适当的数据来生成WEB页面,经由WEB服务器232以及接口230回
信给对方终端。对于程序执行系统238来说,若接收到的请求是提问的?#38382;?#23601;对提问应答子
系统240提供该提问,将从提问应答子系统240得到的回答回信给对方终端。若请求是单词
等的?#38382;劍?#23601;对事实型提问句生成子系统242以及非事实型提问句生成子系统244提供该单
词等,将得到的提问句回信给对方终端。

图3表示提问应答子系统240及其关联构成,参照该图3,前处理部202包括:词素解
析部280,其对提问应答系统用语料库200内的各句子进行词素解析,附加词类、活用形、读
法等语法信息来作为词素串输出;和修饰被修?#35859;?#26512;部282,其使用词素解析部280输出的
词素串来对句子的修饰被修饰关系进行解析,用以词为节点、以它们之间的修饰被修饰关
系为边的网络(图表)?#38382;?#36827;行输出。

提问应答子系统用数据生成部204包括:辞典300,其存储单词的意思类;句型收集
部308,其使用存储于辞典300的信息,从由修饰被修?#35859;?#26512;部282输出的修饰被修饰关系的
网络提取各种句型来作成句型辞典304,并基于句型收集部308的输出来生成回答句生成用
DB306,该回答句生成用DB306以如下?#38382;?#26469;存储回答句候补,即,若被提供某单词和句型
ID,则能以该单词和句型ID作为键来检索与它们同时出现的其他单词;和DB构建部302,其
接受修饰被修?#35859;?#26512;部282的输出,用来构建用于非事实型提问应答子系统332的解析完毕
语料库310。回答句生成用DB306为了实现上述的功能,在本实施方式中,以能高速检索的形
式来存储由成为键的单词以及句型ID和成为检索对象的单词这3个一组所构成的大量的记
录。

提问应答子系统240包括:事实型提问应答子系统330,其生成针对事实型的提问
的回答;非事实型提问应答子系统332,其生成针对非事实型的提问的回答;提问类别判定
部334,其接受提问句260,判定该提问句是事实型提问句还是非事实型提问句,并输出判定
结果;提问划分部336,其接受提问句260和提问类别判定部334的输出,按照提问句的类别
将提问句260划分成给事实型提问应答子系统330的提问句340、和给非事实型提问应答子
系统332的提问句342;和回答选择部338,其接受事实型提问应答子系统330输出的回答句
344和非事实型提问应答子系统332输出的回答句346,按照提问类别判定部334输出的提问
类别选择某一个,作为回答句262?#35789;?#20986;。

事实型的提问句和非事实型的提问句的形态不同。因此,作为提问划分部336,也
能采用遵循基于提问句的形态的规则来划分提问句这样的方案。但在本实施方式中,使用
以下方案:将预先收集大量事实型的提问句和非事实型的提问句而得到的数据作为指导训
练数据,进行机器学习以便对两者进行判别。例如能使用SVM(Support Vector Machine:支
持矢量机)。

另外,图2所示的事实型提问句生成子系统用数据生成部206具有与非事实型提问
句生成子系统用数据生成部208相同的构成。关于该非事实型提问句生成子系统用数据生
成部208的详细情况在后面叙述。

图4是表示事实型提问应答子系统330的概略构成的框图。事实型提问应答子系统
330包括:句型辞典304,其将句型与各句型ID一起存储;前述的回答句生成用DB306;词库
360,其将单词以及句型按照它们的意思类在体系上进行分类;同义词/含意辞典362,其存
储单词间以及句型间的同义?#20351;?#31995;以及含意关系;提问解析部364,其接受提问句340,利用
句型辞典304、词库360以及同义词/含意辞典362对提问句340进行解析,输出对提问句的句
型进行确定的句型ID和提问句中出现的单词;查询生成部366,其基于提问解析部364的输
出来生成用于从回答句生成用DB306取出需要的信息的查询语句;回答句检索部368,其利
用查询生成部366生成的查询语句来检索回答句生成用DB306;和回答选择部370,其从回答
句检索部368输出的回答句中选择最适合的回答作为针对提问句340的回答句,并作为回答
句344输出。另外,句型辞典304还按每个句型保存向以具有该句型的句子出现在提问应答
系统用语料库200中的句子访问的访问信息。因此,只要获知句型ID,就能容易地访问具有
该句型的句子。

另外,在以下的记载中导入的词库以及同义/含意辞典均与词库360以及同义词/
含意辞典362同样地,不仅分别存储针对单词的还分别存储针对句型的它们的分类信息以
及同义关系/含意关系。另外,作为句型,不仅包含“A?#19981;禮”、“A寻求B”这样的含2个变量的
句型,还包含“吃X”、“引起X”这样的仅含1个变量的句型。另外,?#37096;?#20197;使含3个以上变量的
句型包含在句型辞典中。

参照图5,非事实型提问应答子系统332使用从前述的图2所示的提问应答系统用
语料库200得到的解析完毕语料库310。

针对该解析完毕语料库310,为了使全文检索高速进行而预先作成与单词等相关
的索引。非事实型提问应答子系统332如后述那样包括:SVM402,其用于输出表示回答句候
补是何种程度适合作为针对提问句342的回答句的分数;SVM学习部400,其使用提问应答系
统用语料库200来进行SVM402的学习;回答句生成部404,其参照解析完毕语料库310生成针
对提问句342的回答候补,使用SVM402来附加次序,将最上位的回答候补作为回答句346输
出。

回答句生成部404包括:提问句解析部450,其接收提问句342,对提问句342进行预
?#28909;?#23450;的语法上的解析,针对提问句342中包含的各单词,输出为了生成特性而需要的信息
(词类、活用形、修饰被修饰结构等);候补句检索部452,其使用提问句解析部450的输出和
提问句,对解析完毕语料库310进行全文检索,来提取针对提问的给定个数的回答候补句;
和回答候补句存储部454,其将候补句检索部452提取到的回答候补句与这些语法信息一起
存储。另外,在此所说的“回答候补句”并不限于通常的意义上的一句,?#37096;?#20197;是多个句子。
以下,将这样的一句或多个句子的汇集称作“段”(passage)。另外,在此所说的“句”并不一
定仅是通常意义的“句?#20445;?#36824;?#24863;?#25104;句子的一部分的句子。

回答句生成部404还包括:特性矢量生成部456,其针对提问句342与存储于回答候
补句存储部454的回答候补句的组合的每一个生成以提问句解析部450输出的特性和从回
答候补句得到的特性作为分量的特性矢量并输出;和回答句排序部458,其针对特性矢量生
成部456输出的特性矢量的每一个,使用SVM402进行评分,按照分数对与特性矢量对应的回
答候补句进行排序,并作为回答句346输出。

SVM学习部400用于预先进行SVM402的学习。SVM学习部400包括:QA句提取部420,
其从解析完毕语料库310提取提问以及回答成为对的句子(以下称为QA句);和QA句存储部
422,其存储QA句提取部420输出的QA句。在此,所谓QA句,是指提问与其回答的组。在因特网
上例如存在能使提问句和其回答成为配对来检索的?#38236;恪?#20197;及能检索或一览显示专门用语
的定义等的?#38236;?#31561;。通过对从这些?#38236;?#25910;集的信息实施简单的加工,能提取众多的QA句。该
情况下的回答句可以是一句,但?#37096;?#20197;是前述的段单位。在QA句存储部422中还存储作为QA
句并不是正确的组合的QA句。这些不正确的QA句可以手输入,?#37096;?#20197;组合从解析完毕语料
库310随机提取的2个句子。对QA句的每一个附加表示这些QA句是否是正确的组合的标记。
SVM学习部400还包括:学习数据生成部424,其从存储于QA句存储部422的各QA句生成用于
进行SVM402的有指导训练学习的学习数据;学习数据存储部426,其存储学习数据生成部
424输出的学习数据;和学习处理部428,其使用存储于学习数据存储部426的学习数据来进
行SVM402的学习。通过进行这样的学习,SVM402被最优化,以便输出表示被提供的QA句是否
是正确的QA句的输出和表示其可靠度的分数。

作为用作在此的SVM的学习数据的特性而考虑以下各种。例如在提问句具有询问
某些事项的理由的“为什么...”这样的?#38382;?#30340;情况下,在回答句候补内存在“理由”、“?#19988;?br />为”、“根据”等成为判定是针对这样的提问句的适当的回答的线索的词(线索词)。能将是否
有这样的线索词作为特性之一。作为特性,除此以外,还能使用提问句内的内容词如何出现
在回答句中、这些内容词与线索词的位置关系如何,在提问表示针对某事物的善恶的判断
的情况下,还能使用回答句中是否有表示与该判断相同的判断的部分、存在于提问中的独
立词是否集中出现在回答句内等。一般认为,在适合作为针对某提问句的回答的回答句中,
存在该提问句本身、或该提问句多少变形后的句子。另外,在适合针对提问句的回答的回答
句中,存在很多存在于提问句中的独立词,且它们大多汇合出现。若它们集中在线索词的附
近,回答句就进一步成为适合作为针对提问句的回答的回答句。因此,期望将以上所述那样
的特性用在回答句的合格性的评分中。

图6是表示事实型提问句生成子系统242的概略构成的框图。参照图6,事实型提问
句生成子系统242包括:句型辞典500,其是与图4所示的句型辞典304同样地构建的辞典,能
以单词和句型ID作为键,从提问应答系统用语料库200中检索包含该单词且具有由该句型
ID确定的句型的句子;提问句生成用DB502,其由包含多个记录的表格构成;候补检索部
504,其接受单词等480;和提问句生成部506,其使用从候补检索部504输出的句型ID以及句
型辞典500来检索提问应答系统用语料库200,读出包含对应的句型和单词等的回答句并变
形成提问句?#38382;劍?#20316;为提问句候补输出。提问句生成用DB502与图4所示的回答句生成用
DB306同样地从提问应答系统用语料库200生成。提问句生成用DB502以能高速检索的?#38382;?br />存储由2个单词和1个句型ID这3个一组所构成的大量的记录。在本实施方式中,提问句生成
用DB502的各记录的内容与图4所示的回答句生成用DB306完全相同,记录数也相同。但在回
答句生成用DB306中,是以一个单词和句型ID作为键来检索另一个单词的构成,与此相对,
在提问句生成用DB502中,成为以某单词作为键来检索句型ID和另一个单词的构成,在这点
上不同。因此,若用RDB来构建回答句生成用DB306和提问句生成用DB502,则仅是改变SQL语
句就行,能由两者共用1个DB。在本实施方式中,重视响应性而将回答句生成用DB306和提问
句生成用DB502设为分开的DB,但实质上由于两者能利用相同的数据以相同的记录构成来
构建,所以具有不需要为了重新创建特别的DB以便提示提问句而从数据的收集开始进行的
效果。

另外,并不需要提问句生成用DB502和回答句生成用DB306的记录的内容以及记录
数彼此完全相同。若提问句生成用DB502是回答句生成用DB306的子集,则使用提问句生成
用DB502生成的提问句必然会在回答句生成用DB306中找到回答。因此,能将保证以一定的
精度得到回答的提问句提示给用户。

进而,即使在假设回答句生成用DB306中没有的记?#21363;?#22312;于提问句生成用DB502的
情况下,也能用与回答句生成用DB306不同的手段得到针对它们的回答。例如如针对算术计
算的回答那样,还考虑能以一定的算法得到回答这样的提问。在这样的情况下,不需要对应
的记?#21363;?#22312;于回答句生成用DB306中。因此,在提问句生成用DB502中?#37096;?#20197;存在回答句生
成用DB306的子集以外的记录。在该情况下,能从回答句生成用DB306的子集简单地生成提
问句生成用DB502这样的效果也不会改变。

另外,在上述实施方式中,回答句生成用DB306的记录和提问句生成用DB502的记
录的内容相同。即,回答句生成用DB306的记录的列(column)构成和提问句生成用DB502的
列构成相同。但两者不需要严格相同。例如,在设置“从短的回答起?#26469;?#26174;示”或“按照回答
?#26377;?#21040;旧的次序显示”等选项作为提问应答系统的回答显示中的回答的显示顺序的情况
下,有时会在回答句生成用DB306的各记录中没置回答的?#22336;?#25968;或回答记录的最初的收集
?#29031;?#26679;的列。并不需要针对它?#19988;?#22312;提问句生成用DB502中进行设置。同样的事情还能反过
来说。

即,对于回答句生成用DB306和提问句生成用DB502来说,在也将记录的列构成包
括在内的情况下,只要有相互共同的部分即可。即,作为各记录的列,?#37096;?#20197;将本实施方式
?#20852;得?#30340;构成作为共同部分,在这些以外存在相互?#36824;?#21516;的列,作为DB整体,除了相互对应
的、即?#19978;?#21516;语料库的相同部?#20013;?#25104;的共同的记录以外,这些以外的记录?#37096;?#20197;存在于各
DB中。

即使设为这样的构成,能以回答句生成用DB306为基础来构建提问句生成用DB502
的效果也不会改变。

事实型提问句生成子系统242进一步包括:词库508;同义词/含意辞典510;评分规
则存储部514,其存储用于对提问句进行评分的评分规则;和提问句归并/选择部512,其使
用词库508以及同义词/含意辞典510将提问句中相似的提问归并,将剩下的提问句按照存
储于评分规则存储部514的规则进行评分,选择分数高的提问句?#35789;?#20986;提问句列表482。提
问句生成用DB502的各记录成为能以单词作为键来参照与该单词同时出现的句型的?#38382;健?br />另外,在提问归并/选择部512所进行的提问句的归并中,使用以下那样的手法。

·利用单词的同义关系,将处于同义关系的单词统一成代表单词。

·针对句型也利用同义关系,将处于同义关系的句型统一成代表句型。

·针对单词以及句型的含意关系也进行同样的处理。但在该情况下,在是处于含
意关系的2个单词的情况下,统一成意思上位于上位的单词,即统一成含有下位词的意思的
词。针对句型也同样。

·这样的置换的结果,针对成为同一或大致同一的提问句,留下这当中1个,删除
其他。

另外,针对使代表单词以及代表句型为怎样的单词以及句型,只要预先存储在词
库以及同义/含意辞典中即可。代表单词以及代表句型既可以人工登记,?#37096;?#20197;通过某些机
器学习来预?#28909;?#23450;。另外,上述的单词以及句型的统一的顺序可以以任何顺序进行。可以在
基于单词的同义关系的统一之后进行提问句的统一等,阶段性地进行提问句的归并。

评分规则存储部514存储的评分的规则是作为提问句而将什么样的句子置于上位
这样的与?#38236;?#30340;策略相关联的规则。例如,考虑基于成为提问句的基础的句子中出现的单
词的由词库508指定的类来进行评分,或者根据出现的多个单词的组合来使分数变高变低。
另外,还能基于原本的句子中存在但未出现在提问句中的单词的类来进行评分。不仅是单
词的类,?#37096;?#20197;对全部或一部分单词的每一个附加用于评分的某些信息。进一步地,?#37096;?#20197;
决定评分规则之间适用的优?#20154;?#20301;。该评分规则和遵循该规则的评分计算方法按照一种编
程语言上的策划(Scheme)来设计。因此,存储于评分规则存储部514的评分规则期望能用评
分规则制定用的专用的工具作成、更新。当然,若规则基于文本,则也能由理解了上述的编
程上的策划的用户用例如文本编辑器等来记述该规则。

图7是表示非事实型提问句生成子系统用数据生成部208以及非事实型提问句生
成子系统244的概略构成的框图。

参照图7,非事实型提问句生成子系统用数据生成部208包括:解析完毕语料库
550,其保存图3所示的修饰被修?#35859;?#26512;部282的输出;段分割部552,其将存储于解析完毕语
料库550的各文档分割成各自包含5句左右的句子的段;和分割完毕语料库554,其存储被分
割成段的文档。段分割部552分割的段可以具有相互重复的部分。非事实型提问句生成子系
统用数据生成部208进一步包括:提问句候补提取部556,其从存储于分割完毕语料库554的
各段提取具有提问句的?#38382;?#30340;句子,作为提问句候补;提问句候补生成部558,其从存储于
分割完毕语料库554的各段生成以该段或该段的一部分句子作为回答这样的提问句候补;
提问句候补分数算出部560,其针对提问句候补提取部556以及提问句候补生成部558的各
个输出,使用与图5所示的非事实型提问应答子系统332中学习完毕的SVM402相同的SVM,来
算出作为该段或该段中包含的句子成为回答这样的提问句的分数;和提问句候补选择部
562,其仅选择提问句候补分数算出部560算出的分数为阈值以上的提问句,来构建提问句
DB580。

非事实型提问句生成子系统244包括:提问句DB580,其成为能以单词等作为键来
检索包含该单词等的提问句的?#38382;劍?#35789;库584;同义词/含意辞典582;评分规则存储部586,
其存储对提问句进行评分时的规则,且与图6的评分规则存储部514是同样的;提问句生成
部588,其响应于接受到单词等480这一情况,从提问句DB580以单词等480作为键来读出提
问句,生成多个提问句候补;和提问句归并/选择部590,其通过针对提问句生成部588生成
的多个提问句使用词库584以及同义词/含意辞典582来对同义词、表征同种意思的单词以
及句型等进行归并,从而对提问句候补进行归并,进而利用存储于评分规则存储部586的规
则来算出提问句的分数,按照分数将提问句排顺序,并作为提问句列表484输出。

图8是表示在图2所示的程序执行系统238从终端装置接受到某些请求时用于按照
该请求中附加的用户的输入在提问应答子系统240、事实型提问句生成子系统242以及非事
实型提问句生成子系统244中对处理进行划分的程序的控制结构的流程图。

参照图8,程序执行系统238执行的划分程序包括:步骤610,判定输入是否是提问
句,根据判定是肯定还是否定来使控制的流程分支;步骤612,响应于步骤610的判定是肯定
这一情况而通过图2所示的提问应答子系统240作成针对提问句的回答,将回答作为返回
值,并重回到母例程;步骤614,响应于步骤610的判定是否定这一情况而判定输入是否是单
词等,根据判定是肯定还是否定来使控制的流程分支;步骤616,响应于步骤614的判定是肯
定这一情况而将单词等交给事实型提问句生成子系统242以及非事实型提问句生成子系统
244来作成提问句的排列,将结果汇总成1个排列作为返回值,并重回到母例程;和步骤618,
响应于步骤614的判定是否定这一情况而将表示错误的种类的值代入到表示返回值的变
量,并重回到母例程。

[动作]

具有以上?#24471;?#30340;构成的提问应答系统164如以下那样动作。提问应答系统164的动
作分为准备和服务时这2个阶段。以下?#26469;?#36827;行?#24471;鰲?br />

<准备>

准备阶段进行图4所示的句型辞典304以及回答句生成用DB306的作成、图5所示的
SVM402的学习、图6所示的提问句生成用DB502的作成、图7所示的提问句DB580的作成。另
外,在这些处理之前,预先从因特网上的WEB?#38236;?#25910;集大量的句例来作成提问应答系统用语
料库200。另外还预先准备提问类别判定部334(参照图2)、词库360、同义词/含意辞典362
(均参照图4)、词库508、同义词/含意辞典510以及评分规则存储部514(参照图6)、同义词/
含意辞典582、评分规则存储部586以及词库584(参照图7)等。

(1)句型辞典304以及回答句生成用DB306的作成

参照图3,前处理部202的词素解析部280对保存于提问应答系统用语料库200的各
句子进行词素解析,将附加了词类信息等语法信息的词素串提供给修饰被修?#35859;?#26512;部282。
修饰被修?#35859;?#26512;部282基于被提供的词素串来对原本的句子的修饰被修饰关系进行解析,
作成修饰被修饰关系的网络。修饰被修?#35859;?#26512;部282在作成的网络上提取具有给定的下限
数以上以及给定的上限数以下的节点的全部路径。通过将与这些路径对应的单词连结来得
到1个词组或句子。修饰被修?#35859;?#26512;部282将这样得到的词组或句子提供给句型收集部308。

提问应答子系统用数据生成部204的句型收集部308一边参照辞典300一边将?#26377;?br />饰被修?#35859;?#26512;部282提供的词组以及句子分类成句型。在该分类中,例如通过将属于各词组
以及句子的单词抽象化成它们所属的类,将属于相同的类的单词作为相同单词来处理,由
?#31169;?#30456;同形态的词组以及句子归并成1个句型。句型收集部308使用这样得到的句型以及句
子来生成图4所示的句型辞典304。另外,该句型辞典304由分别被附加?#23435;?#19968;的句型ID的句
型以及句子构成。

句型收集部308还针对各词组或句子,用能以属于它们的单词和句型ID作为键来
检索词组或句子的?#38382;?#26469;作成回答句生成用DB306。

相同地,提问应答子系统用数据生成部204的DB构建部302构建解析完毕语料库
310,该解析完毕语料库310保存修饰被修?#35859;?#26512;部282输出的词组以及句子、和用于对它们
进行全文检索的索引。

(2)SVM402的学习

参照图5,QA句提取部420从解析完毕语料库310提取QA句,并保存于QA句存储部
422。在QA句提取部420中?#37096;?#20197;进一步以手动操作来追加QA句。在QA句存储部422中还存储
作为QA句不是正确的组合的QA句。这些不正确的QA句可以手动输入,?#37096;?#20197;组合从解析完
毕语料库310?#20852;?#26426;提取的2个句子。对QA句的每一个附加表示这些QA句是否是正确的组合
的标记。学习数据生成部424从存储于QA句存储部422的各QA句生成用于进行SVM402的有指
导训练学习的学习数据,保存到学习数据存储部426。学习处理部428使用存储于学习数据
存储部426的学习数据来进行SVM402的学习。通过进行这样的学习,SVM402被优化成输出表
示被提供的QA句是否是正确的QA句的输出和表示其可靠度的分数。

(3)事实型提问句生成子系统242的提问句生成用DB502的作成

参照图6,提问句生成用DB502用与回答句生成用DB306(图3)同样的手法作成。但
提问句生成用DB502是若被提供某单词或单词群就以该单词或单词群作为键来检索句型ID
这样的数据库?#38382;健?br />

(4)非事实型提问句生成子系统244的提问句DB580

图7所示的提问句DB580如以下那样作成。首先,针对解析完毕语料库550(与图5所
示的解析完毕语料库310同样地完成了基于前处理部202的前处理),将各文档分割成以5个
左右的句子为单位的段,在分割完毕语料库554中保存这些段。提问句候补提取部556生成
从存在于各段的单词生成的全部单词串,以简单的句型变换将它们变换成提问句?#38382;健?#20363;
如,设想以下情况:段包含“如大家知道的那样,天是蓝色的。”以及“这?#19988;?#20026;空气中的分子
使太阳光的蓝色部分散射。”这样2个句子。从该段的单词能得到?#25353;?#23478;知道”、“天是蓝色
的”、“这?#19988;?#20026;”、“空气中的分子使太阳光”、“空气中的分子使太阳光的蓝色部分散射”等
大量的单词串。例如,若将这样得到的单词串变换成“为什么...”这样?#38382;?#30340;句型,则能得
到“为什?#21019;?#23478;知道?”、“为什么天是蓝色的?”、“为什么这?#19988;?#20026;?”、“为什么空气中的分子
使太阳光?”、“为什么空气中的分子使太阳光的蓝色部分散射?”等提问句候补。另外,若段
中有相当于提问句的句子或表现,则也将它们提取出来,加入到提问句候补中。

这样得到的提问句候补均被提供给提问句候补分数算出部560。提问句候补分数
算出部560使用图3所示的非事实型提问应答子系统332的SVM402来算出表示这些提问句候
补成为以原本的段作为回答的提问的程度的分数并输出。提问句候补选择部562针对各提
问句候补选择由提问句候补分数算出部560算出的分数为阈值以上的提问句,保存到提问
句DB580。该提问句DB580成为能以单词等作为键来检索包含该单词的提问句的?#38382;健?br />

通过用这样的方法生成提问句,能得到如下那样的效果。即,有时原本的段中包含
的个别的句子单独不能成为某提问句的回答。在这样的情况下,很难从个别的句子生成适
当的提问句。但根据本实施方式,由于从由使用段中的单词的、全部可能的组合构成的单词
串形成提问句,所以例如能得到段中的多个句子组合而成的结果成为回答这样的提问句。
也有时能得到段本身成为回答这样的提问句。

进而,根据上述那样的方法,由于将段中的全部单词的组合作为提问句候补来考
虑,因此还有能非常灵活地生成提问句这样的效果。用于此的算法也简单。在生成单词的组
合?#20445;?#36824;能通过施加某些限制来仅使用满足特定的条件的单词的组合。例如能施加仅具有
修饰被修饰关系的单词的组合、仅由连续的单?#20351;?#25104;的单词串这样的限制。通过这样能抑
制生成单词串时的计算成本。

若考虑如下的事情就能理解用上述的方法能够选择适当的提问句这点。即,若是
成为针对非事实型的提问的正当的回答(或包含成为正当的回答的句子)的段,则应当包含
与该提问在意思上同义或类似的表现或者句子。是说,若预先从段中提取了这样的表现或
句子,则能将该表现或句子作为不论是以该段作为回答的什么样的提问句都同义的提问、
或类似的提问的代表元素。

<服务时>

·初始画面

用户例如在图1所示的计算机168中启动浏览器,输入提问应答系统164的首页的
地址并按下返回键。其结果,图2的接口230接收到该请求,将该请求交给WEB服务器232。在
并未通过该请求特别进行程序的指定?#20445;琖EB服务器232指定用于作成首页的特定的程序并
将该请求提供给程序执行系统238。

程序执行系统238从WEB?#38236;?#21709;应用程序存储部236读出并执行由WEB服务器232指
定的程序。即,程序执行系统238执行所读出的程序中的命令,从WEB?#38236;?#21709;应用DB234中将
必要的信息和指定在程序中输出这一情况的静态的文本进行组合,生成表征首页的HTML文
件并返回给WEB服务器232。WEB服务器232经由接口230将该HTML文件回信给发送来请求的
终端。在该HTML文件中?#24230;?#29992;于请求特定的记事的详细显示的表单(form)。在各表单中指
定对该记事进行确定的信息和用于对其进行处理的程序名。若用户按下请求特定的记事的
详细的表单所具备的按钮,就将用于进行该记事的详细显示的程序名和为了进行详细显示
而需要的信息发送到前端210。若WEB服务器232将该请求提供给程序执行系统238,则程序
执行系统238从WEB?#38236;?#21709;应用程序存储部236读出所指定的程序,按照所指定的条件从WEB
?#38236;?#21709;应用DB234读出记事,生成用来显示的HTML文件并回信给对方终端。前端210如此地
一边按照来自对方终端的请求动态地生成画面一边向对方终端提供各?#20013;?#24687;。

·输入提问句时

若被提供了提问句,则提问应答系统164如以下那样动作。

程序执行系统238若从用户接收到提问句,就将该提问句提供给提问应答子系统
240,将其结果得到的回答句回信给对方终端。若从对方终端取代提问句而接收到单词等,
则程序执行系统238将该单词等提供给事实型提问句生成子系统242以及非事实型提问句
生成子系统244来生成提问句的排列。程序执行系统238生成将这样得到的提问句的排列的
文本?#24230;?#21518;得到的HTML语句,并回信给对方终端。在该示例中,该HTML语句?#24230;?#20102;若点击各
提问句就将该提问句发?#36879;?#21069;端210这样的脚本。

在本实施方式中,若访问了采用提问应答系统164的WEB?#38236;?#30340;首页,就显示图9所
示这样的画面。在该示例中,该WEB?#38236;?#26159;新闻?#38236;恪?#39318;页640由各种要素构成,但在该示例
中,在画面的右中央附近设置了提问句的输入栏642。在紧挨输入栏642的上方显示在输入
栏642中输入提问句或?#34892;?#36259;的单词等这样进行告知的消息。在输入栏642的下方显示广告
栏、天气栏、以及其他在?#23435;?#22270;示的各?#20013;?#24687;。该输入?#24863;?#25104;执行图2所示的特定的程序那
样进行指定的表单的一部分。在此,设用户在输入栏642中输入了例如“安倍政权”这样的
词。

该单词与特定的程序名一起被发送到提问应答系统164的前端210。前端210的程
序执行系统238从WEB?#38236;?#21709;应用程序存储部236读出并执行该特定的程序。该程序包含在
图8中示出控制结构的程序,作为其一部分的例程。其结果,在上面记载的那样的条件下,经
过图8的步骤610→步骤614→步骤616的路径将单词等提供给图2所示的事实型提问句生成
子系统242以及非事实型提问句生成子系统244。

参照图6,事实型提问句生成子系统242的候补检索部504以被输入的单词等480作
为键来对提问句生成用DB502进行检索,取出与该单词等同时出现的回答句的句型ID。提问
句生成部506通过使用从候补检索部504提供的单词等和句型ID来对句型辞典500进行检
索,从而取出对具有该单词等和由句型ID确定的句型的句子进行访问的访问信息。提问句
生成部506还能使用该访问信息来访问提问应答系统用语料库200,取出目标的句子。其结
果,从提问应答系统用语料库200取出具有与候补检索部504输出的句型ID相当的句型且包
含单词等480的句子。由于在提问应答系统用语料库200中存储了大量的句子,因此取出的
句子通常成为相当的数量。提问句生成部506将这样取出的句?#39062;?#24418;成提问句?#38382;健?#20363;如,
设将“安倍政权”这样的词作为单词等480来提供,从提问句生成用DB502取出的句型ID是“A
在寻求B”这样的句型。设在提问应答系统用语料库200中存在“安倍政权在寻求参加TPP。”
这样的句子。由于该句子包含该“安倍政权”这样的词,因此被提问句生成部506从提问应答
系统用语料库200中取出。提问句生成部506针对各句型保持有将句?#39062;?#24418;成提问?#38382;?#30340;规
则。例如对于“A在寻求B”这样的句子保持了例如(1)“A寻求的是什?#30784;?#36825;样的变形、(2)“寻
求B的是谁”这样的变形等作为规则。在此,应用使句型中的单词当中相当于单词等480的单
词留下这样的变形规则。在这里所举出的示例中,采用上述(1)的示例,生成“安倍政权寻求
的是什?#30784;?#36825;样的提问句。

提问句生成部506针对从提问应答系统用语料库200取出的各句子,按照其句型和
单词等用上述那样的处理来生成提问句候补,提供给提问句归并/选择部512。

提问应答系统用语料库200包含从因特网上的WEB?#38236;?#25910;集的大量的句子。因此,
通常存在相同的句子、或者句子的形态或表现虽然多少不同但表征大致相同意思的多个句
子。若将它们全都显示于画面,则作为用户反而会感到麻烦。作为提问句,尽可能显示多样
的内容有助于用户的提问作成。因此,提问句归并/选择部512参照词库508以及同义词/含
意辞典510将同义?#20351;?#24182;到一个单词,或将表征下位概念的多个单词置换成它们的共同的
上位概念的单词,由此对成为相同句子的句子进行归并,或将作为句子的句型不同但内容
相同的句型归并成?#25105;?者。其结果,提问句候补?#36824;?#24182;。提问归并/选择部512进一步按照
存储于评分规则存储部514的评分规则对提问句候补进行评分。按照分数对提问句排顺序,
选择分数的上位的给定数的提问句候补作为提问句列表482?#35789;?#20986;。

参照图7,非事实型提问句生成子系统244若被提供了单词等480,则如以下那样动
作。提问句生成部588若被提供了单词等480,则以该单词作为键来对提问句DB580进行检
索,取出非事实型的提问句候补。在提问句DB580中还存储有大量的提问句。因此,通常提问
句生成部588所取出的提问句候补是大量的。提问句归并/选择部590如这样使用词库584以
及同义词/含意辞典582将大量的提问句候补进行归并。提问句归并/选择部590进一步按照
存储于评分规则存储部586的评分规则对留下的提问句候补进行评分、排顺序,并选择分数
高的给定个数的提问句作为提问句列表484?#35789;?#20986;。

再次参照图2,程序执行系统238生成?#24230;?#20102;从事实型提问句生成子系统242以及
非事实型提问句生成子系统244输出的提问句的文本、和点击提问句时将该提问句发?#36879;?br />提问应答系统164的脚本的HTML源文件,经由WEB服务器232以及接口230发送到对方终端。

在对方终端显示图10所示的页面660。在页面660中,不同于首页640,在输入栏642
的正下方显示基于“安倍政权”这样的单词而作成的多个提问句664。在该示例中,若选择了
提问句664的任一者,则通过?#24230;?#21040;HTML文件的脚本来进行处理以便将该提问句输入到输
入栏642,对提问应答系统164发送包含该提问句的请求。

在该情况下,提问应答系统164如下那样动作。参照图2,该请求经由接口230以及
WEB服务器232被提供给程序执行系统238。程序执行系统238读出并执行在图8中示出控制
结构的程序。

参照图8,在该情况下,步骤610的判定成为肯定,在步骤612中由提问应答子系统
240生成针对该提问句的回答,并发送到对方终端。

更具体地,参照图2,提问句从程序执行系统238被交到提问应答子系统240。参照
图3,接受到提问句260的提问类别判定部334判定该提问是事实型还是非事实型,将判定结
果提供给提问划分部336以及回答选择部338。

若提问是事实型,提问划分部336就将问句340提供给事实型提问应答子系统330,
若是非事实型,提问划分部336就将提问句342提供给非事实型提问应答子系统332。

若提问是事实型,则事实型提问应答子系统330如以下那样动作。参照图4,提问解
析部364使用词库360以及同义词/含意辞典362来对提问句340进行解析,确定与提问句340
对应的回答句的句型的句型ID和提问句中出现的单词并提供给查询生成部366。

查询生成部366以被提供的句型ID?#32479;?#29616;单词作为键来生成用于在回答句生成用
DB306中检索回答候补的查询语句,并提供给回答句检索部368。回答句检索部368通过将该
查询语句引入到回答句生成用DB306,从而从回答句生成用DB306读出回答候补,并提供给
回答选择部370。回答选择部370选择所读出的回答候补当中最适合作为针对提问句340的
回答的回答候补,作为回答句344提供给程序执行系统238。该情况下的回答选择部370所进
行的选择能通过利用了例如提问句340和回答候补中共有的单词的数量、两者的句型的组
合、两者中使用的单词的类以及级别(level)的组?#31995;?#30340;评分来进行。

其结果,与该提问句对应的回答句被从提问应答系统164回信并显示在画面。

另一方面,在提问是非事实型的情况下,非事实型提问应答子系统332如以下那样
动作。参照图5,若接受到提问句342,则提问句解析部450对提问句进行预?#28909;?#23450;的语法上
的解析,针对提问句342中包含的独立词即各单词,作成为了生成特性而需要的信息,并输
出。候补句检索部452基于所输出的信息对解析完毕语料库310进行全文检索,取出给定个
数的包含提问句342?#20852;?#21253;含的各单词的回答候补,并与它们的语法信息一起保存到回答
候补句存储部454中。

特性矢量生成部456按提问句解析部450与存储于回答候补句存储部454的各回答
候补的每个组合,使用它们的语法信息来生成构成与由学习数据生成部424生成的特性矢
量相同的特性矢量。其中,该组成矢量与学习数据生成部424所生成的不同,不具有表示该
组合是否是正确的组合的标记。

回答句排序部458将按提问句与各回答候补的每个组?#31995;?#21040;的特性矢量提供给
SVM402,从SVM402接受分数。该分数表示回答候补是何种程度适合作为针对提问句的回答
句。回答句排序部458将这样得到的提问句与各回答候补的组合根据它们的分数降序地进
行排序,将最上位的回答句作为回答句346?#35789;?#20986;。

在用户从最初起输入了某些提问句的情况下,提问应答子系统240对该提问句与
上述同样地进行处理,将回答回信给对方终端。

[基于计算机的实现]

上述的实施方式所涉及的提问应答系统164能由计算机硬件和安装于其上的软件
?#35789;?#29616;。参照图11,该计算机系统930包括具有存储器端口952以及DVD(Digital Versatile
Disc:数字多功能盘)驱动器950的计算机940、键盘946、鼠标948和监视器942。实际上,由于
所使用的数据库非常大且提问应答系统用语料库200需要大容量的存储装置,以及为了使
响应性良好,而采用基于多个计算机的分散处理。在此,为了方便,作为由1台计算机安装提
问应答系统164来进行?#24471;鰲?br />

计算机940除了包括存储器端口952以及DVD驱动器950以外,还包括:CPU(中央处
理装置)956;与CPU956、存储器端口952以及DVD驱动器950连接的总线966;存储引导程序等
的读出专用存储器(ROM)958;和与总线966连接的存储程序命令、系统程序、以及作业数据
等的随机存取存储器(RAM)960。计算机系统930进一步包括提供向能与其他终端通信的网
络的连接的网络接口(I/F)944。

用于使计算机系统930进行作为提问应答系统164的各功能部的动作的计算机程
序存储于装备在DVD驱动器950或存储器端口952的DVD962或可移动存储器964中,进而转发
给?#25165;?54。或者,程序?#37096;?#20197;通过未图示的网络而发?#36879;?#35745;算机940并存储在?#25165;?54中。
程序在执行时被载入到RAM960。?#37096;?#20197;从DVD962、从可移动存储器964或经由网络I/F944直
接将程序载入到RAM960。

该程序包含使计算机940作为该实施方式所涉及的提问应答系统164的各功能部
进行动作的多个命令。进行该动作所需的基本的功能的几个由在计算机940上进行动作的
操作系统(OS)或第3方的程序、或者安装在计算机940的各种编程工具包的模块提供。因此,
该程序可以不必一定包含实现本实施方式的系统以及方法所需的全部功能。该程序只要包
含命令当中通过用控制成能得到所期望的结果的做法来调用适当的功能或编程工具包内
的适当的程序工具从而执行作为上述的非事实型的提问应答系统的动作的命令即可。计算
机系统930的动作是周知的。因而在此不再重?#30784;?br />

根据上述实施方式所涉及的提问应答系统164,若用户输入自己?#34892;?#36259;的单词等,
则提示与该单词等相关联的提问句即由提问应答系统得到正确的回答的可能性高的提问
的列表。用户通过点击所提示的提问当中能得到自?#21512;?#26395;获知的回答的提问句,从而能以
高的概率得到针对该提问的回答。即,不重复提问句的作成就能容易地得到自?#21512;?#35201;获知
的信息。并且,为了提问提示而需要的资源能由计算机自动准备。因此,具有即使成为对象
的领域很大也能容易地构建上述系统的效果。

关于原本的提问应答系统(上述实施方式中图2所示的提问应答子系统240)的精
度,能预先通过实验来测定。例如,针对非事实型提问,能基于实验结果按由图5所示的回答
句排序部458进行选择时的分数的每个阈值来估计能得到何种程度的精度。在事实型的提
问的情况下,针对按每个提问的句型得到的回答的精度为何种程度,能预先进行测定。以这
些精度为基础,对生成提示给用户的提问句时的分数的阈值以及/或者提问句生成?#20852;?#29992;
的句型施加限制,由此能生成能在该提问应答系统中保证能得到具有一定以上的精度的回
答的提问句。

[变形例]

在上述实施方式中,以语言为日语来进行?#24471;鰲?#20294;本发明并不限定于这样的实施
方式。通过使用与各种语言相应的辞典等,能用同样的构成?#35789;?#29616;用于各种语言的提问应
答系统以及用于此的提问句候补作成子系统。?#37096;?#20197;预先作成用于各种语言的系统,自动
识别所输入的语?#28304;?#32780;以适当的语言用的系统?#35789;?#20986;提问句列表以及回答。

在上述实施方式中,图2所示的事实型提问句生成子系统242以及非事实型提问句
生成子系统244均生成并输出提问句列表。但本发明并不限定于这样的实施方式。例如,也
可以在各提问句候补中附加针对该提问句的回答句来作成HTML文件并输出给浏览器。在该
情况下,针对各提问句候补的回答既可以从最初起就显示,?#37096;?#20197;不显示。在从最初起不显
示的情况下,可以将在用户点击了提问句时进行显示那样的脚本?#24230;?#21040;HTML语句中。

在上述实施方式中,将提问句候补生成为完全的自然语言句子。但?#37096;?#20197;不生成
完全的自然语言句子,例如可以以自然语言句子当中、将作为提问的回答而重要的单词用
某些符号(例如字母表的“X”等)表征的肯定句的?#38382;?#26469;生成提问句候补。

另外,在上述实施方式中,在输入单词等时生成与该单词相关联的提问句候补。但
?#37096;?#20197;不仅如此,还对附带修饰短语的名词短语(体言结尾)等形态的输入进行处理。

在上述实施方式中,生成了事实型和非事实型这两种类型的提问句,但?#37096;?#20197;仅
生成?#25105;?#19968;种。

在上述实施方式中,将句型的一部?#21482;?#20840;部与表示意思上的分类的词库建立关
联。在该情况下,也能通过使用该分类将所生成的提问句限定成与一部分意思类建立关联
的句型。例如在预先将“B出发”这样的句型与“CREATION”这样的类建立关联并得到了包含
与CREATION类建立关联的句型的句子的情况下,能通过在开头附加“为什?#30784;?#32780;生成询问其
理由的提问,能高水平地进行意思上的处理。同样的情况?#37096;?#20197;对名词等来?#24471;鰲?#20363;如设将
“安倍政权”与“政治主体”这样的类建立关联。在该情况下,例如在得到了包含与政治上的
类建立关联的名词的句子的情况下,能生成询问其目的的提问。另外,若将“地球?#29575;?#25928;应”
这样的单词分类到“社会问题”类,则针对包含地球?#29575;?#25928;应这样的单词的句子,能通过组
合句型的意思上的分类来生成询问其结果这样的提问句。另外,本发明并不限定于这样的
实施方式,还能作为对句型仅进行收集、分类这样的系统。

另外,针对这样的包含向意思上的类的分类、以及希望生成的提问的方向性、倾向
等的词库,可以预先从大量的文档中自动学习。

在上述实施方式中,在由用户提供了单词等的情况下生成并提示提问句的候补。
但本发明并不限定于这样的实施方式。例如,?#37096;?#20197;在得到了针对提问句的回答句?#20445;?#20351;用
该回答句?#20852;?#21253;含的单词进一步生成提问句的候补,并提示给用户。若采用这样的方式,则
能针对一次得到了回答的提问进一步进行深入的分析。即,能通过自动生成的多个提问句
的回答的组合进一步生成复杂的提问。

在上述实施方式中,作为针对提问句的回答而提示了单词或回答句。但本发明并
不限定于这样的实施方式。例如可以将与这样得到的回答相关联的新闻报道等的一部分同
时进行提示。

在上述实施方式中,用户没有进行区别。但例如通过进行用户登记来预先将由用
户选择的提问句的倾向作为信息来积蓄,能?#34892;?#21033;用该信息。其结果,能通过上述的提问句
生成系统来更?#34892;?#22320;利用提问应答系统。例如,还能将包含属于用户所喜好的类的单词的
提问句在列表的上位进行提示,或者将用户经常选择的句型的提问句在上位进行提示,或
者基于到此为止的用户的提问选择历史对要提取的提问句所属的领域进行?#25345;?#31243;度的限
定?#35789;?#20986;。

在上述实施方式中,提问候补以单纯的列表?#38382;?#23545;用户进行提示。但提示方法并
不限于此。例如,可以对提问候补基于它们的主题来进行分类,按主题区分来显示。?#37096;?#20197;
在视觉上将属于各主题的提问分类显示于显示面上的不同的区域。尽可能将各区域以颜色
区分来显示。如此,能在视觉上理解所生成的提问相互的关系,用户的提问的选择作业变得
更容易。

在上述实施方式中,在进行非事实型提问句候补的评分?#20445;?#20351;用了SVM402。但评分
所用的方案并不限定于SVM。作为所谓的机器学习中使用的手法,只要是使用模型?#35789;?#20986;针
对输入的某些分数的手法,不论什么样的手法都能使用。

本次公开的实施方式仅是例示,本发明并不仅限制在上述的实施方式。本发明的
?#27573;?#22312;参酌发明的详细的?#24471;?#30340;记载的基础上,由权利要求的各权利要求示出,包含与其
?#20852;?#35760;载的语句等同的意义以及?#27573;?#20869;的全部变更。

产业上的利用可能性

本发明能够利用于对以自然语言给出的提问提供回答的服务、和由这些服务使用
的提问应答系统中。

标号的?#24471;?br />

164 提问应答系统

232 WEB服务器

238 程序执行系统

200 提问应答系统用语料库

204 提问应答子系统用数据生成部

206 事实型提问句生成子系统用数据生成部

208 非事实型提问句生成子系统用数据生成部

240 提问应答子系统

242 事实型提问句生成子系统

244 非事实型提问句生成子系统

304 句型辞典

306 回答句生成用DB

310、550 解析完毕语料库

330 事实型提问应答子系统

332 非事实型提问应答子系统

340、342 提问句

344、346 回答句

360、508、584 词库

362、510 同义词/含意辞典

364 提问解析部

400 SVM学习部

402 SVM

404 回答句生成部

480 单词等

482、484 提问句列表

502 提问句生成用DB

506、588 提问句生成部

512、590 提问句归并/选择部

关于本文
本文标题:提问句生成装置以及计算机程序.pdf
链接地址:http://www.pqiex.tw/p-6091584.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 手机版北京pk10预测 能源股票推荐 陕西福彩快乐10分选号技巧 蓝球体彩胜负 网络棋牌频道怎么收看 如何制作双色球合买格式 吉林十一选五前三直绝招 什么股票配资平台靠谱 双色球基本走势图表 组六胆拖投注