平码五不中公式规律
  • / 19
  • 下载费用:30 金币  

文章生成系统.pdf

关 键 词:
文章 生成 系统
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201480080943.8

申请日:

2014.10.01

公开号:

CN106663087A

公开日:

2017.05.10

当前法律状态:

实审

有效性:

审中

法?#19978;?#24773;: 实质审查的生效IPC(主分类):G06F 17/21申请日:20141001|||公开
IPC分类号: G06F17/21; G06F17/28 主分类号: G06F17/21
申请人: 株式会社日立制作所
发明人: 柳井孝介; 三好利昇; 柳瀬利彦; 佐藤美沙
地址: 日本东京都
优?#28909;ǎ?/td>
专利代理机构: ?#26412;?#23578;诚知识产权代理有限公司 11322 代理人: 龙淳
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201480080943.8

授权公告号:

|||

法律状态公告日:

2017.06.06|||2017.05.10

法律状态类型:

实质审查的生效|||公开

摘要

一种输出对于讨论话题的评论文的文章生成系统,其特征在于,包括:输入讨论话题的输入部;分析讨论话题,判定讨论话题的正反极性和检索中要使用的关键词的讨论话题分析部;使用关键词和表示讨论中的论点的论点词检索消息的检索部;确定生成评论文时使用的上述论点的论点确定部;从检索部所输出的消息中提取就论点所论述的语句的语句提取部;通过重新排列语句来生成文章的语句重新排列部;评价文章的评价部;对文章插入适当的连接词的改写部;和从多个上述文章中将评价最高的文章作为上述评论文输出的输出部。

权利要求书

1.一种输出对于讨论话题的评论文的文章生成系统,其特征在于,包括:
输入所述讨论话题的输入部;
分析所述讨论话题,判定所述讨论话题的正反极性和检索中要使用的关键词的讨论话
题分析部;
使用所述关键词和表示讨论中的论点的论点词检索消息的检索部;
确定生成所述评论文时使用的所述论点的论点确定部;
从所述检索部所输出的消息中提取就所述论点所论述的语句的语句提取部;
通过重新排列所述语句来生成文章的语句重新排列部;
评价所述文章的评价部;
对所述文章插入适当的连接词的改写部;和
从多个所述文章中将评价最高的文章作为所述评论文输出的输出部。
2.如权利要求1所述的文章生成系统,其特征在于:
所述论点确定部通过对所述检索部所输出的消息进行分类,按每个所述消息确定所述
论点。
3.如权利要求1所述的文章生成系统,其特征在于,还包括:
存储部和与所述检索部、所述论点确定部、所述语句提取部、所述语句重新排列部、所
述评价部、所述改写部进行数据交互的接口部,其中,
所述存储部存储有以下内容:
所述检索部要检索的消息的文本数据;
被赋予所述文本数据的注释数据;
根据所述文本数据和所述注释数据生成的检索用索引;
将所述论点、作为?#31181;?#25152;述论点的含义的词语的?#31181;?#35789;、和作为促进所述论点的含义
的词语的论点促进?#20351;?#32852;起来的论点体系。
4.如权利要求3所述的文章生成系统,其特征在于:
所述讨论话题分析部通过判定所述讨论话题的正反极性,确定是使用所述?#31181;?#35789;还是
使用所述促进词来作为所述关键词。
5.如权利要求3所述的文章生成系统,其特征在于:
在所述存储部中还存储有评价模型,
所述评价部分别计算多个所述文章与所述评价模型的似然?#21097;?#23558;似然?#39318;?#39640;的所述文
章作为所述评论文输出。
6.一种输出对于讨论话题的评论文的文章生成方法,其特征在于,包括:
输入所述讨论话题的第1步骤;
分析所述讨论话题,判定所述讨论话题的正反极性和检索中要使用的关键词的第2步
骤;
使用所述关键词和表示讨论中的论点的论点词检索消息的第3步骤;
确定生成所述评论文时使用的所述论点的第4步骤;
从在所述第3步骤输出的消息提取就所述论点所论述的语句的第5步骤;
通过重新排列所述语句来生成文章的第6步骤;
对所述文章进行评价的第7步骤;
对所述文章插入适当的连接词的第8步骤;和
从多个所述文章中将评价最高的文章作为所述评论文输出的第9步骤。
7.如权利要求6所述的文章生成方法,其特征在于:
在所述第4步骤中,通过对所述第3步骤中所输出的消息进行分类,按每个所述消息确
定所述论点。
8.如权利要求6所述的文章生成方法,其特征在于:
在所述第3步骤中对存储有以下内容的存储部进行检索,其中,所述存储部存储有:
要检索的消息的文本数据;
被赋予所述文本数据的注释数据;
根据所述文本数据和所述注释数据生成的检索用索引;
将所述论点、作为?#31181;?#25152;述论点的含义的词语的?#31181;?#35789;、和作为促进所述论点的含义
的词语的论点促进?#20351;?#32852;起来的论点体系。
9.如权利要求8所述的文章生成方法,其特征在于:
在所述第2步骤中,通过判定所述讨论话题的正反极性,确定是使用所述?#31181;?#35789;还是使
用所述促进词来作为所述关键词。
10.如权利要求8所述的文章生成方法,其特征在于:
在所述存储部中还存储有评价模型,
在所述第7步骤中,分别计算多个所述文章与所述评价模型的似然?#21097;?#23558;似然?#39318;?#39640;的
所述文章作为所述评论文输出。

说明书

文章生成系统

技术领域

本发明涉及自动生成对于讨论话题的评论文的系统。

背景技术

输入由自然语言构成的文章,对所输入的文章进行分析,从由自然语言的数据构
成的知?#23545;词?#38598;关联的信息,对收集到的信息进行分析,进行组?#31995;?#21152;工的基础上提示给
用户的系统,其有用性正变得越来越高。作为这种系统的最近最受关注的系统的例子,有问
答系统(question-answering)。

例如专利文献1中公开了一种通过确定词汇答案类型(LAT),进行检索,对检索结
果使用LAT进行分析,由此构建问答系统的方法。

现有技术文献

专利文献

专利文献1:US8332394

发明内容

发明要解决的课题

但是,在像辩论那样正确的答案不止一个,随着各自的立场不同意见不同的情况
下,难以用专利文献1的技术生成答案。在辩论中,在考虑阐述对于讨论话题的意见的论述
文的情况下,由于没有单纯的正?#21453;?#26696;,而是根据立场不同要考虑的价值不同,所以即使用
LAT进行分析也无法将答案缩小范围到一个。

另外,专利文献1的技术中,作为答案只输出单一的名词短语或句子,不能输出由
多个句子构成的文章。这些课题用上述的现有技术是不可能实现的。

本发明鉴于上述问题而完成,目的在于用系统自动生成像辩论中使用的那样的、
阐述对于讨论话题的意见的论述文。

用于解决课题的方法

为?#31169;?#20915;上述课题,例如采用在发明请求保护的范围中记载的结构。本发明包括
多个解决上述课题的技术手段,举出一个例子,是一种输出对于讨论话题的评论文的文章
生成系统,其特征在于,包括:输入讨论话题的输入部;分析讨论话题,判定讨论话题的正反
极性和检索中要使用的关键词的讨论话题分析部;使用关键词和表示讨论中的论点的论点
词检索消息的检索部;确定生成评论文时使用的论点的论点确定部;从检索部所输出的消
息中提取就论点所论述的语句的语句提取部;通过重新排列语句来生成文章的语句重新排
列部;评价文章的评价部;对文章插入适当的连接词的改写部;和从多个文章中将评价最高
的文章作为评论文输出的输出部。

或者,是一种输出对于讨论话题的评论文的文章生成方法,其特征在于,包括:输
入讨论话题的第1步骤;分析讨论话题,判定讨论话题的正反极性和检索中要使用的关键词
的第2步骤;使用关键词和表示讨论中的论点的论点词检索消息的第3步骤;确定生成评论
文时使用的论点的第4步骤;从在第3步骤输出的消息提取就论点所论述的语句的第5步骤;
通过重新排列所述语句来生成文章的第6步骤;对文章进行评价的第7步骤;对文章插入适
当的连接词的第8步骤;和从多个文章中将评价最高的文章作为上述评论文输出的第9步
骤。

发明的效果

通过提取对于论点所阐述的语句并重新排列,能够生成阐述与立场相应的适当的
意见的评论文。

附图说明

图1是表示本发明的文章生成系统的图。

图2是表示文本注释数据的图。

图3是表示论点体系(Ontology,论点实体)的例子的图。

图4是表示讨论话题分析部103的动作的图。

图5是表示检索部104的动作的图。

图6是表示论点确定部105的动作的图。

图7是表示语句提取部106中的动作的图。

图8是表示语句提取部106中的得分计算条件的一例的图。

图9是表示语句重新排列部107的动作的图。

图10是表示评价部108的动作的图。

图11是表示改写部109的动作的图。

图12是表示本发明的辩论系统的硬件结构例的图。

具体实施方式

下面,参照附图对本发明的实施方式进行说明。

[第1实施方式]

以下,对本发明的第1实施方式的文章生成系统进行说明。本发明的第1实施方式
的文章生成系统,是包括结合了9个模块的生成系统和数据管理系统的系统。具体的硬件结
构的例子如图12所示,由输入装置1202、输出装置1202、记录有执行各模块的程序的存储器
1205、包括文本数据DB和文本注释数据DB113等的存储装置1207构成。

图1表示系统的整体图像。100是当输入讨论话题时,输出阐述针对该讨论话题的
意见的论述文的生成系统。101是数据管理系统,是预先保存被进行了数据处理的数据,从
系统100能够进行访问的系统。

在系统100中,?#26469;?#25191;行9个模块。首先由输入部102从用户接受讨论话题的输入。
并且,可以接受对于讨论话题是生成肯定的意见还是生成否定的意见的输入。像这样,通过
明确要生成的文章的立场,能够将本系统用于像辩论这样的讨论的情况。

接着由讨论话题分析部103分析讨论话题,判定讨论话题的正反极性和检索中使
用的关键词。接着,由检索部104用关键词和表示辩论的论点的论点词检索消息(新闻)。例
如在讨论话题为“应该禁止赌场”的情况下,作为关键词可以举出名词短语“赌场”。进而,通
过判定正反极性,能够确定对于“赌场”是使用肯定的论点词还是使用否定的论点词。此处
所谓论点词,是指图3所示的论点体系中的全部单词,特别是在说“论点”的时候,是指300中
记载的“表现讨论的观点的价值观的单词”。另外,?#25353;?#36827;词”是指301中记载的?#25353;?#36827;论点的
词”。另外,“?#31181;?#35789;”是指302中记载的“?#31181;?#35770;点的词”。

对于上述讨论话题,在想要输出肯定意见的情况下,作为论点词选择?#31181;?#36172;场的
“?#31181;?#35789;”对作为关键词的“赌场”进行检索。

在此,讨论话题对“赌场”是否定的,所以采用作为论点词使用“?#31181;?#35789;”的处理。图
3中记载了多个?#31181;?#35789;,但在检索中,通过对“赌场”像这样将论点词和关键词一起来进行检
索,能够检索到对赌场论述肯定和否定的消息。如果仅利用从讨论话题中提取的关键词,则
例如像关于赌场的宣传报道、只记述了去过赌场的感想的博客消息那样的在辩论中不需要
考虑的消息也会大量包含在检索结果中,无法进行适当的检索。

接着,由论点确定部105对所输出的消息进行分类,确定生成意见时使用的论点。
接着,由语句提取部106从所输出的消息中提取关于论点要进行阐述的语句。接着,由语句
重新排列部107通过对所提取的语句进行重新排列来生成文章。接着,由评价部108对所生
成的语句进行评价。接着,由改写部109插入适当的连接词,删除不要的表达。接着,由输出
部110将评价最高的文章作为阐述意见的论述文输出。

数据管理系统101由4个数据库(Data Base)和接口/结构化部11构成。接口DB111
提供针对数据库中?#36824;?#29702;的数据的访?#36866;?#27573;。文本数据DB112是新闻消息等的文本数据,文
本注释数据DB113是被赋予文本数据DB112的数据。检索用索引DB114是用于能够检索文本
数据DB112和注释数据DB113的索引。论点体系(Ontology,论点实体)DB115是将辩论中经常
讨论的论点和其关联词相关联的数据库。

接着,在说明了数据管理系统101之后,对系统100的各部分进行说明。

存储于文本数据DB112中的数据是新闻消息等的文本数据,为了构成评论文而从
该文本数据中提取适当的意见语句,通过将所提取的句子重新排列来生成论述文。因此,文
本数据DB112是构成要输出的论述文的句子的数据源。从因特网抓取英语和日语的新闻消
息来构成文本数据DB112。对各个数据例如分配doc_id作为识别符进行管理。

文本注释数据DB113是存储被赋予文本数据DB112的数据的DB。图2是表示文本注
释数据的例子的图。id是对于注释唯一的识别符。doc_id表示存储于文本数据DB112中的新
闻消息的id。"annotation"表示注释的种类。关于注释的种类在后面叙述。"begin"是注释
的开始位置,在图2的例子中,是指该注释从文本数据的doc_id为001122的消息的第24?#22336;?br />开始。"end"是注释的结束位置,在图2的例子中,是指该注释从文本数据112的doc_id为
001122的消息的第29?#22336;?#32467;束。"ref"是对其他注释的引用,图2的例子中,是指该注释在id
为125123的注释中具有名为"arg0"的链接,并且在id为125124的注释中具有名为"arg1"的
链接。"attr"是注释所具有的属性,具有?#25105;?#30340;哈希值。

作为文本数据,以“Experts said that casinos dramatically increase the
number of crimes.(专家说赌场大大增加了犯罪的数量)”为例,对文本注释数据的附加方
式进行说明。该语句是对赌场带来的危害进行阐述,所以在生成关于赌场的论述文时是有
用的。在此,根据“increase”(增加)这一单词可知“casinos”(赌场)促进“the number of
crimes”(犯罪率),所以对“increase?#22791;?#20104;"promote"的注释。在此,“increase”出现在文本
数据“Experts said that casinos dramatically increase the number of crimes.”的
第40个?#22336;?#31532;47个?#22336;?#25152;以"begin"=40,"end"=47。另外,促进的主体是“casinos?#20445;?br />所以对“casinos?#22791;?#20104;"promote_arg0"这样的另一注释。赋予该“casinos”的"promote_
arg0"的id设想为125123。注释的id由系统自动地唯一地赋予。在这种情况下,为了知道
“increase”与“casinos”的关系,从“increase”的"promote"注释链接到“casinos”的"
promote_arg0"注释。这意味着图2中的“"arg0":["125123"]”。另外,根据“dramatically”
能?#36824;?#27979;促进的程度强,所以"degree"=4。"attr"的surface表示作为文本数据?#31995;?#34920;达
使用怎样的单词,在本例的情况下,promote的文本数据?#31995;?#34920;达为“increase?#20445;?#25152;以"
surface"=increase。

作为注释的种类,有positive、negative、promote、promote_arg0、promote_arg1、
suppress、suppress_arg0、suppress_arg1。positive是具有正面的价值的事情,自然语言
?#31995;?#34920;达例如为benefit(有益)、ethic(道德伦理)、health(健康)?#21462;egative是具有?#22909;?br />的价值,自然语言?#31995;?#34920;达例如为disease(疾病)、crime(犯罪)、risk(风险)?#21462;romote是
表示促进的表达,例如为increase(增加)、invoke(激活)、improve(改善)?#21462;romote_arg0
是促进的主体,promote_arg1是被促进的对象,如之前说明的那样在赋予promote注释时,
根据其周围的句法信息被识别并被赋予。同样,suppress是表示?#31181;?#30340;表达,例如为
decrease(?#26723;?、stop(阻止)、worsen(恶化)?#21462;uppress_arg0是?#31181;?#30340;主体,suppress_
arg1是被?#31181;?#30340;事情,如之前说明的那样在赋予suppress注释时,根据其周围的句法信息
被识别并被赋予。

这些注释能够对文本数据如上述说明的那样应用句法分析的结果预先生成的规
则来生成。另外能够使用CRF++等被称为顺序式标记(sequential labeling)的机器学习方
法等生成。

检索用索引DB114是用于能够检索文本数据DB112和文本注释数据DB113的索引数
据。作为关键词检索用的索引数据,在类似检索用中例如用TF-IDF计算各文本数据的特征
词的统计量,将其向量值作为类似检索用的索引预先存储。或者,使用Solr等软件,通过在
Solr的索引生成用API中输入文本数据、文本注释数据,也能够自动生成检索用索引。

论点体系DB115是将辩论中经常讨论的论点和其关联词相关联的数据库。图3表示
存储于论点体系DB115中的论点体系。栏300表示辩论中经常讨论的论点的价值。栏301表示
促进该价值观的词。栏302表示?#31181;?#35813;价值观的词。例如,作为论点的例子有health(健康)。
这意味着有时在辩论中以健康这一价值是增加还是减少的观点作为论点进行意见的对?#20581;?br />图3的例子中,作为促进health的价值的词,有exercise(运动)、doctor(医生)、organ
donation(器官捐赠)、medicine(医学)?#21462;?#21478;外,作为?#31181;苃ealth的价值的词,有junk food
(垃圾食品)、tabacco(烟草)、alchohol(酒)、smoking(吸烟)?#21462;?#35770;点体系最高不过是50行
程度的数据库,以过去的辩论等为参考而手动生成。

接口部111是提供对文本数据DB112、文本注释DB113、检索用索引DB114、论点体系
DB115的访?#36866;?#27573;的接口,以REST等技术安装。

接着,对系统100的各部分进行说明。

由输入部102从用户接受讨论话题。从Web浏览器等GUI输入讨论话题。作为讨论话
题的例子,有“We should ban smoking in train stations.(是否需要禁止在车站吸烟)”
?#21462;?#21478;外,可以输入后述的候补输出文的数量等的设定。

图4是表示讨论话题分析部103的动作的流程图。在S400中使用OpenNLP等估测讨
论话题中所含的词的POS标签,分析讨论话题的语句的句法,生成句法分析树。在S401中提
取作为中心的动词。回溯句法分析树,查找动词,将位于最靠近ROOT的位置的动作作为中心
动词提取。另外对溯及动词之前Not等的否定表达的出现次数进行计数,如果次数为奇数则
是否定表达,如果为偶数(双重否定等)则不是否定表达。例如在讨论话题“We should ban
smoking in train stations.(我们应该禁止在火车站吸烟)”的情况下,作为动词提取ban
(禁止),且对于ban没有否定表达,所以为无否定表达。

接着在S402中与词典比对,判定讨论话题的正反极性。词典中将accept(接受)、
agree(同意)等表示对对象持肯定立场的动词和ban、abandon(放弃)等表示对对象持否定
立场的动词区分开存储。在本例的情况下,ban通过与词典比对,被判定为是持否定立场的
动词。将其与之前已提取出的有无否定表达一起来判定最终的讨论话题的正反极性。在本
例中,正反极性被判定为是否定的(negative)。另一方面,在“We should not ban
smoking.(我们不应该禁止吸烟)”的讨论话题的情况下,有否定表达、且ban为持否定立场
的表达,所以正反极性判定为是肯定的(positive)。此处判定出的正反极性,是指在接下来
的S403中要提取的名词短语的正反极性。

接着,在S403中提取作为讨论话题的主题的名词短语。从ROOT起仅对讨论话题的
句法分析树中的具有"ROOT"、"S"、"NP"、"VP"、"SBAR"的句法标签的部分树进行搜索,挑出
出现的名词短语。例如在讨论话题“We should ban smoking in train stations.”的情况
下,提取smoking。接着在S404中提取上下文信息。将讨论话题中所含的词中POS标签为CC、
FW、JJ、JJR、JJS、NN、NNP、NNPS、NNS、RP、VB、VBD、VBG、VBN、VBP、VBZ,且在S401和S403没有被
提取的单词作为上下文信息提取。例如在讨论话题“We should ban smoking in train
stations.”的情况下,提取train、station。

接着在S405中进行同义词展开。使用词典计算在S401、S403、S404中提取出的词的
同义词。词典可以使用例如WordNet?#21462;?#20363;如在讨论话题“We should ban smoking in
train stations.”的情况下,作为名词短语提取了smoking,作为其同义词,计算出smoke、
fume。同样,对于S401中提取出的动词和S404中提取出的表示上下文信息的单词也计算同
义词。通过上述步骤,在讨论话题分析部103中从讨论话题中提取作为中心的动词、正反极
性、作为主题的名词短语、上下文信息和它们的同义词。这些都会被用在后级的部件中。

图5是表示检索部104的动作的流程图。在S500中,从文本数据DB112中用检索用索
引DB114的关键词检索用的索引检索包含从讨论话题中提取出的名词短语的消息,取出前
1000件。在S501中同样地从文本数据112中用检索用索引114的关键词检索用的索引检索包
含从讨论话题中提取出的名词短语和上下文信息的消息,取出前1000件。S501是在S500中
加上了上下文信息作为关键词的检索。接着在S502中,计算作为讨论话题中的特征词的统
计量的TF-IDF,提取检索用索引114的类似检索用的索引的与各消息的TF-IDF向量的欧几
里得距离近的1000件。通过进行3个不同的变化的检索,具有不会漏检的效果。

接着,在S503中,按照下式对提取出的3000条消息进行计分。

得分=(从讨论话题中提取出的名词短语出现的次数)

+(论点体系内的单词出现的次数)

-(消息的新旧度)

此处消息的新旧度是指,如果最新年份为2014年,则2014年发行的消息为0,2013
年发行的消息为1,2012年发行的消息为2。接着在S504中,输出得分高的上述100件消息。像
这样,通过提高单词的出现次数高的消息的得分,能够发现与讨论话题、论点的关联性高的
消息。另外,通过对消息的新旧度也进行计分,能够发现反映?#31169;?#26032;的数据的消息,能够增
加最终输出的文章的说服力。

图6是表示论点确定部105的动作的流程图。图6的流程对检索部104输出的各个消
息执行。S600中对论点体系的全部论点k进行循环。图3的例子是以k=health、fortune、
safety……的顺序进行循环。S601中,求取论点体系内的论点k、表示促进k的词、表示?#31181;苉
的词的在该消息中的TF-IDF。实际上,由于包含在用检索部104进行类似检索所用的TF-IDF
向量中,所以从检索用索引114取得该值。TF-IDF按每个单词具有值、所以在论点k、表示促
进k的词、表示?#31181;苉的词存在多个TF-IDF。S602中,计算这些TF-IDF值之和,设为Sk。在S603
中结束循环。S604中将Sk最大的k估测为该消息的论点。该论点表示该消息整体主要是以何
种价值观为重点进行阐述。像这样,按每个消息判别论点,在之后的处理中按每个论点分组
来生成文章,由此能够生成阐述贯穿全文的主张的评论文。因此,像这样按每个消息确定论
点的处理是很重要的。

图7是表示语句提取部106中的动作的流程图。S700中,语句提取部106生成存储要
输出的语句的空列表。S701中进行循?#21453;?#29702;直到在对论点确定部所输出的全部消息的全部
语句执行处理。S702中,按照图8所示的多个条件对语句进行计分。800表示条件的ID,801表
示条件,802表示满足该条件时的点数。在符合图8的各条件的情况下,将对应的点数加分。
语句的得分为全部点数之和。例如某个语句仅满足#1和#4的情况下,该语句的得分为6。在
S703中得分的值为5以上,所以将该语句追加到在S700中所生成的列表中。在S704中结束循
环。S705中将列表中的语句作为语句提取部106的输出。通过这样的结构,能够将一个消息
中与讨论话题和论点无关的语句从接下来的语句重新排列部中要用的候补中除掉。

图9是表示语句重新排列部107的动作的流程图。S900中按每个论点将语句分组。
论点确定部105中估测每个消息中观点是什?#30784;?#30001;此以语句的提取源的消息的论点为关键
将语句分组。例如当由论点确定部105确定的论点仅为5个时,由语句提取部106提取出的语
句被分类为5组。S901中对全部组进行循环。S902中将组内的全部语句?#35789;?#21542;符合主张、理
由、对应例子的哪个种类进行标记(labeling)。该标记能够使用机器学习的方法。例如能够
用Bag-of-words(词包模型)等公知的方法将语句转换为特征?#32943;?#37327;,用SVM等机器学习方
法将其分类。

接着,在S903中通过应用于模板来排列语句,生成论述文。例如在按主张→理由→
例子→主张→理由→例子将主张、理由、例子重复两次的模板的情况下,首先,选择组中的
语句的主张中由语句提取部106计算出的得分最高的主张。同样,以理由、例子、主张、理由、
例子的顺序从得分高的起?#26469;?#36873;择来填入模板。S904中结束循环。

像这样,在语句重新排列部107中,生成关于多个论点的论述文。然后,在接下来的
评价部108中,对由语句重新排列部107生成的多个论述文进行评价,由此首次确定最终输
出文章的论点、即本系统的论述文的立场或价值观。像这样,通过仅使用从确定为相同论点
的消息中抽出的语句生成论述文,能够以一贯性的立场论述的文章。

图10是表示评价部108的动作的流程图。评价部108将重新排列生成的文章视作阐
述对讨论话题的意见的论述文的候补,进行评价,将评价值高的文章作为最终的输出。
S1000中对使用语?#38405;?#22411;生成的论述文的好?#21040;?#34892;评价。这能够用与统计的机器翻译中使
用的方法同样的方法实施。具体来说,收集由人作出的论述文的数据,将它们用n-gram语言
模型或神经网络语?#38405;?#24335;(Neural Network Language Model)等公知的方法预先模型化。
通过对像这样生成的评价模型应用所生成的论述文并计算似然?#21097;?#33021;够将似然率高的论述
文作为评价值高的论述文输出。不必说评价方法并不限定于此,能够使用其他公知的方法
或启发式的规则或基准,对所生成的论述文进行评价。

S1001中将评价值高的3个论述文输出。在评价部108中输入由语句重新排列部107
按每个论点分组后的组数的论述文。通过S1001,输出最终的3个论述文。本实施例中,使用
本系统的用户,为了容易在短时间内掌握文章的内容而输出3篇文章,但?#37096;?#20197;根据通过输
入部输入的用户的设定,变更要输出的文章的数量。通过采用这样的结构,能够进行与用户
的知?#31471;?#24179;相应的使用。

图11是表示改写部109的动作的流程图。S1100中对呼应关系的偏差进行修正。具
体来说,在论述文的各语句中,对提取源的消息用上述的OpenNLP执行共同参照分析。使用
其结果,?#19994;?#20316;为论述文中的语句的代名词的参照对象的名词和固有名词,替换该代名词。
S501中,补充上连接词。对论述文的连续的2个语句,如果在后面的语句的开头有连接词,则
首先将其去除。接着,将连结前一语句的Bag-of-words和后一语句的Bag-of-words向量的
向量作为特征量,用SVM估测连接词。S502中将包含固有名词的句?#30001;?#38500;。仅对由语句重新
排列部107判定为主张的语句,如果存在包含固有名词的句子则将其删除。

例如如果有“Expert said that casino dramatically increase the number
of crimes in Kokubunji-shi.(专家说赌场大大增加在国分?#29575;?#30340;犯罪数量)”这样的语
句,则作为构成论述文的抽象的主张的语句,包含固有名词就显得不自然,所以将“in
Kokubunji-shi(在国分?#29575;?”的短语删除,输出为“Expert said that casino
dramatically increase the number of crimes.(专家说赌场大大增加的犯罪数量)”。像
这样,通过补上连接词,修正呼应关系,使重新排列的多个语句的抽象度变得相同,由此输
出意思相同的文章作为辩论的评论文。

输出部110将作为系统的最终输出的论述文通过显示器?#30830;?#24335;提示给用户。当然
除了显示器的显示以外,?#37096;?#20197;输出合成的声音。在实际的辩论的情况下,肯定方和否定方
分别口头阐述意见,所以输出声音的方式对于用户来?#30340;?#22815;进一步给予临场?#23567;?br />

综上所述,本实施例记载的文章生成系统,是一种输出针对讨论话题的评论文的
文章生成系统,其特征在于,包括:输入讨论话题的输入部;分析讨论话题,判定讨论话题的
正反极性和检索中要使用的关键词的讨论话题分析部;使用关键词和表示讨论中的论点的
论点词检索消息的检索部;确定生成评论文时使用的论点的论点确定部;从检索部所输出
的消息中提取就论点所论述的语句的语句提取部;通过重新排列语句来生成文章的语句重
新排列部;评价文章的评价部;对文章插入适当的连接词的改写部;和从多个文章中将评价
最高的文章作为评论文输出的输出部。

另外,本实施例记载的文章生成方法,是一种输出对于讨论话题的评论文的文章
生成方法,其特征在于,包括:输入讨论话题的第1步骤;分析讨论话题,判定讨论话题的正
反极性和检索中要使用的关键词的第2步骤;使用关键词和表示讨论中的论点的论点词检
索消息的第3步骤;确定生成评论文时使用的论点的第4步骤;从在第3步骤输出的消息提取
就论点所论述的语句的第5步骤;通过重新排列所述语句来生成文章的第6步骤;对文章进
行评价的第7步骤;对文章插入适当的连接词的第8步骤;和从多个文章中将评价最高的文
章作为上述评论文输出的第9步骤。

像这样,基于作为评论文的根本的论点,对消息进行分类,提取语句,重新排列文
章,由此能够生成针对一个论点进行阐述的文章,能够使评论文保持一贯性。另外,不是像
人在辩论中进行立论时那样,预先确定论点然后再收集信息,而是对全部的论点进行检索,
生成语句的基础上,对多个论点一律进行评价,由此能够不?#24515;?#20110;论点地生成具有说服力
的评论文。

附图标记的说明

100…生成系统

101…数据管理系统

102…输入部

103…讨论话题分析部

104…检索部

105…论点确定部

106…语句提取部

107…语句重新排列部

108…评价部

109…改写部

110…输出部

111…接口

112…文本数据数据库

113…文本注释数据库

114…检索用索引数据库

115…论点体系数据库。

关于本文
本文标题:文章生成系统.pdf
链接地址:http://www.pqiex.tw/p-6091853.html
关于我们 - 网站声明 - 网?#38236;?#22270; - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 股票论坛 股票推荐每日一股 股票分析软件排行榜 股票分析软件哪个好 黑马股票推荐11月 吉利汽车股票 内蒙古股票配资 股票指数期货的特点 000286股票行情 大族激光股票 股票配资排名.选杨方配资给力