平码五不中公式规律
  • / 15
  • 下载费用:30 金币  

匹配目标试题答案的方法和装置.pdf

关 键 词:
匹配 目标 试题答案 方法 装置
  专利查询网所有?#35797;?#22343;是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201410165812.1

申请日:

2014.04.23

公开号:

CN103914567A

公开日:

2014.07.09

当前法律状态:

驳回

有效性:

无权

法?#19978;?#24773;: 发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20140709|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140423|||公开
IPC分类号: G06F17/30; G06K9/20 主分类号: G06F17/30
申请人: 北京奇虎科技有限公司; 奇智软件(北京)有限公司
发明人: 王艳丽; 吴凯
地址: 100088 北京市西城区新街口外大街28号D座112室(德胜园区)
优?#28909;ǎ?/td>
专利代理机构: 北京市浩天知识产权代理事务所 11276 代理人: 宋菲;刘云贵
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201410165812.1

授权公告号:

||||||

法律状态公告日:

2017.12.12|||2014.08.06|||2014.07.09

法律状态类型:

发明专利申请公布后的驳回|||实质审查的生效|||公开

摘要

本发明公开了一种匹配目标试题答案的方法和装置,其中,方法包括:获取包含目标试题的图像?#27426;园?#21547;目标试题的图像进行识别,提取目标试题的文字内容;根据预设策略?#36816;?#33719;取的文字内容进行处理,得到目标试题的特征信息;利用目标试题的特征信息与试题库中的试题进行匹配;如果试题库中的至少一个试题包含与所述目标试题的特征信息相匹配的信息,将该至少一个试题作为候选试题,获取候选试题对应的试题答案并显示。根据该方案,试题的输入、匹配,以及答案的获取均自动完成,大量减少了作答时间和用户操作,能够及时为用户提供答案,并保证答案的准确性。

权利要求书

权利要求书
1.  一种匹配目标试题答案的方法,包括:
获取包含目标试题的图像;
?#36816;?#36848;包含目标试题的图像进行识别,提取所述目标试题的文字内容;
根据预设策略?#36816;?#33719;取的文字内容进行处理,得到所述目标试题的特征信息;
利用所述目标试题的特征信息与试题库中的试题进行匹配;
如果试题库中的至少一个试题包含与所述目标试题的特征信息相匹配的信息,将该至少一个试题作为候选试题,获取候选试题对应的试题答案并显示。

2.  根据权利要求1所述的方法,所述根据预设策略对提取的文字内容进行处理,得到所述目标试题的特征信息具体为:从所述目标试题的文字内容中截取一个或多个具有预设长度的文?#21046;?#27573;作为所述目标试题的特征信息;
所述利用所述目标试题的特征信息与试题库中的试题进行匹配具体为:在所述试题库中匹配截取的一个或多个具有预设长度的文?#21046;?#27573;。

3.  根据权利要求1-2?#25105;?#39033;所述的方法,所述根据预设策略?#36816;?#33719;取的文字内容进行处理,得到所述目标试题的特征信息具体为:根据预设的抛词方法?#36816;?#36848;目标试题的文字内容进行抛词处理,保留剩余文字内容作为所述目标试题的特征信息;
所述利用所述目标试题的特征信息与试题库中的试题进行匹配具体为:在所述试题库中匹配所述抛词处理后保留的剩余文字内容。

4.  根据权利要求1-3?#25105;?#39033;所述的方法,所述根据预设的抛词方法?#36816;?#36848;目标试题的文字内容进行抛词处理具体为:从所述目标试题的文字内容的头部或尾部开始,每隔预设的文字数,抛去一个词,保留剩余文字内容。

5.  根据权利要求1-4?#25105;?#39033;所述的方法,所述根据预设的抛词方法从所述目标试题的文字内容进行抛词处理之前还包括:
根据词与词之间的固定组合,保留所述目标试题的文字内容中有固定组 合的词;
所述根据预设的抛词方法?#36816;?#36848;目标试题的文字内容进行抛词处理具体为:?#36816;?#36848;固定组合之外的目标试题的文字内容进行抛词处理;
所述固定组合通过分析所述试题库中试题的题目内容获得。

6.  根据权利要求1-5?#25105;?#39033;所述的方法,所述获取包含目标试题的图像包括?#21512;?#29992;户提供拍摄引导信息,获取用户拍摄的包含目标试题的图像;
所述?#22253;?#21547;目标试题的图像进行识别具体为:?#36816;?#36848;用户拍摄的包含目标试题的图像进行OCR识别。

7.  根据权利要求1-6?#25105;?#39033;所述的方法,所述获取包含目标试题的图像包括:
向用户提供拍摄引导信息,获取用户拍摄的包含目标试题的初始图像;
根据用户选择的聚焦区域,?#36816;?#36848;初始图像进行边?#23548;?#27979;,得到所述目标试题在所述初始图像中的边界;
根据所述目标试题在所述初始图像中的边界,截取所述包含目标试题的图像;
所述?#22253;?#21547;目标试题的图像进行识别具体为:对截取到的所述包含目标试题的图像进行OCR识别。

8.  根据权利要求1-7?#25105;?#39033;所述的方法,所述拍摄引导信息包括以下信息的一项或多项的组合?#21495;?#25668;方向,拍摄角度,光线,提醒用户对目标试题所在区域进行聚焦。

9.  一种匹配目标试题答案的装置,包括:
图像获取模块,用于获取包含目标试题的图像;
识别模块,用于?#36816;?#36848;包含目标试题的图像进行识别,提取所述目标试题的文字内容;
处理模块,用于根据预设策略?#36816;?#33719;取的文字内容进行处理,得到所述目标试题的特征信息;
匹配模块,用于利用所述目标试题的特征信息与试题库中的试题进行匹 配;
答案获取模块,用于在试题库中的至少一个试题包含与所述目标试题的特征信息相匹配的信息时,将该至少一个试题作为候选试题,获取候选试题对应的试题答案并显示。

10.  根据权利要求9所述的装置,所述处理模块包括:文?#32440;?#21462;单元,用于从所述目标试题的文字内容中截取一个或多个具有预设长度的文?#21046;?#27573;作为所述目标试题的特征信息;
所述匹配模块进一步用于:在所述试题库中匹配截取的一个或多个具有预设长度的文?#21046;?#27573;。

说明书

说明书匹配目标试题答案的方法和装置
技术领域
本发明涉及终端应用领域,具体涉及一种匹配目标试题答案的方法和装置。
背景技术
在中小学生写作业或者?#39029;?#36741;导学生的时候,常遇到不会做的试题或题目。这时用户常常通过互联网寻求试题的答案。
当前,已有多?#22336;?#21153;于学生或?#39029;?#30340;中小学生试题解析网站或网络应用,帮助用户获取答案,顺利完成作业,例如,作业帮,问他,作业宝等网站。用户通过手动输入试题内容进行检索,获取试题答案。
但现有的作业解析网站,app等都是通过人工回答,网站的其他用户,或在线教师查看试题后给出答案。从用户提问到获取到答案,存在时间成本的问题,不能快速满足用户的即时需求。在用户提问高峰期,或是对于难度较大的问题,有时会出?#32440;?#38271;时间,如几个小时或一天内无人作答的情况,效率十分低下。长时间的等待也影响用户体验。并且,不同的作答可能多种不同的答案,令用户难以分辨。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的匹配目标试题答案的方法和装置。
根据本发明的一个方面,提供了一种匹配目标试题答案的方法,包括:获取包含目标试题的图像?#27426;园?#21547;目标试题的图像进行识别,提取目标试题的文字内容;根据预设策略?#36816;?#33719;取的文字内容进行处理,得到目标试题的特征信息;利用目标试题的特征信息与试题库中的试题进行匹配;如果试题 库中的至少一个试题包含与所述目标试题的特征信息相匹配的信息,将该至少一个试题作为候选试题,获取候选试题对应的试题答案并显示。
可选地,所述根据预设策略对提取的文字内容进行处理,得到所述目标试题的特征信息具体为:从所述目标试题的文字内容中截取一个或多个具有预设长度的文?#21046;?#27573;作为所述目标试题的特征信息;
所述利用所述目标试题的特征信息与试题库中的试题进行匹配具体为:在所述试题库中匹配截取的一个或多个具有预设长度的文?#21046;?#27573;。
可选地,所述根据预设策略?#36816;?#33719;取的文字内容进行处理,得到所述目标试题的特征信息具体为:根据预设的抛词方法?#36816;?#36848;目标试题的文字内容进行抛词处理,保留剩余文字内容作为所述目标试题的特征信息;
所述利用所述目标试题的特征信息与试题库中的试题进行匹配具体为:在所述试题库中匹配所述抛词处理后保留的剩余文字内容。
可选地,所述根据预设的抛词方法?#36816;?#36848;目标试题的文字内容进行抛词处理具体为:从所述目标试题的文字内容的头部或尾部开始,每隔预设的文字数,抛去一个词,保留剩余文字内容。
可选地,所述根据预设的抛词方法从所述目标试题的文字内容进行抛词处理之前还包括:
根据词与词之间的固定组合,保留所述目标试题的文字内容中有固定组合的词;
所述根据预设的抛词方法?#36816;?#36848;目标试题的文字内容进行抛词处理具体为:?#36816;?#36848;固定组合之外的目标试题的文字内容进行抛词处理;
所述固定组合通过分析所述试题库中试题的题目内容获得。
可选地,所述获取包含目标试题的图像包括?#21512;?#29992;户提供拍摄引导信息,获取用户拍摄的包含目标试题的图像;
所述?#22253;?#21547;目标试题的图像进行识别具体为:?#36816;?#36848;用户拍摄的包含目标试题的图像进行OCR识别。
可选地,所述获取包含目标试题的图像包括:
向用户提供拍摄引导信息,获取用户拍摄的包含目标试题的初始图像;
根据用户选择的聚焦区域,?#36816;?#36848;初始图像进行边?#23548;?#27979;,得到所述目标试题在所述初始图像中的边界;
根据所述目标试题在所述初始图像中的边界,截取所述包含目标试题的图像;
所述?#22253;?#21547;目标试题的图像进行识别具体为:对截取到的所述包含目标试题的图像进行OCR识别。
可选地,所述拍摄引导信息包括以下信息的一项或多项的组合?#21495;?#25668;方向,拍摄角度,光线,提醒用户对目标试题所在区域进行聚焦。
根据本发明的另一方面,提供了一种匹配目标试题答案的装置,包括?#21644;?#20687;获取模块,用于获取包含目标试题的图像;识别模块,用于?#22253;?#21547;目标试题的图像进行识别,提取目标试题的文字内容;处理模块,用于根据预设策略?#36816;?#33719;取的文字内容进行处理,得到目标试题的特征信息;匹配模块,用于利用目标试题的特征信息与试题库中的试题进行匹配;答案获取模块,用于在试题库中的至少一个试题包含与所述目标试题的特征信息相匹配的信息时,将该至少一个试题作为候选试题,获取候选试题对应的试题答案并显示。
可选地,所述处理模块包括:文?#32440;?#21462;单元,用于从所述目标试题的文字内容中截取一个或多个具有预设长度的文?#21046;?#27573;作为所述目标试题的特征信息;
所述匹配模块具体用于:在所述试题库中匹配截取的一个或多个具有预设长度的文?#21046;?#27573;。
可选地,所述处理模块进一步包括?#21495;?#35789;单元,用于根据预设的抛词方法?#36816;?#36848;目标试题的文字内容进行抛词处理,保留剩余文字内容作为所述目标试题的特征信息;
所述匹配模块具体用于:在所述试题库中匹配所述抛词处理后保留的剩余文字内容。
可选地,所述抛词单元具体用于:从所述目标试题的文字内容的头部或 尾部开始,每隔预设的文字数,抛去一个词,保留剩余文字内容。
可选地,所述处理模块还包括:分析单元,用于分析所述试题库中试题的题目内容获得词与词之间的固定组合;
所述抛词单元具体用于:根据词与词之间的固定组合,保留所述目标试题的文字内容中有固定组合的词,?#36816;?#36848;固定组合之外的目标试题的文字内容进行抛词处理。
可选地,所述图像获取模块包括?#21495;?#29031;单元,用于向用户提供拍摄引导信息,获取用户拍摄的包含目标试题的图像;
所述识别模块具体用于:?#36816;?#36848;用户拍摄的包含目标试题的图像进行OCR识别。
可选地,所述图像获取模块进一步包括:
拍照单元,用于向用户提供拍摄引导信息,获取用户拍摄的包含目标试题的初始图像;
边?#23548;?#27979;单元,用于根据用户选择的聚焦区域,?#36816;?#36848;初始图像进行边?#23548;?#27979;,得到所述目标试题在所述初始图像中的边界;
图像截取单元,用于根据所述目标试题在所述初始图像中的边界,截取所述包含目标试题的图像;
所述识别模块具体用于:对截取到的所述包含目标试题的图像进行OCR识别。
可选地,所述拍摄引导信息包括以下信息的一项或多项的组合?#21495;?#25668;方向,拍摄角度,光线,提醒用户对目标试题所在区域进行聚焦。
根据本发明的匹配目标试题答案的方法和装置,对获取包含目标试题的图像进行文字识别将图像转化为试题文字内容,之后,对文字内容进行处理得到特征信息,利用该特征信息在试题库中进行匹配,获取匹配通过的候选试题及答案。根据该方案,试题的输入、匹配,以及答案的获取均为自动完成,大量减少了作答时间和用户操作,能够及时为用户提供答案,并保证答案的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚?#31169;?#26412;发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅?#26009;?#25991;优选实施方式的详?#35813;?#36848;,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的匹配目标试题答案的方法的流程图;
图2示出了根据本发明另一个实施例的匹配目标试题答案的方法的流程图;
图3示出了根据本发明另一个实施例的匹配目标试题答案的方法的流程图;
图4示出了根据本发明一个实施例的匹配目标试题答案的装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种?#38382;?#23454;现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的?#27573;?#23436;整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的匹配目标试题答案的方法的流程图,如图1所示,该方法包括如下?#34903;瑁?
?#34903;鑃110,获取包含目标试题的图像。
包含目标试题的图像可来自用户的现场拍摄,或选自本地文件,例如,?#21482;?#30456;册,对电子文档的截图?#21462;?#22270;像可以为bmp,jpg,jpeg等常见格式, ?#37096;梢园?#25324;其它适于进行图像识别的电子文件格式,例如pdf文件。
?#34903;鑃120,?#22253;?#21547;目标试题的图像进行识别,提取目标试题的文字内容。
该?#34903;?#23558;包含目标试题的图像转换成计算机文字。
?#34903;鑃130,根据预设策略?#36816;?#33719;取的文字内容进行处理,得到目标试题的特征信息。
本?#34903;?#21487;?#22253;?#25324;从初始识别的文字内容中截取一个或多个文?#21046;?#27573;,作为特征信息,或者是抛词处理,即以一定策?#28304;?#21021;始文字内容中去除部分文字内容,将剩余文字内容作为特征信息。对文字内容的处理可避免试题过长而导致的匹配效率下?#26723;任?#39064;。本?#34903;?#36824;可?#22253;?#25324;对文字内容的检测,具体的处理方法依检测结果而定。例如,当检测到文字长度大于匹配阈值时,去除以部分文字;当文字包含乱码时,通过抛词处理去除乱码。
?#34903;鑃140,利用目标试题的特征信息与试题库中的试题进行匹配。
试题库中有大量与预先收集的试题及相应的答案。试题库可以是一个或多个,例如,根据学科,年级对试题库进行分类。匹配时提醒用户在相应的类别中查找,或根据的关键?#35782;?#30446;标题目进行自动分类,以提高查找效率。
?#34903;鑃150,如果试题库中的至少一个试题包含与目标试题的特征信息相匹配的信息,将该至少一个试题作为候选试题,获取候选试题对应的答案并显示。
候选试题?#35789;?#21305;配通过的试题。由于特征信息可能只?#20174;?#35797;题的部分内容,因此,匹配通过?#30446;?#33021;是多个相似的试题。获取全部候选试题题目及答案并显示,供用户查看。进一步地,由于试题的表述方式灵活多样,为提高召回?#21097;?#35813;匹配可以是?#38468;?#37096;分特征信息的匹配,例如,通过相似度计算,将相似度在某一阈值以上的试题作为候选试题并返回题目和答案,给出相似度数据。
根据本发明上述实施例提供的方法,对获取包含目标试题的图像进行文字识别将图像转化为试题文字内容,无需用户手动输入,之后,对文字内容进行处理得到特征信息,利用该特征信息在试题库中进行匹配,获取匹配通过的候选试题及其答案。根据该方案,试题的输入、匹配,以及答案的获取 都是自动完成,大量减少了作答时间和用户操作,能够及时为用户提供答案,并保证答案的准确性。
图2示出了根据本发明另一个实施例的匹配目标试题答案的方法的流程图,如图2所示,该方法包括如下?#34903;瑁?
?#34903;鑃210,向用户提供拍摄引导信息,获取用户拍摄的包含目标试题的图像。
拍摄引导信息包括拍摄方向,拍摄角度,光线,距离,以及提醒用户对目标试题所在区域进行聚焦等,通过引导信息对用户做适当的指示,使用户拍摄出的图像符合识别的质量要求。
本发明中的方法可实现为智能?#21482;教?#19978;的app,则具体地,该?#34903;?#21487;通过调用智能?#21482;?#30340;摄像头或?#20302;程?#20379;的摄像程序实现。
具体地,在用户拍照?#26696;?#20986;文字说明及示例?#35745;?#31561;作为引导信息,例如,提示用户采用垂直角度进行拍摄,选择良好光线,横向拍摄,显示一个用户可调的聚焦框等,在题目过长时,只拍摄一部分有效内容?#21462;?
?#34903;鑃220,根据用户选择的聚焦区域,对初始图像进行边?#23548;?#27979;。
以?#34903;鑃210中用户拍摄的图像作为初始图像,通过边?#23548;?#27979;得到目标试题在初始图像中的边界。例如,智能?#21482;?#30340;拍照程序通常会给出一个位于?#21482;?#23631;幕中间位置的聚焦框,由用户通过手动拖拽等方式调整其大小、位置,理想的情况是,用户按拍照引导信息进?#26800;?#25972;后,聚焦框内包含目标试题的一部分有效内容,以该部分有效内容为基础,在整个初始图像上进行边?#23548;?#27979;,确定目标试题的边界,则边界中包含了并且只包含了目标试题的全部或部分内容。
?#34903;鑃230,根据目标试题在初始图像中的边界,截取包含目标试题的图像。
截取边界内的图像作为待识别图像。如上所述,如果用户按照引导信息进行了正确操作,则截取的图像中只包含目标试题的文字内容,这有效避免了由于相邻试题的部分文字在后续匹配过程中可能造成的干扰,而导致找不到候选试题的情况。
上述?#34903;鑃220和?#34903;鑃230为本实施例?#30446;?#36873;?#34903;琛?
?#34903;鑃240,对截取的包含目标试题的图像进行OCR识别。
该实施例中,采用OCR(光学?#22336;?#35782;别)技术对截取图像进行识别。OCR具有较高的识别速度和准确率。OCR中包括二值化,噪声去除,?#38408;?#26657;正,?#22336;?#20999;割等过程,当然,二值化及噪声去除?#37096;?#20197;在预处理阶段完成。然后,通过特定的OCR算法得到目标试题的文字内容,现有技术中有多种OCR算法,例如基于模板匹配,特征提取或神经网络训练等方法,可根据需要进行选择。另外,OCR技术还包括版面分析及?#25351;?#36807;程,当未进行边?#23548;?#27979;及?#35745;?#25130;取时,可通过版面分析仅提取出目标试题的文字内容。
?#34903;鑃250,从目标试题的文字内容中截取一个或多个具有预设长度的文?#21046;?#27573;作为目标试题的特征信息。
如果OCR识别后的文字内容过长,则可能无法进行有效率的匹配。这时,可?#28304;?#35782;别的目标试题的文字内容的前部、中部、后部截取分别适当长度的内容,截取的长度可根据试题长度以及匹配要求而定。
?#34903;鑃260,在试题库中匹配截取的一个或多个具有预设长度的文?#21046;?#27573;。
将截取的一个或多个文?#21046;?#27573;作为目标试题的特征信息,分别在试题库中匹配,或者将片段组合后进行匹配。
?#34903;鑃270,判断试题库中是否有至少一个试题包含与截取的文?#21046;?#27573;相匹配的信息,如果是,执行?#34903;鑃280。
题库中可能存在大量相似度较高的试题,这些相似度较高的试题中包含同样的文?#21046;?#27573;,则与截取的文?#21046;?#27573;相匹配的试题的数量可能为多个。
如果匹配失败,还可以进一步查询试题库中是否存在一些试题,其中包含了与截取的文?#21046;?#27573;或文?#21046;?#27573;的组合相似度较高的内容。例如,可以对截取的多个片段进行进一步地截取,得到多个子片段,利用这些子片段或子片段的组合进行匹配,如果匹配出的题目与目标试题之间具有较高的相似度,可作为相关试题记录。由于试题的表达?#38382;?#22810;变,这些相似度较高的相关试题可能对用户有提示作用。
?#34903;鑃280,将匹配通过的试题作为候选试题,获取答案并显示。
获取全部的候选试题的答案和题目并显示,进一步,可以给出与目标试题相似度较高的相关试题及答案,计算与目标试题之间的相似度,按相似度排序后显示,供用户查看。
根据本发明上述实施例提供的方法,向用户提供拍照引导信息,使用户易于拍出符合OCR识别要求的图像;通过对初始图像的边?#23548;?#27979;,截取?#34903;?#21253;含目标试题文字内容的图像,这消除了不相关内容可能对识别及匹配造成的影响;对于识别出的过长文字内容,用截取的文?#21046;?#27573;进行匹配,提高了匹配的效率。
图3示出了根据本发明另一个实施例的匹配目标试题答案的方法,如图3所示,该方法包括如下?#34903;瑁?
?#34903;鑃310,向用户提供拍摄引导信息,获取用户拍摄的包含目标试题的图像。
?#34903;鑃320,对用户拍摄的包含目标试题的图像进行OCR识别。
?#34903;鑃310和S320的具体实施方式可参照上一实施例,当然,该实施例中?#37096;梢园?#25324;对拍摄的图像进行边?#23548;?#27979;及?#35745;?#25130;取的?#34903;瑁?#27492;处不再重复叙述。
?#34903;鑃330,根据预设的抛词方法?#36816;?#36848;目标试题的文字内容进行抛词处理。
抛词是指以一定策?#28304;?#21021;始文字内容中去除部分文字内容,将剩余文字内容作为特征信息。
具体地,抛词方法可以是:从OCR识别出的目标试题的文字内容的头部或尾部开始,每隔预设的文字数,抛去一个词,或固定数量的文字,所间隔的文字数根据试题长度和匹配要求而定。与上一实施例类似地,剩余文字内容包含试题的部分有效信息,可作为用于匹配的特征信息,用剩余内容的匹配?#37096;?#33021;返回多个候选试题。
还可以在抛词之前对文字内容进行预处理,例如,由于图像质量和识别能力的原因,OCR识别得到的文字内容中可能包含一些乱码,并且,题目中 经常包含一些提供有效信息的字词,例如“的?#20445;?#25152;”等,可以先抛去这些乱码和无意义的词,如果剩余文字内容仍不能满足匹配要求,再执行上述抛词过程。
作为示例,抛词之前的预处理可按如下方式进行:
根据词与词之间的固定组合,保留目标试题的文字内容中有固定组合的词。其中,固定组合通过分析试题库中大量试题的题目内容获得,包括学科术语,或是某一学科类别中的多个词语的惯用组合等,例如“摩擦力…大小..方向”?#21462;?
根据预设的抛词方法对目标试题的文字内容进行抛词处理具体为:在抛词过程中,保留这些固定组合,对固定组合之外的目标试题的文字内容进行抛词处理。这样,抛词处理更具有针对性,特征信息中保留了更多的有效信息。
?#34903;鑃340,在试题库中匹配抛词处理后保留的剩余文字内容。
?#34903;鑃350,获取匹配通过的候选试题的答案并显示。
与上一实施例类似地,候选试题可能有多个,还可以进一步给出与目标试题有较高相似度的试题及答案,此处不再赘述。
根据本发明上述实施例提供的方法,采用抛词的方法对OCR识别获得的文字内容进行处理,得到特征信息,通过抛词获得的特征信息中保留了更多的有效信息,有利于提高匹配效率。
图4示出了根据本发明一个实施例的匹配目标试题答案的装置的结构框图,如图4所示,该装置包括:
图像获取模块410,用于获取包含目标试题的图像。
包含目标试题的图像可来自用户的现场拍摄,或选自本地文件,例如,?#21482;?#30456;册,对电子文档的截图?#21462;?#22270;像可以为bmp,jpg,jpeg等常见格式,?#37096;梢园?#25324;其它适于进行图像识别的电子文件格式,例如pdf文件。
可选地,图像来自用户拍摄,则图像获取模块410进一步包括?#21495;?#29031;单元4101,用于向用户提供拍摄引导信息,获取用户拍摄的包含目标试题的图像。
拍摄引导信息包括拍摄方向,拍摄角度,光线,距离,以及提醒用户对目标试题所在区域进行聚焦?#21462;?#36890;过引导信息对用户做适当的指示,使用户拍摄出的图像识别的质量要求。
本发明中的匹配试题答案的装置可实现为智能?#21482;教?#19978;的app,具体地,拍照单元4101可通过调用智能?#21482;?#30340;摄像头或?#20302;程?#20379;的摄像程序获取图像。
可选地,图像获取模块410进一步包括:边?#23548;?#27979;单元4102,用于根据用户选择的聚焦区域,对用户拍摄的初始图像进行边?#23548;?#27979;,得到目标试题在初始图像中的边界;以及
图像截取单元4103,用于根据目标试题在初始图像中的边界,截取包含目标试题的图像。
图像截取单元4103截取边界内的图像作为待识别图像。如果用户操作正确,截取的图像中只包含目标试题的文字内容,这有效避免了由于相邻试题的部分文字在后续匹配过程中可能造成的干扰,而导致找不到候选试题的情况。
边?#23548;?#27979;单元4102和图像截取单元4103?#37096;?#36866;用于图像获取模块410以其他方式获取的包含目标试题的图像。
识别模块420,用于?#22253;?#21547;目标试题的图像进行识别,提取目标试题的文字内容。
识别模块420将包含目标试题的图像转换成计算机文字。
可选地,识别模块420用于:对获取到的包含目标试题的图像进行OCR识别。OCR识别具有较高的速度和准确率。具体地,识别模块420对图像可执行二值化,噪声去除,?#38408;?#26657;正,?#22336;?#20999;割等处理,然后,通过特定的OCR算法得到目标试题的文字内容,现有技术中有多种OCR算法,可根据需要进行选择。
可选地,包含目标试题的图像来自用户拍摄,则识别模块420具体用于:对用户拍摄的包含目标试题的图像进行OCR识别;
若图像经过了边?#23548;?#27979;单元4102和图像截取单元4103的处理,则识别 模块420具体用于:对截取到的包含目标试题的图像进行OCR识别。
处理模块430,用于根据预设策略?#36816;?#33719;取的文字内容进行处理,得到目标试题的特征信息。
具体地,处理模块430可用于从初始识别的文字内容中截取多个文?#21046;?#27573;,作为特征信息,或者用于对文字内容做抛词处理,即以一定策?#28304;?#21021;始文字内容中去除部分文字内容,将剩余文字内容作为特征信息。对文字内容的处理可避免试题过长而导致的匹配效率下?#26723;任?#39064;。
可选地,处理模块430进一步包括:文?#32440;?#21462;单元4303,用于从目标试题的文字内容中截取一个或多个具有预设长度的文?#21046;?#27573;作为目标试题的特征信息。具体地,文?#32440;?#21462;单元4303可?#28304;?#35782;别的目标试题的文字内容的前部、中部、后部截取分别适当长度的内容,截取的长度可根据试题长度以及匹配要求而定;或者
处理模块430对文字内容做抛词处理,则处理模块430进一步包括?#21495;?#35789;单元4302,用于根据预设的抛词方法?#36816;?#36848;目标试题的文字内容进行抛词处理,保留剩余文字内容作为目标试题的特征信息。
抛词单元4302具体用于:从目标试题的文字内容的头部或尾部开始,每隔预设的文字数,抛去一个词,保留剩余文字内容。
可选地,处理模块进一步包括:分析单元4301,用于分析试题库中试题的题目内容获得词与词之间的固定组合;固定组合包括学科术语,或是某一学科类别中的多个词语的惯用组合等,例如“摩擦力…大小..方向?#20445;?#21017;抛词单元4302具体用于:根据词与词之间的固定组合,保留目标试题的文字内容中有固定组合的词,对固定组合之外的目标试题的文字内容进行抛词处理。这样,抛词处理更具有针对性,特征信息中保留了更多的有效信息。
匹配模块440,用于利用目标试题的特征信息与试题库中的试题进行匹配;
可选地,若特征信息是文?#32440;?#21462;单元4303截取的多个文?#21046;?#27573;,则匹配模块440具体用于:将截取的一个或多个文?#21046;?#27573;分别在试题库中匹配,或者将多个片段进行组合后进行匹配;
若特征信息是抛词单元4302获取的剩余文字内容,则匹配模块440具体用于:在试题库中匹配剩余文字内容。
答案获取模块450,用于在试题库中的至少一个试题包含与目标试题的特征信息相匹配的信息时,将该至少一个试题作为候选试题,获取候选试题对应的试题答案并显示。
题库中可能存在大量相似度较高的试题,这些相似度较高的试题中包含同样的文?#21046;?#27573;,则答案获取模块450得到的候选试题的数量可能为一个以上,这时,可选地,答案获取模块450获取全部的候选试题的答案和题目并显示,进一步,可以给出与目标相似度较高的相关试题及答案,计算与目标试题之间的相似度,按相似度排序后显示,供用户查看。
根据本发明上述实施例提供的装置,图像获取模块获取包含目标试题的图像,识别模块对图像进行文字识别,将图像转化为试题的文字内容,之后,处理模块对文字内容进行处理得到特征信息,匹配模块利用该特征信息在试题库中进行匹配,答案获取模块获取匹配通过的候选试题及答案。根据该方案,试题的输入、匹配,以及答案的获取均为自动完成,大量减少了作答时间和用户操作,能够及时为用户提供答案,并保证答案的准确性。
在此提供的算法和显示不与任何特定计算机、虚拟?#20302;?#25110;者其它设备固有相关。各种通用?#20302;騁部?#20197;与基于在此的示教一起使用。根据上面的描述,构造这类?#20302;?#25152;要求的结构是显而?#20934;?#30340;。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语?#36816;?#20570;的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体?#38468;凇?#28982;而,能够理解,本发明的实施例可以在没有这些具体?#38468;?#30340;情况下?#23548;?#22312;一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为?#21496;?#31616;本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有?#21271;?#19968;起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成?#20174;?#22914;下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所?#20174;?的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可?#22253;?#23454;施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可?#22253;?#23427;们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的?#27573;?#20043;内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的?#25105;?#20043;一都可以以?#25105;?#30340;组合方式?#35789;?#29992;。
本发明的各个部件实施例可以以?#24067;?#23454;现,或者以在一个或者多个处理器上运行的软件模块实现,或者?#36816;?#20204;的组合实现。本领域的技术人员应当理解,可以在?#23548;?#20013;使用微处理器或者数?#20013;?#21495;处理器(DSP)?#35789;?#29616;根据本发明实施例的匹配目标试题答案的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部?#21482;?#32773;全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可?#28304;?#20648;在计算机可读介质上,或者可以具有一个或者多个信号的?#38382;健?#36825;样的信号可?#28304;?#22240;特网网站上下载得到,或者在载体信号上提供,或者以任何其他?#38382;?#25552;供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并?#20918;?#39046;域技术人员在不脱离所附权利要求的?#27573;?#30340;情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任?#23614;?#32771;符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或?#34903;琛?#20301;于 元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的?#24067;?#20197;及借助于?#23454;北?#31243;的计算机?#35789;?#29616;。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个?#24067;?#39033;来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

关于本文
本文标题:匹配目标试题答案的方法和装置.pdf
链接地址:http://www.pqiex.tw/p-6115922.html
关于我们 - 网站声明 - 网站地图 - ?#35797;?#22320;图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 有哪种手机网游能赚钱的 七星彩中奖号码 南京有中彩票大奖的吗 竞彩篮球让分胜负秘诀 赚钱宝已绑定手机 25选7中奖奖金 体彩青海11选5开奖结果 中超积分榜2016 华为彩票安卓 广西快三结果控