平码五不中公式规律
  • / 13
  • 下载费用:30 金币  

一种微博用户身份识别方法及系统.pdf

关 键 词:
一种 用户 身份 识别 方法 系统
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201310008156.X

申请日:

2013.01.09

公开号:

CN103914494A

公开日:

2014.07.09

当前法律状态:

授权

有效性:

有权

法?#19978;?#24773;: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20130109|||公开
IPC分类号: G06F17/30; G06F21/31(2013.01)I 主分类号: G06F17/30
申请人: 北大方正集团有限公司; 北京大学; 北京北大方正电子有限公司
发明人: 赵立永; 于晓明; 杨建武; 郑妍
地址: 100871 北京市海淀区成府路298号方正大厦5层
优?#28909;ǎ?/td>
专利代理机构: 北京中博世达专利商标代理有限公司 11274 代理人: 赵婷婷
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201310008156.X

授权公告号:

103914494B||||||

法律状态公告日:

2017.05.17|||2014.08.06|||2014.07.09

法律状态类型:

授权|||实质审查的生效|||公开

摘要

本发明提供一种微博用户身份识别方法及系统,所述方法包括:获取待识别用户行为数据以及用户行为的特征库信息;预处理所述获取的待识别用户行为数据;将所述预处理后的用户行为数据,进行语义单元重构;获取所述语义单元的属性信息以及其对应的权重;根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;将所述待识别用户行为特征与用户行为的特征库信息?#26800;?#27599;个特征类型进行比较;当所述待识别用户行为特征与所述用户行为的特征库信息?#26800;?#19968;个特征类型的相似度超过预设阈值,则所述待识别用户身份确定。采用本发明提供的微博用户身份识别方法及系统可以有效提高微薄用户身份识别的准确性及实时性。

权利要求书

权利要求书
1.  一种微博用户身份识别方法,其特征在于,包括:
获取待识别用户行为数据以及用户行为的特征库信息;
预处理所述获取的待识别用户行为数据;
将所述预处理后的用户行为数据,进行语义单元重构;
获取所述语义单元的属性信息以及其对应的权重;
根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;
将所述待识别用户行为特征与用户行为的特征库信息?#26800;?#27599;个特征类型进行比较;
当所述待识别用户行为特征与所述用户行为的特征库信息?#26800;?#19968;个特征类型的相似度超过预设阈值,则所述待识别用户身份确定。

2.  根据权利要求1所述的微博用户身份识别方法,其特征在于,在获取待识别用户行为数据以及用户行为的特征库信息的步骤之前,该方法还包括:
获取已知用户行为数据;
预处理所述获取已知用户行为数据;
将所述预处理后的用户行为数据,进行语义单元重构;
获取所述语义单元的属性信息以及其对应的权重;
根据所述语义单元的属性信息以及其对应的权重,获取所述已知用户行为特征;
将所述获取所述已知用户行为特征,按照类别存储在所述用户行为的特征库中。

3.  根据权利要求1或2所述的微博用户身份识别方法,其特征在于,在所述待识别用户身份确定之后,该方法还包括:
获取所述确定用户身份的待识别用户的至少一个语义单元以及对应所述用户身份的用户类型信息;
比较所述语义单元与所述用户身份的用户类型信息,给出所述各个语义单元与所述用户身份的用户类型信息的相似度;
按照所述相似度由大到小的顺序,?#36816;?#36848;语义单元进行排序;
获取相似度前top-n个语义单元作为该类型用户的行为特征;
将所述用户的行为特征添加到所述用户行为的特征库的对应类别中。

4.  根据权利要求3所述的微博用户身份识别方法,其特征在于,所述行为特征至少包括一个语义单元;所述语义单元属性信息至少包括:索引值,?#22336;?#20449;息,?#24066;裕?#35789;频和文档频率;所述语义单元至少包括一个词;所述词的属性信息包括:词的索引,词频,文档频率,IDF值,权值。

5.  根据权利要求4所述的微博用户身份识别方法,其特征在于,所述预处理步骤主要包括:行为数据筛选、拼写纠正、分词和?#24066;?#26631;注。

6.  一种微博用户身份识别系统,其特征在于,包括:
信息获取单元,用于获取待识别用户行为数据以及用户行为的特征库信息;
预处理单元,用于预处理所述获取的待识别用户行为数据;
语义单元重构单元,用于将所述预处理后的用户行为数据,进行语义单元重构;
属性及权重信息获取单元,还用于获取所述语义单元的属性信息以及其对应的权重;
行为特征抽取单元,用于根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;
比?#31995;?#20803;,用于将所述待识别用户行为特征与用户行为的特征库信息?#26800;?#27599;个特征类型进行比较;
身份确定单元,用于当所述待识别用户行为特征与所述用户行为的特征库信息?#26800;?#19968;个特征类型的相似度超过预设阈值,则所述待识别用户身份确定。

7.  根据权利要求6所述的微博用户身份识别系统,其特征在于,该系统还包括:用户行为的特征库构建单元,用于获取已知用户行为数据;预处理所述获取已知用户行为数据;将所述预处理后的用户行为数据,进行语义单元重构;获取所述语义单元的属性信息以及其对应的权重;根据所述语义单元的属性信息以及其对应的权重,获取所述已知用户行为特征;将所述获取所述已知用户行为特征,按照类别存储在所述用户行为的特征库中。

8.  根据权利要求6或7所述的微博用户身份识别系统,其特征在于,该系统还包括:信息反馈单元,用于获取所述确定用户身份的待识别用户的至少一个语义单元以及对应所述用户身份的用户类型信息;比较所述语义单元与所述用户身份的用户类型信息,给出所述各个语义单元与所述用户身份的用户类型信息的相似度;按照所述相似度由大到小的顺序,?#36816;?#36848;语义单元进行排序;获取相似度前top-n个语义单元作为该类型用户的行为特征;将所述用户的行为特征添加到所述用户行为的特征库的对应类别中。

9.  根据权利要求8所述的微博用户身份识别系统,其特征在于,所述行为特征至少包括一个语义单元;所述语义单元属性信息至少包括:索引值,?#22336;?#20449;息,?#24066;裕?#35789;频和文档频率;所述语义单元至少包括一个词;所述词的属性信息包括:词的索引,词频,文档频率,IDF值,权值。

10.  根据权利要求4所述的微博用户身份识别系统,其特征在于,所述预处理步骤主要包括:行为数据筛选、拼写纠正、分词和?#24066;?#26631;注。

说明书

说明书一种微博用户身份识别方法及系统
技术领域
本发明涉及计算机信息处理技术领域,尤其涉及一种微博用户身份识别方法及系统。
背景技术
随着web技术的发展和微博的出?#37073;?#36234;来越多的用户加入到互联网中,成为虚拟社会?#26800;?#19968;员,促进了信息传播方式的变革,提高了信息传播的效率。然而,微薄用户身份的识别作为微薄后台维护的重要组成部分,其识别过程主要通过微薄用户在网络注册、存储的数据信息进行用户身份识别。例如:从网站获取待识别用户访问网?#38236;?#26085;志、临时信息及注册信息来实现用户身份识别;或者,通过中文文本分类方法进行微薄用户身份识别。
但是,在现有的微薄用户身份识别过程中,发明人发现技术至少存在如下问题:
现有技术中通过网站获取待识别用户访问网?#38236;?#26085;志、临时信息及注册信息来实现用户身份识别的过程,由于用户身份识别过程所依据的数据主要依靠从网站获取用户注册信息以及该用户的日志及临时信息,从而使得数据获取较为困难,且准确性不高。
现有技术中采用中文文本分类的方法虽然可以实现微薄用户身份识别,但是,无法满足当前微博用户身份识别的准确性及实时性。
发明内容
针对现有技术中存在的缺陷,本发明的目的是提出一种准确性高,实时性强的微博用户身份识别方法及系统。
本发明提供一种微博用户身份识别方法,包括:
获取待识别用户行为数据以及用户行为的特征库信息;
预处理所述获取的待识别用户行为数据;
将所述预处理后的用户行为数据,进行语义单元重构;
获取所述语义单元的属性信息以及其对应的权重;
根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;
将所述待识别用户行为特征与用户行为的特征库信息?#26800;?#27599;个特征类型进行比较;
当所述待识别用户行为特征与所述用户行为的特征库信息?#26800;?#19968;个特征类型的相似度超过预设阈值,则所述待识别用户身份确定。
本发明?#22266;?#20379;一种微博用户身份识别系统,包括:
信息获取单元,用于获取待识别用户行为数据以及用户行为的特征库信息;
预处理单元,用于预处理所述获取的待识别用户行为数据;
语义单元重构单元,用于将所述预处理后的用户行为数据,进行语义单元重构;
属性及权重信息获取单元,还用于获取所述语义单元的属性信息以及其对应的权重;
行为特征抽取单元,用于根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;
比?#31995;?#20803;,用于将所述待识别用户行为特征与用户行为的特征库信息?#26800;?#27599;个特征类型进行比较;
身份确定单元,用于当所述待识别用户行为特征与所述用户行为的特征库信息?#26800;?#19968;个特征类型的相似度超过预设阈值,则所述待识别用户身份确定。
本发明提供的微博用户身份识别方法及系统,通过获取待识别用户行为数据以及用户行为的特征库信息;预处理所述获取的待识别用户行为数据;将所述预处理后的用户行为数据,进行语义单元重构;获取所述语义单元的属性信息以及其对应的权重;根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;将所述待识别用户行为特征与用户行为的特征库信息?#26800;?#27599;个特征类型进行比较;当所述待识别用户行为特征与所述用户行为的特征库信息?#26800;?#19968;个特征类型的相似度超过预设阈值,则所述待识别用户身份 确定。采用本发明提供的微博用户身份识别方法及系统可以有效提高微薄用户身份识别的准确性及实时性。
附图说明
图1为本发明实施例提供的一种微博用户身份识别方法的流程图;
图2为本发明提供的一种微博用户身份识别方法中用户行为的特征库的构建流程图;
图3为本发明提供的一种微博用户身份识别方法中更新用户行为的特征库的流程图;
图4为本发明实施例提供的一种微博用户身份识别系统结构示意图;
图5为本发明实施例提供的另一种微博用户身份识别系统结构示意图;
图6为本发明实施例提供的一种微博用户身份识别方法中语义单元属性信息数据结构示意图。
具体实施方式
下面结合附图对本发明实施例提供的一种微博用户身份识别方法及系统进行详?#35813;?#36848;。
如图1所示,为本发明实施例子提供的一种微博用户身份识别方法,该方法包括:
101:获取待识别用户行为数据以及用户行为的特征库信息;
102:预处理所述获取的待识别用户行为数据;所述预处理主要包括行为数据筛选、拼写纠正、分词和?#24066;?#26631;注。
103:将所述预处理后的用户行为数据,进行语义单元重构;所述语义单元重构是在预处理的基础上应用?#24066;?#20449;息进行?#25910;?#36830;的方法,通过合并特定的词,来构建包含更丰富语义的语义单元(词串)。
104:获取所述语义单元的属性信息以及其对应的权重;其中,所述语义单元的属性信息是指统计每个语义单元的词频和文档频率;所述语义单元的权重 则采用TFIDF函数来实现用户行为特征的权值计算,实现用户行为特征的数值化。
105:根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;所述待识别用户行为特征是指抽取最能代表用户行为的特征,并且特征项(即语义单元)具有很好的区分度,对于单个待识别用户主要采用词权重、词频、?#24066;?#30456;结?#31995;?#26041;法,根据词权重和词频进行关键词排序;根据停用?#26102;?#36807;滤掉停用词或非停用词(满足?#39135;?#22823;于最大长度或小于最小长度);选取?#24066;?#20026;“a?#20445;癱w?#20445;皏?#20445;癹?#20445;皀s?#20445;皀r?#20445;皀t?#20445;皀z”或者包含“不”的词。
106:将所述待识别用户行为特征与用户行为的特征库信息?#26800;?#27599;个特征类型进行比较;所述比?#31995;?#36807;程进行用户分类,主要可以采用KNN算法,K值选取方法采用概率分布的方法,即相似的特征向量和特征向?#38752;?#38388;之?#21462;?#20855;体分类思路为:比较待识别用户和用户行为特征库信息中每个用户类别的相似度sim(u,C),比较用户和每个类别中包含用户的相似度sim(u,Cui),如果sim(u,C)大于经验阈值,或者多数sim(u,Cui)大于经验阈值,则认为用户?#36879;?#31867;别存在相关性,选取相似度最大的用户类别来确定用户身份。
采用调整余弦相似度的测量方法计算特征向量之间的相似度,具体步骤如下:
(1)对于特征向量库中每一个特征向量,计算与该用户特征向量的相似度;
(2)进行向量对齐操作,对于向量v1和v2,求其所有特征项的并集C(v1,v2),然后将v1和v2?#25104;?#21040;C上,得到新的向量v1’和v2’;
(3)采用调整余弦相似度计算公式计算v1’和v2’的相似度。
107:当所述待识别用户行为特征与所述用户行为的特征库信息?#26800;?#19968;个特 征类型的相似度超过预设阈值,则所述待识别用户身份确定。
如图2所示,为本发明实施例子提供的一种微博用户身份识别方法中构建用户行为的特征库流程,该构建方法包括:
201:获取已知用户行为数据;具体的讲,就是获取已知用户行为数据,即训练数据;该训练数据用于构建用户行为的特征库。
202:预处理所述获取已知用户行为数据;具体的讲,就?#21069;?#29031;已知用户的不同身份,对训练数据(即已知用户数据)进行标注,对相同身份的每个用户的微博消息进行过滤,过滤的方法是比较消息的长度和观测值θ(通过对大量微博消息统计分析,10个?#22336;?#20197;内的微博消息包含较少或没有语义信息,因此本系统中θ=10III)之间的大小关系,如果长度小于观测值,则将微博作为噪声过滤掉。拼写检查主要根据拼写常见错误对照表进行拼写错误校正。利用分词和?#24066;?#26631;注工具进行分词及?#24066;?#26631;注,处理后每个?#35782;及?#21547;?#39318;址?#20018;信息和?#24066;裕?#20998;词和?#24066;?#26631;注的工具均来自已知技术,此处不再赘述。
203:将所述预处理后的用户行为数据,进行语义单元重构;所述语义单元重构具体为:由于长词串相对于短词串包含更多语义信息,具有更强的表达能力,所以语义单元重构就是在步骤201处理结果的基础上,通过特定的规则对相邻的特定词进行?#25910;?#36830;,进而产生更长的语义串。该步骤要处理的相邻词包括“ns”地名,“nr”人名,“nt”机构名,“nz”专有名词和“j”简称等,处理的规则是组?#31995;?#19968;次出现该类型词和最后一次出现该类型词之间的所有词。标注粘连后的词串?#24066;?#20026;“cw?#20445;?#22312;特征选择和权值计算时,该类词更重要。
204:获取所述语义单元的属性信息以及其对应的权重;
其中,所述获取语义单元的属性信息,是基于步骤201和步骤202,为所述语义单元进行统一编号,建立微博一语义单元索引向量,按用户统计语义单元的属性信息,包括词频和文档频率,为单个用户行为特征提取做准备,按照相同身份用户进行词频和文档频率统计,为相同身份类别的类别行为特征提取做准 备,处理结果信息保存到如图6所?#38236;?#25968;据结构中。
所述获取所述语义单元的权重的具体过程为:
首先,根据自然语?#28304;?#29702;领域中常用的停用?#26102;?#36807;滤掉停用词,并过滤掉词频小于经验阈值且?#24066;?#20026;非包含“n?#34180;ⅰ癱w”的语义单元。其次,采用基于TF-IDF权值计算方法,计算每个语义单元的权值,对于特定类型的语义单元赋予更高的权值,具体方法为,对于?#24066;?#20026;“nr”人名,如是式(2)所示,加权系数α=2.0,对于?#24066;?#20026;“cw”粘连词,如是式(3)所示,加权系数为β=1.5,具体权值计算公式为:
weightl=TF|log2 IDF                  (1)
weight2=2.0|TF|log2 IDF              (2)
weight3=1.5|TF|log2 IDF              (3)
205:根据所述语义单元的属性信息以及其对应的权重,获取所述已知用户行为特征;具体获取过程为:
对于所述获取的已知用户身份的训练数据主要采用卡方统计、?#24066;浴?#35789;频相结?#31995;?#26041;法;首先计算每个语义单元相当于用户类别的卡方值,按照卡方值对语义单元进行排序;过滤掉长度等于1,且?#24066;?#20026;非nr的词;根据停用?#26102;?#36807;滤掉停用词或非停用词(满足?#39135;?#22823;于最大长度或小于最小长度);选取?#24066;?#20026;“a?#20445;癱w?#20445;皏?#20445;癹?#20445;皀s?#20445;皀r?#20445;皀t?#20445;皀z”或者包含“不”的词;上述信息均不能区分时,选择词频较大的语义单元。
为了控制分类过程中特征的维数,设定选取语义单元的上限值θ=200。
206:将所述获取所述已知用户行为特征,按照类别存储在所述用户行为的特征库中。
如图3所示,为本发明实施例子提供的一种微博用户身份识别方法中更新用户行为的特征库的流程;该流程包括:
301:获取所述确定用户身份的待识别用户的至少一个语义单元以及对应所述用户身份的用户类型信息;
302:比较所述语义单元与所述用户身份的用户类型信息,给出所述各个语义单元与所述用户身份的用户类型信息的相似度;该步骤可以采用卡方统计方法,计算语义单元与用户类别的卡方值,通过所述获取的卡方值来评价相关性。
303:按照所述相似度由大到小的顺序,?#36816;?#36848;语义单元进行排序;
304:获取相似度前top-n个语义单元作为该类型用户的行为特征;
305:将所述用户的行为特征添加到所述用户行为的特征库的对应类别中。
需要说明的是,以上所述的实施例子中所述行为特征至少包括一个语义单元;所述语义单元属性信息如图6所示,至少包括:索引值,?#22336;?#20449;息,?#24066;裕?#35789;频和文档频率;所述语义单元至少包括一个词;所述词的属性信息包括:词的索引,词频,文档频率,IDF值,权值。
所述预处理步骤主要包括:行为数据筛选、拼写纠正、分词和?#24066;?#26631;注。
如图4所示,为本发明实施例子提供的一种微博用户身份识别系统,该系统包括:
信息获取单元401,用于获取待识别用户行为数据以及用户行为的特征库信息;
预处理单元402,用于预处理所述获取的待识别用户行为数据;
语义单元重构单元403,用于将所述预处理后的用户行为数据,进行语义单元重构;
属性及权重信息获取单元404,还用于获取所述语义单元的属性信息以及其对应的权重;
行为特征抽取单元405,用于根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;
比?#31995;?#20803;406,用于将所述待识别用户行为特征与用户行为的特征库信息?#26800;?#27599;个特征类型进行比较;
身份确定单元407,用于当所述待识别用户行为特征与所述用户行为的特征 库信息?#26800;?#19968;个特征类型的相似度超过预设阈值,则所述待识别用户身份确定。
需要说明的是,如图5所示,该系统还包括:用户行为的特征库构建单元501和/或信息反馈单元502;
所述用户行为的特征库构建单元501,用于获取已知用户行为数据;预处理所述获取已知用户行为数据;将所述预处理后的用户行为数据,进行语义单元重构;获取所述语义单元的属性信息以及其对应的权重;根据所述语义单元的属性信息以及其对应的权重,获取所述已知用户行为特征;将所述获取所述已知用户行为特征,按照类别存储在所述用户行为的特征库中。
所述信息反馈单元502,用于获取所述确定用户身份的待识别用户的至少一个语义单元以及对应所述用户身份的用户类型信息;比较所述语义单元与所述用户身份的用户类型信息,给出所述各个语义单元与所述用户身份的用户类型信息的相似度;按照所述相似度由大到小的顺序,?#36816;?#36848;语义单元进行排序;获取相似度前top-n个语义单元作为该类型用户的行为特征;将所述用户的行为特征添加到所述用户行为的特征库的对应类别中。
以上所述行为特征至少包括一个语义单元;所述语义单元属性信息至少包括:索引值,?#22336;?#20449;息,?#24066;裕?#35789;频和文档频率;所述语义单元至少包括一个词;所述词的属性信息包括:词的索引,词频,文档频率,IDF值,权值。
所述预处理步骤主要包括:行为数据筛选、拼写纠正、分词和?#24066;?#26631;注。
本发明提供的微博用户身份识别方法及系统,通过获取待识别用户行为数据以及用户行为的特征库信息;预处理所述获取的待识别用户行为数据;将所述预处理后的用户行为数据,进行语义单元重构;获取所述语义单元的属性信息以及其对应的权重;根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;将所述待识别用户行为特征与用户行为的特征库信息?#26800;?#27599;个特征类型进行比较;当所述待识别用户行为特征与所述用户行为的特征库信息?#26800;?#19968;个特征类型的相似度超过预设阈值,则所述待识别用户身份确定。采用本发明提供的微博用户身份识别方法及系统可以有效提高微薄用户身份识别的准确性及实时性。
本领域普通技术人员可以理解实现上述实施例方法?#26800;?#20840;部或部分步骤是可以通过程序来指令相关的?#24067;?#26469;完成,所述的程序可?#28304;?#20648;于一计算机可读取存储介质中,该程序在执行时,包括如下步骤:(方法的步骤),所述的存储介质,如:ROM/RAM、磁碟、光盘?#21462;?
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任?#38382;?#24713;本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,?#21152;?#28085;盖在本发明的保护范围之内。因此,本发明的保护范围应?#36816;?#36848;权利要求的保护范围为准。

关于本文
本文标题:一种微博用户身份识别方法及系统.pdf
链接地址:http://www.pqiex.tw/p-6115755.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 棋牌游戏注册送金币的 2013年好股票推荐 贵州十一选五预测号 二元超级大乐透走势图 天津十一选五走势图解 广西十一选五最大遗漏 安徽11选5走势图带连线 天天赢棋牌 时时中彩票新11选5 3d开奖号