平码五不中公式规律
  • / 30
  • 下载费用:30 金币  

识别在线服务的行为变化.pdf

关 键 ?#21097;?/dt>
识别 在线 服务 行为 变化
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201580038525.7

申请日:

2015.07.13

公开号:

CN106663167A

公开日:

2017.05.10

当前法律状态:

实审

?#34892;?#24615;:

审中

法?#19978;?#24773;: 实质审查的生效IPC(主分类):G06F 21/55申请日:20150713|||公开
IPC分类号: G06F21/55(2013.01)I; G06F21/57(2013.01)I; H04L29/06 主分类号: G06F21/55
申请人: 微软技术许可有限责任公司
发明人: A·A·S·索尔; B·马基; R·D·菲什; D·J·安克妮; D·D·博亚; V·拉姆达特米西尔
地址: 美国华盛顿州
优?#28909;ǎ?/td> 2014.07.16 US 14/333,377
专利代理机构: ?#26412;?#24066;金杜律师事务所 11256 代理人: 王茂华;黄倩
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201580038525.7

授权公告号:

|||

法律状态公告日:

2017.06.06|||2017.05.10

法律状态类型:

实质审查的生效|||公开

摘要

各个实施例提供了基于行为变化检测或“易变性”的概念对安全事件进行分类的方法。行为变化检测代替预定义模式方法而被用来查看系统的行为并且检测从原本正常操作行为所发生的任何变化。在操作中,机器学习技术被用作促进实施方式可扩展性的事件分类机制。该机器学习技术是迭代的并且随时间?#20013;?#36827;行学习。操作可扩展性问题通过使用时间序列中的事件的所计算易变性作为分类器输入而得以解决。在学习过程(即,机器学习过程)期间,该系统识别被安全事故所影响的相关特征。当处于操作中时,该系统实时地对那些特征进行评估并且提供将要发生事故的概率。

权利要求书

1.一种训练识别器以识别与在线服务相关联的行为变化的计算机实施的方法,包括:
产生与在线服务相关联的使用数据,所述使用数据与在线服务交互相关联;
产生与所述在线服务相关联的操作数据,所述操作数据与在线服务交互相关联;
对所述使用数据和所述操作数据进行处理以产生随时间的行为变化的测量;
将所述使用数据和所述操作数据的行为变化进行相关;以及
对经相关的行为变化进行处理以识别其中使用和操作行为变化与历史数据有偏差的
一个或多个事件。
2.根据权利要求1所述的方法,其中所述在线服务交互包括用户交互。
3.根据权利要求1所述的方法,其中所述在线服务交互包括用户交互和综合攻击模式
二者。
4.根据权利要求1所述的方法,其中所述在线服务交互包括综合攻击模式,所述综合攻
击模式包括被注入到一个或多个URL之中的攻击串和攻击代码。
5.根据权利要求1所述的方法,其?#34892;?#20026;变化的所述测量包括与所述行为变化的偏差
相关的个体数字。
6.根据权利要求1所述的方法,其中所述将行为变化进行相关产生一个流,所述流获取
使用和操作行为变化这两者的相关聚集。
7.一种计算设备,包括:
一个或多个处理器;
一个或多个存储计算机可读指令的计算机可读存储介?#21097;?#25152;述计算机可读指令当被执
行时实施一种系统,所述系统包括:
一个或多个在线服务;
用户业务模块,其被配置为提供与所述一个或多个在线服务的用户交互;
综合攻击生成器,其被配置为生成对所述一个或多个在线服务的综合攻击;
所述一个或多个在线服务被配置为从与所述用户业务模块和综合攻击生成器的交互
来产生使用数据和操作数据;
识别器,其被配置为:
对接收的使用数据和操作数据进行处理以识别其中使用和操作行为变化与历史数据
有偏差的一个或多个事件;
对所识别的事件进行打分以标识假阳性和假阴性;以及
使用所述假阳性和假阴性进一步训练所述识别器。
8.根据权利要求7所述的计算设备,其中所述识别器被配置为至少通过以下对所述接
收的使用数据和操作数据进行处理:
从所述使用数据和所述操作数据产生随时间的行为变化的测量;
将所述使用数据和操作数据的行为变化进行相关;以及
对经相关的行为变化进行处理以识别所述一个或多个事件。
9.根据权利要求8所述的计算设备,其中将所述行为变化进行相关产生一个流,所述流
获取使用和操作行为变化这两者的相关聚集。
10.根据权利要求7所述的计算设备,其中所述识别器被配置为至少通过以下对所述接
收的使用数据和操作数据进行处理:
利用使用数据易变性处理器来处理所述使用数据,以产生使用数据易变性的时间序
列;以及
利用操作数据易变性处理器来处理所述操作数据,以产生操作数据易变性的时间序
列。
11.根据权利要求10所述的计算设备,其中所述识别器进一步被配置为:至少通过将所
述使用数据易变性的时间序列与所述操作数据易变性的时间序列进行相关、以在受限于预
定义间隔的时间序列中提供获取使用易变性和操作易变性二者的相关聚集的流,来处理所
述接收的使用数据和操作数据。

?#24471;?#20070;

识别在线服务的行为变化

背景技术

具?#24615;?#34892;若干不同服务的大量计算机的组织通常针对可能指示安全威胁的异常
而对硬件和软件事件这两者进行监视。迄今为止,操作安全保证程序通常基于的是针对预
定义模式而分析事件的规则。例如,该规则可以是每个计算机的运行日志。该预定义模式可
以指示潜在的安全威胁,其一旦被识别就能够得到解决。该基于规则的方法在至少两个维
度可能无法进行扩展,因此使得该方法难以灵活实施。首先,关于基于规则的实施方式,这
要求规则基于专家知识提前进行编码。这意味着规则开发者必须预见到什么被认为是易损
性。然而,规则开发者可能无法具备所有潜在易损性的知识,因此在该方法中留下了缺口。
第二,在操作期间,基于规则的方法要求所有事件的完全扫描,寻找数据或信息中可能具有
不完整或不正确数据的模式。

因此,由于这样的系统通常无法识别出重要的安全事件或者可能产生许多假阳性
而因此触发不必要的检查,所以难以实?#33267;?#22909;且令人满意的结果。

发明内容

提供该发明内容而以简单的形式引入在以下具体实施方式中进一步进行描述的
概念的选择。该发明内容并?#19988;?#22312;标识出所请求保护主题的关键特征或必要特征。

各个实施例提供了基于行为变化检测或“易变性”的概念对安全事件进行分类的
方法。行为变化检测代替预定义模型方法而被用来查看系统的行为并且检测从原本正常操
作行为所发生的任何变化。在操作中,机器学习技术被用作促进实施方式可扩展性的事件
分类机制。该机器学习技术是迭代的并且随时间?#20013;?#36827;行学习。操作可扩展性问题通过使
用时间序列中的事件的所计算出的易变性作为分类器输入而得以解决。在学习过程(即,机
器学习过程)期间,该系统识别被安全事故所影响的相关特征。当处于操作中时,该系统实
时地对那些特征进行评估并且提供将要发生事故的概率。

附图?#24471;?br />

参考附图对具体实施方式进行描述。在图中,附图标记最左侧的(多个)数字标识
出该附图标记首次出现的附图。在描述的不同实例中使用相同的附图标记并且附图可以指
示相似或相同的事项。

图1图示了依据一个或多个实施例的示例操作环境。

图2图示了依据一个或多个实施例的示例系统。

图2a图示了依据一个实施例的作为xml数据的元域(meta-domain)描述符。

图2b图示了依据一个实施例的将矩阵执行建模为xml数据。

图3图示了依据一个或多个实施例的示例识别器。

图3a图示了能够如何随时间在特定上下文中收集对象特征的多个方面。

图3b图示了对来自图3a的集合数值进行聚类的示例。

图3c图示了能够如何随时间在特定上下文中收集对象特征的多个方面。

图3d图示了对来自图3c的集合数值进行聚类的示例。

图3e图示了依据一个或多个实施例的计算机偏差。

图4图示了经历迭代的机器学习过程的示例系统。

图5图示了经历迭代的机器学习过程的示例系统。

图6图示了依据一个或多个实施例的示例架构(schema)如何被?#25104;?#33267;示例系统的
多个方面。

图7图示了依据一个或多个实施例的示例架构如何被?#25104;?#33267;示例系统的多个方
面。

图8是描述依据一个或多个实施例的方法中的步骤的流程图。

图9是描述依据一个或多个实施例的方法中的步骤的流程图。

图10?#19988;?#25454;一个或多个实施例的示例设备。

具体实施方式

概要

各个实施例提供了用于基于行为变化检测或“易变性”的概念对安全事件进行分
类的方法。安全事件与一个或多个在线服务的提供相关联。使用行为变化检测来代替预定
义模型方法以查看系统的行为并且检测从原本正常操作行为所发生的任何变化。在操作
中,机器学习技术被用作促成实施方式可扩展性的事件分类机制。该机器学习技术是迭代
的并且随时间?#20013;?#36827;行学习。这构成了对于无论何时系统改变都要求新规则得到授权的基
于规则的系统的改进。通过机器学习技术,消除了通常与基于规则的系统相关联的手动处
理。操作可扩展性问题通过使用时间序列中的事件的所计算出的易变性来作为分类器输入
而得以解决。在学习过程(即,机器学习过程)期间,该系统识别被安全事故所影响的相关特
征。当处于操作中时,该系统实时地对那些特征进行评估并且提供将要发生事故的概率。

在后续的讨论中,标题为“示例环境”的部分描述了各个实施例能够在其中被加以
利用的示例环境。接下来,标题为“示例架构”的部分描述了可以结合各个实施例被加以利
用的示例架构。在此之后,标题为“训练识别器”的部分描述了其中识别器能够依据一个或
多个实施例而被初始训练以便进行部署的实施例。接下来,标题为“针对在线服务的行为变
化分析—示例”的部分描述了能够被用来依据一个实施例进行行为变化分析的一种方法。
接下来,标题为?#23433;?#20316;中”的部分描述了依据一个或多个实施例的所部署识别器和迭代机器
学习过程的多个操作方面。在此之后,标题为“将系统与架构相关”的部分提供了以下所描
述的示例架构如何与所描述系统进行相关的图解表示形式。接下来,标题为“示例方法”的
部分描述了依据一个或多个实施例的示例方法。最后,标题为“示例设备”的部分描述了依
据一个或多个实施例的示例设备。

现在考虑各个实施例能够在其中进行实践的示例环境。

示例环境

图1是示例实施方式中能够进行操作以采用这里所描述的技术的环境100的图示。
所图示的环境100包括服务器102、103,一个或多个客户端设备104,以及将服务器和客户端
设备通信耦合的网络106。

虽然客户端设备104被图示为由传统的台式计算机所实施,但是客户端设备104可
以由各种不同的设备来实施。例如,客户端设备104可以被配置为能够通过网络106进行通
信的计算机,诸如台式计算机、移动?#38236;恪?#23089;乐电器、通信耦合?#26009;?#31034;设备的机顶盒、无线电
话、游戏机、平板计算机、笔记本电脑,等?#21462;?#22240;此,客户端设备104的范围可以从具有实质性
的存储器和处理器资源的全资源设备(例如,个人计算机、游戏机)到具有有限存储器和/或
处理资源的低资源设备(例如,传统机顶盒、手持游戏机)。此外,设备可以表示一个或多个
设备,例如,(多个)服务器102所提供的功能可以由服务器群组中的多个服务器(诸如服务
器103所表示的那些服务器)所提供。

虽然网络106被图示为互联网,但是网络可以假设为各种配置。例如,网络106可以
包括广域网(WAN)、局域网(LAN)、无线网络、公共电话网、内联网,等?#21462;?#21478;外,虽然示出了单
个网络106,但是网络106可以被配置为包括多个网络。

服务器102可以被配置为能够提供能够在线进行消费的任意?#23454;?#31867;型的服务108
的任意?#23454;?#31867;型的服务器。在至少一些实施例中,一个或多个服务器能够被配置为以在所
谓的“云计算?#34987;?#22659;中进行操作。云计算是指使得无所不在的网络能够访问共享且虚拟化的
计算能力池。作为示例而非限制,这样的计算能力可以包括能够快速供应的网络、存储、处
理和存储器能力。云计算能够涵盖各种云提供方,以及若干的设施即服务(Iaas)和平台即
服务(Paas)解决方案。

特别地,作为示例而非限制,服务器102能够被配置为专用于运行某些软件应用
(例如,商业相关应用)的应用服务器,能够跨分布式网络提供针对信息的集中搜索点的目
录服务器,为通信网络提供计算平台的通信服务器,意在用于密集计算(例如,科学计算)的
计算服务器,为其它计算机程序或计算机提供数据库服务的数据库服务器,为客户端设备
提供传真服务的传真服务器,针对文件提供远程访问的文件服务器,使得视频游戏客户端
能够连接以便玩在线游戏的游隙服务器,处理电子邮件的传输和针对其的访问以及其它通
信服务器的邮件服务器,提供名称解析的名称服务器,提供打印服务的打印服务器,针对来
自客户端的从其它服务器寻求资源的请求充当中介的代理服务器,允许HTTP客户端进行连
接以便发送命令并且连同数据内容一起接收响应的Web服务器,等?#21462;?#36825;样,服务器102、103
所提供的服务的数量和类型能够大幅变化。

个体服务器可以包括系统,后者包括所谓的识别器,其被配置为利用机器学习技
术而基于行为变化检测或“易变性”的概念对安全事件进行分类。行为变化检测替代预定义
模式方法而被用来查看系统的行为并且检测与本来正常的操作行为相比的任何变化。在操
作中,机器学习技术被用作事件分类机制。该机器学习技术是迭代的并且随时间?#20013;?#36827;行
学习。这构成了对基于规则的系统的改进,后者无论系统何时发生变化都要求创建新的规
则。通过机器学习技术,通常与基于规则的系统相关联的人工处理得以消除,有助于可自动
更新且?#20013;?#23398;习的解决方案。

客户端设备104的用户可以与通信模块110进行交互,后者表示客户端设备104用
来与网络106进行交互并且因此与服务器102、103所提供的各种在线服务进行交互的功能。

上文和下文所描述的各个实施例能够利用计算机可读存储介质来实施,其包括使
得处理单元能够实施所公开方法的一个或多个方面以及实施被配置为实施所公开方法的
一个或多个方面的系统。“计算机可读存储介质?#21271;?#31034;所有法定形式的介质。因此,诸如载波
和信号本身的非法定形式的媒体并?#19988;?#22312;被术语“计算机可读存储介质”所涵盖。

通常,这里所描述的任意功能都能够使用软件、固件、硬件(例如,固定逻辑电路)、
人工处理,或者这些实施方式的组合来实施。如这里所使用的术语“模块”、“功能”和“逻辑”
总体上表示软件、固件、硬件或者它们的组合。在软件实施方式的情况下,该模块、功能或逻
辑表示在处理器(例如,一个或多个CPU)上执行时实施指定任务的程序代码。该程序代码可
以存储在一个或多个计算机可读存储器设备中,诸如计算机可读存储介质。基于易变性的
分类器的特征是独立于平台的,这意味着该技术可以在具有各种处理配置的各种商业计算
平台上实施。

已经考虑了其中能够采用各个实施例的示例环?#24120;?#29616;在首先对定义以下所描述的
模块之间的数据流程的示例架构。然而,所要意识到和理解的是,将要描述的架构仅构成架
构的一个示例而并非被用来对所请求保护主题的应用加以限制。在本文的结尾附近,图6和
7以图示方式将该架构与以下所要描述的系统进行相关。

示例架构

将要讨论的架构描述了通过基于易变性的分类器的处理模块的管道的数据流程。
首先对架构进行描述,随后是对各个处理模块以及该架构所描述的数据如何流过处理模块
的讨论。

“使用数据(UsageData)”是针对使用数据的开放架构,其描述了用户如何与特定
服务器进行交互,例如去往特定网站的在线服务请求,诸如Bing.com中的搜索查询。

“使用数据描述(UsageDataDescription)”是用于有关UsageData的元数据的架
构。该元数据以一些特定方式对UsageData进行描述。

?#23433;?#20316;数据(OperationalData)”是针对托管服务的数据?#34892;?#30340;操作数据的开放架
构。作为示例而非限制,OperationalData可以包括聚集的CPU利用、网络业务、存储器使用
?#21462;?br />

?#23433;?#20316;数据描述(OperationalDataDescription)”用于有关OperationalData的元
数据的架构。该元数据以一些特定方式对OperationalData进行描述。

“使用易变性(UsageVolatility)”是用于时间序列的开放架构,其具有所指示的
使用数据的易变性。例如,这可以是数字特征(如请求的数目)的派生物或者是获取变化类
型的开放串,例如,用于获取在最后一段时间中在网页内存在渲染差异的串。

?#23433;?#20316;易变性(OperationalVolatility)”是用于时间序列的开放架构,其具有所
指示的操作数据的易变性。如同使用易变性一样,这例如可以是数字特征(如CPU利用)的派
生物,或者是能够对目标间隔内的易变性进行总结的任意其它类型的数据,例如类别数据、
二进制数据或者甚至在没有获取到数据的情况下为零。

“特征流(FeatureStream)”是获取与预定义间隔(例如,数天、数小时、数分?#21360;?#25968;
秒?#21360;?#25968;毫秒等)相结合的时间序列中的使用易变性和操作易变性二者的统一且相关的聚
集的开放架构。

“所识别事件(RecognizedEvents)”是用于生成所识别事件的开放架构。那些是使
用和操作易变性基于所注释的训练数据而与历史数据出?#21046;?#24046;时的时间点。

“识别打分(RecognitionScoring)”是用于针对所谓被标记的“地面真值”而输出
所识别事件的记分处理的开放架构。

已经考虑了依据一个或多个实施例的示例架构,现在考虑用于针对各种事件训练
所谓的“识别器”的工具和处理的讨论。

训练识别器

这部分对能够如何通过机器学习技术对所谓的“识别器”进行初始训练。

在所图示并描述的实施例中,作为示例而非限制,用于训练识别器的工具和处理
包括:

(1)生成综合攻击的服务;

(2)获取使用和操作数据的数据流;

(3)用于计算使用数据易变性和操作数据易变性的处理器模块;

(4)用于对来自使用易变性和操作易变性的时间序列流的相关进行计算的相关模
块;

(5)用于数据聚类、分类和回归的机器学习训练构架;和

(6)机器学习运行时间环境。

作为示例,考虑图2,其总体上以200图示了依据一个或多个实施例的示例系统。系
统200包括一个或多个在线服务202,以上提供了它们的多个示例。此外,系统200包括用户
业务模块204、综合攻击生成器206、使用数据208、操作数据210、识别器212,以及所谓的所
识别的不良业务214。基于以下所描述的训练数据,所识别的不良业务构成在使用和操作易
变性与历史数据有偏差的时间点所识别的事件。

用户业务模块204表示与关于特定在线服务202的用户业务相关联的功能。具体而
言,用户业务能?#36824;?#25104;所谓的“良好?#24065;?#21153;,其是典型、正常的用户交互。这些正常用户动作
将是通常与用户在正常情况下如何消费在线服务或者以其它方式与之进行交互相关联的
那些动作。用户业务也能?#36824;?#25104;所谓的?#23433;?#33391;”用户业务。不良用户业务构成了并不正常的
业务,包括攻击类型业务、恶意业务以及其它可疑交互。

综合攻击生成器206被用来对在线服务202生成综合攻击。该综合攻击可以采用任
意?#23454;?#30340;形式,并且在至少一些实施例中可以是所提供的在线服务的类型的函数。综合攻
击生成器206例如能够被用来生成特殊攻击串,将攻击代码注入到在从与在线服务相关联
的各种日志所发现的各种URL和?#38382;?#20013;。很多时候,这些已知攻击能够每天对在线服务202
生成数百个请求。

响应于从用户业务模块204和综合攻击生成器206所接收的输入,在线服务202产
生两?#36136;?#25454;——使用数据208和操作数据210。

使用数据208可以包括与用户与在线服务的交互相关联的任意?#23454;?#31867;型的数据。
因此,例如,日志能够描述用户在特定时间点导航至网?#24120;?#38024;对特定类型的蜂窝电话作出查
询,接?#29031;?#23545;该查询的结果,并且随后导航至另一个网页。

操作数据210描述系统硬件和软件操作的多个方面。作为示例而非限制,这可以包
括聚集CPU利用、网络业务、存储器使用?#21462;?#20174;而,例如,操作数据可以描述特定机器在一段
时间内从使得其第一百分比的存储器可用到使得其第二百分比的存储器可用。

以下更详细的方式描述对这两?#36136;?#25454;—使用数据和操作数据进行相关并排序。特
别地,如以下所描述的,使用数据和操作数据被输入到识别器212并由该识别器212进行处
理。识别器212利用如以下更详?#35813;?#36848;的机器学习技术来产生所识别的不良业务214,即所
识别出的与历史行为有偏差的事件。

图3图示了依据一个或多个实施例的示例识别器212。在该示例中,识别器被描述
为被部署或者可操作。在该特定示例中,识别器212包括使用数据易变性处理器300、操作数
据易变性处理器302、时间序列流相关器304和训练模型事件识别器206。

以上所提到的使用数据被使用数据易变性处理器300所接收并处理。同样,操作数
据被操作数据易变性处理器302接收并处理。处理器300、302中的每一个对其相应数据进行
处理从而分析与数据相关联的行为。也就是说,这些处理器中的每一个对其所接收的数据
执行行为变化分析。能够进行任意?#23454;?#31867;型的行为变化分析。因此,例如,使用数据易变性
处理器可以注意到用户在昨天利用在线服务进行了针对前往蒙特利尔旅行的车票的搜索。
该搜索产生了被该用户进一步消费的网页。然而,当不同用户在今天进行类似搜索时,该系
统的行为由于可能产生了不同的搜索结果而表现得十分不同。同样,在此期间,操作数据易
变性处理器302可以注意到昨天的操作数据在该搜索期间与今天的类似搜索相比在其存储
器使用方面发生具有意义的变化。

基于处理器300、302所进行的处理,所观察到的行为变化使用一个数字或数值进
行量化,该数字或数值与所观察到的行为变化的偏差相关。依据一个或多个实施例,能够使
用任意?#23454;?#30340;量化方案。在至少一些实施例中,行为变化使用0和1之间的数值进行量化。按
照这种方式的行为变化的量化使得行为变化能够随时间进行分类。该处理产生了具有用户
易变性和操作易变性数据的时间序列。以下在标题为“在线服务的行为变化分析—示例”的
部分中提供这能够如何实现的一个示例。

经量化的行为变化数据被提供至时间序列流相关器304以便进行处理。该相关器
对其从使用数据易变性处理器300所接收的数据进行分析,并且查看从操作数据易变性处
理器302所接收到的任何数据是否指示相对应时间的任何行为变化。因此,例如,如果在特
定时间发生了使用行为偏差,则时间序列流相关器304检查从该时间起从操作数据易变性
处理器302所接收的数据以确认操作正常还是在一定具有意义的程度上有所变化,例如使
得CPU使用从50%跃升至100%。因此,使用数据和操作数据的易变性的相关能够有助于识
别特定行为偏差是否甚至更为不同寻常。该处理产生了特征流,所述特征流获取使用易变
性和操作易变性在结合至预定义间隔的时间序列中的统一且相关的聚集。

该特征流被提供至训练模型事件识别器306。识别器306被配置为从其所接收到的
特征流识别出正常对比异常的行为。因此,例如,在给定时间,操作数据可能指示与机器被
关机相关联的行为变化。在对相关的时间序列流进行检查时,训练模型时间识别器306可以
注意到与该时间相关联的使用数据是正常的。因此,该系统在此之前都是正常操作的。然
而,该时间序列流可以指示连同处于正常操作范围之外的使用数据一起的操作数据变化。
在这种情况下,这被识别为不良业务,即所识别的其中使用和操作易变性与示例数据有偏
差的事件,并且可以由该系统生成通知以使得进一步的调查被执行。

在线服务的行为变化分析—示例

在一个或多个实施例中,为了针对在线服务计算行为偏差,采用了两种概念—元
域描述符和矩阵执行,以下对它们各自进行讨论。能够使用其它方法而并不背离所请求保
护主题的精神和范围。

元域描述符

元域描述符描述了与当前上下文相关联的要素。例如,考虑将该概念应用于简单
地作为HTML端点的“http://www.bing.com”。能够在提取出算法搜索结果(例如,蓝色链接)
时看到其示例。在该实例中,我们并不考虑诸如查询、市场、语言之类的账户环境因素,或者
能够对其中算法结果得到验证的上下文有所影响的任意其它?#38382;?#20803;域描述符(MDD)是在
独立上下文中进行描述的对象的集合。

在所图示并描述的示例中,MDD对象具有提取器和特征集合。特征是动作的集合。
算法结果的动作示例可以包括:实例数量、实例顺序(针对其中显示顺序的特定上下文)、页
面位置?#21462;?br />

令提取器为E且特征为F,而动作为A,则对象能够被表示为:

O={(E,F(i))with i=1..n}

其中F={A(i),with i=1..n}。

随后,元域描述符能够被表达为MDD={O(i)其中i=1..n:O(i)独立于上下文}。

将元域描述符建模为xml数据将如图2a中所示(使用描述Bing算法结果的示例)。

最后,元域描述符被用来描述我们尝试针对偏差而对哪一部分的域行为进行检查
和分析。

矩阵执行

矩阵执行描述了对象上下文生成器。矩阵执行将MDD置于各种类型的上下文之中。
使用算法结果的简单示例将是针对具体查询、市场、语言而对它们加以呈现。

令上下文为C并且被表达为C={O(i)其中i=1..n:O(i)独立于上下文}。随后,矩
阵执行能够被表达为MTX={C(i),其中i=1..n}。并且,随后MDD是C的子集。MTX可以被认为
是消费MDD的机制。

将矩阵执行建模为xml数据将如图2b中所示(使用生成Bing上下文的示例)。

行为收集初始阶段

现在考虑行为收集初始阶段。特别地,现在已经建立了MTX和MDD,可以描述行为是
什么以及如何对其进行收集。我们看MTX所触发的特定上下文中的MDD。随后,我们能够通过
以下在特定上下文中对MDD进行表达:MDD(MTX)={O(i,C(j)),其中i=1..n,j=1..m},其
中O(i,C(j))={(F(i,C(j))其中i=1..n,j=1..m},而不是替换为我们所具有的第一表达
式MDD(MTX)={F(i,C(j)),其中i=1..n,j=1..m}。

所以,如果现在有限时段被定义为T={t(1),…t(k)},则可以在该时?#25991;?#38024;对特
定情境1收集特征1,随后这可以呈现如下:F(1,C(1),T)={A(i,C(1),t(j)),其中i=1..n,
j=1..k}。

(针对一个时?#25991;?#30340;特定上下文中的特征)得到那些数值集合之后的下一个步骤
是使用机器学?#23433;?#32423;聚类算法(例如,聚合法(agglomerative approach))对它们进行聚
类。

参见图3a,对Set1、Set2和Set3进行聚类。从而在此时,可以认为一个时?#25991;?#38024;对
特定上下文中的对象特征的行为是多个聚类中的一个聚类。令聚类为CL={Set(i),其中i
=1..n}并且令多个聚类中的一个聚类为CLCL={CL(i),其中i=1..n}。

参见图3a,如果3a,如果CL1={Set1,Set2}且CL2={Set3},则CLCL1={CL1,CL2}。
作为示例,考虑图3b,其图示了对来自图3a的数值集合进行聚类的示例。

最后,行为是使用层级聚类算法(例如,聚合法)利用一个时?#25991;?#38024;对特定上下文
中的对象特征所收集的数据所计算的多个聚类中的一个聚类。这能够如下表达:令行为为B
={CLCL(T)},其中CLCL是多个聚类中的一个聚类并且T是时段。

行为收集练习阶段

现在考?#19988;?#25454;一个或多个实施例的行为收集练习阶段。该阶段实际上是与以(以
上所解释的)初始阶段相同的方式进行收集和计算。这里仅有的差异将是时间(T)。因此,如
果针对初始行为阶段选择了T={t(i),其中i=1..n},则针对练习阶段就必须选择T’={t
(j),其中j=n+m,..k且m>=1且k>m+n}。换句话说,在两个时段之间没有重叠。从而该练习
阶段仅有的特定性在于T不应当与来自初始阶段的时间T’有所重叠。图3c对此进行了图示。

图3d中示出了针对该练习阶段的行为。这些集合在不同时?#25991;?#34987;收集,因此多个
聚类中的一个聚类看上去可能有所不同。

应当注意的是,来自初始和练习行为间隔的T和T’应当是相等的。希望针对每个行
为阶段具有对称的分布数据。该上下文跨T统一分布,因此如果j=i+1且k=j+1,则t(j)-t
(i)=t(k)-t(j),其中i,j,k来自于1..n。

计算行为偏差

现在考?#19988;?#25454;一个实施例的行为偏差的计算。也就是说,利用以上所解释的两个
行为阶段,能够进一步计算行为偏差。为了计算相同行为的两个不同阶段之间的偏差,计算
多个集群中的两个集群之间的对?#30772;?#24046;。因此,CLCL(T)ΔCLCL(T’)=CLCL(T)∪CLCL(T’)-
CLCL(T)∩CLCL(T’)(或者B(T)ΔB(T’)=B(T)∪B(T’)-B(T)∩B(T’))之间的对?#30772;?#24046;是相
同行为的两个阶段之间的实际偏差。图3e对此进行了图示。

B(T)ΔB(T’)大于或等于零并且小于或等于1。

偏差等于零意味着没?#34892;?#20026;变化,因此数?#26723;?#20110;1意味着行为已经完全发生了变
化。现在能?#36824;?#20110;该偏差意味着什么、其是否构成问题、以及如果它是问题则是什么样的问
题(例如,安全、常规回归、隐私)作出判断。

通过收集行为偏差、对它们进行分类以及使得系统记住它们,能够?#39029;?#21253;括安全、
常规回归、隐私问题在内的问题。测试覆盖得以大幅改进,将不会随着时间推移而大幅?#35272;?br />于人,并且将会学习而且能够标识出未知的问题。

已经考虑了识别器能够如何进行训练以及被部署使用,以及能够如何进行行为变
化分析,现在考虑用于将各个处理模块进行连接并且执行操作评估的示例整体处理,上述
操作评估包括使用机器学习技术的?#20013;?#35757;练。

操作中

以下讨论描述了识别器能够通过其识别安全事件的迭代处理,并且机器学习技术
能够被用来自动且?#20013;?#22320;使得该识别器能够进一步学习如何识别安全事件。

在随后的讨论中对图4和5加以利用。图4从识别器的初始部署的角度描述了该迭
代处理,并且图5描述了识别器能够如何进一步训练或“升级”。出于讨论的目的并且由于篇
幅限制,个体元件或模块的名称已经被去除。然而,每个元件的相对应附图标?#19988;?#32463;从之前
的讨论中所涉及。

参考图4,初始训练通过使用所谓的初始地面真值对数据进行训练来进行。该初始
地面真值包括针对特定在线服务描述表现为正常的行为以及表现为不正常的行为的数据。
如随后将更为清楚的,该数据能够随时间有所发展并且能够通过后续机器学习技术进行迭
代强化。该数据能够以如以上所描述的使用数据和操作数据二者的形式存在。

使用初始地面真值对识别器212的训练基本上如以上所描述的进行。一旦被初始
训练,该识别器就如从训练模型事件识别器306指向最?#20063;?#35782;别器212的箭头所示进行部
署。

现在参考图5,所部署的识别器,即最左侧识别器212,准备参与迭代的机器学习过
程。在操作中,当识别器212在线时,其接收使用数据208和操作数据210并且如以上所描述
的对该数据进行处理。特别地,使用数据208和操作数据210被处理从而产生所识别不良业
务或所识别的事件。

该系统随后采用评估和打分处理,在其间出于进一步强化该系统识别不良业务的
目的而对所识别不良业务进行评估和打分。在该示例中,该评估和打分过程由从最左侧的
所识别的不良业务214到打分表500?#30001;?#30340;箭头所表示。所识别的不良业务的每个实例被打
分为“真阳性”、“真阴性”、“假阳性”或“假阴性”。

如本领域技术人员将会意识到的,“真阳性”和“真阴性”是其中该系统表?#22336;?#21512;预
期的实例。也就是说,该系统正确标识和识别出了不良业务而没有识别并非不良业务的业
务。该评估和打分处理标识出“假阳性”或“假阴性”的实例构成了其中迭代学习过程能够被
用来进一步加强该系统所能够标识安全威胁的准确性的实例。

具体而言,“假阳性”是其中业务被标识为不良但是实际上该业务并非不良的情
形。“假阴性”是其中某些应当被标识为不良业务的却没有被标识为不良业务的情形。在这
两种情况下,通过将该信息以附加地面真值训练数据——使用数据和操作数据二者——的
形式提供回到识别器,来采取动作以强化该地面真值,上述数据能够进一步被该系统进行
处理。该数据还被用作用户业务模块204的验证数据。使用该附加训练数据的结果在于所部
属的识别器能够如从训练模型事件识别器306?#30001;?#33267;最左侧识别器212的箭头所指示的进
行加强。

该过程能够自动继续以将被反馈至该系统中的附加训练数据发展成用于训练和
验证这二者,这进而提高了识别器能够执行其操作的?#34892;?#24615;。

将系统与架构相关

之前介绍了架构的概念以描述由如以上所述系统进行处理的数据。以下讨论将架
构与刚才上文所描述的系统进行相关。类似于其中讨论图4和5的方式,现在提供了图6和7。
还提供了表格600,其包括数?#31181;?#26550;构元素的?#25104;洹?#36825;些数字随后被加以圆圈被提供至每个
图的图形上以示出该架构元素的数据在处理的何处被采用。

以图6开始,分别与使用和操作数据相关联的元数据(01d和02d)分别被用来描述
使用数据(01)和操作数据(02)。使用数据和操作数据?#19978;?#24212;的易变性处理器300、302进行
处理从而分别产生如以上所描述的使用易变性(03)和操作易变性(04)时间序列。这些时间
序列由时间序列流相关器304进行处理从而产生特征流(05)。该特征流在限制在预定义间
隔的时间序列中获取使用易变性和操作易变性这两者的统一且相关的聚集,作为示例而非
限制,上述预定义间隔诸如数天、数小时、数分?#21360;?#25968;秒?#21360;?#25968;毫秒?#21462;?#35813;特征流由训练模型
事件识别器306进行处理从而产生在以上描述中被称作?#23433;?#33391;业务”的所识别的事件(06)。

现在转向图7,所识别的事件(06)经历评估和打分过程从而产生识别打分数据
(07),其中所识别的事件相对于所标记的地面真值而被打分。该处理随后如以上所描述的
继续进行。也就是说,该识别器能够通过机器学习技术进行加强,上述机器学习技术采用所
识别的假阳性和假阴性来改善系统识别不良业务或所识别事件的能力。

示例方法

图8是描述依据一个或多个实施例的被用来训练识别器的训练方法中的步骤的流
程图。该方法能够结合任意?#23454;?#30340;硬件、软件、固件等实施。在至少一些实施例中,该方法或
者其多个方面能够由诸如以上所描述的识别器的?#23454;?#37197;置的识别器来实施。

步骤800产生与在线服务相关联的使用数据。步骤802产生与该在线服务相关联的
操作数据。步骤800和802能够以任意?#23454;?#26041;式来执行。例如,在至少一些实施例中,使用和
操作数据通过观察用户如何与该在线服务进行交互而产生。如以上所提到的,这可以包括
良好和不良交互。此外,使用和操作数据能够从该在线服务所处理的综合攻击模式而产生。
上文提供了综合攻击模式的示例。步骤800和802所产生的数据能够并行产生。

步骤804对该使用数据和操作数据进行处理从而产生行为随时间变化的测量。该
步骤能够以任意?#23454;?#26041;式来执行。例如,在以上所描述的实施例中,易变性处理器分别对使
用数据和操作数据进行处理以产生经量化的测量,该经量化的测量与随时间的行为变化的
偏差相关。步骤806将使用数据和操作数据的行为变化进行相关。以上提供了能够如何实现
此目的的示例。使用数据和操作数据能够被并行处理。

步骤808对经相关的行为变化进行处理从而识别出其中使用和操作行为变化与历
史数据相比有所偏差的一个或多个事件。

图9是描述依据一个或多个实施例的其中经训练的识别器能够通过机器学习技术
而被?#20013;易?#21160;加?#30475;?#32780;更为?#34892;?#22320;识别不良业务或所识别事件的方法中的步骤的流程
图。该方法能够结合任意?#23454;?#30340;硬件、软件、固件等实施。在至少一些实施例中,该方法或者
其多个方面能够由诸如以上所描述的识别器的?#23454;?#37197;置的识别器来实施。

步骤900提供已经利用使用数据和操作数据进行了训练的识别器。以上提供了能
够如何实?#25191;?#30446;的的示例。步骤902对所接收的使用数据和操作数据进行处理从而识别出
其中使用和操作行为变化与历史数据有偏差的一个或多个事件。以上提供了能够如何实现
此目的的示例。特别地,关于图8中所描述的方法,其中能够执行该步骤的一种方式是通过
步骤804、806和808的组合。

步骤904对所识别事件进行打分从而标识假阳性和假阴性。以上提供了能够如何
实?#25191;?#30446;的的示例。步骤906使用该假阳性和假阴性来进一步训练该识别器。以上提供了能
够如何实?#25191;?#30446;的的示例。该方法随后能够返回至步骤902从而继续如以上所描述的继续
接收并处理使用和操作数据。

示例设备

图10图示了示例设备1000的各个组件,该示例设备1000能够被实施为任意类型的
用来实施这里所描述实施例的便携式和/或计算机设备。设备1000包括支持设备数据1004
(例如,所接收数据、正在接收的数据、被调度用于广播的数据、数据的数据分组等等)的有
线和/或无线通信的通信设备1002。设备数据1004或其它设备内容可以包括设备的配置设
置、存储在设备上的媒体内容和/或与设备用户相关联的信息。存储在设备1000上的媒体内
容可以包括任意类型的音频、视频和/或图像数据。设备1000包括一个或多个数据输入
1006,能够经由其接收任意类型的数据、媒体内容和/或输入,诸如用户可选择输入、消息、
音乐、电?#29992;?#20307;内容、录制视?#30340;?#23481;,以及从任意内容和/或数据源所接收的任意其它类型
的音频、视频和/或图像数据。

设备1000还包括通信接口1008,其能够被实现为以下中的任意一个或多个:串行
和/或并行接口、无线接口、任意类型的网络接口、调制解调器,以及被实现为任意其它类型
的通信接口。通信接口1008在设备和通信网络之间提供其它电子、计算和通信设备通过其
能够与设备1000传输数据的连接和/或通信链路。

设备1000包括一个或多个处理器1010(例如,任意的微处理器、控制器等),其对各
种计算机可执行指令进行处理以控制设备1000的操作并且实施基于资源的自?#35270;?#26381;务器
加载的实施例。可替换地或除此之外,设备1000可以利用任意硬件、固件或固定逻辑电路的
任意之一或其组合结合总体上以1012进行标识的处理和控制电路来实施。虽然没有被示
出,但是设备1000可以包括耦合设备内的各个组件的系统总线或数据传输系统。系统总线
可以包括不同总线结构的任意一种或其组合,诸如利用各种总线构架的存储器总线或存储
器控制器、外部总线、通用串行总线和/或处理器或局部总线。

设备1000还包括计算机可读存储介质1014,诸如一个或多个存储器组件,其示例
包括随机访问存储器(RAM)、非易失性存储器(例如,任意的一个或多个只读存储器(ROM)、
闪存、EPROM、EEPROM等),以及盘存储设备。盘存储设备可以被实现为任意类型的磁或光存
储设备,诸如硬盘驱动器、可录制和/或可写入紧致盘(CD)、任意类型的数字多功能盘(DVD)
?#21462;?#35774;备1000还可以包括大型存储介质设备1016。

计算机可读存储介质1014提供数据存储机制以存储设备数据1004,以及各种设备
应用1018和与设备1000的操作方面相关的任意其它类型的信息和/或数据。例如,操作系统
1000可以利用计算机可读存储介质1014而被保存为计算机应用并且在处理器1010上执行。
设备应用1018可以包括设备管理器(例如,控制应用、软件应用、信号处理和控制模块、特定
设备本地的代码、特定设备的硬件抽象层等),以及能够包括web浏览器、图像处理应用、诸
如即时消息应用的通信应用、文字处理应用以及各?#21046;?#23427;不同应用的其它应用。设备应用
1018还包括用来实施阵列所描述技术的实施例的任意系统组件或模块。在该示例中,设备
应用1018可以包括如以上所描述的那样进行操作的识别器1022。

设备1000还包括音频和/或视频输入-输出系统1024,其向音频系统1026提供音频
数据,和/或向显示系统1028提供视频数据。音频系统1026和/或显示系统1028能够包括处
理、显示和/或另外渲染音频、显示和图像数据的任意设备。视频信号和音频信号可以经由
RF(射频)链路、S-视频链路、复合视频链路、分量视频链路、DVI(数?#36136;悠到?#21475;)、模拟音频
连接或其它类似通信链路从设备1000传输至音频设备和/或显示设备。在一个实施例中,音
频系统1026和/或显示系统1028被实施为设备1000外部的组件。可替换地,音频系统1026
和/或显示系统1028被实施为示例设备1000的集成组件。

结论

各个实施例提供了基于行为变化检测或“易变性”的概念对安全事件进行分类的
方法。行为变化检测代替预定义模型方法而被用来查看系统的行为并且检测从原本正常操
作行为所发生的任何变化。在操作中,机器学习技术被用作促成实施方式可扩展性的事件
分类机制。该机器学习技术是迭代的并且随时间?#20013;?#36827;行学习。操作可扩展性问题通过使
用时间序列中的事件的所计算易变性作为分类器输入而得以解决。在学习过程(即,机器学
习过程)期间,该系统标识被安全事故所影响的相关特征。当处于操作中时,该系统实时地
对那些特征进行评估并且提供将要发生事故的概率。

虽然已经以特定于结?#22266;?#24449;和/或方法动作的语言对主题进行了描述,但是所要
理解的是,所附权利要求中所定义的主题并非必然被局限于以上所描述的具体特征和动
作。相反,以上所描述的具体特征和动作作为实施权利要求的示例形式而公开。

关于本文
本文标题:识别在线服务的行为变化.pdf
链接地址:http://www.pqiex.tw/p-6091885.html
关于我们 - 网站声明 - 网?#38236;?#22270; - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 股票分析软件名字 今日股市最新消息上证指数 卖房炒股 股票融资融券怎么操作 国际股票指数代码应如何投资 同花顺手机炒股软件 股票融资去哪里办理 分析股票涨跌影响因素 看股票涨跌 上海期货股指股票配资融资网