平码五不中公式规律
  • / 26
  • 下载费用:30 金币  

使用无监督式机器学习和优先权算法的高速威胁情报管理的系统及方法.pdf

关 键 ?#21097;?/dt>
使用 监督 机器 学习 优先权 算法 高速 威胁 情报 管理 系统 方法
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201580004151.7

申请日:

2015.07.24

公开号:

CN106663169A

公开日:

2017.05.10

当前法律状态:

实审

?#34892;?#24615;:

审中

法?#19978;?#24773;: 专利申请权的转移IPC(主分类):G06F 21/56登记生效日:20181219变更事项:申请人变更前权利人:策安保安有限公司变更后权利人:恩赛因信息安全(网络安全)有限公司变更事项:地址变更前权利人:新加坡新加坡变更后权利人:新加坡新加坡|||实质审查的生效IPC(主分类):G06F 21/56申请日:20150724|||公开
IPC分类号: G06F21/56 主分类号: G06F21/56
申请人: 策安保安有限公司
发明人: 林庆麟
地址: 新加坡新加坡
优先权:
专利代理机构: 上海专利商标事务所有限公司 31100 代理人: 段登新
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201580004151.7

授权公告号:

||||||

法律状态公告日:

2019.01.08|||2018.05.29|||2017.05.10

法律状态类型:

专利申请权、专利权的转移|||实质审查的生效|||公开

摘要

本文档揭示一种用于整并计算机及其相关网络的威胁情报数据的系统和方法。数量庞大的原始威胁情报数据收集自多个来源,且被划分成一公共格式以供进行群集分析,其中数据的群集是使用无监督式机器学习算法来达成。产生的经组织的威胁情报数据其后经历以加权资产为基础的威胁严重等级相关过程。一特定计算机网络的所有中间网络漏洞均被使用做为此过程的关键整并参数。透过此高速自动化过程所收集的经过处理的最终情报数据接着在传输至第三方之前被格式化成预定义格式。

权利要求书

1.一种整并计算机网络的威胁情报数据的方法,该方法由一计算机系统执行,该方法
包括:
从多个来源收集威胁情报数据,并将所收集的威胁情报数据标准化成一致数据格式;
使用无监督式机器学习算法将经过标准化的威胁情报数据分组成群集,其中每一群集
均包括代表威胁情报数据的一属性的一群数据;
针对对于该计算机网络而言具有严重性的群集进行分类;
将被分类成具有严重性的群集与该计算机网络的一安全态势比较以确定该计算机系
统?#34892;?#36259;的群集;以及
将被确定为该计算机系统?#34892;?#36259;的群集格式化成该计算机网络的一预定义格式。
2.如权利要求1所述的方法,其中针对对于该计算机网络而言具有严重性的群集进行
分类包括:
撷取与该计算机网络相关联的计算机资产的一列表;
标识出影响所述计算机资产的一计算特征的群集;以及
将被标识出的影响所述计算机资产的一计算特征的群集分类成对于该计算机网络而
言具有严重性。
3.如权利要求2所述的方法,还包括:
撷取赋予与该计算机网络相关联的所述计算机资产中的每一者的严重性权重数值;
加总所撷取的严重性权重数值;以及
将加总后的严重性权重数值分配给该计算机网络。
4.如权利要求2所述的方法,其中该计算特征包括一计算机资产的一操作系统或一网
络协议。
5.如权利要求1所述的方法,其中在将被分类成具有严重性的群集与该计算机网络的
一安全态势比较以确定该计算机系统?#34892;?#36259;的群集之前,该方法还包括:
产生该计算机网络的该安全态势。
6.如权利要求5所述的方法,其?#32961;?#29983;该计算机网络的该安全态势包括:
建立代表该计算机网络的一对象模型,其中该对象模型包括该计算机网络内所包含的
计算机资产的计算机安全信息;以及
执行一分析程序,该分析程序可操作以使用该对象模型运行该计算机网络之中的所述
计算机资产中的每一者的漏洞测试,其中该漏洞测试的结果被用来确定该计算机网络的该
安全态势。
7.如权利要求6所述的方法,其中使用该对象模型的该计算机网络之中的所述计算机
资产中的每一者的漏洞测试包括有关该计算机网络的系统层级和拓扑漏洞的测试、以及所
述计算机资产的节点层级漏洞的测试。
8.如权利要求1所述的方法,其中使用机器学习算法将经过标准化的威胁情报数据分
组成群集,其中每一群集均包括代表威胁情报数据的一属性的一群数据的步骤还包括:
使用每一群集之中的威胁情报数据验证所述群集。
9.如权利要求8所述的方法,其中验证所述群集包括:
指派权重数值给包含于所述群集之中的每一记录,其中相较于指派给一源自一商业来
源的记录的一权重数值,一源自一开放来源的记录被指派一?#31995;?#30340;权重数值;
加总包含于每一群集之中的记录的权重数值;以及
验证所具有的加总权重数值超过一预定义阈值的群集。
10.如权利要求1所述的方法,还包括:
使用所述经过格式化的群集来更新该计算机网络的该安全态势。
11.如权利要求1所述的方法,其中该威胁情报数据的该属性包括一计算机安全威胁或
一因特网协议(IP)地址。
12.一种用于整并计算机网络的威胁情报数据的系统,包括:
一处理单元;以及
一能由该处理单元读取的非瞬态介?#21097;?#35813;介质储存当由该处理单元执行时使该处理单
元进行以下动作的指令:
从多个来源收集威胁情报数据,并将所收集的威胁情报数据标准化成一致数据格式;
使用无监督式机器学习算法将经过标准化的威胁情报数据分组成群集,其中每一群集
均包括代表威胁情报数据的一属性的一群数据;
针对对于该计算机网络而言具有严重性的群集进行分类;
将被分类成具有严重性的群集与该计算机网络的一安全态势比较以确定该计算机系
统?#34892;?#36259;的群集;以及
将被确定为该计算机系统?#34892;?#36259;的群集格式化成该计算机网络的一预定义格式。
13.如权利要求12所述的系统,其中用以针对对于该计算机网络而言具有严重性的群
集进行分类的指令包括:
用以指导该处理单元进行以下动作的指令:
撷取与该计算机网络相关联的计算机资产的一列表;
标识出影响所述计算机资产的一计算特征的群集;以及
将被标识出的影响所述计算机资产的一计算特征的群集分类成对于该计算机网络而
言具有严重性。
14.如权利要求12所述的系统,还包括:
用以指导该处理单元进行以下动作的指令:
撷取赋予与该计算机网络相关联的所述计算机资产中的每一者的严重性权重数值;
加总所撷取的严重性权重数值;以及
将加总后的严重性权重数值分配给该计算机网络。
15.如权利要求12所述的系统,其中该计算特征包括一计算机资产的一操作系统或一
网络协议。
16.如权利要求12所述的系统,其中在用以将被分类成具有严重性的群集与该计算机
网络的一安全态势比较以确定该计算机系统?#34892;?#36259;的群集的指令之前,该系统还包括:
用以指导该处理单元进行以下动作的指令:
产生该计算机网络的该安全态势。
17.如权利要求16所述的系统,其中用以产生该计算机网络的该安全态势的指令包括:
用以指导该处理单元进行以下动作的指令:
建立代表该计算机网络的一对象模型,其中该对象模型包括该计算机网络之内所包含
的计算机资产的计算机安全信息;以及
执行一分析程序,该分析程序可操作以使用该对象模型执行该计算机网络之中的所述
计算机资产中的每一者的漏洞测试,其中该漏洞测试的结果被用来确定该计算机网络的该
安全态势。
18.如权利要求17所述的系统,其中使用该对象模型的该计算机网络之中的所述计算
机资产中的每一者的漏洞测试包括有关该计算机网络的系统层级和拓扑漏洞的测试、以及
所述计算机资产的节点层级漏洞的测试。
19.如权利要求12所述的系统,其中用以使用机器学习算法将经过标准化的威胁情报
数据分组成群集,其中每一群集均包括代表威胁情报数据的一属性的一群数据的指令还包
括:
用以指导该处理单元进行以下动作的指令:
使用每一群集之中的威胁情报数据验证所述群集。
20.如权利要求19所述的系统,其中用以验证所述群集的指令包括:
用以指导该处理单元进行以下动作的指令:
指派权重数值给包含于所述群集之中的每一记录,其中相较于指派给一源自一商业来
源的记录的一权重数值,一源自一开放来源的记录被指派一?#31995;?#30340;权重数值;
加总包含于每一群集之中的记录的权重数值;以及
验证所具有的加总权重数值超过一预定义阈值的群集。
21.如权利要求12所述的系统,还包括:
用以指导该处理单元进行以下动作的指令:
使用所述经过格式化的群集来更新该计算机网络的该安全态势。
22.如权利要求12所述的系统,其中威胁情报数据的该属性包含一计算机安全威胁或
一因特网协议(IP)地址。
23.一种用于整并计算机网络的威胁情报数据的系统,包括:
被配置成用?#28304;?#22810;个来源收集威胁情报数据,并将所收集的威胁情报数据标准化成一
致数据格式的电路;
被配置成用以使用无监督式机器学习算法将经过标准化的威胁情报数据分组成群集
的电路,其中每一群集均包括代表威胁情报数据的一属性的一群数据;
被配置成用以针对对于该计算机网络而言具有严重性的群集进行分类的电路;
被配置成用以将被分类成具有严重性的群集与该计算机网络的一安全态势比较以确
定该计算机系统?#34892;?#36259;的群集的电路;以及
被配置成用以将被确定为该计算机系统?#34892;?#36259;的群集格式化成该计算机网络的一预
定义格式的电路。
24.如权利要求23所述的系统,其中被配置成用以针对对于该计算机网络而言具有严
重性的群集进行分类的电路包括:
被配置成用以撷取与该计算机网络相关联的计算机资产的一列表的电路;
被配置成用以标识出影响所述计算机资产的一计算特征的群集的电路;以及
被配置成用以将被标识出的影响所述计算机资产的一计算特征的群集分类成对于该
计算机网络而言具有严重性的电路。
25.如权利要求24所述的系统,还包括:
被配置成用以撷取赋予与该计算机网络相关联的所述计算机资产中的每一者的严重
性权重数值的电路;
被配置成用以加总所撷取的严重性权重数值的电路;以及
被配置成用以将加总后的严重性权重数值分配给该计算机网络的电路。
26.如权利要求24所述的系统,其中该计算特征包含一计算机资产的一操作系统或一
网络协议。
27.如权利要求23所述的系统,其中在被配置成用以将被分类成具有严重性的群集与
该计算机网络的一安全态势比较以确定该计算机系统?#34892;?#36259;的群集的电?#20998;?#21069;,该系统还
包括:
被配置成用以产生该计算机网络的该安全态势的电路。
28.如权利要求27所述的系统,其中被配置成用以产生该计算机网络的该安全态势的
电路包括:
被配置成用以建立代表该计算机网络的一对象模型的电路,其中该对象模型包括该计
算机网络之内所包含的计算机资产的计算机安全信息;以及
被配置成用以执行一分析程序的电路,该分析程序可操作以使用该对象模型执行该计
算机网络之中的所述计算机资产中的每一者的漏洞测试,其中该漏洞测试的结果被用以确
定该计算机网络的该安全态势。
29.如权利要求28所述的系统,其中使用该对象模型的该计算机网络之中的所述计算
机资产中的每一者的漏洞测试包括有关该计算机网络的系统层级和拓扑漏洞的测试、以及
所述计算机资产的节点层级漏洞的测试。
30.如权利要求23所述的系统,其中被配置成用以使用机器学习算法将经过标准化的
威胁情报数据分组成群集,且其中每一群集均包括代表威胁情报数据的一属性的一群数据
的电路还包括:
被配置成用以使用每一群集之中的威胁情报数据验证所述群集的电路。
31.如权利要求30所述的系统,其中被配置成用以验证所述群集的电路包括:
被配置成用以指派权重数值给包含于所述群集之中的每一记录的电路,其中相较于指
派给一源自一商业来源的记录的一权重数值,一源自一开放来源的记录被指派一?#31995;?#30340;权
重数值;
被配置成用以加总包含于每一群集之中的记录的权重数值的电路;以及
被配置成用以验证所具有的加总权重数值超过一预定义阈值的群集的电路。
32.如权利要求23所述的系统,还包括:
被配置成用以使用所述经过格式化的群集来更新该计算机网络的该安全态势的电路。
33.如权利要求23所述的系统,其中威胁情报数据的该属性包含一计算机安全威胁或
一因特网协议(IP)地址。

说明书

使用无监督式机器学习和优先权算法的高速威胁情报管理的系统及方法

技术领域

本发明涉及一种用于整并计算机及其相关网络的威胁情报数据(threat
intelligence data)的系统和方法。特别是,本发明涉及从多个来源收集数量庞大的原始
威胁情报数据,并将所收集的数据划分成一公共格式以供进行群集分析(cluster
analysis)。接着其使用无监督式机器学习算法(unsupervised machine learning
algorithm)将经过标准化的数据群集。所产生的经过组织的威胁情报数据其后经历以加权
资产(weighted asset)为基础的威胁严重等级相关过程。一特定计算机网络的所有中间网
络漏洞均被使用做为此过程的关键整并参数。透过此高速自动化过程所集纳的经过处理的
最终情报数据接着在传输至第三方之前被格式化成预定义格式。

现有技术概述

计算机及其相关网络的安全和健全对于企业每日的正常运作而言已变得极其重
要,因为储存于这些计算机和网络之内的信息无日不受到来自各式各样来源的?#25214;?#22797;杂的
恶意网络威胁的威胁。由于计算技术的进展,对于计算机网络的攻击也已变得日渐复杂,使
得现有的安全专家和他们的管理工具均难以应付和减轻这些攻击。这些网络攻击的形式可
以是来自计算机病毒、蠕虫(worm)、拒绝服务攻击(denial of service attack;DoS)、特洛
伊木马(Trojan horse)、网络钓鱼(phishing)、或者任何其他恶意的软件的威胁,其意图是
扰?#19968;?#26412;的计算机运作、收集敏感数据及/或获取限制性计算机网络的存取权。这种性质的
软件概括地被称为"恶意软件(malware)"。因此,为了先行预防可能由这些威胁对重要信息
资产所造成的任何损害,其需要维持有关这些网络安全威胁的最新情报信息的?#20013;?#24615;境况
知晓。

为了减轻施加到计算机及其相关网络的网络威胁,安全提供者需要有关于这些威
胁的概貌及来源的详细信息。此信息将包括特定恶意软件的来源,诸如域名(domain
name)、因特网协议(IP)地址、相关网站及其统一资源定位符(URL)、电子?#22987;?#22320;址、国家及
全球位置坐标、以及这些恶意软件的检测足迹,使得网络安全提供者能够拿出全面性的策
略来预测及缓解这些恶意软件。

由于网络安全提供者不可能自己获得这种信息,所以这种信息通常是从诸如开放
来源与商业厂商的各种情报来源取得的。这些情报来源供应网络威胁情报数据,所述数据
提供有关于已被检测、标识且分类的潜在与现有的网络威胁的信息。从这些信息提供者取
得的数据从而可以由网络安全提供者和系统管理者使用,以确保其计算机系统对于这些潜
在威胁被妥善保护。

多数系统管理者向开放来源和商业网络安全提供者两方均预订所述威胁情报数
据。然而,来自每一个这些来源的数据馈入通常被表示成它们自己的专有格式,且取决于研
发团队的实力,还带?#32961;?#21516;程度?#34892;?#24615;和可靠度。错误、不精确、及/或误导信息的传递的可
能性特别令人关注,因为此虚假信息可能对使用所接收威胁情报的组织或政府的能力造成
广泛的质疑。此虚假信息问题并不容易处理,因为信息的数字传输?#19988;?#38750;常高的速度、自由
且大量地进行。因此,对于网络管理者而言,其难以正确地采用这些不一致的数据馈入而后
将其变成对抗入侵安全威胁的可用的可操作回应。

此外,由于数量庞大的原始数据是由各种情报来源每日产生,所?#28304;?#36825;些大量原
始数据提炼可操作信息是一项令人却步的事情,所述原始数据中甚?#37327;?#33021;包含重复的数
据。当每一个情报来源均以其自己的语言用其自己的规则、使用其自己的网络协议和事件
日志传递数据时,此问题变得格外错综复杂。这造成使用随着来源变动的各种网络协议的
各种格式数据的传输。有鉴于此,大多数网络安全威胁情报系统的提供者均将不知所措,且
其网络安全威胁情报态势的总体视野将不足、延迟和混淆。因此,实?#26159;?#20837;不同格式的大量
原始威胁情报数据并且将其转换成有用的情报数据是一个巨大的挑?#20581;?#36825;些人力和技术低
效的累积将使得数据的传输无法被第三方充分运用。

Deloitte Development LLC名下的标题为"Collective Threat Intelligence
Gathering System(集体威胁情报收集系统)"的美国专利号8,813,228B2提出一种从多种
来源收集威胁情报数据的系统。该系统从而对数据进行聚集、标准化、过滤、评分和分类,以
标识出对于一信息网络的威胁。本文档还揭示出,最终而言,传入情报数据的每一馈入均被
分类成预定义的威胁类别。还使用市售或公开可用的已知威胁数据对该数据进行分析和评
分。得到高恶意分数的数据接着被进一步格式化,而后被分发给消费者。

Ramakrishna Satyavolu等人名下的标题为"Method and Apparatus for
Controlled Establishment of a Turnkey System Providing a Centralized Data
Aggregation and Summary Capability to Third Party Entities(用于提供集中式数据
聚集与摘要能力给第三方实体的成套系统的受控构建的方法与设备)"的美国专利公开号
2003/0191832 A1揭示了一种用?#28304;?#19968;网络收集和聚集数据的软件系统,其中数据从而被
区隔、优化和归纳,然后经过处理的数据被分发给第三方。第三方利用建立自该系统的情报
以提供及改善他们的安全系统。

概括而言,从各种来源取得的数据馈入并不提供即时和自动化的威胁情报分析。
特别是,没有网络威胁数据源提供评估流向目标计算机系统的数据的正确性和相关性的"
智能"数据馈入。在能从数据产生出任?#25105;?#20041;之前,所有取得的数据仍将必须通过由一分析
人员进行分析的冗长且耗时的过程。此外,虽然威胁数据可以被分析和评分,但这些数据可
能与一特定网络并不相关,并且因此,一计算机网络仍可能被达成高威胁评分的恶意数据
淹没或过载。

基于以上理由,本领域技术人员一直?#20013;?#33268;力于完成一种能够透过多个网络协议
从多个来源收集和聚集大量原始网络威胁情报数据,并且在重新分发给?#34892;?#36259;的第三方之
前,将这些原始数据转换成可用格式的系统和方法。

发明概述

依据本发明的实施例所提供的系统和方法解决上述和其他问题并获得技术的进
展。依据本发明的系统和方法的实施例的第一优点在于:可以以一种高效的方式从大量的
情报产生来源收集威胁情报数据,无论用于数据收集的数据格式或网络协议为何,仅有相
关于受监视目标计算机网络的数据被格式化成该计算机网络的预定义格式。

依据本发明的系统和方法的实施例的第二优点在于:来自许多来源的威胁情报数
据可以被以高速方式?#34892;?#19988;高效地聚集,且能够立即被?#24230;?#20351;用,以针对在所接收的威胁
情报数据之中所强调的预期网络攻击,防护一特定计算机网络。

依据本发明的系统和方法的实施例的第三优点在于:仅有已经过验证且相关于该
计算机网络的威胁情报信息被格式化成该计算机网络的预定义格式。这种数据对于该计算
机网络的安全团队极为有用,因为这大幅地?#26723;?#23433;全分析者必须遍览的数据量。

依据本发明的系统和方法的实施例的第四优点在于:针对群集的形成,使用无监
督式机器学习算法,从而贯穿采用的网络训?#20998;?#26399;,去除对外部协助的需要。此群集分析方
法将会把已知和未知的威胁分组成群集地图,其中未知的安全威胁也会被检测到,因为群
集分析让未知的恶意威胁或异常状况能够在地图中被标识,而没有具有预定义类别的限
制。后群集分析也被应用,藉以使得被群集的数据进一步经历加权严重性分析和漏洞相关
性分析,以确保只有相关及精确的数据被提供至一特定计算机网络。

以上优点是由以下述方式运作的依据本发明的方法的实施例所提供的。

依据本发明的一第一方面,提出一种整并一计算机网络的威胁情报数据的方法,
其中该方法将由一计算机系统执行,该方法包括以下步骤:从多个来源收集威胁情报数据
并且将所收集的威胁情报数据标准化成公共/一致数据格式、使用无监督式机器学习算法
将经过标准化的威胁情报数据分组成群集,其中每一群集均包含代表该威胁情报数据的属
性的一群数据、针对对于该计算机网络而言具有严重性的计算机安全威胁的群集进行分
类、将被分类为严重的群集与该计算机网络的一安全态势(security posture)进行比较以
确定该计算机系统?#34892;?#36259;的群集、以及将被确定为该计算机系统?#34892;?#36259;的群集格式化成该
计算机网络的预定义格式。

参照该第一方面,在该第一方面的第一可能实施方式之中,对于该计算机网络而
言具有严重性的群集的分类包括以下步骤:撷取与该计算机网络相关联的计算机资产的一
列表、以及将影响所述计算机资产的一计算特征(computing feature)的群集标识为具有
对于该计算机网络而言具有严重性的计算机安全威胁的群集。

参照第一方面的第一可能实施方式,该方式还包括:撷取根据与该计算机网络相
关联的每一计算机资产的严重性权重数值;加总所撷取的严重性权重数值;以及将加总后
的严重性权重数值分配给该计算机网络。

参照第一方面的第一可能实施方式,该计算特征包括一计算机资产的操作系统或
者该计算机资产所提供的网络协议。

参照第一方面,在第一方面的一第二可能实施方式之中,其中在将被分类为严重
的群集与该计算机网络的一安全态势进行比较以确定该计算机系统?#34892;?#36259;的群集之前,该
方法还包括产生该计算机网络的该安全态势。

参照第一方面的第二可能实施方式,在第一方面的一第四可能实施方式之中,产
生该计算机网络的该安全态势包含建立代表该计算机网络的一对象模型,其中该对象模型
包括该计算机网络内所包含的计算机资产的安全信息,以及执行一分析程序,可操作以使
用该对象模型执行该计算机网络之中的每一计算机资产的漏洞测试,其中该漏洞测试的结
果被用以确定该计算机网络的该安全态势。

参照第一方面的第四可能实施方式,在第一方面的一第五可能实施方式之中,使
用该对象模型的该计算机网络之中的每一计算机资产的漏洞测试包括涉及该计算机网络
的系统层级和拓扑漏?#30784;?#20197;及计算机资产的节点层级漏洞的测试。

参照第一方面,在第一方面的一第六可能实施方式之中,将经过标准化的威胁情
报数据分组成群集,其中每一群集包括代表该威胁情报数据的一属性的一群数据,还包括
使用每一群集之中的威胁情报数据验证所述群集。

参照第一方面的第六可能实施方式,在第一方面的一第七可能实施方式之中,验
证所述群集包括指派权重数值给所述群集所包含的每一记录,其中相较于被指派给源自一
商业来源的记录的一权重数值,源自一开放来源的记录被指派一?#31995;?#30340;权重数值;加总每
一群集所包含的记录的权重数值;以及验证所具有的加总权重数值超过一预定义阈值的群
集。

参照第一方面,在第一方面的一第八可能实施方式之中,经过格式化的群集被用
以更新该计算机网络的安全态势。

参照第一方面,在第一方面的一第九可能实施方式之中,威胁情报数据的属性包
括一计算机安全威胁或一因特网协议(IP)地址。

附图简述

依据本发明的实施例的一系统和方法的特征和优点解决了上述和其他问题,该系
统和方法被描述于以下的详?#35813;?#36848;并被显示于以下的附图之中。

图1例示依据本发明实施例的一种用于聚集和重分发表示成一适当格式的相关威
胁情报数据的系统的一网络示意图;

图2例示依据本发明实施例的可传输事件格式(transportable incident
format;TIF)记录的一数据库的一样本;

图3例示图2的可传输事件格式(TIF)记录的数据库的一样本,其中所述TIF记录被
使用一依据本发明实施例的群集算法(clustering algorithm)加以分组;

图4例示图3的经过群集的数据库的一样本,其中依据本发明的实施例应用了一验
证步骤;

图5例示依据本发明实施例的一种用于聚集和重分发表示成一适当格式的相关威
胁情报数据的过程的一流程图;

图6例示依据本发明实施例的一种用以针对群集的数据执行一严重性分类分析的
过程的一流程图;

图7例示依据本发明实施例的一种使用每一群集的威胁情报数据项验证群集的过
程的一流程图;以及

图8例示代表提供依据本发明的实施例的处理系统的框图。

详?#35813;?#36848;

本发明有关于一种用于整并计算机及其相关网络的威胁威胁情报数据的系统和
方法。特别是,本发明涉及从多个来源收集数量庞大的原始威胁情报数据,并将所收集的数
据划分成一公共可传输事件格式以供群集分析。接着使用无监督式机器学习算法将经过标
准化的数据群集。产生的经组织的威胁情报数据其后经历以加权资产为基础的威胁严重等
级相关过程。一特定计算机网络的所有中间网络漏洞均被使用做为此过程的关键整并参
数。透过此高速自动化过程所收集的经过处理的最终情报数据接着在传输至第三方之前被
格式化成预定义格式。

图1例示依据本发明实施例的一系统的一网络示意图。此系统包括各种模块和装
置,其执行过程以提供一种用于聚集和重分发收集自来源105的相关威胁情报数据。通过认
证的数据而后在收集引擎120之内被格式化成预定义格式并被传递至处理引擎125,以在经
过处理的数据相应地被重分发至计算机网络131-134之前,进行进一步的处理。

当一计算机网络,例如,计算机网络131至134的其中一者,被新加入系统时,新加
入的计算机网络的资产,意即计算机资产,的列表将被提供给处理引擎125并储存于其内。
此计算机网络的资产的列表将包括计算机网络之内所有被确定为对网络攻击敏感的资产,
包括但不限于,台式计算机、大型主机、传真机、路由器、服务器、交换机、个人计算机、膝上
型计算机、平板计算机、以及支?#20013;?#24687;相关活动的任何装置或组件。

依据本发明的实施例,包含于计算机网络的资产的列表之中的资产可以被分配特
定的严重性权重,其中对于计算机网络而言重要性较高的资产相较于对于计算机网络相对
而言重要性?#31995;?#30340;其他资产将被指派一较高的权重。这意味一计算机网络内的资产的严重
性权重并非单独受限于被其制造商针对特定类型计算机硬件硬编码或预分配的默认严重
性权重。例如,在默认状况下,相较于分配给一传真机的严重性权重数值而言,一台式计算
机可能被制造商分配一较高的严重性权重数值。然而,对于计算机网络的管理者而言,相较
于台式计算机,传真机维持运作对于计算机网络的正常运行可能更为重要。因此,对比于严
重性权重数值的默认或标准指派,相较于台式计算机,管理者实际上将指派一较高的严重
性权重数值给传真机。

换言之,计算机网络内的资产的严重性权重可以依据资产对于计算机网络日常运
作的重要性加以修改。简单地说,这意味计算机网络资产的列表可以被修改和定制,以涵盖
网络之中被认定为重要的所有资产。储存于处理引擎125内的计算机网络的计算机资产的
此列表之后将被周期性地更新,使得对计算机网络所做的任何变更均将被系统充分获知。
在本发明的实施例之中,每当计算机资产被从一特定计算机网络移除或者被加入该计算机
网络,该计算机网络的计算机资产的列表将被该计算机网络更新。

至于处理引擎125,此装置包括多个模块,诸如数据库127、群集模块128、严重性分
类模块129、漏洞过滤模块126以及验证模块124。这些模块中的每一者的功能将在以下段落
中被更详细地描述。

来源105包括网络威胁/安全情报来源,诸如开放来源106、商业提供者107、社群来
源108以及匿名收集者109。开放来源106可以包括,但不限于,列出并追踪各种类型恶意软
件或网络威胁的公众可访问的网站或域。?#34892;?#36259;者可以访?#25910;?#20123;网站以下载或取得威胁情
报数据而无需付?#36873;?#32570;点在于,虽然开放来源106可以提供珍贵的威胁情报数据,但从开放
来源106取得的数据的真实性可能令人怀疑,因为列在开放来源106上的数据多数时间都未
经认证。由于开放来源106的性?#21097;?#24320;放来源106可能被怀有恶意者利用来分发错误信息。因
此,从开放来源106取得的信息必须与其他来源交互对照,以在可以使用数据之前?#25628;?#25152;取
得数据的正确性。此类开放来源的一些示例包括,但不限于,诸如"
www.malwaredomainlist.com"或"www.malware-domains.com"等网站,其列出在网络空间
传播的各种网络威胁和恶意软件,或者诸如"Project Honeypot"、"ZeuS Tracker"、"
Malware Domain List"、"TOR Nodes"、"Someonewhocares"、及"SecurityTracker"等各种
开源项目。

商业提供者107可以包括,但不限于,诸如"McAfee"、"FireEye"、"
Anubisnetworks"、"Trend Micro"、"Fortinet"、"Norse"等商业网络威胁收集者,或者任何
其他收费提供威胁情报数据的此类实体。这些商业提供者通常透过他们自己的专有网络协
议并以他们自己的格式提供威胁情报数据。从这些商业提供者取得的威胁情报数据通常更
为可靠,因为确保其声誉不受假肯定(false positive)损坏才符合其利益。换言之,由这些
商业提供者标识出来的肯定威胁或恶意软件的数?#23458;?#24120;远超过假肯定的数目。因此,相较
于从其他替代来源取得的数据,从这些来源取得的数据通常更为可信且更加?#26723;?#20449;赖。

社群来源108可以包括在线社群或网络,其使用社群中致力于威胁情报数据收集
的用户的主动参与。这些社群可以包括社交网络、聊天室、在线社团、或者因特网上可?#19994;?br />的任何其他此类适当媒体。至于匿名收集者109,这种来源通常将包括种类繁多的匿名来
源,诸如被配置成收集和传送威胁情报数据至一集中式收集数据库的网关、路由器、调制解
调器、防火?#20581;?#25110;交换机。这些匿名收集者还可以包括来自过去曾经历网络攻击或目前正遭
受攻击的计算机网络的用户的自动反馈。?#30001;?#32676;来源108和匿名收集者109取得的信息也必
须与其他来源交互对照,以在数据可以使用之前?#25628;?#25152;取得数据的正确性,因为恶意使用
者可以轻易地使用这些数据收集馈入来注入错误信息以伏击其他人。

还应注意,接收自每一来源的数据均以该来源本身的格式存在。例如,从"McAfee"
(意即,从一商业提供者107的来源)取得的威胁情报数据将使用McAfee的专有格式,而从"
Project Honeypot"(意即,从一开放来源106的来源)取得的数据将是使用此特定开放来源
所特有的另一格式。

除了以上所述者之外,取决于威胁情报数据的来源,数据可以使用各式各样的网
络协议透过网络115从来源105被传送到收集引擎120。在这些网络协议之中,可以使用的包
括,但不限于,传输控制协议(TCP/IP)、安全外壳(Secure Shell;SSH)、文件传输协议(File
Transfer Protocol;FTP)、简单?#22987;?#20256;输协议(SMTP)、电话网络(Telnet)、超文本咖?#32676;?#25511;
制协议(HTCPCP)、超文本传输协议(HTTP),点对点协议(PPP),因特网消息存取协议(IMAP)、
以及可以被任一情报提供者在来源105之中使用的任何其他专有网络协议。

至于网络115,网络115是一通信网络,诸如因特网,其让计算装置及/或处理系统
能够透过有线方式、无线方式、或其组合彼此通信。本领域技术人员应能领略,有线方式可
以包括,但不限于,诸如广域网(WAN)或局域网络(LAN)的一有线网络,而无线方式则可以包
含透过射频(RF)信号或红外信号建立的无线通信。

依据本发明的实施例,收集引擎120包含多个计算机服务器,其透过一骨干网络
(backbone network)全部并联在一起。这些服务器中的每一者均被编程以建立和维持与来
源105之内的一分配来源的连接。换言之,这意味着收集引擎120之中的每一服务器均将被
分配至一固定来源,且数据传输可以使用分配来源的偏好的网络协议进行。这确保收集自
每一来源的威胁情报数据均被?#34892;?#19988;高效地使用。

举例而言,收集引擎120之中的计算机服务器"A"可以被分派任务?#28304;?#21830;业提供者
107内的一来源收集数据,例如,从McAfee的网站,使用McAfee的专有网络协议且使用
McAfee的数据格式,而计算机服务器"B"则可以被分派任务?#28304;?#21830;业提供者107内的另一来
源收集数据,例如,从Trend Micro的网站,使用Trend Micro的专有网络协议且使用Trend
Micro的数据格式。在后文中,当参照到原始威胁情报数据时,本领域技术人员应理解,该数
据将是使用一特定来源的专有格式且被配置成成使用该特定来源的偏好网络协议传送。

此外,每一服务器均可以执行多个虚拟机模拟,使得每一服务器的资源均可以被
分成多个隔离的虚拟实例,?#28304;?#19968;特定来源透过多个信?#26469;?#25104;数据收集。在本发明的实施
例之中,这可以使用对等模型(peer-to-peer model)实现。当多个虚拟连接被建立于一服
务器与其威胁情报数据源之间,这意味着若一连接在该服务器与该来源之间中断,并不会
危害到威胁情报数据的传输,因为其他连接可以暂?#22791;?#30422;中断的连接直到连接?#25351;?#20026;止。
例如,一服务器可以具有二十个隔离的虚拟实例?#28304;?#24320;放来源106中的特定来源透过二十
个信?#26469;?#25104;数据收集。此外,虽然图1之中的收集引擎120仅描绘二十四个计算机服务器,但
本领域技术人员应能辨识,可以依据需要使用任何数目的计算机服务器,而不脱离本发明。

应注意,收集引擎120可以被编程以周期性地从来源105下载原始威胁情报数据,
例如,每小时、每天、等等。或者,可以提供指令给来源105,使得每当在任何特定来源?#34892;?#25968;
据可用之时,威胁情报数据可?#28304;?#26469;源105被?#25169;?#21040;收集引擎120,意即,使用一?#25169;?#26426;制
(push-mechanism)。

重述一下要点,收集自一特定来源的原始数据将使用来源本身的专有数据格式且
其配置的方式将使得其可以使用该特定来源的偏爱网络协议进行传送。因此,收集引擎120
将具有威胁以多种数据格式存在并且被调构成以多种网络协议传输的威胁情报数据的存
储。为?#31169;?#27492;信息的混合体均质化成可使用的东西,原始数据必须被解析并标准化成一公
共格式。为?#31169;?#20915;此问题,收集引擎120内的每一服务器均被提供有一解码器模块,用以对
收集自一特定来源的原始威胁情报数据进行解析和标准化。与开放来源和商业来源相关的
解码器的一些示例包括,但不限于,一Honeypot解码器,用于解析Project Honeypot所提供
的恶意IP的列表;一ZeuS Tracker解码器,用于解析Zeus命令和控制以及ZeuS Tracker所
提供的伪造URL的列表;一Malware Domain List解码器,用于解析Malware Domain List所
提供的恶意IP及URL的列表;一TOR Node解码器,用于解析dan.me.uk所提供的TOR节点的列
表;一Anublis Cyberfeed解码器,用于解析来自Anubisnetworks的商业网络威胁馈入;一
Host File(主机文件)解码器,用于解析落入诸如震撼网站(shock site)、劫持网站
(hijack site)、间谍软件、恶意软件等类别下的域的列表。

在单一服务器的解析和标准化过程期间,收集自一特定来源的原始威胁情报数据
被从其原始格式,如从其来源取得的格式,转换成一致格式。依据本发明的实施例,该一致
格式可以被称为可传输事件格式(TIF)记录。来自收集引擎120中的服务器的TIF记录接着
可以被储存于数据库127之中,如处理引擎125之中所提供的。这意味着从一特定来源取得
的每一数据项将被解析并被标准化成一TIF记录。?#29992;?#19968;服务器取得的所有TIF记录均将包
含对一计算机网络的安全分析者特别有用的属性。这些属性包括如从原始威胁情报数据
(如从特定于服务器的来源所取得的)的解析和标准化所取得的一感知计算机威胁的
SOURCE(来源)、CATEGORY(类别)和DATA(数据)属性威胁。

包含于TIF记录之中的属性也可包括其他离散属性,诸如,但不限于,PROTOCOL(协
议)、DESTINATION PORT(目的地端口)、DESCRIPTION(描述)等等。本领域技术人员应能领
略,除了SOURCE(来源)、CATEGORY(类别)和DATA(数据)属性之外,其他属性的任何其他组合
可以被包括于TIF记录之中,而不脱离本发明。

当收集引擎120的每一服务器中的原始威胁情报数据被解析和标准化之后,?#29992;?br />一服务器产生的TIF记录被整理于数据库127之内。在收集自来源105的所有原始威胁情报
数据均已在收集引擎120之中被解析和标准化之后,数据库127从而将具有大量珍贵的经过
整理的TIF记录形式的威胁情报信息。

已由解码器模块解析并标准化成TIF记录且被传送至数据库127的原始威胁情报
数据之一简化示例被例示于图2之中。位于TIF记录205之中的列标识符210代表被用以区别
一记?#21152;?#19979;一记录的标识符,而每一记录被表示成TIF记录205之中的一列。图2例示样本
TIF记录205,其包括以下属性:来源215、类别220以及数据225。本领域技术人员应当有所认
知,其他类型的字母数字标识符可被用以取代图2之中所示的数字标识符,且例如IP地址、
位置等其他属性的任何额外组合均可以包括于TIF记录之中而不脱离本发明。一特定记录
的出处或贩卖者被列出于来源215之下,同?#26412;?#26412;发明的这个实施例而言,与一特定记录相
关联的恶意活动的类型被列出于类别220之下。在本发明的这个实施例之中,数据225包括
有关于可能被一特定类型的恶意活动影响的任何计算特征的信息。此例中,dwin代表一
Windows操作系统;而demail则代表一种被配置成用以发送/接收电子?#22987;?#30340;资产等等。本领
域技术人员应能体认,可以使用其他命名?#32423;?#26469;代表数据225之中的计算特征,而不脱离本
发明。例如,就TIF记录之中的项目编号1而言,数据225指示恶意活动的类型为一"蠕虫",且
此"蠕虫"将透过一电子?#22987;?#32593;络协议影响Windows机器,即"dwin,email"。本领域技术人员应
能体认,数据225可以包括其他类型的计算特征而不脱离本发明,且例示于图2之中的示例
并非表示为所有计算特征的穷举列表。

回头参看图1,处理引擎125从而被配置成用以使用群集模块128以将TIF记录的项
目群集在一起,使得每一群集包括代表TIF记录的一属性的一群数据。在本发明的这个实施
例之中,群集模块128被配置成用以将TIF记录中具有相同意图或目的的恶意活动或计算机
安全威胁的项目聚集在一起。例如,群集模块128可以被配置成用?#28304;覶IF记录检测包含诸
如病毒、特洛伊木马、蠕虫、拒绝服务攻击(DoS)等计算机安全威胁的记录。群集模块接着将
根据所检测到的与记录相关联的恶意活动,把检测到的记录分组成群集。在本发明的其他
示例之中,群集模块128可以被配置成用?#28304;覶IF记录检测具有相同IP地址、时间、国家等的
记录。类似地,群集模块接着将把这些检测到的记录相应地分组成群集。

可被处理引擎125使用以利用模式发现方法形成群集的机器学习算法包括,但不
限于,排他群集(exclusive clustering)、重迭群集(overlapping clustering)、阶层群集
(hierarchical clustering)、概率群集(probabilistic clustering)、以及双向群集
(two-way clustering)。由于每一种群集算法的设计均针对特定类型的数据集加以考虑,
所以并无单一理想群集算法会适用于处理所有种类的数据集。使用一群集方法而非一分类
方法是有利的,因为群集让未知的恶意活动或安全威胁能够透过不同群集的形成而被检测
到,不需要具有预定义类别的限制。

依据本发明的实施例,优选使用无监督式机器学习算法以进行TIF记录的群集。在
本发明的一实施例之中,群集模块可以使用一种诸如k最近相邻(k-nearest neighbour;k-
NN)算法的无监督式机器学习算法来形成群集。上述的k-NN算法为储存所有可用示例并且
根据所述可用示例的一相似性量度分类新数据的算法。该k-NN算法使得其能够根据各种类
别之间的假定相似度分离数据或记录。因此,可以藉由搜寻所提供数据之间的相似度而让
类别能够彼此区分。一新记录接着被依据多数所隶属的类别被分类。

依据本发明的其他实施例,群集模块可以使用另一类型的无监督式机器学习算
法,诸如自我组织特征地图(SOFM或SOM)网络,来形成群集。上述的SOM网络?#24066;?#26080;监督下的
数据分类。特别是,SOM是一种类型的无监督式人工神经网络(artificial neural
network),其使用竞争式学习(competitive learning)进行训练,以产生训?#36153;?#26412;输入空
间的一相对低维度离散表示,其被称为一地图。SOM与其他人工神经网络的差异在于其使用
一邻域函数(neighbourhood function)以保留输入空间的拓扑性质。此使得SOM适用于可
视化相对高维度数据的相对低维度视图,近似于多维度的尺度调整。

一自我组织地?#21152;?#31216;为神经元也称为节点的组件所组成。与每一节点相关联的是
与输入数据向量维度相同的一权重向量以及位于地图空间之中的一位置。节点的一般布置
为在一六角形或矩形网格之中具有规则的间隔。此SOM描绘出一种从一相对较高维度数据
空间?#25581;?#30456;对?#31995;?#32500;度地图空间的?#25104;洹?#23558;一个来自数据空间的向量放到地图上的程序为
先?#19994;?#20854;权重向量最接近从数据空间取出的向量的节点。一旦定位了最接近的节点,其即
被指派从数据空间取出的向量的数值,且此节点也被称为一"赢家神经元"。位于赢家的半
径之内的所有神经元,按照邻域函数的定义,也将更?#28388;?#20204;的权重。此训练方法称为"赢者
全拿"策略。SOM的优点在于,不像监督式训练技术,SOM之中的网络学习在没有外部协助之
下形成其本身的训练数据的分类。

本发明的这个实施例之中,在群集模块128(其被配置以运行SOM算法)的输出可以
被使用之前,数据库127之中的TIF记录先被提供给群集模块128一段时间,即,介于1到4个
礼拜之间,使得群集模块128可以被训练来从现有的TIF记录标识出群集。SOM在群集模块
128的训练期间,SOM中的节点之间的相关性规则将被细化,使得当SOM被应用于新的TIF记
录之时,该等TIF记录可以在不需要任何外力协助下以高效且?#34892;?#30340;方式被群集。

因此,依据本发明的实施例,群集模块128可以被配置成使用诸如k-NN或SOM的无
监督式机器学习算法,以依据其IP地址、端口、事件类型、恶意活动/计算机安全威胁的种
类、等等,将TIF记录之中的项目群集。图3之中例示已被群集的TIF记录205的一个示例。已
被群集的TIF记录300例示已依据该群记录被群集于其下的一特定类型的恶意活动被分组
的群集。此例中,群集305代表其恶意活动或计算机安全威胁显示为蠕虫的记录,而群集310
则代表其恶意活动显示为特洛伊木马的记录。至于群集315,此群集代表其恶意活动显示为
根病毒包(rootkits)的记录,而群集320则代表其恶意活动显示为Dos攻击的记录。本领域
技术人员应有?#29616;琓IF记录被群集成数据的群组,所述各自代表威胁情报数据的一属性,
且并不仅限于图2至图4所例示的恶意活动类型。

参照图1,数据库127之中被群集的记录接着经历一严重性等级分类过程,该过程
使用严重性分类模块129,如在处理引擎125之内提供的。此过程旨在将计算机网络和与其
相关的群集联系起来。此过程使用一特定计算机网络的所有中间网络漏洞做为该过程的关
键整并参数。

总结而言,严重性分类过程的功能在于,针对每一群集,标识出可以被该群集所代
表的属性影响的计算机网络。在本发明的这个实施例之中,严重性分类过程针对每一群集
标识出可以被该群集所代表的恶意活动影响的计算机网络。举例而言,经过群集的记录中
的一第一群集可?#28304;?#34920;相关于计算机网络131和134但不相关于计算机网络132或133的恶
意活动。这意味?#24222;?#20851;此群集的信息仅应被传?#36879;?#35745;算机网络131、134的分析者,但不应被
传?#36879;?#35745;算机网络132、133的分析者。藉由应用此严重性分类过程,这大幅地增加发送至一
特定计算机网络的威胁情报数据的相关性和正确性。此避免一计算机网络的计算机分析者
被对其所管理的计算机网络而言毫无作用的不相关数据淹没。

依据本发明的实施例,参照图3之中所显示的示例,描述严重性分类过程的运作的
一例示性示例。重述一下要点,图3例示已被群集到群集305、310、315和320中的TIF记录
300。在此例之中,严重性分类模块129藉由撷取隶属于计算机网络131的计算机资产的一个
列表而开始严重性分类过程。针?#28304;?#31034;例的目的,假定隶属于计算机网络131的资产包括一
计算机和一无线路由器。本领域技术人员应能领略,计算机网络可以由任何类型和数目的
计算机资产构成,而不脱离本发明。

在此例之中,假定计算机网络131中的计算机具有诸如一Windows操作系统的计算
特征,且其被配置成用以发送/接收电子?#22987;?#32780;计算机网络131中的无线路由器具有诸如
一Windows操作系统的计算特征,且其被配置成使用SSH协议进行发送/接收。应注意,所有
计算机资产均将具有各种类型的计算特征,诸如其操作系统、其被配置的网络协议、等等,
且并非仅限于这些示例。

模块129接着将从TIF记录300选择群集305。隶属于计算机网络131的第一计算机
资产接着被选择,其为计算机。模块129接着选择计算机的第一计算特征,其为它的Windows
操作系统。被选定的这个计算特征接着被与包含于群集305的数据225之内的信息相比较,
以确定此计算特征是否可以被群集305所代表的恶意活动(意即,"蠕虫攻击")影响。由于群
集305内的数据225指示群集305影响Windows和Linux操作系统("dwin和dlinux"),所以模块
129将把群集305标识成对于计算机网络131而言具有严重性的群集。模块129接着针对其他
群集重复此过程,意即,群集310和315,其全部均被标识成对于计算机网络131而言具有严
重性的群集,因为群集310、315的数据225指示这些群集具有影响Windows操作系统的恶意
活动("dwin")。

至于群集320,此群集的数据225指示此群集的恶意活动影响Linux操作系统;点对
点协定(PPP);以及传真网络协议(fax network protocol),意即,"dlinux,PPP和dlinux,fax"。由
于计算机网络131中的计算机使用一Windows操作系统及电子?#22987;?#32593;络协议,故计算机网络
131之中的这个计算机资产并未受此群集影响。模块129接着针对位于计算机网络131之中
的其他计算机资产,也就是上述的无线路由器,重复该严重性分类过程。由于无线路由器使
用一Windows操作系统且被配置成使用SSH网络协议发送/接收数据,所以模块129将指示此
计算机资产?#21442;?#34987;群集320影响。由于计算机网络131之中的所有计算机资产均具有未受群
集320影响的计算特征,故此群集将被标识为并非对于计算机网络131而言具有严重性的群
集。

因此,在严重性分类过程完成之时,仅有与群集305、310、和315相关的记录被发现
对于计算机网络131而言具有严重性。换言之,来自这三个群集的记?#32423;?#20110;一个计算机网络
131的计算机分析者而言是相关的,但来自群集320的记录则不相关。因此,计算机分析者不
需要花时间审阅包含于群集320之内的数据,从而缩短该分析者的审阅时间并且大幅地增
进该分析者的效率。完成计算机网络131的严重性分类过程之后,模块129接着继续执行其
他计算机网络的严重性分类过程,意即,计算机网络132、133、和134。接着利用从计算机网
络严重性分类所取得的结果相应地更新数据库128。

依据本发明的其他实施例,针对每一群集,在严重性分类过程之后,该严重性分类
过程接着进一步使用计算机网络之中被分类为具有严重性的计算机资产的严重性权重数
值,来确定哪个计算机网络更?#36164;?#25439;于该特定群集所代表的计算机安全威胁。

举例而言,假设计算机网络131和134二者均受群集305影响。在此例之中,当群集
305影响到计算机网络131之中已被分配一较高严重性权重数值的一计算机资产,则严重性
分类过程将把此群集强调给计算机网络131的分析者。在同一示例之中,若计算机网络134
中受影响的计算机资产被分配一低严重性权重数值,则计算机网络134的分析者将不会被
告知此群集,直到具有较高严重性权重数值的其他计算机网络接收到经过处理的情报数据
为止。

参照图1,在群集的TIF记录经历严重性分类之后,使用漏洞过滤模块126使所述群
集的TIF记录经过一漏洞过滤过程。在此过程之中,被发现对于一特定计算机网络具有严重
性的群集被与该特定计算机网络的一安全态势进行比较,以确定该计算机网络是否?#36164;?#25439;
于该严重性群集所代表的威胁。

依据本发明的实施例,一计算机网络的安全态势可以藉由先建立代表包含于该计
算机网络之内的计算机资产的所有网络安全漏洞的一对象模型而取得。接着使此对象模型
经过一严格测试过程以判定该计算机网络?#36164;?#25439;于各种类型和形式的网络攻击的程度。该
测试过程可以涉及执行一分析程序,此分析程序在该对象模型上循环遍历、选择及执行多
个网络攻击,以评估该计算机网络对于各种类型和形式的网络攻击的?#36164;?#25439;程度。在该测
试过程期间,该计算机网络之中的每一计算机资产均在一系统层级、一拓扑层级和一节点
层级被测试。若该对象模型并未受一特定攻击影响,则这将意味着该计算机网络针对这一
攻击已被?#34892;?#22320;?#20301;?#25110;者已安装一适当的安全补丁,从而让这一攻击无效。该信息接着被
使用以产生该计算机网络的一安全态势。若显示该对象模型在一特定层级受一特定网络攻
击影响,则有关于该网络攻击的信息接着被捕捉且该安全态势被相应地更新。

藉由将被发现对于一特定计算机网络而言具有严重性的群集与该计算机网络的
安全态势进行比较,对该计算机网络而言已免疫的群集将不会针对该计算机网络被进一步
处理。这?#19988;?#20026;若该计算机网络已经针对一特定类型的恶意活动被打补丁,则该计算机网
络的安全分析者不需要接收有关于这些恶意活动的类似信息,因为相关的计算机安全威胁
将无害于该计算机网络。因此,这进一步?#26723;?#23433;全分析者在他们那端必须筛滤的无关威胁
情报数据的量。接着利用从计算机网络的漏洞过滤所取得的结果相应地更新数据库128。

回到前述的示例,其中群集305、310及315被发现是对于计算机网络131而言具有
严重性的群集。若计算机网络131的安全态势被与群集305、310、315比较且发现计算机网络
131仅?#36164;?#25439;于群集305,则这将意味着群集310、315之内所包含的记录可以不必考虑进一
步的处理。换言之,计算机网络131的安全态势的漏洞测试显示计算机网络131?#36164;?#25439;于透
过电子?#22987;SH、以及HTTP网络协议影响Windows和Linux操作系统的"蠕虫"类攻击。

与每一计算机网络相关的最终过滤群集接着依据每一计算机网络的预定义格式
被格式化,且接着被相应地提供给每一计算机网络。例如,对于计算机网络133而言,在经过
格式化的记录被提供给计算机网络133之前,一黑名单或一白名单被应用于针对计算机网
络133被过滤的群集可以是先决条件。在本发明的其他实施例之中,在此经过处理的数据被
转送至第三方以供其进一步使用之前,其可以裁制一定制遮蔽物并应用于被过滤的群集。

依据本发明的实施例,经过格式化的群集可以被接收方计算机网络使用,以更新
相应计算机网络的安全态势。这将确保计算机网络的安全态势维持在最新状态,且因此进
一步?#26723;?#24517;须被计算机网络的分析者审阅的威胁情报数据的量。

依据本发明的实施例,在经过标准化的威胁情报数据被群集模块128分组为群集
之后,且在严重性分类过程之前,被群集的数据经历使用验证模块124的验证过程。如同本
说明书的较先前部分所述,从某些来源取得的威胁情报数据倾向于比从其他来源取得的威
胁情报数据更为可信。特别是,从商业来源107取得的数据将比从开放来源106、社群来源
108和匿名来源109取得的数据具有较高的权重。透过验证过程的使用,群集的TIF记录被验
证以滤除被认为是"噪声"的记录或者可本质上无足轻重的记录。这可以藉由根据记录的来
源应用一特定权重至群集的TIF记录之中的记录以及藉由验证具有的总权重高于一预定阈
值的群集来达成。

所提出的验证过程参照图3所示的示例得到最佳的解释。在此例之中,源自开放来
源106的记录被赋予一权重数值1,源自商业来源107的记录被赋予一权重数值5,源自社群
来源108的记录被赋予一权重数值1而源自匿名来源109的记录被赋予一权重数值1。当权重
数值针对每一群集被加总之时,这产生以下权重数值:具有一加总权重8的群集305;具有一
加总权重6的群集310;具有一加总权重3的群集315;以及具有一加总权重6的群集320。此例
中,该预定义阈值因此被设定成5;所具有的加总权重小于5的任何群集将未通过验证,且因
此将被认定为是"噪声"。这被例示于图4,其中TIF记录400将群集305、310、320例示成已经
过验证,而群集315则已被略去,不再进行进一步处理。

依据本发明的实施例,一种用于整并一计算机网络的威胁情报数据的方法包含以
下五步骤:

步骤1,从多个来源收集威胁情报数据,且将所收集的威胁情报数据标准化成一种
一致数据格式;

步骤2,将经过标准化的威胁情报数据分组成群集,其中每一群集均包含代表该威
胁情报数据的一属性的一群数据;

步骤3,就对于该计算机网络而言具有严重性的计算机安全威胁分类所述群集;

步骤4,将被分类成具有严重性的群集与该计算机网络的一安全态势比较以确定
该计算机系统?#34892;?#36259;的群集;以及

步骤5,将被确定为该计算机系统?#34892;?#36259;的计算机安全威胁的群集格式化成该计
算机网络的一预定义格式。

在本发明的实施例之中,需要一过程以仅整并一目标计算机网络的来自多个来源
的相关威胁情报数据。以下描述和图5=7描述提供依据本发明的过程的过程的实施例。

图5例示依据本发明实施例的过程500,其由一计算机系统执行,以整并一计算机
网络的威胁情报数据。过程500开始于步骤505,其中威胁情报数据被收集自多个来源。此混
合的原始威胁情报数据包括呈多种格式以及被配置成用于使用各种网络协议进行传输的
数据。过程500接着继续进行至步骤510,其中全部的原始威胁情报数据被标准化成一致格
式。在本发明的实施例之中,此一致格式可以包括TIF记录。在步骤515,呈该一致格式的数
据被分组成群集,其中每一群集均代表威胁情报数据的一属性,诸如一种恶意活动类型、IP
地址、位置、出处、来源、或者计算机安全威胁。过程500接着继续进行至步骤520,其中群集
的数据从而经历一严重性分类过程以滤除对于该计算机网络而言具有严重性的群集。被认
为对于该计算机网络而言具有严重性的群集接着在步骤525进一步经历一漏洞过滤过程。
在此步骤之中,具有严重性的群集被与该计算机网络的一安全态势比较以确定该计算机网
络?#36164;?#20854;损害的群集。经过进一步过滤的群集接着在步骤530被格式化成该计算机网络的
一预定义格式。过程500接着结束。

图6例示过程600,其由一计算机系统执行,以针对计算机安全威胁过滤群集的记
录或者过滤对于该计算机网络而言具有严重性的群集。过程600开始于步骤602,其撷取隶
属于该计算机网络的计算机资产。过程600接着在步骤605从所述群集的记录选定一第一群
集。在步骤610,程序600从所撷取的计算机资产之中选定一第一计算机资产。过程600接着
继续进行以选定与所选定计算机资产相关联的一第一计算特征。此发生于步骤615。所选定
的计算特征在步骤620被与位于所选定群集中的数据进行比较。若过程600确定该选定计算
特征并未受该选定群集影响,则过程600继续进行至步骤625。在步骤625,过程600确定该选
定计算机资产是否具有尚未被选定的另一计算特征。若有要被选定的另一计算特征,则过
程600继续进行至步骤630。该选定计算机资产的下一计算特征被在步骤630选定,且过程
600接着继续进行至步骤620,其中该选定计算特征被在步骤620评?#39304;?br />

回到步骤625,若该选定计算机资产的计算特征已全部被选定过,则过程600接着
继续进行至步骤650。在步骤650,过程600确定该计算机网络是否具有尚未被选定的另一计
算机资产。若有要被选定的另一计算机资产,则过程600进行至步骤655,在此另一计算机资
产被选定。过程600接着继续进行至步骤615,其中该选定资产的一第一计算特征被选定且
随后在步骤620被评?#39304;?br />

回到步骤650,若该计算机网络的计算机资产已全部被选定过,则过程600改为继
续进行至步骤640。在步骤640,过程600确定群集的记录之中是否有尚未针对该计算机网络
评估的另一群集。若有另一群集,则过程600继续进行以在步骤645选择此下一群集。过程
600接着继续进行至步骤610,在此选定该第一计算机资产。过程600接着进行历经如前所述
的各个步骤。

回到步骤620,若过程600确定该选定计算特征可以受该选定群集影响,则过程600
改为进行至步骤635。在步骤635,过程600将该选定群集标识为对于该计算机网络而言具有
严重性的群集且过程600接着直接继续进行至步骤640,而不评估计算机资产的其他计算特
征。

一旦群集的记录之中的所有群集均已经过过程600评估,过程600接着即结束。

图7例示依据本发明实施例的过程700,其由一计算机系统执行,以验证经过解析
与标准化的威胁情报数据的群集。过程700开始于步骤705,在此步骤之中,取决于记录的出
处或来源,适当的权重被指派给每一记录。一较高的权重被指派给源自诸如商业来源的可
信和可靠来源的数据,而一?#31995;?#30340;权重被指派给源自诸如开放、社群和匿名来源的可信度
?#31995;?#30340;来源的数据。过程700接着继续进行至步骤710,其中每一群集之中的记录的权重全
部被加总以得到每一群集的一总权重。在步骤715,过程700选定一群集,并在步骤720确定
该选定群集的加总权重是否超过一预定义阈值。若过程700确定该选定群集的该加总权重
超过该预定义阈值,则过程700继续进行至步骤735。在步骤735,该选定群集将被过程700验
证,且过程700接着继续进行至步骤725。

回到步骤720,若该选定群集的加总权重并未超过该预定义阈值,则过程700将改
为继续进行至步骤725。在步骤725,过程700将确定是否存在另一群集要被过程700选定。若
过程700确定有另一群集,则过程700将继续进行至步骤730。在步骤730,过程700将选定下
一个群集并且接着继续进行至步骤720。过程700会重复步骤720至725,直到群集全部被选
定过为止。换言之,一旦其在步骤725确定没有更多群集要被选定,则过程700接着将结束。

上述的过程可以由储存于一非瞬态计算机可读介质之中的指令提供,且由一计算
机系统之中的一处理单元执行。为了避免疑义,非瞬态计算机可读介质应被视为包括除了
瞬态传播信号之外的所有计算机可读介质。一计算机系统可以被提供在用以提供本发明的
一或多个移动装置及/或计算机服务器之中。所述指令可以被储存为固件、硬件、或软件。图
8例示这样的处理系统的一示例。处理系统800可以是位于移动装置及/或服务器之中的处
理系统,其执行指令以执行用以提供一种依据本发明实施例的方法及/或系统的过程。本领
域技术人员应能领略,每一处理系统的确?#20449;?#32622;可以有所不同,且每一移动装置之中的处
理系统的确?#20449;?#32622;可以有所变化,而图8仅是作为示例给出的。

处理系统800包含中央处理单元(CPU)805。中央处理单元805为一处理器、微处理
器、或者处理器与微处理器的任何组合,其执行指令以执行依据本发明的过程。中央处理单
元805连接至存储器总线810和输入/输出(I/O)总线815。存储器总线810将中央处理单元
805连接至存储器820及825,以在存储器820、825与中央处理单元805之间传送数据和指令。
输入/输出总线815使中央处理单元805连接至外围装置,以在中央处理单元805与所述外围
装置之间传送数据。本领域技术人员应能体认,输入/输出总线815和存储器总线810可以被
结合成一个总线或者被分成许多其他总线,而确切的配置则留给本领域技术人?#26412;?#23450;。

一?#19988;资源?#20648;器820,诸如只读存储器(ROM),连接至存储器总线810。?#19988;资?#24615;
存储器820储存操控处理系统800的各种子系统和在开机时启动系统所需要的指令和数据。
本领域技术人员应能体认,可以使用任何数目和类型的存储器来执行此功能。

一?#36164;源?#20648;器825,诸如随机存取存储器(RAM),也连接至存储器总线810。?#36164;?br />?#28304;?#20648;器825储存中央处理单元805执行针对过程的软件指令所需要的指令和数据,所述过
程诸如是用于提供依据本发明实施例的系统所需的过程。本领域技术人员应能体认,可以
使用任何数目和类型的存储器做为?#36164;源?#20648;器,且所使用的确切类型留给本领域技术人
员的设计选择。

输入/输出(I/O)装置830、键盘835、显示器840、存储器845、网络装置850以及任何
数目的其他外围装置均连接至输入/输出总线815,以与中央处理单元805交换数据而使用
于中央处理单元805所执行的应用程序。输入/输出装置830为从中央处理单元805传送及/
或接收数据的任何装置。键盘835为一特定类型的输入/输出装置,其接收用户输入并将所
述输入传?#36879;?#20013;央处理单元805。显示器840从中央处理单元805接收显示数据并在?#32842;?#19978;
显示图像以供用户观?#30784;?#23384;储器845为传送数据至中央处理单元805并自其接收数据的装
置,?#28304;?#23384;数据至一介质。网络装置850将中央处理单元805连接至一网络,以往来于其他处
理系统进行数据的传输。

以上为对于依据本发明的系统和方法的实施例的描述,本发明的?#27573;?#22914;在以下权
利要求书中所阐述的。可设想到,其他人可以且将要设计出落入以下权利要求书的?#27573;?#20869;
的替代实施例。

关于本文
本文标题:使用无监督式机器学习和优先权算法的高速威胁情报管理的系统及方法.pdf
链接地址:http://www.pqiex.tw/p-6091917.html
关于我们 - 网站声明 - 网?#38236;?#22270; - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 贵州茅台股票分析 炒股如何开户 国际股票指数有哪些 葛洲坝股票分析 2012医药股票推荐 腾讯股票 股票融资好吗 贵州茅台股票分析2018 创业板股票代码 虚拟炒股