平码五不中公式规律
  • / 9
  • 下载费用:30 金币  

一种大数据归档存储系统.pdf

关 键 词:
一种 数据 归档 存储系统
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201410077302.9

申请日:

2014.03.04

公开号:

CN103916459A

公开日:

2014.07.09

当前法律状态:

驳回

有效性:

无权

法?#19978;?#24773;: 发明专利申请公布后的驳回IPC(主分类):H04L 29/08申请公布日:20140709|||实质审查的生效IPC(主分类):H04L 29/08申请日:20140304|||公开
IPC分类号: H04L29/08; G06F3/06; G06F11/14 主分类号: H04L29/08
申请人: 南京邮电大学
发明人: 孙知信; 胡燕平; 宫婧; 王攀
地址: 210003 江苏省南京市鼓楼区新模范马路66号
优?#28909;ǎ?/td>
专利代理机构: 南京知识律师事务所 32207 代理人: 汪旭东
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201410077302.9

授权公告号:

||||||

法律状态公告日:

2018.04.06|||2014.08.06|||2014.07.09

法律状态类型:

发明专利申请公布后的驳回|||实质审查的生效|||公开

摘要

本发明公开了一种大数据归档存储系统,由数据源、标准接口、云数据库、管理模块、可伸缩管理架构、操作系统、存储介质依次连接构成,其特征在于标准接口与云数据库之间连有监听器模块。可伸缩管理架构与操作系统之间还连有访问分组模块。可伸缩管理架构还与RAID条带优化模块相连。本发明在一个基础的归档系统架构上架设新的模块,保证归档系统对云计算的支持,同时能够处理来自客户端的大量IO(input/output输入/输出)操作,保证低?#37038;?#30340;数据访问,在错误检测方面针对HDD(Hard?Disk?Drive硬盘驱动器)的检错机制进行优化从而提高RAID系统的检错效率,通过以上三个层面提升归档系统的数据吞吐量,保证系统能应对大数据归档的挑战。

权利要求书

权利要求书
1.  一种大数据归档存储系统,由数据源、云数据库、管理模块、可伸缩管理架构、操作系统、存储介质依次连接构成,其特征在于数据源与云数据库之间连有监听器模块,监听器与云数据库相连,记录数据库的访问情况,根据访问情况制定不同的归档策略,将云数据库?#26800;?#25968;据传输到下层的归档存储系统中;可伸缩管理架构与操作系统之间还连有访问分组模块,访问分组模块采用语义本体对SVM支持向量机训练,基于语义本体进行访问的分组,?#26723;?#30913;盘旋转的次数;可伸缩管理架构还与RAID条带优化模块相连,RAID条带优化模块采用更换条带区域的方法把条带?#31995;?#38169;误块与访问量最低的其他条带?#31995;?#22359;互换,?#28304;?#25552;高磁盘数据的保护作用。

2.  根据权利要求1所?#26723;?#19968;种大数据归档存储系统,其特征在于可伸缩管理架构用于协调各功能模块的并发操作。

3.  根据权利要求1所?#26723;?#19968;种大数据归档存储系统,其特征在于管理模块包括索引和元数据查询、策略管理以及元数据生成。

4.  根据权利要求1所?#26723;?#19968;种大数据归档存储系统,其特征在于存储介质为磁盘或磁带。

说明书

说明书一种大数据归档存储系统
技术领域
本发明涉及数据存储领域,特别是一种大数据归档存储系统。 
背景技术
大数据环境下云计算技术已趋于成熟,大型的IT企业正在?#24179;?#20113;存储的部署,各种智能云存储系统应运而生,CSS(Cloud Storage System)云存储系统也面向可运营的云备份系统,备份与归档正朝着融?#31995;?#26041;向迈进。传统的归档技术面临新的挑战,云计算环境下的数据库与池化的软硬资源需要归档系统为其扩展新的接口,不再是简单的数据摄取与接入。海量长期的数据归档需要考虑数据检索的效率,分级存储管理是较理想的归档模式。磁带的使用方式通常是用来对基本上很少使用的数据进行归档的介质(write-once,read-never or maybe,一旦写入,?#30828;?#20351;用或者很少使用),磁盘则可以用来归档预期可能检索的数据,在扩展云计算环境的归档系统中下层需要部署用来进行分级的归档模块,需要具有数据检索的预测功能,同时对归档数据进行历史检索的分析,及时的采取分级存储,这类似于计算机存储系统,从底层的硬盘到CPU的高性能cache(缓存),容量在?#26723;停?#23384;取速度却在升级。分级的管理同时涉及介质迁移,迁移需要同时考虑归档数据与介质的特性,保证数据迁移与介质迁移的数据持有性,介质稳定性。 
应对信息化的公共管理与企事?#26723;?#23376;化运作,高能效的归档系统势必成为支撑数据立体式增长的重要保障。在基于信息生命周期管理的思想上,归档一直是不被重视的一个?#26041;冢?#20027;要是基于磁带技术的归档模式正在被云时代、大数据冲击。过去,研究者们会把目光集中在数据存储上,这主要来自于传感器等资源的数据采集能力给存储系统带来的压力,经过长期的研究与实践,分布式的存储系统、云存储逐渐实现了大数据的有效存储,研究的热点将转移到新的计算环境下的归档系统。 
全息存储介?#30465;?#26377;机金属复合薄膜、突破性的DNA(Deoxyribonucleic acid脱氧核糖核酸,染色体的主要化学成分)与石英玻璃板有望突破磁带与光盘为主的长期归档介质,在工业标准的存储接口未出?#26234;埃?#24402;档仍主要依靠以硬盘为第一级存储介质的归档系统。国内外有很多归档系统的研究与设计,You等人提出了一个深度的归档存储系统,采用一个虚拟的content-addressable(内容寻址)存储框架与多方式的inter-file(中间文件)和intra-file(内部文件)压缩机制,有效地解决了数据依赖变化下数据压缩,测量内容和元数据存储的效率,展示需要变化级别的复制模型并提供了存储性能的初步结果,在其框架中,采用MD5(Message Digest Algorithm MD5消息摘要算法第五版)或SHA-1(Secure Hash Algorithm-1一种安全散列算法)为每个文件计算出虚拟目录地址的主要部分,在大数据环境下,为每个 文件计算一个哈希值会为系统增加负荷。 
传感技术使得流数据无处不在,产生源源不?#31995;?#27969;数据,这考验着当下企业存储与归档的能力,Abe等人提出了操作合并的机制来归档流数据,大多数操作时访问或者修改操作,对访?#25910;?#26469;说可能存在高度的?#37038;保?#35775;?#25910;?#19981;能访问到逻辑上已经写入的数据,需要控制合并操作的时间域。Wildani等人采用语义部署归档数据,根据访问的历史记录的语义,用索引器建立基于语义的访问目录,在重复访问与语义逻辑相悖时索引器面临巨大挑战。 
目前现有技术中还没有将云存储的存储现状作为大数据归档的重?#35757;悖?#24402;档系统的设计缺乏与云数据库的无缝接合,数据的迁移往往直接从数据源摄取到了归档介质中,给后期的数据访问增加?#25628;?#21147;,爆发式的访问会给系统带来超大负荷,应对这访问集中与多发的机制还是停留在依靠缓存的解决方法,而在归档磁盘的检错问题上,Klein虽然从RAID(Redundant Arrays of Independent Disks磁盘阵列,RAID)的系统的角度提出了改进归档的方案,在检错顺序上提出采用最远距离单元块优先检错的机制,笼统的认为最远单元块的错误概率较大,缺乏理论依据,优化条带上没有具体的方法。 
发明内容
为解决上述技术问题,本发明所采用的技术方案如下: 
一种大数据归档存储系统,由数据源、云数据库、管理模块、可伸缩管理架构、操作系统、存储介质依次连接构成,其特征在于数据源与云数据库之间连有监听器模块,监听器与云数据库相连,记录数据库的访问情况,根据访问情况制定不同的归档策略,将云数据库?#26800;?#25968;据传输到下层的归档存储系统中;可伸缩管理架构与操作系统之间还连有访问分组模块,访问分组模块采用语义本体对SVM支持向量机训练,基于语义本体进行访问的分组,?#26723;?#30913;盘旋转的次数;可伸缩管理架构还与RAID条带优化模块相连,RAID条带优化模块采用更换条带区域的方法把条带?#31995;?#38169;误块与访问量最低的其他条带?#31995;?#22359;互换,?#28304;?#25552;高磁盘数据的保护作用。 
可伸缩管理架构用于协调各功能模块的并发操作。 
管理模块包括索引和元数据查询、策略管理以及元数据生成。 
存储介质为磁盘或磁带。 
本发明在一个基础的归档系统架构上架设新的模块,保证归档系统对云计算的支持,同时能够处理来自客户端的大量IO(input/output输入/输出)操作,保证低?#37038;?#30340;数据访问,在错误检测方面针对HDD(Hard Disk Drive硬盘驱动器)的检错机制进行优化从而提高RAID系统的检错效率,通过以上三个层面提升归档系统的数据吞吐量,保证系统能应对大数据归档的挑战。 
附图说明
图1一种大数据归档存储系统整体框架示意图。 
图2云端数据库监听原理图。 
图3基于本体的访问分组方法图。 
图4RAID条带优化示意图。 
具体实施方式
下面结合附图,对技术方案做进一步具体说明。 
图1是一种大数据归档存储系统整体框架,由数据源、标准接口、云数据库、管理模块、可伸缩管理架构、操作系统、存储介质依次连接构成; 
1)数据源,数据源主要是需要进行归档服务的存储系统和用户管理程序,由标准的接口将所有异构数据存储到云数据库中,并且可以实时访问云数据库?#26800;?#25968;据。 
2)标准接口:标准接口主要用于提取和访问归档数据,整合?#24067;?#25216;术和软件技术,用于归档系统与上层存储与用户进行?#25442;ァ?#26412;系统支持多工业标准接口和应用程序接口(API),一种接口用于文档的摄取,一种用于文档的检索,例如Extensible Access Method(XAM)是支持复杂数据类型和语义的数据接口。 
3)监听器模块:记录云端数据库的新进数据并且建立基于块的访问记录,数据的摄取和访?#35782;?#20250;唤醒云数据外围的监听器,监听器模块记录下新数据的存储位置与访问数据的累?#21697;?#38382;量,当数据访问量低于阈值并且满足数据归档策略时被迁移到下层的归档系统中 
监听器模块的功能:1)读取云数据库的设置,在没有数据分类或数据分块的云数据库上有策略的划分虚拟块;2)根据公有云还是私有?#24179;?#34892;划分,私有云可以直接与目标归档层?#25442;ィ?#32780;公有云还需要建立与目标归档系统对接,实?#21046;?#19994;数据的独立归档;3)监听数据库的访问情况,设定阈值,对规定时间段访问及修改?#26723;?#20110;阈?#26723;?#25968;据库自动将数据经重复?#22659;?#21518;通过网络端口迁移到归档系统中。 
图3是公有云下的代理归档方案,数据可能被随机的存到多个云数据库中,如图3?#26800;?#20113;数据库1/云数据库/2云数据库3,图?#26800;?#30417;听器通过网络与云数据库相连,通过记录数据块的访问情况与定义的归档策略,监听器将云数据库?#26800;?#25968;据通过网络传输到下层的归档存储系统中。上图的归档系统用了云计算的思想,小型企业在存储资源有限的情况下,借助公有云,数据根据归档系统的索引器进行存储,缓存也能加快客户端的访问速度。 
4)云数据库:云端被监听的数据库; 
5)索引和元数据查询:用于为归档的数据建立索引并提供查询通道; 
6)策略管理和审计:提供归档的策略和日志审计功能; 
7)元数据的生成和发?#22336;?#21153;:用于为归档数据生?#19978;?#24212;的元数据,结合数据本身进行定位查找服务; 
索引和元数据查询、策略管理以及元数据生成是并?#26800;?#31649;理模块,索引和元数据查询用于建立归档数据集的索引,完成快速的查询服务,元数据生成模块生成数据的数据,配合索引与元数据查询模块实现归档数据的存储。策略管理模块用于归档系统管理者以特定要求的数据管理规约约束归档系统,管理员通过策略管理模块的标准入口进行策略的更新、?#22659;?#19982;监控。模块之间都有通信,策略管理模块主要向索引和元数据查询模块与元数据生成模块发送策略包,?#37038;?#21040;策略包后,索引和元数据查询与元数据生成模块会依照新的策略整理归档数据。 
8)可伸缩的存储架构:具有核心的归档数据管理能力,用于协调各功能模块的并发操作,支持系统的扩展,访问分组和RAID条带优化模块可见附图3与附图4中,操作系统模块是?#24067;?#19982;软件的连接层,由各种?#24067;?#30340;操作系统组合完成的大规模基础的资源管理模块,管理者磁盘、光盘磁带等存储介?#30465;?nbsp;
9)访问分组模块:采用语义本体对SVM(Support Vector Machine,SVM)支持向量机训练,基于语义本体进行访问的分组,?#26723;?#30913;盘旋转的次数; 
在访问分组的模块上采用语义本体对SVM支持向量机训练,索引器需要有生成语义本体的能力,语义本体代表一类型的资源,该类资源的特征是存放的物理位置集中,具有语义相关性,访问群经过语义训练,就会被分类到访?#39318;?#20013;,每个访?#39318;?#23545;应一类的语义本体,如图3所示,在系统目录发生目标比例变化的?#20445;?#38656;要生成新的语义本体来训练SVM。 
具体的语义本体对SVM支持向量机训练的实?#22336;?#27861;简述如下:(1)由图3?#26800;?#32034;引服务模块?#26800;?#30446;录生成若干本体库,如图3?#26800;?#26412;体库1/本体库2/本体库3;(2)在每个本体库中随机选取等分的样本集训练SVM分类器,如图3?#26800;腟VM分类器;(3)进入索引服务的IO查询访问集的关键词或?#32440;?#20837;分类器进行分类,得到图3?#26800;?#35775;?#39318;?/访?#39318;?/访?#39318;?;(3)在索引目录发生较大变化后,进行步骤(1)以获得新的本体和分类器。 
语义本体常用作数据库的建模,数据成为本体的实例被吸附到相应的本体库中,采用语义本体的方法,配合文件索引服务器实现存取IO操作的分类、负载均衡,数据集的级数?#23545;?#38271;带来数据访问量的增加,在归档系统需要管理如此多数据的同时还要保证访问的快速响应,就必须优化数据在磁盘?#31995;?#23384;储模式,使得磁盘在每次旋转时处理更多的访?#30465;?nbsp;
归档数据只有小部分是活?#38236;模?#22270;3是基于索引器与存取的语义特征生成若干语义本体,实现的访问分组,采用SVM方法对指定时间间隔内的访问分类,可描述为3个阶段,索引器的目录生成语义本体库,经训练的SVM根据本体库对存取IO操作分类,本体库能够随着访问 量与访问的语义复杂程度动态快速定位目标本体指向的磁盘,提高处理效?#30465;?nbsp;
10)RAID条带优化模块:调整固定单元的检测顺序和调整多错误条带区域。 
考虑系统扩展性,数据的长期存储需要没有与归档前大数据存储融合,?#28909;鏗DFS(Hadooop Distributed File System一种分布式文件系统)的存储的解决方案,尽管IT巨头的存储解决方案能够帮助企业进行数据的备份与归档,包括分级的存储,介质的轮转、重复利用,面对大数据的归档,它的性能还是未知的。迫切需要系统对云数据库的支持,拓展介质的存储能力,在系统访问量增多与错误检测上也要有应对大数据的机制。 
磁盘仍是归档系统的第一存储介质,位于介质分级的第一级,可以假定为归档系统的Cache,优化磁盘存储技术,及时的检测磁盘错误与修复对可以避免错误数据被轮转到其他存取能力差的介质中,进而?#26723;?#31995;统负载。 
优化的RIAD系统可以有效的?#26723;?#30913;盘出错,采用分层的监测模型监测整个RAID系统,定?#36824;收希?#38450;止数据丢失,的各种性能指标。分层的模型旨在从RAID控制器的顶端开始,每一层代表的是实际的数据而不是不同的介质,因为RAID技术本身?#28304;?#24102;这样的介质是无效?#27169;?#20986;现错误的和?#26009;?#36807;正在进行冗余检查的需要单独存储起来,矫正错误的能力依赖于每个码的冗余信息,通过改变RAID的布局和条带长度扩大一倍的方法来纠正错误。 
在错误检查方面,HDD的错误检测是将每个盘划分成固定长度的区域,再在该区域内划分更?#24863;?#30340;单元,区域大小128M,单元大小为1M,检测过程中首先检测每个区域的固定单元,如?#25628;?#29615;。在优化的RAID系统中对到达生命期边?#26723;?#30913;盘进行连续的?#26009;矗?#23545;未到达生命期的磁盘在每次的循检测中,选择离上一轮检测中该区域内相距最远的作为有优先检测权的单元,因为在检测无误的单元附近的错误概率远低于离其较远的单元。在RAID条带上,当发现条带上有多个错误区域?#20445;?#36873;取其它访问量较小的条带对应的区域更换。 
图4显?#38236;?#26159;一张条带检错得到的?#25104;?#34920;,这是一张RAID条带上区域?#25442;?#30340;重?#25104;?#34394;拟表,一共有磁盘0、磁盘1磁盘2三个磁盘,区域ij表?#38236;趇+1个条带?#31995;?#31532;j+1个区域,例如区域11表?#38236;?个(条带1)条带?#31995;?#31532;二个区域,上斜线区域为?#25910;?#21306;域,竖线区域为健康区域,当一个条带上多个区域具有关联的?#25910;鮮保?#20026;防止交叉错误引起新的错误,对出现?#25910;?#36739;多的条带调整,?#22266;?#24102;?#31995;?#38169;误区域?#26723;?#26368;低数量,原方法没有设计区域?#25442;?#30340;法则,无规律性的?#25442;?#19981;一定能?#26723;?#38169;误的发生,用aij来标记了各区域的时间段无?#25910;?#26816;测参数,调整的方法采用标记区域无?#25910;系?#26816;测次数为依据,定义如下: 
定义1:a[ij]记录条带i上磁盘j区域的无?#25910;?#35775;问数; 
定义2:S[i]=max{a[ij]},得到条带i?#31995;?#26368;大访问值; 
定义3:T(ij)=min{S[0],…S[i-1],S[i+1],…S[n]},计算出需要?#25442;?#30340;区域region ij 的目的条带,在优化结束后,a[ij]全部清零。 
采用对比健康检测情况的方法?#31995;?#25972;错误区域较多的条带可以避免未知的交叉错误,将错误区域迁移到访问量最小的条带上进一步?#26723;?#26410;知错误的概?#30465;?nbsp;
11)分级存储、介质管理与备份。 
分级存储模块的主要功能是完成数据的存储分级、介?#20107;?#36716;,依据归档磁盘中数据的被访问情况和存储策略,采取不同的存储方式分别将数据存储到性能不同的存储设备上,实现数据在存储设备之间的自动迁移。介质管理主要用于管理介?#39135;种械?#21508;种介?#39318;?#28304;,完成介质的性能评估、动态增加、?#22659;?#31561;管理目标。备份模块用于创建数据副本,以防系统的?#24067;?#25110;存储媒体发生?#25910;稀?nbsp;

关于本文
本文标题:一种大数据归档存储系统.pdf
链接地址:http://www.pqiex.tw/p-6115701.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 海南飞鱼胆拖 顶呱刮中奖 老款2018蓝洞棋牌下载 预测复式彩票的买法 中国竞彩首页 黑龙江11选5的技巧 时时彩赚钱 大乐透开奖结果今天号码 福利彩票双色球开奖结果 贵州11选5推荐号码预测