产品展示 Categories
联系我们 contact us
- 联系人:
- 陆先生
- 手机:
- 15895595058
- 电话:
- 0512-58628685
- 地址:
- 张家港市南丰镇
存储优化策略研究-电动数控滚圆机滚弧机张家港
添加时间:2019-06-21
随着"大数据"时代的到来,Hadoop等大数据处理平台也应运而生。但其存储载体——Hadoop分布式文件系统却在海量小文件存储方面存在着很大缺陷,存储海量小文件会导致整个集群的负载增高、运行效率下降。为了解决这一针对小文件的存储缺陷,通常的方法是将小文件进行合并,将合并后的大文件进行存储,但以往方法并未将文件体积大小分布加以利用,未能进一步提升小文件合并效果。本文提出一种基于数据块平衡的小文件合并算法,优化合并后的大文件体积分布,有效降低HDFS数据分块,从而减少集群主节点内存消耗、降低负载,使数据处理过程可以更高效的运行。提出在一定程度上降低了NameNode节点内存负载,同时文件体积均匀分布也将利于MapReduce并行计算的效率发挥。由于小文件合并策略类似于游戏“俄罗斯方块”中的填补空白的方法,为此即将该算法命名为TetrisMerge(俄罗斯方块似的合并)算法,简称TM算法。3.2算法设计首先,介绍算法中使用的数据结构。本文将算法中使用的队列分为两类———文件合并队列和容忍队列。共有若干个文件合并队列用于存放待合并的小文件集合,当队列中的文件总大小达到合并条件时,即将文件集统一打包合并存入HDFS,存储优化策略研究-电动数控滚圆机滚弧机张家港电动钢管滚圆机滚弧机折弯机且清空该队列;同时还有若干个容忍队列用于存储非预期情况下出现的体积偏大的文件,发挥应有的缓冲作用,并保证合并后文件大小尽量均匀分布。本文由公司网站滚圆机网站
采集
转载中国知网整理! http://www.gunyuanjixie.com两类队列可以相互转换,后文将介绍其转换策略与条件。算法的执行流程如图2所示。算法共分为两个阶段:文件合并阶段,后处理阶段。图2TM算法执行流程图Fig算法执行流程如下:(1)根据文件合并阈值创建m个文件合并队列qfl和n个容忍队列qtl(一般n<m)。(2)遍历所有待合并小文件f,选择一个文件合并队列添加入队,实施原则是选择当前队列集合中文件总体积最小的队列(剩余空间最大的队列)qmax。如果该文件加入队列后的总文件容积小于合并阈值,存储优化策略研究-电动数控滚圆机滚弧机张家港电动钢管滚圆机滚弧机折弯机则正常加入;反之即进入异常处理步骤。(3)异常处理步骤,文件加入队列使总大小超过合并阈值。如果此时该队列qmin中文件总大小已经超过合并阈值的95%,则将qmin中文件合并输出,且清空队列,同时将亟待入列的文件加入该队列;反之未超过阈值的95%,则证明待入列文件 Datanode节点各一个,设计构建的硬件环境如表1所示。表1实验环境Tab.1操作系统CPU内存硬盘操作系统CPU内存硬盘C行环境版本为1.6。副本数量设置为2,HDFS数据块大小采用系统默认的64MB。测试数据的小文件集合包含4294个文件,总大小为10.12GB。这些小文件均为各类格式的小文件,文件体积从不足100KB到64MB各有不等。图5展示了文件集合的体积大小数量分布,其中体积为5MB以下的小文件占到总文件数量的97.71%,而5~64MB的文件则主要用于观察文件合并效果。图5文件集合体积大小数量分布Fig.DFS导入文件时间消耗对比实验通过包括TM算法在内的三种不同方法向HDFS进行文件导入,记录导入文件操作所消耗的时间。其中单文件合并算法中,合并文件的大小将选择与TM算法阈值相同的128MB。表2显示了三种方法向HDFS中导入数据的时存储优化策略研究-电动数控滚圆机滚弧机张家港电动钢管滚圆机滚弧机折弯机本文由公司网站滚圆机网站
采集
转载中国知网整理! http://www.gunyuanjixie.com