黄建忠

科学研究

研究领域1:计算机系统结构

研究领域2:存储系统

研究领域3:纠删码集群


||+可靠性存储简介+||

关键词:海量存储、大数据存储、分布式存储、网络存储、存储集群、数据冗余、副本、纠删码、访问频度


数据量呈指数级增长,存储系统作为数据存放的空间也随之扩展【关键词:PB,EB,ZB,海量存储、大数据存储】。单个磁盘/节点/服务器难以应对剧增的存储数据,数据需要分散放置到多个磁盘/节点/服务器上【关键词:分布式存储】,除了基于总线的磁盘阵列存储,数据中心内部节点之间及数据中心之间通常网络互连来传输数据【关键词:网络存储】。从存储组织的角度,数据中心内部的存储节点可以构成集群式存储【关键词:存储集群】。随着存储集群规模的增大,存储节点失效是一个经常性事件,数据面临丢失的风险。为了增强存储可靠性并提升数据可用性,通常采用冗余机制【关键词:数据冗余】,常见的冗余机制有副本和纠删码。【关键词:副本技术】副本是一种复制、镜像技术。HDFS采用了机架感知的三副本放置方式,数据分三个副本分别放置到两个机架的三个不同节点上(两份放在一个机架的两个节点上;一份放在另一机架的一个节点上);【关键词:纠删码】纠删码是一种编码技术,数据分块通过计算可以得到校验分块,相对于副本技术,纠删码技术具有更高的存储效率(存储效率=逻辑空间/物理空间)。HDFS-RAID采用了RS纠删码来存放数据。为了兼顾存储效率和访问性能,热数据【关键词:高访问频度】和冷数据【关键词:低访问频度】通常分别采用副本方式和纠删码方式进行组织和管理。