2018年初,华为分布式存储的明星产品OceanStor 9000率先支持了14TB SMR盘的商用,使得视频监控、备份归档等场景下存储系统功耗降低40%以上,空间节省40%以上。那么SMR盘的原理以及产生的背景是什么,华为OceanStor 9000又是如何通过技术创新解决了大容量SMR盘在企业存储中应用的难题,帮助企业从容应对数据洪流挑战,进行数字转型。我们将通过两篇文章为大家做详细介绍。
SMR盘诞生记
为了突破存储介质的容量极限,SMR技术开始崭露头角,所谓SMR,是叠瓦式磁记录的简称,英文为Shingled Magnetic Recording,以其大容量、低功耗的特点,已经被AWS Glacier、Google、Facebook等多家公有云厂商用作对象冷存储的存储介质,但由于企业存储中冷热数据混杂,数据访问方式和性能要求均高于公有云冷存储,企业存储中还很少见到SMR盘的身影。
40%的功耗降低和空间节省究竟靠不靠谱?是什么让OceanStor 9000有信心支持这么大容量的SMR盘?华为OceanStor 9000采用了哪些黑科技来保障SMR盘在企业存储中的高效应用呢?本文将带您一探究竟。
SMR盘的技术背景
大数据时代的数据量呈指数级增长,IDC预测2025年全球数据总量会达到163ZB, 存储容量将超过19ZB,其中约58%的容量由HDD硬盘来承载。硬盘驱动器的存储面密度(每单位面积存储的位数)受到物理定律的限制,目前硬盘使用的垂直磁记录(Perpendicular Magnetic Recording,PMR)技术即将达到其存储密度极限。业界迫切希望引入新的技术来克服限制,继续稳步提升容量。
IDC预测2025年数据总量将达163ZB
叠瓦式磁记录盘(Shingled Magnetic Recording,以下简称SMR盘)是领先的下一代磁盘技术,它保持现有磁头和介质技术不变,通过将磁道像屋顶上的瓦片那样重叠在一起来实现其存储面密度的增长。
传统硬盘盘片被划分为同心圆状的磁道,磁道与磁道之间具有一定间隔,磁头位于盘片记录介质的上方,写磁头和读磁头相互独立。由于写入所需要的磁场强度高于读取所需要的磁场强度,写磁头的宽度是大于读磁头的宽度的,写磁头的宽度也决定了每英寸磁盘能容纳的磁道数量。
传统硬盘与SMR盘磁记录方式的对比示意图
SMR盘正是利用了读写磁头之间的宽度差,将相邻的磁道像瓦片一样重叠在一起,数据的写入是通过部分重叠前一条磁道写入的,同时留出了足够的空间给较窄的读磁头读取前一条磁道的数据。和传统磁盘相比,SMR盘通过叠瓦式写入在相同的面积内容纳了更多的磁道,从而提高了存储面密度,进而降低了磁盘单位存储容量的成本。但也正因为这种特点,SMR盘只能进行大块的顺序写入,无法支持随机写和更新写,需要上层的文件系统提供全新的数据管理解决方案。
SMR盘的分类
SMR盘对写入的顺序性约束可在硬件侧由硬盘本身来管理,也可以在主机侧由软件来管理,前者被称为DM SMR(Drive Managed SMR disk,驱动器自管理的SMR盘),后者将SMR内部的组织结构通过新增接口向上层软件暴露,根据是否允许随机写又可以细分为两类:如果SMR盘只允许上层进行顺序追加写,不允许随机写,那么称为HM SMR(Host Managed SMR, 主机管理的SMR盘);如果SMR盘并不严格限制随机写操作,那么称为HA SMR(Host Aware SMR,主机感知的SMR盘)。
SMR盘类型
表中总结了三种SMR盘的特点:
DM SMR使用上最简单,现有的软件无需任何改造即可使用,但随机写工作负载下,势必存在数据迁移、垃圾回收等背景操作,从而导致SMR盘的性能波动巨大;
HM SMR需要存储系统软件(如分布式文件系统)进行大量的优化,但这种方式能最大化发挥SMR盘的性能;
HA SMR是个折衷的方案,使用上最灵活,但同样存在性能波动的可能。
企业应用不同于互联网应用,尤其是视频监控这类业务,要求存储系统必须提供持续稳定的、可以预期的性能。为此华为OceanStor 9000选择了技术难度最高的HM(Host Managed) SMR硬盘, 以便于企业应用提供稳定的性能表现。SMR盘在企业存储中应用的挑战
公有云对象冷存储中,几乎不涉及修改写,且数据取回时间相对较长。例如AWS Glacier标准取回通常在3-5 小时内完成。但在企业应用场景,数据读写仍以文件为主要方式,可能存在较多的修改写,读写的响应通常在ms级,以视频监控等场景为例,如果写请求的平均时延大于40ms,就会导致写入的视频数据丢帧。
由于SMR盘单盘容量巨大,目前SMR盘单盘容量已经达到14TB,预计2018年下半年硬盘厂商还会发布18TB SMR盘,其容量是企业市场主流使用的8TB SATA/NL_SAS盘的2倍左右。超大容量硬盘,一旦出现故障。其数据重构时间将非常漫长,按照传统企业存储每TB数据重构时间10小时左右计算,14TB SMR硬盘重构需要140小时时间(近一周时间),在此期间如果发生其他硬盘故障,则会导致数据丢失。这对企业应用来说绝对不可接受!
这些都给SMR盘在企业存储中的应用带来了额外的挑战,需要存储系统既能够适配SMR盘的要求,又不改变用户的使用习惯和性能要求,还能提供很高的可靠性。基于这些要求,要用好SMR盘不能简单地将它当做传统硬盘的替代品,而是要针对性地对整个存储栈进行适配优化,从上层应用软件到底层驱动,均需要适配SMR盘提供的新接口,确保IO的顺序写入,防止竞争条件和IO乱序,从而获得更高的性能和可靠性。