数据存储领域,发展至今,已经没有多少秘密可言。作为更为细分领域的归档存储,虽然有一些公有云厂商相继对外推出基于云平台的归档存储服务,也有一些企业级存储厂商在静静地升级归档存储软件功能,但相比汹涌澎湃的5G、人工智能、大数据等新兴发展领域而言,数据生命周期管理这个行业,已经是红海了。
8月6日,UCloud正式发布新一代归档存储产品,该产品采用UCloud全新自研存储架构,相较标准存储降低近80%的存储成本,价格低至0.024元/GB/月,与市场同类归档存储产品相比降低近30%成本。要想在一片红海上扬帆远航,想必以中立云定位的UCloud ,对新一代归档存储有着与众不同的想法与战略。
近日全球存储观察的阿明与UCloud优刻得存储平台研发总监吴斌炜进行了深入的探讨。
以下为访谈实录:
一
“ 降低成本,没有最低只有更低!”
问题一:到目前为止,少有厂商在归档存储这个领域推陈出新,UCloud为什么会如此看重归档存储这个领域呢?
吴斌炜:2020年是5G元年,2020年之后的数据增长量很大,其中大部分是冷数据,对于容量性存储的需求自然会越来越明显。据IDC的预测,全球年新增数据量到2025年将达175ZB,真正能存储下来的数据仅有15ZB左右,流失率超过91%。在目前企业数据的冰山模型里,80%的数据量来源于冷数据。
可见,这部分海量的冷数据,有着非常大的数据存储市场潜力可挖。然而,数据存储领域普遍的追求在于低成本和高性能。对于冷数据存储而言,核心自然在成本降低上,降低成本没有最低只有更低。
经过长期的行业调查和技术研发积累,UCloud认为在冷数据存储领域,容量型存储的发展空间还很大。虽然在公有云领域中,已有多个友商早已推出了归档存储产品服务,但在技术层面上还可以实现更低的成本,比如借助SMR磁盘技术,带给用户在冷数据存储方面更好的价值回报。
为此,UCloud新一代归档存储在国内首次采用了西部数据的高密JBOD机型和SMR盘。SMR盘全名为叠瓦式磁记录硬盘,相较于传统CMR硬盘,SMR叠瓦式磁记录硬盘最大的特长在于,磁道按Zone呈现叠瓦式分布,实现更高密度的数据存储。
与36盘位传统机型相比,采用高密机型SMR盘后,单位机架的存储容量提升5.375倍,硬盘数量增加59%,单块硬盘存储空间提升150%。
十分显然,UCloud新一代归档存储产品,为降低大量“冷数据”的存储成本而生。与此同时,UCloud对象存储还可以帮助企业将数据自动化分层存储,这样更利于用户对于冷数据存储的成本管理,也为UCloud在数据生命周期管理这片红海上带来了新机会。
二
“ 技术优化成本,我们是认真的!”
问题二:数据归档对于用户来说,首要考虑是成本。UCloud新一代归档存储在成本上,必然有着自己不同于其他云厂商归档产品的成本优势,主要从哪些方面,通过技术来优化归档存储成本?
吴斌炜:UCloud这些年的发展,对用户需求特别看重,正因为如此,才可以顺应用户的导向赢得在中国公有云领域应有的席位。
我们认为,用户归档存储成本的考量,需要从CAPEX(Capital Expenditure)资本性支出和OPEX(Operating Expense)运营成本两个方面来全面考虑。
在针对CAPEX的存储硬件成本方面,主要包括计算、存储相关资源。归档存储的主要功能聚焦存储,其计算资源消耗相对来说比较少,尽可能将计算资源的成本占比降低。就此,UCloud新一代归档存储采用目前单U密度超高的盘柜技术,实现4U机柜102盘位的高密度部署,同时采用的单盘存储容量尽可能大,而SMR技术也带来了单盘容量的高密度。从机柜设计的JBOD机型高密度到采用SMR单盘的高密度,加大存储密度降低单位成本,处处为突破成本极限而努力。
在针对OPEX的运营成本方面,包括机位成本和运营产生的电费成本、折旧和带宽。折旧和带宽基本是用户固定的消费,因此重点在前两者的成本优化。
其一,降低机位成本,存储密度提高可以带来直接效果。
其二,降低电费成本,采用了UCloud自研的上下电IO调度系统,极大降低电费成本开支,同时保障磁盘的寿命。
归档存储绝大多数场景以写为主,写完数据的磁盘根据我们的调度算法在合适的时机会进行下电spindown操作,在客户读请求来的时候也根据调度算法在合适的时机spinup进行上电操作,这样可以使得硬盘能耗降低近90%, 在纯写入场景下,耗能磁盘块数为原有的5%。
此外,还有三个技术细节对优化成本非常有利。
EC纠删码技术灵活配置,加大冗余,提高数据存储可靠性,这相对多副本技术来说,降低更多多副本带来的存储成本。
UCloud新一代归档存储直接管理裸盘,不经过文件系统,减少开销,沿袭了UCloud在数据存储领域的一贯思路。并且UCloud很早就积累了自研文件系统经验和对裸盘块设备直接操作的经验,不通过通用文件系统来操作SMR盘。在归档存储的场景下,绝大多数是顺序写之后少量的随机读,这时候SMR盘在大容量方面的优势就可以发挥的淋漓尽致。
三
“ 降本增效,更需兼顾可靠性与可用性!”
问题三:除了成本之外,UCloud新一代归档存储最大的竞争力表现在哪里呢?
吴斌炜:降本增效既然已经成为归档存储的一个关键词,那么更需要在兼顾可靠性与可用性的基础上来实现。对于用户来说,不考虑可靠性与可用性的一味降低成本,预示着高风险的存在,并非竞争力的真正体现。
在可靠性方面,UCloud新一代归档存储实现了存储节点双机头可见,在发生故障时,可以快速自动切换。通过采用大比例可灵活配置的EC纠删码技术,提高存储利用率150%。同时通过硬件加速,使EC计算相较于传统的纯软件计算,提升了4~5倍吞吐能力。新一代归档存储还实现了全链路的CRC校验,防止静默错误,元数据冗余,定期Scrub,通过数据一致性检查来全面保障用户数据的安全性。
一般情况下,通过对用户需求的分析来看,归档存储都以写数据为主,读数据的情况比较少, UCloud在确保数据可靠性和服务可用性基础上,将成本优势发挥到极致。
一方面,保证99.9%以上可用性的冗余策略,以及与标准存储相同的99.999999999%数据持久性。
另一方面,相较标准存储降低近80%的存储成本,每月每GB成本降低到了0.024元,突破现有云上归档存储的价格极限。
四
“ 归档数据恢复,实现分钟级激活!”
问题四:归档存储虽然针对归档数据,但是归档数据也需要恢复。在数据恢复方面,UCloud新一代归档存储实现的能力怎么样?
吴斌炜:事实上,任何一个用户做了归档存储,总会有需要读数据的时候,那就必然需要实现成功恢复数据并读取。我们在满足归档存储常规场景下的小时级别数据恢复外,也提供客户分钟级别的紧急读取能力。
UCloud新一代归档存储关于数据恢复的处理逻辑是,将冷数据提取到热数据层,然后用户从热数据层读取。这里主要包含了两件事情,一是通过激活数据到归档存储上层的热存储里面,二是在激活之后进行数据的读取。
UCloud新一代归档存储采用的是高密度机型,决定数据恢复的速度主要来自磁盘个数和带宽大小,理论上来说UCloud可以实现最高50G带宽的速度来激活其中某一个文件。一旦数据达到热存储层的标准存储后,读取数据的速度就更快。
假设针对一个20G大小的文件,可以在分钟级范围内实现数据的读取。云存储的访问速度来自带宽大小的影响很明显,带宽大小一般因人而异,主要在于用户的带宽选择
五
“ 归档也需安全,别忘了安全分级管理!”
问题五:针对数据安全方面特别是加密和权限管理上,UCloud新一代归档存储如何来更好地实现?
吴斌炜:对于数据安全的理解需要综合来看,防止数据泄露,一是来自外部的风险。外部用户非法访问或写入数据,需要通过权限管理模式,设置归档存储用户名和密码,且密码有一定的时效性。
同时,针对用户名密码可能出现的泄露,通过IP白名单来管控;还要配套设置用户名密码时效期,避免和降低泄露风险。此外,设置访问日志记录的管理功能,通过日志审核非法访问进行管理。
二是,用户内容的权限管理。避免内部用户恶意删除等操作,UCloud新一代归档存储有一个管理平台,将使用云存储资源的使用者和管理者实现区分,管理者创建员工使用权限。针对管理者可能潜在的风险,有一个多版本技术,管理者删除不了历史版本,即使遭遇了删除风险,也可以通过多版本的历史版本进行数据恢复。
三是,避免云公司内部员工泄露数据。UCloud新一代归档存储通过公司内部权限管理,配合加密方式来避免风险,用户在客户端可以实现加密,并将密钥提供给服务端加密。当前普遍采取的是客户端加密的方式,用户能够自己保障数据的安全性,也较容易实现和操作。
六
“ 再也不怕天灾不可抗力的破坏了!”
问题六:对于不可抗因素如地震、水灾等突发事件,UCloud新一代归档存储如何通过策略性优化,来保障用户冷数据的安全?
吴斌炜:针对各种极端风险情况,UCloud新一代归档存储提供了跨地域的复制存储功能。一旦某个用户数据可靠性要求很高,存放时间要求比较长,那么就可以采用这个复制功能,将数据通过专线,跨地域异步复制到另外一个地域甚至多个地域去存储数据。这样提升数据的可靠性,避免单个地域存储,出现极端情况下的数据丢失。
七
“ 锁定目标,助力用户积累数据财富!”
问题七:目前来看,哪个或哪几个具体的场景是UCloud新一代归档存储最先需要拓展的方面?
吴斌炜:当前来看,UCloud新一代归档存储可以覆盖三大类数据归档存储需求,即多媒体数据归档、历史数据合规存储,以及大数据、AI分析数据归档。
归档存储应用场景还是比较广泛,不过UCloud新一代归档存储重担锁定在几个领域。
一是互联网领域。在线直播、视频监控目前已逐渐普及,在这些场景中,一个1080P的高清视频存储一天就需要45G的容量,一个视频网站每天产生的数据量可达TB以上。UCloud新一代归档存储结合对象存储在不同存储类型间的生命周期转换功能,可以快速实现数据由热至温再到冷的存储类型转换,完成自动化的数据生命周期管理。
二是大数据领域。像自动驾驶、AI分析等场景产生大量数据,通过UCloud新一代归档存储整体解决方案的实施,这些场景的实时分析数据得以长期归档存储,为未来的产品研发储备研究资料。
三是传统企业领域。传统企业包括医疗、基因工程等领域,有着数据归档的明确政策需求。就肿瘤疾病的基因测序为例,单个患者的DNA样本数据能达到560GB,如果按照每年1800多万的癌症病例来计算,使用基因分析技术后每年就会产生10PB的肿瘤基因样本数据。而中国一家三甲医院每年的影像数据就有20TB左右,全国3万多家医院的数据量,也是非常庞大的数据。UCloud新一代归档存储能够为大量的生物信息数据,以更低的价格、更可靠的方式,提供长期存储。
四是,针对数据的保存率来看,很多用户不是没有产生数据,而是没有很好地保存下来而已,一旦未来某个时候需要这个数据,也就无从查找。同时,业内每年都会发生一些安全性的数据事件,这些也适用于归档存储产品对数据进行长期保存。
此外,随着新基建的深入发展,新技术与新场景不断融合,促进了在线教育、云游戏、自动驾驶、智慧社区、智能制造等新兴行业,将产生越来越多的海量数据。数据归档必然可以为未来挖掘数据生产要素的价值而积累数据财富。
八
“ 新入口新机会,面向未来潜力无限!”
问题八:新一代归档存储对于UCloud的整体业务贡献来看,在你看来可以带来怎样的有利的影响?
吴斌炜:UCloud的发展初衷就是希望通过技术与产品创新,给行业带来不断变化,给用户带来更多价值。
科技发展带来了巨大的机遇,来自5G、物联网、大数据、人工智能等新兴技术多元驱动,让数据变成了用户的重要资产。因此,针对海量冷数据的存储需求,UCloud发展新一代归档存储,配合对象存储、文件存储、数据方舟、新一代云盘等丰富的存储服务,帮助用户避免数据流失和数据管理混乱,把数据冰山改造成数据金山。
小结:期待“冷数据”的更多热思考
历经八问,通过与UCloud专家的交流,让全球存储观察的阿明对UCloud新一代归档存储在“红海”扬帆起航有了更深刻的认识,当然,归档存储好不好,不能只考虑价格成本的单一性,对于用户来说需要考虑生命周期管理的全过程,增加数据资产的利用效率。
听君一席话,胜看十年网。
随着新一代归档存储的发布,UCloud必将引发一场新的云存储格局变化,让我们更好地乐对ZB级的数字化新时代,期待“冷数据”的更多热思考。