云计算的备份时代 磁带仍在

    xiaoxiao2021-04-19  278

    近日看到一篇博客,谈及是否要“停止使用”磁带归档。作者认为,对企业而言,他们收集的所有数据(包括归档数据)都会潜藏着价值,因此应当将其部署到随机存取介质,即磁盘或闪存,而非磁带当中。作者引述了几个匿名用例来论证他对磁带的认识,在这些用例中,测试开发人员需要快速访问归档数据,或者是要创建个性化的动作视频。

    这些用例的引起了众人的质疑。人们就是否需要如此频繁引用数据争论不已。从技术上讲,情况的确有变,引用IBM的术语,数据已经从静态变为动态,甚至成为热点数据。换而言之,归档平台(不论是否基于磁带)都不再是这些经常受访问的工作负载最适当的数据平台。

    问题不在于我们是否应该取消磁带归档,而是如何刚好地定义、分类哪些数据需要归档,而哪些是活跃的数据。

    活动的归档数据?

    我们先从那篇博客本身,作者介绍了使用磁盘的所谓二级存储,以及三级存储,即使用磁盘或光盘等存储媒介。备份存储市场的供应商在二十一世纪早期开始模糊二、三级存储之间的差异,其中最主要的在于引入了磁盘阵列,用磁盘来取代磁带。主动归档基于同样的逻辑——引入另一种类型的磁盘或闪存平台,在某种程度上其介于主存储与二级存储之间,而磁带存储亦不完全等同于归档文件或离线存储应用。

    你或许和我一样,难以看清其中的含义。以支持重复数据删除的虚拟磁带库为例,这种主动归档平台不使用任何磁带产品,但我确实无法理解其填补了哪一片空白的市场,或是以一种更具成本效益的方案来比成本更低的磁带存储归档数据。

    作者说Hadoop、Spark和Splunk是面向大数据的。其使用对象接口来访问数据,不论是数据块还是结构化文件。这是其论据的基础:随着磁带,以及大多数基于磁盘的NAS产品变得不适合作为分析数据库访问的存储平台,我们必须拥有基于磁盘或闪存的对象存储,从而实现主动归档。

    还有一点可以佐证的是,云端使用的数据访问协议,如Amazon Simple Storage Service(S3),也会针对对象存储进行优化。专业人士一致的观点是,云计算是不可阻挡的。那么,假如企业最终使用基于云的对象存储来实现归档,那么有什么原因会让他们想将数据存放在基于文件的磁带存储归档之中呢?

    云计算同样使用磁带

    最近我发现,云计算环境的搭建者们大量使用磁带,主要原因在于,2025年数据总量预计会超过100 ZB,而磁带是容纳数据洪水的唯一方式,另一个原因在于带宽的限制,需要在适合的时间内在云端实现数据存取。磁带是一种非常不错的“云端播种”方式,数据被转储到磁带,容纳后运送到云存储服务提供商,包含在一个庞大的归档磁带库中。

    至于认为磁带不是适合的托管对象,这也并非是绝对的。磁带与线性磁带文件系统(LTFS)的结合应用使其成为最佳存储候选对象。LTFS是记录诸如视频、人类基因组数据、石油天然气勘探遥测的大块文件的最佳实践,较小的文件则非其所擅长。如Spectra Logic和其他技术所展示的,对象存储提供了一种在LTFS磁带上储存大量小型对象的方式。

    另一种用例是即时视频编辑。诸如StorageDNA这类公司在未来的创新技术有希望使得磁带的数据访问效率比当前大幅提升——在加载磁带盒后,寻求文件启动的最快速度为45毫秒,对现有的归档媒介(LTO)而言只有不到一半的时间。

    磁带仍在

    磁带已死的想法由来已久,最早可追溯自上世纪80年代之后。首先是磁盘的出现,然后是RAID阵列,再后来是SAN,以及云计算。但磁带依然存在,在可以预见的未来仍有市场。

    就这种观点,不如听下StarWind Software是怎么说的。这家企业围绕着软件定义存储和虚拟SAN,推动技术大潮的发展。同时,他们完全承认其虚拟磁带库(VTL)正迅速引起市场的关注。这是一款软件定义的存储设备,使用闪存读取和磁盘阵列,不论硬件还是虚拟机(VM)都可以模拟磁带库的作用。事实上,VTL本质上也支持磁带。换句话说,假如客户想要将数据写入磁带库,可以直接将内容发送到位于Azure或Amazon Web Service的云端。StarWind还提供其用于公有云的VM,用于从你的本地与服务供应商的VTL到VTL传输。

    StarWind和其他VTL供应商,如CA Technologies、Cristalink以及QUADStor Systems都认识到当数据发送到云端之后,其便会变得无所不在。所以让我们接受这个事实,即“磁带未死”,并且清醒地认识到上述的各项策略将是未来数年中我们面对数据海啸所必需准备好的。

    本文转自d1net(转载)


    最新回复(0)