为什么管理数十亿的文件如此困难?
国际数据公司(IDC)的一项研究显示,到2025年,全球数据将达到163千兆字节,是2016年的10倍。
IDC早前的一项研究发现,数据每两年翻一番。这很令人兴奋,因为数十亿的数据文件——从人工智能、机器学习以及更传统的方法中生成和收集——可以推动重大的企业创新、客户服务改善和业务增长。
但是随着所有这些企业转换的好处而来的是新的挑战。为什么企业管理数十亿的文件如此困难?
原因一:强调目录
数十亿个文件应用的密度严重强调了任何数据管理应用程序的目录。无论我们讨论的是日常备份和归档,还是一次性灾难恢复,情况都是如此。
企业通常在主存储上保留备份目录。丢失备份目录意味着丢失了获取所有这些数据的方法。为了避免这种严重的问题,企业对其备份进行备份,并保留冗余和单独的备份。这需要大量的IT时间投资。
我想起了一个顾客的故事。这家高频交易公司仅在开发者主目录中就处理了2.5亿个文件。在500兆兆字节的数据使一个超载的Isilon scratch集群不堪重负之后,该公司首次伸出了援助之手。
柯蒂斯·普雷斯顿(Curtis Preston)是一名顾问,人称“史密斯先生”。他说,他经常遇到一种他称之为“百万文件问题”的数据挑战。他分享了一个20g文件系统的例子,由于系统开销太大,需要72小时才能恢复。
原因二:需要的系统
随着文件数量的增加,文件系统的数量也在增加——数十亿个文件通常需要数百个文件系统。无论数据备份是依赖磁带还是磁盘,支持数十亿文件所需的原始系统数量不可避免地会创建数据竖井。磁带固有的设计限制迫使一些企业人为地限制文件系统的大小,增加文件归档器和筒仓数据,以便更好地满足备份期限。
在某些方面,将数据备份到磁盘是对磁带的改进。磁盘更容易管理。但即便如此,它仍然需要管理多个特定于供应商的数据保护竖井,因为文件归档程序只会复制到一个类似的系统。
福布斯科技理事会是一个邀请世界级cio、首席技术官和科技高管的社区。我有资格吗?
理由三:所有的数据
数十亿个文件可以转换成pb字节和更多的数据,而数百亿或数千亿个文件可以转换成数百pb字节的数据。所有这些数据对于企业存储、移动和管理来说都是极其痛苦的。
451 Research的一项调查显示,在这个数据飞速增长的时代,企业存储的最大痛点是数据和容量的增长。企业必须扩展自己的数据中心或使用第三方服务,所有这些都可能既耗时又昂贵。
移动这么多数据还会使为数据而不是为pb构建的软件紧张。传统备份软件在pb级移动数据的需求下苦苦挣扎。像NDMP这样的单线程协议移动大量数据的时间太长,导致扩展的备份窗口干扰用户的工作或进行不完整的备份。
当涉及到管理数百pb的数据时,企业存储的大量数据意味着检索所需的数据本身就是一项艰巨的任务。企业不仅需要存储容量,还需要构建用于处理现代规模数据的应用程序。
原始数据在基础设施层(在存储方面)、网络层(在数据移动方面)和应用程序层(在数据管理方面)带来了许多挑战。
结果呢?压力。技术问题使它受挫。业务用户的压力包括对数据的响应性、稳定性和可靠性的挑战。对于首席财务官来说,经济并没有融入到规模中,而且在规模上管理经济仍然是非常昂贵的。
越来越多的企业开始认识到对更简单的二级存储的巨大需求,其他公司——包括我自己的公司——正在进行创新,以帮助满足这种需求。虽然我的公司Igneous已经为大型文件系统实现了辅助存储的现代化,但是Rubrik和Veeam等公司已经改进了虚拟化工作流,Datos IO等公司正在为NoSQL和Hadoop文件系统进行创新。当涉及到所有这些数十亿的文件时,企业应该有时间来研究数据,而不是必须专注于备份、归档和以其他方式管理数据。