实时压缩 “瘦身”存储


数据是企业业务运转的基础,业务数据是关乎企业命脉的宝贵资产。随着业务的不断发展以及信息化手段的广泛应用,金融、电信、税务、工商、医疗、政府机构等行业的数据量增长十分惊人。在20 世纪90 年代,一个客户购买1TB 的存储就会被认为是大项目,但是现在个人数据都已经超过了TB 级,从前我们谈大数据量都是以TB 级为单位,而现在有相当一部分企业和机构都拥有PB 级的数据量,例如最近IBM 公司发布了一款磁带库产品,容量已经达到了2.7EB 级(即2700PB)。
CIO 面临的数据维护问题主要涉及存储空间不足、存储维护成本高昂、庞大的数据处理对主机的压力、数据安全等难题。例如,医学影像的存储和传输已经成为各大医疗机构的关键应用,大多数远程医疗系统都是在高速网络上实现的,而Internet 网络速度根本达不到这样的要求,为了能在Internet 上快速传输医学影像,医院必须将数据进行压缩。尽管磁盘价格有所下降,但是过多的磁盘数量也会带来更大的功耗,如电信企业在扩充设备时首先不是申请资金,而是去找电力公司,因为存储设备的耗电量非常大,又处于24 小时运转状态,因而用户越来越关注怎样用更少的磁盘存储更大的数据量。
当前的数据压缩技术主要包括分级压缩、实时压缩及重复数据删除,这几种技术都可以帮助用户实现存储优势。目前数据压缩技术与重复数据删除技术的应用范围有所不同,实时压缩比较适合于生产数据的处理,而重复数据删除主要用于数据的备份,未来随着技术的发展,这两种技术有可能会进行融合。重复数据删除技术本身带有压缩功能,但其目前使用的还是普通的LZH 压缩技术,压缩比能达到2:1,而实时压缩技术能够实现5:1。分级压缩一般采用标准算法进行压缩,这种压缩技术通用性较好,但需要以牺牲性能和压缩比为代价,因此实时数据压缩技术近几年为市场的青睐。
2010 年,IBM 成功收购了一家专注于实时数据压缩技术的公司——Storwize, 并在V7000 存储系统中采用了Storwize 数据压缩技术,通过一个数据压缩引擎对数据进行压缩,压缩后的数据仅相当于原来数据量的20%。IBM 看中Storwize 公司主要是原因是该公司拥有很多专利,仅数据压缩技术方面就有约35 项专利。现在已经完全集成到IBM 产品线当中。Storwize 的技术能够在维持性能的同时实时地压缩主数据——也就是客户正在频繁使用的数据,包括从文件到虚拟化图像再到数据库等多种类型。Storwize 的Random Access Compression Engine (RACE) 是基于行业标准的压缩算法,使用Storwize 的专利技术可实时压缩数据并且不影响性能。通过压缩主数据,Storwize 用户可以在使用相同存储空间的情况下保存多达5倍的数据,防止存储蔓延,并降低能源和冷却成本,同时将相应的交易工作负载速度提高4倍。
IBM Storwize 是一个独立的压缩引擎,安装在所有存储设备的前端,可以支持多种存储设备。实时数据压缩技术的选用对象是IT 应用较成熟、数据累计量巨大的企业。 Storwize 的实时数据压缩功能具有两大最明显的IT和商业效益:一是节省用户购买固态盘的成本,Storwize 的大比例数据压缩技术能够显着减少固态盘或其他磁盘的购买数量。同时,IBM在实时数据压缩与固态盘结合应用方面做了很多研发,例如EasyTier技术就可以自动地将数据在性能较低的盘与固态盘之间迁移,帮助用户花更少的钱达到更高的存储效率;二是能够极大地提高读取数据的效率,通过Storwize 将100TB的数据量压缩成20TB 进行存储,而读取数据时只需读20TB 的数据。普通磁盘读数据,特别是读取小块数据时有一个平均寻道时间,所读的数据越多寻道时间也越长,而经过Storwize 数据压缩之后,相应的寻道时间也缩短了很多,从而极大地提高了效率;第三,在生产环境下,与重复数据删除相比,实时数据压缩的速度更快。重复数据删除需要将所有数据都建立索引,发现重复数据时再进行删除,检索量非常大,所以的生产环境下使用重复数据删除并不是非常合适的选择,相反实时数据压缩技术效率更高,所以更多地被应用于生产环境当中。而在备份过程中,可以将实时压缩后的数据再进行除重,使存储空间的利用率达到最大化。
从技术上看,IBM Storwize 实时数据压缩产品是一项非常实用的技术,虽然目前也有一些厂商拥有数据压缩技术,但大多数都是采用LZH 标准算法,虽然有些厂家也能提供较强的引擎性能,但是没有一家拥有像Storwize 这样如此多的专利技术,这也是IBM Storwize 的绝对优势所在。现在Storwize 还是一台独立的设备,而将来随着技术的推进,有可能会将它集成到存储设备当中去,变成整体存储设备中的标准功能。此外,未来还会将实时数据压缩技术内置到磁盘阵列中去,以提供更高的性能,随着CPU 等核心部件性能的不断提高,实时数据压缩的性能也会进一步提高。