abc 发表于 2014-8-5 21:54:40

最大数据仓库——20万块硬盘:120PB

IBM加州阿尔马登研究中心近日打造了一个世上最庞大的数据仓库,总容量高达120PB(120000TB),是此前记录的几乎十倍。仅仅为了跟踪存储文件的文件名、文件类型和其它属性,就需要消耗大约2PB的空间,占总容量的六十分之一。

  这个大型数据仓库由20万块传统机械硬盘联合而成,平均每块容量600GB。即使是面对拥有1500亿个网页的最大规模互联网档案馆WayBack Machine,它也能轻松保存60份。

  实验室的工程师设计了新的硬件和软件技术,将20万块硬盘放进水平推拉的抽屉,然后放置到机架进行安装。为了能够给硬盘降温,IBM将抽屉设计的比我们平常见到的更宽以尽可能多的放进硬盘,并将配满硬盘的抽屉塞进一个液态循环水冷的垂直机架中。在软件方面,IBM精心设计了他们的磁盘奇偶校验和镜像算法,如果单块硬盘发生故障,系统会从其它硬盘读取备份数据并写入到替换后的硬盘中,这就使得这台超级计算机依然能够处理数据。算法会控制数据重建的速度,并能够处理多块硬盘同时损坏的情况。

  IBM存储研究总监Bruce Hillsberg表示,他们的算法使存储系统中的数据能够做到“万年不朽”,同时还不会对性能造成影像。Hillsberg进一步认为,尽管这个120 PB的存储阵列上如今看起来有些“疯狂”,不过对于云计算来说,存储的作用正在愈发显得重要。

  这一阵列目前正在搭建一个即将对外发布的客户端,其有可能用于高性能计算(HPC)项目,来存储大量的建模和仿真数据。包括全球气候模型,地震图形,大型强子对撞机(LHC)以及分子数据和模拟等项目将会从逐步增长的存储空间中受益。

  点评:

  数据储存一直受到设备发热、数据错误、排列密度以及存储介质等方面的限制,一旦突破,将为资源整合化处理提供一个新的平台。

  120PB有多大?

  苹果公司最初推出的5GB iPod广告语“口袋里的1000首歌曲”,照此计算,120PB可以保存大约240亿首歌,平均3分钟一首也得听14万年。

  水冷系统

  使用流动液体作为散热的冷却系统,由散热器、水管及一个水泵组成。散热器内部有多条水道,通过循环流动排出带走CPU运行时产生的热量。

  惠普数据中心

  今年2月,惠普首座风冷数据中心在英格兰东北部小镇温雅德正式开张。惠普将利用该数据中心存储大量企业的数据,从而与IBM等IT服务公司展开竞争。

  数据中心效率

  通过PUE(Power Usage Effectiveness,电源使用效率)来衡量。这一数值是用整个数据中心的总耗电量除以设备本身实际使用的耗电量。
页: [1]
查看完整版本: 最大数据仓库——20万块硬盘:120PB