您好, 访客   登录/注册

Hadoop:是补充而非颠覆

来源:用户上传      作者: 郭嘉凯

  和传统数据库相比,Hadoop在面对超大数据处理时确实有其独到的优势。不过,这并不意味着,Hadoop可以取代数据库。
  在中国象棋里,象是不能过河的。不过,在IT产业中,有一头小象,虽诞生仅仅数年,却已如肋生双翅般穿越激流,振翅欲飞。
  这头小象就是Hadoop!
  诞生于2005年的Hadoop,现在已经成为全球IT产业的宠儿。
  在他的“粉丝”名单中,可以看到一连串IT产业中如雷贯耳的名字:IBM、微软、甲骨文、EMC、GOOGLE、Facebook、Amazon、百度、淘宝、中国移动等等。
  2011年,一些从事Hadoop应用和服务的IT公司,也成为资本追逐的对象:Hadoop开源软件整体方案供应商Cloudera已获得7600万美元投资;分布式架构新成员MapR和Hortonworks则分别融资2900万美元和5000万美元;Hadoop海量数据分析平台Datameer、Karmasphere和Hadapt也分别获得了1000万美元左右投资。
  另外,投资机构Accel Partners还成立了一个总额为1亿美金的大型数据基金,专门用于投资基于Hadoop和其他核心大型数据技术的应用。
  面对Hadoop疯狂的上升势头,一位网友在微博上感叹,“Hadoop在当今是造神的主啊!”
  那么,Hadoop为什么会如此火热呢?
  大数据处理的挑战
  Hadoop之所以如此引人注目,很大程度上是由于用户对于大数据存储、管理和分析需求的日渐迫切。
  事实上,用户对于大数据存储、分析的需求一直以来都存在,但之前,利用传统数据库来对大数据进行处理时,会面临很多难以解决的问题。
  “采用传统数据库对大数据进行处理,对于软、硬件平台的要求都非常高,这将给用户带来十分高昂的成本压力。而且,绝大多数情况下,用户所付出的成本和得到的结果是完全不匹配的,因此很多用户虽然知道大数据处理能够带来很大价值,但因为成本原因只能放弃。”Informatica中国区首席产品顾问但彬向记者分析道。
  另外,大数据时代给传统数据库带来的另一大难题就是非结构化数据的高速增长。而未来几年,非结构化数据在企业数据中所占的比重将越来越大。
  数据显示,至2012年,非结构化数据占有比例将达到互联网整个数据量的75%以上。因此,如何充分发掘和利用非结构化数据背后的商业价值,将成为企业应对剧变的外部环境挑战的有效途径。
  但实际上,面对非结构化数据,有些传统数据库几乎无能为力。
  显然,传统数据库在遭遇大数据时已有些力不从心。而由于大数据处理需求的日渐强烈,用户希望能够以更经济的方式、更好的性能来处理数据,从而能够经济有效地利用快速增长的数据推动业务创新。
  在这样的背景下,Hadoop出现了。
  小象也有大力量
  说起Hadoop的起源,颇有些无心插柳的意味。
  其最初只是雅虎公司用来解决网页搜索问题的一个项目,后来,因为其技术的高效性,被Apache Software Foundation 公司引入并成为开源应用。
  从技术上看,Hadoop由两项关键服务构成:采用Hadoop分布式文件系统(HDFS)的可靠数据存储服务,以及利用一种叫做MapReduce技术的高性能并行数据处理服务。
  这两项服务的共同目标是,提供一个使对结构化和复杂数据的快速、可靠分析变为现实的基础。
  简单地说来,Hadoop是一个可以更容易开发和存储大规模数据的软件平台。用户可以在不了解分布式底层细节的情况下,开发分布式程序,并充分利用集群的威力高速运算和存储。
  “Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。”在但彬看来,“Hadoop有两个重要特性,一是经济性,二是可扩展性。它可以帮助用户快速、低成本地实现大数据的存储、管理及部分使用查询。”
  eBay公司就是Hadoop技术的受益者和忠实粉丝之一。eBay公司体验、搜索和平台副总裁Hugh Williams表示,eBay面对着9PB来自Terabyte集群上的结构化数据以及在“成千上万”节点上运行的Hadoop集群上的非结构化数据。因此,如何处理这些数据就成为困扰eBay的一大难题。
  Hadoop则帮助eBay解决了这一难题。Hugh Williams说,“你可以采用与之前不同的方式来充分使用集群。它允许你大胆创新,并且门槛很低,非常强大。”Williams表示,利用Hadoop技术,eBay工程师可以访问该公司的3亿份清单、历史资料和大量相关信息,“这让我们能够更好地了解客户,并建立他们想要的用户体验。”
  而在过去一年中,eBay也确实使用Hadoop完成了一些非常了不起的事情,其中包括对商品陈列、用户体验和用户使用网站的方式的改善等。例如,eBay工作人员可以看到客户什么时候开始搜索万圣节和圣诞节产品。“我还能告诉你人们在寻找的产品,而在5年以前,我们根本不理解这些数据。”Williams说。
  事实上,Hadoop的一个优势在于它能够对大量数据集进行分析并迅速发现趋势。虽然传统数据库也能够满足很多数据分类和分析需要,但对于超大规模数据集,Hadoop则能够更有效地找出信息。而且,这种优势,可以应用到很多行业,为用户的决策提供有力的数据支持。
  例如,对于一家大型零售商,他们可以利用Hadoop来对Facebook或者Twitter上的用户数据进行分析,以了解上一季流行什么颜色的围巾,然后将分析结果与现在的热门颜色流行趋势相比较,就能够帮助确定本季度销售什么颜色的围巾。
转载注明来源:https://www.xzbu.com/8/view-3631552.htm