深入观察企业中的Hadoop应用#(对hadoop的认识)

fangcloud 449 2022-06-04

本文转载自网络公开信息

这是2013年三月份在欧洲举办的HadoopSummit(Hadoop峰会)上的一场主题讨论。讨论的题目叫《Real World Insight Into Hadoop inthe Enterprise》,即《深入观察企业中的Hadoop应用》。 深入观察企业中的Hadoop应用

讨论除了主持人之外,邀请了三位嘉宾:

第一位是Alex,他是汇丰银行(HSBC)的代表,在HSBC的投资银行部门负责架构和功能设计。他自称在这次讨论中扮演的是保守而谨慎的一方。因为HSBC对Hadoop的采用还处于非常初级的阶段,去年他们做了很多测试。第二位是Min,他来自eBay,据称eBay拥有全球最大的Hadoop集群之一。第三位是Mike,来自NewStar(音译,我也没去查)。他们从2年半前开始采用Hadoop。最初想要解决的问题是要把他们产生的大量数据100%地保存一年。而在采用Hadoop之前,他们只能将1%左右的数据保存60多天。他们原来的EDW架构师基于Netezza和Oracle的。他们只是减少了一点点Oracle的许可证和Netezza的维护费用之后,就利用这些资金建立起了Hadoop集群,现在已经能把全部数据完好地保存一年以上了。在谈到最初实施Hadoop的项目都有什么心得体会时:Mike表示通过Hadoop来存储数据是一个很好的起点。他们不仅采用了Hadoop,而且进行了数据仓库的过渡,即全面采用开源,将Netezza迁移到开源数据库。他们大概有不到3PB的数据量。Min 表示eBay从2007年开始采用Hadoop,现在eBay拥有的是共享集群(ShareCluster),存储能力达到几十PB,计算能力达到几万核。对于运营和管理这么大的一个集群来说,Hadoop的自动化非常重要。另外一点是将所有的东西都放到共享集群里非常好,这样能降低运营成本。 Alex表示业务需求每天都在变化,所以HSBC需要的是一个敏捷而稳定的数据分发(Data Delivery)平台。以往的项目(RDBMSETL)造成了企业没有统一的数据仓库,数据保存在多个DW中。然而公司需要知道的内容往往是跨越所有运营平台的。所以HSBC需要一个统一的平台,在此之上数据和流程都能融合在一起。他们做的测试是将原来存在于服务器集群(ServerFarm)下的3个数据仓库和15个数据集市的数据都迁移到一个Hadoop平台中。他们花了六周的时间来完成数据迁移和整合的工作,因为以前需要几个月的工作,现在几周就能完成;以前需要几周的工作,现在几天就可以完成。当然,他们也开发了一个速查表,用于模式(Schema)的更新等。商业价值体现在节省成本上,以前传统技术需要60颗CPU才能完成的事情,他们现在用40%的CPU就能完成得更多更高效。所以在CIO都面临预算紧张的今天,对预算的优化分配无疑是有利的。Mike也表示三年前1TB数据的成本是100K美元,在用了Netezza之后变成好几百万美元/TB,但是采用了Hadoop之后就降到了500美元/TB。大家都同意降低成本的驱动力使得Hadoop能够被采用。在谈到采用Hadoop是技术驱动还是业务驱动时(即是技术上先采用Hadoop然后再解决别的业务问题,还是先有业务问题然后再通过选型决定采用Hadoop),Alex表示两者都有。技术上需要分析和eBay差不多量级的数据,还包括要改进管控能力,等等。传统的技术可以进行扩展,但是成本将会非常巨大。从业务的角度上来说,他们需要完善内部和外部的数据流,同时成本也是很重要的考虑。在谈到如何通过Hadoop技术来发挥价值时,Mike谈到了他们的三阶段目标。用主持人的话说,就是首先要通过数据来帮助业务,其次是要让数据来驱动业务,最终是要通过数据来改变业务,这样公司才能得到根本性的转变。在谈了一些他们和社区的互动之后,又谈到了Hadoop是否在企业中成为共享服务或共享平台的问题,即让Hadoop成为集中统一数据平台的问题。Mike表示他们已经是共享服务了。NewStar需要三个分支机构都能拥有同一愿景,像一个公司一样运营,而Hadoop在这方面起了很大的作用。大家就可以使用共享之后的数据,然后把知识也进行共享。eBay的分支机构更多。Min表示他们确实看到了聚合成共享集群的需求。从某种意义上来说,他们已经是共享服务了。很多生产任何和研究任务都在共享集群中运行。虽然如此,对于任务关键型的,有极高SLA要求的应用程序,eBay还是采用了专用集群的方式。例如在eBay的新搜索引擎中,他们用Hadoop来构建搜索索引,需求是要进行近乎实时的更新,这就意味着没几分钟就要进行一次Map-Reduce的任务,这个任务也需要在几分钟内结束。对于这种场景,eBay还是通过专用集群来解决的。Min表示Hadoop还有很多工作需要做,才能真正成为多租户(Multi-tendency)的集群。Hadoop不可能替换掉企业所有的数据基础架构,所以Hadoop是如何与企业基础架构进行集成的呢?Alex表示,HSBC也希望做成共享服务,但是对安全性,灾难恢复和高可用的选项还持有一定的保留意见。所以,他们可能一开始会让Hadoop作为一个预处理的平台出现,连接各种数据源,从而能够让数据存进去,取出来。主持人总结了三种Hadoop的用例:

吸纳信息; 针对Hadoop集群直接分析; 把Hadoop中的信息推送至交互式应用中。 Mike的全部数据服务团队只有8个人,除了要照顾Postgre数据库和Hadoop外,还要维护Netezza和Oracle。除了易于操作、与交互式查询引擎协同工作外,Mike还希望Hadoop有更好的治理(Governance)能力。怎样进行数据分片,怎样实施各种规则,谁能访问这些数据,使用怎样的元数据等等。 Min表示除了这些希望之外,Min希望第一能提升生产力。在eBay,如果要用Hadoop,则先需要登录一个代理终端。如果能通过Eclipse之类的工具来访问就能提高很多生产力。其次,Min希望Hadoop的一些基础性提升。其中一项就是让HDFS和HBASE更好支持多租户。第三是灾难恢复。希望能有跨数据中心的高度一致存储层,能很好地应对数据中心的失败。第四是操作和管理的简易型。最后,三位都给了一些建议。Alex建议大家动手测试一下。Min也是这样建议的。Mike则建议大家要勇敢。

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表亿方云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱daifeng@360.cn 处理。
上一篇:Oracle企业版和标准版的区别(oracle数据库标准版和企业版区别)
下一篇:企业信息化能力自检指南(信息化自查报告)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~