第五章 数据处理平台

5.1 Hadoop简介

Hadoop与现在更流行的Storm和Spark,从初学的角度来说更有价值。因为Hadoop内容不止有MapReduce,更有SQL式的Yarn和HDFS这一专为MR开发的文件系统,所以我认为在基础学习阶段它更具代表性。而Storm和Spark,它们的优劣我现在并不清楚,只知道前者适用于处理输入连绵数据,后者适用于复杂MR过程的模型。

5.2 模块部署(单机/集群)

现在部署Hadoop的方式比过去更加容易,就我所知,你可以使用 Cloudera Manager 或者 Puppet 去完成企业级的部署;如果你需要概念证明类的工作,可以直接使用 Hortonworks 的虚拟机镜像 或者 Cloudera的虚拟机镜像 ,或者 MapR ,在接下来的章节中我会使用rpm包进行安装,而不是按照 官方文档 去部署。

Hue:Hadoop User Experience ,即web UI

单节点部署

集群部署

5.3 本地数据处理

5.4 实时数据处理

5.5 实例

基于Solr和Nutch的搜索引擎

5.6 与Storm/Spark配合使用