第五章数据处理平台¶

5.1 Hadoop简介¶

Hadoop与现在更流行的Storm和Spark，从初学的角度来说更有价值。因为Hadoop内容不止有MapReduce，更有SQL式的Yarn和HDFS这一专为MR开发的文件系统，所以我认为在基础学习阶段它更具代表性。而Storm和Spark，它们的优劣我现在并不清楚，只知道前者适用于处理输入连绵数据，后者适用于复杂MR过程的模型。

5.2 模块部署（单机/集群）¶

现在部署Hadoop的方式比过去更加容易，就我所知，你可以使用 Cloudera Manager 或者 Puppet 去完成企业级的部署；如果你需要概念证明类的工作，可以直接使用 Hortonworks 的虚拟机镜像或者 Cloudera的虚拟机镜像，或者 MapR ，在接下来的章节中我会使用rpm包进行安装，而不是按照官方文档去部署。

Hue：Hadoop User Experience ，即web UI

单节点部署¶

集群部署¶

5.3 本地数据处理¶

5.4 实时数据处理¶

5.5 实例¶

基于Solr和Nutch的搜索引擎¶

5.6 与Storm/Spark配合使用¶