第五章 数据处理平台
5.1 Hadoop简介
Hadoop与现在更流行的Storm和Spark,从初学的角度来说更有价值。因为Hadoop内容不止有MapReduce,更有SQL式的Yarn和HDFS这一专为MR开发的文件系统,所以我认为在基础学习阶段它更具代表性。而Storm和Spark,它们的优劣我现在并不清楚,只知道前者适用于处理输入连绵数据,后者适用于复杂MR过程的模型。
5.2 模块部署(单机/集群)
现在部署Hadoop的方式比过去更加容易,就我所知,你可以使用 Cloudera Manager 或者 Puppet 去完成企业级的部署;如果你需要概念证明类的工作,可以直接使用 Hortonworks 的虚拟机镜像 或者 Cloudera的虚拟机镜像 ,或者 MapR ,在接下来的章节中我会使用rpm包进行安装,而不是按照 官方文档 去部署。
Hue:Hadoop User Experience ,即web UI