对于使用hadoop进行开发的朋友们,可能要自己搭建一套hadoop的运行环境,如果不是经常变动的还好,如果,经常搭建而且还是多台机器,那么我们一个个的安装,就显得有点捉襟见肘了,这也是这个脚本诞生的目的,主要帮助我们在快速搭建hadoop集群,以及安装底层的配置依赖环境如JDK,Maven,Ant等,在安装hadoop前,还有一些关于linux基础的工作需要做,包括SSH无密码登陆和批量用户创建,不过,别担心,散仙已经写好了,大家直接用就OK, 需要的朋友,请点击此处
如果ssh认证搞定和hadoop的用户创建完毕后,我们就可以,执行散仙的脚本进行安装了
说明如下:
- 本脚本的主要作用: 给hadoop的快速大规模的集群分发安装提供了准备,能够很快的完成部分基础设施工作,
- 在这上面我们可以直接配置hadoop,hbase等,然后就能快速使用了。
- 本hadoopsys的安装包,带了如下几种开源框架
- 1,Ant1.9.4
- 2,Maven3.0.5
- 3,JDK1.7u25
- 4,Hadoop2.2.0
- 5,Hbase0.96.2
- 6,Zookeeper3.4.5
- 7,Hive0.13.13
- 全是Java有关的框架,主要目的在于安装Hadoop,其他的都是附带的基本配置
- 本脚本能够快速在Linux上安装JAVA环境,并部署hadoop,其中关于hadoop,hbase和Zookeeper的配置
- 分别在压缩包内的conf目录,关于Hive,暂时没有安装。
- 脚本配置说明:
- 1,第一个要配置的是hosts文件,不是系统的hosts文件,而是我们集群安装的集群ip
- 2,默认的脚本是放在root根目录下,所有的文件压缩包解压到根目录下hadoopsys文件里
- 3,配置etc,hadoopconf文件,hbaseconf文件,zkconf文件,后,执行repack脚本,进行重新
- 打包。
- 4,然后执行pub脚本,进行机器分发压缩包,并解压
- 5,最后执行begin脚本,开始执行安装
- 6,注意一点,在etc/java.sh和begin.sh里面需要设置一个安装用户变量,目的
- 是给指定的用户目录路径下解压安装框架
- 一切完毕之后注意配置hadoop的nd,dd,tmp,hadooptmp,hbasetmp的文件夹,有些需要自己创建,完成之后在主的
- 机器上,进行格式化,然后启动hadoop集群即可。
脚本开发者:三劫散仙 技术交流群:376932160 本脚本的主要作用: 给hadoop的快速大规模的集群分发安装提供了准备,能够很快的完成部分基础设施工作, 在这上面我们可以直接配置hadoop,hbase等,然后就能快速使用了。 本hadoopsys的安装包,带了如下几种开源框架 1,Ant1.9.4 2,Maven3.0.5 3,JDK1.7u25 4,Hadoop2.2.0 5,Hbase0.96.2 6,Zookeeper3.4.5 7,Hive0.13.13 全是Java有关的框架,主要目的在于安装Hadoop,其他的都是附带的基本配置 本脚本能够快速在Linux上安装JAVA环境,并部署hadoop,其中关于hadoop,hbase和Zookeeper的配置 分别在压缩包内的conf目录,关于Hive,暂时没有安装。 脚本配置说明: 1,第一个要配置的是hosts文件,不是系统的hosts文件,而是我们集群安装的集群ip 2,默认的脚本是放在root根目录下,所有的文件压缩包解压到根目录下hadoopsys文件里 3,配置etc,hadoopconf文件,hbaseconf文件,zkconf文件,后,执行repack脚本,进行重新 打包。 4,然后执行pub脚本,进行机器分发压缩包,并解压 5,最后执行begin脚本,开始执行安装 6,注意一点,在etc/java.sh和begin.sh里面需要设置一个安装用户变量,目的 是给指定的用户目录路径下解压安装框架 一切完毕之后注意配置hadoop的nd,dd,tmp,hadooptmp,hbasetmp的文件夹,有些需要自己创建,完成之后在主的 机器上,进行格式化,然后启动hadoop集群即可。
解压后的文件如下:
脚本在最后会打包上传,关于各个安装包,就不上传了,上传的大小有限制,大家可以自己下载对应的版本。
相关推荐
本脚本的主要作用: 给hadoop的快速大规模的集群分发安装提供了准备,能够很快的完成部分基础设施工作, 在这上面我们可以直接配置hadoop,hbase等,然后就能快速使用了。 本hadoopsys的安装包,带了如下几种开源...
简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计...
MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在...
distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝...
Cloudbase的特征是允许程序员使用 ANSI SQL 直接对大规模海量日志文件进行很方便的查询。 以下提出了采用Hadoop云计算技术实现一种标准宽带数据增值业务系统——TelEye,该系统提供集企业数据源收集、数据存储、数据...
Impala是一个现代的,大规模分布,大规模并行的C ++查询引擎,可让您分析,转换和合并来自各种数据源的数据: 同类最佳的性能和可伸缩性。 支持存储在 , 和。 广泛的分析SQL支持,包括窗口函数和子查询。 使用...
Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark在借鉴Hadoop MapReduce优点的同时,很好地解决了MapReduce所面临的问题。 Spark的计算模式也属于MapReduce,但不局限于Map和Reduce...
它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。...
MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。在...
HAWQ Hadoop With Query (是一个Hadoop原生大规模并行SQL分析引擎,针对的是分析性应用) Chukwa Apache Chukwa is an open source data collection system for monitoring large distributed systems. Kudu Kudu ...
MapReduce 的思想核心是“ 分而治之”,适用于大量复杂的任务处理场景(大规模 数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思 想,而不是自己原创。 Map 负责“分”,即把复杂的任务...
Chukwa是建立在Hadoop上的数据收集系统,用以监控和分析大规模的分布式系统。本文介绍了他的设计和初步实施。 3、 Cloud Computing and Grid Computing 360-Degree Compared Ian Foster比较对比了云计算和网格...
Chukwa是建立在Hadoop上的数据收集系统,用以监控和分析大规模的分布式系统。本文介绍了他的设计和初步实施。 3、 Cloud Computing and Grid Computing 360-Degree Compared Ian Foster比较对比了云计算和网格计算...