今天是我生日,在博客里放送出2份非常实用的文档。hadoop、hbase批量安装和ganglia安装配置详解。首先第一篇。
hadoop批量安装前先将namenode,Hmaster机器安装完毕。然后准备以下文件
1、hadoop-0.20.2-CDH3B4.tar.gz
2、hbase-0.90.1-CDH3B4.tar.gz
3、hosts
4、profile
5、hbaseconf(这个是hbase中的conf文件夹的拷贝)
6、hadoopconf(这个是hadoop中conf文件夹的拷贝)\
将这些打包成cdh3beta4.tar.gz
以hadoop用户来运行脚本。
脚本一:作用是配置ssh免登陆
confSSH.sh
#!/bin/bash
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
for((i=100;i<115;i++))
do
scp ~/.ssh/id_dsa.pub hadoop@192.168.4.$i:~/
ssh 192.168.4.$i 'mkdir .ssh;
chmod 755 .ssh;
cat id_dsa.pub >>.ssh/authorized_keys;
chmod 644 .ssh/authorized_keys;'
done
脚本二:拷贝安装hadoop,hbase
installHadoop.sh
#!/bin/bash
for((i=102;i<115;i++))
do
scp /home/hadoop/cdh3beta4.tar.gz hadoop@192.168.4.$i:/home/hadoop/
ssh 192.168.4.$i 'tar zxvf cdh3beta4.tar.gz;
cd cdh3beta4;
tar zxzf hadoop-0.20.2-CDH3B4.tar.gz -C /home/hadoop;
tar zxvf hbase-0.90.1-CDH3B4.tar.gz -C /home/hadoop;
ln -s /home/hadoop/hadoop-0.20.2-CDH3B4 /home/hadoop/hadoop;
ln -s /home/hadoop/hbase-0.90.1-CDH3B4 /home/hadoop/hbase;
cp hadoopconf/* /home/hadoop/hadoop/conf/;
cp hbaseconf/* /home/hadoop/hadoop/conf/;'
done
脚本三:安装jdk1.6,配置环境变量,需要以root用户运行
#!bin/bash
for((i=102;i<115;i++))
do
#scp /etc/hosts root@192.168.4.$i:/etc/hosts
#scp /etc/profile root@192.168.4.$i:/etc/profile
ssh 192.168.4.$i 'cp /home/hadoop/cdh3beta4/profile /etc/profile;
source /etc/profile;'
#./jdk-6u24-linux-x64-64bit-rpm.bin
#echo -e "/n"
#rm /usr/lib/jdk
#ln /usr/java/jdk1.6.0_24 /usr/lib/jdk
#cp /home/hadoop/cdh3beta4/hosts /etc/hosts
done
我是采用cdh3版本来完成的批量安装,第一个脚本执行时需要每台机器输入密码,后两个脚本就不需要了,在大量安装hadoop节点时应该很实用。
分享到:
相关推荐
HadoopHA集群 批量启动脚本HadoopHA集群 批量启动脚本HadoopHA集群 批量启动脚本HadoopHA集群 批量启动脚本
本书是Hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行Hadoop集群。 目录 第1章 初识Hadoop 数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统...
利用基准测试程序测试Hadoop集群 Hadoop基准测试程序 用户的作业 云上的Hadoop Amazon EC2上的Hadoop 第10章 管理Hadoop HDFS 永久性数据结构 安全模式 日志审计 工具 监控 日志 度量 Java管理扩展(JMX) 维护 日常...
Terrapin 是 Hadoop 数据服务工具,为批量生成的数据集服务。Terrapin 是低延迟服务系统,提供通过 Hadoop 作业生成,存储在 HDFS 集群的大型数据集随机访问功能。Terrapin 可以从 S3,HDFS 或者直接从 MapReduce ...
大数据技术中的分布式集群计算模式为水环境模拟批量计算提供一种可行的解决方案。探索了水环境数值模型在大数据分布式计算框架下的适应性,提出了一种适用于水环境模拟的大数据分布式集群运算模式,并通过实例验证了...
spark作者博士论文,对spark和hadoop等进行了很详细的对比,并且有一些spark的实例,能让读者对spark的rdd有个比较清楚的认识。
提供⼀个集中的管理机制,所有数据权限 Sentry Hadoop集群元数据和数据存储提供集中、细粒度的访问控制项⽬ 14 数据可视化 Kibana ⽤于和 Elasticsearch ⼀起使⽤的开源的分析与可视化平台 15 数据挖掘 Mahout 基于...
特征支持批量创建ES索引,可以在1-2小时内快速处理数十TB的数据,并解决了构建大量ES索引文件时的低效率问题。 支持计算能力的横向扩展,并方便扩展。 通过增加机器资源,可以进一步提高索引构建速度和处理的数据量...
探讨了与Hadoop的高度集成如何使HBase的可伸缩性变得简单;把大型数据集分布到相对廉价的商业服务器集群中;...助你了解如何调节集群、设计模式、拷贝表、导入批量数据、删除节点以及其他更多的任务等。
MapReduce 是一个软件框架,用以轻松编写处理海量(TB级)数据的并行应用程序,以可靠和容错的方式连接大型集群中上万个节点(商用硬件) MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式...
探讨了与Hadoop的高度集成如何使HBase的可伸缩性变得简单;把大型数据集分布到相对廉价的商业服务器集群中;...助你了解如何调节集群、设计模式、拷贝表、导入批量数据、删除节点以及其他更多的任务等。
探讨了与Hadoop的高度集成如何使HBase的可伸缩性变得简单;把大型数据集分布到相对廉价的商业服务器集群中;...助你了解如何调节集群、设计模式、拷贝表、导入批量数据、删除节点以及其他更多的任务等。
《HBase权威指南》探讨了如何通过使用与HBase高度集成的Hadoop将HBase的可伸缩性变得简单;把大型数据集分布到相对廉价的商业服务器...了解如何调节集群、设计模式、拷贝表、导入批量数据和删除节点等。(仅供学习使用)
批量收集RSS 操作新闻集群(暂不实施) 管理 admin 上的数据(现在不实施) 分类消息(暂不实施) 使用平台(不确定) Hadoop 弹簧靴 大数据技能 可视化 等等 安装 没有准备好 用 行家 弹簧靴 爬虫4j 罗马
离线计算架构 计算⼯具有 Hive、Pig、Spark SQL、Presto、MapReduce ,⽀持 Alluxio 的存储架构,形成了离线计算引擎 Hadoop集群 hadoop实现了⼀个分布式的基础框架,核⼼设计就是:hdfs和mapreduce hdfs分布式存储...
ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架...Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。Spark让开发者可以快速的用Java、Scala
本书探讨了如何通过使用与HBase高度集成的Hadoop将HBase的可伸缩性变得简单;把大型数据集分布到相对廉价的商业服务器集群中;...了解如何调节集群、设计模式、拷贝表、导入批量数据和删除节点等。