hadoop集群批量快速安装

今天是我生日，在博客里放送出２份非常实用的文档。ｈａｄｏｏｐ、ｈｂａｓｅ批量安装和ｇａｎｇｌｉａ安装配置详解。首先第一篇。ｈａｄｏｏｐ批量安装前先将ｎａｍｅｎｏｄｅ，Ｈｍａｓｔｅｒ机器安装完毕。然后准备以下文件１、hadoop-0.20.2-CDH3B4.tar.gz ２、hbase-0.90.1-CDH3B4.tar.gz ３、hosts ４、profile ５、hbaseconf（这个是ｈｂａｓｅ中的ｃｏｎｆ文件夹的拷贝）６、hadoopconf（这个是ｈａｄｏｏｐ中ｃｏｎｆ文件夹的拷贝）＼将这些打包成ｃｄｈ３ｂｅｔａ４．ｔａｒ．ｇｚ以ｈａｄｏｏｐ用户来运行脚本 ...

2011-04-29 12:33
浏览 716
评论(0)

Hbase几种数据入库（load）方式比较

1. 预先生成HFile入库这个地址有详细的说明http://blog.csdn.net/dajuezhao/archive/2011/04/26/6365053.aspx 2. 通过MapReduce入库 /* MapReduce 读取hdfs上的文件，以HTable.put(put)的方式在map中完成数据写入，无reduce过程*/ import java.io.IOException; import org.apache.commons.logging.Log; import org.apache.commons.logging.LogFactory; import or ...

2011-04-29 12:00
浏览 324
评论(0)

将本地文件目录移动（或cp）到hdfs下shell脚本

写了一下脚本，实现了以下功能： 1、保证同一时间只有一个该脚本的实例在运行，避免造成操作冲突 2、移动本地文件目录到hdfs下，目录路径相同 uploadtoHadoop.sh #!/bin/bash #pid=`ps -ef | grep -v grep | grep uploadtoHadoop | awk '{print $2}'` pid=`ps -ef | grep -v grep | grep uploadtoHadoop | wc -l` usage() { ...

2011-04-27 17:06
浏览 423
评论(0)

脚本不输密码执行scp命令（需要expect和send命令）

脚本如下：#!/usr/bin/expect -fset password 密码spawn scp 用户名@目标机器ip:拷贝文件的路径存放本地文件的路径set timeout 300expect "用户名@目标机器ip's password:" #注意：这里的“用户名@目标机器ip” 跟上面的一致set timeout 300send "$password/r"set timeout 300send "exit/r"expect eof附：scp参数-r：拷贝目录-c：允许压缩一个完整的例子#!/usr/bin/expect -fs ...

2011-04-27 16:36
浏览 382
评论(0)

hbase与mapreduce同时运行的问题

在hbase数据写入和mapreduce同时运行时出现hbase regionserver挂掉的问题，同时hdfs上的文件块出现miss。目前看来mapreduce和hbase同时运行时出现的一个问题就是内存竞争，hbase的regionserver在数据录入时需要的内存很大，如果同时开启了mapreduce两者会冲突。另一个问题是对hdfs的复用，两者同时操作hdfs是否会出现硬盘的频繁读写操作。先mark一下，查查原因再来这里继续。后续：在之后我对hbase相关参数和环境进行了调优，避免的region的频繁分裂和合并，减少full gc的频率。通过增加内存为hbase提供 ...

2011-04-19 13:39
浏览 459
评论(0)

SQL到NOSQL的思维转变

http://www.nosqlnotes.net/archives/140 NOSQL系统一般都会宣传一个特性，那就是性能好，然后为什么呢？关系型数据库发展了这么多年，各种优化工作已经做得很深了，NOSQL系统一般都是吸收关系型数据库的技术，然后，到底是什么因素� ...

2011-04-15 20:30
浏览 490
评论(0)

Hbase入库因素小结（停止更新）

一、硬件因素 Ø 内存 Hbase对内存有特别的嗜好，因为内存越大，regionserver接受客户端传递来的数据时可以在内存中做缓存（memstore）以及排序，分配给region等操作的限度更大，相当于利用内存作为缓冲池，组织好hbase需要的数据之后再统一写的顺序写硬盘。 *推荐32GB内存 Ø CPU CPU参与边界计算以及数据排序等操作，当内存非常大时，CPU对内存中数据的组织，排序，边界计算等可能成为瓶颈。 *推荐

2011-04-15 08:17
浏览 768
评论(0)

HBase0.89常用API接口使用

HTable：这个是table对象，通过他来完成对hbase表的各种操作，删除，更新，创建，查询 RowFilter：对rowkey过滤查询的类 QualifierFilter：对子列做过滤查询的类 FilterList：复合filter的实现类 Get：rowkey定位器 Scan：查询扫描器 ResultScanner：查询结果扫描器 Result：单个查询结果 KeyValue：查询结果中的keyvalue原子项 //场景一，通过rowkey，列族，子列直接定位value Configuration conf = Configuration.create( ...

2011-04-14 18:36
浏览 512
评论(0)

Hadoop0.21.0编译手册

目录 Hadoop0.21.0编译手册... 1 1. 安装环境及基本准备... 3 2. 安装Cygwin. 4 3. 编译common模块... 10 A. 导入工程... 10 B. 修改编译器设置... 10 C. 编译工程... 13 4. Hdfs和mapreduce模块编译... 15 5. 验证编译结果... 17 1. 安装环境及基本准备操作系统：windows xp IDE: eclipse JDK：1.6以上版本，需配置好JAVA_HOME以及Path Ant：下载最新版Ant：http://ant.apache.org/bindownlo ...

2011-04-14 13:56
浏览 490
评论(0)

如何根据cpu的processor数来确定程序的并发线程数量

我们可以在cat 里面发现processor数量，这里的processor可以理解为逻辑上的cpu。这里摘抄的一段blog来说明：什么是线程池大小的阻抗匹配原则？我在《常用模型》中提到“阻抗匹配原则”，这里大致讲一讲。如果池中线程在执行任务时，密集计算所占的时间比重为 P （0 < P <= 1），而系统一共有 C 个 CPU，为了让这 C 个 CPU 跑满而又不过载，线程池大小的经验公式 T = C/P。（T 是个 hint，考虑到 P 值的估计不是很准确，T 的最佳值可以上下浮动 50%。）以后我再讲这个经验公式是怎么来的，先验证边界条件的正确性。假设 ...

2011-03-04 15:59
浏览 870
评论(0)

hbase培训ppt

最近在研究hbase，今天要在公司里对hbase做简要介绍，写了一篇ppt。下面整理一下我的演讲思路定位：由于这次演讲是针对普通程序员和nosql相关程序员两个群体同时进行，那么需要兼顾演讲的易理解性，以及部分技术深度。我的思路如下： 1、基于hdfs，继承了可靠性、高性能、可伸缩性。自己又有特点：列存储，实时读写，是一个数据库。 2、数据库系统并不是孤立的，有必要介绍一下他在整个hadoop体系中的位置 3、举例子方便大家理解：mysql-ntfs约=hbase-hdfs 4、 Mapreduce功能很强大，是hadoop和hbase都能用到的分析算法，以后介绍 ...

2011-03-04 15:54
浏览 428
评论(0)

hadoop0.21.0中提供的测试工具

我们常常需要对HDFS或者mapreduce进行一些性能方面的测试，比如测试rpc的性能，测试DFS的IO读写性能，测试DFS的吞吐率性能，测试namenode的benchmark性能，mapreduce的sort性能等等。在hadoop的发行版中，其实已经提供了许多类似的工具，并已经打包成jar，供我们使用。以下是0.20.2中自带的一系列工具列表： DFSCIOTest Distributed i/o benchmark of libhdfs. DistributedFSCheck Distributed checkup of the file system consistency. ...

2011-01-17 15:52
浏览 484
评论(0)

hadoop性能调优的一些笔记

1、同构机器表现优于异构，即使在良好集群中添加差的机器也会整个拖慢集群的效率，可能有些方法进行调整，但是作为私有云最好不用异构 2、入库机器需要大于datanode节点的数量，实测的数据是单节点100MB/s ，2节点实测数据是136MB/s，由于总共就5台机器，所以无法测3节点入库速率。 3、job执行的时候，当跑1.3T的数据时总共耗时3小时40分钟。在5台节点机的情况下相当理想

2011-01-12 15:54
浏览 499
评论(0)

linux一些硬件详情查看的高级方法（网卡，内存，硬盘，cpu）

网卡-lspci 内存大小和个数—— dmidecode|grep -A16 "Memory Device$" 查看硬盘型号——smartctl -a /dev/sda 查看硬盘大小——fdisk -l 查看硬盘挂载——df -h 查看cpu信息——cat /proc/cpuinfo

2011-01-11 15:53
浏览 595
评论(0)

mapreduce中map和reduce的最大并发数量设置

reduce数量究竟多少是适合的。目前测试认为reduce数量约等于cluster中datanode的总cores的一半比较合适，比如cluster中有32台datanode,每台8 core，那么reduce设置为128速度最快。因为每台机器8 core，4个作map,4个作reduce计算，正好合适。以上所说的是总的map和reduce数，那么具体到每台机器的最大并发map/reduce应该就以该机器的cores数/2合适

2011-01-07 15:52
浏览 938
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论