- 浏览: 39750 次
最新评论
文章列表
今天是我生日,在博客里放送出2份非常实用的文档。hadoop、hbase批量安装和ganglia安装配置详解。首先第一篇。
hadoop批量安装前先将namenode,Hmaster机器安装完毕。然后准备以下文件
1、hadoop-0.20.2-CDH3B4.tar.gz
2、hbase-0.90.1-CDH3B4.tar.gz
3、hosts
4、profile
5、hbaseconf(这个是hbase中的conf文件夹的拷贝)
6、hadoopconf(这个是hadoop中conf文件夹的拷贝)\
将这些打包成cdh3beta4.tar.gz
以hadoop用户来运行脚本 ...
- 2011-04-29 12:33
- 浏览 729
- 评论(0)
1. 预先生成HFile入库
这个地址有详细的说明http://blog.csdn.net/dajuezhao/archive/2011/04/26/6365053.aspx
2. 通过MapReduce入库
/* MapReduce 读取hdfs上的文件,以HTable.put(put)的方式在map中完成数据写入,无reduce过程*/
import java.io.IOException;
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import or ...
- 2011-04-29 12:00
- 浏览 351
- 评论(0)
写了一下脚本,实现了以下功能: 1、保证同一时间只有一个该脚本的实例在运行,避免造成操作冲突 2、移动本地文件目录到hdfs下,目录路径相同 uploadtoHadoop.sh
#!/bin/bash #pid=`ps -ef | grep -v grep | grep uploadtoHadoop | awk '{print $2}'` pid=`ps -ef | grep -v grep | grep uploadtoHadoop | wc -l` usage() { ...
- 2011-04-27 17:06
- 浏览 441
- 评论(0)
脚本如下:#!/usr/bin/expect -fset password 密码spawn scp 用户名@目标机器ip:拷贝文件的路径 存放本地文件的路径set timeout 300expect "用户名@目标机器ip's password:" #注意:这里的“用户名@目标机器ip” 跟上面的一致set timeout 300send "$password/r"set timeout 300send "exit/r"expect eof附:scp参数-r:拷贝目录-c:允许压缩一个完整的例子#!/usr/bin/expect -fs ...
- 2011-04-27 16:36
- 浏览 395
- 评论(0)
在hbase数据写入和mapreduce同时运行时出现hbase regionserver挂掉的问题,同时hdfs上的文件块出现miss。
目前看来mapreduce和hbase同时运行时出现的一个问题就是内存竞争,hbase的regionserver在数据录入时需要的内存很大,如果同时开启了mapreduce两者会冲突。
另一个问题是对hdfs的复用,两者同时操作hdfs是否会出现硬盘的频繁读写操作。
先mark一下,查查原因再来这里继续。
后续:在之后我对hbase相关参数和环境进行了调优,避免的region的频繁分裂和合并,减少full gc的频率。通过增加内存为hbase提供 ...
- 2011-04-19 13:39
- 浏览 471
- 评论(0)
http://www.nosqlnotes.net/archives/140
NOSQL系统一般都会宣传一个特性,那就是性能好,然后为什么呢?关系型数据库发展了这么多年,各种优化工作已经做得很深了,NOSQL系统一般都是吸收关系型数据库的技术,然后,到底是什么因素 ...
- 2011-04-15 20:30
- 浏览 498
- 评论(0)
一、硬件因素
Ø 内存
Hbase对内存有特别的嗜好,因为内存越大,regionserver接受客户端传递来的数据时可以在内存中做缓存(memstore)以及排序,分配给region等操作的限度更大,相当于利用内存作为缓冲池,组织好hbase需要的数据之后再统一写的顺序写硬盘。
*推荐32GB内存
Ø CPU
CPU参与边界计算以及数据排序等操作,当内存非常大时,CPU对内存中数据的组织,排序,边界计算等可能成为瓶颈。
*推荐
- 2011-04-15 08:17
- 浏览 777
- 评论(0)
HTable:这个是table对象,通过他来完成对hbase表的各种操作,删除,更新,创建,查询
RowFilter:对rowkey过滤查询的类
QualifierFilter:对子列做过滤查询的类
FilterList:复合filter的实现类
Get:rowkey定位器
Scan:查询扫描器
ResultScanner:查询结果扫描器
Result:单个查询结果
KeyValue:查询结果中的keyvalue原子项
//场景一,通过rowkey,列族,子列直接定位value
Configuration conf = Configuration.create( ...
- 2011-04-14 18:36
- 浏览 522
- 评论(0)
目录
Hadoop0.21.0编译手册... 1
1. 安装环境及基本准备... 3
2. 安装Cygwin. 4
3. 编译common模块... 10
A. 导入工程... 10
B. 修改编译器设置... 10
C. 编译工程... 13
4. Hdfs和mapreduce模块编译... 15
5. 验证编译结果... 17
1. 安装环境及基本准备
操作系统:windows xp
IDE: eclipse
JDK:1.6以上版本,需配置好JAVA_HOME以及Path
Ant:下载最新版Ant:http://ant.apache.org/bindownlo ...
- 2011-04-14 13:56
- 浏览 502
- 评论(0)
我们可以在cat 里面发现processor数量,这里的processor可以理解为逻辑上的cpu。
这里摘抄的一段blog来说明:
什么是线程池大小的阻抗匹配原则? 我在《常用模型》中提到“阻抗匹配原则”,这里大致讲一讲。
如果池中线程在执行任务时,密集计算所占的时间比重为 P (0 < P <= 1),而系统一共有 C 个 CPU,为了让这 C 个 CPU 跑满而又不过载,线程池大小的经验公式 T = C/P。(T 是个 hint,考虑到 P 值的估计不是很准确,T 的最佳值可以上下浮动 50%。)
以后我再讲这个经验公式是怎么来的,先验证边界条件的正确性。
假设 ...
- 2011-03-04 15:59
- 浏览 892
- 评论(0)
最近在研究hbase,今天要在公司里对hbase做简要介绍,写了一篇ppt。下面整理一下我的演讲思路
定位:由于这次演讲是针对普通程序员和nosql相关程序员两个群体同时进行,那么需要兼顾演讲的易理解性,以及部分技术深度。
我的思路如下:
1、 基于hdfs,继承了可靠性、高性能、可伸缩性。自己又有特点:列存储,实时读写,是一个数据库。
2、 数据库系统并不是孤立的,有必要介绍一下他在整个hadoop体系中的位置
3、 举例子方便大家理解:mysql-ntfs约=hbase-hdfs
4、 Mapreduce功能很强大,是hadoop和hbase都能用到的分析算法,以后介绍
...
- 2011-03-04 15:54
- 浏览 438
- 评论(0)
我们常常需要对HDFS或者mapreduce进行一些性能方面的测试,比如测试rpc的性能,测试DFS的IO读写性能,测试DFS的吞吐率性能,测试namenode的benchmark性能,mapreduce的sort性能等等。在hadoop的发行版中,其实已经提供了许多类似的工具,并已经打包成jar,供我们使用。以下是0.20.2中自带的一系列工具列表:
DFSCIOTest
Distributed i/o benchmark of libhdfs.
DistributedFSCheck
Distributed checkup of the file system consistency. ...
- 2011-01-17 15:52
- 浏览 495
- 评论(0)
1、同构机器表现优于异构,即使在良好集群中添加差的机器也会整个拖慢集群的效率,可能有些方法进行调整,但是作为私有云最好不用异构
2、入库机器需要大于datanode节点的数量,实测的数据是单节点100MB/s ,2节点实测数据是136MB/s,由于总共就5台机器,所以无法测3节点入库速率。
3、job执行的时候,当跑1.3T的数据时总共耗时3小时40分钟。在5台节点机的情况下相当理想
- 2011-01-12 15:54
- 浏览 516
- 评论(0)
网卡-lspci 内存大小和个数—— dmidecode|grep -A16 "Memory Device$" 查看硬盘型号——smartctl -a /dev/sda 查看硬盘大小——fdisk -l 查看硬盘挂载——df -h
查看cpu信息——cat /proc/cpuinfo
- 2011-01-11 15:53
- 浏览 612
- 评论(0)
reduce数量究竟多少是适合的。目前测试认为reduce数量约等于cluster中datanode的总cores的一半比较合适,比如cluster中有32台datanode,每台8 core,那么reduce设置为128速度最快。因为每台机器8 core,4个作map,4个作reduce计算,正好合适。
以上所说的是总的map和reduce数,那么具体到每台机器的最大并发map/reduce应该就以该机器的cores数/2合适
- 2011-01-07 15:52
- 浏览 949
- 评论(0)