solr研究

这些天学习solr，整理了下相关资料，发出来给看看。感谢@信息检索团队的@陈毅，以及好朋友@许琦同学的耐心解答。在此推荐solr学习论坛http://www.solr.cc/ 1. Solr简介历史： Ø 2004年CNET开发Solar，为CNET提供站内搜索服务 Ø 2006年1月捐献给Apache ，成为Apache的孵化项目 Ø 一年后Solr孵化成熟，发布了1.2版，并成为Lucene的子项目 Ø 2010年 6月 solr发布了最新的1.4.1版，这是1.4的bugfix版本 Ø 如今Solr已经广为人知，并且许多公司都已经使用Solr去构建自己的搜索引擎： ...

2013-05-23 09:34
浏览 574
评论(0)

hbase集群表在线调整(TTL/compression)

今天发现hbase集群的hdfs使用量已经接近80%，检查发现一个表数据量特别巨大，该表会记录用户每天的一次活动属性，按照4亿用户*197天，有800亿条的数据存放在表中——4TB，对于一个表来说过于大了。有两个问题：1、未开启� ...

2013-04-16 18:11
浏览 2067
评论(0)

mapreduce中控制mapper的数量

很多文档中描述，Mapper的数量在默认情况下不可直接控制干预，因为Mapper的数量由输入的大小和个数决定。在默认情况下，最终input占据了多少block，就应该启动多少个Mapper。如果输入的文件数量巨大，但是每个文件的size都小于 ...

2013-03-08 17:19
浏览 736
评论(0)

hbase使用、运维、改进(不断更新)

刚刚看了google jeff dean 在新的一年里发表的演讲，讲到各种系统配合使用完成海量数据处理任务。深有感触：http://t.cn/zYE89gn 。2013年，依然会专注hbase研究，并以此为基础扩展，对hbase衍生的一些特性和产品进行深入研究，例如replication、phoenix。从传统的离线计算（hadoop、hive），到实时流式计算系统（storm、s4），创新应用性接口（Impala、phoenix），这些hbase的上下游系统、接口扩展等都要进行全面的了解。以hbase为基础，让各个面向不同使用场景的系统配合起来共同工作，打造大数据处理体系架构。需 ...

2013-03-07 15:27
浏览 816
评论(0)

简单关键词匹配算法

针对微博的短篇博文，编写的简单分词和匹配算法。相对于一篇文档的复杂分词算法，能够在效率和可用性上得到较好的平衡。 package com.sina.tblog.sentiment; import java.io.BufferedReader; import java.io.File; import java.io.FileOutputStream; import java.io.FileReader; import java.io.IOException; import java.io.OutputStreamWriter; import java.util.ArrayList; im ...

2012-12-18 15:17
浏览 678
评论(0)

HBase集群出现NotServingRegionException问题的排查及解决方法

HBase集群在读写过程中，可能由于Region Split或Region Blance等导致Region的短暂下线，此时客户端与HBase集群进行RPC操作时会抛出NotServingRegionException异常，从而导致读写操作失败。这里根据实际项目经验，详细描述这一问题的发现及排查解决过程。 1. 发现问题在对HBase集群进行压力测试过程中发现，当实际写入HBase和从HBase查询的量是平时的若干倍时（集群规模10~20台，每秒读写数据量在几十万条记录的量级），导致集群的读写出现一定程度的波动。具体如下： 1）写端抛出以下异常信息： org.apa ...

2012-11-26 13:50
浏览 604
评论(0)

HBase解决Region Server Compact过程占用大量网络出口带宽的问题

HBase 0.92版本之后，Region Server的Compact过程根据待合并的文件大小分为small compaction和large compaction两种，由此可能导致在集群写入量大的时候Compact占用过多的网络出口带宽。本文将详细描述集群使用过程中遇到这一问题的排查过程及其解决方法。 1. 发现问题 HBase集群（版本为0.94.0）运行过程中，发现5台Region Server的网络出口带宽经常维持在100MB/s以上，接近到网卡的极限；同时Region Server的机器load负载也很高，高峰时候能够达到30~50。 2. 排查问题 1、 ...

2012-11-26 13:49
浏览 584
评论(0)

Hadoop 实战之MapReduce链接作业之预处理

环境：Vmware 8.0 和Ubuntu11.04 Hadoop 实战之MapReduce链接作业之预处理第一步：首先创建一个工程命名为HadoopTest.目录结构如下图: 第二步: 在/home/tanglg1987目录下新建一个start.sh脚本文件，每次启动虚拟机都要删除/tmp目录下的全部文件，重新格式化namenode，代码如下：

2012-11-21 09:49
浏览 564
评论(0)

小小的里程碑，Mark一下

从接触到研究hbase也有1年多的时间了。从之前的了解、安装、使用。到后来的应用开发、性能调优。hbase每次都能带给我不一样的惊喜，无论的并发查询还是数据写入。多维查询还是监控扩展，bulkload扩展。都让我对hbase的能力深信不疑。今天偶尔上JIRA上查询，发现自己提交的一个bug已经被社区采纳并正式进入0.94.2版本，心中还是好好的激动了一把。淘宝的竹庄已经很轻松的hold住hbase来支持双11的海量并发访问400万TPS。facebook也用hbase来构建inbox系统、实时计算系统等。今后hbase在大数据领域的作用会愈发显现。我的路还很长，加油！ ...

2012-11-12 11:29
浏览 470
评论(0)

Apache Hadoop 2.0-alpha发布

Apache Hadoop 2.0-alpha发布了，直接从0.23.x升为2.0版本，让我们再一次被Hadoop版本的混乱无序状态搞晕。本文将解析Hadoop -2.0-alpha中的新特性。相对于Hadoop-1.x版本（为了更全面的描述Hadop 2.0中的新特性，我们没有将之与0.23.x比较），添加了以下几个功能： 1. HDFS HA (manual failover) Hadoop HA分支merge进了该版本，并支持热切，主要特性包括：（1） NN配置文件有改变，使得配置更加简单（2） NameNode分为两种角色：active NN与 s ...

2012-10-30 15:36
浏览 708
评论(0)

HFileInputFormat实现

hbase的底层存储采用的是hfile文件格式，可以作为mr的输入，进行hfile的mr。代码如下： import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.hbase.KeyValue; import org.apache.hadoop.hbase.io.ImmutableBytesWritable; i ...

2012-07-27 16:48
浏览 684
评论(0)

hbase0.94新特性

HBase 0.94 版本最近发布了，距上次的0.92 版本发布又四个月了，下面我们就来看一下这个版本中丰富的功能增强。性能相关读缓存改进: HDFS 将图片和checksum存储在不同的block中的，所以每次我们进行读操作，都需要进行两次磁盘操作（一次读数据文件，一次读checksum所在的文件）。在 HBASE-5074 这个提案中，提出了将checksum存到block 缓存中的想法。在0.94 版本中，这一特性已经是默认开启的了。读文件优化: 在0.94 版本之前，如果一个column family对应了多个StoreFile，那么HBase 会从各个StoreF ...

2012-05-24 13:33
浏览 475
评论(0)

hbase bulkload

bulkload的方式导入数据是hbase的一项相当好的数据导入工具，特别适合做为新系统的历史数据导入工具！hbase本身也封装了相关的类importtsv，官网有简单的介绍http://hbase.apache.org/bulk-loads.html。这里我要说明的是如何去快速定制一些适合自己应用的bulkload。我们一般需要运行的数据有几种格式，txt的用的最普遍，采用lzo压缩过的txt更专业一些，这里举例lzo格式的源文件。以下代码生成hfile package com.sina.hbase.mr; import java.io.IOException ...

2012-04-09 16:41
浏览 670
评论(0)

hbase表结构设计研究（不断更新）

因为一直在做hbase的应用层面的开发，所以体会的比较深的一点是hbase的表结构设计会对系统的性能以及开销上造成很大的区别，本篇文章先按照hbase表中的rowkey、columnfamily、column、timestamp几个方面进行一些分析。最后结合分析如何设计一种适合应用的高效表结构。 1、表的属性 (1)最大版本数：通常是3，如果对于更新比较频繁的应用完全可以设置为1，能够快速的淘汰无用数据，对于节省存储空间和提高查询速度有效果。不过这类需求在海量数据领域比较小众。 (2)压缩算法：可以尝试一下最新出炉的snappy算法，相对lzo来说，压缩率接近，压缩 ...

2012-04-09 16:15
浏览 478
评论(0)

hbase修复.META.表与HDFS文件不一致问题

在实际环境中遇到hbase fbck检查报hdfs数据块与META表信息不一致的错误。表现就是数据写入无法进行。经过检查，发现在.META.表中对应的一些region块的子列少了regioninfo这一列；同时在hdfs的出错region文件夹下查看发现本来该是.regioninfo的文件夹变成了.tmp文件夹。在网上查了些资料，发现是region做分裂的时候失败，导致regioninfo信息丢失，.META.表就无法记录该region的startkey，endkey等信息。淘宝发布了两个补丁，来避免这个错误出现。0.90.5版本已经集成了此修改。HBASE-4562，HBASE- ...

2012-01-01 16:26
浏览 859
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论