云计算 - 随笔分类 - yming0221

Hadoop之道--MapReduce简单应用倒排索引(InversedIndex)

摘要：Hadoop版本：1.1.2集成开发平台:Eclipse SDK 3.5.1原创作品，转载请标明：http://blog.csdn.net/yming0221/article/details/9024419倒排索引（Inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由. 阅读全文

posted @ 2013-06-04 20:46 yming0221 阅读(390) 评论(0) 推荐(0)

Hadoop之道--MapReduce之Hello World实例wordcount

摘要：Hadoop版本：1.1.2集成开发平台:Eclipse SDK 3.5.1原创作品，转载请标明：http://blog.csdn.net/yming0221/article/details/90133811. 首先定义DFS Location（具体的环境搭建请看前面的博文）2.下面即是Hello World实例import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; i. 阅读全文

posted @ 2013-06-03 15:24 yming0221 阅读(610) 评论(0) 推荐(0)

从hadoop0.21 到 hadoop1.0.3

摘要：1，HDFS在0.21版本中hdfs-site.xml的配置内容如下：<property><name>dfs.data.dir</name><value>file:///home/hadoop/hdfs/data/</value></property><property><name>dfs.name.dir</name><value>file:///home/hadoop/hdfs/name/</value></property>以上配置在0.21版本阅读全文

posted @ 2013-06-01 00:32 yming0221 阅读(170) 评论(0) 推荐(0)

hadoop参数调优 mapred-site.xm

摘要：propertydefaultdescriptionio.sort.mb100(mb)缓存map中间结果的buffer大小io.sort.record.percent0.05io.sort.mb中用来保存mapoutput记录边界的百分比，其他缓存用来保存数据io.sort.spill.percent0.8map开始做spill操作的阈值io.sort.factor10做merge操作时同时操作的stream数上限。min.num.spill.for.combine3combiner函数运行的最小spill数mapred.compress.map.outputFALSEmap中间结果是否采用压阅读全文

posted @ 2013-05-31 11:40 yming0221 阅读(405) 评论(0) 推荐(0)

yming0221

随笔分类 - 云计算

导航

公告