hadoop初学(一)

最近项目研究大数据,即开始研究hadoop,主要参考以下几篇文章:

1.微信一篇hadoop的配置文章,我用的是mac,因此是一个all in one的配置,既不是分布式,也不是伪分布式,这点需要改进和学习

2.了解hadoop的map和reduce的过程

3.运行wordcount,先是用自带的统计英文,在研究通过一个java开源类库,分词统计中文文章,但目前还不准确

 

一些命令:

bin/hadoop fs -put file/myTest*.txt hdfsInput

bin/hadoop jar ~/Coding/Java/GitProjects/chinese-word-count/target/chinese-word-count-1.0.0.jar hdfsInput hdfsOutput

 

 

分词插件IKAnalyzer简介:

http://lxw1234.com/archives/2015/07/422.htm

 

wordcount英文统计分词版(自带):

http://www.cnblogs.com/madyina/p/3708153.html

 

wordcount中文分词版:

http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html

 

wordcount词频改进降序

http://blog.csdn.net/xw13106209/article/details/6122719

 

posted @ 2016-03-24 02:12  ronaldo918  阅读(132)  评论(0)    收藏  举报