随笔分类 - hadoop
学习hadoop中采坑记录
摘要:环境: Cloudera Express 5.12.1 JDK 1.8.0_92 CentOS 7 步骤1:数据导入到Hbase中(非正题,跳过) hbase中表为allDoc,两个Family:fulltext,fileInfo fulltext中就一列:fulltext fileInfo中有如下
阅读全文
摘要:单机搭建了2.6.5的伪分布式集群,写了一个tf-idf计算程序,分词用的是结巴分词,使用standalone模式运行没有任何问题,切换到伪分布式模式运行一直报错: hadoop is running beyond virtual memory limits 大概意思就是使用虚拟内存超出了限制。 网
阅读全文
摘要:学习Hadoop 实现TF-IDF 算法,使用的是CDH5.13.1 VM版本,Hadoop用的是2.6.0的jar包,Maven中增加如下即可 代码如下: 整体实现算是比较简单,第一个MR计算idf,map是统计每个文档出现过的词,都记成1次,然后reducer统计所有的,这样就得到了每一个词的i
阅读全文
摘要:程序运行时出现如下问题: 从网上查资料,有说重启format的。。有说/etc/hosts出问题的。。。 反正都试了一遍。。还是有这个问题 后来看日志,发现问题是访问服务器9001端口访问不到。。开始怀疑自己配置文件有问题。既然是9001,那就肯定是mapred的问题, 看了配置文件内容 也没发现有
阅读全文

浙公网安备 33010602011771号