2016 年 5月随笔档案 - 草莓干123456

运用MRUnit测试mapper和reducer

摘要：MRUnit可以花费时间少，并且可以分别测试mapper和reducer 步骤： 1、运用MRUnit测试mapper和reducer 2、执行mapreduce代码的本地化测试 3、使用hadoop日志 4、通过计数器跟踪执行指标 Testing Mapper的过程 1、实例化mapdi 阅读全文

posted @ 2016-05-29 15:13 草莓干123456 阅读(455) 评论(0) 推荐(0)

java程序，用于mapreduce处理数据

摘要：1、通过传统的key-value类分析数据创建key类时，所有key都要继承writablecomparable接口 public class sendorkey implements writablecomparable { default constructor+parameterized c 阅读全文

posted @ 2016-05-29 14:53 草莓干123456 阅读(244) 评论(0) 推荐(0)

secondary namenode和namenode的区别

摘要：Secondary NameNode:它究竟有什么作用？在Hadoop中，有一些命名不好的模块，Secondary NameNode是其中之一。从它的名字上看，它给人的感觉就像是NameNode的备份。但它实际上却不是。很多Hadoop的初学者都很疑惑，Secondary NameNode究竟是做阅读全文

posted @ 2016-05-23 21:22 草莓干123456 阅读(9077) 评论(0) 推荐(1)

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/cli/ParseException

摘要：在使用mapreduce运行jar包时，系统所有程序突然关闭。我找不到log信息，就直接在eclipse中运行程序看是否有错，报错： Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/cli/ 阅读全文

posted @ 2016-05-23 21:01 草莓干123456 阅读(11226) 评论(0) 推荐(0)

用MapReduce处理数据

摘要：1.打开eclipse，创建一个新的Java Project；选择“Configure Build Path”，选择Library标签，Add External JARs，选择Apache/Hadoop 1.0.4文件夹，选择下列jar文件：（备注：选择的jar视情况而定，参考链接http://ww 阅读全文

posted @ 2016-05-23 20:52 草莓干123456 阅读(285) 评论(0) 推荐(0)

MapReduce简介

摘要：MapReduce: 概念：MapReduce主要是分布式编程的一个编程模型优势： 1、允许我们处理输入输出的限制 2、他是个无共享架构，每个节点可以并行处理该节点上的数据，无需包含其他节点的运行情况 3、他能高效处理可能因为硬件问题造成的各种执行故障 4、数据局部性，就是说代码找到数据所在节点阅读全文

posted @ 2016-05-22 18:21 草莓干123456 阅读(336) 评论(0) 推荐(0)

遍历两个pandas列 iterate through two pandas columns

摘要：使用for filePath,content in corpos.itertuples(index=False)遍历两行数据问题：在遍历pandas进行分词时，并将修改后的文本写入源文件一开始使用for content in corpos['content']，虽然content有遍历，但是f 阅读全文

posted @ 2016-05-20 13:25 草莓干123456 阅读(3079) 评论(0) 推荐(0)

python字频统计

摘要：中文信息处理课，老师让写个字频统计的程序，我能够写出来，但是运行速度很慢。希望路过的大神给我提点意见。 import osimport os.pathimport codecsimport pandasimport numpyimport jieba #创建词库corpos = pandas.Da 阅读全文

posted @ 2016-05-20 13:10 草莓干123456 阅读(883) 评论(0) 推荐(0)

hbase shell 命令

摘要：1、首先要打开hbase,使用jps查看进程 jps是java进程状态工具，它会返回进程ID和服务名称 chen@ubuntu:~/Apache/hbase-0.94.15-security$ jps 3082 NameNode 6245 HRegionServer 3493 JobTracker 阅读全文

posted @ 2016-05-19 22:41 草莓干123456 阅读(253) 评论(0) 推荐(0)

本地安装hbase

摘要：在本地安装hbase时遇到以下问题，均已解决： 1.在开启hbase之前，要先开启hadoop，我错误的重新格式化namenode，促使namenode和datanode的id不一致，并且错误的修改了etc/hosts的内容，导致在重新格式化的时候，无法识别我的主机名映射ip，导致开启后的hadoo 阅读全文

posted @ 2016-05-17 21:06 草莓干123456 阅读(390) 评论(1) 推荐(0)

草莓干123456

05 2016 档案

公告