2016年1月8日
摘要:
开启关闭: 1、开启kafka服务: bin/kafka-server-start.sh config/server.properties >logs/kafka-server.log 2>&1 & >logs/kafka-server.log :将产生的日志输入到logs/kafka-server.log文件 2>&1:将错误输出的日志重定向为到标准日志输出的文件中 &:最后一个&代表...
阅读全文
posted @ 2016-01-08 19:18
冰上逐狐
阅读(333)
推荐(0)
摘要:
???1、加载程序运行时所需要的外部类: 命令: bin/hadoop jar xxxx.jar /file1 /out –D mapred.input.dir=/test/input1 可以直接指定mapred.input.dir的值 2、文件读取顺序: 应用场景:当处理多个文件中的数据,且数据之间有先后关系 例如: 有两个文件:一个是城市跟手机号的对应数据。一个是手机...
阅读全文
posted @ 2016-01-08 19:06
冰上逐狐
阅读(174)
推荐(0)
2016年1月3日
摘要:
1、MapReduce是一种分布式计算模型2、MapReduce合并了两种经典函数:映射(Mapping):对集合里每一个目标都应用一个操作。例如:如果你想把表单里每个单元格乘以二,那么把这个函数单独地应用在每个单元格上的操作就属于mapping。化简(Reducing):遍历集合中的元素来返回一个...
阅读全文
posted @ 2016-01-03 18:11
冰上逐狐
阅读(183)
推荐(0)
摘要:
需求:使用mapreduce实现文件a.txt中不同单词出现的次数map之前:1):map处理之前的数据我们称为map例:map 在这里我们一次读取一行,行号就相当于k1,行的所有内容相当于v1map阶段:继承org.apache.hadoop.mapreduce.Mapper重写map2)将map...
阅读全文
posted @ 2016-01-03 17:39
冰上逐狐
阅读(767)
推荐(0)
摘要:
mapreduce分为两个阶段:程序在每个节点上的计算和最终结果的汇总。map阶段:1)处理的数据比较大,而且数据都是分布存储在datanode中。2)由于数据量比较大,而java程序比较小,所以将程序放到每一个数据节点上执行会节省数据传输的时间。而且可以实现并行计算,提高效率。reduce阶段:3...
阅读全文
posted @ 2016-01-03 17:38
冰上逐狐
阅读(171)
推荐(0)
摘要:
1、这种方法是说,使用filename作为key,并且file contents作为value。实践中这种方式非常管用。2、和HAR不同的是,这种方式还支持压缩。3、block的压缩在许多情况下都是最好的选择,因为它将多个 records压缩到一起,而不是一个record一个压缩。4、在存储结构上,...
阅读全文
posted @ 2016-01-03 17:36
冰上逐狐
阅读(837)
推荐(0)
摘要:
为什么会出现联盟?一个集群中datanode的存储可以看成是无限制的,而namenode的存储是有限的,当数据过多时,namenode联盟解决了在不同的hdfs之间,datanode的共享问题。共享的是datanode节点,而不是共享的datanode的数据。相当于共享的是这个datanode所在的...
阅读全文
posted @ 2016-01-03 17:34
冰上逐狐
阅读(172)
推荐(0)
2016年1月1日
摘要:
1、什么是分布式文件系统?是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。 2、为什么会有分布式文件系统?数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文...
阅读全文
posted @ 2016-01-01 17:25
冰上逐狐
阅读(343)
推荐(0)
摘要:
1、设置爬虫爬取时间间隔 2、使用代理ip 3、利用分布式,让不同服务器上的爬虫随机抓取不同网站的数据,以延长同一个ip抓取同一网站url的频率。
阅读全文
posted @ 2016-01-01 17:02
冰上逐狐
阅读(179)
推荐(0)
2015年12月26日
摘要:
1:在192.168.80.200服务器上执行这些操作,把这个zookeeper-3.4.5.tar.gz文件上传到服务器上的/usr/local目录下 2:解压:tar -zxvf zookeeper-3.4.5.tar.gz 3:重命名:mv zookeeper-3.4.5 zookeeper 4:cd zookeeper/conf 5:修改配置文件的名称:mv zoo_...
阅读全文
posted @ 2015-12-26 20:27
冰上逐狐
阅读(131)
推荐(0)