*逍遥*

代码改变世界!!!

随笔分类 -  大数据之路

study big data, go for it!
linux中du与df的区别和联系
摘要:1,两者区别 du,disk usage,是通过搜索文件来计算每个文件的大小然后累加,du能看到的文件只是一些当前存在 的,没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。 df,disk free,通过文件系统来快速获取空间大小的信息,当我们删除一个文件的时候,这个文件不 是马 阅读全文

posted @ 2017-09-17 10:26 *逍遥* 阅读(30443) 评论(0) 推荐(0)

mr微博内容推荐
摘要:第二次迭代 第三次迭代 阅读全文

posted @ 2017-09-13 11:15 *逍遥* 阅读(231) 评论(0) 推荐(0)

mr实现pagerank
摘要:PageRank计算什么是pagerankPageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的PageRank实现了将链接价值概念作为排名因素。 PageRank计算算法原理(1)入链 阅读全文

posted @ 2017-09-12 09:01 *逍遥* 阅读(406) 评论(0) 推荐(0)

上传到HDFS上的文件遇到乱码问题
摘要:1.通过eclipse中的hdfs插件上传文件,上传成功,但是查看是乱码。 查阅文件本身的编码方式,发现是utf-8,同时文件在项目目录下,显示正常,因为我把它的编码格式也设成了utf-8。 2.通过xftp将文件上传到linux中,通过vi命令查看文件,显示正常。 3.通过hadoop fs /o 阅读全文

posted @ 2017-09-10 10:07 *逍遥* 阅读(4742) 评论(0) 推荐(1)

mr统计每年中每月温度的前三名
摘要:weatherMapper package com.laoxiao.mr.weather; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Calendar; import ja 阅读全文

posted @ 2017-09-09 15:25 *逍遥* 阅读(418) 评论(0) 推荐(0)

MR执行环境有两种
摘要:本地测试环境(windows): 在windows的hadoop目录bin目录有一个winutils.exe 1、在windows下配置hadoop的环境变量 2、拷贝debug工具(winutils.ext)到HADOOP_HOME/bin 3、修改hadoop的源码 ,注意:确保项目的lib需要 阅读全文

posted @ 2017-09-08 16:32 *逍遥* 阅读(303) 评论(0) 推荐(0)

org.apache.hadoop.security.AccessControlException
摘要:在hdfs集群上,需要向Hdfs写入文件,控制台会输出以下错误信息: Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission den 阅读全文

posted @ 2017-09-08 16:10 *逍遥* 阅读(480) 评论(0) 推荐(0)

导航