hadoop - 随笔分类 - tele

摘要：Mapper Reducer Runner 阅读全文

posted @ 2018-11-20 15:47 tele 阅读(2261) 评论(0) 推荐(1)

摘要：Mappper Reducer Runner ps:需要预先创建表阅读全文

posted @ 2018-11-18 21:23 tele 阅读(2505) 评论(0) 推荐(0)

摘要：MapReduce默认的InputFormat是TextInputFormat,且key是偏移量,value是文本,自定义InputFormat需要实现FileInputFormat,并重写createRecorder方法,如果需要还可以重写isSplitable()来设置是否切片,重写了creat 阅读全文

posted @ 2018-09-21 20:05 tele 阅读(924) 评论(0) 推荐(0)

reduce 阶段遍历对象添加到ArrayList中的问题

摘要：起初遍历values时直接把对象添加到集合中,后来输出结果和预期不符,debug时发现添加到集合中的对象的值全部是最后一个对象的值,网上百度了下,发现是reduce阶段对象重用的问题,reduce阶段的key,value分别指向一个对象,无论操作了多少个键值对,始终是这两个对象,而ArrayList 阅读全文

posted @ 2018-09-19 15:01 tele 阅读(645) 评论(0) 推荐(0)

Mapreduce 订单分组案例

摘要：程序执行流程如下: map()-->getPartition()分区 >write()(序列化,每一行都顺序执行这三个方法) >readFields() >compareTo()排序 >readFields() >分组compare >reduce() 对于每一行的内容,依次执行map()-->ge 阅读全文

posted @ 2018-09-14 20:23 tele 阅读(582) 评论(0) 推荐(0)

MapReduce wordcount 输入路径为目录 java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$POSIX.stat(Ljava/lang/String;)Lorg/apache/hadoop/io/nativeio/NativeIO$POSIX$Stat;

摘要：之前windows下执行wordcount都正常,今天执行的时候指定的输入路径是文件夹,然后就报了如题的错误,把输入路径改成文件后是正常的,也就是说目前的wordcount无法对多个文件操作报的异常是getStat出了问题,也就是说SHELL.WINDOWS是false了,于是猜测是hadoop. 阅读全文

posted @ 2018-09-13 21:17 tele 阅读(1983) 评论(4) 推荐(4)

MapReduce 经典案例手机流量排序的分析

摘要：在进行流量排序之前,先要明白排序是发生在map阶段,排序之后(排序结束后map阶段才会显示100%完成)才会到reduce阶段(事实上reduce也会排序),.此外排序之前要已经完成了手机流量的统计工作,即把第一次mr的结果作为本次排序的输入.也就是说读取的数据格式为手机号上行流量下行流量总阅读全文

posted @ 2018-09-13 15:31 tele 阅读(1280) 评论(0) 推荐(0)

MapReduce 切片机制源码分析

摘要：总体来说大概有以下2个大的步骤 1.连接集群(yarnrunner或者是localjobrunner) 2.submitter.submitJobInternal()在该方法中会创建提交路径,计算切片(writesplits),生成job.xml在路径下,提交job等下面用windows下执行mr 阅读全文

posted @ 2018-09-10 20:07 tele 阅读(715) 评论(0) 推荐(0)

hadoop 3.x 回收站

摘要：使用回收站最主要是为了给误删文件的你留条后路打开core-site.xml添加以下配置这样配置之后,当你删除文件之后就可以在/user/用户名/.Trash下找到删除的文件了,fs.trash.interval的单位是分钟,表示,删除的文件在回收站保存的时间,下面删除a.txt 阅读全文

posted @ 2018-09-08 22:15 tele 阅读(242) 评论(0) 推荐(0)

hadoop 3.x 服役 | 退役数据节点

摘要：在服役前要配置好新增主机的环境变量,ssh等信息,个人环境介绍 hadoop002(namenode),hadoop003(resourcemanager),hadoop004(secondarynamenode),准备新增hadoop005 一.服役数据节点 1.在namenode节点主机下的${ 阅读全文

posted @ 2018-09-05 21:57 tele 阅读(1064) 评论(0) 推荐(0)

hadoop 3.x 关闭安全模式

摘要：hdfs启动后发现进入了安全模式,最开始使用hdfs dfsadmin -safemode leave来进行关闭发现无法关闭,只好使用hdfs dfsadmin -safemode forceExit进行强制关闭,离开安全模式后,就可以上传,删除文件了阅读全文

posted @ 2018-09-03 11:03 tele 阅读(1071) 评论(0) 推荐(0)

执行hdfs namenode -importCheckpoint时出现No image directories available!

摘要：在https://issues.apache.org/jira/browse/HDFS-4705找到了答案需要在hdfs-site.xml中配置这样指定了fsimage的存储目录后,再执行importCheckpoint命令就可以了,需要注意的是要把namesecondary目录拷贝到与name目阅读全文

posted @ 2018-09-03 11:01 tele 阅读(824) 评论(0) 推荐(0)

hadoop 3.x org.apache.hadoop.security.AccessControlException: Permission denied: user=Administrator, access=WRITE, inode="/":tele:supergroup:drwxr-xr-x

摘要：权限不足,上传文件时应当使用启动hadoop的账户,即在获取FileSystem时就应当指定用户修改后的代码阅读全文

posted @ 2018-08-24 18:56 tele 阅读(346) 评论(0) 推荐(0)

maven hadoop 3.x HADOOP_HOME and hadoop.home.dir are unset Not implemented by the WebHdfsFileSystem FileSystem implementation

摘要：具体异常如下: 解决方案: 删除pom文件中的hadoop-core的依赖,原因:hadoop-core是1.x的产物,在2.x之后已经被hadoop-common取代,我配置的时候同时使用了这两个依赖导致jar包冲突. 附上我测试上传用的代码如果下载的过程中出现了 HADOOP_HOME and 阅读全文

posted @ 2018-08-24 18:46 tele 阅读(7712) 评论(0) 推荐(0)

hadoop 3.x 集群/单个节点的启动与停止

posted @ 2018-08-20 21:24 tele 阅读(4839) 评论(0) 推荐(0)

hadoop 3.x 完全分布式集群搭建/异常处理/测试

摘要：共计三台虚拟机分别为hadoop002(master,存放namenode),hadoop003(workers,datanode以及resourcemanage),hadoop004(workers.datanode,secondarynamenode) 1.搭建前的准备(三台虚拟机均已配置好ja 阅读全文

posted @ 2018-08-20 19:06 tele 阅读(1410) 评论(0) 推荐(0)

hadoop 3.x Replication与Availability不一致

摘要：看下面的文字前先确保你的Replication值不大于你设置的虚拟机数量如图,显示的副本数为3,但是实际可用的只有一台机器,查看了下hadoop003,hadoop004两台机器,果然没有存储数据,刚开始以为上传的jdk只有一份是因为在修改副本为3之前创建的,所以只有一份,但是重新上传了一个文件后阅读全文

posted @ 2018-08-20 13:02 tele 阅读(985) 评论(0) 推荐(0)

hadoop 3.x 启动过程中 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password)

摘要：出现这种状况是因为当前账号没有配置ssh免密登录进入到以下目录,查看是否生成过秘钥对,如果有的话直接ssh-copy-id 主机名没有的话执行ssh-keygen -t rsa后再重新执行ssh-copy-id 主机(不要忘记本机),停掉hadoop,重新启动错误消失阅读全文

posted @ 2018-08-19 22:30 tele 阅读(2697) 评论(0) 推荐(0)

hadoop 3.x 配置日志聚集功能

摘要：打开$HADOOP_HOME/etc/hadoop/yarn-site.xml,增加以下配置(在此配置文件中尽量不要使用中文注释) 依次执行以下命令start-dfs.sh,start-yarn.sh.mr-jobhistory-daemon.sh start historyserver启动完毕后j 阅读全文

posted @ 2018-08-18 21:42 tele 阅读(1446) 评论(0) 推荐(0)

hadoop 3.x 配置历史服务器

摘要：修改$HADOOP_HOME/etc/hadoop/mapred-site.xml,加入以下配置(修改主机名为你自己的主机或IP,尽量不要使用中文注释) 依次执行start-dfs.sh,start-yarn.sh后jps查看namenode,datanode等是否启动,成功启动后启动history 阅读全文

posted @ 2018-08-18 21:22 tele 阅读(1995) 评论(0) 推荐(0)

code never lies

随笔分类 - hadoop

公告