随笔分类 - Hadoop及周边
摘要:1.kerberos验证 a.下载对应版本JCE(Java Cryptography Extension),解压拷贝local_policy.jar/US_export_policy.jar到$JAVA_HOME//jre/lib/security b.在resource即classes路径下添加h
阅读全文
摘要:1.Hive相关 脚本导数据,并设置运行队列 将毫秒转换为日期 对值类型为JSON的数据进行解析,如下就是一个字段data为json类型,其中的type代表日志类型,查询搜索日志。 JSONArray类型解析 表格有3个字段(asrtext array, asraudiourl string) se
阅读全文
摘要:1.介绍Spark是基于Hadoop的大数据处理框架,相比较MapReduce,Spark对数据的处理是在本地内存中进行,中间数据不需要落地,因此速度有很大的提升。而MapReduce在map阶段和Reduce阶段后都需要文件落地,对于连续的数据处理,就需要写多个MapReduce Job接力执行。...
阅读全文
摘要:使用实例:1.项目结构(引入包hadoop-0.20.2-core.jar和commons-logging.jar)2.代码HdfsCommon.javapublic class HdfsCommon { private Configuration conf; private FileSystem ...
阅读全文
摘要:上篇为体验hadoop采用了伪分布模式配置,本篇为继续深究hadoop来大体把握具体实用中的分布式模式。本文实用VMware建了3个虚拟机运行ubuntu。分别为namenode whuqin1 192.168.64.143datanode whuqin2 192.168.64.144datanod...
阅读全文
摘要:前面总体上认识了HDFS,本文介绍HDFS的使用,主要是对其Java API的介绍,参考hadoop的在线api。1.web访问:http://localhost:50070,查看dfs、nodes。2.命令行调用格式:hadoop fs -command具体命令:[-ls ] [-lsr ] ...
阅读全文
摘要:上文提到MapReduce、HDFS是Hadoop的主要内容。本文简略翻译了,并对hadoop中org.apache.hadoop.mapreduce包的api分析,来概述MapReduce的思想。1.翻译部分MapReduce概念:MapReduce 是一个编程模型,处理和产生大数据集。使用这个模...
阅读全文
摘要:学习一个新技术,个人觉得先总体把握其架构思想,再进行实践,实践中体会反思,效果较好。现在继续上篇hadoop的安装和配置,来学习hadoop的架构和设计。先声明这是转过来的一篇比较老的博文,略加简化,便于复习。1. hadoophadoop是一分布式计算开源框架,最核心的是:MapReduce和HD...
阅读全文
摘要:Hadoop很火,不学不好意思。由于资料很多、书籍很多。本文简略介绍。1.安装ubuntu(或其他linux操作系统,或虚拟机上安装)2.安装jdk,并配置环境变量3.下载hadoop,解压。(http://hadoop.apache.org/,我下载了0.20.2)4.伪分布模式配置伪分布的Had...
阅读全文
浙公网安备 33010602011771号