随笔分类 -  hadoop1

something about hadoop1
摘要:1.1. java动态代理java.lang.reflect包下的Proxy(创建代理对象)和InvocationHandler(调用转发)两个类代理对象代表目标对象(target)执行相应的活动静态代理:代理对象实现目标对象一致的接口,实现代理接口和调用转发 (不推荐使用)在调用前后的附加逻辑,体... 阅读全文
posted @ 2014-06-30 23:09 jseven 阅读(394) 评论(0) 推荐(0)
摘要:1. hadoop远程过程调用RPC:XML-RPC,JSON-RPC,CORBA,RMI(Remote Method Invocation),Haoop IPC(进程间通信)RPC原理:允许本地程序(客户端)调用其他机器(服务器)上的过程,客户端使用参数将信息传送给调用方,通过返回值得到消息。RP... 阅读全文
posted @ 2014-06-30 23:00 jseven 阅读(766) 评论(0) 推荐(0)
摘要:1.1. 压缩减少存储空间,加快传输速率在hadoop中,压缩应用于文件存储、Map端到Reduce端的数据交换等情景。hadoop,主要考虑压缩速率和压缩文件的可分割性压缩算法:时间和空间的权衡 更快的压缩和解压缩效率通常压缩比较低。hadoop提供了对压缩算法的编码和解码器类编码和解码示例(采用... 阅读全文
posted @ 2014-06-30 22:57 jseven 阅读(421) 评论(0) 推荐(0)
摘要:1.1. 序列化org.apache.hadoop.io包序列化:将一个对象编码为一个字节流反序列化:相反过程用途:1、 作为一种持久化格式:可存储在硬盘上,供以后反序列化使用2、 作为一种通信数据格式:可在JVM之间,通过网路相互传递3、 复制的机制:深度复制1.1.1. java内建序列化机制:... 阅读全文
posted @ 2014-06-30 22:51 jseven 阅读(495) 评论(0) 推荐(0)
摘要:任何一个复杂的软件系统,为了提高其适应性和扩展性,一般都会有一个配置模块或者配置系统,作完成其扩展、定制的手段和方式。1.1. Windows的配置文件(第一次知道这事啊):采用的是ini后缀的文本文件,可通过动态链接库提供方法进行处理。初始化文件或profile概要文件1.2. Java配置文件:... 阅读全文
posted @ 2014-06-27 08:58 jseven 阅读(243) 评论(0) 推荐(0)
摘要:书籍学习——董西成《Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理》HDFS 高容错,高伸缩性Lucene是引擎开发包,提供了一个纯java的高性能全文检索,可方便的嵌入到各种应用中实现全文搜索/索引功能。Nutch是以Lucene为基础实现的搜索引擎应用,Lu... 阅读全文
posted @ 2014-06-26 19:50 jseven 阅读(467) 评论(0) 推荐(0)
摘要:此次map设计引入了一个自定义的list容器,使map输出时仅输出前几名即可。直接程序代码(引言可参考上一篇): package test;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;i... 阅读全文
posted @ 2014-06-25 08:39 jseven 阅读(334) 评论(0) 推荐(0)
摘要:1、对于排名,一般都是很热衷的,那么如何实现在数据量多的情况下,得到所需要的数据呢,选取前几名的实际应用中,也会有许多,形成统一的算法实现,比着参考就可以了。2、数据文件a.txt:24679643、输出数据为(例如取前三名,前面为数据,后面为名次,名次可通过输入参数配置):9 17 26 34、设... 阅读全文
posted @ 2014-06-25 08:36 jseven 阅读(580) 评论(0) 推荐(1)
摘要:问题导读:1. 推荐系统概述;2. 推荐系统指标设计;3. Hadoop并行算法;4. 推荐系统架构;5. MapReduce程序实现。前言Netflix电影推荐的百万美金比赛,把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛,让企业界和学科界有了更深层次的技术碰撞。引发... 阅读全文
posted @ 2014-06-25 08:28 jseven 阅读(906) 评论(0) 推荐(0)
摘要:1、继承自上一篇,需要参考一下,就去看看。2、增加数据量,实现相同商品ID的依据升序输出数据文件 1.txt:001={001,002,004,006,008} 003={003,002,001,009,004}001={001,002,004,006,008} 004={004,005,006... 阅读全文
posted @ 2014-06-24 08:30 jseven 阅读(489) 评论(0) 推荐(0)
摘要:1、如题,这是自己通过在QQ交流上得到的一个想法。2、数据文件 1.txt:001={001,002,004,006,008} 003={003,002,001,009,004}002={002,003,005,006,008,009,007} 004={004,005,006,009,008,... 阅读全文
posted @ 2014-06-24 08:24 jseven 阅读(374) 评论(0) 推荐(0)
摘要:6、倒排索引 "倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted In... 阅读全文
posted @ 2014-06-18 23:23 jseven 阅读(1455) 评论(0) 推荐(0)
摘要:5、多表关联 多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息。下面进入这个实例。5.1 实例描述 输入是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系,输出"工厂名——地... 阅读全文
posted @ 2014-06-18 22:03 jseven 阅读(459) 评论(0) 推荐(0)
摘要:旧版mapred下面实现方法如下: // 获得输入文件的路径名String path=((FileSplit)reporter.getInputSplit()).getPath().toString();在新版mapreduce中,在map函数中就是Contextcontext.fileName =... 阅读全文
posted @ 2014-06-17 22:55 jseven 阅读(727) 评论(0) 推荐(0)
摘要:恩,说真的,原来的那篇文章对于这个单表处理有点搞复杂了。4、单表关联 前面的实例都是在数据上进行一些简单的处理,为进一步的操作打基础。"单表关联"这个实例要求从给出的数据中寻找所关心的数据,它是对原始数据所包含信息的挖掘。下面进入这个实例。4.1 实例描述 实例中给出child-parent(孩子—... 阅读全文
posted @ 2014-06-17 22:38 jseven 阅读(1069) 评论(0) 推荐(0)
摘要:3.1 实例描述 对输入文件中数据进行就算学生平均成绩。输入文件中的每行内容均为一个学生的姓名和他相应的成绩,如果有多门学科,则每门学科为一个文件。要求在输出中每行有两个间隔的数据,其中,第一个代表学生的姓名,第二个代表其平均成绩。 样本输入: 1)math: 张三 88李四 99王五 66赵六 ... 阅读全文
posted @ 2014-06-17 21:19 jseven 阅读(1233) 评论(0) 推荐(0)
摘要:2.0 数据排序"数据排序"是许多实际任务执行时要完成的第一项工作,比如学生成绩评比、数据建立索引等。这个实例和数据去重类似,都是先对原始数据进行初步处理,为进一步的数据操作打好基础。2.1 实例描述 对输入文件中数据进行排序。输入文件中的每行内容均为一个数字,即一个数据。要求在输出中每行有两个间隔... 阅读全文
posted @ 2014-06-17 20:44 jseven 阅读(1069) 评论(0) 推荐(0)
摘要:1、问题:start-all.sh结果jps发现namenode没有启动,其它进程都启动2、查看日志,没有namenode生产的日志3、奇了,检查其它进程的日志,都在重新连接namenode Zzzzzzz.....4、记得虚拟机是直接关机的,未执行stop-all.sh5、删除tmp目录(metd... 阅读全文
posted @ 2014-06-16 22:47 jseven 阅读(411) 评论(0) 推荐(0)
摘要:"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下... 阅读全文
posted @ 2014-06-15 22:12 jseven 阅读(1919) 评论(1) 推荐(0)
摘要:1、检查空间是否够用(我的就是这个原因) df -hl 查看,如果可用的很少,那就是了。2、datanode是否正常启动 访问:50070,查看datanode的个数,如果不对应,重新启动3、是否在safemode下 hadoop dfsadmin -safemode get,查看,leave... 阅读全文
posted @ 2014-06-15 17:13 jseven 阅读(254) 评论(0) 推荐(0)