hadoop1 - 随笔分类(第2页) - jseven

Hadoop技术内幕HDFS-笔记5之动态代理

摘要：1.1. java动态代理java.lang.reflect包下的Proxy（创建代理对象）和InvocationHandler（调用转发）两个类代理对象代表目标对象（target）执行相应的活动静态代理：代理对象实现目标对象一致的接口，实现代理接口和调用转发（不推荐使用）在调用前后的附加逻辑，体... 阅读全文

posted @ 2014-06-30 23:09 jseven 阅读(394) 评论(0) 推荐(0)

Hadoop技术内幕HDFS-笔记4之远程调用

摘要：1. hadoop远程过程调用RPC：XML-RPC，JSON-RPC，CORBA，RMI（Remote Method Invocation）,Haoop IPC(进程间通信)RPC原理：允许本地程序（客户端）调用其他机器（服务器）上的过程，客户端使用参数将信息传送给调用方，通过返回值得到消息。RP... 阅读全文

posted @ 2014-06-30 23:00 jseven 阅读(766) 评论(0) 推荐(0)

Hadoop技术内幕HDFS-笔记4之压缩

摘要：1.1. 压缩减少存储空间，加快传输速率在hadoop中，压缩应用于文件存储、Map端到Reduce端的数据交换等情景。hadoop，主要考虑压缩速率和压缩文件的可分割性压缩算法：时间和空间的权衡更快的压缩和解压缩效率通常压缩比较低。hadoop提供了对压缩算法的编码和解码器类编码和解码示例（采用... 阅读全文

posted @ 2014-06-30 22:57 jseven 阅读(421) 评论(0) 推荐(0)

Hadoop技术内幕HDFS-笔记3之序列化

摘要：1.1. 序列化org.apache.hadoop.io包序列化：将一个对象编码为一个字节流反序列化：相反过程用途：1、作为一种持久化格式：可存储在硬盘上，供以后反序列化使用2、作为一种通信数据格式：可在JVM之间，通过网路相互传递3、复制的机制：深度复制1.1.1. java内建序列化机制：... 阅读全文

posted @ 2014-06-30 22:51 jseven 阅读(495) 评论(0) 推荐(0)

Hadoop技术内幕HDFS-笔记2

摘要：任何一个复杂的软件系统，为了提高其适应性和扩展性，一般都会有一个配置模块或者配置系统，作完成其扩展、定制的手段和方式。1.1. Windows的配置文件（第一次知道这事啊）：采用的是ini后缀的文本文件，可通过动态链接库提供方法进行处理。初始化文件或profile概要文件1.2. Java配置文件：... 阅读全文

posted @ 2014-06-27 08:58 jseven 阅读(243) 评论(0) 推荐(0)

Hadoop技术内幕HDFS-笔记1

摘要：书籍学习——董西成《Hadoop技术内幕深入解析HADOOP COMMON和HDFS架构设计与实现原理》HDFS 高容错，高伸缩性Lucene是引擎开发包，提供了一个纯java的高性能全文检索，可方便的嵌入到各种应用中实现全文搜索/索引功能。Nutch是以Lucene为基础实现的搜索引擎应用，Lu... 阅读全文

posted @ 2014-06-26 19:50 jseven 阅读(467) 评论(0) 推荐(0)

hadoop1-TopK问题实现之优化设计

摘要：此次map设计引入了一个自定义的list容器，使map输出时仅输出前几名即可。直接程序代码（引言可参考上一篇）： package test;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;i... 阅读全文

posted @ 2014-06-25 08:39 jseven 阅读(334) 评论(0) 推荐(0)

hadoop1-TopK问题实现

摘要：1、对于排名，一般都是很热衷的，那么如何实现在数据量多的情况下，得到所需要的数据呢，选取前几名的实际应用中，也会有许多，形成统一的算法实现，比着参考就可以了。2、数据文件a.txt：24679643、输出数据为（例如取前三名，前面为数据，后面为名次，名次可通过输入参数配置）：9 17 26 34、设... 阅读全文

posted @ 2014-06-25 08:36 jseven 阅读(580) 评论(0) 推荐(1)

hadoop1-构建电影推荐系统

摘要：问题导读：1. 推荐系统概述；2. 推荐系统指标设计；3. Hadoop并行算法；4. 推荐系统架构；5. MapReduce程序实现。前言Netflix电影推荐的百万美金比赛，把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛，让企业界和学科界有了更深层次的技术碰撞。引发... 阅读全文

posted @ 2014-06-25 08:28 jseven 阅读(906) 评论(0) 推荐(0)

hadoop1-商品推荐之商品关联性最简易建模2

摘要：1、继承自上一篇，需要参考一下，就去看看。2、增加数据量，实现相同商品ID的依据升序输出数据文件 1.txt：001={001,002,004,006,008} 003={003,002,001,009,004}001={001,002,004,006,008} 004={004,005,006... 阅读全文

posted @ 2014-06-24 08:30 jseven 阅读(489) 评论(0) 推荐(0)

hadoop1-商品推荐之商品关联性最简易建模1

摘要：1、如题，这是自己通过在QQ交流上得到的一个想法。2、数据文件 1.txt：001={001,002,004,006,008} 003={003,002,001,009,004}002={002,003,005,006,008,009,007} 004={004,005,006,009,008,... 阅读全文

posted @ 2014-06-24 08:24 jseven 阅读(374) 评论(0) 推荐(0)

hadoop 倒排索引

摘要：6、倒排索引 "倒排索引"是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词（或词组）在一个文档或一组文档中的存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因而称为倒排索引（Inverted In... 阅读全文

posted @ 2014-06-18 23:23 jseven 阅读(1455) 评论(0) 推荐(0)

hadoop 多表关联

摘要：5、多表关联多表关联和单表关联类似，它也是通过对原始数据进行一定的处理，从其中挖掘出关心的信息。下面进入这个实例。5.1 实例描述输入是两个文件，一个代表工厂表，包含工厂名列和地址编号列；另一个代表地址表，包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系，输出"工厂名——地... 阅读全文

posted @ 2014-06-18 22:03 jseven 阅读(459) 评论(0) 推荐(0)

hadoop Map中获取当前spilt文件名

摘要：旧版mapred下面实现方法如下： // 获得输入文件的路径名String path=((FileSplit)reporter.getInputSplit()).getPath().toString();在新版mapreduce中，在map函数中就是Contextcontext.fileName =... 阅读全文

posted @ 2014-06-17 22:55 jseven 阅读(727) 评论(0) 推荐(0)

hadoop 单表关联

摘要：恩，说真的，原来的那篇文章对于这个单表处理有点搞复杂了。4、单表关联前面的实例都是在数据上进行一些简单的处理，为进一步的操作打基础。"单表关联"这个实例要求从给出的数据中寻找所关心的数据，它是对原始数据所包含信息的挖掘。下面进入这个实例。4.1 实例描述实例中给出child-parent（孩子—... 阅读全文

posted @ 2014-06-17 22:38 jseven 阅读(1069) 评论(0) 推荐(0)

hadoop 平均成绩

摘要：3.1 实例描述对输入文件中数据进行就算学生平均成绩。输入文件中的每行内容均为一个学生的姓名和他相应的成绩，如果有多门学科，则每门学科为一个文件。要求在输出中每行有两个间隔的数据，其中，第一个代表学生的姓名，第二个代表其平均成绩。样本输入： 1）math：张三 88李四 99王五 66赵六 ... 阅读全文

posted @ 2014-06-17 21:19 jseven 阅读(1233) 评论(0) 推荐(0)

hadoop 数据排序

摘要：2.0 数据排序"数据排序"是许多实际任务执行时要完成的第一项工作，比如学生成绩评比、数据建立索引等。这个实例和数据去重类似，都是先对原始数据进行初步处理，为进一步的数据操作打好基础。2.1 实例描述对输入文件中数据进行排序。输入文件中的每行内容均为一个数字，即一个数据。要求在输出中每行有两个间隔... 阅读全文

posted @ 2014-06-17 20:44 jseven 阅读(1069) 评论(0) 推荐(0)

namenode未启动

摘要：1、问题：start-all.sh结果jps发现namenode没有启动，其它进程都启动2、查看日志，没有namenode生产的日志3、奇了，检查其它进程的日志，都在重新连接namenode Zzzzzzz.....4、记得虚拟机是直接关机的，未执行stop-all.sh5、删除tmp目录（metd... 阅读全文

posted @ 2014-06-16 22:47 jseven 阅读(411) 评论(0) 推荐(0)

hadoop数据去重

摘要："数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述对数据文件中的数据进行去重。数据文件中的每行都是一个数据。样例输入如下... 阅读全文

posted @ 2014-06-15 22:12 jseven 阅读(1919) 评论(1) 推荐(0)

could only be replicated to 0 nodes, instead of 1

摘要：1、检查空间是否够用（我的就是这个原因） df -hl 查看，如果可用的很少，那就是了。2、datanode是否正常启动访问：50070，查看datanode的个数，如果不对应，重新启动3、是否在safemode下 hadoop dfsadmin -safemode get,查看，leave... 阅读全文

posted @ 2014-06-15 17:13 jseven 阅读(254) 评论(0) 推荐(0)

随笔分类 - hadoop1

公告