feihao_itboy

2016年11月18日

摘要： Scala是什么Scala是基于JVM的编程语言。Java是运行在jvm上的编程语言，java源代码通过jvm被编译成class文件，然后在os上运行class文件。Scala是运行在jvm上的编程语言，scala源代码通过jvm被编译成class文件，然后在os上运行class文件。声明值和变量阅读全文

posted @ 2016-11-18 11:32 feihao_itboy 阅读(156) 评论(0) 推荐(0)

2016年11月17日

kafka学习1

摘要： 1.kafka介绍 Kafka 是分布式发布-订阅消息系统。Kafka 是一个分布式的，可划分的，多订阅者,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。为了已在同时搞定在线应用（消息）和离线应用（数据文件，日志）Kafka 就出现了。Kafka 可以起到两个作用：降低系统组网复杂度降低阅读全文

posted @ 2016-11-17 11:09 feihao_itboy 阅读(272) 评论(0) 推荐(0)

2016年11月16日

storm学习

摘要： 1.HADOOP与STORM比较数据来源：HADOOP处理的是HDFS上TB级别的数据(历史数据)，STORM是处理的是实时新增的某一笔数据(实时数据)，处理一些简单的业务逻辑；处理过程：HADOOP是分MAP阶段到REDUCE阶段，STORM是由用户定义处理流程，流程中可以包含多个步骤，每个步骤可阅读全文

posted @ 2016-11-16 11:08 feihao_itboy 阅读(430) 评论(0) 推荐(0)

2016年10月19日

MapReduce 学习6 ---- hadoop2提交到Yarn： Mapreduce执行过程分析

摘要： hadoop2提交到Yarn： JOB提交过程 http://www.aboutyun.com/forum.php?mod=viewthread&tid=9366&highlight=hadoop2%CC%E1%BD%BB%B5%BDYarn hadoop2提交到Yarn： Map执行过程 http 阅读全文

posted @ 2016-10-19 18:49 feihao_itboy 阅读(596) 评论(0) 推荐(0)

2016年10月11日

MapReduce 学习5 ---- 输出文件学习

摘要： 2.reduce任务处理 2.3 把reduce的输出保存到文件中。 ruduce任务中把数据写到hdfs中使用 context.write(k2, new LongWritable(sum)); 只要分析context，就可以理解如何把数据写到hdfs上阅读全文

posted @ 2016-10-11 10:56 feihao_itboy 阅读(283) 评论(0) 推荐(0)

2016年10月10日

MapReduce 学习4 ---- 自定义分区、自定义排序、自定义组分

摘要： 1. map任务处理 1.3 对输出的key、value进行分区。分区的目的指的是把相同分类的<k,v>交给同一个reducer任务处理。自定义排序，排序是根据k2来进行排序的，k2就需要自己进行自定义类型自定义分组为了针对新的key类型作分组，我们也需要自定义一下分组规则：（1）编写一个阅读全文

posted @ 2016-10-10 22:47 feihao_itboy 阅读(1729) 评论(0) 推荐(0)

MapReduce 学习3-------读取输入文件

摘要： 1. map任务处理1.1 读取输入文件内容，解析成key、value对。对输入文件的每一行，解析成key、value对。每一个键值对调用一次map函数。wcjob.setInputFormatClass(TextInputFormat.class);InputFormat接口提供了两个方法来实现M 阅读全文

posted @ 2016-10-10 16:58 feihao_itboy 阅读(2492) 评论(0) 推荐(0)

MapReduce 学习2 ---- 序列化学习

摘要： hadoop序列化的特点：序列化格式特点：1.紧凑：高效使用存储空间。2.快速：读写数据的额外开销小3.可扩展：可透明地读取老格式的数据4.互操作：支持多语言的交互 hadoop序列化与java序列化的最主要的区别是：在复杂类型的对象下，hadoop序列化不用像java对象类一样传输多层的父子关系阅读全文

posted @ 2016-10-10 09:22 feihao_itboy 阅读(468) 评论(0) 推荐(0)

2016年9月25日

MapReduce 学习1

摘要： MapReduce概述MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题. MapReduce合并了两种经典函数：映射（Mapping）对集合里的每个目标应用同一个操作。即，如果你想把表单里每个单元格乘以二，那么把这个函数单独地应用在每个单元格上的阅读全文

posted @ 2016-09-25 21:01 feihao_itboy 阅读(267) 评论(0) 推荐(0)

2016年9月23日

hadoop 3.0.0-alpha1

摘要：与2.x之间的变化 1.Java的版本由最低java7变化java8 2.HDFS支持纠删码(Erasure Coding) 与副本相比纠删码是一种更节省空间的数据持久化存储方法。标准编码(比如Reed-Solomon(10,4))会有 1.4 倍的空间开销；然而HDFS副本则会有3倍的空间开销。因阅读全文

posted @ 2016-09-23 17:44 feihao_itboy 阅读(386) 评论(0) 推荐(0)

公告