会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
feihao_itboy
博客园
首页
新随笔
联系
管理
订阅
2016年11月18日
scala学习
摘要: Scala是什么Scala是基于JVM的编程语言。Java是运行在jvm上的编程语言,java源代码通过jvm被编译成class文件,然后在os上运行class文件。Scala是运行在jvm上的编程语言,scala源代码通过jvm被编译成class文件,然后在os上运行class文件。 声明值和变量
阅读全文
posted @ 2016-11-18 11:32 feihao_itboy
阅读(148)
评论(0)
推荐(0)
2016年11月17日
kafka学习1
摘要: 1.kafka介绍 Kafka 是分布式发布-订阅消息系统。Kafka 是一个分布式的,可划分的,多订阅者,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。为了已在同时搞定在线应用(消息)和离线应用(数据文件,日志)Kafka 就出现了。Kafka 可以起到两个作用:降低系统组网复杂度降低
阅读全文
posted @ 2016-11-17 11:09 feihao_itboy
阅读(268)
评论(0)
推荐(0)
2016年11月16日
storm学习
摘要: 1.HADOOP与STORM比较数据来源:HADOOP处理的是HDFS上TB级别的数据(历史数据),STORM是处理的是实时新增的某一笔数据(实时数据),处理一些简单的业务逻辑;处理过程:HADOOP是分MAP阶段到REDUCE阶段,STORM是由用户定义处理流程,流程中可以包含多个步骤,每个步骤可
阅读全文
posted @ 2016-11-16 11:08 feihao_itboy
阅读(424)
评论(0)
推荐(0)
2016年10月19日
MapReduce 学习6 ---- hadoop2提交到Yarn: Mapreduce执行过程分析
摘要: hadoop2提交到Yarn: JOB提交过程 http://www.aboutyun.com/forum.php?mod=viewthread&tid=9366&highlight=hadoop2%CC%E1%BD%BB%B5%BDYarn hadoop2提交到Yarn: Map执行过程 http
阅读全文
posted @ 2016-10-19 18:49 feihao_itboy
阅读(543)
评论(0)
推荐(0)
2016年10月11日
MapReduce 学习5 ---- 输出文件学习
摘要: 2.reduce任务处理 2.3 把reduce的输出保存到文件中。 ruduce任务中把数据写到hdfs中使用 context.write(k2, new LongWritable(sum)); 只要分析context,就可以理解如何把数据写到hdfs上
阅读全文
posted @ 2016-10-11 10:56 feihao_itboy
阅读(272)
评论(0)
推荐(0)
2016年10月10日
MapReduce 学习4 ---- 自定义分区、自定义排序、自定义组分
摘要: 1. map任务处理 1.3 对输出的key、value进行分区。 分区的目的指的是把相同分类的<k,v>交给同一个reducer任务处理。 自定义排序,排序是根据k2来进行排序的,k2就需要自己进行自定义类型 自定义分组 为了针对新的key类型作分组,我们也需要自定义一下分组规则: (1)编写一个
阅读全文
posted @ 2016-10-10 22:47 feihao_itboy
阅读(1710)
评论(0)
推荐(0)
MapReduce 学习3-------读取输入文件
摘要: 1. map任务处理1.1 读取输入文件内容,解析成key、value对。对输入文件的每一行,解析成key、value对。每一个键值对调用一次map函数。wcjob.setInputFormatClass(TextInputFormat.class);InputFormat接口提供了两个方法来实现M
阅读全文
posted @ 2016-10-10 16:58 feihao_itboy
阅读(2475)
评论(0)
推荐(0)
MapReduce 学习2 ---- 序列化学习
摘要: hadoop序列化的特点: 序列化格式特点:1.紧凑:高效使用存储空间。2.快速:读写数据的额外开销小3.可扩展:可透明地读取老格式的数据4.互操作:支持多语言的交互 hadoop序列化与java序列化的最主要的区别是:在复杂类型的对象下,hadoop序列化不用像java对象类一样传输多层的父子关系
阅读全文
posted @ 2016-10-10 09:22 feihao_itboy
阅读(459)
评论(0)
推荐(0)
2016年9月25日
MapReduce 学习1
摘要: MapReduce概述MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MapReduce合并了两种经典函数: 映射(Mapping)对集合里的每个目标应用同一个操作。即,如果你想把表单里每个单元格乘以二,那么把这个函数单独地应用在每个单元格上的
阅读全文
posted @ 2016-09-25 21:01 feihao_itboy
阅读(261)
评论(0)
推荐(0)
2016年9月23日
hadoop 3.0.0-alpha1
摘要: 与2.x之间的变化 1.Java的版本由最低java7变化java8 2.HDFS支持纠删码(Erasure Coding) 与副本相比纠删码是一种更节省空间的数据持久化存储方法。标准编码(比如Reed-Solomon(10,4))会有 1.4 倍的空间开销;然而HDFS副本则会有3倍的空间开销。因
阅读全文
posted @ 2016-09-23 17:44 feihao_itboy
阅读(375)
评论(0)
推荐(0)
下一页
公告