会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
---江北
冰冻三尺,非一日之寒
博客园
首页
新随笔
联系
管理
上一页
1
···
21
22
23
24
25
26
27
28
29
···
52
下一页
2018年2月2日
大数据入门第八天——MapReduce详解(三)MR的shuffer、combiner与Yarn集群分析
摘要: 1/mr的combiner 2/mr的排序 3/mr的shuffle 4/mr与yarn 5/mr运行模式 6/mr实现join 7/mr全局图 8/mr的压缩 今日提纲 一、流量汇总排序的实现 1.需求 对日志数据中的上下行流量信息汇总,并输出按照总流量倒序排序的结果 2.分析 基本思路:实现自定
阅读全文
posted @ 2018-02-02 09:16 ---江北
阅读(1131)
评论(0)
推荐(0)
2018年2月1日
《大数据原理与应用》——大数据概述
摘要: 1.大数据概念 关键是4V:海量(数据量打)、快速(处理速度快)、多样(数据多样化)、价值(价值密度低,商业价值高) 2.大数据关键技术 两大核心技术: 计算模式: mapreduce等的批处理无法完成高效处理(没有秒级响应) stom等的流计算针对的是秒级响应的处理 Hive等的交互式实时响应 3
阅读全文
posted @ 2018-02-01 19:50 ---江北
阅读(795)
评论(0)
推荐(0)
2018年1月31日
大数据入门第七天——MapReduce详解(二)切片源码浅析与自定义patition
摘要: 一、mapTask并行度的决定机制 1.概述 一个job的map阶段并行度由客户端在提交job时决定 而客户端对map阶段并行度的规划的基本逻辑为: 将待处理数据执行逻辑切片(即按照一个特定切片大小,将待处理数据划分成逻辑上的多个split,然后每一个split分配一个mapTask并行实例处理 这
阅读全文
posted @ 2018-01-31 21:55 ---江北
阅读(1204)
评论(0)
推荐(0)
2018年1月30日
大数据入门第七天——MapReduce详解(一)入门与简单示例
摘要: 一、概述 1.map-reduce是什么 Hadoop MapReduce is a software framework for easily writing applications which process vast amounts of data (multi-terabyte data-
阅读全文
posted @ 2018-01-30 19:32 ---江北
阅读(1177)
评论(0)
推荐(0)
【commons】IO工具类——commons-io之IOUtils
摘要: 本文转载自xingoo: https://www.cnblogs.com/xing901022/p/5978989.html 一、常用静态变量 二、常用方法 copy 这个方法可以拷贝流,算是这个工具类中使用最多的方法了。支持多种数据间的拷贝: copy内部使用的其实还是copyLarge方法。因为
阅读全文
posted @ 2018-01-30 12:50 ---江北
阅读(2062)
评论(0)
推荐(0)
2018年1月29日
大数据入门第六天——HDFS详解
摘要: 一、概述 1.HDFS中的角色 Block数据: HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,之前的版本中是64M 基本存储单位,一般大小为64M(配置大的块主要是因为:1)减少搜寻时
阅读全文
posted @ 2018-01-29 12:06 ---江北
阅读(615)
评论(0)
推荐(0)
2018年1月27日
大数据入门第五天——离线计算之hadoop(下)hadoop-shell与HDFS的JavaAPI入门
摘要: 一、Hadoop Shell命令 既然有官方文档,那当然先找到官方文档的参考:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html 对于3种命令的区别: 以下内容参考自
阅读全文
posted @ 2018-01-27 15:39 ---江北
阅读(780)
评论(0)
推荐(0)
2018年1月26日
大数据入门第五天——离线计算之hadoop(上)概述与集群安装
摘要: 一、概述 根据之前的凡技术必登其官网的原则,我们当然先得找到它的官网:http://hadoop.apache.org/ 1.什么是hadoop 先看官网介绍: The Apache™ Hadoop® project develops open-source software for reliabl
阅读全文
posted @ 2018-01-26 15:39 ---江北
阅读(2976)
评论(0)
推荐(1)
2018年1月21日
Hexo+Github博客搭建
摘要: 一、准备 1.安装git 点击下载:链接:https://pan.baidu.com/s/1eToStns 密码:r93r 安装参考之前随笔:http://www.cnblogs.com/jiangbei/p/7704971.html 2.安装node.js 点击下载:https://nodejs.
阅读全文
posted @ 2018-01-21 12:47 ---江北
阅读(349)
评论(0)
推荐(0)
2018年1月20日
大数据入门第四天——基础部分之轻量级RPC框架的开发
摘要: 一、概述 1、掌握RPC原理 2、掌握nio操作 3、掌握netty简单的api 4、掌握自定义RPC框架 1.RPC是什么 RPC(Remote Procedure Call)—远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存
阅读全文
posted @ 2018-01-20 16:06 ---江北
阅读(753)
评论(0)
推荐(0)
上一页
1
···
21
22
23
24
25
26
27
28
29
···
52
下一页
公告
TOP