会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
一y样
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
10
···
13
下一页
2019年11月21日
大数据学习day14-----第三阶段-----scala02------1. 元组 2.类、对象、继承、特质 3.函数(必须掌握)
摘要: 1. 元组 映射是K/V对偶的集合,对偶是元组的最简单的形式,元组可以装着多个不同类型的值 1.1 特点 元组相当于一个特殊的数组,其长度和内容都可变,并且数组中可以装任何类型的数据,其主要用处就是存一些类型不同的数据,如定义一个方法,其要返回多个类型不同的值,如果在java中就需要定义一个bean
阅读全文
posted @ 2019-11-21 00:03 一y样
阅读(246)
评论(0)
推荐(0)
2019年11月19日
大数据学习day13------第三阶段----scala01-----函数式编程。scala以及IDEA的安装,变量的定义,条件表达式,for循环(守卫模式,推导式,可变参数以及三种遍历方式),方法定义,数组以及集合(可变和非可变),数组中常用的方法
摘要: 具体见第三阶段scala-day01中的文档(scala编程基础 基础语法) 1. 函数式编程(https://www.cnblogs.com/wchukai/p/5651185.html): 将业务逻辑细化,抽象,封装成一个个功能函数,并借助语言自带的高阶函数api,将整个业务流程转化为函数之间的
阅读全文
posted @ 2019-11-19 21:15 一y样
阅读(170)
评论(0)
推荐(0)
2019年11月15日
大数据学习day11------hbase_day01----1. zk的监控机制,2动态感知服务上下线案例 3.HDFS-HA的高可用基本的工作原理 4. HDFS-HA的配置详解 5. HBASE(简介,安装,shell客户端,java客户端)
摘要: 1. ZK的监控机制 1.1 监听数据的变化 (1)监听一次 public class ChangeDataWacher { public static void main(String[] args) throws Exception { // 连接并获取zk客户端的对象 ZooKeeper zk
阅读全文
posted @ 2019-11-15 10:22 一y样
阅读(207)
评论(0)
推荐(0)
2019年11月13日
大数据学习day10-----zookeeper--------1.小文件合并,2 输入和输出 3 多路径输出 4.zookeeper(选举机制,安装,zk的shell客户端、java客户端)
摘要: 1. 小文件合并 HDFS中不适合存储大量的小文件,原因如下; 无论文件大小,namenode记录的元数据大小几乎是一致的(1KB的文件与120M的文件在namenode中的元数据都是一样的) namenode的内存有限,记录的元数据条数有限,集群的存储容量受限,所以HDFS不能无限添加datano
阅读全文
posted @ 2019-11-13 21:38 一y样
阅读(248)
评论(0)
推荐(0)
2019年11月11日
大数据学习day09----hadoop--day06-------1.MR程序在yarn上运行的基本流程 2. 数据倾斜解决方案 3.高效topN(指定分区器,分组规则,自定义排序规则)
摘要: 1. MR程序在yarn上运行的基本流程 此篇博客可以看看(https://www.cnblogs.com/kocdaniel/p/11637888.html) (1)client提交作业申请 client向ResourceManager提交job申请 RM创建job任务,并根据申请内容返回相关的信
阅读全文
posted @ 2019-11-11 17:54 一y样
阅读(306)
评论(0)
推荐(0)
2019年11月9日
大数据学习-----day08-----hadoop05-------0.补充(查询源代码的操作)1.MR程序数据处理全流程 2.yarn 3. merger案例(小文件合并)4.数据倾斜 5join案例
摘要: 0. 补充(查询源代码的操作) (1)ctrl+shift+t 查找某个类 (2)crtl+t查看类的继承结构 (3)ctrl+o 查看类中的方法 1. MR程序数据处理全流程 第一步:FileInputFormat找到指定路径或文件夹(若是文件夹且有多个文件,会开启多个map任务,默认是一个文件用
阅读全文
posted @ 2019-11-09 17:09 一y样
阅读(292)
评论(0)
推荐(0)
2019年11月7日
大数据学习day7------hadoop04----1 流量案例 2 电影案例(统计每部电影的均分,统计每个人的均分,统计电影的评论次数,***统计每部电影评分最高的N条记录(Integer.max),统计评论次数最多的n部电影(全局排序)) 3 line线段重叠次数案例 4.索引案例
摘要: 1. 案例一: 流量案例 字段一:手机号 字段二:url 字段三:上行流量 字段四:下行流量 1.1 统计每个人的访问量的总流量 思路:以电话这个字段聚合,即以key聚合 map阶段代码如下 public class ViewsMapper extends Mapper<LongWritable,
阅读全文
posted @ 2019-11-07 15:07 一y样
阅读(589)
评论(0)
推荐(0)
2019年11月5日
大数据学习-----day06----hadoop03-------1. hdfs的checkpoint机制(有一点点疑问); 2 MapReduce
摘要: 1. HDFS的checkpoint机制 namenode的主要职责是记录用户存储数据的数据元信息(元数据),元数据即为存储在HDFS分布式存储系统上的数据的详细记录信息,其包括数据块,文件存储位置,块的大小,副本的个数文件的权限等等 记录元数据的形式有两种 (1)元数据存储在内存中:内存对象(机器
阅读全文
posted @ 2019-11-05 15:27 一y样
阅读(523)
评论(0)
推荐(0)
2019年11月3日
大数据学习---day05----hadoop02--------1补充配置(hadoop的环境变量配置,修改shell客户端默认操作的文件系统为hdfs系统,集群的批量启动(hdfs-site.xml中各参数的详解),查看那么node和datanode的日志信息,namenode和datanode的交互过程)2HDFS的客户端操作(上传,下载等等)
摘要: 1.补充配置 1.1 Hadoop的环境变量的配置 vi /etc/profile $PATH:表示取出前面的环境变量的配置,此处前面有java环境变量的配置,所以不需要再配置,若没有则需要 “:” 表示连接符号,功能和windows中的%一样 export: 类似public的作用,扩大作用范围的
阅读全文
posted @ 2019-11-03 12:07 一y样
阅读(520)
评论(0)
推荐(0)
2019年10月31日
大数据学习----day04------hadoop01------1. 序列化;2. 迭代器;3服务的基本概念;4.Hadoop; 5, HDFS
摘要: 1. 序列化 1.1 概念 数据存储在程序中有两种: (1)存储在内存中,称为内存对象或是内存数据,其为临时的数据 (2)数据是存储在磁盘中,其为永久数据 序列化:将数据结构或对象转换成二进制串的过程 User对象 转换规则 > 10101010 (本质理解:序列化就是数据结构或对象如何转换成二进制
阅读全文
posted @ 2019-10-31 14:22 一y样
阅读(216)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
10
···
13
下一页
公告