随笔分类 - 大数据部分
摘要:1. 元组 映射是K/V对偶的集合,对偶是元组的最简单的形式,元组可以装着多个不同类型的值 1.1 特点 元组相当于一个特殊的数组,其长度和内容都可变,并且数组中可以装任何类型的数据,其主要用处就是存一些类型不同的数据,如定义一个方法,其要返回多个类型不同的值,如果在java中就需要定义一个bean
阅读全文
摘要:具体见第三阶段scala-day01中的文档(scala编程基础 基础语法) 1. 函数式编程(https://www.cnblogs.com/wchukai/p/5651185.html): 将业务逻辑细化,抽象,封装成一个个功能函数,并借助语言自带的高阶函数api,将整个业务流程转化为函数之间的
阅读全文
摘要:1. ZK的监控机制 1.1 监听数据的变化 (1)监听一次 public class ChangeDataWacher { public static void main(String[] args) throws Exception { // 连接并获取zk客户端的对象 ZooKeeper zk
阅读全文
摘要:1. 小文件合并 HDFS中不适合存储大量的小文件,原因如下; 无论文件大小,namenode记录的元数据大小几乎是一致的(1KB的文件与120M的文件在namenode中的元数据都是一样的) namenode的内存有限,记录的元数据条数有限,集群的存储容量受限,所以HDFS不能无限添加datano
阅读全文
摘要:1. MR程序在yarn上运行的基本流程 此篇博客可以看看(https://www.cnblogs.com/kocdaniel/p/11637888.html) (1)client提交作业申请 client向ResourceManager提交job申请 RM创建job任务,并根据申请内容返回相关的信
阅读全文
摘要:0. 补充(查询源代码的操作) (1)ctrl+shift+t 查找某个类 (2)crtl+t查看类的继承结构 (3)ctrl+o 查看类中的方法 1. MR程序数据处理全流程 第一步:FileInputFormat找到指定路径或文件夹(若是文件夹且有多个文件,会开启多个map任务,默认是一个文件用
阅读全文
摘要:1. 案例一: 流量案例 字段一:手机号 字段二:url 字段三:上行流量 字段四:下行流量 1.1 统计每个人的访问量的总流量 思路:以电话这个字段聚合,即以key聚合 map阶段代码如下 public class ViewsMapper extends Mapper<LongWritable,
阅读全文
摘要:1. HDFS的checkpoint机制 namenode的主要职责是记录用户存储数据的数据元信息(元数据),元数据即为存储在HDFS分布式存储系统上的数据的详细记录信息,其包括数据块,文件存储位置,块的大小,副本的个数文件的权限等等 记录元数据的形式有两种 (1)元数据存储在内存中:内存对象(机器
阅读全文
摘要:1.补充配置 1.1 Hadoop的环境变量的配置 vi /etc/profile $PATH:表示取出前面的环境变量的配置,此处前面有java环境变量的配置,所以不需要再配置,若没有则需要 “:” 表示连接符号,功能和windows中的%一样 export: 类似public的作用,扩大作用范围的
阅读全文
摘要:1. 序列化 1.1 概念 数据存储在程序中有两种: (1)存储在内存中,称为内存对象或是内存数据,其为临时的数据 (2)数据是存储在磁盘中,其为永久数据 序列化:将数据结构或对象转换成二进制串的过程 User对象 转换规则 > 10101010 (本质理解:序列化就是数据结构或对象如何转换成二进制
阅读全文
摘要:1. 集群的搭建 1.1 克隆 见day02 1.2 集群的通信 集群间通信通过SSH协议来通信,linux机器模式是带有SSHD的服务端的,但是没有ssh客户端,所以需要安装ssh客户端,从而实现通信 检查yum源挂载是否正确(ls /mnt/dvd(自己的挂载目录)),在每台虚拟机中安装ssh的
阅读全文
摘要:1 linux操作命令补充 1.1 ln连接 ln -s [源文件] [目标文件] :创建软连接 ln [源文件] [目标文件] :创建硬链接 硬链接相当于深拷贝,当源文件删除后目标文件还存在,而软连接相当于浅拷贝,其相当于创建了一个指向源文件的指向,当源文件删除时,目标文件就找不到源文件 1.2
阅读全文
摘要:1. linux基本的操作命令 1..1 linux的目录结构 linux是没有盘符概念的,只有一个最顶层的目录,即 /(根目录),所有的内容都在/目录下,一切皆文件,一切皆命令 /bin: (binaries) 存放系统命令的目录,所有用户都可以执行。 /sbin : (super user bi
阅读全文

浙公网安备 33010602011771号