摘要: git 版本控制系统 一、什么是版本控制系统 1、概念 2、分类 3、基本概念 4、不同版本控制系统优缺点 二、git分布式版本管理系统 三、安装git 四、创建仓库和基本操作 五、git远程仓库 阅读全文
posted @ 2019-04-25 13:16 hsiehchou 阅读(320) 评论(0) 推荐(0) 编辑
摘要: Hadoop Hbase HA 一、Hadoop HA 1、core-site.xml 2、hdfs-site.xml 3、yarn-site.xml 二、Hbase HA 1、hbase-env.sh 2、hbase-site.xml 阅读全文
posted @ 2019-04-25 13:15 hsiehchou 阅读(147) 评论(0) 推荐(0) 编辑
摘要: docker 一、环境配置难题 二、虚拟机 三、Linux容器 四、Docker是什么 五、Docker的用途 1、提供一次性的环境 2、提供弹性的云服务 3、组建微服务架构 六、Docker安装 1、Linux安装 2、windows安装 七、image文件 八、配置阿里云docker镜像加速器 九、安装redis 1、搜索镜像 2、拉取镜像 3、启动redis 4、进入Image的小环境 阅读全文
posted @ 2019-04-25 13:14 hsiehchou 阅读(231) 评论(0) 推荐(0) 编辑
摘要: 内存数据库专题 一、Memcached 1、基本原理和体系架构 2、安装配置MemCached 3、操作MemCached 4、MemCached路由算法 5、MemCached的主主复制和HA 二、Redis 1、Redis简介 2、安装Redis 3、操作Redis 4、Redis的事务:不是真正的事务,是一种模拟 5、Redis锁机制 6、Redis的消息机制:消息系统 7、Redis持久化 8、Redis的主从复制 9、Redis的HA(哨兵机制) 阅读全文
posted @ 2019-04-23 17:50 hsiehchou 阅读(361) 评论(0) 推荐(0) 编辑
摘要: Spark MLlib 一、MLlib概述 1、机器学习算法 2、通信 二、什么是机器学习 1、机器学习的定义 2、基于大数据的机器学习 3、MLlib Spark Graphx 一、Spark Graphx 是什么? 二、Spark GraphX 有哪些抽象? 1、顶点 2、边 3、三元组 4、图 阅读全文
posted @ 2019-04-19 21:40 hsiehchou 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 一、诊断Spark内存使用 1、内存花费 2、如何判断Spark程序消耗内存情况? 二、使用高性能序列化类库 1、数据序列化概述 2、kryo 3、如何使用kryo序列化机制 4、kryo类库的优化 三、优化数据结构 1、概述 2、如何做 四、rdd.cache checkpoint 五、持久化级别 六、Java虚拟机的调优 1、概述 2、Spark GC原理 3、监测垃圾回收 4、优化Executor内存比例 5、Java GC 调优 (-) 七、shuffle原理 1、优化前 2、优化后 八、其他调优 1、提高并行度 2、广播共享数据 阅读全文
posted @ 2019-04-19 21:39 hsiehchou 阅读(110) 评论(0) 推荐(0) 编辑
摘要: 一、Spark Streaming基础 1、什么是 Spark Streaming 2、演示官方的Demo 3、开发自己的NetWorkWordCount程序 二、高级特性 1、什么是DStream?离散流 2、重点算子讲解 3、窗口操作 4、集成Spark SQL: 使用SQL语句来处理流式数据 5、缓存和持久化:和RDD一样 6、支持检查点:和RDD一样 三、数据源 1、基本的数据源 2、高级数据源 四、性能优化的参数 1、减少批数据的执行时间 2、设置正确的批容量 3、内存调优 阅读全文
posted @ 2019-04-19 21:38 hsiehchou 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 一、Spark SQL 基础 1、什么是Spark SQL 2、为什么学习Spark SQL 3、核心概念:表(DataFrame DataSet) 4、创建DataFrame 5、操作DataFrame 6、操作DataSet 7、Spark SQL 中的视图 二、使用数据源 1、使用load函数、save函数 2、Parquet文件 3、json文件 4、JDBC 5、使用Hive 三、在IDE中开发Spark SQL 1、创建DataFrame StructType方式 2、使用case class来创建DataFrame 3、写入mysql 4、使用Spark SQL 读取Hive中的数据,将计算结果存入mysql 四、性能优化 1、把内存中缓存表的数据 2、了解性能优化的相关参数 阅读全文
posted @ 2019-04-12 20:00 hsiehchou 阅读(175) 评论(0) 推荐(0) 编辑
摘要: 一、Spark Core 1、什么是Spark?特点 二、安装和部署Spark、Spark 的 HA 1、spark体系结构 2、spark的搭建 3、Spark的 HA 三、执行Spark的任务:两个工具 1、spark-submit:用于提交Spark的任务 2、spark-shell 相当于REPL 四、WordCount(scala版本和java版本) 1、scala版本的WordCount 2、java版本的WordCount 五、分析Spark的任务流程 1、分析WordCount程序处理过程 2、Spark调度任务的过程 六、RDD和RDD特性、RDD的算子 1、RDD:弹性分布式数据集 2、 算子 3、RDD的集合运算 4、分组操作:reduceByKey 5、cogroup 6、reduce操作(Action) 7、需求:按照value排序 七、RDD的高级算子 1、mapPartitionsWithIndex 2、aggregate 八、编程案例 1、分析日志 2、创建自定义分区 3、使用JDBCRDD 操作 阅读全文
posted @ 2019-04-08 14:09 hsiehchou 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 一、Scala函数式编程 1、复习函数 2、匿名函数 3、高阶函数(带有函数参数的函数) 4、高阶函数的实例 5、概念:闭包、柯里化 二、Scala集合 1、可变集合和不可变集合(Map) 2、列表:可变列表,不可变列表 3、序列 4、集(Set) 5、模式匹配 6、样本类 三、Scala高级特性 1、泛型 1)泛型类 2)泛型函数 3)上界和下界 4)视图界定 View bounds 5)协变和逆变(概念) 2、隐式转换 阅读全文
posted @ 2019-04-08 14:07 hsiehchou 阅读(142) 评论(0) 推荐(0) 编辑