hsiehchou

2019年4月25日

摘要： git 版本控制系统一、什么是版本控制系统 1、概念 2、分类 3、基本概念 4、不同版本控制系统优缺点二、git分布式版本管理系统三、安装git 四、创建仓库和基本操作五、git远程仓库阅读全文

posted @ 2019-04-25 13:16 hsiehchou 阅读(334) 评论(0) 推荐(0)

摘要： Hadoop Hbase HA 一、Hadoop HA 1、core-site.xml 2、hdfs-site.xml 3、yarn-site.xml 二、Hbase HA 1、hbase-env.sh 2、hbase-site.xml 阅读全文

posted @ 2019-04-25 13:15 hsiehchou 阅读(157) 评论(0) 推荐(0)

Docker入门操作

摘要： docker 一、环境配置难题二、虚拟机三、Linux容器四、Docker是什么五、Docker的用途 1、提供一次性的环境 2、提供弹性的云服务 3、组建微服务架构六、Docker安装 1、Linux安装 2、windows安装七、image文件八、配置阿里云docker镜像加速器九、安装redis 1、搜索镜像 2、拉取镜像 3、启动redis 4、进入Image的小环境阅读全文

posted @ 2019-04-25 13:14 hsiehchou 阅读(262) 评论(0) 推荐(0)

2019年4月23日

内存数据库专题（MemCached 和Redis）

摘要：内存数据库专题一、Memcached 1、基本原理和体系架构 2、安装配置MemCached 3、操作MemCached 4、MemCached路由算法 5、MemCached的主主复制和HA 二、Redis 1、Redis简介 2、安装Redis 3、操作Redis 4、Redis的事务：不是真正的事务，是一种模拟 5、Redis锁机制 6、Redis的消息机制：消息系统 7、Redis持久化 8、Redis的主从复制 9、Redis的HA（哨兵机制）阅读全文

posted @ 2019-04-23 17:50 hsiehchou 阅读(409) 评论(0) 推荐(0)

2019年4月19日

Spark MLlib和Sprk GraphX

摘要： Spark MLlib 一、MLlib概述 1、机器学习算法 2、通信二、什么是机器学习 1、机器学习的定义 2、基于大数据的机器学习 3、MLlib Spark Graphx 一、Spark Graphx 是什么？二、Spark GraphX 有哪些抽象？ 1、顶点 2、边 3、三元组 4、图阅读全文

posted @ 2019-04-19 21:40 hsiehchou 阅读(280) 评论(0) 推荐(0)

Spark 调优

摘要：一、诊断Spark内存使用 1、内存花费 2、如何判断Spark程序消耗内存情况？二、使用高性能序列化类库 1、数据序列化概述 2、kryo 3、如何使用kryo序列化机制 4、kryo类库的优化三、优化数据结构 1、概述 2、如何做四、rdd.cache checkpoint 五、持久化级别六、Java虚拟机的调优 1、概述 2、Spark GC原理 3、监测垃圾回收 4、优化Executor内存比例 5、Java GC 调优（-）七、shuffle原理 1、优化前 2、优化后八、其他调优 1、提高并行度 2、广播共享数据阅读全文

posted @ 2019-04-19 21:39 hsiehchou 阅读(142) 评论(0) 推荐(0)

Spark Streaming基础

摘要：一、Spark Streaming基础 1、什么是 Spark Streaming 2、演示官方的Demo 3、开发自己的NetWorkWordCount程序二、高级特性 1、什么是DStream？离散流 2、重点算子讲解 3、窗口操作 4、集成Spark SQL: 使用SQL语句来处理流式数据 5、缓存和持久化：和RDD一样 6、支持检查点：和RDD一样三、数据源 1、基本的数据源 2、高级数据源四、性能优化的参数 1、减少批数据的执行时间 2、设置正确的批容量 3、内存调优阅读全文

posted @ 2019-04-19 21:38 hsiehchou 阅读(176) 评论(0) 推荐(0)

2019年4月12日

Spark SQL

摘要：一、Spark SQL 基础 1、什么是Spark SQL 2、为什么学习Spark SQL 3、核心概念：表（DataFrame DataSet） 4、创建DataFrame 5、操作DataFrame 6、操作DataSet 7、Spark SQL 中的视图二、使用数据源 1、使用load函数、save函数 2、Parquet文件 3、json文件 4、JDBC 5、使用Hive 三、在IDE中开发Spark SQL 1、创建DataFrame StructType方式 2、使用case class来创建DataFrame 3、写入mysql 4、使用Spark SQL 读取Hive中的数据，将计算结果存入mysql 四、性能优化 1、把内存中缓存表的数据 2、了解性能优化的相关参数阅读全文

posted @ 2019-04-12 20:00 hsiehchou 阅读(200) 评论(0) 推荐(0)

2019年4月8日

Spark Core

摘要：一、Spark Core 1、什么是Spark？特点二、安装和部署Spark、Spark 的 HA 1、spark体系结构 2、spark的搭建 3、Spark的 HA 三、执行Spark的任务：两个工具 1、spark-submit：用于提交Spark的任务 2、spark-shell 相当于REPL 四、WordCount（scala版本和java版本） 1、scala版本的WordCount 2、java版本的WordCount 五、分析Spark的任务流程 1、分析WordCount程序处理过程 2、Spark调度任务的过程六、RDD和RDD特性、RDD的算子 1、RDD：弹性分布式数据集 2、算子 3、RDD的集合运算 4、分组操作：reduceByKey 5、cogroup 6、reduce操作（Action） 7、需求：按照value排序七、RDD的高级算子 1、mapPartitionsWithIndex 2、aggregate 八、编程案例 1、分析日志 2、创建自定义分区 3、使用JDBCRDD 操作阅读全文

posted @ 2019-04-08 14:09 hsiehchou 阅读(211) 评论(0) 推荐(0)

Scala函数式编程

摘要：一、Scala函数式编程 1、复习函数 2、匿名函数 3、高阶函数（带有函数参数的函数） 4、高阶函数的实例 5、概念：闭包、柯里化二、Scala集合 1、可变集合和不可变集合（Map） 2、列表：可变列表，不可变列表 3、序列 4、集（Set） 5、模式匹配 6、样本类三、Scala高级特性 1、泛型 1）泛型类 2）泛型函数 3）上界和下界 4）视图界定 View bounds 5）协变和逆变（概念） 2、隐式转换阅读全文

posted @ 2019-04-08 14:07 hsiehchou 阅读(167) 评论(0) 推荐(0)

公告