随笔分类 - 21-大数据
摘要:1、JVM 位置2、JVM 体系结构概览3、堆体系结构概述4、堆参数调优入门5、JVM 的配置和优化6、Tomcat 的配置和优化 熟悉 JVM 架构与 GC 垃圾回收机制以及相应的 JVM 调优,有过在 Linux 系统下的调优经验。 淘宝的周志明《深入理解 Java 虚拟机》中说 JVM 的优化
阅读全文
posted @ 2019-06-15 23:54
黑泽君
摘要:第1章 Mysql 简介1.1 概述1.2 高级 MySQL第2章 Mysql Linux 版的安装2.1 下载地址2.2 检查当前系统是否安装过 mysql2.3 修改 Mysql 配置文件位置2.4 修改字符集和数据存储路径2.5 MySQL 的安装位置说明2.6 Mysql 配置文件说明2.7
阅读全文
posted @ 2019-06-15 11:00
黑泽君
摘要:第1章 存储引擎1.1 Mysql 逻辑架构介绍1.2 查看命令1.3 MyISAM 和 InnoDB 的对比1.4 阿里巴巴、淘宝用哪个第2章 Join 查询2.1 SQL 执行顺序(一般情况下)2.1.1 手写顺序2.1.2 机读顺序2.1.3 总结2.2 建表 SQL2.3 7 种 JOIN
阅读全文
posted @ 2019-06-12 21:27
黑泽君
摘要:第4章 离线推荐服务建设4.1 离线推荐服务4.2 离线统计服务4.2.1 离线统计服务主体框架4.2.2 历史热门商品统计4.2.3 最近热门商品统计4.2.4 商品平均得分统计4.2.5 将 DF 数据写入 MongoDB 数据库对应的表中的方法4.3 基于隐语义模型的协同过滤推荐(相似推荐)4
阅读全文
posted @ 2019-06-11 09:53
黑泽君
摘要:第1章 项目体系架构设计1.1 项目系统架构1.2 项目数据流程1.3 数据模型1.4 离线统计服务1.5 离线推荐服务(基于 LFM 模型)1.6 实时推荐服务(基于自定义模型)1.7 离线推荐服务--基于内容的推荐(相似推荐)1.8 离线推荐服务--基于物品的协同过滤推荐(相似推荐)1.9 混合
阅读全文
posted @ 2019-06-11 09:48
黑泽君
摘要:第0章 预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark SQL0.3.1 RDD、DataFrame 与 DataSet0.3.2 DataSet 与 R
阅读全文
posted @ 2019-06-08 11:16
黑泽君
摘要:一 大数据的框架回顾二 大数据的企业应用 一 大数据的框架回顾 Hadoopjob 提交简图 或 YARN 架构 或 YARN 工作机制 或 job 提交流程0、job 提交简图 1、YARN 架构2、YARN 工作机制3、job 提交流程源码解析图解 MapReduce 的 Shuffle 过程介
阅读全文
posted @ 2019-05-30 07:31
黑泽君
摘要:一 项目背景二 项目架构与环境2.1 项目架构2.2 项目环境三 项目实现3.1 数据模拟3.1.1 数据结构3.1.2 编写代码3.1.3 测试3.2 数据采集3.2.1 编写代码3.2.2 测试3.3 数据建模3.3.1 编写代码3.3.2 测试3.4 数据预测3.4.1 编写代码3.4.2 测
阅读全文
posted @ 2019-05-29 13:40
黑泽君
摘要:一 项目概述1.1 角色1.2 业务术语1.3 项目效果展示二 项目需求三 项目概要3.1 项目技术架构3.2 项目目录结构3.3 项目技术选型3.4 项目整体集群规划3.5 创建项目工程四 APP 数据生成模块4.1 创建公共模块工程4.1.1 创建 Java 工程,导入 pom 文件4.1.2
阅读全文
posted @ 2019-05-27 09:25
黑泽君
摘要:第一章 计算机基础知识1.1 课程介绍1.2 计算机是什么1.3 计算机的组成1.4 计算机的使用方式1.5 windows 的命令行1.6 环境变量(environment variable)1.7 path 环境变量1.8 进制1.9 文本文件和字符集1.10 Sublime Text 3第二章
阅读全文
posted @ 2019-05-10 22:38
黑泽君
摘要:第一章 数据库的概述1.1 什么是数据库1.2 数据库分类第二章 MongoDB 的简介、下载、安装、启动、配置和关闭2.1 MongoDB 简介2.2 下载 MongoDB2.3 安装 MongoDB2.4 启动 MongoDB2.5 配置 MongoDB 的 windows 服务2.6 关闭 M
阅读全文
posted @ 2019-05-10 10:13
黑泽君
摘要:一 概述1.1 什么是搜索?1.2 如果用数据库做搜索会怎么样?1.3 什么是全文检索和 Lucene?1.4 什么是 Elasticsearch?1.5 Elasticsearch 的适用场景1.6 Elasticsearch 的特点1.7 Elasticsearch 的核心概念1.7.1 近实时
阅读全文
posted @ 2019-05-06 00:42
黑泽君
摘要:第4章 凸优化算法4.1 梯度下降4.2 牛顿法4.3 拟牛顿法4.4 BFGS 算法第5章 L1、L2 正则化5.1 从经验风险最小化到结构经验最小化5.2 范数与正则项5.3 贝叶斯先验第6章 线性回归算法6.1 数学模型6.2 线性回归的应用6.2 Spark MLlib 实现第7章 FPGr
阅读全文
posted @ 2019-05-05 10:55
黑泽君
摘要:Spark 的监控方式 1、Spark Web UI Spark 内置应用运行监控工具(提供了应用运行层面的主要信息--重要)2、Ganglia 分析集群的使用状况和资源瓶颈(提供了集群的使用状况--资源瓶颈--重要)3、Nmon 主机 CPU、网络、磁盘、内存(提供了单机信息)4、Jmeter 系
阅读全文
posted @ 2019-05-04 12:10
黑泽君
摘要:第1章 Spark 性能优化1.1 调优基本原则1.1.1 基本概念和原则1.1.2 性能监控方式1.1.3 调优要点1.2 数据倾斜优化1.2.1 为何要处理数据倾斜(Data Skew)1.2.2 如何定位导致数据倾斜的代码1.2.3 如何缓解/消除数据倾斜1.3 运行资源调优1.3.1 运行资
阅读全文
posted @ 2019-05-04 11:57
黑泽君
摘要:Spark 通信架构 1、spark 一开始使用 akka 作为网络通信框架,spark 2.X 版本以后完全抛弃 akka,而使用 netty 作为新的网络通信框架。最主要原因:spark 对 akka 没有维护,需要 akka 更新,spark 的发展受到了 akka 的牵制,akka 版本之间
阅读全文
posted @ 2019-05-02 21:00
黑泽君
摘要:第1章 Spark 整体概述1.1 整体概念1.2 RDD 抽象1.3 计算抽象1.4 集群模式1.5 RPC 网络通信抽象1.6 启动 Standalone 集群1.7 核心组件1.8 核心组件交互流程1.9 Block 管理1.10整体应用第2章 Spark 通信架构2.1 通信组件概览2.2
阅读全文
posted @ 2019-05-02 20:12
黑泽君
摘要:Spark GraphX 概述 1、Spark GraphX是什么? (1)Spark GraphX 是 Spark 的一个模块,主要用于进行以图为核心的计算还有分布式图的计算。 (2)GraphX 他的底层计算也是 RDD 计算,它和 RDD 共用一种存储形态,在展示形态上可以以数据集来表示,也可
阅读全文
posted @ 2019-04-30 19:48
黑泽君
摘要:第1章 Spark GraphX 概述1.1 什么是 Spark GraphX1.2 弹性分布式属性图1.3 运行图计算程序第2章 Spark GraphX 解析2.1 存储模式2.1.1 图存储模式2.1.2 GraphX 存储模式2.2 vertices、edges 以及 triplets2.2
阅读全文
posted @ 2019-04-30 19:25
黑泽君
摘要:Spark Streaming 是什么 1、SPark Streaming 是 Spark 中一个组件,基于 Spark Core 进行构建,用于对流式进行处理,类似于 Storm。2、Spark Streaming 能够和 Spark Core、Spark SQL 来进行混合编程。3、Spark
阅读全文
posted @ 2019-04-29 18:57
黑泽君

浙公网安备 33010602011771号