摘要: ES 类比 MySql MySql ES database(数据库) index(索引库) table(表) type(类型) 7.x被废弃 row(行) document(文档) column(列) field(字段) 一、ES介绍 二、ES安装 1.1、ES的安装 三、ES基本操作 1.2、ES 阅读全文
posted @ 2021-06-17 15:53 宝哥大数据 阅读(100) 评论(0) 推荐(0)
摘要: 关注我的公众号【宝哥大数据】 零、数学基础 一、 探索数据 1.1、数据质量分析 缺失值、异常值、不一致的数据、错误数据 数据预处理 1.2、特征工程 1.2.1、数据特征分析 1.2.2、归一化、标准化、正则化 1.2.3、特征提取、转换和选择 降维 特征提取: 通过属性间的关系,如组合不同的属性 阅读全文
posted @ 2021-06-17 15:47 宝哥大数据 阅读(118) 评论(0) 推荐(0)
摘要: 项目源代码 还有视频讲解在我的B站-宝哥chbxw, 希望大家可以支持一下,谢谢。 一、Flink是什么 二、Flink快速入门 三、Flink的安装与部署 四、Flink 常用 API 详解 五、Flink State 管理与恢复 六、Flink中的Window详解 6.1、Flink之Trigg 阅读全文
posted @ 2021-06-17 15:46 宝哥大数据 阅读(80) 评论(0) 推荐(0)
摘要: 一、介绍 1.1、hbase简介 hbase数据模型 hbase体系架构 1.2、基本命令 1.3、Hbase写数据,存数据,读数据的详细过程 1.4、hbase目录介绍 二、安装 2.1、hbase安装 2.2、phoenix安装 三、应用开发 3.1、创建表 预分区 是在创建表的时候,提前创建多 阅读全文
posted @ 2021-06-17 15:44 宝哥大数据 阅读(84) 评论(0) 推荐(0)
摘要: ##一、安装 ###1.1、安装hadoop ###1.2、启动中出现的问题 namenode格式化问题 historyserver 没有启动 mapred-site.xml配置错误问题 ###1.3、调试中出现的问题 1、Hadoop格式化HDFS报错java.net.UnknownHostExc 阅读全文
posted @ 2021-06-17 15:42 宝哥大数据 阅读(43) 评论(0) 推荐(0)
摘要: 前期工作 scala 一、介绍 1.1、RDD介绍 1.2、缓存策略 cache persist, StorageLevel Lineage , 如果Lineage过长,为了容错,就需要进行缓存或者checkpoint 宽窄依赖 Spark中控制算子也是懒执行的,需要Action算子触发才能执行,主 阅读全文
posted @ 2021-06-17 15:40 宝哥大数据 阅读(75) 评论(0) 推荐(0)
摘要: 一、大数据的三个发展方向 平台搭建/优化/运维/监控 大数据开发/设计/架构 数据分析/挖掘。 二、大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; - 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 阅读全文
posted @ 2021-06-17 15:38 宝哥大数据 阅读(456) 评论(0) 推荐(0)
摘要: 一、部署 1.1、安装部署 二、概念及理论 Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。 在大数据系统中,常常会碰到一个问题,整个大数据是由各个 阅读全文
posted @ 2021-06-17 15:36 宝哥大数据 阅读(176) 评论(0) 推荐(0)
摘要: 一、用户画像概述 二、项目功能及架构 三、项目开发 3.0、业务数据调研及ETL 3.1、规则标签 标签存储与计算 标签模型计算 标签模型:用户性别标签 标签开发:规则匹配型标签 标签模板(Template) 属性配置文件 3.2、统计标签 SparkSQL自定义外部数据源 标签开发:统计型标签 标 阅读全文
posted @ 2021-06-17 15:32 宝哥大数据 阅读(373) 评论(0) 推荐(0)