06 2021 档案

摘要:1.1 hashMap底层源码,数据结构 hashMap的底层结构在jdk1.7中由数组+链表实现,在jdk1.8中由数组+链表+红黑树实现,以数组+链表的结构为例。 JDK1.8之前Put方法: JDK1.8之后Put方法: 1.2 Java自带有哪几种线程池? 1.2.1、newCachedTh 阅读全文
posted @ 2021-06-28 20:57 宝哥大数据 阅读(63) 评论(0) 推荐(0)
摘要:关注我的公众号【宝哥大数据】,更多干货等着你 1.1、数仓分层架构 分层优点:复杂问题简单化、清晰数据结构(方便管理)、增加数据的复用性、隔离原始数据(解耦) 层级 功能 ods 原始数据层 存放原始数据,保持原貌不做处理 dwd 明细数据层 对ods层数据清洗(去除空值,脏数据,超过极限范围的数据 阅读全文
posted @ 2021-06-27 09:15 宝哥大数据 阅读(618) 评论(0) 推荐(0)
摘要:面试系列七 之 业务交互数据分析 阅读全文
posted @ 2021-06-26 17:39 宝哥大数据 阅读(309) 评论(0) 推荐(0)
摘要:@ 还有视频讲解在我的B站-宝哥chbxw, 希望大家可以支持一下,谢谢。 前言之分层 API Flink 根据抽象程度分层,提供了三种不同的 API。每一种 API 在简洁性和表达力上有着不同的侧重,并且针对不同的应用场景。 ProcessFunction 是 Flink 所提供最底层接口。Pro 阅读全文
posted @ 2021-06-23 21:42 宝哥大数据 阅读(738) 评论(0) 推荐(0)
摘要:一、Spark 1.1 Spark有几种部署方式?请分别简要论述 1)Local:运行在一台机器上,通常是练手或者测试环境。 2)Standalone:构建一个基于Mster+Slaves的资源调度集群,Spark任务提交给Master运行。是Spark自身的一个调度系统。 3)Yarn: Spar 阅读全文
posted @ 2021-06-21 21:50 宝哥大数据 阅读(174) 评论(0) 推荐(0)
摘要:还有视频讲解在我的B站-宝哥chbxw, 希望大家可以支持一下,谢谢! 一、Hive介绍 1.1、数据仓库简介 1.2、数据仓库的星型模型与雪花模型 1.3、数据仓库建模 1.4、数据仓库命名规范 1.5、互联网行业数据仓库/数据平台的架构 1.6、缓慢变化维解决方法 二、Hive的安装 三、Hiv 阅读全文
posted @ 2021-06-20 17:29 宝哥大数据 阅读(106) 评论(0) 推荐(0)
摘要:1.1、Hadoop常用端口号 dfs.namenode.http-address:50070 dfs.datanode.http-address:50075 SecondaryNameNode辅助名称节点端口号:50090 dfs.datanode.address:50010 fs.default 阅读全文
posted @ 2021-06-20 08:13 宝哥大数据 阅读(90) 评论(0) 推荐(0)
摘要:ES 类比 MySql MySql ES database(数据库) index(索引库) table(表) type(类型) 7.x被废弃 row(行) document(文档) column(列) field(字段) 一、ES介绍 二、ES安装 1.1、ES的安装 三、ES基本操作 1.2、ES 阅读全文
posted @ 2021-06-17 15:53 宝哥大数据 阅读(108) 评论(0) 推荐(0)
摘要:关注我的公众号【宝哥大数据】 零、数学基础 一、 探索数据 1.1、数据质量分析 缺失值、异常值、不一致的数据、错误数据 数据预处理 1.2、特征工程 1.2.1、数据特征分析 1.2.2、归一化、标准化、正则化 1.2.3、特征提取、转换和选择 降维 特征提取: 通过属性间的关系,如组合不同的属性 阅读全文
posted @ 2021-06-17 15:47 宝哥大数据 阅读(142) 评论(0) 推荐(0)
摘要:项目源代码 还有视频讲解在我的B站-宝哥chbxw, 希望大家可以支持一下,谢谢。 一、Flink是什么 二、Flink快速入门 三、Flink的安装与部署 四、Flink 常用 API 详解 五、Flink State 管理与恢复 六、Flink中的Window详解 6.1、Flink之Trigg 阅读全文
posted @ 2021-06-17 15:46 宝哥大数据 阅读(87) 评论(0) 推荐(0)
摘要:一、介绍 1.1、hbase简介 hbase数据模型 hbase体系架构 1.2、基本命令 1.3、Hbase写数据,存数据,读数据的详细过程 1.4、hbase目录介绍 二、安装 2.1、hbase安装 2.2、phoenix安装 三、应用开发 3.1、创建表 预分区 是在创建表的时候,提前创建多 阅读全文
posted @ 2021-06-17 15:44 宝哥大数据 阅读(87) 评论(0) 推荐(0)
摘要:##一、安装 ###1.1、安装hadoop ###1.2、启动中出现的问题 namenode格式化问题 historyserver 没有启动 mapred-site.xml配置错误问题 ###1.3、调试中出现的问题 1、Hadoop格式化HDFS报错java.net.UnknownHostExc 阅读全文
posted @ 2021-06-17 15:42 宝哥大数据 阅读(47) 评论(0) 推荐(0)
摘要:前期工作 scala 一、介绍 1.1、RDD介绍 1.2、缓存策略 cache persist, StorageLevel Lineage , 如果Lineage过长,为了容错,就需要进行缓存或者checkpoint 宽窄依赖 Spark中控制算子也是懒执行的,需要Action算子触发才能执行,主 阅读全文
posted @ 2021-06-17 15:40 宝哥大数据 阅读(84) 评论(0) 推荐(0)
摘要:一、大数据的三个发展方向 平台搭建/优化/运维/监控 大数据开发/设计/架构 数据分析/挖掘。 二、大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; - 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 阅读全文
posted @ 2021-06-17 15:38 宝哥大数据 阅读(465) 评论(0) 推荐(0)
摘要:一、用户画像概述 二、项目功能及架构 三、项目开发 3.0、业务数据调研及ETL 3.1、规则标签 标签存储与计算 标签模型计算 标签模型:用户性别标签 标签开发:规则匹配型标签 标签模板(Template) 属性配置文件 3.2、统计标签 SparkSQL自定义外部数据源 标签开发:统计型标签 标 阅读全文
posted @ 2021-06-17 15:32 宝哥大数据 阅读(377) 评论(0) 推荐(0)