随笔档案「2021年6月」 - 宝哥大数据

面试系列六八之 java知识点

摘要：1.1 hashMap底层源码，数据结构 hashMap的底层结构在jdk1.7中由数组+链表实现，在jdk1.8中由数组+链表+红黑树实现，以数组+链表的结构为例。 JDK1.8之前Put方法： JDK1.8之后Put方法： 1.2 Java自带有哪几种线程池？ 1.2.1、newCachedTh 阅读全文

posted @ 2021-06-28 20:57 宝哥大数据阅读(63) 评论(0) 推荐(0)

面试系列六之用户行为数据分析

摘要：关注我的公众号【宝哥大数据】，更多干货等着你 1.1、数仓分层架构分层优点：复杂问题简单化、清晰数据结构(方便管理)、增加数据的复用性、隔离原始数据(解耦) 层级功能 ods 原始数据层存放原始数据，保持原貌不做处理 dwd 明细数据层对ods层数据清洗（去除空值，脏数据，超过极限范围的数据阅读全文

posted @ 2021-06-27 09:15 宝哥大数据阅读(618) 评论(0) 推荐(0)

面试系列七之业务交互数据分析

摘要：面试系列七之业务交互数据分析阅读全文

posted @ 2021-06-26 17:39 宝哥大数据阅读(309) 评论(0) 推荐(0)

Flink 常用 API 详解

摘要：@ 还有视频讲解在我的B站-宝哥chbxw, 希望大家可以支持一下，谢谢。前言之分层 API Flink 根据抽象程度分层，提供了三种不同的 API。每一种 API 在简洁性和表达力上有着不同的侧重，并且针对不同的应用场景。 ProcessFunction 是 Flink 所提供最底层接口。Pro 阅读全文

posted @ 2021-06-23 21:42 宝哥大数据阅读(738) 评论(0) 推荐(0)

面试系列五之项目涉及技术Spark

摘要：一、Spark 1.1 Spark有几种部署方式？请分别简要论述 1）Local:运行在一台机器上，通常是练手或者测试环境。 2）Standalone:构建一个基于Mster+Slaves的资源调度集群，Spark任务提交给Master运行。是Spark自身的一个调度系统。 3）Yarn: Spar 阅读全文

posted @ 2021-06-21 21:50 宝哥大数据阅读(174) 评论(0) 推荐(0)

面试系列五之项目涉及技术Hive

摘要：还有视频讲解在我的B站-宝哥chbxw, 希望大家可以支持一下，谢谢！一、Hive介绍 1.1、数据仓库简介 1.2、数据仓库的星型模型与雪花模型 1.3、数据仓库建模 1.4、数据仓库命名规范 1.5、互联网行业数据仓库/数据平台的架构 1.6、缓慢变化维解决方法二、Hive的安装三、Hiv 阅读全文

posted @ 2021-06-20 17:29 宝哥大数据阅读(106) 评论(0) 推荐(0)

面试系列四之项目涉及技术Hadoop

摘要：1.1、Hadoop常用端口号 dfs.namenode.http-address:50070 dfs.datanode.http-address:50075 SecondaryNameNode辅助名称节点端口号：50090 dfs.datanode.address:50010 fs.default 阅读全文

posted @ 2021-06-20 08:13 宝哥大数据阅读(90) 评论(0) 推荐(0)

ES入门与进阶

摘要：ES 类比 MySql MySql ES database(数据库) index(索引库) table(表) type(类型) 7.x被废弃 row(行) document(文档) column(列) field(字段) 一、ES介绍二、ES安装 1.1、ES的安装三、ES基本操作 1.2、ES 阅读全文

posted @ 2021-06-17 15:53 宝哥大数据阅读(108) 评论(0) 推荐(0)

机器学习(Macheine Learning)面试知识点

摘要：关注我的公众号【宝哥大数据】零、数学基础一、探索数据 1.1、数据质量分析缺失值、异常值、不一致的数据、错误数据数据预处理 1.2、特征工程 1.2.1、数据特征分析 1.2.2、归一化、标准化、正则化 1.2.3、特征提取、转换和选择降维特征提取：通过属性间的关系，如组合不同的属性阅读全文

posted @ 2021-06-17 15:47 宝哥大数据阅读(142) 评论(0) 推荐(0)

Flink目录导读

摘要：项目源代码还有视频讲解在我的B站-宝哥chbxw, 希望大家可以支持一下，谢谢。一、Flink是什么二、Flink快速入门三、Flink的安装与部署四、Flink 常用 API 详解五、Flink State 管理与恢复六、Flink中的Window详解 6.1、Flink之Trigg 阅读全文

posted @ 2021-06-17 15:46 宝哥大数据阅读(87) 评论(0) 推荐(0)

hbase目录导图

摘要：一、介绍 1.1、hbase简介 hbase数据模型 hbase体系架构 1.2、基本命令 1.3、Hbase写数据，存数据，读数据的详细过程 1.4、hbase目录介绍二、安装 2.1、hbase安装 2.2、phoenix安装三、应用开发 3.1、创建表预分区是在创建表的时候，提前创建多阅读全文

posted @ 2021-06-17 15:44 宝哥大数据阅读(87) 评论(0) 推荐(0)

Hadoop目录导读

摘要：##一、安装 ###1.1、安装hadoop ###1.2、启动中出现的问题 namenode格式化问题 historyserver 没有启动 mapred-site.xml配置错误问题 ###1.3、调试中出现的问题 1、Hadoop格式化HDFS报错java.net.UnknownHostExc 阅读全文

posted @ 2021-06-17 15:42 宝哥大数据阅读(47) 评论(0) 推荐(0)

spark目录导图

摘要：前期工作 scala 一、介绍 1.1、RDD介绍 1.2、缓存策略 cache persist, StorageLevel Lineage ，如果Lineage过长，为了容错，就需要进行缓存或者checkpoint 宽窄依赖 Spark中控制算子也是懒执行的，需要Action算子触发才能执行，主阅读全文

posted @ 2021-06-17 15:40 宝哥大数据阅读(84) 评论(0) 推荐(0)

大数据开发岗位需要的知识

摘要：一、大数据的三个发展方向平台搭建/优化/运维/监控大数据开发/设计/架构数据分析/挖掘。二、大数据的4V特征：数据量大，TB->PB 数据类型繁多，结构化、非结构化文本、日志、视频、图片、地理位置等； - 商业价值高，但是这种价值需要在海量数据之上，通过数据分析与机器学习更快速的挖掘出来；阅读全文

posted @ 2021-06-17 15:38 宝哥大数据阅读(465) 评论(0) 推荐(0)

企业级360用户画像

摘要：一、用户画像概述二、项目功能及架构三、项目开发 3.0、业务数据调研及ETL 3.1、规则标签标签存储与计算标签模型计算标签模型：用户性别标签标签开发：规则匹配型标签标签模板（Template）属性配置文件 3.2、统计标签 SparkSQL自定义外部数据源标签开发：统计型标签标阅读全文

posted @ 2021-06-17 15:32 宝哥大数据阅读(377) 评论(0) 推荐(0)

chbxw

06 2021 档案

公告