2021 年 6月 17 日随笔档案 - 宝哥大数据

2021年6月17日

摘要： ES 类比 MySql MySql ES database(数据库) index(索引库) table(表) type(类型) 7.x被废弃 row(行) document(文档) column(列) field(字段) 一、ES介绍二、ES安装 1.1、ES的安装三、ES基本操作 1.2、ES 阅读全文

posted @ 2021-06-17 15:53 宝哥大数据阅读(103) 评论(0) 推荐(0)

机器学习(Macheine Learning)面试知识点

摘要：关注我的公众号【宝哥大数据】零、数学基础一、探索数据 1.1、数据质量分析缺失值、异常值、不一致的数据、错误数据数据预处理 1.2、特征工程 1.2.1、数据特征分析 1.2.2、归一化、标准化、正则化 1.2.3、特征提取、转换和选择降维特征提取：通过属性间的关系，如组合不同的属性阅读全文

posted @ 2021-06-17 15:47 宝哥大数据阅读(128) 评论(0) 推荐(0)

Flink目录导读

摘要：项目源代码还有视频讲解在我的B站-宝哥chbxw, 希望大家可以支持一下，谢谢。一、Flink是什么二、Flink快速入门三、Flink的安装与部署四、Flink 常用 API 详解五、Flink State 管理与恢复六、Flink中的Window详解 6.1、Flink之Trigg 阅读全文

posted @ 2021-06-17 15:46 宝哥大数据阅读(82) 评论(0) 推荐(0)

hbase目录导图

摘要：一、介绍 1.1、hbase简介 hbase数据模型 hbase体系架构 1.2、基本命令 1.3、Hbase写数据，存数据，读数据的详细过程 1.4、hbase目录介绍二、安装 2.1、hbase安装 2.2、phoenix安装三、应用开发 3.1、创建表预分区是在创建表的时候，提前创建多阅读全文

posted @ 2021-06-17 15:44 宝哥大数据阅读(85) 评论(0) 推荐(0)

Hadoop目录导读

摘要： ##一、安装 ###1.1、安装hadoop ###1.2、启动中出现的问题 namenode格式化问题 historyserver 没有启动 mapred-site.xml配置错误问题 ###1.3、调试中出现的问题 1、Hadoop格式化HDFS报错java.net.UnknownHostExc 阅读全文

posted @ 2021-06-17 15:42 宝哥大数据阅读(46) 评论(0) 推荐(0)

spark目录导图

摘要：前期工作 scala 一、介绍 1.1、RDD介绍 1.2、缓存策略 cache persist, StorageLevel Lineage ，如果Lineage过长，为了容错，就需要进行缓存或者checkpoint 宽窄依赖 Spark中控制算子也是懒执行的，需要Action算子触发才能执行，主阅读全文

posted @ 2021-06-17 15:40 宝哥大数据阅读(77) 评论(0) 推荐(0)

大数据开发岗位需要的知识

摘要：一、大数据的三个发展方向平台搭建/优化/运维/监控大数据开发/设计/架构数据分析/挖掘。二、大数据的4V特征：数据量大，TB->PB 数据类型繁多，结构化、非结构化文本、日志、视频、图片、地理位置等； - 商业价值高，但是这种价值需要在海量数据之上，通过数据分析与机器学习更快速的挖掘出来；阅读全文

posted @ 2021-06-17 15:38 宝哥大数据阅读(459) 评论(0) 推荐(0)

kafka面试知识点整理

摘要：一、部署 1.1、安装部署二、概念及理论 Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一个分布式的，可划分的，冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。在大数据系统中，常常会碰到一个问题，整个大数据是由各个阅读全文

posted @ 2021-06-17 15:36 宝哥大数据阅读(181) 评论(0) 推荐(0)

企业级360用户画像

摘要：一、用户画像概述二、项目功能及架构三、项目开发 3.0、业务数据调研及ETL 3.1、规则标签标签存储与计算标签模型计算标签模型：用户性别标签标签开发：规则匹配型标签标签模板（Template）属性配置文件 3.2、统计标签 SparkSQL自定义外部数据源标签开发：统计型标签标阅读全文

posted @ 2021-06-17 15:32 宝哥大数据阅读(374) 评论(0) 推荐(0)

chbxw

公告