随笔列表第4页 - 王陸

2022年2月17日

摘要：第一章数仓搭建-ODS层 1）保持数据原貌不做任何修改，起到备份数据的作用。 2）数据采用LZO压缩，减少磁盘存储空间。100G数据可以压缩到10G以内。 3）创建分区表，防止后续的全表扫描，在企业开发中大量使用分区表。 4）创建外部表。在企业开发中，除了自己用的临时表，创建内部表外，绝大多数场景阅读全文

posted @ 2022-02-17 14:10 王陸阅读(757) 评论(0) 推荐(0) 编辑

2022年2月13日

Flink （一）概述+搭建

摘要：第一章初识Flink Flink 是 Apache 基金会旗下的一个开源大数据处理框架。目前，Flink 已经成为各大公司大数据实时处理的发力重点，特别是国内以阿里为代表的一众互联网大厂都在全力投入，为Flink 社区贡献了大量源码。如今 Flink 已被很多人认为是大数据实时处理的方向和未来，许阅读全文

posted @ 2022-02-13 14:55 王陸阅读(395) 评论(0) 推荐(0) 编辑

2022年2月11日

Elasticsearch（二）进阶、优化、面试题

摘要：第五章、Elasticsearch进阶 5.1 核心概念索引Index 一个索引就是一个拥有几分相似特征的文档的集合。比如说，你可以有一个客户数据的索引，另一个产品目录的索引，还有一个订单数据的索引。一个索引由一个名字来标识（必须全部是小写字母），并且当我们要对这个索引中的文档进行索引、搜索、更新阅读全文

posted @ 2022-02-11 20:09 王陸阅读(141) 评论(0) 推荐(0) 编辑

SparkSQL

摘要：第一章 SparkSQL 概述 1.1 SparkSQL 是什么 Spark SQL 是Spark 用于结构化数据(structured data)处理的 Spark 模块。 1.2 Hive and SparkSQL SparkSQL 的前身是 Shark，给熟悉RDBMS 但又不理解 MapRe 阅读全文

posted @ 2022-02-11 15:05 王陸阅读(245) 评论(0) 推荐(0) 编辑

2022年2月10日

Elasticsearch（一）入门

摘要：第一章、Elasticsearch概述 1.1 开篇结构化数据结构化数据半结构化数据 1.2 技术选型 Elasticsearch 是什么 The Elastic Stack, 包括 Elasticsearch、 Kibana、 Beats 和 Logstash（也称为 ELK Stack）。阅读全文

posted @ 2022-02-10 17:48 王陸阅读(248) 评论(0) 推荐(1) 编辑

2022年2月8日

Spark Streaming

摘要：第一章 SparkStreaming 概述 1.1 Spark Streaming 是什么 Spark 流使得构建可扩展的容错流应用程序变得更加容易。 Spark Streaming 是准实时（秒，分钟）级，微批次（时间）的数据处理架构。 Spark Streaming 用于流式数据的处理。Spar 阅读全文

posted @ 2022-02-08 21:49 王陸阅读(279) 评论(0) 推荐(0) 编辑

2022年2月7日

Spark （三）案例实操

摘要：第零章、前言在之前的学习中，我们已经学习了 Spark 的基础编程方式，接下来，我们看看在实际的工作中如何使用这些 API 实现具体的需求。这些需求是电商网站的真实需求，所以在实现功能前，咱们必须先将数据准备好。上面的数据图是从数据文件中截取的一部分内容，表示为电商网站的用户行为数据，主要包含用阅读全文

posted @ 2022-02-07 12:27 王陸阅读(273) 评论(0) 推荐(0) 编辑

2022年2月5日

Scala （四）模式匹配

摘要：一、模式匹配 Scala 中的模式匹配类似于 Java 中的 switch 语法 int i = 10 switch (i) { case 10 : System.out.println("10"); break; case 20 : System.out.println("20"); break; 阅读全文

posted @ 2022-02-05 20:13 王陸阅读(82) 评论(0) 推荐(0) 编辑

2022年2月3日

Spark （二）核心编程

摘要：第零章、三大数据结构 Spark 计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是： RDD : 弹性分布式数据集累加器：分布式共享只写变量广播变量：分布式共享只读变量简单的分布式计模型架构： Driver将任务分发给多个Execut 阅读全文

posted @ 2022-02-03 19:13 王陸阅读(115) 评论(0) 推荐(0) 编辑

Spark （一）概述、原理、入门

摘要：第一章 Spark 概述 1.1 Spark 是什么 Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。 Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant A 阅读全文

posted @ 2022-02-03 09:39 王陸阅读(500) 评论(0) 推荐(0) 编辑

2022年1月28日

基于矩阵分解的CF算法实现

摘要：所用数据集：链接：https://pan.baidu.com/s/1OLQE7mpefXGRpADyVEkpVQ 提取码：7x5c 一、矩阵分解发展史 1.1 Traditional SVD 通常SVD矩阵分解指的是SVD（奇异值）分解技术，在这我们姑且将其命名为Traditional SVD（传统阅读全文

posted @ 2022-01-28 20:44 王陸阅读(226) 评论(0) 推荐(0) 编辑

协同过滤推荐算法

摘要：一、推荐模型构建流程 Data(数据)->Features(特征)->ML Algorithm(机器学习算法)->Prediction Output(预测输出) 1.1 数据清洗/数据处理数据来源显性数据 Rating 打分 Comments 评论/评价隐形数据 Order history 历阅读全文

posted @ 2022-01-28 14:37 王陸阅读(587) 评论(0) 推荐(0) 编辑

2022年1月27日

ECharts可视化数据大屏

摘要：一、可视化面板介绍应对现在数据可视化的趋势，越来越多企业需要在很多场景(营销数据，生产数据，用户数据)下使用，可视化图表来展示体现数据，让数据更加直观，数据特点更加突出。 1.1 使用技术完成该项目需要具备以下知识： div + css 布局 flex 布局 Less 原生js + jquery 阅读全文

posted @ 2022-01-27 21:22 王陸阅读(2861) 评论(2) 推荐(0) 编辑

2022年1月25日

数据仓库（三）——数仓理论

摘要：第一章数仓分层 1.1 为什么要分层仓库分层 ODS层：原始数据层，存放原始数据，直接加载原始日志、数据，数据保持原貌不做处理 DWD层：对ODS层数据进行清洗（去除空值，脏数据，超过极限范围的数据）、维度退化、脱敏等。保存业务事实明细，一行信息代表一次业务行为，例如一次下单。 DIM层：维度层阅读全文

posted @ 2022-01-25 16:46 王陸阅读(604) 评论(0) 推荐(0) 编辑

数据仓库（二）——业务数据采集平台

摘要：一、电商业务简介 1.1 电商业务流程电商的业务流程可以以一个普通用户的浏览足迹为例进行说明，用户点开电商首页开始浏览，可能会通过分类查询也可能通过全文搜索寻找自己中意的商品，这些商品无疑都是存储在后台的管理系统中的。当用户寻找到自己中意的商品，可能会想要购买，将商品添加到购物车后发现需要登录，阅读全文

posted @ 2022-01-25 09:18 王陸阅读(400) 评论(0) 推荐(0) 编辑

2022年1月24日

数据仓库（一）——用户行为数据采集

摘要： # 一、数据仓库概念数据仓库（ Data Warehouse ），是**为企业制定决策，提供数据支持的**。可以帮助企业，改进业务流程、提高产品质量等。数据仓库的输入数据通常包括：**业务数据**、**用户行为数据**和**爬虫数据**等 **业务数据**：就是各行业在**处理事务**过程中产生阅读全文

posted @ 2022-01-24 19:14 王陸阅读(1978) 评论(0) 推荐(0) 编辑

2022年1月22日

Hadoop——项目经验

摘要：一、HDFS存储多目录（1）给Linux系统新增加一块硬盘参考：https://www.cnblogs.com/yujianadu/p/10750698.html （2）生产环境服务器磁盘情况（3）在hdfs-site.xml文件中配置多目录，注意新挂载磁盘的访问权限问题 HDFS的DataN 阅读全文

posted @ 2022-01-22 21:43 王陸阅读(230) 评论(0) 推荐(0) 编辑

2022年1月21日

MySQL高级——综合案例

摘要： 1.1 需求分析在业务系统中，需要记录当前业务系统的访问日志，该访问日志包含：操作人，操作时间，访问类，访问方法，请求参数，请求结果，请求结果类型，请求时长等信息。记录详细的系统访问日志，主要便于对系统中的用户请求进行追踪，并且在系统的管理后台可以查看到用户的访问记录。记录系统中的日志信息，阅读全文

posted @ 2022-01-21 11:36 王陸阅读(107) 评论(0) 推荐(0) 编辑

2022年1月18日

MySQL高级——常用SQL技巧、常用工具、日志、复制

摘要：第一章常用SQL技巧 1.1 SQL执行顺序编写顺序 SELECT DISTINCT <select list> FROM <left_table> <join_type> JOIN <right_table> ON <join_condition> WHERE <where_condition 阅读全文

posted @ 2022-01-18 21:00 王陸阅读(184) 评论(0) 推荐(0) 编辑

MySQL高级——锁问题

摘要：第一章 Mysql锁问题 1.1 锁概述锁是计算机协调多个进程或线程并发访问某一资源的机制（避免争抢）。在数据库中，除传统的计算资源（如 CPU、RAM、I/O 等）的争用以外，数据也是一种供许多用户共享的资源。如何保证数据并发访问的一致性、有效性是所有数据库必须解决的一个问题，锁冲突也是影响数阅读全文

posted @ 2022-01-18 15:05 王陸阅读(77) 评论(0) 推荐(1) 编辑

2022年1月17日

MySQL高级—— SQL优化、应用优化、查询优化、内存优化

摘要：第一章 SQL优化 1.1 大批量插入数据环境准备： CREATE TABLE `tb_user` ( `id` int(11) NOT NULL AUTO_INCREMENT, `username` varchar(45) NOT NULL, `password` varchar(96) NO 阅读全文

posted @ 2022-01-17 21:11 王陸阅读(198) 评论(0) 推荐(1) 编辑

Hive函数重要应用案例（多字节分隔符、URL解析函数、行列转换、JSON处理）

摘要：一、多字节分隔符 1.1 应用场景 Hive中的分隔符 Hive中默认使用单字节分隔符来加载文本数据，例如逗号、制表符、空格等等，默认的分隔符为\001。根据不同文件的不同分隔符，我们可以通过在创建表时使用 row format delimited fields terminated by ‘单字节阅读全文

posted @ 2022-01-17 10:13 王陸阅读(927) 评论(0) 推荐(0) 编辑

2022年1月16日

Hadoop HA 高可用

摘要：第一章 HA 概述（1）所谓 HA（High Availablity），即高可用（7*24 小时不中断服务）。（2）实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA机制：HDFS 的 HA 和 YARN 的 HA。（3）NameNode 主要在以下两个方面影响 HD 阅读全文

posted @ 2022-01-16 11:44 王陸阅读(137) 评论(0) 推荐(0) 编辑

2022年1月14日

Azkaban任务调度框架

摘要：第一章、Azkaban 概论 1.1 为什么需要工作流调度系统 1）一个完整的数据分析系统通常都是由大量任务单元组成： Shell 脚本程序，Java 程序，MapReduce 程序、Hive 脚本等 2）各任务单元之间存在时间先后及前后依赖关系 3）为了很好地组织起这样的复杂执行计划，需要一个工作阅读全文

posted @ 2022-01-14 10:20 王陸阅读(1392) 评论(0) 推荐(0) 编辑

2022年1月12日

Hive函数、运算符使用

摘要：一、Hive内置运算符随着Hive版本的不断发展，在Hive SQL中支持的、内置的运算符也越来越多。可以使用下面的命令查看当下支持的运算符和函数，并且查看其详细的使用方式。 https://cwiki.apache.org/confluence/display/Hive/LanguageManu 阅读全文

posted @ 2022-01-12 14:34 王陸阅读(510) 评论(0) 推荐(0) 编辑

2022年1月11日

HiveSQL 数据操控、查询语言（DML、DQL）

摘要：一、DML-Load加载数据 1.1 背景回想一下，当在Hive中创建好表之后，默认就会在HDFS上创建一个与之对应的文件夹，默认路径是由参数hive.metastore.warehouse.dir控制，默认值是**/user/hive/warehouse**。要想让hive的表和结构化的数据文阅读全文

posted @ 2022-01-11 22:21 王陸阅读(284) 评论(0) 推荐(0) 编辑

2022年1月10日

HiveSQL 数据定义语言（DDL）

摘要：一、数据定义语言（DDL）概述 1.1 DDL语法的作用数据定义语言 (Data Definition Language, DDL)，是SQL语言集中对数据库内部的对象结构进行创建，删除，修改等的操作语言，这些数据库对象包括database（schema）、table、view、index等。核心阅读全文

posted @ 2022-01-10 16:01 王陸阅读(621) 评论(0) 推荐(0) 编辑

2022年1月9日

Hive入门

摘要：一、Hive 基本概念 1.1 什么是 Hive Apache Hive是一款建立在Hadoop之上的开源数据仓库系统，可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表，基于表提供了一种类似SQL的查询模型，称为Hive查询语言（HQL），用于访问和分析存储在Hadoop文阅读全文

posted @ 2022-01-09 14:26 王陸阅读(664) 评论(0) 推荐(0) 编辑

2022年1月8日

数据仓库

摘要：一、数据仓库概念数据仓库（英语：Data Warehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。数据仓库本身并不“生产”任何数据，其数据来源于不同外部系统；同时数据仓库自身阅读全文

posted @ 2022-01-08 19:21 王陸阅读(392) 评论(0) 推荐(0) 编辑

2022年1月6日

HBase分布式数据库——谷粒微博实战

posted @ 2022-01-06 20:35 王陸阅读(289) 评论(0) 推荐(0) 编辑

王陸

我可不是为了被全人类喜欢才活着的，只要对于某一个人来说我是必要的，我就能活下去。

公告