摘要: 好久没有写感悟类的文章了,本来考完研就打算写一篇文章,对大学四年做一个“复盘”的,但复试被调剂了,难受了很久,之后也实在没什么由头写。在岁末年初前夕,我终于不打算再拖沓了,准备好好整理一下,做个纪念。一方面,审问一下自己的初心,整理一下思绪;另一方面,思索未来的方向,慕然回首时,不回因碌碌无为而羞愧 阅读全文
posted @ 2021-12-31 08:58 王陸 阅读(4471) 评论(54) 推荐(37) 编辑
摘要: 一、自由问答 1、没听清或没听懂老师的问题 I'm sorry, I didn't understand/get/catch the question, could you repeat it in another way?(麻烦老师解释问题) Sorry, I didn't really unde 阅读全文
posted @ 2021-11-16 10:21 王陸 阅读(3028) 评论(0) 推荐(18) 编辑
摘要: ## 某音短视频 ### SQL156 各个视频的平均完播率【简单】 ```sql select t1.video_id, -- 结束观看时间与开始播放时间的差>=视频时长时,视为完成播放 round( avg(if (end_time - start_time >= duration, 1, 0) 阅读全文
posted @ 2023-07-16 13:46 王陸 阅读(418) 评论(1) 推荐(0) 编辑
摘要: # **第1章 CDC简介** ## 1.1 什么是CDC CDC是Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。 ## 1 阅读全文
posted @ 2023-06-05 14:08 王陸 阅读(660) 评论(0) 推荐(0) 编辑
摘要: # 一、Linux通配符 ## 1.1 通配符 就是键盘上的一些特殊字符,可以实现特殊的功能,例如模糊搜索一些文件。 | 文件名 | 通配符 | 模糊匹配 | | | | | | luffy | * | luffyalex | | | | luffychao | | | | luffycunzhan 阅读全文
posted @ 2023-05-30 17:20 王陸 阅读(70) 评论(0) 推荐(0) 编辑
摘要: ## 第1章 Maxwell简介 ### 1.1 Maxwell概述 Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控Mysql数据库的数据变更操作(包括insert、update、delete),并将变更数据以 JSON 格式发送给 Kafk 阅读全文
posted @ 2023-05-28 20:35 王陸 阅读(198) 评论(0) 推荐(1) 编辑
摘要: 1. 计算歌曲完播率 请根据 user_listen_record、song_library计算出QQ音乐20230306歌曲完播率(播放时长>=听歌时长)输出表结构如下,其中完播率保留小数点后2位小数并按照完播率重小到大排序: song_playback_history 已知QQ音乐部分用户听歌流 阅读全文
posted @ 2023-05-02 17:43 王陸 阅读(229) 评论(0) 推荐(0) 编辑
摘要: FlamMap 是一款在 64 位 Windows 操作系统环境中运行的火灾分析桌面应用程序。它可以模拟潜在的火灾行为特征(蔓延速度、火焰长度、火线强度等)、在恒定环境条件(天气和燃料水分)下的火灾增长和蔓延以及条件燃烧概率。随着 FARSITE 的加入,它现在可以在地形、燃料、燃料水分和天气等不同 阅读全文
posted @ 2023-04-24 13:51 王陸 阅读(1467) 评论(1) 推荐(1) 编辑
摘要: 第1章 集群环境概述 1.1 集群配置概述 本课程所用集群由5台节点构成 其中2台为master节点: 用于部署HDFS的NameNode Yarn的ResourceManager 另外3台为worker节点,用于部署HDFS的DataNode、Yarn的NodeManager等角色。 Master 阅读全文
posted @ 2023-04-22 20:04 王陸 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 一、设计规范 1.1 数据模型设计 横向分层 分层设计是数据架构设计的产出之一,在模型设计环节做为强制规范遵守。 分层规范 ODS: 贴源层,原始数据不做变化或者仅做最简单的补全后存入。 数据域划分,依据是数据源。 DWD: 对数据源做清洗、转换、补全、编码转换后加载到明细数据层。 数据域划分,依据 阅读全文
posted @ 2023-04-21 08:54 王陸 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 01 检索数据 SQL60 从 Customers 表中检索所有的 ID select cust_id from Customers SQL61 检索并列出已订购产品的清单 两种去重方法: -- 方法一 去重 select distinct prod_id from OrderItems -- 方法 阅读全文
posted @ 2023-04-02 19:34 王陸 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 01 基础查询 SQL1 查询所有列 select * from user_profile SQL2 查询多列 select device_id,gender,age,university from user_profile SQL3 查询结果去重 select distinct(universit 阅读全文
posted @ 2023-04-02 13:17 王陸 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 第六章 整合Phoenix 6.1 Phoenix 简介 6.1.1 Phoenix 定义 Phoenix 是 HBase 的开源 SQL 皮肤。可以使用标准 JDBC API 代替 HBase 客户端 API来创建表,插入数据和查询 HBase 数据。 6.1.2 为什么使用 Phoenix 官方 阅读全文
posted @ 2023-02-09 20:04 王陸 阅读(197) 评论(2) 推荐(1) 编辑
摘要: 第一章 算法基础 思考:Zookeeper 是如何保证数据一致性的?这也是困扰分布式系统框架的一个难题。 1.1 拜占庭将军问题 拜占庭将军问题是一个协议问题,拜占庭帝国军队的将军们必须全体一致的决定是否攻击某一支敌军。问题是这些将军在地理上是分隔开来的,并且将军中存在叛徒。叛徒可以任意行动以达到以 阅读全文
posted @ 2023-02-02 13:45 王陸 阅读(89) 评论(0) 推荐(1) 编辑
摘要: 第1题 同时在线人数问题 1.1 题目需求 现有各直播间的用户访问记录表(live_events)如下,表中每行数据表达的信息为,一个用户何时进入了一个直播间,又在何时离开了该直播间。 | user_id(用户id) | live_id(直播间id) | in_datetime(进入直播间的时间) 阅读全文
posted @ 2023-01-23 18:46 王陸 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 第一章 环境准备 1.1 用户信息表 1)表结构 | user_id(用户id) | gender(性别) | birthday(生日) | | | | | | 101 | 男 | 1990-01-01 | | 102 | 女 | 1991-02-01 | | 103 | 女 | 1992-03-0 阅读全文
posted @ 2023-01-21 22:51 王陸 阅读(616) 评论(0) 推荐(0) 编辑
摘要: 第一章 环境准备 1.1 建表语句 hive> -- 创建学生表 DROP TABLE IF EXISTS student; create table if not exists student_info( stu_id string COMMENT '学生id', stu_name string 阅读全文
posted @ 2023-01-15 17:38 王陸 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 一、前言 1.1课程需要哪些前置技术 | | | | | | | | | 技术 | 版本 | 备注 | | idea | 2022.2 | 最新版本 | | jdk | 1.8 | | | mysql-jdbc驱动 | 8.0.27 | 8.0.25+ | | druid | 1.1.21 | | 阅读全文
posted @ 2023-01-06 20:28 王陸 阅读(313) 评论(0) 推荐(1) 编辑
摘要: 一、前端开发和前端开发工具 1、前端开发介绍 前端工程师“Front-End-Developer”源自于美国。大约从2005年开始正式的前端工程师角色被行业所认可,到了2010年,互联网开始全面进入移动时代,前端开发的工作越来越重要。 最初所有的开发工作都是由后端工程师完成的,随着业务越来越繁杂,工 阅读全文
posted @ 2023-01-05 20:25 王陸 阅读(65) 评论(0) 推荐(0) 编辑
摘要: 一、项目介绍 1、介绍 权限管理是所有后台系统都会涉及的一个重要组成部分,而权限管理的核心流程是相似的,如果每个后台单独开发一套权限管理系统,就是重复造轮子,是人力的极大浪费,本项目就是针对这个问题,提供了一套通用的权限解决方案。 项目服务器端架构:SpringBoot + MyBatisPlus 阅读全文
posted @ 2023-01-05 20:20 王陸 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 一、类文件结构 首先获得.class字节码文件 方法: 在文本文档里写入java代码(文件名与类名一致),将文件类型改为.java java终端中,执行javac X:...\XXX.java 以下是字节码文件 0000000 ca fe ba be 00 00 00 34 00 23 0a 00 阅读全文
posted @ 2023-01-02 09:31 王陸 阅读(51) 评论(0) 推荐(0) 编辑
摘要: 一、MyBatis-Plus 1.1 简介 MyBatis-Plus (opens new window)(简称 MP)是一个 MyBatis (opens new window)的增强工具,在 MyBatis 的基础上只做增强不做改变,为简化开发、提高效率而生。 我们的愿景是成为 MyBatis 阅读全文
posted @ 2022-12-26 19:23 王陸 阅读(249) 评论(0) 推荐(0) 编辑
摘要: 10分钟搞懂CAP理论:https://www.bilibili.com/video/BV1Rb4y1W7CD CAP理论基本概念 维基百科中的内容: https://zh.wikipedia.org/wiki/CAP%E5%AE%9A%E7%90%86 在理论计算机科学中,CAP定理(CAP th 阅读全文
posted @ 2022-12-07 21:16 王陸 阅读(90) 评论(0) 推荐(0) 编辑
摘要: 第一章、副本集 - Replica Sets 1.1 简介 MongoDB 中的副本集(Replica Set)是一组维护相同数据集的 mongod 服务。 副本集可提供冗余和高可用性,是所有生产部署的基础。 也可以说,副本集类似于有自动故障恢复功能的主从集群。通俗的讲就是用多台机器进行同一数据的异 阅读全文
posted @ 2022-12-07 21:02 王陸 阅读(59) 评论(0) 推荐(0) 编辑
摘要: 参考翻译自:https://github.com/justmarkham/pandas-videos 导入案例数据集 import pandas as pd import numpy as np drinks = pd.read_csv('http://bit.ly/drinksbycountry' 阅读全文
posted @ 2022-11-18 20:31 王陸 阅读(377) 评论(0) 推荐(0) 编辑
摘要: 一、SCI论文组成部分简介 一篇完整的 sci 论文主要包括以下几个主要的组成部分,从前往后依次分别是 Title 就是说这个文章的标题其次是 Abstract 也就是这个文章的摘要。接下来是 Introduction 就是这篇文章的引言。 Introduction 的后面的话是 Methods,它 阅读全文
posted @ 2022-11-14 13:03 王陸 阅读(396) 评论(1) 推荐(0) 编辑
摘要: 一、Hive表设计优化 1.1 分区表 1.1.1 Hive查询基本原理 Hive的设计思想是通过元数据将HDFS上的文件映射成表,基本的查询原理是当用户通过HQL语句对Hive中的表进行复杂数据处理和计算时,默认将其转换为分布式计算MapReduce程序对HDFS中的数据进行读取处理的过程。 例如 阅读全文
posted @ 2022-11-12 17:13 王陸 阅读(1092) 评论(0) 推荐(0) 编辑
摘要: 1 需求描述 统计硅谷影音视频网站的常规指标,各种TopN指标: 统计视频观看数Top10 统计视频类别热度Top10 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数 统计视频观看数Top50所关联视频的所属类别Rank 统计每个类别中的视频热度Top10,以Music为 阅读全文
posted @ 2022-11-12 12:53 王陸 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 五、窗口函数应用实例 5.1 连续登陆用户 需求 当前有一份用户登录数据如下图所示,数据中有两个字段,分别是userId和loginTime。 userId表示唯一的用户ID,唯一标识一个用户,loginTime表示用户的登录日期,例如第一条数据就表示A在2021年3月22日登录了。 现在需要对用户 阅读全文
posted @ 2022-11-11 14:37 王陸 阅读(220) 评论(0) 推荐(0) 编辑
摘要: 这个项目只有后端,没有前端部分,只适合用来复习SpringBoot后端知识和体系。 B站视频:https://www.bilibili.com/video/BV1AY4y1v7Xe/ https://pan.baidu.com/s/1efT4eY-dLBtNI-OTSUaWgA 提取码:yyds 一 阅读全文
posted @ 2022-10-27 13:18 王陸 阅读(896) 评论(0) 推荐(0) 编辑
摘要: 1. 引入相关包 使用matplotlib包作为绘图库,故要引入相关的包 为了使画出的图更为符合期刊要求,这里引入SciencePlots。 它是一个基于Matplotlib的补充包,里面主要包含了一些以.mplstyle为后缀的图表样式的配置文件。这样,你画图的时候只需要通过调用这些配置文件,就能 阅读全文
posted @ 2022-10-26 20:24 王陸 阅读(359) 评论(0) 推荐(0) 编辑
摘要: 分类算法有很多,不同分类算法又用很多不同的变种。不同的分类算法有不同的特定,在不同的数据集上表现的效果也不同,因此需要根据特定的问题和任务选择合适的算法进行求解。对分类算法给出客观的评价,对算法的选择很有必要。 一、常用术语 为了简化和统一考虑分类问题,我们假设分类目标只有两类,正例(positiv 阅读全文
posted @ 2022-10-26 13:07 王陸 阅读(157) 评论(0) 推荐(0) 编辑