摘要: 使用mysql --linux远程连接mysql(注意端口号的P大写) mysql -h 132.252.34.47 -P 8922 -u summer -p hello123 --显示库rouproup show databases; --选择数据库 use db1; --显示表 show tab 阅读全文
posted @ 2022-01-27 10:19 等木鱼的猫 阅读(55) 评论(0) 推荐(0) 编辑
摘要: 1.数仓模型 1.1建模方法 ER模型: ​ 常用于OLTP数据库建模 维度模型: ​ 面向分析场景而生;对称易扩展 1.2星型/雪花 星型模型: ​ 一个事实表+多个维度表;事实表和维度表通过主键外键相连; ​ 数据冗余;查询逻辑简单,查询性能高 雪花模型: ​ 部分维度表没有直接连到事实表; ​ 阅读全文
posted @ 2022-01-27 10:10 等木鱼的猫 阅读(77) 评论(0) 推荐(0) 编辑
摘要: replace replace('将要更改的字符串','被替换掉的字符串','替换字符串') --几个常用的chr()函数: chr(9) --制表符 chr(10) --换行符 chr(13) --回车符 chr(32) --空格符 chr(34) --双引号“"” replace('111<br 阅读全文
posted @ 2022-01-27 10:05 等木鱼的猫 阅读(69) 评论(0) 推荐(0) 编辑
摘要: hive是基于Hadoop的一个数据仓库系统 select * from user_table where id='1'; explain select * from user_table where id='1'; type为ALL,全表扫描的性能是最差的 explain 分析sql语句 使用ex 阅读全文
posted @ 2021-02-24 17:36 等木鱼的猫 阅读(390) 评论(0) 推荐(0) 编辑
摘要: ################################# ↗ 标签正排redis=默认召回=超期过滤=排序=默认推荐列表redis ↗相似文章列表=实时召回 新闻内容=kafka→内容分析 → 倒排索引 ↘hdfs ↘ 内容去重 hdfs 浏览器客户端=日志采集服务器=kafka=流模型= 阅读全文
posted @ 2021-02-10 13:55 等木鱼的猫 阅读(84) 评论(0) 推荐(0) 编辑
摘要: ↗ 标签正排redis 默认召回 超期过滤 排序 默认推荐列表redis ↗相似文章列表 实时召回 新闻内容=kafka→内容分析 → 倒排索引 ↘hdfs ↘ 内容去重=hdfs 浏览器客户端=日志采集服务器=kafka=流模型=短时画像=短时兴趣redis=短时兴趣召回=已推过滤=短时土建列表r 阅读全文
posted @ 2021-02-08 17:31 等木鱼的猫 阅读(68) 评论(0) 推荐(0) 编辑
摘要: ######################################## spark性能调优 一.开发调优 1.避免创建重复的RDD 2.尽量复用RDD 3.多次使用的RDD要持久化: 因为RDD执行一个算子操作时,都会重新从源头处计算一遍;持久化的结果会保存到内存或磁盘中; 持久化级别 M 阅读全文
posted @ 2021-02-05 15:21 等木鱼的猫 阅读(122) 评论(0) 推荐(0) 编辑
摘要: simhash simhash 分词→hash→加权→合并→降维 两个simhash对应二进制(01串)取值不同的数量称为这两个simhash的海明距离(异或运算) 分表存储策略: 将一个64位的simhash签名拆分成4个16位的二进制码 编码 import org.apache.spark.sq 阅读全文
posted @ 2021-02-05 14:08 等木鱼的猫 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 一.基本介绍 Hive是基于Hadoop的一个数据仓库工具,底层数据存储在HDFS上;可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能 Hive本质是将SQL语句转换为MapReduce任务运行 其他知识: DML(data manipulation language)数据操控语言 阅读全文
posted @ 2020-12-31 17:33 等木鱼的猫 阅读(163) 评论(0) 推荐(0) 编辑
摘要: =# simhash simhash 分词→hash→加权→合并→降维 两个simhash对应二进制(01串)取值不同的数量称为这两个simhash的海明距离(异或运算) 分表存储策略: 将一个64位的simhash签名拆分成4个16位的二进制码 编码 import org.apache.spark 阅读全文
posted @ 2020-12-31 17:28 等木鱼的猫 阅读(254) 评论(0) 推荐(0) 编辑