随笔分类 -  数据仓库

摘要:1.配置好jdk1.8和maven3.6.3的环境(linux 和win环境均可,win上可以安装个git,用git bash窗口操作) 2.进入hive3.1.2源码目录 执行 mvn clean package -Pdist -DskipTests -Dmaven.javadoc.skip=tr 阅读全文
posted @ 2022-01-07 16:19 夏天换上冬装 阅读(636) 评论(0) 推荐(0)
摘要:需求: 统计最热门的课程Top10 http://bigdata.com/course/458655.html => 458655 http://bigdata.com/course/458655/2.html?a=b&c=d => 458655_2 解析后再统计课程Top10 1.使用 MockC 阅读全文
posted @ 2021-11-18 15:42 夏天换上冬装 阅读(29) 评论(0) 推荐(0)
摘要:1 ''' 2 --*************************************************************** 3 --*脚本名称: excelToJson 4 --*功能: excel-》json 5 --*输入数据:excel 带列名俩列 6 --*输出数据: 阅读全文
posted @ 2021-10-27 17:34 夏天换上冬装 阅读(539) 评论(0) 推荐(0)
摘要:背景: 本次目标是跨服务器将mysql的全部数据迁移,从Ubuntu 18.04 mysql 5.7.33, for Linux (x86_64) -> CentOS Linux release 7.8.2003 (Core) mysql 5.7.24, for linux-glibc2.12 (x 阅读全文
posted @ 2021-02-24 17:30 夏天换上冬装 阅读(182) 评论(0) 推荐(0)
摘要:为了将数据仓库设计过程中excel中设计的物理模型高效转换成标准的Hive建表语句,我用 python开发了如下的工具 createDdlSql.py: 功能:实现将excel中的物理模型转换成建表语句文件 输入:当前目录文件名为“数据模型.xls”或“数据模型.xlsx”的excel,模型结尾必须 阅读全文
posted @ 2020-05-30 14:07 夏天换上冬装 阅读(599) 评论(0) 推荐(0)
摘要:在实践数据仓库的建设中,越发感受到规范的重要性,总结出以下几点。 模型设计图 阅读全文
posted @ 2020-05-28 20:45 夏天换上冬装 阅读(183) 评论(0) 推荐(1)
摘要:1.什么是拉链表 拉链表是根据数据存储得方式而定义的,记录每天信息的生命周期,一旦一条记录的生命周期结束,就开始新的一条记录,并把当前日期作为生效日期。 2.为什么要做拉链表 有一些表的数据量很大,比如一张用户表,大约10亿条记录,50个字段,这种表,即使使用ORC压缩,单张表的存储也会超过100G 阅读全文
posted @ 2020-04-22 11:34 夏天换上冬装 阅读(1263) 评论(1) 推荐(2)
摘要:为什么要给表加上主键? 为什么加索引后会使查询变快? 为什么加索引后会使写入、修改、删除变慢? 什么情况下要同时在两个字段上建索引? 这些问题他们可能不一定能说出答案。知道这些问题的答案有什么好处呢?如果开发的应用使用的数据库表中只有1万条数据,那么了解与不了解真的没有差别, 然而, 如果开发的应用 阅读全文
posted @ 2020-04-21 11:02 夏天换上冬装 阅读(850) 评论(0) 推荐(0)
摘要:在python脚本里执行: 1 sql_gp1 = "VACUUM dwd_access_record_inout_temp" 2 sql_gp2 = "delete from dwd_access_record_inout_temp t where t.indate > (select now() 阅读全文
posted @ 2019-04-24 13:57 夏天换上冬装 阅读(3903) 评论(0) 推荐(0)
摘要:举个例子: table name:makerar cname | wmname | avg + + canada | zoro | 2.0000000000000000 spain | luffy | 1.00000000000000000000 spain | usopp | 5.00000000 阅读全文
posted @ 2019-04-18 21:27 夏天换上冬装 阅读(2177) 评论(0) 推荐(0)