会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大数据技术派
关注公众号:大数据技术派,回复“资料”,领取1000G资料。
首页
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
···
13
下一页
2022年1月1日
2021,我这一年
摘要: 本文也同步到了我的个人博客 2021,我这平凡的一年。 这一年,说它平凡,一点也不为过。似乎从小到大,我所遭遇的一切事物,都是那么的平平常常。没有大起大落,没有日新月异。或许平静的生活只是外表,而内心则是向往大千世界的。 感叹归感叹,还是总结一下这一年的一些平常琐碎,为接下来的一年做好准备铺垫吧。
阅读全文
posted @ 2022-01-01 11:37 大数据技术派
阅读(302)
评论(0)
推荐(3)
2021年12月28日
hbase构建二级索引解决方案
摘要: 关注公众号:大数据技术派,回复“资料”,领取1024G资料。 1 为什么需要二级索引 HBase的一级索引就是rowkey,我们仅仅能通过rowkey进行检索。假设我们相对Hbase里面列族的列列进行一些组合查询,就只能全表扫描了。表如果较大的话,代价是不可接受的,所以要提出二级索引的方案。 二级索
阅读全文
posted @ 2021-12-28 23:51 大数据技术派
阅读(1098)
评论(0)
推荐(0)
2021年12月23日
Hive实战—时间滑动窗口计算
摘要: 关注公众号:大数据技术派,回复: 资料,领取1024G资料。 时间滑动计算 今天遇到一个需求大致是这样的,我们有一个业务涉及到用户打卡,用户可以一天多次打卡,我们希望计算出7天内打卡8次以上,且打卡时间分布在4天以上的时间,当然这只是个例子,我们具体解释一下这个需求 用户一天可以打卡多次,所以要求打
阅读全文
posted @ 2021-12-23 21:58 大数据技术派
阅读(1100)
评论(0)
推荐(2)
2021年12月20日
数仓建模—指标体系
摘要: 关注公众号:大数据技术派,回复资料,领取1024G资料。 指标体系 提起指标这个词,每个人似乎都可以说出几个指标,像经常在工作中会听到的日活、月活、注册率、转化率、交易量等 事实上指标就是用来量化事物的一个工具,帮助我们去将一些抽象的事件得出一个轮廓上的描述。例如我们可以从指标上判断一个产品的好坏,
阅读全文
posted @ 2021-12-20 21:08 大数据技术派
阅读(2041)
评论(0)
推荐(1)
2021年12月16日
Hive实战UDF 外部依赖文件找不到的问题
摘要: 关注公众号:大数据技术派,回复“资料”,领取1000G资料。 其实这篇文章的起源是,我司有数据清洗时将ip转化为类似中国-湖北-武汉地区这种需求。由于ip服务商提供的Demo,只能在本地读取,我需要将ip库上传到HDFS分布式存储,每个计算节点再从HDFS下载到本地。 那么到底能不能直接从HDFS读
阅读全文
posted @ 2021-12-16 12:58 大数据技术派
阅读(703)
评论(0)
推荐(0)
2021年12月12日
Flink Exactly-once 实现原理解析
摘要: 关注公众号:大数据技术派,回复"资料",领取1024G资料。 这一课时我们将讲解 Flink “精确一次”的语义实现原理,同时这也是面试的必考点。 Flink 的“精确一次”处理语义是,Flink 提供了一个强大的语义保证,也就是说在任何情况下都能保证数据对应用产生的效果只有一次,不会多也不会少。
阅读全文
posted @ 2021-12-12 21:43 大数据技术派
阅读(1877)
评论(0)
推荐(0)
2021年12月2日
数仓建模—宽表的设计
摘要: 宽表的设计 其实宽表是数仓里面非常重要的一块,前面我们介绍过了维度表事实表,今天我们介绍一下宽表,前面我们说过了数仓是分层的,这是技术进步和时代变化相结合的产物,数仓的分层式为了更好地管理数仓以及更加高效地进行数据开发。 宽表主要出现在dwd 层和报表层,当然有的人说dws 层也有,宽表,从字面意义
阅读全文
posted @ 2021-12-02 12:48 大数据技术派
阅读(2716)
评论(0)
推荐(1)
2021年11月30日
Hive处理Json数据
摘要: Json 格式的数据处理 Json 数据格式是我们比较常用的的一种数据格式,例如埋点数据、业务端的数据、前后端调用都采用的是这种数据格式,所以我们很有必要学习一下这种数据格式的处理方法 准备数据 cat json.data {"movie":"1193","rate":"5","timeStamp"
阅读全文
posted @ 2021-11-30 22:28 大数据技术派
阅读(947)
评论(0)
推荐(0)
2021年11月29日
Flink 是如何统一批流引擎的
摘要: 关注公众号:大数据技术派,回复“资料”,领取1000G资料。 本文首发于我的个人博客:Flink 是如何统一批流引擎的 2015 年,Flink 的作者就写了 Apache Flink: Stream and Batch Processing in a Single Engine 这篇论文。本文以这
阅读全文
posted @ 2021-11-29 10:28 大数据技术派
阅读(358)
评论(0)
推荐(0)
2021年11月25日
大数据学习路线
摘要: 关注公众号:大数据技术派,回复“资料”,领取1000G资料。 本文首发于我的个人博客:大数据学习路线 前言 要从事计算机行业的工作,不管是什么工作,开发、测试、还是算法等,都是要有一门自己比较熟练的编程语言,编程语言可以是C语言、Java、C等,只要是和你后续工作所相关的就可以(后续用到其他语言的话
阅读全文
posted @ 2021-11-25 22:06 大数据技术派
阅读(2911)
评论(2)
推荐(8)
上一页
1
2
3
4
5
6
7
8
9
···
13
下一页
公告