文章分类 - 大数据成神之路
摘要:整篇文章约2.5万字(不包含引用和连接内容)。 回顾过去 2019-2020年 2021年 本文的行文思路 第一部分:学习路径概览 编程语言(⭐️⭐️⭐️⭐️⭐️) Linux基础(⭐️⭐️⭐️⭐️⭐️) 数据库入门(⭐️⭐️⭐️⭐️⭐️) 计算机基础(⭐️⭐️⭐️⭐️⭐️) Java基础(⭐️⭐️
阅读全文
摘要:在读本文前你应该看过这些: 《我看好数据湖的未来,但不看好数据湖的现在》 《数据湖解决方案关键一环,IceBerg会不会脱颖而出?》 本篇一个总结的增强版。 网上目前关于 Flink 集成 Hudi、IceBerg的资料较少,社区建设不够完善。且因为迭代版本原因,代码过期严重。后面我会专门写一篇Fl
阅读全文
摘要:微众银行开源项目Linkis正式通过Apache软件基金会(ASF)的投票表决,全票通过进入ASF孵化器! Linkis简介 Linkis 在上层应用程序和底层引擎之间构建了一层计算中间件。通过使用Linkis 提供的REST/WebSocket/JDBC 等标准接口,上层应用可以方便地连接访问My
阅读全文
摘要:问题是这样的: HDFS上存储了一个大小10G不可分割压缩格式的文件(gzip格式),当有一个mr任务去读取这个文件的时候会产生多少个map task?spark去读取这种不可分割格式的大文件时是怎么处理的呢? 关于这个问题,大家应该都看过这个: Hadoop所支持的几种压缩格式 gzip文件最大的
阅读全文
摘要:前言 数据准实时复制(CDC)是目前行内实时数据需求大量使用的技术,随着国产化的需求,我们也逐步考虑基于开源产品进行准实时数据同步工具的相关开发,逐步实现对商业产品的替代。本文把市面上常见的几种开源产品,Canal、Debezium、Flink CDC 从原理和适用做了对比,供大家参考。 Debez
阅读全文
摘要:声明 本文根据个人真实经历改编和演绎。文中所有出现的名字均为化名。 本文出于分享和回忆记录的目的,不承担任何读者阅读此文带来的负面责任。本系列和技术无关,周末闲暇时间更新。 2021年9月份的杭州,烈日当头。 文一路自东向西贯穿了杭州的西湖和余杭区,并不宽敞的道路两旁加上长年累月的施工,尘土飞扬。汗
阅读全文
摘要:声明 本文根据个人真实经历改编和演绎。文中所有出现的名字均为化名。 本文出于分享和回忆记录的目的,不承担任何读者阅读此文带来的负面责任。本系列和技术无关,周末闲暇时间更新。 《我的缅甸往事》中的经历是我读书的时候的一段往事,真实经历。周六连载。 整个系列: 《我的缅甸往事(一)》| 初识 平静 曼德
阅读全文
摘要:好兄弟们,是这样的。 周六我还在加班赶方案的时候,收到两个留言。是来求助学习路线和面试准备的。而且都是00后的学妹! 真的离谱。看到没兄弟们。 00后的学妹开始来卷你们了! 而且她们提出的问题都非常专业。正好借着这个机会我们说一下2022年的校/社招情况和需要注意的问题。其中有些问题已经是老生常谈了
阅读全文
摘要:本来我的【Spark重点难点系列】今天要发的文章已经写完了。 但是有两个读者的留言让我内心十分煎熬,我觉得有必要拿出来分享一下。 前两天有一篇《互联网大厂程序员梦醒时分》文章刷屏,如果你没看过可以百度搜一下。 这篇文章里详细讲解了目前整个互联网的形势,我在2021年初的时候写过一篇2021年,开发者
阅读全文
摘要:什么是数据治理? 数据治理是指从使用零散数据变为使用统一数据、从具有很少或没有组织流程到企业范围内的综合数据管控、从数据混乱状况到数据井井有条的一个过程。 从范围来讲,数据治理涵盖了从前端业务系统、后端业务数据库再到业务终端的数据分析,从源头到终端再回到源头,形成的一个闭环负反馈系统。从目的来讲,数
阅读全文
摘要:各位读者大佬们晚上好。 前两天一个读者找到我,问了一些问题。想来大家都是同龄人,虽然素不相识,但是我想起来我前几年刚毕业的时候,大概也是怀揣这样的问题,进入到了这么一个行业。 这个同学的问题大概也是很多新手同学的疑问罢。 这位同学在学校一直学习的是Java后端的工作,「然后现在做实时流平台,岗位是J
阅读全文
摘要:大家可能是武侠小说看多了。 今天有个奇怪的读者问我:你好,请问接到一个需求,应该怎么下手写代码。 我直接呵呵。 这问题要放在刚毕业。我大概的流程是这样的: 沐浴更衣,可能会换上coser装备 做好技术选型并先写技术方案 找个人Review一下方案 然后开始画各种图、设计核心的接口和框架 照着流程图开
阅读全文

浙公网安备 33010602011771号