大数据学习路径

怎么学习大数据

一、当前大数据背景

目前大数据是比较火的概念之一,大数据只是作为了一种基础技术,就像我们日常接触的java一样,在这个基础之上,可以有很多的应用,比如我们经常听说的大数据杀熟,大数据经常听说的各种分析,以及更高级的用户画像,每年年末,我们经常收到的各种分析报告,也经常听说淘宝,抖音比你自己更了解你自己,当然也有在疫情中,通过分析,得到了那些和你同一个车次,最后你的健康码变成了黄色或者红色。当然大数据作为一种基础的能力,体现在我们生活的方方面面,对于大多数人来说,还是比较神秘的,很多人都想学习大数据技术,那么怎么去学呢?

二、当前学大数据的现状

我们经常看到一些大数据的广告,充满了诱惑力的广告词,在广告词里,我们看了他们的课程,就能马上学会大数据,于是掏钱报了一些课程,听的时候也很激动,感觉终于摸到了大数据,但是听了后,感觉自己得做点什么,但是又模模糊糊,一片迷茫,那么问题到底出在了哪里呢?

三、如何学习大数据

有时候是一个很矛盾的观点,有人说:先别管这是什么,现在理解不了没关系,等学着学着就明白了;也有人说:我们应该知道自己学的东西在整个技能树的哪一个位置,学习的过程就是不断补全技能树的过程。哪一种好呢?我觉得都对,补全技能树的这能避免我们管中窥豹,学着不那么盲目,只管埋头学适合我们攻坚,有的知识点很难,但是只要埋头学,终会有顿悟的那一刻。

通常我们学习一个技术都不是盲目去学习的,都是为了想要达到某一个目标,但是这个目标并不能一下子就达到,我们需要对这个目标进行拆解,划分到每一个可以执行的步骤,这些步骤就是一个一个的技能点。有的技能点是难点也是重点,必须要攻克,比如学习flink的时候,里面的watermark,总是不能理解到他的机制和作用,这时候需要找很多资料去学习,资料看不懂,就去搜别人讲的课,最终肯定是会明白的。

四、那么大数据的技能树是什么样子的呢?

大数据的范围这么大,我们感兴趣的,到底在大数据这棵树的什么位置呢? 目前我们经常打开各大招聘软件,看到招大数据最多的岗位是大数据开发,其实大数据开发是一个很大的范围,我所接触到的分为两大类:业务开发,平台开发。

业务开发主要对接一些数据处理的需求,比如算算每天有多少用户登陆过,用户在使用app的过程中可能存在什么问题,根据用户的习惯计算出身份是公务员,还是程序员等等。

平台开发主要是给业务开发提供基础的平台支撑,让他们可以高效,稳定的使用工具实现他们需要的结果,类似于我们需要进行表格处理,需要有一个Excel软件一样,平台开发就是开发出一个Excel软件,让业务开发能用得爽。

4.1业务开发

4.1.1基础技术

业务开发主要是到离线,实时两个方向,离线用的hive,spark,语言主要是sql,这也是我们通常说自己是表哥表姐的原因,主流实时用的spark streaming,flink,相比之下,大趋势是flink,这两个的话,主要语言是java和scala。

最基本的应用层面,也是最直观的就是统计各类数据,然后做出报表,直接讲报告交给各个需求方,最终为公司的经营活动提供支持。

进一步应用是用户画像,推荐系统这类的,其中用户画像对应的是精准营销,类似各种活动,选择哪些人群来做,成本低,效果好,更进一步,分析商品的顾客群体差异,更好的为营销活动服务。背后一些标签到一些用户行为的分类,这里就是会用到机器学习,不多大多数标签,用传统的大数据手段,写sql这种就能得到。

推荐系统对应精准推荐,最基础的就是协同过滤,隐语义模型,这里就基本上是算法了,后面还有更多的算法,这里面还有一个大头是特征工程,如果将用户行为转化为对商品,或者对视屏等的喜爱程度,就是我们传说中的打标签怎么打,当然这一块属于大数据里面的算法组了。

4.1.2业务开发需要掌握的业务知识

4.1.2.1数仓建模

我们常见的建模理论有范式建模,维度建模,其中范式建模是将我们现实世界的东西抽象到计算机能存储的形式进行保存,维度建模通常是业务库已经存在了,然后看看现有的表能做什么事情,然后建立模型,让以后新来的需求,也尽可能落在之前建好的模型上,从而做到快速应对需求。

4.1.2.2指标体系

当我们对接的需求足够多,或者新接到一个需求,应该怎么分析呢?这时候需要使用指标体系,对指标进行分门别类的管理。

4.1.2.3用户画像的时候标签体系

建设用户画像时,需要主题标签体系的设计,主要是设计从那些角度对用户进行描述可以包含用户的基本属性,偏好,身份标签等

大致的总结如下,大数据的组件非常多,更多的组件需要自己去发现,补充

4.2平台开发

还有另一群人属于专门对大数据组件做整合,比如做数据中台产品的,如何通过一个界面,便捷的使用大数据工具,降低使用门槛,提高大数据组件的可靠性。通常我们的业务开发属于数据中台的主线剧情,为了保持主线剧情的良好运行,还会有很多的支线剧情

4.2.1主线剧情

分为实时计算,离线计算,通常分为了数据采集,处理,发布,采集的数据来源很多,处理方式灵活,数据的发布也很灵活,这里通常需要考虑各种大数据组件的选型

4.2.2支线剧情

最基础的包含元数据,数据血缘,数据安全,这是后续一系列应用的基础,在此基础之上,可以做表热度,冷热数据,指标成本,数据成本等

五、结束语

通常我们在学习的过程中往往是多种学习路线混合的,这时候还是得分清楚自己走在哪一条路子上了,避免把自己绕进去,越学越迷茫,当然这只是我的一些理解,肯定会有没接触到的领域,欢迎大家补充。

posted @ 2021-05-29 17:21  Velome  阅读(706)  评论(0)    收藏  举报