资料工程师,你都在做些什么?

资料工程师,你都在做些什么?

在这篇文章中将会介绍资料工程师是什么,日常的工作内容

Photo by 亚当·诺瓦科夫斯基 ****on 不飞溅

你是否正打算踏入资料工程的领域而正犹豫不决呢?恭喜你,你已经做出个不错的选择。

资料工程师就像是资料的保母一样,而资料就是我们的孩子,目标是对资料的一生照顾得无微不致,资料的一生包含了资料格式拟定、萃取、映射、转换、品质、载入、分析等。

总而言之,我们的任务是建构和维护能够为公司搜集、储存和分析大资料的系统。

Photo on Lakefs.io

在对资料工程师基本的认识后,让我们来看看资料工程师都在做些什么吧,各章节也容我分享一下在 KKday 做Data 是怎样一番体验

了解资料需求方

踏入资料工程总会有接不完的资料需求,然而资料的起源总来自于人性,身为资料工程师可以根据 黄金圈法则 一步步了解需求方的想法以及对公司了好处,进而言之做出最佳的判断。

在KKday 来说资料需求从四面八方而来,部门涵括行销、业务、客服、资讯等,因需求方所涵盖范围非常之广,因此我们成立了 资料需求小组 ,团队组成由各个资料团队包含BI 、AI、Data 等团队,共同依照 黄金圈法则 了解需求方并制定严谨规范,不让我们辛苦产出的黄金白白流失掉。

  • 为什么(WHY) — — 了解需求方为什么需要这个资料。
  • 如何 (HOW) — — 该如何获取这个资料以及如何将此资料运送至指定的目的地。
  • 什么(WHAT) — — 这个资料能带给需求方甚至公司什么影响与价值。

身为资料工程师除了会搜集符合需求的资料,也需要有判断获取资料所带来的价值与工时的衡量,做出最符合效益的决定。

建立资料流

资料工程有将近80 % 的工作量都在搭建资料流,确保对的源头以及正确的出口是我们后续资料建模与分析最重要的基底,而整个资料流动的过程不外乎围绕在萃取(extract)、转换(transform) 和载入(load)。

根据所需的资料类型大致可分为两种管道:

  • 流式管道 ( streaming) — — 搜集连续不间断的资料,这类型的资料大多以时间序列为主。
  • 批量处理管道 ( batch-focused) — — 定期批量搜集资料,常见的有透过API 获取客户公司提供的相关资料,以及使用爬虫抓取网页资讯。

为了提供更即时且更有影响力的推荐商品,在KKday 有将近70 % 的推荐引擎都是仰赖streaming,经由流式运算每分每秒算出用户的千人千面,每当用户想法改变导致行为不一样了,我们皆能及时触发提供最具影响力的推荐结果。

最后,这些资料管道从各种源头搜集相关资料,并将资料导入各个目的地,例如:data lake、data warehouse、data lakehouse。

提供可使用资料的平台

当搜集完资料后我们完成了第一步,我们还必须重塑与清理这些资料,完成此重塑过程是为了清理资料以使其更具影响力。它还有助于为无资料经验的伙伴提供较一目了然的资料呈现,然而资料是需要被看见被使用才能发挥它的价值。

KKday 中除了资料分析师或资料科学家外,行销、营运甚至是业务部门都是我们的资料探险家,所以我们根据不同背景的使用者提供符合他们的资料平台。

在无程式背景的伙伴,Tableau、Excel、Data Studio 或许是他们的首选;而Pandas 则资料科学家或分析师的一个好选择。这些工具都是为了将资料以更易于阅读和操作呈现给使用者。所以资料工程师需要拥有多种资料平台的经验与对资料维度以及呈现方式的理解,提供最适合的资料平台。

维运与效能优化

资料工程师需要负责优化各种效能,例如,资料的查询效能、导入速度、管线的重工性与复用性。

优化是一项需定期实施且长时间不断执行工作。也许资料的查询的速度已经跟不上使用者所能等待的时间,或者资料的导入时间超过了资料的周期时间,抑或是资料管线因长时间不断迭代导致管线重工缺乏一致性。

我们的工作是解决问题并确定需要采取哪些步骤来修复问题。以优化查询来说,资料工程师可能需要修改或创建新索引以满足资料不断增长造成大资料查询速度的下降,建立分区或重组资料集以提高效率。

成为一位优秀的资料工程师

资料工程师是创造性的问题解决者;经常开辟新的途径来铺设基础建设和支撑架构,以保持永远跑在资料需求方的前面。优秀的资料工程师还能够预见未来,并规划可扩展的系统以满足不断变化的业务需求。而他们需要拥有哪些特质呢?

对资料敏感

最重要的,喜欢资料并且享受资料。资料工程师喜欢资料,并且知道资料源头、流动路径且流向何处以及资料发生异常时能及时判断问题所在。以 KKday 资料来说,资料包含— — 人、旅游、住宿、交通等。你喜欢思考资料以及资料如何组合和融合,以便资料科学家与分析师可以建立逻辑分析与模型构建准备。如果你符合这点,资料工程会是你完美的选择。

喜欢搭建属于自己的系统

Photo by 凯利·西克玛 **** on 不飞溅

资料工程师经常打造资料流,需先与资料需求方了解资料源、清理过程、资料如何落地。我会将这个过程好比建构乐高一样,有了建构蓝图我们需要一步步照着说明书打造属于自己的资料流架构。接着使工作流程自动化。我们会自动化监控、资料资料,协助资料科学家将资料偏移与品质的检查自动化,接着将ML 模型或统计模型导入API 中成为站上的模型服务。

享受建构资料流的同时,需要解决日常发生的各种问题。每天都有机会处理涉及将资料从一个点转移到另一个点的难题。而如何解决难题并找出最佳解法正是资料工程有趣之处。

乐于接受新技术

资料的类型千变万化。资料架构永远没有统一解法只有符合各种资料的最佳解法,当资料量较小且较单纯时,传统资料库的集中式系统或许是个好选择。而当资料变得庞大且难以负荷时,如何解决一个工作量太大而无法处理的资料集,以及如何将处理分布到多个节点上,这也是需要考量的地方。

我们将不断尝试新技术,找出最适合各个问题的工具,建构出最符合公司需求的资料架构。

还有什么等着你去挖掘?

透过此篇的介绍先让读者对一日资料工程师的工作内容有所了解。 KKday 的伙伴们接下来会有更多资料工程相关的分享,慢慢地介绍目前在KKday 搭建的资料技术堆叠与资料架构,让不管是正想了解资料工程或是已经在这条路上的朋友都能与我们交流。

参考

[

数据工程师的一天——数据工程师做什么?

它适合你吗?

媒体网

](/coriers/day-in-the-life-of-a-data-engineer-what-do-data-engineers-do-e7d4d8c22f03)

[

你是谁的数据工程师?

谁是数据工程师?他需要知道什么?他的职责是什么,在……中面临的挑战是什么?

向datascience.com

](https://towardsdatascience.com/who-are-you-data-engineer-8febb06552a)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/22898/56310909

posted @ 2022-09-09 09:56  哈哈哈来了啊啊啊  阅读(64)  评论(0)    收藏  举报