数据工程师_数据开发-数据分析-数据建设

清单

基础讲解  
    必知必会系列
    从零开始学习MySQL数据库--从零开始学习duckdb
       了解数据库基础知识	
       学习 SQL 语言语法，练习编写 SQL 语句
    	学习高级 SQL 技术
	数据管理能力--—— ACID，并发访问，访问控制，数据持久性，高可用 
	  —— 也就是数据科学家们不喜欢的那些东西 
	   —— 经典数据库的长处， 	
		
另外一种方式
     由好奇心和直觉引导。参与个人项目 


第二大脑”的理念

数据工程师

 数据流程： pipeline  数据采集-数据流转-数据存储-数据计算-数据应用-数据可视化-数据服务
     集中管理和编排我们的 ETL（提取、转换、加载）

 构建个人的数据pipeline 
    数据存储： s3或者 对象存储 oss cos obs 
    元数据存储： duckdb 
    数据ETL等过程：
    数据可视化 rilldata	
    数据服务： API -- fastapi

理解系统和网络

 网络是怎样连接的
   电网-水网-信号网-铁路网-公路网
   航线-水路

数据质量与数据工程能力

 从工程化角度加速数据到价值的转化过程，数据工作能够保质保量的顺利开展
  保障企业再数据领域的投入能够有价值产出。

数据生命周期

 数据组成形态的视角，可以将数据分为结构化数据、非结构化数据、半结构化数据三种
数据全流程：数据产生-数据收集-数据存储-数据传输-数据处理和数据应用等多个阶段。
数据全流程的不同阶段需要依赖不同的信息系统进行落地，落地的过程中涉及的工程实践统称为数据工程
数据从哪里来，到哪里去，怎么使用？

特点

数据收集： 无侵入性原则	 无修改原则  是可追溯原则
数据预处理 ： 数据清洗、数据标注、编码等  
数据计算： ： 数据模型建立、ETL 计算，以及业务标签构建
数据服务与应用：数据 API、BI 报表、AI 模型的应用
数据治理：数据资产、数据标准、数据质量、元数据、数据安全与隐私等，

数据工程角度

 数据梳理、数据架构设计、数据接入、数据处理、数据测试、数据安全和能力复用     

 数据工程落实阶段
      包含了需求、设计、构建、测试、维护演进等阶段，
      涵盖了项目管理、开发过程管理、工程工具与方法、构建管理、质量管理，
      是一套为了应对规模化生产和使用数据、为业务提供数据支撑，
      最终产生价值的体系

企业中的产生源头、组织形态等：

 企业特点：生产型企业：如 ERP、CRM 等系统产生；
           服务型企业：则数据主要在不同类型的在线系统产生
 企业的“数据形态”：企业对于数据不同的诉求		   
信息化-数字化-智能化   --流程化管理-业务管理
     系统自动化、数据模型化与智能化
数据研发能力建设--	 
   理想的形态应该是在标准化接口下的可插拔式的工具集合
      研发的核心是研发团队，有团队必然有协作，有协作必然有流程，流程太长会导致效率低下，而流程过少会导致管理手段失效
	研发效能评价体系。速度类 耗时类 质量类

数据工程的价值体现的价值体系

愿景对齐、落地实施、持续运营三
三步走战略：数据愿景对齐、数据工程落地实施、数据持续运营。
   数据愿景对齐：括业务场景价值的的探索识别、优先级评估、数据架构设计、技术架构设计等
   数据平台的建设落地，
   数据持续运营
   
梳理当前数据现状，
     如当前数据模型有哪些、数据质量如何，业务价值场景是否有数据支撑；
再梳理数据要给谁使用，
   通过分析不同数据角色的数据用户旅程，
围绕业务愿景对物理世界的业务构建出数据全景 
    业务价值场景需要包含
	  场景的背景、价值点、所涉及的用户、
	  需要什么样的能力、用户旅程、所涉及的实体、风险等信息

看那些书

Unix&Linux大学教程
    是美国计算机专家Harley Hahn编著、清华大学出版社2010年出版的计算机教材
	通过短章节结构聚焦指令原理与实操应用，辅以命令分类表、正则表达式等实用附录，
	 采用幽默叙事风格降低学习门槛，适合不同层次的操作系统学习者。
	 
R语言经典实例   R cookbook
    采用任务驱动式编写模式，兼顾工具书的功能性与技术深度
    本书以问题解决为导向，收录200余个实用案例，涵盖R语言基础操作、数据导入导出、矩阵运算及统计分析等核心应用
	
     Python入门经典:以解决计算问题为导向的Python编程实践
     Practice of Computing Using Python, The, 3rd edition 2021    		
	Python入门经典，以解决计算问题为导向的Python编程实践，是一个非常好的学习路径
	
   C++ Primer	 经典教程
   《C++ Primer》是由Stanley B. Lippman、Josée Lajoie和Barbara E. Moo合著的编程教程
   
涂抹MySQL——跟着三思一步一步学MySQL
    不是依次讲特性，而要依据用户接触和学习MySQL的脉络去把握内容的安排。
    本书主要侧重于MySQL数据库从无到有及其安装、配置、管理、优化的过程，其中穿插介绍数据导入导出，性能/状态监控，备份恢复和优化方面等内容

数据集

  数据集
   数据集的组织形式和工具以及SDK
    非结构化数据通常会带来两大挑战： 
       存储，因为其数据规模通常大于结构化数据
       分析，因为其不像分析结构化数据那样直观
    	    	
    数据格式和数据存储    	
        结构化数据和非结构化数据 
             非结构化数据的处理方式--直接通过大模型和AI算法来构建
             从非结构化数据中提取结构化信息 
    数据分析 
        非结构化数据没有预定义的属性，因此更难搜索和组织。通常，非结构化数据需要复杂的算法来预处理、操作和分析
    
    数据集
        多种模态（音频、图像、视频等）和
    	文件格式（CSV、JSON、Parquet 等）
    	压缩格式（Gzip、Zip 等） 
        文件的组织结构
             存储方式： 
        	     tar  tar.gz  tar.lz4 	
        		 meta/
	数据集管理：
	    . 数据集验证工具	
        . 数据集可视化工具
        . 数据集转换工具	
    API和SDK
        API类型包括：
          Web API：通过 HTTP 协议进行通信，通常用于网页和服务器之间的数据交换。
           库 API：程序库提供的接口，用于实现特定功能，如数学运算库。
         系统 API：操作系统提供的接口，允许应用访问系统资源，如文件系统或硬件设备。
      	SDK，全称是 Software Development Kit，即软件开发工具包
数据构建过程管理
     数据同源管理--过程以及最终结果管理	 https://www.datacamp.com/blog/top-sql-interview-questions-and-answers-for-beginners-and-intermediate-practitioners

参考

  https://www.biaodianfu.com/aboutme.html
     定位为个人知识库，整理的内容都是自己工作过程中的一些资料或者心得
	 回顾自己以前写的内容：
       很大一部分内容非常的基础，没有什么参考意义
       另有很大一部分由于技术的变更，已经被淘汰
	 内容进行梳理
	    体系化的对所有文章进行组织
		温故知新 去芜存菁
   不是学习如何编程，而是在学习如何完成那个任务。

posted @ 2025-08-19 19:45 辰令阅读(17) 评论(0) 收藏举报

刷新页面返回顶部

辰令

辰时令节

数据工程师_数据开发-数据分析-数据建设

清单

数据工程师

理解系统和网络

数据质量与数据工程能力

数据生命周期

特点

数据工程角度

企业中的产生源头、组织形态等：

数据工程的价值体现的价值体系

看那些书

数据集

参考