数据工程师_数据开发-数据分析-数据建设

清单

基础讲解  
    必知必会系列
    从零开始学习MySQL数据库--从零开始学习duckdb
       了解数据库基础知识	
       学习 SQL 语言语法,练习编写 SQL 语句
    	学习高级 SQL 技术
	数据管理能力--—— ACID,并发访问,访问控制,数据持久性,高可用 
	  —— 也就是数据科学家们不喜欢的那些东西 
	   —— 经典数据库的长处, 	
		
另外一种方式
     由好奇心和直觉引导。参与个人项目 


第二大脑”的理念

数据工程师

 数据流程: pipeline  数据采集-数据流转-数据存储-数据计算-数据应用-数据可视化-数据服务
     集中管理和编排我们的 ETL(提取、转换、加载)

 构建个人的数据pipeline 
    数据存储: s3或者 对象存储 oss cos obs 
    元数据存储: duckdb 
    数据ETL等过程:
    数据可视化 rilldata	
    数据服务: API -- fastapi	

理解系统和网络

 网络是怎样连接的
   电网-水网-信号网-铁路网-公路网
   航线-水路	   

数据质量与数据工程能力

 从工程化角度加速数据到价值的转化过程,数据工作能够保质保量的顺利开展
  保障企业再数据领域的投入能够有价值产出。

数据生命周期

 数据组成形态的视角,可以将数据分为结构化数据、非结构化数据、半结构化数据三种
数据全流程:数据产生-数据收集-数据存储-数据传输-数据处理和数据应用等多个阶段。
数据全流程的不同阶段需要依赖不同的信息系统进行落地,落地的过程中涉及的工程实践统称为数据工程
数据从哪里来,到哪里去,怎么使用?

特点

数据收集: 无侵入性原则	 无修改原则  是可追溯原则
数据预处理 : 数据清洗、数据标注、编码等  
数据计算: : 数据模型建立、ETL 计算,以及业务标签构建
数据服务与应用:数据 API、BI 报表、AI 模型的应用
数据治理:数据资产、数据标准、数据质量、元数据、数据安全与隐私等,

数据工程角度

 数据梳理、数据架构设计、数据接入、数据处理、数据测试、数据安全和能力复用     

 数据工程落实阶段
      包含了需求、设计、构建、测试、维护演进等阶段,
      涵盖了项目管理、开发过程管理、工程工具与方法、构建管理、质量管理,
      是一套为了应对规模化生产和使用数据、为业务提供数据支撑,
      最终产生价值的体系

企业中的产生源头、组织形态等:

 企业特点:生产型企业:如 ERP、CRM 等系统产生;
           服务型企业:则数据主要在不同类型的在线系统产生
 企业的“数据形态”:企业对于数据不同的诉求		   
信息化-数字化-智能化   --流程化管理-业务管理
     系统自动化、数据模型化与智能化
数据研发能力建设--	 
   理想的形态应该是在标准化接口下的可插拔式的工具集合
      研发的核心是研发团队,有团队必然有协作,有协作必然有流程,流程太长会导致效率低下,而流程过少会导致管理手段失效
	研发效能评价体系。速度类 耗时类 质量类  
数据工程的价值体现的价值体系
愿景对齐、落地实施、持续运营三
三步走战略:数据愿景对齐、数据工程落地实施、数据持续运营。
   数据愿景对齐:括业务场景价值的的探索识别、优先级评估、数据架构设计、技术架构设计等
   数据平台的建设落地,
   数据持续运营
   
梳理当前数据现状,
     如当前数据模型有哪些、数据质量如何,业务价值场景是否有数据支撑;
再梳理数据要给谁使用,
   通过分析不同数据角色的数据用户旅程,
围绕业务愿景对物理世界的业务构建出数据全景 
    业务价值场景需要包含
	  场景的背景、价值点、所涉及的用户、
	  需要什么样的能力、用户旅程、所涉及的实体、风险等信息			

看那些书

Unix&Linux大学教程
    是美国计算机专家Harley Hahn编著、清华大学出版社2010年出版的计算机教材
	通过短章节结构聚焦指令原理与实操应用,辅以命令分类表、正则表达式等实用附录,
	 采用幽默叙事风格降低学习门槛,适合不同层次的操作系统学习者。
	 
R语言经典实例   R cookbook
    采用任务驱动式编写模式,兼顾工具书的功能性与技术深度
    本书以问题解决为导向,收录200余个实用案例,涵盖R语言基础操作、数据导入导出、矩阵运算及统计分析等核心应用
	
     Python入门经典:以解决计算问题为导向的Python编程实践
     Practice of Computing Using Python, The, 3rd edition 2021    		
	Python入门经典,以解决计算问题为导向的Python编程实践,是一个非常好的学习路径
	
   C++ Primer	 经典教程
   《C++ Primer》是由Stanley B. Lippman、Josée Lajoie和Barbara E. Moo合著的编程教程
   
涂抹MySQL——跟着三思一步一步学MySQL
    不是依次讲特性,而要依据用户接触和学习MySQL的脉络去把握内容的安排。
    本书主要侧重于MySQL数据库从无到有及其安装、配置、管理、优化的过程,其中穿插介绍数据导入导出,性能/状态监控,备份恢复和优化方面等内容	

数据集

  数据集
   数据集的组织形式和工具以及SDK
    非结构化数据通常会带来两大挑战: 
       存储,因为其数据规模通常大于结构化数据
       分析,因为其不像分析结构化数据那样直观
    	    	
    数据格式和数据存储    	
        结构化数据和非结构化数据 
             非结构化数据的处理方式--直接通过大模型和AI算法来构建
             从非结构化数据中提取结构化信息 
    数据分析 
        非结构化数据没有预定义的属性,因此更难搜索和组织。通常,非结构化数据需要复杂的算法来预处理、操作和分析
    
    数据集
        多种模态(音频、图像、视频等)和
    	文件格式(CSV、JSON、Parquet 等)
    	压缩格式(Gzip、Zip 等) 
        文件的组织结构
             存储方式: 
        	     tar  tar.gz  tar.lz4 	
        		 meta/
	数据集管理:
	    . 数据集验证工具	
        . 数据集可视化工具
        . 数据集转换工具	
    API和SDK
        API类型包括:
          Web API:通过 HTTP 协议进行通信,通常用于网页和服务器之间的数据交换。
           库 API:程序库提供的接口,用于实现特定功能,如数学运算库。
         系统 API:操作系统提供的接口,允许应用访问系统资源,如文件系统或硬件设备。
      	SDK,全称是 Software Development Kit,即软件开发工具包
数据构建过程管理
     数据同源管理--过程以及最终结果管理	 https://www.datacamp.com/blog/top-sql-interview-questions-and-answers-for-beginners-and-intermediate-practitioners	   

参考

  https://www.biaodianfu.com/aboutme.html
     定位为个人知识库,整理的内容都是自己工作过程中的一些资料或者心得
	 回顾自己以前写的内容:
       很大一部分内容非常的基础,没有什么参考意义
       另有很大一部分由于技术的变更,已经被淘汰
	 内容进行梳理
	    体系化的对所有文章进行组织
		温故知新 去芜存菁
   不是学习如何编程,而是在学习如何完成那个任务。		
posted @ 2025-08-19 19:45  辰令  阅读(15)  评论(0)    收藏  举报