清单
基础讲解
必知必会系列
从零开始学习MySQL数据库--从零开始学习duckdb
了解数据库基础知识
学习 SQL 语言语法,练习编写 SQL 语句
学习高级 SQL 技术
数据管理能力--—— ACID,并发访问,访问控制,数据持久性,高可用
—— 也就是数据科学家们不喜欢的那些东西
—— 经典数据库的长处,
另外一种方式
由好奇心和直觉引导。参与个人项目
第二大脑”的理念
数据工程师
数据流程: pipeline 数据采集-数据流转-数据存储-数据计算-数据应用-数据可视化-数据服务
集中管理和编排我们的 ETL(提取、转换、加载)
构建个人的数据pipeline
数据存储: s3或者 对象存储 oss cos obs
元数据存储: duckdb
数据ETL等过程:
数据可视化 rilldata
数据服务: API -- fastapi
理解系统和网络
网络是怎样连接的
电网-水网-信号网-铁路网-公路网
航线-水路
数据质量与数据工程能力
从工程化角度加速数据到价值的转化过程,数据工作能够保质保量的顺利开展
保障企业再数据领域的投入能够有价值产出。
数据生命周期
数据组成形态的视角,可以将数据分为结构化数据、非结构化数据、半结构化数据三种
数据全流程:数据产生-数据收集-数据存储-数据传输-数据处理和数据应用等多个阶段。
数据全流程的不同阶段需要依赖不同的信息系统进行落地,落地的过程中涉及的工程实践统称为数据工程
数据从哪里来,到哪里去,怎么使用?
特点
数据收集: 无侵入性原则 无修改原则 是可追溯原则
数据预处理 : 数据清洗、数据标注、编码等
数据计算: : 数据模型建立、ETL 计算,以及业务标签构建
数据服务与应用:数据 API、BI 报表、AI 模型的应用
数据治理:数据资产、数据标准、数据质量、元数据、数据安全与隐私等,
数据工程角度
数据梳理、数据架构设计、数据接入、数据处理、数据测试、数据安全和能力复用
数据工程落实阶段
包含了需求、设计、构建、测试、维护演进等阶段,
涵盖了项目管理、开发过程管理、工程工具与方法、构建管理、质量管理,
是一套为了应对规模化生产和使用数据、为业务提供数据支撑,
最终产生价值的体系
企业中的产生源头、组织形态等:
企业特点:生产型企业:如 ERP、CRM 等系统产生;
服务型企业:则数据主要在不同类型的在线系统产生
企业的“数据形态”:企业对于数据不同的诉求
信息化-数字化-智能化 --流程化管理-业务管理
系统自动化、数据模型化与智能化
数据研发能力建设--
理想的形态应该是在标准化接口下的可插拔式的工具集合
研发的核心是研发团队,有团队必然有协作,有协作必然有流程,流程太长会导致效率低下,而流程过少会导致管理手段失效
研发效能评价体系。速度类 耗时类 质量类
数据工程的价值体现的价值体系
愿景对齐、落地实施、持续运营三
三步走战略:数据愿景对齐、数据工程落地实施、数据持续运营。
数据愿景对齐:括业务场景价值的的探索识别、优先级评估、数据架构设计、技术架构设计等
数据平台的建设落地,
数据持续运营
梳理当前数据现状,
如当前数据模型有哪些、数据质量如何,业务价值场景是否有数据支撑;
再梳理数据要给谁使用,
通过分析不同数据角色的数据用户旅程,
围绕业务愿景对物理世界的业务构建出数据全景
业务价值场景需要包含
场景的背景、价值点、所涉及的用户、
需要什么样的能力、用户旅程、所涉及的实体、风险等信息
看那些书
Unix&Linux大学教程
是美国计算机专家Harley Hahn编著、清华大学出版社2010年出版的计算机教材
通过短章节结构聚焦指令原理与实操应用,辅以命令分类表、正则表达式等实用附录,
采用幽默叙事风格降低学习门槛,适合不同层次的操作系统学习者。
R语言经典实例 R cookbook
采用任务驱动式编写模式,兼顾工具书的功能性与技术深度
本书以问题解决为导向,收录200余个实用案例,涵盖R语言基础操作、数据导入导出、矩阵运算及统计分析等核心应用
Python入门经典:以解决计算问题为导向的Python编程实践
Practice of Computing Using Python, The, 3rd edition 2021
Python入门经典,以解决计算问题为导向的Python编程实践,是一个非常好的学习路径
C++ Primer 经典教程
《C++ Primer》是由Stanley B. Lippman、Josée Lajoie和Barbara E. Moo合著的编程教程
涂抹MySQL——跟着三思一步一步学MySQL
不是依次讲特性,而要依据用户接触和学习MySQL的脉络去把握内容的安排。
本书主要侧重于MySQL数据库从无到有及其安装、配置、管理、优化的过程,其中穿插介绍数据导入导出,性能/状态监控,备份恢复和优化方面等内容
数据集
数据集
数据集的组织形式和工具以及SDK
非结构化数据通常会带来两大挑战:
存储,因为其数据规模通常大于结构化数据
分析,因为其不像分析结构化数据那样直观
数据格式和数据存储
结构化数据和非结构化数据
非结构化数据的处理方式--直接通过大模型和AI算法来构建
从非结构化数据中提取结构化信息
数据分析
非结构化数据没有预定义的属性,因此更难搜索和组织。通常,非结构化数据需要复杂的算法来预处理、操作和分析
数据集
多种模态(音频、图像、视频等)和
文件格式(CSV、JSON、Parquet 等)
压缩格式(Gzip、Zip 等)
文件的组织结构
存储方式:
tar tar.gz tar.lz4
meta/
数据集管理:
. 数据集验证工具
. 数据集可视化工具
. 数据集转换工具
API和SDK
API类型包括:
Web API:通过 HTTP 协议进行通信,通常用于网页和服务器之间的数据交换。
库 API:程序库提供的接口,用于实现特定功能,如数学运算库。
系统 API:操作系统提供的接口,允许应用访问系统资源,如文件系统或硬件设备。
SDK,全称是 Software Development Kit,即软件开发工具包
数据构建过程管理
数据同源管理--过程以及最终结果管理 https://www.datacamp.com/blog/top-sql-interview-questions-and-answers-for-beginners-and-intermediate-practitioners
参考
https://www.biaodianfu.com/aboutme.html
定位为个人知识库,整理的内容都是自己工作过程中的一些资料或者心得
回顾自己以前写的内容:
很大一部分内容非常的基础,没有什么参考意义
另有很大一部分由于技术的变更,已经被淘汰
内容进行梳理
体系化的对所有文章进行组织
温故知新 去芜存菁
不是学习如何编程,而是在学习如何完成那个任务。