大数据 - 随笔分类 - 向着朝阳

如何编写airflow脚本

摘要：目录编写 Airflow DAG 的要领1. 核心概念2. DAG 编写规范3. Task 依赖符号4. 常见 Operator 类型Airflow Provider 生态什么是 Provider？类比理解你列出的 Provider 解释用 vs 不用 ProviderProvider 优势你 DA 阅读全文

posted @ 2026-04-14 08:47 向着朝阳阅读(10) 评论(0) 推荐(0)

airflow

摘要：[TOC] 1. Airflow 是如何部署的？为什么日志在宿主机上？我们的 Airflow 是直接安装在 Mac 宿主机上的 Python 进程，不是容器。 Mac 宿主机 ├── Python 进程: airflow webserver (PID=80064, 直接跑在 Mac 上) ├── 阅读全文

posted @ 2026-04-14 08:39 向着朝阳阅读(8) 评论(0) 推荐(0)

架构1

摘要：目录 [ 全局任务调度与编排: Apache Airflow ] (负责定时触发和监控下方所有的流转任务) │ │ 【1. 数据采集与缓冲层】 │ ▼ ┌────────────────────┐ ┌────────────────────┐ │ 鸿蒙设备 (传感器/执行)│ │ AI Agent 阅读全文

posted @ 2026-04-09 11:12 向着朝阳阅读(5) 评论(0) 推荐(0)

架构2

摘要：目录这是一个非常经典的架构选型问题。首先需要纠正一个架构概念：Spark 本身只是一个“计算引擎”，它不能存数据。当业界说“ODS 用 Spark，清洗用 Spark SQL”时，完整的架构其实是：ODS 存储用 HDFS 或 S3 (通常结合 Delta Lake / Iceberg 等数据阅读全文

posted @ 2026-04-09 11:12 向着朝阳阅读(7) 评论(0) 推荐(0)

数据管线需求

摘要：目录需求我所在的公司是做鸿蒙生态的，给企业提供超级设备解决方法。比如我们通过鸿蒙可以看到各个物联网设备的运行情况，通过鸿蒙对超级设备进行控制。当然我们有AI Agent来控制各种超级设备。现在有个需求：我们要把各个企业使用的数据收集，清洗，成为大模型的后训练的数据集。挑战： 1 数据清洗阅读全文

posted @ 2026-04-09 11:11 向着朝阳阅读(8) 评论(0) 推荐(0)

统一数据平台建设

摘要：目录一、业务视角：我们要“做什么”？ (The "What")1. 打通数据孤岛 (Data Unification) - 解决“连接”问题2. 构建标签体系 (Tagging System) - 解决“画像”问题3. 赋能业务场景 (Activation) - 解决“变现”问题二、技术视角：架阅读全文

posted @ 2025-11-22 20:37 向着朝阳阅读(23) 评论(0) 推荐(0)

调度引擎pefect

摘要：目录背景和价值参考资料背景和价值 https://it.sohu.com/a/781308284_120082794 感觉是我能找到的目前最适合开发人员的调度系统了。该项目常用于数据流开发。比如数据清洗、dataset预处理、数据采集、ai训练等场景。参考资料阅读全文

posted @ 2025-09-13 11:24 向着朝阳阅读(4) 评论(0) 推荐(0)

图数据库选择

摘要：目录背景和价值参考资料背景和价值中小企业，使用 neo4j 就够了如果对实时性有极高的要求，使用纯内存的 Memgraph 生产海量数据使用 NebulaGraph https://zhuanlan.zhihu.com/p/1934579376080532306 参考资料阅读全文

posted @ 2025-08-19 15:20 向着朝阳阅读(9) 评论(0) 推荐(0)

数据特征工程-动态标签计算

摘要：动态标签计算 “分析用户行为数据生成动态用户标签”是一个“数据采集→特征提取→标签计算→动态更新→存储调用”的全链路工程，核心要解决实时性、准确性、动态性三个问题。具体技术实现可拆解为以下步骤：一、行为数据的多源实时采集：构建标签的“原料池” 动态标签的基础是“及时获取用户行为信号”，需要覆盖全场阅读全文

posted @ 2025-07-20 10:38 向着朝阳阅读(179) 评论(0) 推荐(0)

aibi1

随笔分类 - 大数据

公告