随笔分类 -  大数据

摘要:目录编写 Airflow DAG 的要领1. 核心概念2. DAG 编写规范3. Task 依赖符号4. 常见 Operator 类型Airflow Provider 生态什么是 Provider?类比理解你列出的 Provider 解释用 vs 不用 ProviderProvider 优势你 DA 阅读全文
posted @ 2026-04-14 08:47 向着朝阳 阅读(10) 评论(0) 推荐(0)
摘要:[TOC] 1. Airflow 是如何部署的?为什么日志在宿主机上? 我们的 Airflow 是直接安装在 Mac 宿主机上的 Python 进程,不是容器。 Mac 宿主机 ├── Python 进程: airflow webserver (PID=80064, 直接跑在 Mac 上) ├── 阅读全文
posted @ 2026-04-14 08:39 向着朝阳 阅读(8) 评论(0) 推荐(0)
摘要:目录 [ 全局任务调度与编排: Apache Airflow ] (负责定时触发和监控下方所有的流转任务) │ │ 【1. 数据采集与缓冲层】 │ ▼ ┌────────────────────┐ ┌────────────────────┐ │ 鸿蒙设备 (传感器/执行)│ │ AI Agent 阅读全文
posted @ 2026-04-09 11:12 向着朝阳 阅读(5) 评论(0) 推荐(0)
摘要:目录 这是一个非常经典的架构选型问题。 首先需要纠正一个架构概念:Spark 本身只是一个“计算引擎”,它不能存数据。 当业界说“ODS 用 Spark,清洗用 Spark SQL”时,完整的架构其实是:ODS 存储用 HDFS 或 S3 (通常结合 Delta Lake / Iceberg 等数据 阅读全文
posted @ 2026-04-09 11:12 向着朝阳 阅读(7) 评论(0) 推荐(0)
摘要:目录 需求 我所在的公司是做鸿蒙生态的,给企业提供 超级设备解决方法。比如我们通过鸿蒙可以看到各个物联网设备的 运行情况,通过鸿蒙对超级设备进行控制。当然我们有AI Agent来控制各种超级设备。 现在有个需求:我们要把各个企业使用的数据收集,清洗,成为大模型的后训练的数据集。 挑战: 1 数据清洗 阅读全文
posted @ 2026-04-09 11:11 向着朝阳 阅读(8) 评论(0) 推荐(0)
摘要:目录一、 业务视角:我们要“做什么”? (The "What")1. 打通数据孤岛 (Data Unification) - 解决“连接”问题2. 构建标签体系 (Tagging System) - 解决“画像”问题3. 赋能业务场景 (Activation) - 解决“变现”问题二、 技术视角:架 阅读全文
posted @ 2025-11-22 20:37 向着朝阳 阅读(23) 评论(0) 推荐(0)
摘要:目录背景和价值参考资料 背景和价值 https://it.sohu.com/a/781308284_120082794 感觉是我能找到的目前最适合开发人员的调度系统了。该项目常用于数据流开发。比如数据清洗、dataset预处理、数据采集、ai训练等场景。 参考资料 阅读全文
posted @ 2025-09-13 11:24 向着朝阳 阅读(4) 评论(0) 推荐(0)
摘要:目录背景和价值参考资料 背景和价值 中小企业,使用 neo4j 就够了 如果对实时性有极高的要求,使用纯内存的 Memgraph 生产海量数据使用 NebulaGraph https://zhuanlan.zhihu.com/p/1934579376080532306 参考资料 阅读全文
posted @ 2025-08-19 15:20 向着朝阳 阅读(9) 评论(0) 推荐(0)
摘要:动态标签计算 “分析用户行为数据生成动态用户标签”是一个“数据采集→特征提取→标签计算→动态更新→存储调用”的全链路工程,核心要解决实时性、准确性、动态性三个问题。具体技术实现可拆解为以下步骤: 一、行为数据的多源实时采集:构建标签的“原料池” 动态标签的基础是“及时获取用户行为信号”,需要覆盖全场 阅读全文
posted @ 2025-07-20 10:38 向着朝阳 阅读(179) 评论(0) 推荐(0)