架构1

目录

    [ 全局任务调度与编排: Apache Airflow ]
    (负责定时触发和监控下方所有的流转任务)


    【1. 数据采集与缓冲层】 │

    ┌────────────────────┐ ┌────────────────────┐
    │ 鸿蒙设备 (传感器/执行)│ │ AI Agent (思考/调用) │
    │ (楼宇门禁、农业水泵) │ │ (Prompt, Tool Call)│
    └─────────┬──────────┘ └─────────┬──────────┘
    │ (高频时序数据) │ (非结构化文本)
    ▼ ▼
    ┌───────────────────────────────────────────────────┐
    │ Apache Kafka │ (削峰填谷,应对海量并发)
    │ [Topic: device_log] [Topic: agent_log] │
    └────────────────────────┬──────────────────────────┘
    │ (Kafka Connect / Vector 实时写入)
    ====================================
    【2. 原始存储层 (ODS)】 ▼
    ┌───────────────────────────────────────────────────┐
    │ ClickHouse 集群 │
    │ 表: ods_device_logs (存海量设备原始 JSON) │
    │ 表: ods_agent_logs (存 Agent 原始日志) │
    └────────────────────────┬──────────────────────────┘

    ====================================
    【3. 第一步:结构化处理层 (SQL 归 ClickHouse)】 <-- Airflow 触发 ClickHouse 执行 SQL

    ┌────────────────────────▼──────────────────────────┐
    │ [ClickHouse 内部计算] (利用单机/分布式向量化引擎) │
    │ 1. 过滤去重: 丢弃无效心跳包,只保留动作前后的状态。│
    │ 2. 轨迹对齐: JOIN ods_device_logs 与 agent_logs │
    │ ON trace_id │
    └────────────────────────┬──────────────────────────┘
    │ (瞬间完成,生成中间表)

    ┌───────────────────────────────────────────────────┐
    │ 中间表: dwd_trace_joined (已对齐的完整交互链) │ (此时数据已大幅减少,且结构清晰)
    └────────────────────────┬──────────────────────────┘

    ====================================
    【4. 第二步:非结构化/AI 处理层 (AI 归 Ray/Python)】 <-- Airflow 触发 Ray Cluster 提交分布式任务

    ┌────────────────────────▼──────────────────────────┐
    │ [Ray Data 分布式计算集群] │
    │ (调用 ray.data.read_sql 读取 dwd_trace_joined 表)│
    │ │
    │ 并发执行 Python 函数 (map_batches): │
    │ 1. NLP 脱敏: 调用正则或小模型剔除人名、车牌号。 │
    │ 2. LLM 评测: 调用大模型(如GPT-4)对 Agent 的 │
    │ 思考逻辑进行打分 (LLM-as-a-Judge)。 │
    │ 3. 标签生成: 抽取 "多设备联动" 等场景 Tags。 │
    └────────────────────────┬──────────────────────────┘
    │ (处理完毕,批量写回 ClickHouse)
    ====================================
    【5. 高质量语料层 (DWS)】 ▼
    ┌───────────────────────────────────────────────────┐
    │ ClickHouse 集群 │
    │ 终表: agent_training_corpus │
    │ (包含: trace_id, instruction, tags, score, │
    │ agent_trajectory, env_state) │
    └────────────────────────┬──────────────────────────┘

    ====================================
    【6. 导出与后训练层】 ▼
    ┌───────────────────────────────────────────────────┐
    │ 算法工程师执行 SQL: │
    │ SELECT * FROM corpus WHERE score > 85; │
    │ │
    │ 导出为 ShareGPT 格式 -> 喂给大模型做 SFT/RLHF │
    └───────────────────────────────────────────────────┘

    posted @ 2026-04-09 11:12  向着朝阳  阅读(5)  评论(0)    收藏  举报