架构1
目录
[ 全局任务调度与编排: Apache Airflow ]
(负责定时触发和监控下方所有的流转任务)
│
│
【1. 数据采集与缓冲层】 │
▼
┌────────────────────┐ ┌────────────────────┐
│ 鸿蒙设备 (传感器/执行)│ │ AI Agent (思考/调用) │
│ (楼宇门禁、农业水泵) │ │ (Prompt, Tool Call)│
└─────────┬──────────┘ └─────────┬──────────┘
│ (高频时序数据) │ (非结构化文本)
▼ ▼
┌───────────────────────────────────────────────────┐
│ Apache Kafka │ (削峰填谷,应对海量并发)
│ [Topic: device_log] [Topic: agent_log] │
└────────────────────────┬──────────────────────────┘
│ (Kafka Connect / Vector 实时写入)
=│===================================
【2. 原始存储层 (ODS)】 ▼
┌───────────────────────────────────────────────────┐
│ ClickHouse 集群 │
│ 表: ods_device_logs (存海量设备原始 JSON) │
│ 表: ods_agent_logs (存 Agent 原始日志) │
└────────────────────────┬──────────────────────────┘
│
=│===================================
【3. 第一步:结构化处理层 (SQL 归 ClickHouse)】 <-- Airflow 触发 ClickHouse 执行 SQL
│
┌────────────────────────▼──────────────────────────┐
│ [ClickHouse 内部计算] (利用单机/分布式向量化引擎) │
│ 1. 过滤去重: 丢弃无效心跳包,只保留动作前后的状态。│
│ 2. 轨迹对齐: JOIN ods_device_logs 与 agent_logs │
│ ON trace_id │
└────────────────────────┬──────────────────────────┘
│ (瞬间完成,生成中间表)
▼
┌───────────────────────────────────────────────────┐
│ 中间表: dwd_trace_joined (已对齐的完整交互链) │ (此时数据已大幅减少,且结构清晰)
└────────────────────────┬──────────────────────────┘
│
=│===================================
【4. 第二步:非结构化/AI 处理层 (AI 归 Ray/Python)】 <-- Airflow 触发 Ray Cluster 提交分布式任务
│
┌────────────────────────▼──────────────────────────┐
│ [Ray Data 分布式计算集群] │
│ (调用 ray.data.read_sql 读取 dwd_trace_joined 表)│
│ │
│ 并发执行 Python 函数 (map_batches): │
│ 1. NLP 脱敏: 调用正则或小模型剔除人名、车牌号。 │
│ 2. LLM 评测: 调用大模型(如GPT-4)对 Agent 的 │
│ 思考逻辑进行打分 (LLM-as-a-Judge)。 │
│ 3. 标签生成: 抽取 "多设备联动" 等场景 Tags。 │
└────────────────────────┬──────────────────────────┘
│ (处理完毕,批量写回 ClickHouse)
=│===================================
【5. 高质量语料层 (DWS)】 ▼
┌───────────────────────────────────────────────────┐
│ ClickHouse 集群 │
│ 终表: agent_training_corpus │
│ (包含: trace_id, instruction, tags, score, │
│ agent_trajectory, env_state) │
└────────────────────────┬──────────────────────────┘
│
=│===================================
【6. 导出与后训练层】 ▼
┌───────────────────────────────────────────────────┐
│ 算法工程师执行 SQL: │
│ SELECT * FROM corpus WHERE score > 85; │
│ │
│ 导出为 ShareGPT 格式 -> 喂给大模型做 SFT/RLHF │
└───────────────────────────────────────────────────┘

浙公网安备 33010602011771号