1. 关键概念
概念 | 一句话说明 |
---|---|
MLOps | 把 DevOps 理念延伸到 ML,覆盖数据、模型、代码、环境四要素的持续集成、持续交付。 |
知识图谱 | 以 RDF/OWL 形式描述实体关系,为 Weka 提供业务规则与图特征,达成“白盒 + 黑盒”融合决策。 |
端到端流水线 | Git Push → 数据校验 → 自动训练 → 模型评估 → 审批 → 灰度 → 全量,全流程无人值守。 |
2. 核心技巧
- Dataset 版本化:利用 DVC(Data Version Control)把
.arff
文件当作大文件托管到 S3,Weka 训练时通过DataSource.read(new URL(dvcResolvedPath))
加载。 - Pipeline as Code:将 Weka
FilteredClassifier
(如Normalize
+RandomCommittee
)序列化为 JSON,存入src/main/resources/pipeline.json
,SpringBoot 启动时动态构建,实现“算法配置即代码”。 - 知识图谱特征注入:通过 SPARQL 查询“用户–设备–IP”三度关系,返回 19 维图特征,与原始 3