团队会议总结

新闻文本分类系统 Beta 版总结会议

一、会议基本信息
• 时间：2025 年 6 月 10 日 14:00-16:00
• 参与人员：申佳欣、张薛瑞、张凯军
• 会议照片：

• 核心目标：针对前段时间的开发过程中存在的问题，讨论本组目前存在的问题，并投票选出需要改进的最主要三个问题.

二、会议过程全记录

阶段回溯：Beta 版开发脉络
我们围绕新闻文本分类系统完成了三大核心模块：

• 数据层：爬取主流媒体新闻 1.2 万条，完成分词、去噪等预处理；
• 模型层：基于 BERT 微调实现 9 大类别分类，测试集准确率 82%；
• 部署层：通过 Flask 搭建 API 接口，支持单条 / 批量分类调用。

但在实际测试中，跨领域偏差、协作低效等问题逐渐暴露，成为本次会议的讨论焦点。
2. 问题起底：
通过 “头脑风暴 + 根源分析”，我们梳理出三大维度问题：

数据层样本不平衡（娱乐类占比 62%）、标注错误率 5% 爬取策略偏向热门领域，校验流程缺失
模型层细分领域准确率低（如财经新闻 65%）、训练慢模型对专业术语拟合不足，硬件资源有限
协作层分工模糊（重复处理数据）、进度同步延迟缺乏标准化协作流程，依赖零散沟通
3. 投票定级：
通过投票，最终得票最高的三项：

训练数据样本不平衡（3 票）：小众类别（如科技、财经）预测偏差严重；
团队协作沟通效率低（2 票）：任务延误、重复工作频发；
模型跨领域泛化能力不足（3 票）：实际场景适配性差。
三、Top3 解决方案
训练数据样本不平衡
• 现状：娱乐、体育类占比 62%，科技、财经类仅 25%，小众类别召回率＜50%；
• 行动：
定向补数据：6 月 15 日前，抓取科技、财经、国际新闻各 1500 条，补充至 5000 条；
样本平衡技术：采用 SMOTE 算法生成合成样本，缩小类别占比差至≤±10%；
标注校验：引入人工二次校验，将错误率压降至≤3%。
团队协作沟通效率低
• 现状：任务全靠微信群同步，关键决策无记录，曾出现 “数据清洗重复做”；
• 行动：
搭建任务看板：6 月 12 日前，明确分工、依赖关系；
固定例会机制：每周一 10:00 开例会，同步进度 + 解决阻塞问题；
文档归档：用腾讯会议记录会议决议、技术方案，确保 “历史可查”。
模型跨领域泛化能力不足
• 现状：测试集外的 “行业分析” 类新闻准确率仅 68%，远低于测试集内的 82%；
• 行动：
扩充数据领域：新增医疗、教育等 5 个领域，总数据量达 3 万条；
尝试领域自适应：引入 Domain-Adversarial Network，增强模型鲁棒性；
优化模型结构：加入多层注意力机制，聚焦新闻核心语义。
四、下一步：责任到人，目的明确
数据补充与平衡申佳欣 6 月 15日类别占比差≤±10%，错误率≤3%
协作流程搭建张薛瑞 6 月 12日任务看板上线，例会机制落地
模型泛化优化张凯军 6 月 20 日跨领域测试集准确率≥75%

结语：本次会议让我们跳出 “埋头开发” 的惯性，直面真实痛点。通过聚焦 Top3 问题，我们明确了升级路径 —— 期待在数据、协作、模型的三重优化下，系统能更精准、更高效地服务新闻分类场景！

posted @ 2025-06-15 12:30 申shen 阅读(16) 评论(0) 收藏举报

刷新页面返回顶部

团队会议总结

公告