团队会议总结
新闻文本分类系统 Beta 版总结会议
一、会议基本信息
• 时间:2025 年 6 月 10 日 14:00-16:00
• 参与人员:申佳欣、张薛瑞、张凯军
• 会议照片: 
• 核心目标:针对前段时间的开发过程中存在的问题,讨论本组目前存在的问题,并投票选出需要改进的最主要三个问题.
二、会议过程全记录
- 阶段回溯:Beta 版开发脉络
我们围绕 新闻文本分类系统 完成了三大核心模块:
• 数据层:爬取主流媒体新闻 1.2 万条,完成分词、去噪等预处理;
• 模型层:基于 BERT 微调实现 9 大类别分类,测试集准确率 82%;
• 部署层:通过 Flask 搭建 API 接口,支持单条 / 批量分类调用。
但在实际测试中,跨领域偏差、协作低效 等问题逐渐暴露,成为本次会议的讨论焦点。
2. 问题起底:
通过 “头脑风暴 + 根源分析”,我们梳理出三大维度问题:
数据层 样本不平衡(娱乐类占比 62%)、标注错误率 5% 爬取策略偏向热门领域,校验流程缺失
模型层 细分领域准确率低(如财经新闻 65%)、训练慢 模型对专业术语拟合不足,硬件资源有限
协作层 分工模糊(重复处理数据)、进度同步延迟 缺乏标准化协作流程,依赖零散沟通
3. 投票定级:
通过投票,最终得票最高的三项:
- 训练数据样本不平衡(3 票):小众类别(如科技、财经)预测偏差严重;
- 团队协作沟通效率低(2 票):任务延误、重复工作频发;
- 模型跨领域泛化能力不足(3 票):实际场景适配性差。
三、Top3 解决方案 - 训练数据样本不平衡
• 现状:娱乐、体育类占比 62%,科技、财经类仅 25%,小众类别召回率<50%;
• 行动:
定向补数据:6 月 15 日前,抓取科技、财经、国际新闻各 1500 条,补充 至 5000 条;
样本平衡技术:采用 SMOTE 算法生成合成样本,缩小类别占比差至≤±10%;
标注校验:引入人工二次校验,将错误率压降至≤3%。 - 团队协作沟通效率低
• 现状:任务全靠微信群同步,关键决策无记录,曾出现 “数据清洗重复做”;
• 行动:
搭建任务看板:6 月 12 日前,明确分工、依赖关系;
固定例会机制:每周一 10:00 开例会,同步进度 + 解决阻塞问题;
文档归档:用腾讯会议记录会议决议、技术方案,确保 “历史可查”。 - 模型跨领域泛化能力不足
• 现状:测试集外的 “行业分析” 类新闻准确率仅 68%,远低于测试集内的 82%;
• 行动:
扩充数据领域:新增医疗、教育等 5 个领域,总数据量达 3 万条;
尝试领域自适应:引入 Domain-Adversarial Network,增强模型鲁棒性;
优化模型结构:加入多层注意力机制,聚焦新闻核心语义。
四、下一步:责任到人,目的明确
数据补充与平衡 申佳欣 6 月 15日 类别占比差≤±10%,错误率≤3%
协作流程搭建 张薛瑞 6 月 12日 任务看板上线,例会机制落地
模型泛化优化 张凯军 6 月 20 日 跨领域测试集准确率≥75%
结语:本次会议让我们跳出 “埋头开发” 的惯性,直面真实痛点。通过聚焦 Top3 问题,我们明确了升级路径 —— 期待在数据、协作、模型的三重优化下,系统能更精准、更高效地服务新闻分类场景!
浙公网安备 33010602011771号