• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 众包
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
yry778
博客园    首页    新随笔    联系   管理    订阅  订阅
京东多智能体——多源异构数据采集与融合应用综合实践
这个项目属于哪个课程 2025数据采集与数据融合实践
组名、项目简介 组名:暴虎 项目简介:基于京东多智能体挑战赛,依托 OxyGent 开源框架,构建多智能体系统,实现多模态数据采集、智能任务分发与协同推理,完成赛事多级别、多类型任务,生成符合要求的提交结果。
团队成员学号 102302117(冯大河,组长),102202110(叶志杰),102302154(杨如意),102302155(张怡旋),102302156(李子贤)
项目目标 本次项目设定三大核心目标:一是技术落地目标,基于OxyGent开源框架,构建一套支持多模态数据(图像、文本、PDF、表格等)处理的多智能体协作系统,实现“数据采集-智能处理-结果输出”的全流程闭环;二是竞赛实战目标,完成竞赛任务的核心要求,通过系统优化提升任务处理准确率与效率,力争取得理想的竞赛成绩,验证系统的实用性与稳定性;三是实践提升目标,通过项目全流程参与,深化团队成员对多智能体系统、多模态数据处理等专业知识的理解,提升技术开发、文档撰写、成果展示等综合实践能力,形成完整的项目成果归档体系,保障项目可追溯与可复用。
其他参考文献 https://gitee.com/river-feng/river-feng/tree/master/京东多智能体项目

一、项目背景
作为福州大学数据科学与大数据技术专业的大三访学生,我以 CCF BDCI 京东多智能体挑战赛为核心数据采集实践作业,开展专项研究与系统开发。这与我的专业学习方向高度契合,也为我提供了将理论知识落地的优质实践平台。
二、项目架构设计
为保障系统的可扩展性、可维护性与高效性,项目采用分层架构设计,整体架构分为三大核心层次,各层次职责清晰、协同联动:

屏幕截图 2025-12-18 172348

屏幕截图 2025-12-18 180448

三、项目分工
1.冯大河 (PPT 讲解、项目演示视频录制与后期)

  • 对接杨如意熟悉 PPT 全部内容,撰写详细讲解脚本;
  • 协调叶志杰完成系统演示操作,确保演示流程顺畅;
  • 负责演示视频录制与后期剪辑、字幕制作等工作。
    2.叶志杰 (项目源代码开发、调试与优化)
  • 提供代码核心逻辑、技术架构详细说明,为 PPT 制作和实践报告撰写提供支撑;
  • 负责项目全部源代码编写与 README.md 文档撰写,保障代码可读性;
  • 配合演示视频录制,提前调试系统,确保演示过程中系统稳定运行。
    3.杨如意 (最终汇报 PPT 全流程制作)
  • 对接叶志杰提取代码技术细节,对接张怡旋、李子贤提取实践报告核心成果;
  • 设计 PPT 框架与可视化元素;
  • 优化 PPT 逻辑与演示适配性;
    4.张怡旋 (项目总报告撰写、源代码归档和复现文档编写和实践报告统筹)
  • 主导撰写项目总报告,涵盖赛题分析、系统设计、成果总结等核心模块;
  • 整合李子贤实践报告内容,确保两份报告前后逻辑一致、内容互补;
  • 负责项目源代码分类归档与复现文档编写,保障项目可复现性。
    5.李子贤 (实践报告核心撰写、数据与文档整理)
  • 撰写实践报告中的技术实现细节、实验过程、问题解决方案等核心内容;
  • 整理实验原始数据、测试报告等材料,为总报告提供数据支撑;
    四、我的主要工作
    作为最终汇报 PPT 的全流程负责人,我的工作贯穿 PPT 制作的前期对接、中期设计与后期优化,核心目标是打造一份逻辑清晰、视觉精美、适配演示场景、能全面展现项目成果的汇报 PPT,具体工作内容如下:
  1. 前期多角色对接,精准提取核心素材
    PPT 的质量基础在于素材的全面性与准确性,为此我开展了针对性的对接工作:
    对接技术开发核心叶志杰:逐一梳理项目源代码架构、核心模块实现逻辑、技术难点与创新点,将抽象的代码逻辑转化为可可视化的 PPT 内容,比如多智能体协作流程、多模态数据采集原理等,确保 PPT 中的技术细节准确无误;
    对接文档负责人张怡旋、李子贤:深度提取项目总报告与实践报告中的核心成果,包括项目背景、架构设计、竞赛成绩、实践收获、问题解决方案等关键内容,筛选出最具展示价值的信息,避免 PPT 内容冗余,保障核心亮点突出。
  2. 全流程 PPT 设计,打造优质视觉与框架呈现
    在完成素材收集后,我全面负责 PPT 的框架搭建与可视化设计,确保 PPT 既有清晰的逻辑脉络,又有良好的视觉呈现效果:
    框架设计:按照 “项目背景 - 架构设计 - 团队分工 - 核心工作 - 技术实现 - 项目成果 - 实践收获 - 总结反思” 的逻辑主线,搭建 PPT 整体框架,划分各章节模块,确保内容层层递进、衔接自然,符合观众的认知规律;
    可视化元素设计:针对技术架构、代码逻辑、数据流程等抽象内容,采用流程图、架构图、代码截图、数据图表等可视化元素进行呈现,替代大段文字描述,提升 PPT 的可读性与观赏性;同时统一 PPT 的配色方案、字体样式、版式布局,保持视觉风格的一致性与专业性。
  3. 针对性优化调整,适配演示场景需求
    为确保 PPT 在汇报演示时达到最佳效果,我从逻辑连贯性与演示适配性两个维度进行深度优化:
    逻辑优化:反复梳理各页面内容的衔接关系,删减冗余信息,补充关键过渡内容,确保每页 PPT 的核心观点明确,章节之间逻辑闭环,让观众能够快速理解项目的整体脉络与核心价值;
    演示适配性优化:结合汇报时间要求,调整各模块的内容篇幅,突出核心亮点内容;优化 PPT 的动画效果与切换方式,避免过度花哨影响内容传递;同时考虑演示设备的显示比例,调整页面版式与字体大小,确保在演示现场能够清晰展示所有内容,配合冯大河的讲解脚本,实现 “内容 + 演示” 的高效联动。
  • 校验所有提交材料的完整性、合规性,避免遗漏或格式错误。

五、项目核心技术支撑
项目实现了多格式数据的自动识别与采集,核心代码如下:

点击查看代码
import os
import pandas as pd
from typing import Dict, Any

class MultiModalCollector:
    def auto_collect(self, file_path: str) -> Dict[str, Any]:
        """
        自动识别文件类型并完成数据采集
        支持格式:图像(.png/.jpg)、PDF、Excel(.xlsx/.xls)、CSV、文本(.txt/.md)
        """
        ext = os.path.splitext(file_path)[1].lower()
        
        if ext in ['.png', '.jpg', '.jpeg']:
            return self.collect_image(file_path)
        elif ext == '.pdf':
            return self.collect_pdf(file_path)
        elif ext in ['.xlsx', '.xls']:
            return self.collect_excel(file_path)
        elif ext == '.csv':
            return self.collect_csv(file_path)
        elif ext in ['.txt', '.md']:
            return self.collect_text(file_path)
        else:
            return {"type": "unknown", "path": file_path}
    
    def collect_excel(self, excel_path: str) -> Dict[str, Any]:
        """
        采集Excel数据,支持多sheet批量读取,返回结构化数据
        """
        try:
            excel_file = pd.ExcelFile(excel_path)
            all_data = {}
            
            for sheet_name in excel_file.sheet_names:
                df = pd.read_excel(excel_path, sheet_name=sheet_name)
                all_data[sheet_name] = {
                    "shape": df.shape,
                    "columns": df.columns.tolist(),
                    "data": df.to_dict('records')
                }
            first_sheet = excel_file.sheet_names[0]
            return {
                "type": "table",
                "format": "excel",
                "sheets": list(all_data.keys()),
                "shape": all_data[first_sheet]["shape"],
                "columns": all_data[first_sheet]["columns"],
                "head": all_data[first_sheet]["data"][:20]
            }
        except Exception as e:
            return {"type": "error", "message": str(e)}
[任务输入]    对应代码:main.py + data_collector/data_processor.py

屏幕截图 2025-12-18 173102

[任务分发] 对应代码: agents/task_dispatcher.py

屏幕截图 2025-12-18 173443
[理解] 对应代码:agents/understanding_agent.py

屏幕截图 2025-12-18 174321
[检索] 对应代码: agents/retrieval_agent.py

屏幕截图 2025-12-18 174525

六、项目成果

本次项目围绕京东多智能体挑战赛任务目标,实现了技术落地与成果输出的双重突破,核心成果可分为技术落地成果、竞赛实战成果与展示归档成果三大类,各成果相互支撑,完整达成实践作业与竞赛参与的核心目标:

1. 技术落地成果:构建全流程可用的多智能体系统

依托OxyGent开源框架,成功搭建覆盖“数据输入-智能处理-结果输出”全流程的多智能体协作系统,实现技术能力的闭环落地:

- 多模态数据兼容处理体系成型:突破单一格式数据处理限制,实现对图像(.png/.jpg)、PDF、Excel/CSV表格、文本(.txt/.md)等主流格式数据的自动识别、采集与解析,解决竞赛任务中多格式数据处理的核心痛点,为后续智能分析提供稳定的数据输入支撑;

- 智能体协作机制高效落地:实现任务分发、理解、检索、推理、执行五大智能体的分工协同,构建“任务拆解-信息整合-逻辑分析-结果生成”的完整处理链路,其中推理Agent针对计算、对比、提取等多类型问题实现精准响应,兼顾处理精度与效率;

- 标准化结果输出体系建成:通过答案后处理、结果验证等模块的设计,实现对生成答案的冗余信息清洗、格式统一与合规性校验,大幅降低竞赛提交的格式错误率,保障成果输出的规范性;

- 高性能推理引擎落地应用:融合规则引擎与DeepSeek大语言模型的优势,既保证计算类问题的精确性,又提升语义理解类问题的处理能力,形成“规则+模型”的双重保障机制。

2. 竞赛实战成果:验证系统有效性,达成实践目标

将搭建的多智能体系统投入CCF BDCI京东多智能体挑战赛实战检验,最终取得A榜76名的成绩,顺利完成数据采集实践作业的核心要求。该成绩不仅验证了系统在多模态任务处理中的有效性与稳定性,也证明了团队架构设计、技术选型与实现逻辑的合理性,为后续技术优化与迭代提供了真实的实战数据支撑。

3. 展示与归档成果:形成完整成果体系,保障可追溯可复用

围绕项目全流程,形成涵盖展示、文档、代码的完整成果归档体系,提升项目的可追溯性与可复用性:

- 高质量汇报PPT交付:完成逻辑清晰、视觉专业、适配演示场景的最终汇报PPT,全面覆盖项目背景、架构设计、技术实现、成果总结等核心内容,实现项目价值的高效传递,为汇报演示提供核心支撑;

- 完整文档体系成型:产出项目总报告、实践报告、复现文档三类核心文档,分别聚焦项目整体脉络、技术细节与落地指导,文档内容详实、逻辑一致,为项目复盘与后续学习提供完整的文字资料;

- 规范化代码归档完成:对项目源代码进行分类整理,形成结构清晰的代码目录(含配置、数据采集、智能体实现、工具函数等模块),配套完整的README.md说明文档,保障项目代码的可读性与可复现性,便于后续团队复用与技术迭代。
七、实践收获

  1. PPT 制作能力全面提升
    掌握专业汇报 PPT 的框架搭建技巧:学会围绕项目核心逻辑,搭建层次清晰、衔接自然的 PPT 结构,提升内容的传递效率;
    提升可视化设计能力:学会运用流程图、架构图等可视化元素将抽象技术内容具象化,掌握统一视觉风格的设计方法,提升 PPT 的观赏性与可读性;
    强化场景适配优化思维:学会结合汇报时间、演示设备、讲解脚本等场景因素,对 PPT 内容与版式进行针对性优化,确保演示效果最大化。
  2. 跨角色协作能力显著增强
    高效对接沟通能力:在与技术开发、文档撰写等不同角色的对接中,学会精准提取所需信息,清晰传递需求,提升协作效率;
    信息整合与筛选能力:学会从大量技术文档与代码细节中,筛选出最具展示价值的核心内容,实现信息的高效整合与呈现。
  3. 专业认知与项目思维深化
    深化多智能体系统认知:通过提取与呈现项目技术细节,对 OxyGent 框架、多模态数据处理、智能体协作等专业内容有了更深入的理解;
    培养项目成果展示思维:意识到优质的成果展示与技术实现同等重要,学会通过 PPT 等载体,将项目价值清晰、全面地传递给受众。
    八、经验总结与反思
    1.成功经验
    前期充分对接是基础:提前与各角色精准对接,确保 PPT 素材的全面性与准确性,为后续制作工作奠定坚实基础;
    逻辑框架先行是关键:先搭建清晰的 PPT 逻辑框架,再填充内容与设计可视化元素,避免出现内容混乱、逻辑断层的问题;
    场景适配优化是保障:针对演示场景进行针对性优化,能够显著提升 PPT 的展示效果,更好地传递项目成果。
    2.改进方向
    可视化设计创新:后续可尝试使用更具创意的可视化图表与动画效果,进一步提升 PPT 的视觉冲击力,增强内容的吸引力;
    技术内容呈现深度:可进一步学习技术可视化表达技巧,将复杂的代码逻辑与算法原理以更简洁、易懂的方式呈现;
    提前模拟演示:后续可提前与讲解人配合进行模拟演示,根据演示反馈及时调整 PPT 内容,进一步优化演示效果。
    未来展望
    此次 PPT 制作工作,不仅是一次项目成果展示的实践,更是一次综合能力提升的历练。未来在面对各类项目汇报、学术展示等场景时,我将运用本次积累的经验,打造更优质的展示材料。同时,我也将进一步补充专业技术知识,提升自身的技术理解与呈现能力,实现 “技术能力 + 展示能力” 的双重提升,为后续的专业学习与职业发展奠定坚实基础。
    九、心得
    作为本次项目汇报 PPT 的全流程负责人,这段经历让我收获颇丰,也让我对 “成果展示” 有了全新的认知。起初,我以为 PPT 制作只是简单的内容排版与视觉设计,但实际开展工作后才发现,这是一项需要兼顾信息准确性、逻辑连贯性、视觉观赏性与场景适配性的综合性工作。
    在对接叶志杰提取技术细节时,我曾因对部分代码逻辑不熟悉而难以精准提炼核心内容,为此我主动请教,逐一梳理每个模块的功能与创新点,这个过程不仅帮助我完成了 PPT 素材收集,更让我对多智能体系统的实现有了深入理解。在对接张怡旋与李子贤时,我学会了从大量文档中筛选核心亮点,避免 PPT 内容冗余,让每一页都有明确的价值输出。
    在框架设计与可视化制作过程中,我反复打磨逻辑脉络,调整版式布局,优化视觉元素,只为让观众能够快速抓住项目核心。而在后期的适配性优化中,我深刻体会到 “细节决定成败”,字体大小的调整、动画效果的删减、过渡内容的补充,这些看似微小的调整,却能显著提升演示效果。
    这次经历也让我意识到,一个优质的项目,不仅需要扎实的技术实现作为支撑,更需要优质的成果展示来传递价值。前期沟通的高效性、框架设计的逻辑性、细节优化的严谨性,都是打造优质 PPT 的关键。未来,我将把本次积累的经验运用到各类实践场景中,不断提升自身的综合能力,在专业学习与实践探索的道路上稳步前行。
posted on 2026-01-03 20:49  yy71  阅读(6)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2026
浙公网安备 33010602011771号 浙ICP备2021040463号-3