计算机硕士AIGC方向科研规划

第一阶段:基础能力与交叉知识储备(第 1-6 个月)

核心目标

  1. 掌握大模型压缩与智能体的核心理论、工具链;
  2. 完成 2-3 个小实验,建立对领域痛点的直观认知;
  3. 确定具体研究方向(如压缩算法在智能体中的适配性、智能体任务驱动的动态压缩等)。

具体任务

模块

学习内容与实践要求

输出成果

大模型压缩基础

1. 经典压缩技术:量化(INT8/INT4/FP16)、剪枝(结构化 / 非结构化)、知识蒸馏(KD)、模型架构搜索(NAS);2. 工具链:Hugging Face Transformers、GPTQ、AWQ、TorchPrune;3. 实践:用 GPTQ 量化 Llama-2-7B,测试压缩率与性能损失。

1. 压缩技术对比报告(附实验数据);2. 量化后模型在下游任务(如文本生成)的性能基准。

智能体核心技术

1. 强化学习框架:PPO、SAC、DQN(离散 / 连续动作空间);2. 大模型智能体:LLM+RL(如 ReAct、AutoGPT、WebGPT)、多模态智能体(视觉 + 语言);3. 工具链:Gymnasium、Stable-Baselines3、LangChain、vLLM;4. 实践:用 LLM(如 Qwen-7B)结合 ReAct 框架实现简单工具调用智能体。

1. 智能体决策流程分析报告;2. 工具调用智能体原型(支持 2-3 种工具,如搜索、计算)。

交叉领域调研

1. 精读顶会论文(NeurIPS/ICML/ICLR/ACL):- 大模型压缩在动态场景的应用(如边缘设备智能体);- 智能体任务对模型压缩的特殊需求(如实时性、多轮决策稳定性);2. 复现 1 篇轻量化智能体论文(如 MobileLLM+RL)。

1. 领域综述(100 篇 + 文献,含研究空白分析);2. 复现论文的实验报告(对比原结果)。

阶段成果

  • 确定具体研究方向(如 “强化学习驱动的大模型动态压缩”“面向多任务智能体的轻量化架构设计”);
  • 完成 1 篇技术博客或实验室内部报告,梳理领域痛点。

第二阶段:问题攻坚与创新方法设计(第 7-18 个月)

核心目标

  1. 聚焦 1-2 个具体科学问题(如压缩后的模型在智能体长程决策中性能衰减、智能体任务特性与压缩策略的不匹配);
  2. 提出创新性解决方案(算法 / 架构 / 理论);
  3. 完成大规模实验验证,形成论文初稿。

具体任务

研究方向示例

科学问题与创新点设计

实验验证方案

方向 1:智能体任务驱动的动态压缩

问题:静态压缩(如固定量化位宽)无法适配智能体多轮决策中 “简单步骤用小模型,复杂步骤用大模型” 的需求;创新点:1. 提出 RL 驱动的动态压缩策略(根据任务难度实时调整模型精度 / 参数量);2. 设计 “压缩 - 决策” 联合优化目标(平衡压缩率与任务奖励)。

1. 基准环境:多任务智能体场景(如 Web 导航、游戏关卡挑战);2. 对比方法:静态量化(GPTQ)、动态路由(MoE);3. 指标:任务成功率、平均响应时间、模型显存占用。

方向 2:轻量化智能体的决策稳定性

问题:模型压缩会导致智能体决策偏差(如量化噪声引发奖励估计错误);创新点:1. 提出 “压缩感知的 RL 算法”(在策略更新中引入量化误差补偿);2. 设计轻量化价值函数(适配压缩模型的表征能力)。

1. 基准环境:连续控制(如机械臂抓取)、离散决策(如 GridWorld);2. 对比方法:原始 PPO、压缩后直接用 PPO;3. 指标:收敛速度、奖励方差、压缩率(参数量减少比例)。

方向 3:多智能体协作的模型压缩

问题:多智能体场景中,全量模型通信成本过高,压缩后易出现协作断层;创新点:1. 提出 “分层压缩” 策略(全局知识用小模型,个体差异用大模型);2. 设计压缩模型的通信协议(减少冗余信息传递)。

1. 基准环境:多智能体游戏(如 StarCraft II、MAZE);2. 对比方法:独立压缩、无压缩协作;3. 指标:团队奖励、通信量、单智能体模型大小。

阶段成果

  • 完成 1-2 个创新方法的理论推导与算法实现;
  • 形成论文初稿(含问题定义、方法、实验、分析);
  • 尽量提交 1 篇国际会议论文(如 NeurIPS/ICML/ICLR,或领域顶会如 ACL/AAAI)。

第三阶段:成果深化与学术输出(第 19-36 个月)

核心目标

  1. 根据审稿意见完善论文,实现成果落地(如开源工具、实际场景部署);
  2. 拓展研究方向(如压缩模型的多模态智能体、边缘设备智能体);
  3. 完成硕士学位论文,达到毕业要求。

具体任务

时间节点

重点工作

输出成果

第 19-24 个月

1. 回应审稿意见,补充对比实验(如消融实验、更复杂场景验证);2. 开源算法工具(如动态压缩 RL 框架);3. 启动学位论文撰写(绪论、方法、实验章节)。

1. 论文录用(或修改后录用);2. GitHub 开源仓库(含代码、文档、示例)。

第 25-30 个月

1. 拓展研究:将方法推广到多模态智能体(如视觉 - 语言导航);2. 与企业合作,在实际场景测试(如边缘设备智能体);3. 完成学位论文初稿。

1. 第 2 篇论文(会议 / 期刊);2. 技术落地报告(如某场景的部署效果)。

第 31-36 个月

1. 完善学位论文(补充讨论、未来工作);2. 准备答辩 PPT,提炼核心贡献;3. 总结研究成果,形成学术简历。

1. 硕士学位论文(通过盲审);2. 答辩通过,获得学位。

阶段成果

  • 至少 1 篇论文(第一作者);
  • 开源工具 / 数据集(提升影响力);
  • 符合要求的硕士学位论文。

关键保障措施

  1. 导师沟通:每周 1 次进展汇报,每月 1 次研究方向校准,确保不偏离核心目标;
  2. 学术交流:参加领域研讨会(如 RLDM、LLM Compression Workshop),主动与同行交流(可通过 Twitter / 知乎分享进展);
  3. 工程能力:熟练掌握分布式训练(如 DeepSpeed)、性能 profiling 工具(如 PyTorch Profiler),确保实验可复现、效率高;
  4. 风险应对:若第一阶段未找到创新点,可缩小范围(如聚焦 “量化对智能体探索策略的影响”);若论文被拒,及时调整方向转投其他会议。

参考论文:

智能体:

微软agent框架:https://zhuanlan.zhihu.com/p/1937109083623782314

微软agent 的强化学习的论文:https://www.modelscope.cn/papers/2508.03680

多模态技术:https://arxiv.org/abs/2507.01006

多维度数据评估方式:https://www.modelscope.cn/papers/2504.14194

正则化奖励模型:https://www.modelscope.cn/papers/2406.10216

SPO:https://cloud.tencent.com/developer/article/2391126

奖励模型&RL:https://baijiahao.baidu.com/s?id=1771680595489189700&wfr=spider&for=pc

2401.04056v2.pdf

强化学习sac:https://blog.csdn.net/qq_36892712/article/details/132504116

websearchr1:https://arxiv.org/pdf/2503.09516

https://tongyi-agent.github.io/zh/blog/introducing-tongyi-deep-research/#%E5%9F%BA%E4%BA%8E%E5%90%88%E6%88%90%E6%95%B0%E6%8D%AE%E7%9A%84%E5%A2%9E%E9%87%8F%E9%A2%84%E8%AE%AD%E7%BB%83%E5%92%8C%E5%90%8E%E8%AE%AD%E7%BB%83

https://arxiv.org/pdf/2401.04056

https://arxiv.org/pdf/2509.02547

https://arxiv.org/pdf/2509.00375

https://www.modelscope.cn/papers/2508.06600

模型压缩:

https://modelscope.cn/papers/2509.04244

https://modelscope.cn/papers/2509.22944

https://modelscope.cn/papers/2507.17125

https://modelscope.cn/papers/2508.13836

https://modelscope.cn/papers/2408.14513

 

posted on 2025-10-24 15:28  limingqi  阅读(11)  评论(0)    收藏  举报

导航