上一页 1 2 3 4 5 6 ··· 15 下一页

2025年10月11日

靶向培养 AIGC 复合型人才:硕士生个性化能力成长与职业适配方案

摘要: 一、培养目标 面向 AIGC 产业对 “技术研发 + 场景落地 + 伦理合规” 复合型人才的需求,培养具备以下核心能力的硕士生: 技术能力:掌握 AIGC 基础理论(生成模型原理、多模态融合等),具备 AIGC 模型开发(如大语言模型微调、扩散模型优化)、工程部署(模型压缩、推理加速)的实操能力; 阅读全文

posted @ 2025-10-11 11:01 limingqi 阅读(113) 评论(0) 推荐(0)

2025年9月11日

verl中的RL训练过程中评估指标

摘要: 在 Verl 框架的 RL 训练中,评估训练过程与结尾的核心指标需围绕 “训练稳定性”“策略收敛性”“任务效果”“资源效率” 四大维度展开,结合框架内置的日志、TensorBoard 监控及自定义验证逻辑实现。以下是具体的评估方法、关键指标解读及操作步骤: 一、核心评估维度与关键指标(过程 + 结尾 阅读全文

posted @ 2025-09-11 16:30 limingqi 阅读(1099) 评论(0) 推荐(0)

2025年9月10日

Can Group Relative Policy Optimization Improve Thai Legal Reasoning and Question Answering? 论文复现

摘要: 要复现 “Can Group Relative Policy Optimization Improve Thai Legal Reasoning and Question Answering?” (以下简称 “GRPO - 泰国法律 QA 论文”),需围绕 “泰国法律 QA 任务特性” 与 “GRP 阅读全文

posted @ 2025-09-10 11:20 limingqi 阅读(22) 评论(0) 推荐(0)

2025年9月4日

DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

摘要: 1. 一段话总结 为填补深度研究智能体(DRA)评估的空白,研究团队提出DeepResearch Bench基准,包含 100 个博士级研究任务(覆盖 22 个领域,50 中文 + 50 英文),基于 96,147 条真实用户查询统计设计;同时提出RACE(参考驱动的自适应标准评估框架)和FACT( 阅读全文

posted @ 2025-09-04 11:48 limingqi 阅读(219) 评论(0) 推荐(0)

2025年9月3日

verl中RL训练中需要关注那些训练指标

摘要: 在 VERL(可能是指基于强化学习的视觉 - 语言或多模态任务训练框架)的 RL 训练中,需要关注的核心指标可分为训练过程指标和任务性能指标两类。结合你提供的日志信息(包含policy_loss、kl_loss、reward等),具体说明如下: 一、核心训练过程指标(从日志中可见) 策略损失(pol 阅读全文

posted @ 2025-09-03 18:14 limingqi 阅读(405) 评论(0) 推荐(0)

2025年9月2日

强化学习基础知识

摘要: 强化学习的理解:https://www.bilibili.com/video/BV1Tg94Y8Eoq?spm_id_from=333.788.videopod.sections 阅读全文

posted @ 2025-09-02 17:52 limingqi 阅读(13) 评论(0) 推荐(0)

2025年8月29日

成对比较(Pairwise Comparison)

摘要: “成对比较(Pairwise Comparison)” 的两大核心价值:一是在 “一致性(consistency)” 上的优越性(优于其他评估方法),二是可扩展性与灵活的选项模式(适配复杂评估场景),进一步完善了 LLM-as-a-Judge 中该评估范式的理论与实践框架。以下结合论文语境和研究引用 阅读全文

posted @ 2025-08-29 15:57 limingqi 阅读(143) 评论(0) 推荐(0)

qwen2.5-0.6B reranker模型 VS bge reranker模型

摘要: 在实际应用中观察到 Qwen2.5-0.6B Reranker(即 Qwen3-Reranker-0.6B)排序效果不如 BGE Reranker,并非单一因素导致,而是由模型设计侧重、场景适配性、数据分布匹配度等多维度差异共同作用的结果。结合两类模型的核心特性与实际应用场景,可从以下角度拆解原因, 阅读全文

posted @ 2025-08-29 14:06 limingqi 阅读(321) 评论(0) 推荐(0)

大模型生成分数(Generating scores)深度解析

摘要: 这部分内容聚焦 LLM-as-a-Judge 中 “以分数形式呈现评估结果” 的核心逻辑,从 “分数的本质特性” 到 “不同复杂度的评分设计方法” 展开,核心是解决 “如何让 LLM 输出既直观又符合评估目标的分数” 这一问题,以下分维度拆解: 一、核心前提:为什么用 “分数” 做评估? “It i 阅读全文

posted @ 2025-08-29 13:30 limingqi 阅读(184) 评论(0) 推荐(0)

上下文学习(In-Context Learning, ICL)

摘要: 如何通过 “上下文学习(In-Context Learning, ICL)” 定义评估任务,明确了 ICL 方法的两大关键组成(输入设计、提示设计)及具体实践维度,本质是为 “让 LLM 理解‘评什么’‘怎么评’” 提供可操作的框架。以下从 “ICL 的核心作用→输入设计的 3 个维度→提示设计的 阅读全文

posted @ 2025-08-29 13:18 limingqi 阅读(158) 评论(0) 推荐(0)

上一页 1 2 3 4 5 6 ··· 15 下一页

导航