2025年8月29日

成对比较(Pairwise Comparison)

摘要: “成对比较(Pairwise Comparison)” 的两大核心价值:一是在 “一致性(consistency)” 上的优越性(优于其他评估方法),二是可扩展性与灵活的选项模式(适配复杂评估场景),进一步完善了 LLM-as-a-Judge 中该评估范式的理论与实践框架。以下结合论文语境和研究引用 阅读全文

posted @ 2025-08-29 15:57 limingqi 阅读(48) 评论(0) 推荐(0)

qwen2.5-0.6B reranker模型 VS bge reranker模型

摘要: 在实际应用中观察到 Qwen2.5-0.6B Reranker(即 Qwen3-Reranker-0.6B)排序效果不如 BGE Reranker,并非单一因素导致,而是由模型设计侧重、场景适配性、数据分布匹配度等多维度差异共同作用的结果。结合两类模型的核心特性与实际应用场景,可从以下角度拆解原因, 阅读全文

posted @ 2025-08-29 14:06 limingqi 阅读(129) 评论(0) 推荐(0)

大模型生成分数(Generating scores)深度解析

摘要: 这部分内容聚焦 LLM-as-a-Judge 中 “以分数形式呈现评估结果” 的核心逻辑,从 “分数的本质特性” 到 “不同复杂度的评分设计方法” 展开,核心是解决 “如何让 LLM 输出既直观又符合评估目标的分数” 这一问题,以下分维度拆解: 一、核心前提:为什么用 “分数” 做评估? “It i 阅读全文

posted @ 2025-08-29 13:30 limingqi 阅读(85) 评论(0) 推荐(0)

上下文学习(In-Context Learning, ICL)

摘要: 如何通过 “上下文学习(In-Context Learning, ICL)” 定义评估任务,明确了 ICL 方法的两大关键组成(输入设计、提示设计)及具体实践维度,本质是为 “让 LLM 理解‘评什么’‘怎么评’” 提供可操作的框架。以下从 “ICL 的核心作用→输入设计的 3 个维度→提示设计的 阅读全文

posted @ 2025-08-29 13:18 limingqi 阅读(51) 评论(0) 推荐(0)

导航