摘要: 目录数据层面的改进检索增强生成(RAG)提示工程优化强化学习与人类反馈多模型验证置信度校准事实核查层特定领域微调 在大模型开发中减少幻觉是一个核心挑战。以下是一些有效的策略: 数据层面的改进 高质量的训练数据是基础。确保训练数据的准确性、多样性和时效性,及时清理含有错误信息或矛盾内容的数据。在微调阶 阅读全文
posted @ 2025-11-05 22:47 向着朝阳 阅读(18) 评论(0) 推荐(0)
摘要: 目录背景和价值🤖 避免多Agent架构中总控Agent路由错误与回撤方案🎯 避免路由错误的策略↩️ 错误回撤与纠正方案如何让分类器输出一个置信度分数。如果置信度低于预设的阈值,做相关操作1. 🤖 基于大型语言模型(LLM)的分类器💡 实现方式:结构化输出与概率评估⚙️ 设置阈值:2. 🔢 阅读全文
posted @ 2025-11-05 22:40 向着朝阳 阅读(18) 评论(0) 推荐(0)
摘要: 目录QwQ优势(王爆 DeepSeek R1蒸馏模型组。) 模型评测。 QwQ 32B VS DeepSeek R1 从以下维度评测 问答 翻译 角色扮演 长文本编写 数学 编程 科研 逻辑推理 各方面指标略低于R1 QwQ优势(王爆 DeepSeek R1蒸馏模型组。) 幻觉不如 DeepSeek 阅读全文
posted @ 2025-11-05 16:44 向着朝阳 阅读(8) 评论(0) 推荐(0)
摘要: 目录背景和价值一、通义千问(Qwen)模型的分类体系1. Qwen(主系列) —— 通用大语言模型2. QWQ(推理专家系列) —— 专注数学与代码3. Qwen-Audio / Qwen-VL / Qwen2-VL —— 多模态系列4. Qwen-Max / Qwen-Plus / Qwen-Tu 阅读全文
posted @ 2025-11-05 16:28 向着朝阳 阅读(140) 评论(0) 推荐(0)
摘要: 目录背景和价值一、推理型智能体(绑定reasoning模型)二、基础型智能体(绑定basic模型)三、设计逻辑总结参考资料 背景和价值 以下是 deer-flow 的大模型配置如下链接 https://github.com/bytedance/deer-flow/blob/main/docs/con 阅读全文
posted @ 2025-11-05 16:16 向着朝阳 阅读(10) 评论(0) 推荐(0)
摘要: 目录概念准确率精确率召回率F1基准测试MLLU 综合知识评测HellaSwag详解:常识推理HumanEval详解:代码生成准确度评估GSM8K详解:数学推理TruthfulQA基准详解MT-Bench详解:对话能力中文基准:C-Eval和SuperCLUE测试评估的挑战:基准过拟合评估未来评测趋势 阅读全文
posted @ 2025-11-05 10:25 向着朝阳 阅读(34) 评论(0) 推荐(0)