2025年2月18日

谷歌 DeepMind 推出 OPRO 技术,可优化 ChatGPT 提示

摘要: 据站长之家 11 月 21 日报道,在最新的 AI 研究报道中,Google DeepMind 推出了一项名为“优化通过提示(OPRO)”的技术,将大型语言模型(LLM)作为其自身提示的优化器。该方法旨在通过自然语言描述问题,指导 LLM 生成和改进解决方案,从而提高提示性能。 DeepMind 的 阅读全文

posted @ 2025-02-18 14:17 ExplorerMan 阅读(126) 评论(0) 推荐(0)

PromptWizard:微软开源 AI 提示词自动化优化框架

摘要: ‌PromptWizard‌是一个由微软研究院开发的自动化提示词优化框架,旨在改进大型语言模型(LLMs)在特定任务中的表现。该框架通过自我演变和自我适应机制,利用反馈驱动的批评和合成过程,迭代优化提示指令和上下文示例,从而提高模型的准确性和效率‌12。 主要功能和技术原理 PromptWizard 阅读全文

posted @ 2025-02-18 11:40 ExplorerMan 阅读(566) 评论(0) 推荐(0)

Flow-DPO通过在线多Agent学习提升LLM的数学推理能力

摘要: ‌Flow-DPO‌是一种通过在线多智能体学习来提升LLM(大型语言模型)数学推理能力的新方法。Flow-DPO结合了在线学习流(Flow)和直接偏好优化(DPO),通过两个独立的语言模型互相协作,纠正对方的错误,从而生成更加准确和详细的推理轨迹‌12。 工作原理 Flow-DPO的核心在于构建两个 阅读全文

posted @ 2025-02-18 11:27 ExplorerMan 阅读(87) 评论(0) 推荐(0)

导航