2025 年 2月 18 日随笔档案 - ExplorerMan

谷歌 DeepMind 推出 OPRO 技术，可优化 ChatGPT 提示

摘要：据站长之家 11 月 21 日报道，在最新的 AI 研究报道中，Google DeepMind 推出了一项名为“优化通过提示（OPRO）”的技术，将大型语言模型（LLM）作为其自身提示的优化器。该方法旨在通过自然语言描述问题，指导 LLM 生成和改进解决方案，从而提高提示性能。 DeepMind 的阅读全文

posted @ 2025-02-18 14:17 ExplorerMan 阅读(126) 评论(0) 推荐(0)

PromptWizard：微软开源 AI 提示词自动化优化框架

摘要： ‌PromptWizard‌是一个由微软研究院开发的自动化提示词优化框架，旨在改进大型语言模型（LLMs）在特定任务中的表现。该框架通过自我演变和自我适应机制，利用反馈驱动的批评和合成过程，迭代优化提示指令和上下文示例，从而提高模型的准确性和效率‌12。主要功能和技术原理 PromptWizard 阅读全文

posted @ 2025-02-18 11:40 ExplorerMan 阅读(566) 评论(0) 推荐(0)

Flow-DPO通过在线多Agent学习提升LLM的数学推理能力

摘要： ‌Flow-DPO‌是一种通过在线多智能体学习来提升LLM（大型语言模型）数学推理能力的新方法。Flow-DPO结合了在线学习流（Flow）和直接偏好优化（DPO），通过两个独立的语言模型互相协作，纠正对方的错误，从而生成更加准确和详细的推理轨迹‌12。工作原理 Flow-DPO的核心在于构建两个阅读全文

posted @ 2025-02-18 11:27 ExplorerMan 阅读(87) 评论(0) 推荐(0)

ExplorerMan

谷歌 DeepMind 推出 OPRO 技术，可优化 ChatGPT 提示

PromptWizard：微软开源 AI 提示词自动化优化框架

Flow-DPO通过在线多Agent学习提升LLM的数学推理能力

导航

公告