limingqi - 博客园

[置顶] openclaw 思考

摘要：一些建议 GUI or CLI 内部对龙虾的引入和使用，主要是 GUI的方式：绑定美信，安全可控。这种对话的使用方式限制了龙虾的应用场景。这是典型的员工提效思维。外部公司已经趋向CLI：钉钉已经彻底 CLI 化了、一键接入OpenClaw，谷歌开源CLI狂揽15k Stars，智能体接管Works 阅读全文

posted @ 2026-04-10 11:36 limingqi 阅读(268) 评论(0) 推荐(0)

[置顶] 自我博弈偏好优化（Self-Play Preference Optimization，SPO）能否奖励模型？

摘要：自我博弈偏好优化（Self-Play Preference Optimization, SPO）是一种通过自我博弈机制直接优化策略的方法，其核心特点是无需显式奖励模型，也不依赖对抗性训练。从技术本质来看，SPO 确实在特定场景下取代了奖励模型，但这一取代并非绝对，而是取决于任务类型和优化目标。以下从阅读全文

posted @ 2025-08-22 11:07 limingqi 阅读(232) 评论(0) 推荐(0)

[置顶] POLAR 的无监督预训练

摘要： POLAR 的无监督预训练过程可以拆解为 “数据构建逻辑” 和 “对比学习目标” 两部分，结合具体例子会更易理解：一、核心目标让奖励模型（RM）像 “策略侦探” 一样，学会判断两条轨迹（模型输出）是否来自同一个 “政策”（即同一个模型或相似行为模式的模型）。如果来自同一政策，就给它们更高的 “相阅读全文

posted @ 2025-07-26 12:48 limingqi 阅读(91) 评论(0) 推荐(0)

[置顶] Pre-Trained Policy Discriminators are General Reward Models 论文概述

摘要：一、研究背景强化学习（RL）在大型语言模型（LLMs）的训练中至关重要，其成功取决于奖励模型（RM）提供精确稳定反馈的能力。传统奖励模型依赖标注的偏好对训练，存在可扩展性和泛化性问题，前者受限于获取大量高质量标注对的难度，后者因建模人类偏好的主观性易受奖励攻击。规则基验证器虽能提供准确奖励信号阅读全文

posted @ 2025-07-26 12:47 limingqi 阅读(152) 评论(0) 推荐(0)

hermes 做医美分类的效果

摘要： ╭─ ⚕ Hermes ────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── 阅读全文

posted @ 2026-07-09 11:40 limingqi 阅读(1) 评论(0) 推荐(0)

qwen3.5-plus 模型9分类效果

摘要： Stage1 分型评测报告基本信息项目值评测日期 2026-07-09 模型 qwen3.5-plus API 平台阿里云 DashScope 样本总数 159 图片来源本地目录 ./test_images/downloaded/ 总体指标指标数值样本总数 159 调用失败/无结果阅读全文

posted @ 2026-07-09 09:26 limingqi 阅读(4) 评论(0) 推荐(0)

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

摘要：一、论文核心定位与解决痛点 1）标题直译《SkillOpt：面向自进化智能体的技能执行优化策略》 2）现有 Agent 技能方案三大缺陷（论文批判基线）手工 Prompt / 一次性生成：无迭代验证，靠人工试错，无法稳定收敛；松散自修正 Self-Revision：无验证门控，越改越差、性能震阅读全文

posted @ 2026-07-08 16:35 limingqi 阅读(5) 评论(0) 推荐(0)

4S 美学分析流程优化方案

摘要：一、当前执行流程与耗时分析 1.1 执行时序（完整串行）总耗时 = T1(Style Top3) + T2(完整4S报告) + T3(安全检查) + T4(项目映射) 其中： T1 ≈ 5-15秒（LLM调用1：Style分类） T2 ≈ 10-25秒（LLM调用2：完整报告，包含4S全部维度）阅读全文

posted @ 2026-07-06 22:34 limingqi 阅读(6) 评论(0) 推荐(0)

ksp_env_bench Benchmark 数据集构建流程

摘要： ksp_env_bench 通过四阶段流水线自动构建 benchmark 数据集，每个阶段各司其职、层层递进。整体架构 ┌─────────────────────────────────────────────────────────────────┐ │ BenchGeneratePipeli 阅读全文

posted @ 2026-07-06 15:38 limingqi 阅读(7) 评论(0) 推荐(0)

8D 报告图片 VLM 语义解析 — Qwen2-VL-72B VS Qwen2.5-VL-32B-Instruct

摘要：评估日期：2026-07-02样本数量：160 张图片（来自 34 个 8D 报告文件）对比模型：Qwen2.5-VL-32B-Instruct vs Qwen2-VL-72B（通义千问 DashScope）一、核心指标对比 1.1 基本性能指标 Qwen2.5-VL-32B-Instruct 阅读全文

posted @ 2026-07-02 10:43 limingqi 阅读(14) 评论(0) 推荐(0)

OCR智能批处理服务（推荐pdf加速版本）

摘要：一、请求参数 1. Body参数（JSON格式） { "requestId": "28a9d5c4-2dae-4898-b90e-bbd38b31d62c", "serviceCode": "aigc-ocr-distribute", "aiParam": { "resourceUrl": "htt 阅读全文

posted @ 2026-06-29 12:56 limingqi 阅读(12) 评论(0) 推荐(0)

Anthropic Claude TAG 技术调研

摘要：一、Claude TAG 产品概览 1.1 核心定义 Claude TAG 是常驻 Slack 频道的 AI 团队成员，可被 @Claude 召唤执行任务，也可主动介入——监控频道动态、跟进未解决问题、在条件满足时主动通知。与传统 AI 聊天工具的本质区别：维度传统 AI 对话 Claude 阅读全文

posted @ 2026-06-24 13:40 limingqi 阅读(140) 评论(0) 推荐(0)

企业项目实训大纲

摘要：结合应用型本科、高职高专学生基础，弱化复杂理论、强化实操、案例、趣味互动，拆分 8 大项目的通俗版讲课大纲，整体遵循「趣味引入→基础认知→案例讲解→上手实操→作品产出→总结拓展」节奏，降低难度、侧重落地应用，配套课堂互动、趣味任务、实景案例。整体课程说明授课对象：应用型本科、高职高专大三及以上阅读全文

posted @ 2026-06-08 12:30 limingqi 阅读(20) 评论(0) 推荐(0)

如何写好skill

摘要：一、什么是 Skill？ 1.1 定义 Skill 是一个文件夹，里面装着指令文档、参考资料、可执行脚本等资源。AI 拿到它，就能胜任一项原本不会的特定工作。比如一个 pdf-editor 技能文件夹里，可能有一份"怎么处理 PDF"的操作指令、一个旋转 PDF 的 Python 脚本、一份 AP 阅读全文

posted @ 2026-06-06 12:14 limingqi 阅读(48) 评论(0) 推荐(0)