Fork me on GitHub

随笔分类 -  大模型

摘要:你可以从泄露的 50 万行 Claude 代码中学习和借鉴什么 Claude Code npm 包中包含的源映射公开了整个 TypeScript 源树:2,203 个文件,512,664 行代码。 高层架构已在其他地方介绍过。本文重点介绍一些具体但实用的技巧:引导模型行为的提示工程模式、根据生产事故 阅读全文
posted @ 2026-04-01 16:47 stardsd 阅读(77) 评论(0) 推荐(0)
摘要:constants/prompts.ts 1. getHooksSection 用户可以在设置中配置“hooks”(钩子),即在工具调用等事件发生时执行的 shell 命令。将来自 hooks 的反馈(包括 <user-prompt-submit-hook>)视为来自用户的输入。如果你被某个 hoo 阅读全文
posted @ 2026-04-01 15:42 stardsd 阅读(26) 评论(0) 推荐(0)
摘要:REPL(读取-求值-打印循环)是一种交互式编程环境,它接收单个用户输入,执行这些输入,并立即返回结果。它充当对话式界面,用于快速原型设计、调试和实验,允许开发人员在不运行完整程序的情况下测试代码片段。常见的例子包括 Python shell、Node.js 和 IDE 控制台。 OpenAI Ag 阅读全文
posted @ 2026-04-01 10:51 stardsd 阅读(23) 评论(0) 推荐(0)
摘要:LLM 大语言模型 国际最新科研进展与未来趋势报告 2026年3月 覆盖模型架构 · 推理能力 · 多智能体 · 多模态 · 效率优化 · 安全合规 一、执行摘要 2024年底至2026年初,大语言模型(LLM)领域经历了自2022年ChatGPT发布以来最为密集的技术突破浪潮。本报告综合分析全球三 阅读全文
posted @ 2026-03-23 16:04 stardsd 阅读(3221) 评论(0) 推荐(0)
摘要:这篇论文核心是解决大语言模型(LLM)在“多轮交互任务”(比如AI助手自动执行代码、连续对话)中的性能瓶颈,提出了一个叫DualPath的系统方案: 1. 先搞懂背景:现在的AI模型遇到了什么麻烦? 现在的AI不只是简单聊天了,还能当“自主代理人”——比如连续几十上百轮调用工具(像浏览器、Pytho 阅读全文
posted @ 2026-02-27 16:50 stardsd 阅读(175) 评论(0) 推荐(0)
摘要:1️⃣ 什么是 Test Time Scaling? Test Time Scaling (TTS) 指的是: 在不改变模型参数的前提下, 通过增加推理时的计算量,提高模型输出质量。 它的本质是: Train-time scaling = 增大模型参数/数据/训练步数 Test-time scali 阅读全文
posted @ 2026-02-27 15:41 stardsd 阅读(76) 评论(0) 推荐(0)
摘要:传统意义上的“智能体网络”是指智能体像我们一样“使用”网络。 人们对“智能网络”的关注度很高,这也不无道理——人工智能代理能够代表我们在互联网上行动的想法确实很有吸引力。但如果你仔细观察大多数人所说的“智能网络”,你会发现他们描述的其实相当保守。他们说的其实是我们现有的网络,只不过点击操作是由人工智 阅读全文
posted @ 2026-02-27 10:55 stardsd 阅读(36) 评论(0) 推荐(0)
摘要:原文链接:https://arxiv.org/pdf/2602.03587 这篇文档核心是提出了一个叫“CL-bench”的评估基准,专门测试大语言模型的“语境学习能力”——简单说就是模型能不能从新给的复杂信息里学知识,再用这些知识解决实际问题。 为什么要做这个基准? 现在的大语言模型(比如GPT、 阅读全文
posted @ 2026-02-05 10:58 stardsd 阅读(126) 评论(0) 推荐(0)
摘要:在人工智能浪潮席卷全球、大模型竞争日趋白热化的当下,人类尤其需要理性思考。 在近日中欧国际工商学院与上海市工商业联合会共同主办的“工商联·经济大家讲坛暨第十一期中欧话未来”上,北京大学教授、中国计算机学会前理事长、中国科学院院士梅宏对当前人工智能热潮作了冷思考。 尽管以深度学习为代表的AI技术取得了 阅读全文
posted @ 2026-02-04 15:38 stardsd 阅读(41) 评论(0) 推荐(0)
摘要:一、什么是“训-推误差”(Training-Inference Mismatch) 在强化学习(包括 RLHF、PPO、GRPO 等)用于大语言模型(LLM)微调时,会存在一个核心问题:模型在训练阶段与推理阶段使用的策略概率分布不完全一致。 核心描述 训练过程中通常包含两个不同的计算环节: Roll 阅读全文
posted @ 2026-02-04 10:12 stardsd 阅读(155) 评论(0) 推荐(0)
摘要:下面进入 「能不能把 RL 真正用在 reasoning 上」的核心工程区 reward 设计 + pair 采样策略——为什么这是 GFPO 真正赢的地方。 下面内容默认背景: 任务是 reasoning / 数学 / 代码 / 多步推理 backbone 是 LLM(policy) 用的是 GR 阅读全文
posted @ 2026-02-03 15:11 stardsd 阅读(129) 评论(0) 推荐(0)
摘要:“GRPO 家族算法操作手册” 一、所有算法的共同起点 不管哪种变体,前 3 步是完全一样的。 Step 0:准备三样东西 一个 当前策略模型 \( \pi_\theta(y \mid x) \) 一个 reward 计算方式 rule / verifier RM GPT-judge correct 阅读全文
posted @ 2026-02-03 14:54 stardsd 阅读(110) 评论(0) 推荐(0)
摘要:总览表 维度 CIDEr CLIPScore GPT-based Eval 核心思想 人类共识 n-gram 跨模态语义对齐 大模型当裁判 是否需要参考文本 ✅ 需要(多条) ❌ 不需要 可选 是否看图像 ❌ 不直接 ✅ 是 ✅ 是 是否理解语义 ⚠️ 局部 ✅ 全局 ✅ 最强 是否理解事实 ❌ ⚠ 阅读全文
posted @ 2026-02-03 10:20 stardsd 阅读(98) 评论(0) 推荐(0)
摘要:CIDEr 公式 CIDEr(Consensus-based Image Description Evaluation)是图像描述/自然语言生成领域常用的自动评估指标,尤其在 image captioning 任務中。 📌 核心原理 CIDEr 衡量 候选描述与多条参考描述 之间的相似度: 将句子 阅读全文
posted @ 2026-02-03 10:14 stardsd 阅读(71) 评论(0) 推荐(0)
摘要:下面从“论文结构 → 算法核心 → 关键公式/机制 → 和现有 VLM 的关系”四个层次,把 Vary(Vision Vocabulary Augmentation) 的算法部分彻底拆解。 一、论文整体结构速览 Vary 这篇论文的逻辑其实非常“干净”,核心只有一件事: CLIP 的视觉词汇不够 → 阅读全文
posted @ 2026-02-02 10:38 stardsd 阅读(48) 评论(0) 推荐(0)
摘要:这个点正好卡在 VLM 的“视觉→语言”接口层。 一、先给结论:什么是「CLIP 视觉词汇表」 一句话版: CLIP 的“视觉词汇表”不是显式的 token 表,而是一个“隐式的、由语言监督塑形的视觉概念空间”。 它本质上是: 一组 被语言对齐过的视觉 embedding 原型 每一个视觉 patc 阅读全文
posted @ 2026-02-02 10:16 stardsd 阅读(41) 评论(0) 推荐(0)
摘要:PPT分享: 分析: 一、什么是 Agent Skill(一句话定义) Agent Skill 是一种“可复用、可调度、可验证的能力单元”,它把 做一件事 从一次性 prompt,提升为系统级能力。 换句话说: Skill = 行为 + 约束 + 接口 + 状态 而不只是“怎么问模型”。 二、先用一 阅读全文
posted @ 2026-01-14 16:44 stardsd 阅读(266) 评论(0) 推荐(0)
摘要:这是一个在集体智慧、群体决策、AI ensemble、专家系统中都非常重要的理论。 一、一句话版结论(先给直觉) “群体预测的准确性 = 个体平均准确性 + 群体多样性” 也就是说: 即使个体并不特别聪明,只要他们的错误是“不一样的”,群体预测就可以非常准。 这直接反驳了“必须找最聪明的人”的直觉, 阅读全文
posted @ 2026-01-14 11:00 stardsd 阅读(41) 评论(0) 推荐(0)
摘要:https://arxiv.org/abs/2503.19551 模型塌缩(Model Collapse): 当新模型越来越多地使用由旧模型生成的数据进行训练,导致数据分布逐步偏离真实世界,从而引发模型能力退化、多样性下降和错误放大的现象。 这篇论文核心是解决大语言模型(比如ChatGPT这类)训练 阅读全文
posted @ 2026-01-08 16:10 stardsd 阅读(143) 评论(0) 推荐(0)
摘要:论文链接: https://arxiv.org/abs/2506.15253 这篇文档核心是介绍了一个叫 RAS-Eval 的“安全测评工具”,专门用来检测大语言模型代理(比如能帮你查日历、做财务咨询、操作数据库的AI助手)在真实场景下的安全漏洞,还通过实验证明了这个工具的有效性。 用大白话拆解重点 阅读全文
posted @ 2026-01-07 14:56 stardsd 阅读(81) 评论(0) 推荐(0)