Fork me on GitHub

随笔分类 -  大模型

摘要:计算语言学,亦称电脑语言学(英语:computational linguistics)是一门跨学科的研究领域,试图找出自然语言的规律,建立运算模型,最终让电脑能够像人类般分析,理解和处理自然语言。 过去,计算语言学的研究一般由专门负责利用电脑处理自然语言的计算机科学家进行。由于近年的研究显示人类语言 阅读全文
posted @ 2026-04-28 16:03 stardsd 阅读(2) 评论(0) 推荐(0)
摘要:要把 S4(Structured State Space Sequence model) 放进深度神经网络里,本质上是把一个经典的 状态空间模型(State Space Model, SSM) 变成一个“可训练的序列层(layer)”。但很多人一开始容易误解:一层 ≠ 一个时间步,而是一层实现整个时 阅读全文
posted @ 2026-04-20 16:10 stardsd 阅读(41) 评论(0) 推荐(0)
摘要:神经符号集成(Neuro-Symbolic Integration)是近年来人工智能领域最具突破性的研究方向之一,它通过巧妙融合神经网络与符号系统的优势,为解决传统AI方法面临的诸多挑战提供了创新思路。作为连接数据驱动与知识驱动两大范式的桥梁,这种集成方法正在重新定义机器智能的边界,为构建兼具学习能 阅读全文
posted @ 2026-04-20 15:37 stardsd 阅读(22) 评论(0) 推荐(0)
摘要:在语言建模中,并非所有的tokens和序列都需要相同的时间或努力来准确地进行预测。然而transformer在前向传递(forward pass)中对每个token消耗相同数量的计算资源。理想情况下,transformer应通过不必要地消耗计算资源来使用更小的总计算预算。 条件计算(Conditio 阅读全文
posted @ 2026-04-20 15:21 stardsd 阅读(13) 评论(0) 推荐(0)
摘要:什么是小型语言模型? 小型语言模型 (SLM) 是能够处理、理解和生成自然语言内容的人工智能 (AI) 模型。顾名思义,SLM 的规模和范围比大型语言模型 (LLM) 小。 就规模而言,SLM 的参数范围从几百万到几十亿不等,而 LLM 则具有数千亿甚至数万亿参数。参数是模型在训练期间要学习的内部变 阅读全文
posted @ 2026-04-20 15:09 stardsd 阅读(25) 评论(0) 推荐(0)
摘要:你可以从泄露的 50 万行 Claude 代码中学习和借鉴什么 Claude Code npm 包中包含的源映射公开了整个 TypeScript 源树:2,203 个文件,512,664 行代码。 高层架构已在其他地方介绍过。本文重点介绍一些具体但实用的技巧:引导模型行为的提示工程模式、根据生产事故 阅读全文
posted @ 2026-04-01 16:47 stardsd 阅读(207) 评论(0) 推荐(0)
摘要:constants/prompts.ts 1. getHooksSection 用户可以在设置中配置“hooks”(钩子),即在工具调用等事件发生时执行的 shell 命令。将来自 hooks 的反馈(包括 <user-prompt-submit-hook>)视为来自用户的输入。如果你被某个 hoo 阅读全文
posted @ 2026-04-01 15:42 stardsd 阅读(69) 评论(0) 推荐(0)
摘要:REPL(读取-求值-打印循环)是一种交互式编程环境,它接收单个用户输入,执行这些输入,并立即返回结果。它充当对话式界面,用于快速原型设计、调试和实验,允许开发人员在不运行完整程序的情况下测试代码片段。常见的例子包括 Python shell、Node.js 和 IDE 控制台。 OpenAI Ag 阅读全文
posted @ 2026-04-01 10:51 stardsd 阅读(78) 评论(0) 推荐(0)
摘要:LLM 大语言模型 国际最新科研进展与未来趋势报告 2026年3月 覆盖模型架构 · 推理能力 · 多智能体 · 多模态 · 效率优化 · 安全合规 一、执行摘要 2024年底至2026年初,大语言模型(LLM)领域经历了自2022年ChatGPT发布以来最为密集的技术突破浪潮。本报告综合分析全球三 阅读全文
posted @ 2026-03-23 16:04 stardsd 阅读(4779) 评论(0) 推荐(0)
摘要:这篇论文核心是解决大语言模型(LLM)在“多轮交互任务”(比如AI助手自动执行代码、连续对话)中的性能瓶颈,提出了一个叫DualPath的系统方案: 1. 先搞懂背景:现在的AI模型遇到了什么麻烦? 现在的AI不只是简单聊天了,还能当“自主代理人”——比如连续几十上百轮调用工具(像浏览器、Pytho 阅读全文
posted @ 2026-02-27 16:50 stardsd 阅读(222) 评论(0) 推荐(0)
摘要:1️⃣ 什么是 Test Time Scaling? Test Time Scaling (TTS) 指的是: 在不改变模型参数的前提下, 通过增加推理时的计算量,提高模型输出质量。 它的本质是: Train-time scaling = 增大模型参数/数据/训练步数 Test-time scali 阅读全文
posted @ 2026-02-27 15:41 stardsd 阅读(108) 评论(0) 推荐(0)
摘要:传统意义上的“智能体网络”是指智能体像我们一样“使用”网络。 人们对“智能网络”的关注度很高,这也不无道理——人工智能代理能够代表我们在互联网上行动的想法确实很有吸引力。但如果你仔细观察大多数人所说的“智能网络”,你会发现他们描述的其实相当保守。他们说的其实是我们现有的网络,只不过点击操作是由人工智 阅读全文
posted @ 2026-02-27 10:55 stardsd 阅读(43) 评论(0) 推荐(0)
摘要:原文链接:https://arxiv.org/pdf/2602.03587 这篇文档核心是提出了一个叫“CL-bench”的评估基准,专门测试大语言模型的“语境学习能力”——简单说就是模型能不能从新给的复杂信息里学知识,再用这些知识解决实际问题。 为什么要做这个基准? 现在的大语言模型(比如GPT、 阅读全文
posted @ 2026-02-05 10:58 stardsd 阅读(167) 评论(0) 推荐(0)
摘要:在人工智能浪潮席卷全球、大模型竞争日趋白热化的当下,人类尤其需要理性思考。 在近日中欧国际工商学院与上海市工商业联合会共同主办的“工商联·经济大家讲坛暨第十一期中欧话未来”上,北京大学教授、中国计算机学会前理事长、中国科学院院士梅宏对当前人工智能热潮作了冷思考。 尽管以深度学习为代表的AI技术取得了 阅读全文
posted @ 2026-02-04 15:38 stardsd 阅读(47) 评论(0) 推荐(0)
摘要:一、什么是“训-推误差”(Training-Inference Mismatch) 在强化学习(包括 RLHF、PPO、GRPO 等)用于大语言模型(LLM)微调时,会存在一个核心问题:模型在训练阶段与推理阶段使用的策略概率分布不完全一致。 核心描述 训练过程中通常包含两个不同的计算环节: Roll 阅读全文
posted @ 2026-02-04 10:12 stardsd 阅读(255) 评论(0) 推荐(0)
摘要:下面进入 「能不能把 RL 真正用在 reasoning 上」的核心工程区 reward 设计 + pair 采样策略——为什么这是 GFPO 真正赢的地方。 下面内容默认背景: 任务是 reasoning / 数学 / 代码 / 多步推理 backbone 是 LLM(policy) 用的是 GR 阅读全文
posted @ 2026-02-03 15:11 stardsd 阅读(180) 评论(0) 推荐(0)
摘要:“GRPO 家族算法操作手册” 一、所有算法的共同起点 不管哪种变体,前 3 步是完全一样的。 Step 0:准备三样东西 一个 当前策略模型 \( \pi_\theta(y \mid x) \) 一个 reward 计算方式 rule / verifier RM GPT-judge correct 阅读全文
posted @ 2026-02-03 14:54 stardsd 阅读(130) 评论(0) 推荐(0)
摘要:总览表 维度 CIDEr CLIPScore GPT-based Eval 核心思想 人类共识 n-gram 跨模态语义对齐 大模型当裁判 是否需要参考文本 ✅ 需要(多条) ❌ 不需要 可选 是否看图像 ❌ 不直接 ✅ 是 ✅ 是 是否理解语义 ⚠️ 局部 ✅ 全局 ✅ 最强 是否理解事实 ❌ ⚠ 阅读全文
posted @ 2026-02-03 10:20 stardsd 阅读(116) 评论(0) 推荐(0)
摘要:CIDEr 公式 CIDEr(Consensus-based Image Description Evaluation)是图像描述/自然语言生成领域常用的自动评估指标,尤其在 image captioning 任務中。 📌 核心原理 CIDEr 衡量 候选描述与多条参考描述 之间的相似度: 将句子 阅读全文
posted @ 2026-02-03 10:14 stardsd 阅读(99) 评论(0) 推荐(0)
摘要:下面从“论文结构 → 算法核心 → 关键公式/机制 → 和现有 VLM 的关系”四个层次,把 Vary(Vision Vocabulary Augmentation) 的算法部分彻底拆解。 一、论文整体结构速览 Vary 这篇论文的逻辑其实非常“干净”,核心只有一件事: CLIP 的视觉词汇不够 → 阅读全文
posted @ 2026-02-02 10:38 stardsd 阅读(60) 评论(0) 推荐(0)