09 2025 档案
摘要:大语言模型的工作原理说起来很直接:根据输入内容和已生成的文本,预测下一个最合适的词(token)。输入先转换成 token,再变成向量表示,最后在输出层重新转回 token。 真正的挑战在于如何从候选词中做出选择。这个过程本质上是统计和概率性的,叫做"采样"。每个解码步骤模型都要从整个词汇表的概率分
阅读全文
摘要:AI能否像人类一样从错误中学习?反思型Agent系统不仅能生成回答,还会主动审视自己的输出,找出问题并持续改进。 反思策略本质上就是让LLM对自己的行为进行自我批评。有时反思器还会调用外部工具或检索系统来提升批评的准确性。这样一来系统输出的就不再是一次性的回答,而是经过多轮生成-审阅循环优化后的结果
阅读全文
摘要:刷短视频本来只想看几分钟,不知不觉一个多小时就没了。每条视频都恰好戳中你的兴趣点,这种精准推送背后其实是一套相当复杂的工程架构。 这种"读心术"般的推荐效果并非偶然。驱动这种短视频页面的核心引擎,正是业内广泛采用的双塔推荐系统(Two-Tower Recommendation System)。 本文
阅读全文
摘要:大语言模型(LLM)虽然拥有强大的理解和生成能力,但本质上还只是一个能够处理文本的模型,并且它们无法主动获取信息、执行操作或与外部系统交互。 而AI智能体可以通过为LLM配备工具调用、环境感知和自主决策能力,将静态的语言模型转化为能够独立完成复杂任务的自治系统。AI智能体可以主动获取实时信息、执行多
阅读全文
摘要:在构建一个大规模 AI 系统时,我们其实就是在把不同的“智能体设计模式(agentic design patterns)”组合起来。不管系统多复杂都可以拆解成有限的几种"设计模式"。这些模式各有各的用法——有的专门负责思考优化,有的处理工具调用,有的管多智能体协作。 主要就这么几类:多智能体系统让不
阅读全文
摘要:掩码注意力(Causal Attention)是生成式模型的核心技术,它传统自注意力机制有根本的不同,掩码注意力限制模型只能关注当前位置之前的tokens,确保了自回归生成的因果性。 自注意力的掩码 自注意力机制在Transformer编码器和BERT等模型中广泛应用。这种机制的特点是每个token
阅读全文
摘要:注意力机制听起来很玄乎,但我们可以把它看作一个软k-NN算法。查询向量问:"谁跟我最像?",softmax投票,相似的邻居们返回一个加权平均值。这就是注意力头的另外一种解释: 一个可微分的软k-NN:计算相似度 → softmax转换为权重 → 对邻居值求加权平均。 通过 1/sqrt(d) 缩放防
阅读全文
摘要:Optuna在8月18日发布了最近的 v4.5版,加入了GPSampler的约束多目标优化功能,我们来看看这个新的功能。 基于高斯过程的贝叶斯优化(GPBO)最近几年在材料科学、机器学习等领域应用很广。GPSampler最初设计时就想做一个简单好用的GPBO实现。虽然在定制方面(比如核函数、获取函数
阅读全文
摘要:检索增强生成(RAG)已成为构建生成式 AI 应用的主流架构,企业选择它主要原本是可以用自有数据约束模型输出,使答案更准确、可更新且更贴合业务场景。RAG 的效果在很大程度上取决于检索到的上下文质量——提升效果的常用手段包括合理切分文本块(chunking)、选用合适的嵌入模型与采用稳健的检索策略。
阅读全文
摘要:推理型大语言模型现在确实火了。这类模型的特点是会先对问题做充分思考,然后再给出答案,而不是直接回复。 虽然早期训练推理型 LLM 的方法多半被各家公司当作核心机密,但最近的DeepSeek-R1、DeepSeekMath、Kimi-k1.5 和 DAPO 这些项目都公开了相关流程。 这些方法让 LL
阅读全文
摘要:现在的文生图模型已经十分强大了,例如我们在输入框敲下 “a photorealistic astronaut riding a horse on the moon”,几秒钟后屏幕生成从未出现过的图像,细节丰富,几近完美。扩散模型(diffusion models)推动了这一切,早已将旧方法远远甩在身
阅读全文
摘要:Swarm sAmpling Policy Optimization,简称SAPO,这个名字听起来有点学术,但它解决的问题很实际。大规模语言模型的后训练一直是个让人头疼的事情——要么资源不够,要么效率太低。SAPO提出了一种去中心化的异步RL方案,让各个计算节点之间可以互相分享rollouts,避开
阅读全文
摘要:拿到数据想建模,但不知道用哪个分布?大部分教科书都在讲一堆你永远用不到的东西。实际工作中,你只需要掌握几个核心分布,然后知道什么时候该用哪个就够了。 这里是我在做分析、实验设计、风险建模时真正会用的8个分布。每个都会告诉你使用场景、快速拟合方法、需要避开的坑,以及现成的代码。 https://avo
阅读全文
摘要:还记得去年各大公司给提示工程师开出30万美元年薪的疯狂时期吗?现在这些招聘信息基本销声匿迹了。从技术角度看,提示工程确实有些"投机取巧"的意味——本质上就是让人们相信自己在做"工程"工作的华丽包装。 不过现在情况完全不同了。人们开始把传统软件工程的严谨方法和大语言模型的能力结合起来。这篇文章会深入探
阅读全文
摘要:说到上下文工程,其实就是在合适的时机把AI需要的所有东西都给它——指令、示例、数据、工具、历史记录,全部打包塞到模型的输入上下文里。 这么理解会比较直观:语言模型就像CPU,上下文窗口就是工作内存。我们要做的就是往这块内存里装合适比例的代码、数据和指令,让模型能把事情做对。 上下文的来源很多:用户的
阅读全文
摘要:RAG(检索增强生成)本质上就是给AI模型外挂一个知识库。平常用ChatGPT只能基于训练数据回答问题,但RAG可以让它查阅你的专有文档——不管是内部报告、技术文档还是业务资料,都能成为AI的参考资源。 很多人第一反应是用LangChain或LlamaIndex这些现成框架,确实能快速搭起来。但自己
阅读全文
摘要:做机器人逆运动学(IK)的时候,你迟早会遇到矩阵指数和对数这些东西。为什么呢?因为计算三维旋转的误差,不能简单地用欧氏距离那一套,那只对位置有效。旋转得用另一套方法——你需要算两个旋转矩阵之间的差异,这就涉及到矩阵对数了。 这篇文章就是要把这事儿说清楚:从旋转矩阵构成的李群开始,到流形和切空间,再到
阅读全文
摘要:对于神经网络来说,我们已经习惯了层状网络的思维:数据进来,经过第一层,然后第二层,第三层,最后输出结果。这个过程很像流水线,每一步都是离散的。 但是现实世界的变化是连续的,比如烧开水,谁的温度不是从30度直接跳到40度,而是平滑的上生。球从山坡滚下来速度也是渐渐加快的。这些现象背后都有连续的规律在支
阅读全文
摘要:很多人认为使用AI Agent就是直接扔个提示词过去,然后等结果。做实验这样是没问题的,但要是想在生产环境稳定输出高质量结果,这套玩法就不行了。 核心问题是这种随意的提示方式根本扩展不了。你会发现输出结果乱七八糟,质量完全不可控,还浪费计算资源。 真正有效的做法是设计结构化的Agent工作流。 那些
阅读全文
摘要:从ChatGPT到现在的智能体AI这个跨越说明了一个关键转变。ChatGPT本质上是个聊天机器人,生成文本回应;而AI智能体能够自主完成复杂任务——销售、旅行规划、航班预订、找装修师傅、点外卖,这些都在它的能力范围内。 目前我们解决用户任务时,主要是让大语言模型(LLM)做任务分解,这也是和生成式A
阅读全文
摘要:在传统机器学习中数据编码确实相对直观:独热编码处理类别变量,标准化调整数值范围,然后直接输入模型训练。整个过程更像是数据清洗,而非核心算法组件。 量子机器学习的编码完全是另一回事。 传统算法可以直接消化特征向量 ***[0.7, 1.2, -0.3]***,但量子电路运行在概率幅和量子态的数学空间里
阅读全文
摘要:Hyperband是机器学习中一个相当实用的超参数调优算法,核心思路是用逐次减半来分配计算资源。说白了就是让一堆配置先跑几轮,表现差的直接踢掉,剩下的继续训练更多轮次。 这个方法的巧妙之处在于平衡了探索和利用。你既要试足够多的配置组合(探索),又要给有潜力的配置足够的训练时间(利用)。传统方法要么试
阅读全文
摘要:监督微调(SFT)基本上是现在训练大模型时必走的路。不管你要让模型干什么,先用 SFT 让它学会基本的指令跟随和对话能力,然后再通过 PPO 或者 GRPO 这些强化学习方法进一步调优。 但 SFT 有个老毛病:容易过拟合。模型会死记硬背训练数据,泛化能力变差。更要命的是,经过 SFT 训练的模型在
阅读全文
摘要:图数据在机器学习中的地位越来越重要。社交网络的用户关系、论文引用网络、分子结构,这些都不是传统的表格或序列数据能很好处理的。现实世界中实体之间的连接往往承载着关键信息。 图神经网络(GNN)的出现解决了这个问题,它让每个节点可以从邻居那里获取信息来更新自己的表示。图卷积网络(GCN)是其中的经典代表
阅读全文
摘要:现在的量化交易早就不是简单的技术指标了。真正有效的交易系统需要像一个完整的投资团队一样工作——有专门的分析师收集各种数据,有研究员进行深度分析和辩论,有交易员制定具体策略,还有风险管理团队把关。问题是传统的程序很难模拟这种复杂的协作流程。 LangGraph的多智能体架构正好解决了这个问题。我们可以
阅读全文
摘要:当你需要处理大规模并行任务,特别是涉及GPU集群的场景时,Ray Serve和Celery是两个主要选择。但它们的设计理念完全不同: Celery是分布式任务队列,把任务推到broker,worker拉取执行。它的核心是扇出扇入(fan-out/fan-in),特别适合大批量离线处理。Ray Ser
阅读全文
摘要:DINOv3是Meta推出的自监督视觉骨干网络,最大的亮点是你可以把整个backbone冻住不动,只训练一个很小的任务头就能在各种密集预测任务上拿到SOTA结果。这对实际工程应用来说意义重大,因为大部分时候我们并不想重新训练一个几十亿参数的模型。 https://avoid.overfit.cn/p
阅读全文
摘要:Microsoft Research最近发布的rStar2-Agent展示了一个令人瞩目的结果:一个仅有14B参数的模型在AIME24数学基准测试上达到了80.6%的准确率,超越了671B参数的DeepSeek-R1(79.8%)。这不是简单的参数效率提升,而是AI推理的进步。 过去几年,大语言模型
阅读全文
摘要:大语言模型智能体(LLM Agent)是一类利用大语言模型通过交互、推理和决策来自主执行复杂任务的系统,通常具备访问外部工具、记忆系统或环境的能力。与被动响应单一提示的传统LLM不同,LLM智能体采用主动且迭代的运行模式,在明确目标的引导下执行任务。这类系统正被广泛部署为跨领域的自主问题解决器,Op
阅读全文
摘要:大语言模型的推理能力提升,经历了从规模扩展到方法创新的转变。Google在2022年提出Chain-of-Thought(CoT),通过让模型"展示工作过程"大幅提升了推理表现。随后Tree-of-Thought和Graph-of-Thought相继出现,推理结构从线性链条演进为复杂图网络。 htt
阅读全文

浙公网安备 33010602011771号