上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 144 下一页
摘要: 在构建一个大规模 AI 系统时,我们其实就是在把不同的“智能体设计模式(agentic design patterns)”组合起来。不管系统多复杂都可以拆解成有限的几种"设计模式"。这些模式各有各的用法——有的专门负责思考优化,有的处理工具调用,有的管多智能体协作。 主要就这么几类:多智能体系统让不 阅读全文
posted @ 2025-09-26 21:03 deephub 阅读(22) 评论(0) 推荐(0)
摘要: 掩码注意力(Causal Attention)是生成式模型的核心技术,它传统自注意力机制有根本的不同,掩码注意力限制模型只能关注当前位置之前的tokens,确保了自回归生成的因果性。 自注意力的掩码 自注意力机制在Transformer编码器和BERT等模型中广泛应用。这种机制的特点是每个token 阅读全文
posted @ 2025-09-25 20:05 deephub 阅读(32) 评论(0) 推荐(0)
摘要: 注意力机制听起来很玄乎,但我们可以把它看作一个软k-NN算法。查询向量问:"谁跟我最像?",softmax投票,相似的邻居们返回一个加权平均值。这就是注意力头的另外一种解释: 一个可微分的软k-NN:计算相似度 → softmax转换为权重 → 对邻居值求加权平均。 通过 1/sqrt(d) 缩放防 阅读全文
posted @ 2025-09-24 20:35 deephub 阅读(13) 评论(0) 推荐(0)
摘要: Optuna在8月18日发布了最近的 v4.5版,加入了GPSampler的约束多目标优化功能,我们来看看这个新的功能。 基于高斯过程的贝叶斯优化(GPBO)最近几年在材料科学、机器学习等领域应用很广。GPSampler最初设计时就想做一个简单好用的GPBO实现。虽然在定制方面(比如核函数、获取函数 阅读全文
posted @ 2025-09-23 19:18 deephub 阅读(16) 评论(0) 推荐(0)
摘要: 检索增强生成(RAG)已成为构建生成式 AI 应用的主流架构,企业选择它主要原本是可以用自有数据约束模型输出,使答案更准确、可更新且更贴合业务场景。RAG 的效果在很大程度上取决于检索到的上下文质量——提升效果的常用手段包括合理切分文本块(chunking)、选用合适的嵌入模型与采用稳健的检索策略。 阅读全文
posted @ 2025-09-22 19:52 deephub 阅读(21) 评论(0) 推荐(0)
摘要: 推理型大语言模型现在确实火了。这类模型的特点是会先对问题做充分思考,然后再给出答案,而不是直接回复。 虽然早期训练推理型 LLM 的方法多半被各家公司当作核心机密,但最近的DeepSeek-R1、DeepSeekMath、Kimi-k1.5 和 DAPO 这些项目都公开了相关流程。 这些方法让 LL 阅读全文
posted @ 2025-09-21 20:10 deephub 阅读(33) 评论(0) 推荐(0)
摘要: 现在的文生图模型已经十分强大了,例如我们在输入框敲下 “a photorealistic astronaut riding a horse on the moon”,几秒钟后屏幕生成从未出现过的图像,细节丰富,几近完美。扩散模型(diffusion models)推动了这一切,早已将旧方法远远甩在身 阅读全文
posted @ 2025-09-20 20:44 deephub 阅读(43) 评论(0) 推荐(0)
摘要: Swarm sAmpling Policy Optimization,简称SAPO,这个名字听起来有点学术,但它解决的问题很实际。大规模语言模型的后训练一直是个让人头疼的事情——要么资源不够,要么效率太低。SAPO提出了一种去中心化的异步RL方案,让各个计算节点之间可以互相分享rollouts,避开 阅读全文
posted @ 2025-09-19 20:33 deephub 阅读(12) 评论(0) 推荐(0)
摘要: 拿到数据想建模,但不知道用哪个分布?大部分教科书都在讲一堆你永远用不到的东西。实际工作中,你只需要掌握几个核心分布,然后知道什么时候该用哪个就够了。 这里是我在做分析、实验设计、风险建模时真正会用的8个分布。每个都会告诉你使用场景、快速拟合方法、需要避开的坑,以及现成的代码。 https://avo 阅读全文
posted @ 2025-09-18 21:07 deephub 阅读(43) 评论(0) 推荐(0)
摘要: 还记得去年各大公司给提示工程师开出30万美元年薪的疯狂时期吗?现在这些招聘信息基本销声匿迹了。从技术角度看,提示工程确实有些"投机取巧"的意味——本质上就是让人们相信自己在做"工程"工作的华丽包装。 不过现在情况完全不同了。人们开始把传统软件工程的严谨方法和大语言模型的能力结合起来。这篇文章会深入探 阅读全文
posted @ 2025-09-17 20:49 deephub 阅读(7) 评论(0) 推荐(0)
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 144 下一页