会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
1
2
3
4
5
···
155
下一页
2026年4月4日
从零构建 Mini-vLLM:KV-Cache、动态批处理与分布式推理全流程
摘要: HuggingFace 的 .generate() 是个黑盒,而且这个黑盒藏了一个代价很高的问题,每一个解码步骤它都从头开始对整个 prompt 做一次完整的注意力计算。每一个 token 都是如此。注意力的开销以 O(N²) 的速度随序列长度增长,在小规模下完全察觉不到,一旦上了真实负载就会出现问
阅读全文
posted @ 2026-04-04 21:09 deephub
阅读(2)
评论(0)
推荐(0)
2026年4月3日
多 Aspect Embedding:将上下文信号编入向量相似性计算的检索架构
摘要: 向量数据库的核心任务是对文本或其他非结构化数据生成的 Embedding 做相似性搜索。时间戳、文档类型、所有权一类的上下文约束,一般以外部过滤器的形式在向量搜索前后进行。多数场景下这一架构运作正常,但当上下文信号需要参与排序就会有问题。本文分析传统向量数据库架构的过滤与检索机制,并介绍 Aspec
阅读全文
posted @ 2026-04-03 20:33 deephub
阅读(1)
评论(0)
推荐(0)
2026年4月2日
投机解码原理详解:小模型打草稿,大模型一次验证
摘要: 生产环境中真正烧钱、拖慢体验的环节不是训练、是推理。自回归的方式一次只产出一个 token,每个 token 都要完整走一遍模型所有层的前向传播。70B 参数的模型在 H100 上运行,每个 token 对应 700 亿次乘累加运算,而 GPU 大部分时间都在等内存搬运数据,真正用于计算的比例很低。
阅读全文
posted @ 2026-04-02 21:10 deephub
阅读(5)
评论(0)
推荐(0)
2026年4月1日
10个内置在 Pandas 中却常被忽略的向量化操作
摘要: Pandas 本身内置了大量面向列操作的方法,覆盖条件赋值、数据分箱、格式转换、字符串处理等常见场景,只是在日常使用中很容易被忽略。翻阅 Kaggle 高分方案和生产级数据管道的源码后会发现,那些看起来简洁的一行代码并非技巧,而是对库本身设计意图的理解。 本文整理了10个这样的写法,每个都附带常见的
阅读全文
posted @ 2026-04-01 21:33 deephub
阅读(2)
评论(0)
推荐(0)
2026年3月31日
不依赖对话日志检测Prompt注入,一套隐私优先的实现方案
摘要: 检测 Prompt 注入和越狱攻击的方法,大多建立在系统可以访问对话日志这个前提上。但是如果设计一个系统,每段对话只处理一次以提取特征,不保留原始文本可以吗?: 如果只保留遥测数据(关于会话行为的数值信号)实际上能保留多少检测能力? 本文就是做一个受约束的实验,用于测试这种架构边界是否可行。 系统概
阅读全文
posted @ 2026-03-31 23:49 deephub
阅读(2)
评论(0)
推荐(0)
2026年3月30日
多 Agent 验证架构实战:从输出评分到过程验证
摘要: 多 Agent 流水线在每一次演示中都表现正常。但是到了生产环境,它可能在第四步之前就悄悄积累了三个错误决策,最终输出自信、流畅但是完全错误。并且最后没有人发现问题,因为根本没有信号可以捕捉链条末端只剩下一个看起来干干净净的结果。 这是 2026 年生产级 Agent 系统最典型的失败模式。正确构建
阅读全文
posted @ 2026-03-30 21:40 deephub
阅读(7)
评论(0)
推荐(0)
2026年3月29日
RouteRAG:用特殊 Token 和强化学习构建可学习的 RAG 检索策略
摘要: RouteRAG 把多轮 RAG 重新建模为序列决策过程。 它不依赖固定的手工检索流水线或静态指令,而是学到一套策略:推理过程中的特殊 Token 可以触发检索动作。每一步,模型生成一个动作 Token——继续内部推理、经 <search>...</search> 发起检索,或经 <answer>.
阅读全文
posted @ 2026-03-29 21:46 deephub
阅读(11)
评论(0)
推荐(0)
2026年3月26日
信息访问 vs. 推理能力:LLM Agent 性能归因的实验分析
摘要: LLM agent 看起来越来越智能了。但实际上它们可能只是拿到了更多信息。 Agentic 工作流普及以后,LLM 开始被频繁用于迭代优化机器学习模型:提出配置方案、观察实验结果、逐步改进决策。表面上看这像是推理,但一个根本问题悬而未决:系统性能的提升,究竟源于推理能力,还是源于输入端信息的改善?
阅读全文
posted @ 2026-03-26 20:06 deephub
阅读(2)
评论(0)
推荐(0)
2026年3月25日
TPU 架构与 Pallas Kernel 编程入门:从内存层次结构到 FlashAttention
摘要: 做过 GPU kernel 优化的人对以下编程模型肯定不会陌生:写一个 CUDA kernel分发到流式多处理器(SM)上执行,缓存层次结构自行负责数据搬运。而TPU 则完全不同,除非明确告诉编译器要把哪些数据块搬到哪里,否则kernel 根本无法编译。实际操作确实和听起来一样繁琐,所以JAX 的P
阅读全文
posted @ 2026-03-25 20:32 deephub
阅读(5)
评论(0)
推荐(0)
2026年3月24日
腾讯微信OpenClaw插件API通信过程剖析与Python原生代码复刻原理
摘要: 腾讯官方开放了一个微信插件 @tencent-weixin/openclaw-weixin,声称可以扫码即可登录,支持消息收发 。这个插件是腾讯官方发布的,用的是微信内部的 ilink AI Bot 平台接口。 本文将介绍如何不装 OpenClaw,直接把协议扒出来,并用 Python 复刻 。 h
阅读全文
posted @ 2026-03-24 20:34 deephub
阅读(33)
评论(0)
推荐(0)
1
2
3
4
5
···
155
下一页
公告