上一页 1 2 3 4 5 6 7 8 9 ··· 153 下一页
摘要: PyTorch 的即时执行模式在原型开发阶段很方便,但在推理性能上存在明显短板。每个张量操作独立启动 kernel、独立访问显存,导致内存带宽成为瓶颈GPU 算力无法充分利用。 torch.compile 通过提前构建计算图来解决这个问题。它的核心策略是操作融合和缓冲区复用:第一次调用需要编译而之后 阅读全文
posted @ 2026-02-03 22:22 deephub 阅读(6) 评论(0) 推荐(0)
摘要: LangGraph 设计的一个核心是:多智能体工作流本质上是图结构,而非线性链。早期 LLM 应用普遍采用"提示 → LLM → 响应"的线性模式,但这种架构难以应对真实智能体系统的复杂性。比如生产环境中的多智能体协作需要分支(基于数据选择不同执行路径)、循环(支持重试与迭代优化)、汇合(多个智能体 阅读全文
posted @ 2026-02-02 21:10 deephub 阅读(13) 评论(0) 推荐(0)
摘要: 当前主流 AI 智能体框架有一个共同的局限:智能体只能按预设逻辑执行任务,无法从运行时反馈中持续学习。模型权重是静态的,提示词需要人工迭代,整个系统缺乏自我优化的闭环。 Agent Lightning 针对这一问题提出了解决方案。它是一个框架无关的强化学习包装层,可以套在任意现有智能体外部,让智能体 阅读全文
posted @ 2026-02-01 21:14 deephub 阅读(31) 评论(0) 推荐(0)
摘要: 这篇文章从头实现 LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures。需要说明的是,这里写的是一个简洁的最小化训练脚本,目标是了解 JEPA 的本质:对同一文本创建两个视图,预测被遮蔽片段的嵌入, 阅读全文
posted @ 2026-01-31 21:36 deephub 阅读(7) 评论(0) 推荐(0)
摘要: 只用了几年时间,上下文窗口就从 4k 膨胀到 1000 万。Meta 发布的 Llama 4 Scout 的时候说这个模型支持 1000 万 Token,是 Llama 3 那 128k 的 78 倍。而Google Gemini 3 Pro 是 100 万,Claude 4 也桐乡市100万。 一 阅读全文
posted @ 2026-01-30 22:36 deephub 阅读(13) 评论(0) 推荐(0)
摘要: DQN 用 max Q(s',a') 计算目标值,等于在挑 Q 值最高的动作,但是这些动作中包括了那些因为估计噪声而被高估的动作,素以就会产生过估计偏差,直接后果是训练不稳定、策略次优。 这篇文章要解决的就是这个问题,内容包括:DQN 为什么会过估计、Double DQN 怎么把动作选择和评估拆开、 阅读全文
posted @ 2026-01-29 21:24 deephub 阅读(7) 评论(0) 推荐(0)
摘要: 如果你认为Claude Code 的使用流程就是随手丢一句话,然后就等结果那你就错了。 比如你对Claude Code 说 "重构这段代码,找出bug,写测试,优化性能,顺便解释一下。" 你可以看到它确实在努力,但结果一塌糊涂:可能在重构动了业务逻辑,解释写了一半就没了下文了,而且测试跟项目框架对不 阅读全文
posted @ 2026-01-28 21:48 deephub 阅读(17) 评论(0) 推荐(0)
摘要: 你有没有遇到过,在使用pandas的时候批处理任务跑完了, del df 执行了,甚至还使用了 import gc; gc.collect() 但是进程内存确没有减少。 我们首先就会想到这可能是"pandas 有内存泄漏",其实这不一定就是泄漏。可能是引用、分配器的正常行为。而且在pandas 3. 阅读全文
posted @ 2026-01-27 21:59 deephub 阅读(6) 评论(0) 推荐(0)
摘要: 构建过 AI agent 的人大概都遇到过这种情况:LLM 返回的数据"差不多"是你要的但又不完全对。比如会遇到字段名拼错了数据类型不对,或者干脆多了几个莫名其妙的 key。 这是问题出在哪?当前主流的 agentic AI 系统处理输出的方式太原始了,比如说脆弱的 JSON 解析、基于 promp 阅读全文
posted @ 2026-01-26 21:46 deephub 阅读(6) 评论(0) 推荐(0)
摘要: 为什么标准化要把均值设为0、方差设为1? 先说均值。均值就是平均数,所有观测值加起来除以个数。 μ是均值,n是数据点总数,xᵢ是每个数据点,所以均值就是数据的重心位置。比如均值是20,那20就是平衡点。这不是说所有点到20的距离相等而是说两边的"重量"刚好在20这个位置抵消掉。 而方差衡量的是数据有 阅读全文
posted @ 2026-01-25 21:02 deephub 阅读(5) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 ··· 153 下一页