deephub

2026年3月6日

摘要：训练集和测试集如果来自不同的分布，会怎样？类似的问题不是没遇到过只是语境不同，比如说模型上次构建以来是否发生了数据漂移？销售分析中产品 A 和产品 B 的分布是否存在差异？归结下来问的都是同一件事，如何量化两个分布之间的差异。 https://avoid.overfit.cn/post/7e479 阅读全文

posted @ 2026-03-06 21:01 deephub 阅读(1) 评论(0) 推荐(0)

2026年3月5日

大模型训练的硬件基础：GPU内存层级、分块与并行策略

摘要： AI 和 LLM 的进步通常归因于三个方面的持续改进：模型、数据、计算。三者互相关联。要跑起那些参数量庞大的模型，就需要足够的计算资源来支撑。Llama 3 最大的模型超过 4000 亿参数在 16000 块 GPU 上训练了数周乃至数月，优化计算意味着在更低的成本下训练更大的模型。本文将介绍 G 阅读全文

posted @ 2026-03-05 20:54 deephub 阅读(1) 评论(0) 推荐(0)

2026年3月4日

贝叶斯公式推导：从联合概率的对称性看条件反转

摘要：本文从简单概率的概念出发，逐步过渡到条件概率，最后介绍贝叶斯定理。整个过程会尽量保持直观，不涉及复杂的数学形式。假设有两个盒子：盒子 A 和盒子 B。盒子 A 装了 4 个球，3 红 1 绿；盒子 B 同样装了 4 个球，1 红 3 绿。一个蒙着眼的人站在两个盒子前面，随机选中任一盒子的概率是阅读全文

posted @ 2026-03-04 19:43 deephub 阅读(4) 评论(0) 推荐(0)

2026年3月3日

KV Cache管理架构演进：从连续分配到统一混合内存架构

摘要：在生产环境部署过LLM的人都知道模型权重只是问题的一半，另一半是KV cache：存储注意力状态的运行时内存，让模型在生成token时不必从头开始重算。能不能管好这块内存决定了系统是一个卡顿的demo还是一个可用的推理服务。本文梳理KV cache管理经历的5个时代，从它根本不存在的阶段，到今天正阅读全文

posted @ 2026-03-03 21:12 deephub 阅读(2) 评论(0) 推荐(0)

2026年3月2日

PhysioDSP：一个面向可穿戴设备的 Python 信号处理库

摘要：可穿戴设备的生理信号处理是健康科技与研究领域反复出现的工程难题。ECG 记录、心率变异性指标、加速度计数据，不管处理哪一类信号，从原始传感器输出到有意义的生物标志物，整条链路都是碎片化的：算法散落在论文、代码仓库和临时脚本里，接口各不相同，数据模型也无法共享。 PhysioDSP 是一个开源 Pyt 阅读全文

posted @ 2026-03-02 21:22 deephub 阅读(2) 评论(0) 推荐(0)

2026年3月1日

VAE 原理拆解：从概率编码到潜在空间正则化

摘要：这篇文章从基本原理出发完整拆解变分自编码器（VAE）的构建过程。重点不在数学推导而在于把概念落到足够具体的层面：完成实现、训练、调试和部署。每个组件做了什么、为什么需要它、代码里怎么写文章都会逐一交代，后半部分会逐行走读一个最小化的 PyTorch 实现，并介绍训练完成后的几种推理模式。 VAE 为阅读全文

posted @ 2026-03-01 21:58 deephub 阅读(7) 评论(0) 推荐(0)

2026年2月28日

基于能量的模型（EBM）：用能量函数替代概率分布的建模框架

摘要： Yann LeCun 反复强调过一个观点：当前LLM基于概率、逐 Token 预测的设计路线，很可能走不到人类水平的AI。他的团队更看好另一条路，基于能量的模型（EBM）。上图来自他十多年前的一篇论文，LLM对候选答案返回"概率"，EBM返回的则是"能量"，能量最低的选项胜出。举个例子：输入 X 阅读全文

posted @ 2026-02-28 20:49 deephub 阅读(3) 评论(0) 推荐(0)

2026年2月27日

时间序列异常检测的5种方法：从统计阈值到深度学习

摘要：时间序列数据随处可见：网站每分钟的访问量、传感器读数、股票价格、人流计数、服务器 CPU 使用率，都是典型场景。多数时候这类数据遵循某种规律。异常检测的目标就是找到规律被打破的那些时刻。什么是时间序列数据中的异常？异常指的是与正常行为产生明显偏离的数据点或数据序列。举几个例子：凌晨 3 点网站阅读全文

posted @ 2026-02-27 21:35 deephub 阅读(5) 评论(0) 推荐(0)

2026年2月26日

从提示工程转向上下文工程，6种让LLM在生产环境中稳定输出的技术

摘要： RAG系统返回了完美的文本块，提示词写得很漂亮，但LLM还是在产生幻觉；文档加得越多，回复质量反而越差。这些问题问题不出在提示词上，而是出在上下文上。提示工程告诉模型怎么说话；context engineering 控制模型说话时看到什么。以下是把生产系统和Demo区分开的6种上下文工程技术。什阅读全文

posted @ 2026-02-26 21:38 deephub 阅读(5) 评论(0) 推荐(0)

2026年2月25日

向量搜索系统的三个核心优化维度：速度、精度与规模

摘要：当数据集膨胀到数百万甚至数十亿量级的向量时，怎么让搜索在这种规模下依然又快又准就成了一个实实在在的工程难题。这篇文章要聊的就是向量搜索系统的三个核心优化方向——性能调优、混合搜索和可扩展架构。传统搜索的问题传统搜索系统做的事情本质上是词法匹配：找文档里有没有出现查询中的关键词。至于查询背后的意思阅读全文

posted @ 2026-02-25 20:01 deephub 阅读(4) 评论(0) 推荐(0)

overfit深度学习

公告