08 2025 档案
摘要:https://qouteall.fun/qouteall-blog/2025/Traps to Developers https://www.seangoedecke.com/good-system-design/ https://www.antirez.com/news/155 https://
阅读全文
posted @ 2025-08-16 21:33
ffl
摘要:我们可以从数学建模的角度,对比自回归语言模型(AR)与扩散语言模型(DLM)在文本生成任务中的核心机制和损失函数设计。 📐 数学模型对比:AR vs DLM 模型类型 数学建模方式 损失函数 生成方式 上下文建模 AR 模型 条件概率链式分解:\(P(x_1, x_2, ..., x_T) = \
阅读全文
posted @ 2025-08-11 14:47
ffl
摘要:原文:https://research.google/blog/achieving-10000x-training-data-reduction-with-high-fidelity-labels/ 这篇文章来自 Google Research,标题为《Achieving 10,000x train
阅读全文
posted @ 2025-08-08 22:17
ffl
摘要:背景:Deepseek里用算术平均来作为价值函数的替代,后面有人用几何平均改进了训练的稳定性。微博 @马少平 THU 转评:“几何平均对极值不敏感”,我们找AI给个实际的对比: 我们来用实际例子对比一下算术平均和几何平均在面对极值时的表现差异。 ⚖️ 定义回顾 类型 计算方式 对极值敏感性 算术平均
阅读全文
posted @ 2025-08-06 18:42
ffl
摘要:AI味浓厚的文章: “代码不是资产”这句话在技术圈里常被引用,背后其实是对**价值创造**和**长期可持续性**的反思。 ### 🧱 为什么有人说“代码不是资产”? 这句话的核心观点是:**代码本身并不具备长期价值,只有它所承载的知识、结构和能力才是资产。** #### 🔍 原因包括: - **
阅读全文
posted @ 2025-08-06 18:03
ffl