摘要: “舍入误差”(rounding error),最简单的理解是,当连续的数学量以离散的数值格式表示时,就会发生舍入误差,比如计算机中的浮点数。并非所有实数都能精确存储,因此机器会保留一个近似值。 形式上,如果真值为 x,存储值为 \hat{x},则 \hat{x} = x + \epsilon 其中 阅读全文
posted @ 2025-10-19 17:11 CathyBryant 阅读(18) 评论(0) 推荐(0)
摘要: 想象两个世界,它们有两个不同的概率分布。其中一个概率分布 p 描述了事物的真实模式,也就是每个事件实际发生的频率。另一个概率分布 q 是你的信念或是模型认为的,这些相同事件的概率分布情况。 Kullback-Leibler 散度(KL 散度)衡量的是,如果你生活在世界 p 中,但仍然相信 q,你会经 阅读全文
posted @ 2025-10-18 20:46 CathyBryant 阅读(210) 评论(0) 推荐(0)
摘要: 1. 信息熵 在信息论中,熵衡量概率分布中的不确定性。 H(p) = -\sum_x p(x) \log p(x) 如果 p(x) 出现一个尖峰,一种结果几乎是确定的,则熵较低。如果 p(x) 分布广泛,多种结果皆有可能,则熵较高。从这个意义上讲,熵是一个系统的平均意外(混乱程度)。 2. 语言模型 阅读全文
posted @ 2025-10-17 09:01 CathyBryant 阅读(47) 评论(0) 推荐(0)
摘要: 预训练和微调之间的区别不仅仅是概念上的,它在规模上是天文数字。 1. 预训练:构建宇宙 预训练是迄今为止最昂贵的阶段,模型的参数在进行特化之前,需要学习所有关于语言的知识。 对于 GPT-4 或 GPT-5 规模的模型,该过程可能涉及: - 训练tokens:数千亿到数万亿。 - 计算:大约 10^ 阅读全文
posted @ 2025-10-17 07:22 CathyBryant 阅读(33) 评论(0) 推荐(0)
摘要: 凸函数,二阶导数检验:f''(x) > 0 意味着凸函数。 凸函数真正美妙之处在于,如果你在凸函数上取任意两点,并在它们之间画一条直线,这条线总是在曲线上方,永远不会低于曲线。 数学上:对于 0 到 1 之间的任意 λ,f(λx + (1-λ)y) ≤ λf(x) + (1-λ)f(y)。 曲线越“ 阅读全文
posted @ 2025-10-16 20:51 CathyBryant 阅读(23) 评论(0) 推荐(0)
摘要: 下面我们进入微调中最棘手、最活跃的部分之一:当模型开始出现问题迹象时,该怎么办?困惑度上升、损失函数震荡、过拟合,或者普遍感觉它“学错了东西”。 在某种程度上,这时训练不像雕塑,更像是园艺,修剪、调整、适量浇水。所有这些都不需要把植物拔掉再重新开始。 1. 学习率调整,倾听地形 最简单、最强大的杠杆 阅读全文
posted @ 2025-10-16 20:21 CathyBryant 阅读(8) 评论(0) 推荐(0)
摘要: 经过预训练后,模型的参数有数十亿个,它们形成了一个向量: \theta_0 \in \mathbb{R}^n 它编码了模型所学到的一切关于语言的知识:结构、语义、节奏。但这些权重是通用的,而非个性化的。模型此刻知道单词的含义,但不知道如何使用它们来表达善意、安全或清晰。 然后是有监督微调: \the 阅读全文
posted @ 2025-10-16 13:45 CathyBryant 阅读(12) 评论(0) 推荐(0)
摘要: 想象一个简单的规则:取一个数,求它的平方,加上原数,重复……就是这样。 但从那颗小小的种子,生长出一个宇宙。你所看到的不仅仅是一个形状,而是一个问题。一条海岸线卷曲成螺旋状,分支成带刺的冠冕,绽放成海马的尾巴和龙焰。看得越仔细,发现的越多,它永无止境…… 它存在于秩序与混乱的边界,一个无限复杂涌现的 阅读全文
posted @ 2025-10-15 22:47 CathyBryant 阅读(5) 评论(0) 推荐(0)
摘要: 在一维中,曲率就是二阶导数 f''(x)。 如果 f''(x) > 0,则斜率随着向右移动而增加。这意味着图像向上弯曲,就像一个微笑或一个山谷,这叫做“凸”。 如果 f''(x) < 0,则斜率随着向右移动而减小。图像向下弯曲就像一个皱眉或小山,这叫做“凹“。 假设函数是一个“碗”:如果你把一颗弹珠 阅读全文
posted @ 2025-10-15 12:53 CathyBryant 阅读(8) 评论(0) 推荐(0)
摘要: Hessian 矩阵是观察性的,而非指令性的。它不控制或调整优化过程,它告诉你损失函数是如何围绕当前权重形成的,但不会主动干预。 所以,假设 Hessian 矩阵显示“哦,这部分损失函数非常陡峭,或者曲率是负的”,会发生什么? 1. 标准梯度下降无法明确地识别它 梯度下降只使用一阶导数(梯度),它只 阅读全文
posted @ 2025-10-14 22:09 CathyBryant 阅读(7) 评论(0) 推荐(0)