CathyBryant - 博客园

2025年10月19日

摘要： “舍入误差”（rounding error），最简单的理解是，当连续的数学量以离散的数值格式表示时，就会发生舍入误差，比如计算机中的浮点数。并非所有实数都能精确存储，因此机器会保留一个近似值。形式上，如果真值为 x，存储值为 \hat{x}，则 \hat{x} = x + \epsilon 其中阅读全文

posted @ 2025-10-19 17:11 CathyBryant 阅读(18) 评论(0) 推荐(0)

2025年10月18日

大模型损失函数（二）：KL散度（Kullback-Leibler divergence）

摘要：想象两个世界，它们有两个不同的概率分布。其中一个概率分布 p 描述了事物的真实模式，也就是每个事件实际发生的频率。另一个概率分布 q 是你的信念或是模型认为的，这些相同事件的概率分布情况。 Kullback-Leibler 散度（KL 散度）衡量的是，如果你生活在世界 p 中，但仍然相信 q，你会经阅读全文

posted @ 2025-10-18 20:46 CathyBryant 阅读(210) 评论(0) 推荐(0)

2025年10月17日

大模型损失函数（一）：交叉熵、联合熵、条件熵

摘要： 1. 信息熵在信息论中，熵衡量概率分布中的不确定性。 H(p) = -\sum_x p(x) \log p(x) 如果 p(x) 出现一个尖峰，一种结果几乎是确定的，则熵较低。如果 p(x) 分布广泛，多种结果皆有可能，则熵较高。从这个意义上讲，熵是一个系统的平均意外（混乱程度）。 2. 语言模型阅读全文

posted @ 2025-10-17 09:01 CathyBryant 阅读(47) 评论(0) 推荐(0)

大模型微调（三）：预训练和微调的成本差异

摘要：预训练和微调之间的区别不仅仅是概念上的，它在规模上是天文数字。 1. 预训练：构建宇宙预训练是迄今为止最昂贵的阶段，模型的参数在进行特化之前，需要学习所有关于语言的知识。对于 GPT-4 或 GPT-5 规模的模型，该过程可能涉及： - 训练tokens：数千亿到数万亿。 - 计算：大约 10^ 阅读全文

posted @ 2025-10-17 07:22 CathyBryant 阅读(33) 评论(0) 推荐(0)

2025年10月16日

凸函数与二阶导数

摘要：凸函数，二阶导数检验：f''(x) > 0 意味着凸函数。凸函数真正美妙之处在于，如果你在凸函数上取任意两点，并在它们之间画一条直线，这条线总是在曲线上方，永远不会低于曲线。数学上：对于 0 到 1 之间的任意 λ，f(λx + (1-λ)y) ≤ λf(x) + (1-λ)f(y)。曲线越“ 阅读全文

posted @ 2025-10-16 20:51 CathyBryant 阅读(23) 评论(0) 推荐(0)

大模型微调（二）：使微调保持稳定的策略

摘要：下面我们进入微调中最棘手、最活跃的部分之一：当模型开始出现问题迹象时，该怎么办？困惑度上升、损失函数震荡、过拟合，或者普遍感觉它“学错了东西”。在某种程度上，这时训练不像雕塑，更像是园艺，修剪、调整、适量浇水。所有这些都不需要把植物拔掉再重新开始。 1. 学习率调整，倾听地形最简单、最强大的杠杆阅读全文

posted @ 2025-10-16 20:21 CathyBryant 阅读(8) 评论(0) 推荐(0)

大模型微调（一）：有监督微调与困惑度

摘要：经过预训练后，模型的参数有数十亿个，它们形成了一个向量： \theta_0 \in \mathbb{R}^n 它编码了模型所学到的一切关于语言的知识：结构、语义、节奏。但这些权重是通用的，而非个性化的。模型此刻知道单词的含义，但不知道如何使用它们来表达善意、安全或清晰。然后是有监督微调： \the 阅读全文

posted @ 2025-10-16 13:45 CathyBryant 阅读(12) 评论(0) 推荐(0)

2025年10月15日

分形：曼德布洛特集合

摘要：想象一个简单的规则：取一个数，求它的平方，加上原数，重复……就是这样。但从那颗小小的种子，生长出一个宇宙。你所看到的不仅仅是一个形状，而是一个问题。一条海岸线卷曲成螺旋状，分支成带刺的冠冕，绽放成海马的尾巴和龙焰。看得越仔细，发现的越多，它永无止境…… 它存在于秩序与混乱的边界，一个无限复杂涌现的阅读全文

posted @ 2025-10-15 22:47 CathyBryant 阅读(5) 评论(0) 推荐(0)

曲率，是凸还是凹？

摘要：在一维中，曲率就是二阶导数 f''(x)。如果 f''(x) > 0，则斜率随着向右移动而增加。这意味着图像向上弯曲，就像一个微笑或一个山谷，这叫做“凸”。如果 f''(x) < 0，则斜率随着向右移动而减小。图像向下弯曲就像一个皱眉或小山，这叫做“凹“。假设函数是一个“碗”：如果你把一颗弹珠阅读全文

posted @ 2025-10-15 12:53 CathyBryant 阅读(8) 评论(0) 推荐(0)

2025年10月14日

大模型预训练（七）：保持训练稳定性

摘要： Hessian 矩阵是观察性的，而非指令性的。它不控制或调整优化过程，它告诉你损失函数是如何围绕当前权重形成的，但不会主动干预。所以，假设 Hessian 矩阵显示“哦，这部分损失函数非常陡峭，或者曲率是负的”，会发生什么？ 1. 标准梯度下降无法明确地识别它梯度下降只使用一阶导数（梯度），它只阅读全文

posted @ 2025-10-14 22:09 CathyBryant 阅读(7) 评论(0) 推荐(0)

又有知识…增加了

个人笔记，数学和计算机相关知识

公告