会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
又有知识…增加了
个人笔记,数学和计算机相关知识
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
10
下一页
2025年10月19日
大模型推理(八):舍入误差 rounding error
摘要: “舍入误差”(rounding error),最简单的理解是,当连续的数学量以离散的数值格式表示时,就会发生舍入误差,比如计算机中的浮点数。并非所有实数都能精确存储,因此机器会保留一个近似值。 形式上,如果真值为 x,存储值为 \hat{x},则 \hat{x} = x + \epsilon 其中
阅读全文
posted @ 2025-10-19 17:11 CathyBryant
阅读(18)
评论(0)
推荐(0)
2025年10月18日
大模型损失函数(二):KL散度(Kullback-Leibler divergence)
摘要: 想象两个世界,它们有两个不同的概率分布。其中一个概率分布 p 描述了事物的真实模式,也就是每个事件实际发生的频率。另一个概率分布 q 是你的信念或是模型认为的,这些相同事件的概率分布情况。 Kullback-Leibler 散度(KL 散度)衡量的是,如果你生活在世界 p 中,但仍然相信 q,你会经
阅读全文
posted @ 2025-10-18 20:46 CathyBryant
阅读(210)
评论(0)
推荐(0)
2025年10月17日
大模型损失函数(一):交叉熵、联合熵、条件熵
摘要: 1. 信息熵 在信息论中,熵衡量概率分布中的不确定性。 H(p) = -\sum_x p(x) \log p(x) 如果 p(x) 出现一个尖峰,一种结果几乎是确定的,则熵较低。如果 p(x) 分布广泛,多种结果皆有可能,则熵较高。从这个意义上讲,熵是一个系统的平均意外(混乱程度)。 2. 语言模型
阅读全文
posted @ 2025-10-17 09:01 CathyBryant
阅读(47)
评论(0)
推荐(0)
大模型微调(三):预训练和微调的成本差异
摘要: 预训练和微调之间的区别不仅仅是概念上的,它在规模上是天文数字。 1. 预训练:构建宇宙 预训练是迄今为止最昂贵的阶段,模型的参数在进行特化之前,需要学习所有关于语言的知识。 对于 GPT-4 或 GPT-5 规模的模型,该过程可能涉及: - 训练tokens:数千亿到数万亿。 - 计算:大约 10^
阅读全文
posted @ 2025-10-17 07:22 CathyBryant
阅读(33)
评论(0)
推荐(0)
2025年10月16日
凸函数与二阶导数
摘要: 凸函数,二阶导数检验:f''(x) > 0 意味着凸函数。 凸函数真正美妙之处在于,如果你在凸函数上取任意两点,并在它们之间画一条直线,这条线总是在曲线上方,永远不会低于曲线。 数学上:对于 0 到 1 之间的任意 λ,f(λx + (1-λ)y) ≤ λf(x) + (1-λ)f(y)。 曲线越“
阅读全文
posted @ 2025-10-16 20:51 CathyBryant
阅读(23)
评论(0)
推荐(0)
大模型微调(二):使微调保持稳定的策略
摘要: 下面我们进入微调中最棘手、最活跃的部分之一:当模型开始出现问题迹象时,该怎么办?困惑度上升、损失函数震荡、过拟合,或者普遍感觉它“学错了东西”。 在某种程度上,这时训练不像雕塑,更像是园艺,修剪、调整、适量浇水。所有这些都不需要把植物拔掉再重新开始。 1. 学习率调整,倾听地形 最简单、最强大的杠杆
阅读全文
posted @ 2025-10-16 20:21 CathyBryant
阅读(8)
评论(0)
推荐(0)
大模型微调(一):有监督微调与困惑度
摘要: 经过预训练后,模型的参数有数十亿个,它们形成了一个向量: \theta_0 \in \mathbb{R}^n 它编码了模型所学到的一切关于语言的知识:结构、语义、节奏。但这些权重是通用的,而非个性化的。模型此刻知道单词的含义,但不知道如何使用它们来表达善意、安全或清晰。 然后是有监督微调: \the
阅读全文
posted @ 2025-10-16 13:45 CathyBryant
阅读(12)
评论(0)
推荐(0)
2025年10月15日
分形:曼德布洛特集合
摘要: 想象一个简单的规则:取一个数,求它的平方,加上原数,重复……就是这样。 但从那颗小小的种子,生长出一个宇宙。你所看到的不仅仅是一个形状,而是一个问题。一条海岸线卷曲成螺旋状,分支成带刺的冠冕,绽放成海马的尾巴和龙焰。看得越仔细,发现的越多,它永无止境…… 它存在于秩序与混乱的边界,一个无限复杂涌现的
阅读全文
posted @ 2025-10-15 22:47 CathyBryant
阅读(5)
评论(0)
推荐(0)
曲率,是凸还是凹?
摘要: 在一维中,曲率就是二阶导数 f''(x)。 如果 f''(x) > 0,则斜率随着向右移动而增加。这意味着图像向上弯曲,就像一个微笑或一个山谷,这叫做“凸”。 如果 f''(x) < 0,则斜率随着向右移动而减小。图像向下弯曲就像一个皱眉或小山,这叫做“凹“。 假设函数是一个“碗”:如果你把一颗弹珠
阅读全文
posted @ 2025-10-15 12:53 CathyBryant
阅读(8)
评论(0)
推荐(0)
2025年10月14日
大模型预训练(七):保持训练稳定性
摘要: Hessian 矩阵是观察性的,而非指令性的。它不控制或调整优化过程,它告诉你损失函数是如何围绕当前权重形成的,但不会主动干预。 所以,假设 Hessian 矩阵显示“哦,这部分损失函数非常陡峭,或者曲率是负的”,会发生什么? 1. 标准梯度下降无法明确地识别它 梯度下降只使用一阶导数(梯度),它只
阅读全文
posted @ 2025-10-14 22:09 CathyBryant
阅读(7)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
10
下一页
公告