摘要:
1. 信息熵 在信息论中,熵衡量概率分布中的不确定性。 H(p) = -\sum_x p(x) \log p(x) 如果 p(x) 出现一个尖峰,一种结果几乎是确定的,则熵较低。如果 p(x) 分布广泛,多种结果皆有可能,则熵较高。从这个意义上讲,熵是一个系统的平均意外(混乱程度)。 2. 语言模型 阅读全文
posted @ 2025-10-17 09:01
CathyBryant
阅读(47)
评论(0)
推荐(0)
摘要:
预训练和微调之间的区别不仅仅是概念上的,它在规模上是天文数字。 1. 预训练:构建宇宙 预训练是迄今为止最昂贵的阶段,模型的参数在进行特化之前,需要学习所有关于语言的知识。 对于 GPT-4 或 GPT-5 规模的模型,该过程可能涉及: - 训练tokens:数千亿到数万亿。 - 计算:大约 10^ 阅读全文
posted @ 2025-10-17 07:22
CathyBryant
阅读(33)
评论(0)
推荐(0)

浙公网安备 33010602011771号