2025 年 9月 30 日随笔档案 - deephub

2025年9月30日

摘要：大语言模型的工作原理说起来很直接：根据输入内容和已生成的文本，预测下一个最合适的词（token）。输入先转换成 token，再变成向量表示，最后在输出层重新转回 token。真正的挑战在于如何从候选词中做出选择。这个过程本质上是统计和概率性的，叫做"采样"。每个解码步骤模型都要从整个词汇表的概率分阅读全文

posted @ 2025-09-30 21:04 deephub 阅读(17) 评论(0) 推荐(0)

deephub

overfit深度学习

公告