大模型理论基础打卡01
第一章:大模型基础
-
什么是语言模型
- 语言模型是计算自然语言中词序列概率的工具,用于评估句子的自然性和合理性。
- 模型能够基于概率预测并生成新文本,但实际应用时需考虑意义、连贯性和目的性。
- 在生成过程中,会借助采样等技术,并结合上下文信息以确保结果既多样又符合用户需求。
-
自回归语言模型
-
自回归语言模型(ALMs)是文本生成领域的关键技术,其核心原理是利用历史单词序列预测下一个可能出现的单词。
-
模型采用概率链式法则,在数学上表达为给定前序单词时下一个单词的概率分布,并通过前馈神经网络等方法计算每个条件概率分布。
-
在生成文本时,自回归模型按照顺序一次生成一个词元,每个词元的生成基于之前生成的所有词元。
-
温度参数T是一个关键调节器,它影响模型输出的确定性或随机性:
- 当T=0时,模型选择最高概率的词元,生成结果最确定;
- 当T=1时,模型按原始概率分布采样,表现为“正常”行为;
- 当T趋于无穷大时,从词汇表均匀分布中采样,增加多样性。
-
退火条件概率分布是一种通过将原分布的每个元素取幂T并重新标准化得到的新分布,改变T值会影响生成结果的集中程度和新颖性。
-
对于每一步应用温度参数进行迭代采样与一次性从整个序列长度的“退火”分布采样是有本质区别的,它们在非1温度下会产生不同的输出。
-
自回归模型可以进行条件生成任务,通过指定一个初始提示序列来引导模型生成相关的补全序列,只需更改提示就能适应不同应用场景,增加了模型的灵活性和通用性。
-
自回归语言模型生成的是给定的提示序列和需要补全的序列。
-
-
熵
-
"随机鹦鹉"论文
“随机鹦鹉”这一术语是对大规模语言模型(尤其是自回归类型如GPT系列)在某些批评观点中的一个形象化比喻。该概念由Emily M. Bender,华盛顿大学的语言学家和她的同事在一篇论文中首次明确提出,用于描述这类模型在处理语义和理解上的局限性。尽管这些模型能够根据其训练数据生成看似连贯、有时甚至是令人惊讶的文本输出,但它们缺乏真正的理解和内在意义。
论文《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》(关于随机鹦鹉的危险:语言模型是否过大?)指出,即使像GPT-3这样规模巨大且技术先进的语言模型,在没有明确理解语境或内容的情况下,也可能只是在模仿或复现训练数据中的模式,并非真正地理解了所生成文本背后的含义。也就是说,大模型可能无法进行深度推理或具备人类那样的常识推理能力,其生成行为更像是基于统计规律拼接词汇序列的鹦鹉学舌。
尽管如此,MIT以及其他研究团队的研究也表明,随着模型的增大和优化,大型语言模型在某种程度上确实能够学习并捕获到一些语义信息,但“随机鹦鹉”的隐喻仍然强调了对于此类模型能力及其潜在风险的认知需要谨慎对待。

浙公网安备 33010602011771号