交个朋友吧

大模型相关简答题

基础概念与模型架构

这些问题关注模型的基本原理、架构设计、以及不同类型模型的对比。

请简述Transformer的基本原理；
为什么Transformer的架构需要多头注意力机制？
为什么Transformer需要位置编码？
为什么transformer块使用LayerNorm而不是BatchNorm？
介绍一下post layer norm和pre layer norm的区别；
请简述GPT和BERT的区别；
讲一下GPT系列模型是如何演进的？
什么是prefix LM和causal LM的区别？
什么是LLMs复读机问题？
为什么会出现LLMs复读机问题？
如何缓解LLMs复读机问题？
你了解过什么是稀疏微调吗？
LLM预训练阶段有哪几个关键步骤？
注意力机制在Transformer模型中如何运作？
大语言模型中的上下文窗口是什么，为什么它很重要？
大语言模型如何在微调期间避免灾难性遗忘？
大语言模型如何在微调期间避免灾难性遗忘？
大语言模型如何在微调期间避免灾难性遗忘？

技术细节与优化

这些问题涉及了LLM的优化技术、量化方法、训练策略等。

训练后量化（PTQ）和量化感知训练（QAT）有什么区别？
LLMs中，量化权重和量化激活的区别是什么？
AWQ量化的步骤是什么？
DeepSpeed推理对算子融合做了哪些优化？
简述一下FlashAttention的原理；
PAGED Attention的原理是什么，解决了LLM中的什么问题？
矩阵乘法如何做数量并行？
如何缓解LLMs复读机问题？
如何评估大语言模型（LLMs）的性能？
为什么LLM的知识更新很困难？
你觉得哪些因素会导致LLM中的偏见？
如何减轻LLM中的“幻觉”现象？
什么是掩码语言建模，它如何帮助预训练？

语言模型的学习与微调

这些问题着重于LLM的训练方式、微调技术和应用。

RLHF模型为什么会表现比SFT更好？
什么是奖励模型，奖励模型是否需要和基础模型一致？
奖励模型需要和基础模型一致吗？
如何解决人工产生的偏好数据集成本较高，很难量产问题？
如何解决三个阶段的训练（SFT->RM->PPO）过程较长，更新迭代较慢问题？
如何解决PPO的训练过程中同时存在4个模型（2训练，2推理），对计算资源的要求较高问题？
如何给LLM注入领域知识？
参数高效的微调（PEFT）有哪些方法？
LORA微调相比于微调适配器或前缀微调有什么优势？
在大语言模型微调中，LoRA与QLoRA有何区别？
大语言模型如何在微调期间避免灾难性遗忘？

架构与推理框架

这些问题关注LLM的架构设计、推理效率以及分布式计算框架。

简述TPPO算法流程，它跟TRPO的区别是什么？
介绍一下GPipe推理框架；
什么是Kv cache技术，它具体是如何实现的？
大模型一般评测方法及其准则是什么？
为什么大模型推理时显存涨的那么多还一直占着？
大模型在GPU和CPU上的推理速度如何？
推理速度上，int8和fp16比起来怎么样？
温度在控制大语言模型输出方面起什么作用？
什么是掩码语言建模，它如何帮助预训练？
大语言模型如何在微调期间避免灾难性遗忘？

检索与生成

这些问题涉及到生成与检索增强模型的结合以及特定技术的应用。

什么是检索增强生成（RAG）？
RAG和微调的区别是什么？
什么是思维链（CoT）提示？
你觉得什么样的任务或领域适合用思维链提示？
什么是投机采样技术，请举例说明？

分词技术与编码

这些问题关注分词算法、位置编码技术以及优化策略。

你了解大型语言模型中的哪些分词技术？
什么是位置编码？
什么是绝对位置编码？
什么是相对位置编码？
旋转位置编码RoPE思路是什么？有什么优点？
ALiBi（Attention with Linear Biases）思路是什么？偏置矩阵是什么？有什么作用？有什么优点？
什么是掩码语言建模，它如何帮助预训练？
大语言模型如何在微调期间避免灾难性遗忘？

应用与评测

这些问题涉及模型的评估方法和实际应用中的挑战。

如何评估大语言模型（LLMs）的性能？
大模型的honest原则是如何实现的？
模型如何判断回答的知识是训练过的已知的知识，怎么训练这种能力？
如何让大模型处理更长的文本？
各个专长领域是否需要各自的大模型来服务？
如何让大模型输出格式化？
如果想要快速检验各种模型，该怎么办？
大语言模型如何在微调期间避免灾难性遗忘？

替代方案与挑战

这些问题探讨了与大模型相关的替代方案、挑战和改进方法。

Langchain 有哪些替代方案？
Langchain token计数有什么问题？如何解决？
目前主流的中文向量模型有哪些？
如何解决PPO训练中的资源瓶颈？
为什么现在的大模型大多是decoder-only的架构？
涌现能力（Emergent Abilities）是什么原因？
大语言模型如何在微调期间避免灾难性遗忘？
大语言模型如何在微调期间避免灾难性遗忘？

一些递进的提问方式举例

解释一下langchain Agent的概念。 → 什么是LangChain中的Agent？请简述其作用与应用场景。
llama输入句子长度理论上可以无限长吗？ → Llama模型的输入长度是否有上限？为什么会有这个限制？
目前主流的开源模型体系有哪些？ → 你了解的主流开源大语言模型有哪些？它们各自的特点是什么？

posted @ 2025-06-22 19:48 PamShao 阅读(114) 评论(0) 收藏举报

刷新页面返回顶部