大模型相关简答题
基础概念与模型架构
这些问题关注模型的基本原理、架构设计、以及不同类型模型的对比。
- 请简述Transformer的基本原理;
- 为什么Transformer的架构需要多头注意力机制?
- 为什么Transformer需要位置编码?
- 为什么transformer块使用LayerNorm而不是BatchNorm?
- 介绍一下post layer norm和pre layer norm的区别;
- 请简述GPT和BERT的区别;
- 讲一下GPT系列模型是如何演进的?
- 什么是prefix LM和causal LM的区别?
- 什么是LLMs复读机问题?
- 为什么会出现LLMs复读机问题?
- 如何缓解LLMs复读机问题?
- 你了解过什么是稀疏微调吗?
- LLM预训练阶段有哪几个关键步骤?
- 注意力机制在Transformer模型中如何运作?
- 大语言模型中的上下文窗口是什么,为什么它很重要?
- 大语言模型如何在微调期间避免灾难性遗忘?
- 大语言模型如何在微调期间避免灾难性遗忘?
- 大语言模型如何在微调期间避免灾难性遗忘?
技术细节与优化
这些问题涉及了LLM的优化技术、量化方法、训练策略等。
- 训练后量化(PTQ)和量化感知训练(QAT)有什么区别?
- LLMs中,量化权重和量化激活的区别是什么?
- AWQ量化的步骤是什么?
- DeepSpeed推理对算子融合做了哪些优化?
- 简述一下FlashAttention的原理;
- PAGED Attention的原理是什么,解决了LLM中的什么问题?
- 矩阵乘法如何做数量并行?
- 如何缓解LLMs复读机问题?
- 如何评估大语言模型(LLMs)的性能?
- 为什么LLM的知识更新很困难?
- 你觉得哪些因素会导致LLM中的偏见?
- 如何减轻LLM中的“幻觉”现象?
- 什么是掩码语言建模,它如何帮助预训练?
语言模型的学习与微调
这些问题着重于LLM的训练方式、微调技术和应用。
- RLHF模型为什么会表现比SFT更好?
- 什么是奖励模型,奖励模型是否需要和基础模型一致?
- 奖励模型需要和基础模型一致吗?
- 如何解决人工产生的偏好数据集成本较高,很难量产问题?
- 如何解决三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢问题?
- 如何解决PPO的训练过程中同时存在4个模型(2训练,2推理),对计算资源的要求较高问题?
- 如何给LLM注入领域知识?
- 参数高效的微调(PEFT)有哪些方法?
- LORA微调相比于微调适配器或前缀微调有什么优势?
- 在大语言模型微调中,LoRA与QLoRA有何区别?
- 大语言模型如何在微调期间避免灾难性遗忘?
架构与推理框架
这些问题关注LLM的架构设计、推理效率以及分布式计算框架。
- 简述TPPO算法流程,它跟TRPO的区别是什么?
- 介绍一下GPipe推理框架;
- 什么是Kv cache技术,它具体是如何实现的?
- 大模型一般评测方法及其准则是什么?
- 为什么大模型推理时显存涨的那么多还一直占着?
- 大模型在GPU和CPU上的推理速度如何?
- 推理速度上,int8和fp16比起来怎么样?
- 温度在控制大语言模型输出方面起什么作用?
- 什么是掩码语言建模,它如何帮助预训练?
- 大语言模型如何在微调期间避免灾难性遗忘?
检索与生成
这些问题涉及到生成与检索增强模型的结合以及特定技术的应用。
- 什么是检索增强生成(RAG)?
- RAG和微调的区别是什么?
- 什么是思维链(CoT)提示?
- 你觉得什么样的任务或领域适合用思维链提示?
- 什么是投机采样技术,请举例说明?
分词技术与编码
这些问题关注分词算法、位置编码技术以及优化策略。
- 你了解大型语言模型中的哪些分词技术?
- 什么是位置编码?
- 什么是绝对位置编码?
- 什么是相对位置编码?
- 旋转位置编码RoPE思路是什么?有什么优点?
- ALiBi(Attention with Linear Biases)思路是什么?偏置矩阵是什么?有什么作用?有什么优点?
- 什么是掩码语言建模,它如何帮助预训练?
- 大语言模型如何在微调期间避免灾难性遗忘?
应用与评测
这些问题涉及模型的评估方法和实际应用中的挑战。
- 如何评估大语言模型(LLMs)的性能?
- 大模型的honest原则是如何实现的?
- 模型如何判断回答的知识是训练过的已知的知识,怎么训练这种能力?
- 如何让大模型处理更长的文本?
- 各个专长领域是否需要各自的大模型来服务?
- 如何让大模型输出格式化?
- 如果想要快速检验各种模型,该怎么办?
- 大语言模型如何在微调期间避免灾难性遗忘?
替代方案与挑战
这些问题探讨了与大模型相关的替代方案、挑战和改进方法。
- Langchain 有哪些替代方案?
- Langchain token计数有什么问题?如何解决?
- 目前主流的中文向量模型有哪些?
- 如何解决PPO训练中的资源瓶颈?
- 为什么现在的大模型大多是decoder-only的架构?
- 涌现能力(Emergent Abilities)是什么原因?
- 大语言模型如何在微调期间避免灾难性遗忘?
- 大语言模型如何在微调期间避免灾难性遗忘?
一些递进的提问方式举例
- 解释一下langchain Agent的概念。 → 什么是LangChain中的Agent?请简述其作用与应用场景。
- llama输入句子长度理论上可以无限长吗? → Llama模型的输入长度是否有上限?为什么会有这个限制?
- 目前主流的开源模型体系有哪些? → 你了解的主流开源大语言模型有哪些?它们各自的特点是什么?