【面试笔记】大模型
哎呀呀,今天面试被面试官问到大模型,孤陋寡闻的我直接懵逼了。回家一阵百度才知道,特此涨涨见识
大模型(Large Model/AI大模型)指通过海量数据训练、具有超大参数规模的深度学习模型,其核心在于利用大规模计算资源实现通用智能能力的涌现。以下是具体解析:
一、核心定义与特征
- 参数规模巨大
参数量可达数十亿至数万亿级别(如GPT-3有1750亿参数),通过复杂神经网络结构(如Transformer)构建,显著提升模型表达能力和泛化性能。 - 数据与算力需求高
需TB级甚至PB级多源数据(文本、图像、代码等)训练,依赖高性能GPU集群完成计算,单次训练成本可达千万美元级。 - 预训练+微调范式
先在海量通用数据上预训练掌握基础能力,再通过指令微调适配具体任务(如医疗诊断、代码生成)。
二、技术原理
- 架构基础:基于Transformer的自注意力机制,支持长距离依赖建模和多模态融合15。
- 涌现能力:参数规模突破临界值后,自动产生逻辑推理、创作等复杂能力(如思维链推理)。
- 训练优化:采用自监督/半监督学习降低标注依赖,结合人类对齐技术提升输出安全性
三、具体应用实例
GPT-4(OpenAI)
- 优势:最强文本理解与生成能力,支持复杂推理、代码编写及长上下文对话(128K token),广泛用于学术、商业场景13。
- 局限:闭源模型,API调用成本较高。
Claude 3(Anthropic)
- 代表版本:Claude 3 Opus/Sonnet
- 特点:长文本处理(200K token)能力突出,注重安全性与逻辑严谨性,适合法律、科研等专业领域48。
Llama 3(Meta)
- 创新点:开源标杆,支持8K-700B参数规模,社区生态完善。近期因斯坦福团队抄袭其多模态改进方案(Llama3-V)引发争议,侧面印证技术影响力24。
Gemma/Gemini(Google)
- Gemini 1.5:多模态能力整合,支持百万级上下文,免费开放部分功能4。
- Gemma:轻量级开源模型,移动端部署友好