• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
大心眼幼稚鬼
博客园    首页    新随笔    联系   管理    订阅  订阅

【面试笔记】大模型

哎呀呀,今天面试被面试官问到大模型,孤陋寡闻的我直接懵逼了。回家一阵百度才知道,特此涨涨见识

大模型(Large Model/AI大模型)指通过海量数据训练、具有超大参数规模的深度学习模型,其核心在于利用大规模计算资源实现通用智能能力的涌现。以下是具体解析:

一、核心定义与特征

  1. ‌参数规模巨大‌
    参数量可达数十亿至数万亿级别(如GPT-3有1750亿参数),通过复杂神经网络结构(如Transformer)构建,显著提升模型表达能力和泛化性能。
  2. ‌数据与算力需求高‌
    需TB级甚至PB级多源数据(文本、图像、代码等)训练,依赖高性能GPU集群完成计算,单次训练成本可达千万美元级。
  3. ‌预训练+微调范式‌
    先在海量通用数据上预训练掌握基础能力,再通过指令微调适配具体任务(如医疗诊断、代码生成)。

 二、技术原理

  • ‌架构基础‌:基于Transformer的自注意力机制,支持长距离依赖建模和多模态融合15。
  • ‌涌现能力‌:参数规模突破临界值后,自动产生逻辑推理、创作等复杂能力(如思维链推理)。
  • ‌训练优化‌:采用自监督/半监督学习降低标注依赖,结合人类对齐技术提升输出安全性

三、具体应用实例

‌GPT-4(OpenAI)‌

  • ‌优势‌:最强文本理解与生成能力,支持复杂推理、代码编写及长上下文对话(128K token),广泛用于学术、商业场景‌13。
  • ‌局限‌:闭源模型,API调用成本较高。

‌Claude 3(Anthropic)‌

  • ‌代表版本‌:Claude 3 Opus/Sonnet
  • ‌特点‌:长文本处理(200K token)能力突出,注重安全性与逻辑严谨性,适合法律、科研等专业领域‌48。

‌Llama 3(Meta)‌

  • ‌创新点‌:开源标杆,支持8K-700B参数规模,社区生态完善。近期因斯坦福团队抄袭其多模态改进方案(Llama3-V)引发争议,侧面印证技术影响力‌24。

‌Gemma/Gemini(Google)‌

    • ‌Gemini 1.5‌:多模态能力整合,支持百万级上下文,免费开放部分功能‌4。
    • ‌Gemma‌:轻量级开源模型,移动端部署友好‌
posted @ 2025-07-03 19:22  大心眼幼稚鬼  阅读(15)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3