大模型（LLM）基本原理

Posted on 2025-11-26 19:25 Java后端的Ai之路阅读(16) 评论(0) 收藏举报

什么是AI

AI的核心目标是让机器能够执行通常需要人类智能的任务，例如语言理解、图像识别、复杂问题解决等。

AIGC这个术语代表的是"AI Generated Content"的缩写，中文可以理解为“人工智能生成内容”。这个名字直接点明了其核心功能和应用场景：利用人工智能技术来自动化生成各种类型的内容。这包括但不限于文本、图像、音频和视频等多媒体内容。

命名AIGC的理由主要有以下几点：

简单来说，AIGC作为一个术语，它简洁且准确地描述了这项技术的核心——即由人工智能驱动的内容创作过程。这样的命名既便于记忆，也方便沟通，使得不同背景的人们能够快速理解这一技术的基本概念及其价值所在。

分析式AI	生成式AI
- 也称为判别式AI，其核心任务是对已有数据进行分类、预测或决策。- 优势在于其高精度和高效性，但其局限性在于仅能处理已有数据的模式，无法创造新内容。	- 专注于创造新内容，例如文本、图像、音频等。- 突破在于其创造性与灵活性，但也面临数据隐私、版权保护等挑战

大型语言模型 (LLM)
- LLM是基于海量文本数据训练的深度学习模型，属于生成式AI的一种。它能理解和生成类人类的自然语言，常见模型如GPT系列、DeepSeek、Qwen等。
- 具备强大的文本理解、摘要、翻译、问答及内容创作能力，通过上下文关联，能进行连贯且富有创意的对话与写作，并可通过少量示例即可进行下游任务的学习。
场景示例：
- 智能客服：电商网站导入基于LLM的聊天机器人，能即时理解客户复杂的售后问题，提供个性化的解决方案，大幅提升服务效率与客户满意度。
- 内容创作：营销团队使用LLM，输入产品关键字和目标受众，快速生成多版本的广告文案、社交媒体贴文与博客文章，有效降低人力成本。

生图/生视频模型 (Text-to-Image/Video)
- 专门将文字描述转换为全新图像或视频，它们学习了图像、视频与其对应文字标签之间的关联，代表模型有DALL-E、Midjourney及Sora。
- 能够根据用户输入的文字提示(Prompt)，创造出符合描述且风格多样的视觉内容，模型能融合不同概念、属性和风格，生成前所未有的原创作品。
场景示例：
- 产品设计：设计师输入一款具有未来感的流线型运动跑鞋，采用回收海洋塑料材质；模型可快速生成多款概念图，加速产品可视化与迭代过程。
- 影视预览：导演利用文字生成视频原型，将剧本中的关键场景转换为动态预览片段，以便在实际拍摄前，评估镜头、光影和场景布局的可行性。

视觉识别模型 (Computer Vision Model)
- 视觉识别模型让计算机能“看懂”并解析图像与视频内容，属于计算机视觉领域，主要任务包括图像分类、物体检测、图像分割等，模型如YOLO、ResNet。
- 能够准确识别图像中的物体、人脸、文字或特定场景，其核心在于从像素中提取特征，并与已知模式进行比对，以完成识别、定位或追踪等任务。
场景示例：
- 智能制造：在生产线上部署视觉识别系统，能即时检测产品外观的微小瑕疵，如刮痕或缺件，自动剔除不合格品，确保出厂品质，准确率远超人眼。
- 医疗影像分析：医院导入AI辅助判读系统，分析X光或CT扫描影像，模型能快速标记出疑似肿瘤或病变的区域，协助放射科医生提高诊断效率与准确性。

自动驾驶模型 (Autonomous Driving Model)
- 一套复杂的AI系统，整合了视觉识别、传感器融合、决策规划等多种模型，其目标是让车辆在无需人类干预下安全行驶，是AI技术的高度综合应用。
- 通过摄像头、激光雷达(LiDAR)等传感器，即时感知周围环境，识别人行、车辆与交通标志，模型会预测其他物体的动态，并规划出最佳的行驶路径与操作。
场景示例：
- 无人配送：物流公司采用自动驾驶货车，在特定园区或高速公路进行货物运输，系统能自主导航、避开障碍物并遵守交通规则，实现24小时不间断的物流运作。
- 高级辅助驾驶：现今许多市售车辆搭载的辅助驾驶系统，能在高速公路上自动跟车、维持车道居中，这背后就是自动驾驶模型在识别车道线与前车距离，并控制方向盘与加减速。

大语言模型是一种通用自然语言生成模型，使用大量预料数据训练，以实现生成文本、回答问题、对话生成等基本能力。

刷新页面返回顶部