大模型 - 第4页 - 网站分类

在复杂任务中如何利用 Claude 4.5 Opus 提高推理精度与响应速度

在 AI 模型不断发展升级的背景下，Claude 4.5 系列带来了 Sonnet、Opus 和 Haiku 三款子模型，每个模型都有其独特的优势和适用场景。尤其是 Opus 4.5，它以其强大的推理能力和响应速度在复杂任务中脱颖而出。但对于脚本创作者来说，如何在推理精度与响应速度之间找到 ...

中国智能体应用现状与企业实践

中国智能体应用的行业全貌，核心逻辑是 “基础治理缺失制约落地，技术 + 方法论双轮驱动破局”，以下是分层解读：行业现状：“热市场” 与 “冷落地” 的矛盾突出市场热度高：涌入智能体领域的厂商数量庞大，反映出行业对智能体的商业化潜力预期较高。落地成效差：大多数企业的智能体应用未能有效落地，暴露出技术 ...

langchain 快速入门(四)：搭建强大的AI Agent

简介 AI Agent 不仅仅是一个能聊天的机器人（如普通的 ChatGPT），而是一个能够感知环境、进行推理、自主决策并调用工具来完成特定任务的智能系统，更够完成更为复杂的AI场景需求。 AI Agent 功能根据查阅的资料，agent的功能点如下： Agent = LLM + 规划 + 记忆 ...

微调显存总爆炸？问题往往不在你以为的地方

大模型微调常遇“显存不够”，但根源常被误判：显存主要消耗在激活值（activation）、优化器状态（如Adam×3）和梯度上，而非模型参数本身。bf16仅减存储不减数量，checkpointing、梯度累积等是有效优化手段。显存问题本质是系统认知问题，而非硬件不足。 ...

langchain 快速入门(三)：搭建RAG知识库

评估，才是微调里最反直觉的部分

微调跑通≠成功！训练是确定性工程，评估才是核心认知挑战：loss不反映真实效果，人工评估难但不可替代。关键在明确定义“何为更好”，用固定对照集+对比输出持续校准目标，让评估成为理解模型行为的迭代过程。 ...

钉钉A1与飞书AI录音豆

钉钉A1与飞书AI录音豆的全面对比分析表。从整体定位来看，两款产品分别深度绑定各自办公生态，面向职场会议场景，但在设计理念和功能侧重上有明显差异：核心差异总结对比维度钉钉A1飞书AI录音豆设计哲学性能优先：强调专业级录音质量和大容量存储便携优先：极致轻薄，无感佩戴，快速响应拾音能力6麦阵列+骨传导， ...

为什么 loss 几乎没用：微调里最容易让人“自嗨”的指标

loss 在微调里不是没用，而是作用范围被严重高估了。它能告诉你“训练有没有在跑”，却几乎无法告诉你“模型有没有变成你想要的样子”。如果你把 loss 当成主要决策依据，那你很可能会在一条看起来很平滑的曲线上，慢慢把模型带偏。真正成熟的微调过程，永远是：loss 作为底线保障，输出评估作为核心依据 ...

从 0 到跑通一次微调：别急着追效果，先让它“真的动起来”

微调最难的不是算法，而是“跑通全流程”。首次微调应聚焦简单目标：让模型回答更规范、语气更一致。避免复杂数据与环境折腾。loss下降不等于成功，关键看输出是否按预期改变。跑通一次，复盘流程，才是真正入门。 ...

Langchain 快速入门(一): 运行你第一个LLM模型

简介 langchain专门用于构建LLM大语言模型，其中提供了大量的prompt模板，和组件，通过chain(链)的方式将流程连接起来，操作简单，开发便捷。环境配置安装langchain框架 pip install langchain langchain-community 其中langcha ...

你以为 PPO 很高级，其实它更像个“微调旋钮”

为什么 PPO 在真实业务里越来越重要如果你是从论文或者课程里接触 PPO 的，那大概率会有一种“这东西看起来很厉害”的感觉。策略梯度、clip、KL 约束、reward model，一整套体系下来，很容易让人产生错觉：只要把 PPO 跑起来，大模型就能被“精细打磨”。但真正进到业务里，你会发现 ...

向量数据库技术内核：从存储到检索，拆解其高效运作的秘密

向量数据库技术内核：从存储到检索，拆解其高效运作的秘密写在前面：我也是“被向量数据库名词轰炸”过的人说实话，我第一次接触向量数据库的时候，是有点抗拒的。那会儿各种文章都在说：向量数据库是 AI 时代的“新型基础设施” 没有向量数据库，大模型就跑不起来它彻底改变了传统数据库的范式结果我真正 ...

从零开始：PPO 微调大模型实战（基于 PyTorch）

从零开始：PPO 微调大模型实战（基于 PyTorch） PPO 真正难的，不是算法本身如果你已经看过一些 PPO 的原理文章，大概率会有过这种感觉：好像每个字都认识，但真让我自己写代码，脑子还是一片空白。这其实挺正常的。至少我第一次准备动手写 PPO 的时候，也是这种状态。问题不在你，而 ...

模型推理框架——vllm原理及整体框架

Page Attention是优化KV-cache内存管理的方法，可解决预留浪费、内部及外部内存碎片化问题，通过将KV-cache划分为固定大小Block，利用Block Table维护逻辑与物理映射，有效管理非连续内存；同时处理Softmax计算中的数值溢出与全局信息问题。vllm框架支持离线与在... ...

10 万文档 RAG 落地实战：从 Demo 到生产，我踩过的所有坑

但当你真的把 RAG 从 Demo 推到生产，会发现三个问题几乎一定会出现：文档一多，检索明显变慢明明文档里有答案，模型却“搜不到” 本地 + 向量库 + 模型 + 服务，部署复杂度飙升这篇文章不会再重复“RAG 是什么”这种内容，而是围绕一个真实企业级目标展开：在 10 万级文档规模下... ...

大模型微调评测入门：看懂这些指标，才知道模型好不好

大模型微调评测入门：看懂这些指标，才知道模型好不好从“瞎评”到“精准评”：大模型微调核心评测指标全拆解大家好，我是七七！最近后台收到很多粉丝的共性提问：“我用LoRA微调了Llama 2 7B模型做情感分析，怎么判断它好不好用？”“微调后的文案生成模型，凭感觉比原版好，但是怎么证明？” 这其实戳 ...

民用卡 vs 专业卡 vs 云 GPU：大模型微调该选哪种？

大模型微调的GPU选型，核心是“匹配场景+平衡成本”——个人追求性价比，团队兼顾稳定性，企业看重规模化。今天这篇文章，我就从三类GPU的核心差异、适配场景、实操选型三个维度，用大白话讲透选择逻辑，附实测数据和选型步骤，帮你不管是个人入门还是企业落地，都能选到最适合的GPU。 ...

大模型成本刺客退散！1/3算力跑出同等效果的秘诀

不管是16G显卡的个人开发者，还是预算有限的小团队、追求ROI的企业，算力成本控制都是大模型落地的核心必修课。今天这篇文章，我就从微调、推理两个核心环节，拆解成本控制的底层逻辑和实操技巧，附16G显卡可直接套用的代码，帮你在不牺牲效果的前提下，把算力成本砍到最低。 ...

大模型从“瞎聊”到“干活”：指令微调核心逻辑全拆解

大模型从“瞎聊”到“干活”：指令微调核心逻辑全拆解指令微调破局，让大模型从 “瞎聊” 变 “能干” 大家好，我是七七！刚入门大模型时，我总被一个问题困扰：明明Llama 2、Qwen这些模型能聊天说地，可一让它干具体活就掉链子——让它写电商文案，通篇空话套话；让它整理会议纪要，逻辑混乱漏重点；让它 ...

软件工程Agent在工程依赖版本升级探索

背景与动机现代软件项目广泛依赖开源库以避免重复开发，但库版本更新常引入破坏性变更，导致代码兼容性问题。手动适配这些更新需消耗大量开发者时间，且大型代码库中开发者易忽视更新警告或锁定旧版本，长期阻碍功能迭代、性能优化与安全修复。现有自动化方案未被广泛采用，而 LLM 在代码生成、程序修复等领域已展现 ...