大模型 - 第15页 - 网站分类

如何通过Java SDK描述Collection

本文介绍如何通过Java SDK获取已创建的Collection的状态和Schema信息。前提条件已创建Cluster 已获得API-KEY 已安装最新版SDK 接口定义 Java // class DashVectorClient public Response<CollectionMeta> ...

RAG 不是万能解，这些场景你一开始就不该用

RAG并非万能，默认滥用反致系统复杂、效果难测。它仅解决“信息获取”，不提升模型能力。最适合四类场景：动态知识更新、需答案溯源、长尾问题密集、需求尚不明确。慎用于强推理、隐性经验、高实时性及高确定性要求场景。核心判断：问题是“找不到信息”，还是“不会处理信息”？ ...

【1.29 直播】从数据模型到应用实战：AI 时代 IoTDB 时序模型如何真正“跑起来”？

随着 AI 应用进入规模化阶段，时序模型的挑战，正逐步从算法本身，扩展到数据与基础设施层面。训练越来越重、数据越来越多、部署越来越复杂—— 你是否也在思考： ❓时序模型训练，如何摆脱数据准备与 I/O 瓶颈？ ❓多个模型版本，如何统一管理、部署与复用？ ❓从模型训练到线上应用，如何真正跑在一个稳定 ...

微调与安全隐私：为什么微调会放大风险

微调不是“温和调教”，而是将敏感信息固化进模型参数的风险交换过程。它会放大偶然数据中的隐私隐患，导致过拟合式泄露、隐式模式记忆与不可撤回的记忆固化。安全边界模糊，内部使用反而更易触发风险。真正可控的路径：先RAG，再小步微调，始终以风险而非效果为决策核心。 ...

Claude-Mem：给 AI 编程助手装上"长期记忆"

写在前面你是不是也遇到过这种情况：昨天用 Claude Code 写了一段复杂业务逻辑，今天重新打开项目，AI 助手却像失忆了一样，完全不记得你们讨论过什么，只能从头再解释一遍？这个痛点，Claude-Mem 给出了解决方案——一个专为 Claude Code 打造的持久化记忆系统，让 AI 助 ...

详解大模型安全评估实操流程

当前，生成式人工智能大模型快速普及，其安全可控性直接关系国家安全、社会公共利益及公民合法权益。根据国家互联网信息办公室等七部门联合发布的《生成式人工智能服务管理暂行办法》（国家互联网信息办公室令第15号）第十七条明确要求，“提供具有舆论属性或者社会动员能力的生成式人工智能服务的，应当按照国家有关规定 ...

在复杂任务中如何利用 Claude 4.5 Opus 提高推理精度与响应速度

在 AI 模型不断发展升级的背景下，Claude 4.5 系列带来了 Sonnet、Opus 和 Haiku 三款子模型，每个模型都有其独特的优势和适用场景。尤其是 Opus 4.5，它以其强大的推理能力和响应速度在复杂任务中脱颖而出。但对于脚本创作者来说，如何在推理精度与响应速度之间找到 ...

中国智能体应用现状与企业实践

中国智能体应用的行业全貌，核心逻辑是 “基础治理缺失制约落地，技术 + 方法论双轮驱动破局”，以下是分层解读：行业现状：“热市场” 与 “冷落地” 的矛盾突出市场热度高：涌入智能体领域的厂商数量庞大，反映出行业对智能体的商业化潜力预期较高。落地成效差：大多数企业的智能体应用未能有效落地，暴露出技术 ...

langchain 快速入门(四)：搭建强大的AI Agent

简介 AI Agent 不仅仅是一个能聊天的机器人（如普通的 ChatGPT），而是一个能够感知环境、进行推理、自主决策并调用工具来完成特定任务的智能系统，更够完成更为复杂的AI场景需求。 AI Agent 功能根据查阅的资料，agent的功能点如下： Agent = LLM + 规划 + 记忆 ...

微调显存总爆炸？问题往往不在你以为的地方

大模型微调常遇“显存不够”，但根源常被误判：显存主要消耗在激活值（activation）、优化器状态（如Adam×3）和梯度上，而非模型参数本身。bf16仅减存储不减数量，checkpointing、梯度累积等是有效优化手段。显存问题本质是系统认知问题，而非硬件不足。 ...

langchain 快速入门(三)：搭建RAG知识库

评估，才是微调里最反直觉的部分

微调跑通≠成功！训练是确定性工程，评估才是核心认知挑战：loss不反映真实效果，人工评估难但不可替代。关键在明确定义“何为更好”，用固定对照集+对比输出持续校准目标，让评估成为理解模型行为的迭代过程。 ...

钉钉A1与飞书AI录音豆

钉钉A1与飞书AI录音豆的全面对比分析表。从整体定位来看，两款产品分别深度绑定各自办公生态，面向职场会议场景，但在设计理念和功能侧重上有明显差异：核心差异总结对比维度钉钉A1飞书AI录音豆设计哲学性能优先：强调专业级录音质量和大容量存储便携优先：极致轻薄，无感佩戴，快速响应拾音能力6麦阵列+骨传导， ...

为什么 loss 几乎没用：微调里最容易让人“自嗨”的指标

loss 在微调里不是没用，而是作用范围被严重高估了。它能告诉你“训练有没有在跑”，却几乎无法告诉你“模型有没有变成你想要的样子”。如果你把 loss 当成主要决策依据，那你很可能会在一条看起来很平滑的曲线上，慢慢把模型带偏。真正成熟的微调过程，永远是：loss 作为底线保障，输出评估作为核心依据 ...

从 0 到跑通一次微调：别急着追效果，先让它“真的动起来”

微调最难的不是算法，而是“跑通全流程”。首次微调应聚焦简单目标：让模型回答更规范、语气更一致。避免复杂数据与环境折腾。loss下降不等于成功，关键看输出是否按预期改变。跑通一次，复盘流程，才是真正入门。 ...

Langchain 快速入门(一): 运行你第一个LLM模型

简介 langchain专门用于构建LLM大语言模型，其中提供了大量的prompt模板，和组件，通过chain(链)的方式将流程连接起来，操作简单，开发便捷。环境配置安装langchain框架 pip install langchain langchain-community 其中langcha ...

你以为 PPO 很高级，其实它更像个“微调旋钮”

为什么 PPO 在真实业务里越来越重要如果你是从论文或者课程里接触 PPO 的，那大概率会有一种“这东西看起来很厉害”的感觉。策略梯度、clip、KL 约束、reward model，一整套体系下来，很容易让人产生错觉：只要把 PPO 跑起来，大模型就能被“精细打磨”。但真正进到业务里，你会发现 ...

向量数据库技术内核：从存储到检索，拆解其高效运作的秘密

向量数据库技术内核：从存储到检索，拆解其高效运作的秘密写在前面：我也是“被向量数据库名词轰炸”过的人说实话，我第一次接触向量数据库的时候，是有点抗拒的。那会儿各种文章都在说：向量数据库是 AI 时代的“新型基础设施” 没有向量数据库，大模型就跑不起来它彻底改变了传统数据库的范式结果我真正 ...

从零开始：PPO 微调大模型实战（基于 PyTorch）

从零开始：PPO 微调大模型实战（基于 PyTorch） PPO 真正难的，不是算法本身如果你已经看过一些 PPO 的原理文章，大概率会有过这种感觉：好像每个字都认识，但真让我自己写代码，脑子还是一片空白。这其实挺正常的。至少我第一次准备动手写 PPO 的时候，也是这种状态。问题不在你，而 ...

模型推理框架——vllm原理及整体框架

Page Attention是优化KV-cache内存管理的方法，可解决预留浪费、内部及外部内存碎片化问题，通过将KV-cache划分为固定大小Block，利用Block Table维护逻辑与物理映射，有效管理非连续内存；同时处理Softmax计算中的数值溢出与全局信息问题。vllm框架支持离线与在... ...