摘要: 为什么需要切割? 回忆一下 RAG 的流程: 用户提问 从知识库检索相关内容 将检索到的内容和用户问题一起交给模型推理 如果文档不切割,检索阶段就只能以整篇为单位,长文会超出模型的 Token 限制,无法一次性送进模型。 快速上手 如何切割? 最通用的是使用 RecursiveCharacterTe 阅读全文
posted @ 2025-11-06 15:07 Zhentiw 阅读(14) 评论(0) 推荐(0)
摘要: CheerioWebBaseLoader 作用是抓取指定网页并解析 HTML 内容,提取需要的纯文本数据。 这个 Loader 底层依赖 cheerio,语法类似 jQuery,可以方便地选择 HTML 元素并提取内容,适用于解析静态 HTML 网页。 pnpm add @langchain/com 阅读全文
posted @ 2025-11-06 14:51 Zhentiw 阅读(15) 评论(0) 推荐(0)