摘要:
【LangChain 实战】利用 LangChain 高效提取 Word 文档纯文本内容 适用场景:文档智能处理 | RAG 知识库构建 | AI 大模型语料预处理 | 办公文档自动化 在 AI 应用开发、RAG 检索增强生成、企业知识库搭建等场景中,从 Word 文档中提取纯净文本是必不可少的前置 阅读全文
posted @ 2026-03-19 10:19
万笑佛
阅读(146)
评论(0)
推荐(0)
摘要:
EasyOCR 应用 在日常办公、数据处理、资料整理中,我们经常会遇到图片转文字的需求:截图里的文案无法复制、PDF 扫描件不能编辑、证件信息需要手动录入、外文图片需要提取文本…… 传统手动录入效率极低,而专业 OCR 工具要么收费,要么配置复杂。 今天给大家分享一款零门槛、高性能、免费开源的 Py 阅读全文
posted @ 2026-03-18 10:38
万笑佛
阅读(176)
评论(0)
推荐(1)
摘要:
高效提取 PDF 中的所有图片:一键批量导出,无损保存超实用! 在日常处理 PDF 文档时,我们经常会遇到需要提取 PDF 内图片的场景:整理文档中的图表、保存白皮书里的高清插图、提取报告中的数据配图、收集课件里的关键图片…… 手动截图不仅模糊、效率极低,还会丢失原图分辨率,有没有更高效、无损的解决 阅读全文
posted @ 2026-03-17 10:15
万笑佛
阅读(106)
评论(0)
推荐(0)
摘要:
解决PDF读取内存溢出!轻量分页加载实现方案 在日常开发中,我们经常会遇到PDF文件读取的需求——可能是解析文档内容、提取关键信息,也可能是生成文档预览。但如果面对几十页、上百页的大型PDF,直接一次性加载全部内容,很容易出现内存溢出、程序卡顿甚至崩溃的问题,尤其是在服务器端或资源有限的设备上,这个 阅读全文
posted @ 2026-03-16 10:41
万笑佛
阅读(93)
评论(0)
推荐(0)
摘要:
上一篇博客介绍了,加载pdf按页分割的方法,今天讲讲如何自定义分割pdf文件。 LangChain 实战:PDF 文档智能加载与自定义文本分割 在基于大模型的 RAG 应用开发中,PDF 文档加载与精细化文本分割是核心基础环节。分割的质量直接决定了后续向量检索的精准度和大模型回答的效果。今天给大家分 阅读全文
posted @ 2026-03-13 10:19
万笑佛
阅读(114)
评论(0)
推荐(0)
摘要:
加载 PDF 原始页面,保留完整内容不分割 在基于 LangChain 处理 PDF 文档的场景中,很多开发者默认使用的加载方式会自动将文档内容分割成小块,虽然便于后续检索,但有时我们更需要保留 PDF 原始页面的完整内容 —— 比如解析出团通知书、合同类 PDF 时,按页码完整提取内容才能保证信息 阅读全文
posted @ 2026-03-12 10:32
万笑佛
阅读(149)
评论(0)
推荐(0)
摘要:
文档中的文字加载后,就要向量化存在向量数据库里,提供给后面的业务逻辑使用,但是在这之前还需要对文本进行分割,分割后的结果在进行向量化,今天主要讲一讲langchain常用的几种文本分割。 LangChain 文本分割:从基础到进阶的实战指南 在基于大模型构建知识库、RAG 等应用时,文本分割是核心前 阅读全文
posted @ 2026-03-11 10:21
万笑佛
阅读(127)
评论(0)
推荐(0)
摘要:
上节讲如何将文本进行向量化,本节讲讲如何将文本文件加载到程序中,进行下一步处理,langchain 的 TextLoader提供了这个功能。 langchain 的 TextLoader 并非支持所有文本格式,它的核心作用是读取「纯文本类文件」,对非纯文本格式(如带格式的文档、二进制文件)无法直接解 阅读全文
posted @ 2026-03-10 10:55
万笑佛
阅读(125)
评论(0)
推荐(0)
摘要:
之前讲了milvus向量数据库如何使用,但是如何把文本信息转成向量?这个问题一直没有讲,今天就讲讲,这是构建RAG关键的一步,咱们使用all-MiniLM-L6-v2本地模型将文本转成向量。 为什么用它最直接的原因是免费还好用,调用各大平台的向量模型是要收费的,所以使用本地化向量模型从部署到使用都是 阅读全文
posted @ 2026-03-09 10:42
万笑佛
阅读(119)
评论(0)
推荐(0)
摘要:
解锁 Milvus 新玩法:基于文本匹配的精准检索实战 在向量数据库的主流应用里,大家通常更关注向量相似度检索,但 Milvus 除了强大的向量检索能力外,还内置了非常实用的文本匹配功能。我们不需要额外引入搜索引擎,就能直接在文本字段上做精准关键词检索,快速搭建支持文本过滤的检索服务。 一、Milv 阅读全文
posted @ 2026-03-06 11:02
万笑佛
阅读(76)
评论(0)
推荐(0)
浙公网安备 33010602011771号