随笔分类 -  RAG

Github上文本切分相关的优秀项目
摘要:Github上有几个不错的文本切分相关的优秀项目,涵盖了不同技术方向和应用场景: AntSK-FileChunk 特点:基于语义理解的智能文本切片工具,支持PDF、Word、纯文本等多种格式,通过语义分析和向量计算确保切片的语义完整性和连贯性。 GitHub地址:https://github.com 阅读全文
posted @ 2025-10-17 05:54 风生水起 阅读(117) 评论(0) 推荐(0)
解开RAG系统迷局:原子问答如何终结幻觉与上下文混淆
摘要:想象你在读一本悬疑小说,但许多关键线索却不知去向。你努力拼凑故事的碎片,但这些信息却被分散在各个章节里。这就好比AI模型在缺乏必要的信息的情况下回答问题时,它们就会胡言乱语。他们猜测,他们填补空白处——而他们也会出错。即使在像检索增强生成(RAG)这样的先进系统中,如果检索到的上下文片段不够明确或不 阅读全文
posted @ 2025-07-03 18:52 风生水起 阅读(93) 评论(0) 推荐(0)
文档识别:多模态还是OCR到底谁更强?工业届该如何抉择?
摘要:工业应用的三条黄金法则 基于实验结果,提炼出 MM-LLMs 在工业级 OCR 应用的实施建议: 1. 高价值文档必须专业扫描:合同、票据等关键文件需使用 ≥300PPI 的扫描设备。 2. 数字验证场景双系统并行:对验证码、身份证号等场景,建议采用"MM-LLMs 语境理解+传统 OCR 字符校验 阅读全文
posted @ 2025-04-11 10:51 风生水起 阅读(148) 评论(0) 推荐(0)
word转化为markdown格式
摘要:要将Word文档转换为Markdown格式,‌有几种方法可以实现这一转换,‌包括使用命令行工具、‌专门的转换工具以及通过编程方式。‌ 使用命令行工具:‌ Pandoc是一个强大的文档转换工具,‌支持多种格式之间的转换,‌包括Word文档(‌docx)‌到Markdown的转换。‌你可以从GitHub 阅读全文
posted @ 2024-08-15 19:44 风生水起 阅读(4233) 评论(0) 推荐(0)