随笔分类 - RAG
Github上文本切分相关的优秀项目
摘要:Github上有几个不错的文本切分相关的优秀项目,涵盖了不同技术方向和应用场景: AntSK-FileChunk 特点:基于语义理解的智能文本切片工具,支持PDF、Word、纯文本等多种格式,通过语义分析和向量计算确保切片的语义完整性和连贯性。 GitHub地址:https://github.com
阅读全文
解开RAG系统迷局:原子问答如何终结幻觉与上下文混淆
摘要:想象你在读一本悬疑小说,但许多关键线索却不知去向。你努力拼凑故事的碎片,但这些信息却被分散在各个章节里。这就好比AI模型在缺乏必要的信息的情况下回答问题时,它们就会胡言乱语。他们猜测,他们填补空白处——而他们也会出错。即使在像检索增强生成(RAG)这样的先进系统中,如果检索到的上下文片段不够明确或不
阅读全文
文档识别:多模态还是OCR到底谁更强?工业届该如何抉择?
摘要:工业应用的三条黄金法则 基于实验结果,提炼出 MM-LLMs 在工业级 OCR 应用的实施建议: 1. 高价值文档必须专业扫描:合同、票据等关键文件需使用 ≥300PPI 的扫描设备。 2. 数字验证场景双系统并行:对验证码、身份证号等场景,建议采用"MM-LLMs 语境理解+传统 OCR 字符校验
阅读全文
word转化为markdown格式
摘要:要将Word文档转换为Markdown格式,有几种方法可以实现这一转换,包括使用命令行工具、专门的转换工具以及通过编程方式。 使用命令行工具: Pandoc是一个强大的文档转换工具,支持多种格式之间的转换,包括Word文档(docx)到Markdown的转换。你可以从GitHub
阅读全文
浙公网安备 33010602011771号