kreuzberg基于rust core 的多态文档智能框架
kreuzberg是一个基于rust 开发的支持多态文档处理的框架,比较强大的地方是kreuzberg 提供了多种sdk对于使用比较友好
包含的特性
- 可扩展的架构,插件系统,可以灵活的进行自定义扩展
- 多态处理,支持多种开发语言
- 56 中文件格式支持
- 支持ocr,包含了基于tesseract ,easyocr,paddleocr 等
- 高性能,支持基于simd 优化的并行化
- 灵活的部署访问,支持作为库,cli,rest api,mcp 服务
- 内存高效,基于流的解析,基于支持gb 级别的文件处理
说明
kreuzberg 对于文档处理还是比较全的,一是格式多,而且支持的模式多(image,text,table 等)值得尝试下
浙公网安备 33010602011771号