Dify 工作流实践--PDF工商信息识别

接上篇，这次做一个PDF识别的案例，提取用户上传的工商营业执照PDF中的营业范围信息，并以JSON 格式返回。

做的过程中识别到几个问题，可能也是大家会遇到的：

1.关于PDF中图片的处理方法

　　一般情况下PDF中是文本内容，但是有时候会出现图片内容，所以针对文本的大模型无法解析，需要想起他办法

　　我这里是先将PDF转为PNG，然后解析文件内容进行处理

2.关于插件PDF process默认错误处理方法

　　在Dify的market中安装后，使用时会报错：need http,https file protocal.解决方法：在源文件.env中增加一行：FILES_URL=http://your-ip，重启即可（这样上传的文件将会有一个完整的URL，可以在浏览器中预览）

-----------分割线-------

先看下整体流程结构：

流程描述：

1.上传文件

2.格式判断，非PDF直接报错

3.DOC EXTRCTOR 解析PDF为text

4.判断如果text非空则表明为纯文本PDF，使用qwen-long长文本大模型进行文件读取分析，按照prompt格式返回结果

5.如果text为空表明为图片型PDF，先试用PDF PROCESS插件将PDF转换为PNG，然后使用qwen-vl-72b视觉大模型进行处理，提取文本进行分析，并按照prompt格式返回结果

构建过程就是拖拖拽拽，省略

运行结果：

1.纯PDF文件解析

2.图片型PDF解析

附上dsl文件供参考：DSL

posted @ 2025-06-10 16:12 MasonZhang 阅读(1536) 评论(0) 收藏举报

刷新页面返回顶部

miketwais