电子发票的目前有PDF和ofd两种。税务虽然有标准发票尺寸,但各地具体文件格式有差异。甚至还有原来的机打发票和区块链发票。包括近期推广的全电发票。
总体看种类多格式差异大。如何准确提取发票中信息,并生成格式化数据报表就成为很多从业者的工作难题。
发票提取到底如何实现?哪种技术更适合?下面简单分析下:
1、目前主要有PDF 、OFD、OCR 三种技术。对比分析如下:
| 技术 | 图片OCR技术 | PDF、OFD文件解码技术 |
|---|---|---|
| 通过PDF和ofd转图片/文件扫描或拍照,进行OCR识别。 | 直接PDF和OFD文件编码级别提取发票信息。 | |
| 优点 | 统一转为图片的识别, 技术实现简单 | 精准无误。速度快。 |
| 缺点 | 需要转为图片,OCR需要训练,存在识别模糊和错别字问题。 对图片清晰度有要求。 | 文件解码技术复杂要求较高。 |
2、解决办法和工具
(1)办公软件自带的pdf处理插件。
office和国产office类软件wps、adobe pdf 、PDF转换软件。
**问题**:无法针对发票进行专门处理。
(2) 在线的发票处理平台。
网页版或web浏览器的形式提供发票处理。
问题: 收费高(按张收费),有数量限制。需要上传发票到别人平台,财务数据泄露。给企业带来不可估量的风险。

(3) 专用客户端发票软件。
专门针对发票进行解码识别。在电脑本地识别处理。
比如:票格子软件。 内置PDF和ofd、XML专用解码引擎,电子发票批量转excel。
没有数量限制。不上传数据。有免费额度。简单好用。



浙公网安备 33010602011771号