zhencon

博客园 首页 新随笔 联系 订阅 管理

电子发票的目前有PDF和ofd两种。税务虽然有标准发票尺寸,但各地具体文件格式有差异。甚至还有原来的机打发票和区块链发票。包括近期推广的全电发票。
总体看种类多格式差异大。如何准确提取发票中信息,并生成格式化数据报表就成为很多从业者的工作难题。

发票提取到底如何实现?哪种技术更适合?下面简单分析下:

1、目前主要有PDF 、OFD、OCR 三种技术。对比分析如下:

技术 图片OCR技术 PDF、OFD文件解码技术
通过PDF和ofd转图片/文件扫描或拍照,进行OCR识别。 直接PDF和OFD文件编码级别提取发票信息。
优点 统一转为图片的识别, 技术实现简单 精准无误。速度快。
缺点 需要转为图片,OCR需要训练,存在识别模糊和错别字问题。 对图片清晰度有要求。 文件解码技术复杂要求较高。

2、解决办法和工具

(1)办公软件自带的pdf处理插件。

  office和国产office类软件wps、adobe pdf 、PDF转换软件。
 **问题**:无法针对发票进行专门处理。

(2) 在线的发票处理平台。

  网页版或web浏览器的形式提供发票处理。

问题: 收费高(按张收费),有数量限制。需要上传发票到别人平台,财务数据泄露。给企业带来不可估量的风险。

d1d92ff7443e6c09e1cffc89de4e8bd1

(3) 专用客户端发票软件。

  专门针对发票进行解码识别。在电脑本地识别处理。
比如:票格子软件。 内置PDF和ofd、XML专用解码引擎,电子发票批量转excel。

没有数量限制。不上传数据。有免费额度。简单好用。

v3

801889377f8cbac7343be5006fda627f

清单提取

posted on 2025-08-25 15:53  票格子zhencon-com  阅读(176)  评论(0)    收藏  举报