pdf 转图片，提取图片研究心得

1.pdf 中的数据是有多种编码的，详情请看：http://www.cnblogs.com/zendu/p/7644465.html

2.我的工作场景比较特殊，pdf中全部是图片，所以pdf转图片就有两种思路。

a.一种是把图片直接提取出来，怎么放进去的怎么提取出来。

　　这种速度最快，原因是用不到解码，直接数据的拷贝。但是也有他的问题，就是pdf中的编码格式较多，要针对不同的编码，提供不同的提取程序。

　　可以用到的库是pdfsharp ，itextsharp。个人感觉pdfsharp 没itextsharp稳定，但是速度快，但是已经是几十ms级的了，稳定性高的就首选了。

　　代码网上可以搜到，但是只能解析DCTDecode编码的图片，也就是jpg之类的图片。我能力有限，网上资料也不多，没深究。

b.一种是把图片转成位图，然后再转成你想要的格式

　　网上找到了mupdf开源库，有可能是c++写的缘故，这个类库的转换速度特别快。0.2秒左右一张，而且全编码支持（喜出望外）。C#版转图片的代码网上也搜的到。

所以最后的采用了a+b的方式，先提取，提取失败（比如png，tiff类型的图片）就采用mupdf，最后的效果还可以，平均解码速度0.07秒/页.

posted on 2017-11-09 11:54 zyz913614263 阅读(1592) 评论(0) 收藏举报

刷新页面返回顶部