pdf 转图片,提取图片研究心得

1.pdf 中的数据是有多种编码的,详情请看:http://www.cnblogs.com/zendu/p/7644465.html

2.我的工作场景比较特殊,pdf中全部是图片,所以pdf转图片就有两种思路。

a.一种是把图片直接提取出来,怎么放进去的怎么提取出来。

  这种速度最快,原因是用不到解码,直接数据的拷贝。但是也有他的问题,就是pdf中的编码格式较多,要针对不同的编码,提供不同的提取程序。

  可以用到的库是pdfsharp ,itextsharp。个人感觉pdfsharp 没itextsharp稳定,但是速度快,但是已经是几十ms级的了,稳定性高的就首选了。

  代码网上可以搜到,但是只能解析DCTDecode编码的图片,也就是jpg之类的图片。我能力有限,网上资料也不多,没深究。

b.一种是把图片转成位图,然后再转成你想要的格式

  网上找到了mupdf开源库,有可能是c++写的缘故,这个类库的转换速度特别快。0.2秒左右一张,而且全编码支持(喜出望外)。C#版转图片的代码网上也搜的到。

所以最后的采用了a+b的方式,先提取,提取失败(比如png,tiff类型的图片)就采用mupdf,最后的效果还可以,平均解码速度0.07秒/页.

 

posted on 2017-11-09 11:54  zyz913614263  阅读(1529)  评论(0编辑  收藏  举报

导航