.NET 开发：通过 C# 提取 PDF 中的图片

在.NET 开发中，从 PDF 里提取图片是个高频需求 —— 不管是数据迁移时需要剥离文档中的图表，还是内容分析时要提取关键插图，都绕不开这个场景。但传统方案总有些麻烦：付费 PDF 库成本高，还可能依赖 Adobe Acrobat 这类重型工具，对中小型项目不够友好。
本文将介绍如何使用免费库 Free Spire.PDF for .NET 精准实现“整文档批量提取”或“指定页面精准提取”，代码简单、操作高效。

一、前期准备：快速引入工具库

使用 Free Spire.PDF 前，需先完成库引用，推荐通过 NuGet 安装（步骤极简，3步即可完成）：

打开Visual Studio，右键项目选择“管理NuGet程序包”；
在“浏览”栏搜索“Free Spire.PDF”，找到官方包后点击“安装”；
等待安装完成，项目会自动添加引用，无需手动配置路径。

⚠️ 注意：免费版对单文档页数有一定限制。

二、核心逻辑与场景实现

Free Spire.PDF 提取图片的核心逻辑很清晰：通过 PdfImageHelper 类的 GetImagesInfo() 方法获取页面图片信息，再调用 PdfImageInfo.Image.Save() 保存图片。以下针对两种典型场景，提供可直接复用的代码。

场景1：提取 PDF 文档中所有图片

适用于需要批量获取文档中所有图片的场景（例如归档文档内所有插图等）。实现逻辑为“加载文档→遍历所有页面→提取并按序保存图片”。

using Spire.Pdf;
using Spire.Pdf.Utilities;
using System.Drawing;

namespace ExtractAllImages
{
    class Program
    {
        static void Main(string[] args)
        {
            // 1. 加载目标PDF文档
            PdfDocument pdf = new PdfDocument();
            pdf.LoadFromFile("Input.pdf"); // 替换为你的PDF路径

            // 2. 初始化图片处理工具
            PdfImageHelper imageHelper = new PdfImageHelper();
            
            // 3. 遍历所有页面，提取图片
            int imageCount = 0; // 用于给图片命名，避免重复
            for (int pageIndex = 0; pageIndex < pdf.Pages.Count; pageIndex++)
            {
                // 获取当前页对象
                PdfPageBase currentPage = pdf.Pages[pageIndex];
                // 获取当前页所有图片信息
                PdfImageInfo[] imageInfos = imageHelper.GetImagesInfo(currentPage);

                // 保存当前页的图片
                foreach (var imageInfo in imageInfos)
                {
                    Image image = imageInfo.Image;
                    // 保存路径可自定义
                    image.Save($"Output\\image_{imageCount}.png"); 
                    imageCount++;
                }
            }

            // 4. 释放资源
            pdf.Dispose();
        }
    }
}

场景2：提取 PDF 指定页面的图片

适用于仅需某几页图片的场景（例如从多页报告中提取封面图、从论文中提取某页的图表等）。核心是“定位目标页面→单独提取该页图片”。

⚠️ 关键提醒：Free Spire.PDF 的页面索引从0开始（第1页对应索引0，第2页对应索引1，以此类推）。

using Spire.Pdf;
using Spire.Pdf.Utilities;
using System.Drawing;

namespace ExtractImagesFromSpecificPage
{
    class Program
    {
        static void Main(string[] args)
        {
            // 1. 加载目标PDF文档
            PdfDocument pdf = new PdfDocument();
            pdf.LoadFromFile("Input.pdf"); // 替换为你的PDF路径

            // 2. 定位指定页面（此处以第1页为例，索引为0）
            int targetPageIndex = 0; // 如需提取第3页，改为2即可
            PdfPageBase targetPage = pdf.Pages[targetPageIndex];

            // 3. 初始化图片处理工具并获取图片信息
            PdfImageHelper imageHelper = new PdfImageHelper();
            PdfImageInfo[] imageInfos = imageHelper.GetImagesInfo(targetPage);

            // 4. 保存指定页的图片
            for (int i = 0; i < imageInfos.Length; i++)
            {
                Image image = imageInfos[i].Image;
                // 保存路径可自定义
                image.Save($"Output\\page_{targetPageIndex + 1}_image_{i}.png"); 
            }

            // 5. 释放资源
            pdf.Dispose();
        }
    }
}

三、方案优势与注意事项

灵活可控：支持自定义图片保存路径（如Output\\）和格式（如 PNG、JPG 等）；
高效批量处理：通过循环逻辑可快速处理多页 PDF，无需手动逐页操作；
轻量无依赖：无需安装 Adobe Acrobat 等第三方软件，仅需引用一个类库即可运行。

总结

用 Free Spire.PDF for .NET 提取PDF图片，无需编写复杂解析算法，也不用依赖重型工具，几行代码即可实现精准提取。无论是整文档批量处理，还是指定页面定向提取，都能轻松应对。

发表于 2025-11-06 17:38 LAYONTHEGROUND 阅读(26) 评论(0) 收藏举报

刷新页面返回顶部