Python如何合并多个PDF文件?实现代码示例教程

2021年11月17日03:30:22 发表评论 1,063 次浏览

如何使用Python合并多个PDF文件?本文带你了解如何使用 Python 中的 PyPDF4 库将两个或多个 PDF 文件合并为一个 PDF 文件。

合并 PDF 文件的主要目标是进行适当的文件管理、存档、批量打印或合并数据表、电子书和报告。你肯定需要一个高效的工具来将小型 PDF 文件合并为一个 PDF。

Python如何合并多个PDF文件?本教程旨在向你展示如何使用 Python 编程语言将 PDF 文件列表合并为单个 PDF。组合的 PDF 可以包括书签以改进导航,其中每个书签都链接到输入的 PDF 文件之一的内容。

为此,我们将使用PyPDF4 库。PyPDF4 是一个纯 python PDF 库,能够拆分、合并、裁剪和转换 PDF 文件的页面。它还可以向 PDF 文件添加自定义数据、查看选项和密码。它可以从 PDF 中检索文本和元数据,也可以将整个文件合并在一起。

实现完整的Python合并多个PDF文件代码示例如下:

让我们安装它:

$ pip install PyPDF4==1.27.0

导入库:

#Import Libraries
from PyPDF4 import PdfFileMerger
import os,argparse

让我们定义我们的核心功能:

def merge_pdfs(input_files: list, page_range: tuple, output_file: str, bookmark: bool = True):
    """
    Merge a list of PDF files and save the combined result into the `output_file`.
    `page_range` to select a range of pages (behaving like Python's range() function) from the input files
        e.g (0,2) -> First 2 pages 
        e.g (0,6,2) -> pages 1,3,5
    bookmark -> add bookmarks to the output file to navigate directly to the input file section within the output file.
    """
    # strict = False -> To ignore PdfReadError - Illegal Character error
    merger = PdfFileMerger(strict=False)
    for input_file in input_files:
        bookmark_name = os.path.splitext(os.path.basename(input_file))[0] if bookmark else None
        # pages To control which pages are appended from a particular file.
        merger.append(fileobj=open(input_file, 'rb'), pages=page_range, bookmark=bookmark_name)
    # Insert the pdf at specific page
    merger.write(fileobj=open(output_file, 'wb'))
    merger.close()

所以我们首先创建一个PDFFileMerger对象,然后input_files从输入中迭代。之后,对于每个输入的 PDF 文件,如果需要,我们会根据bookmark变量定义一个书签,并将其添加到合并对象中,同时考虑到page_range所选的内容。

接下来,我们使用append()合并中的方法添加我们的 PDF 文件。

最后,我们编写输出 PDF 文件并关闭对象。

Python如何合并多个PDF文件?现在让我们添加一个函数来解析命令行参数:

def parse_args():
    """Get user command line parameters"""
    parser = argparse.ArgumentParser(description="Available Options")
    parser.add_argument('-i', '--input_files', dest='input_files', nargs='*',
                        type=str, required=True, help="Enter the path of the files to process")
    parser.add_argument('-p', '--page_range', dest='page_range', nargs='*',
                        help="Enter the pages to consider e.g.: (0,2) -> First 2 pages")
    parser.add_argument('-o', '--output_file', dest='output_file',
                        required=True, type=str, help="Enter a valid output file")
    parser.add_argument('-b', '--bookmark', dest='bookmark', default=True, type=lambda x: (
        str(x).lower() in ['true', '1', 'yes']), help="Bookmark resulting file")
    # To Porse The Command Line Arguments
    args = vars(parser.parse_args())
    # To Display The Command Line Arguments
    print("## Command Arguments #################################################")
    print("\n".join("{}:{}".format(i, j) for i, j in args.items()))
    print("######################################################################")
    return args

现在让我们在主代码中使用之前定义的函数:

if __name__ == "__main__":
    # Parsing command line arguments entered by user
    args = parse_args()
    # convert a single str to a list
    input_files = [str(x) for x in args['input_files'][0].split(',')]
    page_range = None
    if args['page_range']:
        page_range = tuple(int(x) for x in args['page_range'][0].split(','))
    # call the main function
    merge_pdfs(
        input_files=input_files, page_range=page_range, 
        output_file=args['output_file'], bookmark=args['bookmark']
    )

好的,我们已经完成了编码,让我们测试一下:

$ python pdf_merger.py --help

输出:

usage: pdf_merger.py [-h] -i [INPUT_FILES [INPUT_FILES ...]] [-p [PAGE_RANGE [PAGE_RANGE ...]]] -o OUTPUT_FILE [-b BOOKMARK]

Available Options

optional arguments:
  -h, --help            show this help message and exit
  -i [INPUT_FILES [INPUT_FILES ...]], --input_files [INPUT_FILES [INPUT_FILES ...]]
                        Enter the path of the files to process
  -p [PAGE_RANGE [PAGE_RANGE ...]], --page_range [PAGE_RANGE [PAGE_RANGE ...]]
                        Enter the pages to consider e.g.: (0,2) -> First 2 pages
  -o OUTPUT_FILE, --output_file OUTPUT_FILE
                        Enter a valid output file
  -b BOOKMARK, --bookmark BOOKMARK
                        Bookmark resulting file

如何使用Python合并多个PDF文件?以下是将两个 PDF 文件合并为一个的示例:

$ python pdf_merger.py -i bert-paper.pdf,letter.pdf -o combined.pdf

Python如何合并多个PDF文件?你需要(,)-i参数中用逗号分隔输入的 PDF 文件,并且不得添加任何空格。

combined.pdf当前目录中出现了一个新的包含两个输入 PDF 文件的文件,输出为:

## Command Arguments #################################################
input_files:['bert-paper.pdf,letter.pdf']
page_range:None
output_file:combined.pdf
bookmark:True
######################################################################

确保在传递-i参数时使用正确的输入文件顺序。

结论

通过学习以上的Python合并多个PDF文件代码示例,我希望这段代码可以帮助你轻松合并 PDF 文件,无需第三方或在线工具,使用 Python 执行此类任务更方便。

木子山

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: