【图片】关于tml转pdf的实际操作问题【python学习吧】

python学习吧关注：15,755贴子：76,062

2回复贴，共1页

关于tml转pdf的实际操作问题

今天跟大家分享一下如何用Python把html资料变成pdf
01.抓取的学习资料
如今网上的在线学习资料可谓是多如牛毛，为了方便讲解，我就利用python3.9.2的中文文档作为演示的例子，来将其抓取并保存到本地，其网页链接如下：
https://docs.python.org/zh-cn/3.9/tutorial/index.html
打开上述链接后，大家会在网页中找到不同内容的链接地址，包括了基础的python字符、python语法等内容。

02.获取网页链接
在上图中，我们需要格外关注的是红色方格标注的链接，每个链接都会跳转到对应的子网页中，而在子网页中，就是我们想要保存的内容。

可以看到，上图中，在python速览子页面中，包含了我们需要提取的文字内容。所以将html内容保存为pdf的第一步便是获取到子页面的链接。由于教程大都是固定内容，因此对于教程的网页，大都采用的是静态页面，在网页源代码中可以很轻松地找到子页面的网页链接。

对于子网页的链接抓取，程序如图所示：

程序中，通过BeautifulSoup库来解析网页源代码，然后提取所有的子页面链接地址并返回，如果抓取失败，则直接返回None。
03.html转pdf
在得到子网页的链接后，接下来就是将html的子网页保存为pdf文件。小编使用的pdfkit库，pdfkit库可以将网页保存为pdf文档。首先小编来介绍一下pdfkit库的安装。
下载https://github.com/wkhtmltopdf/packaging/releases/download/0.12.6-1/wkhtmltox-0.12.6-1.mxe-cross-win64.7z 并解压到本地文件中。(后台输入：pdf) 直接获取。
将解压文件中的bin文件路径添加到系统变量Path中。
执行pip install pdfkit
执行pip install wkhtmltopdf
按照上述的操作流程，就可以安装pdfkit库。对于pdfkit库的使用，常见的用法有以下三种：

上面的程序主要完成以下几步：
首先需要指定wkhtmltopdf.exe文件的路径；
然后分别通过from_url、from_file和from_string的三种方式来保存为pdf文件；
需要注意的是，from_file和from_url中的第一个参数必须是一个html的字符串或者是html文档的列表；
但是小编通过程序运行发现，from_url第一个参数只能是html的字符串，不能是html的列表。
因此，pdfkit库只能将子网页保存为单独的pdf文档，无法直接通过pdfkit库将所有的子网页拼接成一个完整的pdf文档，小编通过PyPDF2库中的PdfFileMerger类来实现pdf文档的拼接。程序如下图所示。
程序中首先将所有的html网页保存为单独的pdf文档，然后通过PdfFileMerger类对象来实现pdf文档的拼接。最后就可以得到全部的pdf内容。最后我们通过视频的展示，来看一下程序的效果吧。
除此之外，程序不光可以抓取python3.9的中文文档，针对其他的在线文档，只需要对获取网页链接的程序进行修改即可抓取，例如对于Flask中文文档的抓取，程序只需要按照下图进行修改，即可将Flask的在线文档保存为PDF文档。