python学习吧 关注:15,755贴子:76,062
  • 2回复贴,共1

关于tml转pdf的实际操作问题

只看楼主收藏回复

今天跟大家分享一下如何用Python把html资料变成pdf
01.抓取的学习资料
如今网上的在线学习资料可谓是多如牛毛,为了方便讲解,我就利用python3.9.2的中文文档作为演示的例子,来将其抓取并保存到本地,其网页链接如下:
https://docs.python.org/zh-cn/3.9/tutorial/index.html
打开上述链接后,大家会在网页中找到不同内容的链接地址,包括了基础的python字符、python语法等内容。

02.获取网页链接
在上图中,我们需要格外关注的是红色方格标注的链接,每个链接都会跳转到对应的子网页中,而在子网页中,就是我们想要保存的内容。

可以看到,上图中,在python速览子页面中,包含了我们需要提取的文字内容。所以将html内容保存为pdf的第一步便是获取到子页面的链接。由于教程大都是固定内容,因此对于教程的网页,大都采用的是静态页面,在网页源代码中可以很轻松地找到子页面的网页链接。

对于子网页的链接抓取,程序如图所示:

程序中,通过BeautifulSoup库来解析网页源代码,然后提取所有的子页面链接地址并返回,如果抓取失败,则直接返回None。
03.html转pdf
在得到子网页的链接后,接下来就是将html的子网页保存为pdf文件。小编使用的pdfkit库,pdfkit库可以将网页保存为pdf文档。首先小编来介绍一下pdfkit库的安装。
下载https://github.com/wkhtmltopdf/packaging/releases/download/0.12.6-1/wkhtmltox-0.12.6-1.mxe-cross-win64.7z 并解压到本地文件中。(后台输入:pdf) 直接获取。
将解压文件中的bin文件路径添加到系统变量Path中。
执行pip install pdfkit
执行pip install wkhtmltopdf
按照上述的操作流程,就可以安装pdfkit库。对于pdfkit库的使用,常见的用法有以下三种:

上面的程序主要完成以下几步:
首先需要指定wkhtmltopdf.exe文件的路径;
然后分别通过from_url、from_file和from_string的三种方式来保存为pdf文件;
需要注意的是,from_file和from_url中的第一个参数必须是一个html的字符串或者是html文档的列表;
但是小编通过程序运行发现,from_url第一个参数只能是html的字符串,不能是html的列表。
因此,pdfkit库只能将子网页保存为单独的pdf文档,无法直接通过pdfkit库将所有的子网页拼接成一个完整的pdf文档,小编通过PyPDF2库中的PdfFileMerger类来实现pdf文档的拼接。程序如下图所示。
程序中首先将所有的html网页保存为单独的pdf文档,然后通过PdfFileMerger类对象来实现pdf文档的拼接。最后就可以得到全部的pdf内容。最后我们通过视频的展示,来看一下程序的效果吧。
除此之外,程序不光可以抓取python3.9的中文文档,针对其他的在线文档,只需要对获取网页链接的程序进行修改即可抓取,例如对于Flask中文文档的抓取,程序只需要按照下图进行修改,即可将Flask的在线文档保存为PDF文档。


04.总结
学习Python其实非常有趣,也很有用。因为Python有大量的现成的库,可以帮助我们把工作中的很多琐碎的烦事轻松解决。
建议大家学习起来哦~


1楼2021-03-09 23:59回复


    来自Android客户端2楼2021-03-10 13:45
    回复
      2025-12-19 15:22:47
      广告
      不感兴趣
      开通SVIP免广告


      3楼2021-03-10 16:26
      回复