import re import requests url = requests.get("https://guoxue

import re
import requests
url = requests.get("https://guoxue.httpcn.com/book/sgyy/").text
# print(url)
regular = '<a target="_blank" href="(.*?)">第'
img = re.findall(regular,url)
t=1
for url in img:
s = "https:"+url
url2 = requests.get(s).text
# print(url2)
# regular2 = '<h1>(.*?)</h1>'
# regular2 = '<meta name="keyword" content="三国演义,(.*?)原文,拼音,注释,译文,赏析,罗贯中 ,国学经典,汉程国学">'
# img2 = re.findall(regular2,url2)
regular3 = "/><p>(.*?)且听下文分解。</p>"
img3 = re.findall(regular3,url2)[0].replace("</p><p>","")+"且听下文分解。"
print(img3)
# print(img2)
# url2 = requests.get(url).text
# print(url2)
# path = "C:\\Users\\Administrator\\Desktop\\tt.txt"
# with open(path, 'a') as f: # 使用 'a' 模式打开文件，以便将数据追加到文件末尾
# f.write(url + '\n') # 在每条数据后面添加换行符，以便每条数据占一行
print(t)
t+= 1

不感兴趣

开通SVIP免广告

看不懂

你想说啥

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

3回复贴，共1页

<<返回python吧

分享到:

日	一	二	三	四	五	六