大佬救救小白吧 “# 需要被爬虫爬取的循环的元素”后面实在不会,老师也没讲,任务是自己选京东的书籍爬下给出的信息
import requests
from lxml import etree
# 请求头信息
headers = {"User-Agent": 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
movie=[]
# 循环模拟翻页操作
for i in range(1):
# 通过start位置起始处去查找当前页的书籍内容
movie_page_url='
https://list.jd.com/list.html?cat=1713,3272,3535&go=0'
# 使用url链接请求网页,并返回response对象
r=requests.get(movie_page_url,headers=headers)
# status_code为200时则获取网页成功
print('page %d status_code: %d' % (i+1, r.status_code))
print()
# 将response对象中返回的网页存到字符串
html_str=r.text
print(html_str)
# 将获取到的字符串转化为标准的HTML格式
html=etree.HTML(html_str)
# 需要被爬虫爬取的循环的元素
data=html.xpath('//*[@id="goodsList]/ul/li')
for info in data:
# 书籍封面链接
# 价格
# 评价数
# 来源店家