网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
09月03日漏签0天
python吧 关注:476,897贴子:1,974,492
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 8回复贴,共1页
<<返回python吧
>0< 加载中...

小白求助,关于requests.get()获取网页源码不全的问题

  • 只看楼主
  • 收藏

  • 回复
  • 123无敌剑客
  • 秀才
    3
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
刚学了用BeautifulSoup 模块解析 HTML,心血来潮,想抓取上证指数试试,毕竟上证又一次刷新新纪录,代码如下:
通过requests.get()获取网页,发现获得的网页源码比浏览器里少了一大堆东西,想抓的信息是一个也没。查阅了很多资料,给headers里加Cookie以及先存.txt后读取,均无果。请求大佬能帮我看看
下图依次为代码、requests.get()获取网页源码和浏览器中网页源码:




  • 123无敌剑客
  • 秀才
    3
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
整了一晚上,没整明白,气的睡不着


2025-09-03 22:49:24
广告
不感兴趣
开通SVIP免广告
  • 龙雀
  • 贡士
    6
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
说明这个网页有一部分的数据是使用JavaScript异步渲染的,建议使用selenium


  • 贴吧用户_6S5DXUM3J
  • 举人
    5
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
接口没找对,这种最可能是返回的是json数据,由js加载的


  • Root-A
  • 白丁
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
楼上说的对 顺便这种直接找json接口更方便处理


  • 贴吧用户_GDQVCt5
  • 白丁
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
有没有一种可能网站数据是JS动态刷新的,你抓的是静态页面


  • 123无敌剑客
  • 秀才
    3
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
明白了,这么操作确实抓的静态页面,感谢各位大佬捧场


  • 陈书剑
  • 举人
    5
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
小菜,现在大部分网页都是webpack,都在js 里面


2025-09-03 22:43:24
广告
不感兴趣
开通SVIP免广告
  • Dragon1573
  • 榜眼
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
自己去找一下Fetch/XHR就能找到数据接口了,格式都是JSON,JSONPath可以比较方便地定位你需要的元素



登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 8回复贴,共1页
<<返回python吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示