网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
成为超级会员,使用一键签到
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
09月03日
漏签
0
天
python吧
关注:
476,897
贴子:
1,974,492
看贴
图片
吧主推荐
视频
游戏
8
回复贴,共
1
页
<<返回python吧
>0< 加载中...
小白求助,关于requests.get()获取网页源码不全的问题
只看楼主
收藏
回复
123无敌剑客
秀才
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
刚学了用BeautifulSoup 模块解析 HTML,心血来潮,想抓取上证指数试试
,毕竟上证又一次刷新新纪录,代码如下:
通过requests.get()获取网页,发现获得的网页源码比浏览器里少了一大堆东西,想抓的信息是一个也没。查阅了很多资料,给headers里加Cookie以及先存.txt后读取,均无果。请求大佬能帮我看看
下图依次为代码、requests.get()获取网页源码和浏览器中网页源码:
123无敌剑客
秀才
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
整了一晚上,没整明白,气的睡不着
2025-09-03 22:49:24
广告
不感兴趣
开通SVIP免广告
龙雀
贡士
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
说明这个网页有一部分的数据是使用JavaScript异步渲染的,建议使用selenium
贴吧用户_6S5DXUM3J
举人
5
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
接口没找对,这种最可能是返回的是json数据,由js加载的
Root-A
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
楼上说的对 顺便这种直接找json接口更方便处理
贴吧用户_GDQVCt5
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
有没有一种可能网站数据是JS动态刷新的,你抓的是静态页面
123无敌剑客
秀才
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
明白了,这么操作确实抓的静态页面,感谢各位大佬捧场
陈书剑
举人
5
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
小菜,现在大部分网页都是webpack,都在js 里面
2025-09-03 22:43:24
广告
不感兴趣
开通SVIP免广告
Dragon1573
榜眼
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
自己去找一下Fetch/XHR就能找到数据接口了,格式都是JSON,JSONPath可以比较方便地定位你需要的元素
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示