【图片】【爬虫】RS吧破千回复贴一览【滚动的天空吧】

05月12日漏签0天

滚动的天空吧关注：10,264贴子：968,429

1 2 下一页尾页
33回复贴，共2页
，跳到页

<返回滚动的天空吧

【爬虫】RS吧破千回复贴一览

只看楼主收藏回复

只找了最活跃的250多个（前面5页）中的破千

你说为什么没有顺序？抱歉，我也不知道

就这样了

送TA礼物

IP属地:重庆

1楼2022-02-26 11:40回复

@GeoSky

IP属地:重庆

2楼2022-02-26 11:41

HTML代码
<html><head>
<style>
table {background: grey}td{background: silver}
</style>
</head><body><table><tbody><tr><th>贴子</th><th>楼主</th><th>回复数</th><th>楼层数</th><th>发布时间</th></tr><tr><td>【联动贴游】The Legend of Rolling Sk</td><td>神秘的岛142857</td><td>79788</td><td>39512</td><td>2018-12-31 21:51</td></tr><tr><td>【堆文】脑洞聚集地</td><td>bparty✨</td><td>9372</td><td>1485</td><td>2020-02-14 18:55</td></tr><tr><td>[饭制地图]这次不会鸽了！！！！上次鸽了辣么久可能用MC奥利</td><td>Djwoa🍀</td><td>14020</td><td>5866</td><td>2020-03-12 13:31</td></tr><tr><td>【知识】关于滚动的天空关卡你可能不知道的知识</td><td>高温要灭🔥℃</td><td>3101</td><td>486</td><td>2020-06-30 08:37</td></tr><tr><td>【游戏】一句话评价楼上的图片</td><td>青焰小凤</td><td>15791</td><td>12348</td><td>2018-05-27 14:30</td></tr><tr><td>滚动的天空（Rolling Sky）官方水贴</td><td>RST龙帝</td><td>20319</td><td>22404</td><td>2017-02-25 23:15</td></tr><tr><td>【诈尸填坑】在植物大战僵尸里玩滚动的天空！</td><td>SuPrE_OnE</td><td>1535</td><td>744</td><td>2020-01-20 13:28</td></tr><tr><td>【娱乐性投票】第七届RS关卡BGM好听度投票</td><td>º许若言</td><td>1552</td><td>303</td><td>2022-01-15 17:56</td></tr><tr><td>【图楼】儿童画现场</td><td>尺旦坐飞机👯👯</td><td>3726</td><td>1065</td><td>2020-01-01 19:10</td></tr><tr><td>【图审】滚动的天空吧图审贴</td><td>白-慕泽º</td><td>1411</td><td>204</td><td>2020-02-05 00:00</td></tr><tr><td>【娱乐】如果RS有机票第二季</td><td>几何-星空</td><td>22016</td><td>8372</td><td>2020-02-17 20:58</td></tr><tr><td>【娱乐】如果RS有机票第三季</td><td>几何-星空</td><td>2259</td><td>694</td><td>2021-06-30 21:18</td></tr><tr><td>【娱乐性投票】第四届RS关卡BGM好听度投票（2020暑假）</td><td>º许若言</td><td>6396</td><td>1339</td><td>2020-07-30 14:46</td></tr><tr><td>【小游戏】条件猜关卡</td><td>º许若言</td><td>3898</td><td>760</td><td>2020-04-13 08:23</td></tr><tr><td>【拟人图】当RS关卡变成人形时。。。</td><td>迷蝶◆大小乔</td><td>5560</td><td>1631</td><td>2017-09-25 20:42</td></tr><tr><td>[娱乐]谎话的地界</td><td>几何-星空</td><td>5470</td><td>4602</td><td>2018-02-05 13:25</td></tr><tr><td>【大型游戏】考察各个关卡……啊不，RS粉的多维能力</td><td>gumball2023</td><td>1300</td><td>218</td><td>2021-01-22 23:23</td></tr><tr><td>【投票】RS冠军联赛来袭！为你喜爱的关卡呐喊助威！</td><td>哈哈镜笑哈哈😜</td><td>23161</td><td>4595</td><td>2020-05-13 10:53</td></tr><tr><td>【萌新参考向】关卡通关顺序</td><td>几何-星空</td><td>3476</td><td>668</td><td>2018-06-23 15:46</td></tr><tr><td>【盘点】认真盘点滚动的天空每个关卡的特殊性！</td><td>爱笑的高峰负荷</td><td>1150</td><td>220</td><td>2018-09-22 13:20</td></tr><tr><td>滚动的天空你可能不知道的细节</td><td>贴吧用户_Q6NRQS3</td><td>1991</td><td>882</td><td>2017-01-06 21:02</td></tr></tbody></table></body></html>

IP属地:重庆

3楼2022-02-26 11:46

Python爬虫代码
from pyquery import pyquery
import requests
import json
import time
pq = pyquery.PyQuery
l = list()
tlist = list()
def get(start, end):
for i in range(start, end+1):
D = pq(requests.get("https://tieba.baidu.com/f", {"kw": "滚动的天空", "ie": "utf-8", "pn": 50 * i}).content)
print(D)
lis = D.find("#thread_list").find(".j_thread_list")
print(lis)
for e in lis:
data = json.loads(pq(e).attr("data-field"))
if data["reply_num"]>1000:
time.sleep(15)
l.append(data)
F = pq(requests.get("https://tieba.baidu.com" + pq(e).find("a.j_th_tit").attr("href")).content)
#print(len(ctt))
T = pq(requests.get("https://tieba.baidu.com" + pq(e).find("a.j_th_tit").attr("href") + "?pn=65535").content)
L1 = F.find(".l_post:first-child .post-tail-wrap > .tail-info:last-child")
lastPost = json.loads(T.find(".l_post").eq(-1).attr("data-field"))
print("last", lastPost)
tlist.append([
pq(e).find("a.j_th_tit").html(),
data["author_nickname"] or data["author_name"],
data["reply_num"],
lastPost["content"]["post_no"],
L1.html()
]);
print(pq(e).find("a.j_th_tit").html(), data["author_name"], data["author_nickname"], data["reply_num"])
time.sleep(60)
def quick_sort(data):
if len(data) >= 2: # 递归入口及出口
mid = data[len(data)//2] # 选取基准值，也可以选取第一个或最后一个元素
left, right = [], [] # 定义基准值左右两侧的列表
data.remove(mid) # 从原始数组中移除基准值
for each in data:
num = each[2]
if num <= mid[2]:
right.append(each)
else:
left.append(each)
return quick_sort(left) + [mid] + quick_sort(right)
else:
return data
trim = quick_sort(tlist)
print(trim)
D = pq("<html></html>")
T = pq("<table></table>").appendTo(pq("<body></body>").appendTo(D))
B = pq("<tbody></tbody>").appendTo(T)
heading = pq("<tr></tr>").appendTo(B)
for name in ("贴子楼主回复数楼层数发布时间").split(" "):
pq("<th></th>").html(name).appendTo(heading)
if __name__ == "__main__":
try:
get(0,4)
except:
pass
for line in trim:
tr = pq("<tr></tr>").appendTo(B)
for item in line:
pq("<td></td>").html(str(item)).appendTo(tr)
print(D)
with open("table.txt","w+") as file:
file.write(str(D))

IP属地:重庆

4楼2022-02-26 11:47

收起回复

哦，我知道了

我乱移动代码块导致快速排序在爬取之前就调用了

IP属地:重庆

5楼2022-02-26 11:52

支持！

IP属地:安徽

来自iPhone客户端6楼2022-02-26 15:53

收起回复

wow

IP属地:江苏

7楼2022-02-26 17:57

围观

IP属地:广东

来自iPhone客户端8楼2022-02-26 18:29

好了，这是最新的结果（Chrome浏览），一共爬了1500个贴，期间可能会有人挖坟导致重复缺漏，但问题不大，而且我也没看到挖坟

python、json、html源码我放在楼上了

IP属地:重庆

10楼2022-02-26 20:04

爬取中

IP属地:重庆

11楼2022-02-26 20:59

干了票大的，爬到3000

因为越往后破千帖越少，所以我更有信心不会被429

3000可就是整个吧的三分之一了

IP属地:重庆

12楼2022-02-26 21:07

IP属地:重庆

13楼2022-02-26 21:12

收起回复

链接: https://pan.baidu.com/s/1SC9CqiCt1X0xNy7qRhTPYA?pwd=3qmw 提取码: 3qmw 复制这段内容后打开百度网盘手机App，操作更方便哦

IP属地:重庆

14楼2022-02-26 21:17

@🍺棉花糖🍺 @JY💧 @gumball2023

IP属地:重庆

15楼2022-02-26 21:20

我爬的时候似乎发现了Jiayu的另一个号

IP属地:重庆

16楼2022-02-26 21:21

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

火爆开测more

1 2 下一页尾页
33回复贴，共2页
，跳到页

<返回滚动的天空吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

【爬虫】RS吧破千回复贴一览

登录百度账号

扫二维码下载贴吧客户端

火爆开测more