滚动的天空吧 关注:10,264贴子:968,429

【爬虫】RS吧破千回复贴一览

只看楼主收藏回复

只找了最活跃的250多个(前面5页)中的破千

你说为什么没有顺序?抱歉,我也不知道就这样了


IP属地:重庆1楼2022-02-26 11:40回复
    @GeoSky


    IP属地:重庆2楼2022-02-26 11:41
    回复
      2025-05-12 13:11:04
      广告
      HTML代码
      <html><head>
      <style>
      table {background: grey}td{background: silver}
      </style>
      </head><body><table><tbody><tr><th>贴子</th><th>楼主</th><th>回复数</th><th>楼层数</th><th>发布时间</th></tr><tr><td>【联动贴游】The Legend of Rolling Sk</td><td>神秘的岛142857</td><td>79788</td><td>39512</td><td>2018-12-31 21:51</td></tr><tr><td>【堆文】脑洞聚集地</td><td>bparty✨</td><td>9372</td><td>1485</td><td>2020-02-14 18:55</td></tr><tr><td>[饭制地图]这次不会鸽了!!!!上次鸽了辣么久可能用MC奥利</td><td>Djwoa🍀</td><td>14020</td><td>5866</td><td>2020-03-12 13:31</td></tr><tr><td>【知识】关于滚动的天空关卡你可能不知道的知识</td><td>高温要灭🔥℃</td><td>3101</td><td>486</td><td>2020-06-30 08:37</td></tr><tr><td>【游戏】一句话评价楼上的图片</td><td>青焰小凤</td><td>15791</td><td>12348</td><td>2018-05-27 14:30</td></tr><tr><td>滚动的天空(Rolling Sky)官方水贴</td><td>RST龙帝</td><td>20319</td><td>22404</td><td>2017-02-25 23:15</td></tr><tr><td>【诈尸填坑】在植物大战僵尸里玩滚动的天空!</td><td>SuPrE_OnE</td><td>1535</td><td>744</td><td>2020-01-20 13:28</td></tr><tr><td>【娱乐性投票】第七届RS关卡BGM好听度投票</td><td>º许若言</td><td>1552</td><td>303</td><td>2022-01-15 17:56</td></tr><tr><td>【图楼】儿童画现场</td><td>尺旦坐飞机👯👯</td><td>3726</td><td>1065</td><td>2020-01-01 19:10</td></tr><tr><td>【图审】滚动的天空吧图审贴</td><td>白-慕泽º</td><td>1411</td><td>204</td><td>2020-02-05 00:00</td></tr><tr><td>【娱乐】如果RS有机票 第二季</td><td>几何-星空</td><td>22016</td><td>8372</td><td>2020-02-17 20:58</td></tr><tr><td>【娱乐】如果RS有机票 第三季</td><td>几何-星空</td><td>2259</td><td>694</td><td>2021-06-30 21:18</td></tr><tr><td>【娱乐性投票】第四届RS关卡BGM好听度投票(2020暑假)</td><td>º许若言</td><td>6396</td><td>1339</td><td>2020-07-30 14:46</td></tr><tr><td>【小游戏】条件猜关卡</td><td>º许若言</td><td>3898</td><td>760</td><td>2020-04-13 08:23</td></tr><tr><td>【拟人图】当RS关卡变成人形时。。。</td><td>迷蝶◆大小乔</td><td>5560</td><td>1631</td><td>2017-09-25 20:42</td></tr><tr><td>[娱乐]谎话的地界</td><td>几何-星空</td><td>5470</td><td>4602</td><td>2018-02-05 13:25</td></tr><tr><td>【大型游戏】考察各个关卡……啊不,RS粉的多维能力</td><td>gumball2023</td><td>1300</td><td>218</td><td>2021-01-22 23:23</td></tr><tr><td>【投票】RS冠军联赛来袭!为你喜爱的关卡呐喊助威!</td><td>哈哈镜笑哈哈😜</td><td>23161</td><td>4595</td><td>2020-05-13 10:53</td></tr><tr><td>【萌新参考向】关卡通关顺序</td><td>几何-星空</td><td>3476</td><td>668</td><td>2018-06-23 15:46</td></tr><tr><td>【盘点】认真盘点滚动的天空每个关卡的特殊性!</td><td>爱笑的高峰负荷</td><td>1150</td><td>220</td><td>2018-09-22 13:20</td></tr><tr><td>滚动的天空你可能不知道的细节</td><td>贴吧用户_Q6NRQS3</td><td>1991</td><td>882</td><td>2017-01-06 21:02</td></tr></tbody></table></body></html>


      IP属地:重庆3楼2022-02-26 11:46
      回复
        Python爬虫代码
        from pyquery import pyquery
        import requests
        import json
        import time
        pq = pyquery.PyQuery
        l = list()
        tlist = list()
        def get(start, end):
        for i in range(start, end+1):
        D = pq(requests.get("https://tieba.baidu.com/f", {"kw": "滚动的天空", "ie": "utf-8", "pn": 50 * i}).content)
        print(D)
        lis = D.find("#thread_list").find(".j_thread_list")
        print(lis)
        for e in lis:
        data = json.loads(pq(e).attr("data-field"))
        if data["reply_num"]>1000:
        time.sleep(15)
        l.append(data)
        F = pq(requests.get("https://tieba.baidu.com" + pq(e).find("a.j_th_tit").attr("href")).content)
        #print(len(ctt))
        T = pq(requests.get("https://tieba.baidu.com" + pq(e).find("a.j_th_tit").attr("href") + "?pn=65535").content)
        L1 = F.find(".l_post:first-child .post-tail-wrap > .tail-info:last-child")
        lastPost = json.loads(T.find(".l_post").eq(-1).attr("data-field"))
        print("last", lastPost)
        tlist.append([
        pq(e).find("a.j_th_tit").html(),
        data["author_nickname"] or data["author_name"],
        data["reply_num"],
        lastPost["content"]["post_no"],
        L1.html()
        ]);
        print(pq(e).find("a.j_th_tit").html(), data["author_name"], data["author_nickname"], data["reply_num"])
        time.sleep(60)
        def quick_sort(data):
        if len(data) >= 2: # 递归入口及出口
        mid = data[len(data)//2] # 选取基准值,也可以选取第一个或最后一个元素
        left, right = [], [] # 定义基准值左右两侧的列表
        data.remove(mid) # 从原始数组中移除基准值
        for each in data:
        num = each[2]
        if num <= mid[2]:
        right.append(each)
        else:
        left.append(each)
        return quick_sort(left) + [mid] + quick_sort(right)
        else:
        return data
        trim = quick_sort(tlist)
        print(trim)
        D = pq("<html></html>")
        T = pq("<table></table>").appendTo(pq("<body></body>").appendTo(D))
        B = pq("<tbody></tbody>").appendTo(T)
        heading = pq("<tr></tr>").appendTo(B)
        for name in ("贴子 楼主 回复数 楼层数 发布时间").split(" "):
        pq("<th></th>").html(name).appendTo(heading)
        if __name__ == "__main__":
        try:
        get(0,4)
        except:
        pass
        for line in trim:
        tr = pq("<tr></tr>").appendTo(B)
        for item in line:
        pq("<td></td>").html(str(item)).appendTo(tr)
        print(D)
        with open("table.txt","w+") as file:
        file.write(str(D))


        IP属地:重庆4楼2022-02-26 11:47
        收起回复
          哦,我知道了我乱移动代码块导致快速排序在爬取之前就调用了


          IP属地:重庆5楼2022-02-26 11:52
          回复
            支持!


            IP属地:安徽来自iPhone客户端6楼2022-02-26 15:53
            收起回复
              wow


              IP属地:江苏7楼2022-02-26 17:57
              回复
                围观


                IP属地:广东来自iPhone客户端8楼2022-02-26 18:29
                回复
                  2025-05-12 13:05:04
                  广告
                  好了,这是最新的结果(Chrome浏览),一共爬了1500个贴,期间可能会有人挖坟导致重复缺漏,但问题不大,而且我也没看到挖坟python、json、html源码我放在楼上了


                  IP属地:重庆10楼2022-02-26 20:04
                  回复
                    爬取中


                    IP属地:重庆11楼2022-02-26 20:59
                    回复
                      干 了 票 大 的,爬到3000
                      因为越往后破千帖越少,所以我更有信心不会被429
                      3000可就是整个吧的三分之一了


                      IP属地:重庆12楼2022-02-26 21:07
                      回复


                        IP属地:重庆13楼2022-02-26 21:12
                        收起回复
                          链接: https://pan.baidu.com/s/1SC9CqiCt1X0xNy7qRhTPYA?pwd=3qmw 提取码: 3qmw 复制这段内容后打开百度网盘手机App,操作更方便哦


                          IP属地:重庆14楼2022-02-26 21:17
                          回复
                            @🍺棉花糖🍺 @JY💧 @gumball2023


                            IP属地:重庆15楼2022-02-26 21:20
                            回复
                              2025-05-12 12:59:04
                              广告
                              我爬的时候似乎发现了Jiayu的另一个号


                              IP属地:重庆16楼2022-02-26 21:21
                              回复