scrapy吧 关注:363贴子:556
  • 6回复贴,共1
Scrapy作为Python最有名的框架, 我专注与爬虫好几年了, 大家有什么 问题 可以发给我


1楼2018-10-09 13:25回复
    我目前需要爬取一些网页上的指标,其中有一个是判断网页中是否有robots.txt文件,这个指标我的判断的方法是访问’http://www.baidu.com/robots.txt‘,根据其response.code判断,但是我想把这个指标和其他指标放到一个item里,请问应该怎么做。
    我本想用yield scrapy.request(‘http://www.baidu.com/robots.txt’)来操作,但是获取不到其返回值,而且yield和return不能同时存在,望各位大佬解答一下,万分感激。
    鄙人QQ642026725,欢迎各位大佬指导,萌新不胜感激


    IP属地:江苏2楼2018-10-12 15:20
    回复
      2026-02-11 11:26:40
      广告
      不感兴趣
      开通SVIP免广告
      我爬取下来了网页的所有内容,但是怎样解析获取body中的所有文本内容呢?


      IP属地:江苏4楼2018-10-17 16:58
      回复(3)
        师兄,我想问一下怎样实现增量式爬虫呀,就是定时爬取,自动去重


        6楼2018-11-09 14:57
        回复