从零开始的异世界...吧 关注:335,803贴子:2,109,058

回复:从零开始的爬虫 ( ?v ?)

只看楼主收藏回复

昨天装了两个插件,爬虫基础主要用xpath进行静态数据筛选比如图片显示那样
然后首先第一个问题,什么是静态数据呢?
当前网页显示的最终效果一般是静态数据。pc浏览器按一下f12可以进行查看,图二是效果。xpath就是用一套规则获取到了指定的信息,python就可以使用这套规则进行本地保存了。 xpath虽然好用但是我不知道python是不是原生自带,所以先介绍另一个东西--正则表达式。



IP属地:广东来自Android客户端16楼2018-08-09 23:30
回复
    那么问题来了,什么是正则表达式呢?
    详细历史自行百度哈,我只说一点,正则表达式的雏形在1951年就提出来了,现在几乎所以的电脑都支持正则表达式的搜索方法(可能具体的表现方式不一样),win系统文件管理右上角那个默认开启正则表达式搜索的,百度搜索也是通过这个方式查找关键词的,我经常用everything这东西找文件。^放最前面表示开头首字符,$放最后表示结尾字符,更精确的查找方式百度正则表达式菜鸟教程自学吧。
    明天周五,承诺更新web的,然后周末两天有安排了,这个不一定更新。


    IP属地:广东来自Android客户端17楼2018-08-09 23:44
    回复
      2025-12-27 12:31:40
      广告
      不感兴趣
      开通SVIP免广告
      再附上两张gif图


      IP属地:广东来自Android客户端18楼2018-08-09 23:47
      回复
        刚回来先想想要讲些啥。。。


        IP属地:广东19楼2018-08-13 23:30
        回复
          今天暂时还是不讲python相关的,先讲讲User-Agent这东西吧。
          所有的电子设备都有自己的识别号,这个User-Agent相当于浏览器的身份证,那么为什么有这个东西呢。
          User-Agent和浏览器的历史息息相关,它第一次出现是再93年的web浏览器Mosaic,因为使用一种框架,所以才出现图片文字普及的浏览器,不过后来和IE大战消失了。但是注意User-Agent,如果还看到Mosaic/0.9,这个标识,那就是用的Mosaic框架了。
          之后又出现了Mozilla/Version,这个应该很多人认识吧,火狐浏览器,从这个时候开始对User-Agent出现了一些新的规则Mozilla/Version [Language] (Platform; Encryption) 版本+语言+平台。所以通过User-Agent就能区分出客户用的是哪种平台的浏览器,现在大多数都是Mozilla/5.0,于是当你百度User-Agent的时候会看到这样的信息


          这些都是用Mozilla和Opera开头的,所以这个Mozilla也被叫做内核,很奇怪吧,IE用的也是Mozilla
          正所谓天下公司那么多,怎么可能都自己开发呢,换个皮肤不久好了吗
          要问我中间又个Opera,出了个叛徒,至于为什么,可以自行百度,我只记得这东西和创始人又千丝万缕的关系。
          这个东西和爬虫又有什么关系呢?你想想,自己搭个web服务器提供信息,然后别人随随便便就将整个页面全部拷贝走了,换成我都不同意,所以爬虫数量多的时候可以通过区分User-Agent的访问频率来判断,是人为的还是机器处理的,只要有很强的规律性,基本爬虫跑不了了,web服务器可能会暂时停止回复消息,甚至封锁ip。所以呢这个User-Agent也是预备工作之一,用的时候必须要配一个,否则User-Agent在默认情况下发送的头是User-Agent是python+版本号,这就像是准备爬虫了,对浏览器说,我是来爬虫的,一般情况下浏览器服务器二话不说给你一个400就完事了,然后大家说拿不到信息,python不好用,python太难了,各种问题不断。
          今天就这样,详细的浏览器发展史还是挺有意思的,仔细学学会发现这个世界原来如此残酷呢


          IP属地:广东20楼2018-08-14 00:16
          回复
            CY


            IP属地:广西来自iPhone客户端22楼2022-03-18 00:32
            回复
              cy


              IP属地:重庆来自Android客户端23楼2022-09-09 20:05
              回复