从零开始的异世界...吧 关注:335,804贴子:2,108,866
  • 7回复贴,共1

从零开始的爬虫 ( ?v ?)

取消只看楼主收藏回复

这里是清扬无聊写的一些小玩意儿,纯粹当作打发时间用的,算是本吧的一个小话题吧。
以后会在这个贴子长期不定期更新一些爬虫相关的东西,自己就当作笔记,吧友们有空随意吐槽。
至于为什么开始决定写这个东西呢,有很大成分上算是打发时间吧,而且相关的知识网上论坛多的很,有兴趣的可以找找论坛学习一下,至于我的编程水平嘛,及格线以下吧,首先自学的时间有限,还有个人精力是不可能认真系统学习的
什么是爬虫?这个吧为什么要写这东西?
爬虫本质上讲大概就是一种收集数据技术的方式之一吧,平时百度搜索就是一种爬虫的形式。每次百度搜索的时候搜索栏下都会显示找到**约多少个,其实呢,这些信息都是用静态的方式存在百度的数据库中,每一条信息的右下角百度快照就是这个信息库,如果没有找到对应的信息,一般是没有提交百度收录的原因。由于百度的数据支撑,所以现在百度引擎基本可以满足大家的需求了。
那么数据一多问题就来了,怎么快速准确的获取相关信息呢,这部分就是爬虫的工作了。爬虫从搜索方面基本上可以分为两种(个人看法),从广度上和从深度上,广度上基本就是大范围获取相关信息,深度上就认为在确认范围后获取更准确可靠的信息了。这个贴子只考虑临时,所以范围自然小,只是获取很少的信息,并进行保存而已。
python爬虫现在应该是主流方式之一,首先入门门槛低,然后爬虫相关的语法也非常通俗易懂。其余语言当然也能实现这些效果,虽然有第三方库支持,但是实现还是有点麻烦。这里使用python2纯属练手了,虽然python2.7将会在2020年1月1日终止支持,毕竟还能用这么就,python2会了python3入手也容易。
至于为什么要写这个爬虫呢。很明显啊,打发时间啊


IP属地:广东1楼2018-08-08 22:46回复
    以为今天就开始了吗? 这是不可能的,这东西更新的时候我肯定是想到啥就写啥,这层楼就先放个工具吧,python2安装文件百度一大堆,win系统推荐用msi文件就像这种

    我就不信还有吧友用ubuntu玩贴吧,那东西自带python自己研究去吧
    另外有两个有用的东西Chrome版本的jsonview和xpath插件,等会放楼中楼里面,有爱的自己搞定吧。
    就这些了,之后有空再写了。
    最后周五更新第五章72,周末两天都没空。


    IP属地:广东2楼2018-08-08 22:55
    回复(1)
      2025-12-27 14:52:43
      广告
      不感兴趣
      开通SVIP免广告
      crx浏览器插件的使用,虽然是很久的技术了,附上gif图


      IP属地:广东来自Android客户端6楼2018-08-08 23:35
      回复
        昨天装了两个插件,爬虫基础主要用xpath进行静态数据筛选比如图片显示那样
        然后首先第一个问题,什么是静态数据呢?
        当前网页显示的最终效果一般是静态数据。pc浏览器按一下f12可以进行查看,图二是效果。xpath就是用一套规则获取到了指定的信息,python就可以使用这套规则进行本地保存了。 xpath虽然好用但是我不知道python是不是原生自带,所以先介绍另一个东西--正则表达式。



        IP属地:广东来自Android客户端16楼2018-08-09 23:30
        回复
          那么问题来了,什么是正则表达式呢?
          详细历史自行百度哈,我只说一点,正则表达式的雏形在1951年就提出来了,现在几乎所以的电脑都支持正则表达式的搜索方法(可能具体的表现方式不一样),win系统文件管理右上角那个默认开启正则表达式搜索的,百度搜索也是通过这个方式查找关键词的,我经常用everything这东西找文件。^放最前面表示开头首字符,$放最后表示结尾字符,更精确的查找方式百度正则表达式菜鸟教程自学吧。
          明天周五,承诺更新web的,然后周末两天有安排了,这个不一定更新。


          IP属地:广东来自Android客户端17楼2018-08-09 23:44
          回复
            再附上两张gif图


            IP属地:广东来自Android客户端18楼2018-08-09 23:47
            回复
              刚回来先想想要讲些啥。。。


              IP属地:广东19楼2018-08-13 23:30
              回复
                今天暂时还是不讲python相关的,先讲讲User-Agent这东西吧。
                所有的电子设备都有自己的识别号,这个User-Agent相当于浏览器的身份证,那么为什么有这个东西呢。
                User-Agent和浏览器的历史息息相关,它第一次出现是再93年的web浏览器Mosaic,因为使用一种框架,所以才出现图片文字普及的浏览器,不过后来和IE大战消失了。但是注意User-Agent,如果还看到Mosaic/0.9,这个标识,那就是用的Mosaic框架了。
                之后又出现了Mozilla/Version,这个应该很多人认识吧,火狐浏览器,从这个时候开始对User-Agent出现了一些新的规则Mozilla/Version [Language] (Platform; Encryption) 版本+语言+平台。所以通过User-Agent就能区分出客户用的是哪种平台的浏览器,现在大多数都是Mozilla/5.0,于是当你百度User-Agent的时候会看到这样的信息


                这些都是用Mozilla和Opera开头的,所以这个Mozilla也被叫做内核,很奇怪吧,IE用的也是Mozilla
                正所谓天下公司那么多,怎么可能都自己开发呢,换个皮肤不久好了吗
                要问我中间又个Opera,出了个叛徒,至于为什么,可以自行百度,我只记得这东西和创始人又千丝万缕的关系。
                这个东西和爬虫又有什么关系呢?你想想,自己搭个web服务器提供信息,然后别人随随便便就将整个页面全部拷贝走了,换成我都不同意,所以爬虫数量多的时候可以通过区分User-Agent的访问频率来判断,是人为的还是机器处理的,只要有很强的规律性,基本爬虫跑不了了,web服务器可能会暂时停止回复消息,甚至封锁ip。所以呢这个User-Agent也是预备工作之一,用的时候必须要配一个,否则User-Agent在默认情况下发送的头是User-Agent是python+版本号,这就像是准备爬虫了,对浏览器说,我是来爬虫的,一般情况下浏览器服务器二话不说给你一个400就完事了,然后大家说拿不到信息,python不好用,python太难了,各种问题不断。
                今天就这样,详细的浏览器发展史还是挺有意思的,仔细学学会发现这个世界原来如此残酷呢


                IP属地:广东20楼2018-08-14 00:16
                回复