【图片】从零开始的爬虫（？v ？）【从零开始的异世界生活吧】

从零开始的异世界...吧关注：335,804贴子：2,108,866

7回复贴，共1页

从零开始的爬虫（？v ？）

这里是清扬无聊写的一些小玩意儿，纯粹当作打发时间用的，算是本吧的一个小话题吧。
以后会在这个贴子长期不定期更新一些爬虫相关的东西，自己就当作笔记，吧友们有空随意吐槽。
至于为什么开始决定写这个东西呢，有很大成分上算是打发时间吧，而且相关的知识网上论坛多的很，有兴趣的可以找找论坛学习一下，至于我的编程水平嘛，及格线以下吧，首先自学的时间有限，还有个人精力是不可能认真系统学习的

什么是爬虫？这个吧为什么要写这东西？
爬虫本质上讲大概就是一种收集数据技术的方式之一吧，平时百度搜索就是一种爬虫的形式。每次百度搜索的时候搜索栏下都会显示找到**约多少个，其实呢，这些信息都是用静态的方式存在百度的数据库中，每一条信息的右下角百度快照就是这个信息库，如果没有找到对应的信息，一般是没有提交百度收录的原因。由于百度的数据支撑，所以现在百度引擎基本可以满足大家的需求了。
那么数据一多问题就来了，怎么快速准确的获取相关信息呢，这部分就是爬虫的工作了。爬虫从搜索方面基本上可以分为两种（个人看法），从广度上和从深度上，广度上基本就是大范围获取相关信息，深度上就认为在确认范围后获取更准确可靠的信息了。这个贴子只考虑临时，所以范围自然小，只是获取很少的信息，并进行保存而已。
python爬虫现在应该是主流方式之一，首先入门门槛低，然后爬虫相关的语法也非常通俗易懂。其余语言当然也能实现这些效果，虽然有第三方库支持，但是实现还是有点麻烦。这里使用python2纯属练手了，虽然python2.7将会在2020年1月1日终止支持，毕竟还能用这么就，python2会了python3入手也容易。
至于为什么要写这个爬虫呢。很明显啊，打发时间啊

送TA礼物

IP属地:广东

1楼2018-08-08 22:46回复

以为今天就开始了吗？这是不可能的

，这东西更新的时候我肯定是想到啥就写啥，这层楼就先放个工具吧，python2安装文件百度一大堆，win系统推荐用msi文件就像这种

我就不信还有吧友用ubuntu玩贴吧

，那东西自带python自己研究去吧
另外有两个有用的东西Chrome版本的jsonview和xpath插件，等会放楼中楼里面，有爱的自己搞定吧。
就这些了，之后有空再写了。
最后周五更新第五章72，周末两天都没空。

IP属地:广东

2楼2018-08-08 22:55

不感兴趣

开通SVIP免广告

crx浏览器插件的使用，虽然是很久的技术了，附上gif图

IP属地:广东

来自Android客户端6楼2018-08-08 23:35

昨天装了两个插件，爬虫基础主要用xpath进行静态数据筛选比如图片显示那样
然后首先第一个问题，什么是静态数据呢？
当前网页显示的最终效果一般是静态数据。pc浏览器按一下f12可以进行查看，图二是效果。xpath就是用一套规则获取到了指定的信息，python就可以使用这套规则进行本地保存了。 xpath虽然好用但是我不知道python是不是原生自带，所以先介绍另一个东西--正则表达式。

IP属地:广东

来自Android客户端16楼2018-08-09 23:30

那么问题来了，什么是正则表达式呢？
详细历史自行百度哈，我只说一点，正则表达式的雏形在1951年就提出来了，现在几乎所以的电脑都支持正则表达式的搜索方法（可能具体的表现方式不一样），win系统文件管理右上角那个默认开启正则表达式搜索的，百度搜索也是通过这个方式查找关键词的，我经常用everything这东西找文件。^放最前面表示开头首字符，$放最后表示结尾字符，更精确的查找方式百度正则表达式菜鸟教程自学吧。
明天周五，承诺更新web的，然后周末两天有安排了，这个不一定更新。

IP属地:广东

来自Android客户端17楼2018-08-09 23:44

再附上两张gif图

IP属地:广东

来自Android客户端18楼2018-08-09 23:47

刚回来先想想要讲些啥。。。

IP属地:广东

19楼2018-08-13 23:30

今天暂时还是不讲python相关的，先讲讲User-Agent这东西吧。
所有的电子设备都有自己的识别号，这个User-Agent相当于浏览器的身份证，那么为什么有这个东西呢。
User-Agent和浏览器的历史息息相关，它第一次出现是再93年的web浏览器Mosaic，因为使用一种框架，所以才出现图片文字普及的浏览器，不过后来和IE大战消失了。但是注意User-Agent，如果还看到Mosaic/0.9，这个标识，那就是用的Mosaic框架了。
之后又出现了Mozilla/Version，这个应该很多人认识吧，火狐浏览器，从这个时候开始对User-Agent出现了一些新的规则Mozilla/Version [Language] (Platform; Encryption) 版本+语言+平台。所以通过User-Agent就能区分出客户用的是哪种平台的浏览器，现在大多数都是Mozilla/5.0，于是当你百度User-Agent的时候会看到这样的信息

这些都是用Mozilla和Opera开头的，所以这个Mozilla也被叫做内核，很奇怪吧，IE用的也是Mozilla

正所谓天下公司那么多，怎么可能都自己开发呢，换个皮肤不久好了吗

要问我中间又个Opera，出了个叛徒，至于为什么，可以自行百度，我只记得这东西和创始人又千丝万缕的关系。
这个东西和爬虫又有什么关系呢？你想想，自己搭个web服务器提供信息，然后别人随随便便就将整个页面全部拷贝走了，换成我都不同意，所以爬虫数量多的时候可以通过区分User-Agent的访问频率来判断，是人为的还是机器处理的，只要有很强的规律性，基本爬虫跑不了了，web服务器可能会暂时停止回复消息，甚至封锁ip。所以呢这个User-Agent也是预备工作之一，用的时候必须要配一个，否则User-Agent在默认情况下发送的头是User-Agent是python+版本号，这就像是准备爬虫了，对浏览器说，我是来爬虫的，一般情况下浏览器服务器二话不说给你一个400就完事了

，然后大家说拿不到信息，python不好用，python太难了，各种问题不断。
今天就这样，详细的浏览器发展史还是挺有意思的，仔细学学会发现这个世界原来如此残酷呢

IP属地:广东

20楼2018-08-14 00:16

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

7回复贴，共1页

<返回从零开始的...吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

从零开始的爬虫 （ ？v ？）

登录百度账号

扫二维码下载贴吧客户端

从零开始的爬虫（？v ？）