今天暂时还是不讲python相关的,先讲讲User-Agent这东西吧。
所有的电子设备都有自己的识别号,这个User-Agent相当于浏览器的身份证,那么为什么有这个东西呢。
User-Agent和浏览器的历史息息相关,它第一次出现是再93年的web浏览器Mosaic,因为使用一种框架,所以才出现图片文字普及的浏览器,不过后来和IE大战消失了。但是注意User-Agent,如果还看到Mosaic/0.9,这个标识,那就是用的Mosaic框架了。
之后又出现了Mozilla/Version,这个应该很多人认识吧,火狐浏览器,从这个时候开始对User-Agent出现了一些新的规则Mozilla/Version [Language] (Platform; Encryption) 版本+语言+平台。所以通过User-Agent就能区分出客户用的是哪种平台的浏览器,现在大多数都是Mozilla/5.0,于是当你百度User-Agent的时候会看到这样的信息


这些都是用Mozilla和Opera开头的,所以这个Mozilla也被叫做内核,很奇怪吧,IE用的也是Mozilla

正所谓天下公司那么多,怎么可能都自己开发呢,换个皮肤不久好了吗

要问我中间又个Opera,出了个叛徒,至于为什么,可以自行百度,我只记得这东西和创始人又千丝万缕的关系。
这个东西和爬虫又有什么关系呢?你想想,自己搭个web服务器提供信息,然后别人随随便便就将整个页面全部拷贝走了,换成我都不同意,所以爬虫数量多的时候可以通过区分User-Agent的访问频率来判断,是人为的还是机器处理的,只要有很强的规律性,基本爬虫跑不了了,web服务器可能会暂时停止回复消息,甚至封锁ip。所以呢这个User-Agent也是预备工作之一,用的时候必须要配一个,否则User-Agent在默认情况下发送的头是User-Agent是python+版本号,这就像是准备爬虫了,对浏览器说,我是来爬虫的,一般情况下浏览器服务器二话不说给你一个400就完事了

,然后大家说拿不到信息,python不好用,python太难了,各种问题不断。
今天就这样,详细的浏览器发展史还是挺有意思的,仔细学学会发现这个世界原来如此残酷呢
