回复：python爬虫入门系列贴　５行代码爬取豆瓣电影本周排行榜

现在访问192.99.71.91,我就能看到Django的示例页面

不感兴趣

开通SVIP免广告

没骗你吧？好了，看一眼能用就ctrl+c把服务器关掉。
然后，再建立一个app

所以，现在我有一个Django项目，叫python_spider, 它里面有个app叫web.

第二部分，编写爬虫。
工欲善其事，必先利其器。

当然了，现在我要想一个采集的目标，为了方便，我就选择segmentfault吧，这网站写博客不错，就是在海外上传图片有点慢。
这个爬虫，就像我访问一样，要分步骤来。我先看到segmentfault首页，然后发现里面有很多tags，每个tags下面，才是一个一个的问题的内容。

2.1 编写内容爬虫
首先，给爬虫建立个目录，在项目里面和app同级，然后把这个目录变成一个python的package

以后，这个目录就叫爬虫包了
在爬虫包里面建立一个spider.py用来装我的爬虫们

一个基本的爬虫，只需要下面几行代码：

然后呢，就可以玩玩我们的“爬虫”了。
进入python shell

看吧，我现在已经可以通过爬虫获取segmentfault的提问标题了。下一步，为了简化代码，我把标题，回答等等的属性都写为这个蜘蛛的属性。代码如下

然后，再把玩一下升级后的蜘蛛。

OK，现在我的蜘蛛玩起来更方便了。

2.2 编写分类爬虫
下面，我要写一个抓取标签页面的问题的爬虫。
代码如下，注意下面的代码是添加在已有代码下面的，和之前的最后一行之间要有两个空行

现在可以两个蜘蛛一起把玩了，就不贴出详细把玩过程了。。。

想做小偷站的，看到这里基本上就能搞出来了。套个模板加一个简单的脚本来接受和返回请求就行了。

第三部分，采集入库。
3.1 定义数据库（or model or schema）
为了入库，我需要在Django定义一个数据库的结构。（不说nosql和mongodb（也是一个nosql但是很像关系型）的事）
还记得那个名叫web的app么，里面有个叫models.py的文件，我现在就来编辑它。

不感兴趣

开通SVIP免广告

内容如下:

顶！

下载贴吧APP
看高清直播、视频！

分享到: