学完python后想受一些大牛启发想做个人群兴趣分析,因为贴吧好爬取并且复杂度低所以选了贴吧,这个工程本来目标是计划爬取几个贴吧的人所关注的吧通过回归分析来确定两个话题关注人群是否重合,但是有些事后知后觉,比如反爬虫和dns解析导致的卡死,正则表达式二重转换,贴吧的大量机器人,隐藏足迹,水军判断(。﹏。*),还有我之前不知道可以没有等级,超过15级。。。。。( _ _)ノ|一言蔽之:改bug改到死。。。。
所以很多想法得等到第三版了,比如最重要的人群重合分析。
所以很多想法得等到第三版了,比如最重要的人群重合分析。