咨询下R语言爬虫相关内容！求大神帮助！万分感激！

大神们，如果url是不规则的，找不到规律怎么批量爬网页呀！

不感兴趣

开通SVIP免广告

比如我的网页是一个目录的作用，导向不同的网页，真正要爬取的是各个导向后的网页的文字，具体应该怎么操作啊！导向后的网页的url都没有规律！

那是说你已经有所有的url了么？

1. 爬取目录下的每个链接地址保存在links。方法很简单，找到这个元素标签中的属性值: href，这里面包含的就是外部链接，也就是网页点击后导向的地址。 rvest包html_attr很容易解决。
2. 遍历links, 做一次常规的爬去。for() {...}
如果是ajax, 只能用Rselenium包，爬取X宝类。你的问题好像没涉及到这些。rvest 爬虫，百度搜索很多，CSDN和简书是比较靠谱的。

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

9回复贴，共1页

<<返回r语言吧

分享到:

日	一	二	三	四	五	六

咨询下R语言爬虫相关内容！求大神帮助！ 万分感激！

扫二维码下载贴吧客户端

咨询下R语言爬虫相关内容！求大神帮助！万分感激！