网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
08月19日漏签0天
网页吧 关注:117,035贴子:181,825
  • 看贴

  • 图片

  • 吧主推荐

  • 游戏

  • 10回复贴,共1页
<<返回网页吧
>0< 加载中...

网页表格数据采集助手

  • 只看楼主
  • 收藏

  • 回复
  • 宝宝阳光
  • 中级粉丝
    2
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
搞网上信息采集工作,最头疼的便是从网页上一次次很枯燥地进行数据表格的复制,而且在复制过来之后还要进行很多修改,不但麻烦而且也很浪费时间,工作效率大打折扣。这时我们不妨用功能强大的Excel来试着解决一下问题。
对于比较规范的表格数据,我们完全可以在表格页面上点击右键,选择"导出到Microsoft Office
Excel",此时系统会自动打开Office
Excel,进行数据加载。这个过程仅需要几秒钟就把数据加载进来。如果你认为数据比较适合你的编辑要求,那么就可以直接保存了。
但是如果你要网页上的表格复制下来还是保存为文本格式,或者一次性同时采集某个网站上连续多个页面甚至是几百几千个页面的网页表格,那一次次用EXCEL软件相信对你来说也是一场恶梦,故此,本人最近开发设计了网页表格数据采集助手软件。

支持网址链接的采集

支持仅采集指定的字段,支持批量采集
该软件可连续或定时不断的采集指定网站上前后关联的标准二维表,而且操作也非常简单方便。
网页表格数据采集步骤:
1、首先在地址栏输入待采集的网页地址
2、再点击抓取测试按钮,看看网页源码及该网页中所含的表格数量,网页源码在软件下面的文本框中显示,网页中所含的表格数及表头信息在软件左上角列表框中显示。
3、请从表格数列表中选择你要抓取的表格,此时表格左上角第一格文字将显示在软件的表格左上角第一格内容输入框中,表格所含字段(列)将显示在软件左侧的中间列表中。
4、请选择你要采集的表格数据的字段(列),如果不选择,将全部采集。
5、选择你是否要抓取表格的表头行,保存时是否显示表格线,如果网页表格中有字段有链接,你可以选择是否包含链接地址,如果有且要采集其链接地址,那么你不能同时选择包含表头行。
6、如果你要采集的表格数据只有一个网页,那么你现在就可直接点击抓取表格抓取了,如果前面不选择包含表格线,表格数据将以CVS格式保存,此格式可用微软EXCEL软件直接打开转为EXCEL表格,如果前面选择包含表格线,表格数据将以TXT格式保存,可用记事本软件打开查看,直接具有表格线,也很清晰。
7、如果你要采集的表格数据有连续多个页面,并且你都想将其采集下来,那么,请再设置程序采集下一页及后续页面的方式,可以是根据链接名打开下页,链接名称几乎大部分页面都是“下一页”,你看页面,找到后输入即可,如果网页没有下一页链接,但是网址中包含页数,那么你也可选择根据网址中的页数打开,你可以选择从前到后,如从1页到10页,也可选择从后到前,如从10页到1页,在页数输入框中输入即可,但此时网址中代表页数的位置要用“(*)”代替,否则程序将不认识。
8、最后你再选择是定时采集或等待网页打开并加载结束后立即采集,定时采集是程序根据一个设定的很小的时间间隔去判断打开的页面中是否有你要的表格,有就采集,而网页加载后采集是只要是要采集的网页已经打开了,程序就会立即进行采集,两者各有特色,看需要选择。
9、最后,就是你点击一下抓取表格按钮,然后你就泡杯咖啡逍遥去吧!


  • 宝宝阳光
  • 中级粉丝
    2
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
最新版本重写了程序内核代码,功能更加强大,运行更加稳定,并且支持一些复杂表格数据的采集了,比如包含行单元格合并的表,列单元格合并的表,甚至是行列单元格一起合并的表的数据的采集了,同时对于同一页面中,多个格式相同的表,也可使用相同关键字一起采集,还支持自定义常用网址了。


2025-08-19 07:17:46
广告
不感兴趣
开通SVIP免广告
  • 宝宝阳光
  • 中级粉丝
    2
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
有需要的请联系旺旺:zjsybxp


  • 蓝若梦兮v
  • 核心吧友
    6
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
好软件,有空的时候研究一下!


  • wxyofchina
  • 活跃吧友
    5
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


  • 木材做的琴
  • 初级粉丝
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
能开发成支持采集的数据直接注入SQL里嘛?这样方便多了


  • 宝宝阳光
  • 中级粉丝
    2
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
非常感谢木材做的琴的建议,软件现在又升级改进一些了,但你说的功能要等以后才能实现了


  • sellfiberglass
  • 初级粉丝
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
收费吗?


2025-08-19 07:11:46
广告
不感兴趣
开通SVIP免广告
  • tec20002003
  • 初级粉丝
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
。。。搞了半天是来卖软件的


  • For数据分析
  • 初级粉丝
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
这软件感觉比较垂直化,只能采集简单的表格,对于有其他数据需求的用户,比如采集微博数据,电商数据就有点不足了,现在通用采集数据软件还是挺多的,像火车头、狂人、集搜客GooSeeker、八爪鱼都能处理,个人比较偏好集搜客GooSeeker吧,自学不花什么钱,而且技术回复挺及时的,当然,最终选择还是看个人偏好了。


  • 宝宝阳光
  • 中级粉丝
    2
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
这软件主要是采集连续网页上的表格数据的,对于文章、小说、新闻、图片类的采集,我有另外的网文采集大师软件的,另外本人还开发了网页快照精灵,可以连续批量采集图片,还有网页填表大师,可以完成数据的网页提交


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 10回复贴,共1页
<<返回网页吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示