软件星级:4分
标签: 数据采集
网络神采共享版是一款免费的数据采集软件。它能够从各大网站上面下载所需要的数据,可以同时从不同的网页上下载。你可以设置时间,当时间到达时会自动进行采集任务。
网络神采是一款用于互联网数据采集的工具软件,用于快速采集、下载网页数据。操作简便、好用,采集速度快,共享版免费。
1、采集强度
支持JS解析、POST分页、模拟点击、跨层采集。对于疑难采集页面,有成熟的解决方案。
2、采集速度
支持多任务、多线程。多任务同时运行,每个任务支持多线程,确保运行效率。
3、规模化
支持任务多级分类、批量管理。支持分布式部署,支持团队协作。
4、流程化
支持定时采集,任务定时启动。通过插件开发,实现流程化的数据采集、数据分析与处理。
5、运行稳定
系统运行稳定,要求“0 bug”。
新闻采集是最常用的,也是最容易理解的,我们就拿一个简单的新闻采集任务作为入门示例。该任务有两层:“新闻列表”和“新闻内容”。我们将新闻列表作为“起始地址”,然后通过“导航规则”从“新闻列表”提取“新闻内容”的网址,最后根据“采集规则”采集所需内容。
在软件主窗口,单击菜单“任务”->“新建”,打开“任务编辑”对话框来创建一个任务。
第一步:任务概述
在“任务概述”中,我们只填写一个任务名称即可:郑州大学新闻信息。其它设置暂且不讨论,等您熟练以后再参考我们的帮助文档。
第二步:起始地址
起始地址就是我们要采集内容的入口地址,在这里是“新闻列表”://www3.zzu.edu.cn/msgs/vmsgisapi.dll/vmsglist?mtype=x&lan=202&tts=&tops=&pn={1,100}。
其中,“pn”是分页变量名,这个可以通过在浏览时“新闻列表”时对其进行翻页并观察得出。如果“pn=1”就表示第1页,“pn=2”表示第2页,以此类推。我们为“pn”指定一个变量值:{1,100},就表示将要采集1到100页。这种分页变量格式是我们软件定义的,可以通过点击“插入”按钮插入预置分页变量
第三步:导航规则
因为该任务有两层,所以需要建两条“导航规则”,分别命名为:“新闻列表”和“新闻内容”。我们需要从“新闻列表”提取“新闻内容”的网址,以实现导航。因此,设“新闻列表”为“中间层”,并填写“下一层网址模板”以提取网址。而“新闻内容”只需选中“最终页面”,然后保存即可。
第四步:采集规则
通过“导航规则”我们一路走到了“最终页面”,也就是“新闻内容”,接下来就需要根据“采集规则”采集所需内容了。如上图所示,一条“采集规则”对应一个数据库字段,也就是一种信息类型,如:标题、发布者、供稿人、内容等。“数据库字段”可以不填,默认为其规则名称。而“所属层次”为跨层采集功能,本示例用不到,保持默认即可。
第五步:采集结果
注意:
1、如果使用“前后标志”采集信息,必须与“网页源文件”中出现的顺序一致。
2、一条“采集规则”应用后,会将“采集内容”的尾部作为“当前位置”,然后从“当前位置”查找下一条“采集规则”的“信息前标志”。
3、如果选中了“全局规则”、“静态规则”,则再不受“当前位置”影响。
增加新功能:动态层
1、以支持解决验证码识别、表单输入等技术问题。
2、重构面板:扩展脚本 -> 扩展脚本与动态层
3、导航规则,增加选项:动态层标志(DynamicLayerFlag)
重构插件接口(IBget 5.2):
1、增加插件接口:使用插件设置输入参数(扩展脚本)
2、用于配合扩展脚本、动态层,增加插件与浏览器内核的交互能力。