网页数据采集软件-火车采集器下载v9.9-领航下载站

领航下载站 / 汇聚当下最新最酷的软件下载站！

最新更新| 软件分类| 资讯教程| 标签大全| 专题合集|

您的位置：首页 >软件频道 > 应用软件 > 文件处理 > 火车采集器

火车采集器 v9.9 / 网页数据采集软件

软件大小：29.83MB
软件语言：中文
软件类型：国产软件
软件授权：免费版
更新时间：2019-07-05
软件类别：文件处理
软件官网：//www.locoy.com/
应用平台：WinXP/Vista/Win7/Win8

软件星级：4分

下载地址收藏该页

好评: % （）差评: % ()

本类推荐

本地立即下载

软件大小：29.83MB

标签：数据采集

火车采集器是一款出色的网页数据采集软件。它能够识别很多的系统，不仅速度快而且十分安全。即使人不在电脑旁，它也能自动执行采集工作，很人性化。采集的内容和数量没有任何限制。

火车采集器

火车采集器是什么

火车采集器是一款专业的互联网数据抓取、处理、分析，挖掘软件，可以灵活迅速地抓取网页上散乱分布的数据信息，并通过一系列的分析处理，准确挖掘出所需数据。火车采集器历经十二年的升级更新，积累了大量用户和良好口碑，是目前最受欢迎的网页数据采集软件。

功能特点

1、多线程高速并行采集系统

任务分配至多个客户端，同时运行采集，效率倍增。

2、多识别系统

配备正文识别、中文分词识别、任意编码识别等多种识别系统，智能识别操作更轻松。

3、可选验证方式

可选择是否使用加密狗，随时保障数据安全。

4、全自动运行

无需人工值守操作，任务完成后自动关机

5、替换功能

同义，近义词替换、参数替换，伪原创必备技能。

6、任意文件格式下载

图片、压缩文件、视频等任意格式的文件都能轻松下载。

7、支持多数据库

支持Access/MySQL/MsSQL/Sqlite/Oracle多种类型的数据库保存及发布。

8、无限级多页采集

支持包含ajax请求数据在内的多个页面信息的无限级采集。

火车采集器的插件如何用

采集器提供了插件机制，来增强数据采集、数据处理的能力。目前插件按照功能分为3种：HTTP请求插件、内容数据插件、文件下载插件，下面介绍下C#源码类型的插件。

HTTP请求插件

可以修改HTTP请求前的请求数据(http header)和HTTP完成后的返回数据(response)，这个插件包含了2个处理方法。

BeforeRequest(RequestEntry request)

这个方法会在所有HTTP请求前的调用，包括网址采集、内容采集请求，可以通过修改请求来应对一些复杂的网站抓取。

参数介绍：

request 参数中包含Url、Referer、Cookie、Headers、页面类型等,除HTTP基本属性外，还有包含一些特殊值

request.Properties["PageType"]，这个属性是页面类型，值为整数类型，包含6种类型

0：起始地址; 1：列表页面; 2：列表页的分页; 3：内容页面; 4：关联多页; 5：内容页的分页;

request.Properties["JobName"]，任务名称

request.Properties["JobID"]，任务ID

request.Properties 属性最好只做读取操作，不要修改，不然会造成无法预料的结果。其他的RequestEntry字段请参考 [文章最后]

AfterResponse(ResponseEntry response)

这个方法在所有HTTP请求完成后调用，可以修改为自己想要的数据，然后交给采集器来处理。

参数介绍：

response中包含HTTP响应数据，如返回HTML、响应Header

response.RawText`，是返回的HTML代码

response.Url`，请求的Url地址

和 request 一样，response 也包含了 response.Properties["PageType"]、request.Properties["JobName"]、request.Properties["JobID"]，含义相同。

其他的ResponseEntry字段请参考 [文章最后]

示例插件代码：

火车采集器

火车采集器使用教程

网址采集规则

采集规则制作的第一步骤，点击向导添加，①➯②，出现如图界面。

分3种方式：普通网址，批量网址，文本导入。

火车采集器

a.普通网址：以一行一个的形式直接加入网址，不做任何解析。

b.批量网址：以通用的表达式批量生成网址。

c.文本导入：以文本导入的形式，文本为一行一个的网址。

获取内容网址

[常规模式]a.自动获取地址链接

自动获取地址链接:自动获取该级列表页中所有的a标签内的URL链接

火车采集器

更新内容

1、优化效率修复运行大量任务时运行卡顿问题

2、修复大量代理时配置文件锁死程序退出问题

3、修复部分情况下mysql链接不上问题

4、修复极少云规则规则显示不了的问题

5、修复ie版本号显示不正常的问题

6、修复多页处理&问题

7、搜索增加按任务id搜索功能

8、修复下载文件filename*=的bug处理

9、其它界面和功能优化

下载地址

火车采集器下载

猜你喜欢

排行榜

回顶部去下载