软件星级:4分
标签: 数据提取
SysNucleus WebHarvy 5破解版是一款优秀的网页数据提取工具,能够将网页中有用的数据全部提取出来,比如图片,支持以不同的格式保存。基本上所有的网站都支持,可进行关键字提取,更精准。
WebHarvy可以轻松地从网站提取文本,HTML,图像,URL和电子邮件,并以各种格式保存提取的内容。
难以置信的易于使用,可在数分钟内开始抓取数据
支持所有类型的网站。处理登录,表单提交等
从多个页面,类别和关键字中提取数据
内置调度程序,代理/ VPN支持,智能帮助等。
1、简易网页搜刮
WebHarvy的指向和点击界面使Web Scraping很容易。绝对不需要编写任何代码或脚本来刮取数据。您将使用WebHarvy的内置浏览器加载网站,并且可以通过单击鼠标来选择要提取的数据。就这么简单
2、智能模式检测
WebHarvy自动识别网页中出现的数据模式。因此,如果您需要从网页上抓取项目列表(名称,地址,电子邮件,价格等),则无需进行任何其他配置。如果数据重复,WebHarvy将自动对其进行刮擦。
3、保存到文件或数据库
您可以用多种格式保存从网站提取的数据。当前版本的WebHarvy Web搜寻软件允许您将提取的数据另存为Excel,XML,CSV,JSON或TSV文件。您也可以将抓取的数据导出到SQL数据库。
4、抓取多页
网站通常会在多个页面中显示诸如产品列表或搜索结果之类的数据。WebHarvy可以自动爬网并从多个页面提取数据。只需指出“加载下一页的链接”,WebHarvy Web Scraper就会自动从所有页面抓取数据
5、提交关键字
通过自动提交输入关键字列表以搜索表单来擦除数据。可以将任意数量的输入关键字提交到多个输入文本字段以执行搜索。可以从输入关键字所有组合的搜索结果中提取数据。
6、类别抓取
WebHarvy Web抓取工具使您可以从链接列表中抓取数据,这些链接会导致网站中出现类似的页面/列表。这使您可以使用单一配置在网站内抓取类别和子类别。
7、常用表达
WebHarvy允许您在网页的文本或HTML源上应用正则表达式(RegEx)并抓取匹配的部分。这项功能强大的技术可在您抓取数据时提供更大的灵活性。
8、图像提取
可以下载图像或提取图像URL。WebHarvy可以自动提取显示在电子商务网站产品详细信息页面中的多个图像
9、自动化浏览器任务
WebHarvy可以轻松配置为执行诸如单击链接,选择列表/下拉选项,向字段输入文本,滚动页面,打开弹出窗口等任务。