Web 爬网程序是一个程序,它通过下载页面并跟踪页面链接来自动遍历 Web。Web 爬网程序的一般用途是下载任何可以通过链接访问的网站。 此过程称为网络爬网或蜘蛛。许多网站,特别是搜索引擎,使用蜘蛛作为提供最新数据的手段。Web 爬网程序主要用于创建所有访问的页面的副本,供搜索引擎以后处理,搜索引擎将索引下载的页面以提供快速搜索。爬网程序还可用于自动执行网站上的维护任务,例如检查链接或验证 HTML 代码。此外,爬网程序还可用于从网页中收集特定类型的信息,例如收集电子邮件地址(通常针对垃圾邮件)。 Web 爬网程序是一种类型的自动程序或软件代理。通常,它从要访问的 URL 列表开始,称为种子。当爬网程序访问这些 URL 时,它会标识页面中的所有超链接,并将其添加到要访问的 URL 列表中,称为爬网边界。根据一组策略,从边界的 URL 递归访问。
版本历史记录
- 版本 3.19 发布于 2012-01-15
首次公开发布
软件信息
- 软件分类: 系统实用程序 > 自动化工具
- 发布者: VietSpider
- 许可: 免费
- 价格: N/A
- 版本: 3.19
- 适用平台: windows