计算机科学

首页 > 计算机科学

HTTrack

HTTrack
HTTrack启动时的画面
开发者 Xavier Roche[1]
稳定版本
稳定版本
3.48-19
(2014年7月28日,​4年前​(2014-07-28[2]
编程语言 C语言
操作系统 Microsoft Windows, Mac OS X, GNU/Linux和FreeBSD
类型 离线浏览、网络爬虫
许可协议 GNU通用公共许可协议
网站 www.httrack.com
源代码库 github.com/xroche/httrack

HTTrack是一个自由、开源的网络爬虫以及离线浏览器。它的作者是Xavier Roche,在GNU通用公共许可协议(GPL)下发布。

用户可以通过HTTrack把互联网上的网站页面下载到本地计算机上。在默认设置下,HTTrack对网站页面的下载结果是按照原始站点相对链接的结构来组织的。用网页浏览器打开这个被下载下来的网站(也称作镜像)的页面,就可以离线浏览了。

HTTrack也能对已经镜像过的站点进行更新。或者是对中断了的工作断点续传。可以通过选项和过滤器(include/exclude)配置HTTrack的方方面面。它还集成有帮助系统。它有一个基本的命令行版本和两个GUI(为Windows设计的WinHTTrack和为Unix-like系统设计的WebHTTrack);命令行版本可以和Shell脚本(Shell script)以及cron联用。

HTTrack使用网络爬虫下载网站。对于有robots.txt的网站,如果不在程序运行时取消限制,默认设置下的程序不会把网站完全镜像。HTTrack能跟随基本的JavaScript,或者Applet、Flash中的链接,但是对于复杂的链接(使用函数和表达式创建的链接)或者服务器端的Image Map(Image Map英语Image Map)则无能为力。

目录

  • 1 安装与使用
  • 2 参见
  • 3 脚注
  • 4 外部链接

安装与使用

在许多Unix-like系统下,只需要用包管理工具安装httrack即可。例如Debian使用

sudo aptitude install httrack

一个使用例子:

httrack "http://www.all.net/" -O "/tmp/www.all.net" "+*.all.net/*" -v

它的意思是:以http://www.all.net/ 为起始URL,输出到/tmp/www.all.net文件夹,范围是www.all.net域名下的所有文件,并显示所有错误信息(verbose)。更详细的信息请看官网上的Users Guide[3]

参见

  • robots.txt
  • 离线浏览
  • 扒站

脚注

  1. ^ Credits: Greetings & authors
  2. ^ http://www.httrack.com/page/2/en/index.html
  3. ^ Httrack Users Guide

外部链接

  • 官方网站
  • YouTube上的Demonstration of WinHTTrack in use

上一篇:Arora
下一篇:MuPDF
相关推荐