wget命令用来从指定的URL下载文件。wget非常稳定,它在带宽很窄的情况下和不稳定网络中有很强的适应性,如果是由于网络的原因下载失败,wget会不断的尝试,直到整个文件下载完毕。如果是服务器打断下载过程,它会再次联到服务器上从停止的地方继续下载。这对从那些限定了链接时间的服务器上下载大文件非常有用。
wget -r -p -np -k -E
http://www.xxx.com 抓取整站
wget -l 1 -p -np -k
http://www.xxx.com 抓取第一级
-r 递归抓取
-k 抓取之后修正链接,适合本地浏览
wget -m -e robots=off -k -E "http://www.abc.net/"
可以将全站下载以本地的当前工作目录,生成可访问、完整的镜像。
解释:
-m
//镜像,就是整站抓取-e
robots=off //忽略robots协议,强制、流氓抓取-k
//将绝对URL链接转换为本地相对URL-E
//将所有text/html文档以.html扩展名保存