-r рекурсивно -l уровень вложенности -A jpg,avi - тип файлов для скачивания. Указывается через запятую -nc (--no-clobber) Если повторно скачивать, то существующие файлы не будут заменены. --no-parent Не подниматься выше по иерархии каталогов -P скачивать в определенную директорию --content-disposition корректная обработка filename, location и т.д. в headers
wget -O /dev/null -S http://google.com
wget -r -l0 ftp://login:password@mysite.ru:/Mydir/
wget -O- --header="host: yulia-antalya.com" http://85.249.230.108/robots.txt
Удаление одной директории из задачи на скачиваине
wget -r -l0 -X/dev/public_html/images/art ftp://user@server/dev/public_html/images
Удаление нескольких директорий из задачи на скачиваине
wget -r -l0 -X/dev/public_html/images/art,/dev/public_html/images/konkurs ftp://user@server/dev/public_html/images
Проход по сайту с useragent YandexDirect и логирование кода ответа в файл wget -r -l0 --spider --user-agent="Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots)" http://site.ru 2>&1 | grep "HTTP request sent\|http://" >> site.ru.log
Discussion
Полная выкачка сайта
Обратите внимание, статические файлы, такие как изображения, хранятся на отдельном домене (в данном случае это amazonaws.com)
Где:
Как усложнить выкачивание wget-ом?
№1 Иметь конфликтующие страницы:
В этом случае, после скачивания site.com/3 мы будем иметь файл “3” с html, но после скачивания site.com/3/property этот файл будет удален и на его месте появится директория.
№2 не иметь страницы site.com/3/ или site.com/3.html, а иметь только site.com/3
Это скачает файл “3” который по умолчанию будет отдаваться с content-type не html, а просто файла.