Site Tools


wget
-r рекурсивно
-l уровень вложенности

-A jpg,avi - тип файлов для скачивания. Указывается через запятую
-nc (--no-clobber) Если повторно скачивать, то существующие файлы не будут заменены.
--no-parent Не подниматься выше по иерархии каталогов
-P скачивать в определенную директорию
--content-disposition корректная обработка filename, location и т.д. в headers

Просмотр заголовков

wget -O /dev/null -S http://google.com

FTP

wget -r -l0 ftp://login:password@mysite.ru:/Mydir/

указание заголовка

wget -O- --header="host: yulia-antalya.com" http://85.249.230.108/robots.txt

Исключить директории при рекурсивном скачивание

Удаление одной директории из задачи на скачиваине

wget -r -l0 -X/dev/public_html/images/art ftp://user@server/dev/public_html/images

Удаление нескольких директорий из задачи на скачиваине

wget -r -l0 -X/dev/public_html/images/art,/dev/public_html/images/konkurs ftp://user@server/dev/public_html/images

Готовые примеры

Проход по сайту с useragent YandexDirect и логирование кода ответа в файл
wget -r -l0 --spider --user-agent="Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots)" http://site.ru 2>&1 | grep "HTTP request sent\|http://" >> site.ru.log

Discussion

Constantin Conovaloff, 2016/04/01 16:34

Полная выкачка сайта

Обратите внимание, статические файлы, такие как изображения, хранятся на отдельном домене (в данном случае это amazonaws.com)

wget -r -l0 --span-hosts --domains="site.com.s3.amazonaws.com,site.com" \
     -e robots=off \
     --page-requisites \ 
     --no-clobber  \ 
     --user-agent='Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1' \
     http://site.com/

Где:

  • -r -l0 рекурсивно и безлимитно внутрь
  • –span-hosts позволяет заодно скачивать и с других доменов которые перечислены в –domains
  • –domains=“site.com.s3.amazonaws.com,site.com” через запятую перечислены хосты контент которых нужно сохранять (если статика на другом домене, например)
  • -e robots=off не следовать правилам в robots.txt, ведь там только запреты, на которые мы плевать хотели.
  • –page-requisites скачивать весь контент (статику) которые понадобятся для отображения страницы.
  • –no-clobber Если такой файл уже существует, то не пересоздавать его. (Для повторного запуска и не скачивать одно и тоже по несколько раз)
  • –user-agent Мы же хотим выглядеть валидным пользователем.
Constantin Conovaloff, 2016/05/04 16:13

Как усложнить выкачивание wget-ом?

№1 Иметь конфликтующие страницы:

site.com/3
site.com/3/property

В этом случае, после скачивания site.com/3 мы будем иметь файл “3” с html, но после скачивания site.com/3/property этот файл будет удален и на его месте появится директория.

№2 не иметь страницы site.com/3/ или site.com/3.html, а иметь только site.com/3
Это скачает файл “3” который по умолчанию будет отдаваться с content-type не html, а просто файла.

You could leave a comment if you were logged in.
wget.txt · Last modified: 2013/11/21 18:15 by conovaloff

Page Tools