Выкачать сайт целиком с помощью Wget и User-Agent

Запускаем команду на своём VPS сервере:

wget -r -k -l 7 -p -E -nc --user-agent="Mozilla/5.0 (Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36" http://www.w3schools.com/

В итоге получаем директорию с именем www.w3schools.com и с содержимым:

Скачать 1 страницу можно так:

wget -k -l1 -p -E -nc --user-agent="Mozilla/5.0 (Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36"  http://www.w3schools.com/

Не у всех есть VPS сервер, и вообще некоторые люди Linux в глаза не видели ни разу. В этом случае поможет программа HTTrack Website Copier

Скачать эту программу можно здесь: http://www.httrack.com/

Но не во всех случаях получится скачать сайт целиком. Дело в том, что администраторы сайтов не хотят, чтобы их сайты выкачивали и потом парсили, рерайтили и еще что-либо вытворяли с их интеллектуальной собственностью, по этой причине они запрещают ботам скачивать сайт полностью.

Еще одна причина, — усложнение сайтов. Многие сайты написаны так, что контент отображается динамически. Запрашивается через клиенский код или генерируется на клиенте полностью. В этом случае общедоступные средства вроде указанных выше не помогут. Необходимо будет писать парсер отдельно.

Такие дела

КОНЬЯКОВ.ру

IT

Выкачать сайт целиком с помощью Wget и User-Agent

Поиск по сайту

Нашли ошибку на сайте?

Метки

Рубрики

→

КОНЬЯКОВ.ру

IT

Выкачать сайт целиком с помощью Wget и User-Agent

30 ноября — День защиты информации

Как легко выучить арабский алфавит

Поиск по сайту

Нашли ошибку на сайте?

Метки

Рубрики

→