Jak pobrać wszystkie pliki (ale nie HTML) ze strony internetowej za pomocą wget?

Jak korzystać z wget i pobrać wszystkie pliki ze strony?

Potrzebuję wszystkich plików z wyjątkiem plików strony internetowej, takich jak HTML, PHP, ASP itp.

Author: Amal Murali, 2012-01-06

9 answers

Aby filtrować dla określonych rozszerzeń plików:

wget -A pdf,jpg -m -p -E -k -K -np http://site/path/

Lub, jeśli wolisz długie nazwy opcji:

wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/

Spowoduje to odzwierciedlenie strony, ale Pliki bez rozszerzenia jpg lub pdf zostaną automatycznie usunięte.

 222
Author: Zsolt Botykai,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2017-11-17 16:54:39

To ściągnęło całą stronę dla mnie:

wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/
 73
Author: izilotti,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-11-29 07:02:10
wget -m -p -E -k -K -np http://site/path/

strona man powie Ci, do czego służą te opcje.

wget będzie podążać tylko za linkami, jeśli nie ma linku do pliku ze strony indeksu, to wget nie będzie wiedział o jego istnieniu, a tym samym nie będzie go pobierał. ie. pomaga, jeśli wszystkie pliki są połączone do stron internetowych lub indeksów katalogów.

 62
Author: Jesse,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-11-29 07:01:42

Próbowałem ściągnąć pliki zip połączone ze strony Omeka ' s themes page - dość podobne zadanie. To mi się udało:

wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
  • -A: Akceptuj tylko pliki zip
  • -r: recurse
  • -l 1: jeden poziom głęboki (tj. tylko pliki bezpośrednio połączone z tej strony)
  • -nd: nie twórz struktury katalogów, po prostu pobierz wszystkie pliki do tego katalogu.

Wszystkie odpowiedzi z -k, -K, -E etc opcje prawdopodobnie nie naprawdę Rozumiem pytanie, jak te, co do przepisywania stron HTML w celu utworzenia lokalnej struktury, zmiany nazw plików .php i tak dalej. Nie dotyczy.

Aby dosłownie pobrać wszystkie pliki z wyjątkiem .html itd:

wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com
 20
Author: Steve Bennett,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-11-06 22:09:25

Możesz spróbować:

wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/

Możesz też dodać:

-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar

Aby zaakceptować konkretne rozszerzenia, lub odrzucić tylko konkretne rozszerzenia:

-R html,htm,asp,php

Lub w celu wykluczenia konkretnych obszarów:

-X "search*,forum*"

Jeśli pliki są ignorowane dla robotów( np. wyszukiwarek), musisz dodać również: -e robots=off

 7
Author: kenorb,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2013-12-10 12:40:47

Spróbuj tego. To zawsze działa dla mnie

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
 5
Author: Suneel Kumar,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-09-23 02:53:16
wget -m -A * -pk -e robots=off www.mysite.com/

Spowoduje pobranie wszystkich typów plików lokalnie i wskazanie ich z pliku html i zignoruje plik robotów

 4
Author: Abdalla Mohamed Aly Ibrahim,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-09-24 20:50:50

W systemach Windows w celu uzyskania wget możesz

  1. Pobierz Cygwin
  2. Pobierz GnuWin32
 3
Author: ebinx,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-01-26 02:21:44

To działa dla mnie:

wget -r -np http://yoursite.com/path/
 0
Author: Carlo Carandang,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-06-22 12:05:46