Jak pobrać wszystkie pliki (ale nie HTML) ze strony internetowej za pomocą wget?
Jak korzystać z wget
i pobrać wszystkie pliki ze strony?
Potrzebuję wszystkich plików z wyjątkiem plików strony internetowej, takich jak HTML, PHP, ASP itp.
9 answers
Aby filtrować dla określonych rozszerzeń plików:
wget -A pdf,jpg -m -p -E -k -K -np http://site/path/
Lub, jeśli wolisz długie nazwy opcji:
wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/
Spowoduje to odzwierciedlenie strony, ale Pliki bez rozszerzenia jpg
lub pdf
zostaną automatycznie usunięte.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2017-11-17 16:54:39
To ściągnęło całą stronę dla mnie:
wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-11-29 07:02:10
wget -m -p -E -k -K -np http://site/path/
strona man powie Ci, do czego służą te opcje.
wget
będzie podążać tylko za linkami, jeśli nie ma linku do pliku ze strony indeksu, to wget
nie będzie wiedział o jego istnieniu, a tym samym nie będzie go pobierał. ie. pomaga, jeśli wszystkie pliki są połączone do stron internetowych lub indeksów katalogów.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-11-29 07:01:42
Próbowałem ściągnąć pliki zip połączone ze strony Omeka ' s themes page - dość podobne zadanie. To mi się udało:
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-
-A
: Akceptuj tylko pliki zip -
-r
: recurse -
-l 1
: jeden poziom głęboki (tj. tylko pliki bezpośrednio połączone z tej strony) -
-nd
: nie twórz struktury katalogów, po prostu pobierz wszystkie pliki do tego katalogu.
Wszystkie odpowiedzi z -k
, -K
, -E
etc opcje prawdopodobnie nie naprawdę Rozumiem pytanie, jak te, co do przepisywania stron HTML w celu utworzenia lokalnej struktury, zmiany nazw plików .php
i tak dalej. Nie dotyczy.
Aby dosłownie pobrać wszystkie pliki z wyjątkiem .html
itd:
wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-11-06 22:09:25
Możesz spróbować:
wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/
Możesz też dodać:
-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar
Aby zaakceptować konkretne rozszerzenia, lub odrzucić tylko konkretne rozszerzenia:
-R html,htm,asp,php
Lub w celu wykluczenia konkretnych obszarów:
-X "search*,forum*"
Jeśli pliki są ignorowane dla robotów( np. wyszukiwarek), musisz dodać również: -e robots=off
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2013-12-10 12:40:47
Spróbuj tego. To zawsze działa dla mnie
wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-09-23 02:53:16
wget -m -A * -pk -e robots=off www.mysite.com/
Spowoduje pobranie wszystkich typów plików lokalnie i wskazanie ich z pliku html i zignoruje plik robotów
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-09-24 20:50:50
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-01-26 02:21:44
To działa dla mnie:
wget -r -np http://yoursite.com/path/
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-06-22 12:05:46