Jak zarchiwizować całą stronę do przeglądania w trybie offline?

Faktycznie spaliliśmy statyczne / zarchiwizowane kopie naszego asp.net strony internetowe dla klientów wielokrotnie. Do tej pory używaliśmy WebZip, ale mieliśmy niekończące się problemy z awariami, nieprawidłowym połączeniem pobranych stron itp.

W zasadzie potrzebujemy aplikacji, która indeksuje i pobiera statyczne kopie wszystkiego na naszej asp.net strony internetowej (strony, obrazy, dokumenty, css itp.), a następnie przetwarza pobrane strony, aby można je było przeglądać lokalnie bez połączenie z Internetem (pozbądź się bezwzględnych adresów URL w linkach itp.). Im więcej dowodów idiotycznych, tym lepiej. Wydaje się to dość powszechnym i (stosunkowo) prostym procesem, ale wypróbowałem kilka innych aplikacji i byłem naprawdę niezauważony

Czy ktoś ma oprogramowanie do archiwizacji, które by polecił? Czy ktoś ma naprawdę prosty proces, który podzieliłby się?

Author: Vadim Kotov, 2009-02-12

9 answers

W Windows możesz spojrzeć na HTTrack . Jest bardzo konfigurowalny, co pozwala ustawić prędkość pobierania. Ale możesz po prostu skierować go na stronę internetową i uruchomić go również bez żadnej konfiguracji.

Z mojego doświadczenia to było naprawdę dobre narzędzie i działa dobrze. Niektóre rzeczy, które lubię w HTTrack to:

  • Licencja Open Source
  • wznawia wstrzymane pobieranie
  • może zaktualizować istniejące archiwum
  • możesz skonfigurować go tak, aby był nieagresywny po pobraniu, aby nie marnować przepustowości i przepustowości witryny.
 35
Author: Jesse Dearing,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-02-11 21:40:40

Możesz użyć wget :

wget -m -k -K -E http://url/of/web/site
 64
Author: chuckg,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2017-02-14 17:40:12

Wayback Machine Downloader by hartator jest prosty i szybki.

Zainstaluj przez Ruby, a następnie uruchom z żądaną domeną i opcjonalnym znacznikiem czasu z Internet Archive.

sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000
 5
Author: jtheletter,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-11-02 01:07:05

Używam Blue Crab na OSX i WebCopier Na Windows.

 4
Author: Syntax,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-02-11 21:26:07

Wget-r-k

... i zbadaj resztę opcji. Mam nadzieję, że zastosowałeś się do tych wytycznych: http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html więc wszystkie twoje zasoby są bezpieczne dzięki żądaniom GET.

 2
Author: Joel Hoffman,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-02-11 21:26:28

Używam tylko: wget -m <url>.

 1
Author: Aram Verstegen,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-02-11 21:25:26

Jeśli twoi klienci archiwizują pod kątem problemów z zgodnością, chcesz mieć pewność, że zawartość może zostać uwierzytelniona. Wymienione opcje są w porządku do prostego przeglądania, ale nie są prawnie dopuszczalne. W takim przypadku szukasz znaczników czasu i podpisów cyfrowych. O wiele bardziej skomplikowane, jeśli robisz to sam. Proponowałbym taką usługę jak PageFreezer .

 1
Author: Dieghito,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-11-01 23:40:56

Używam HTTrack od kilku lat. Obsługuje wszystkie linki między stronami itp. w porządku. Moją jedyną skargą jest to, że nie znalazłem dobrego sposobu, aby ograniczyć go do podstrony bardzo dobrze. Na przykład, jeśli istnieje strona www.foo.com/steve że chcę zarchiwizować, prawdopodobnie będzie podążać za linkami do www.foo.com/rowe i to też Archiwizuj. Inaczej będzie świetnie. Wysoce konfigurowalny i niezawodny.

 0
Author: Steve Rowe,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-02-11 21:58:38

Dla użytkowników OS X znalazłem aplikację sitesucker znalezioną tutaj działa dobrze bez konfigurowania czegokolwiek, ale jak głęboko podąża za linkami.

 0
Author: user1011743,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-09-17 17:36:27