Pobierz listę adresów URL z witryny [zamknięta]

Wdrażam stronę zastępczą dla klienta, ale nie chcą, aby wszystkie ich Stare strony kończyły się w 404s. utrzymanie starej struktury adresu URL nie było możliwe, ponieważ było ohydne.

Więc piszę obsługę 404, która powinna szukać starej strony, o którą się prosi i zrobić stałe przekierowanie na nową stronę. Problem w tym, że potrzebuję listy wszystkich starych adresów URL stron.

Mógłbym to zrobić ręcznie, ale byłbym zainteresowany, gdyby były jakieś aplikacje, które dostarczyłyby mi listę względnych (np.: /page / path, Nie http:/.../page / path) adresy URL podane właśnie na stronie głównej. Jak pająk, ale taki, który nie dba o treść inną niż znajdowanie głębszych stron.

Author: Kara, 2009-05-13

8 answers

Nie chciałem odpowiadać na własne pytanie, ale pomyślałem o uruchomieniu generatora mapy witryny. Pierwszy, który znalazłem http://www.xml-sitemaps.com ma ładny tekst wyjściowy. Idealny dla moich potrzeb.

 53
Author: Oli,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-05-13 12:26:03

Do wget -r -l0 www.oldsite.com

Wtedy po prostu find www.oldsite.com ujawni wszystkie adresy URL, jak sądzę.

Alternatywnie, po prostu służyć, że niestandardowe nie znaleziono strony na każdym żądaniu 404! Jeśli ktoś użyje niewłaściwego linku, dostanie stronę informującą, że strona nie została znaleziona i wprowadzi kilka wskazówek na temat zawartości witryny.

 35
Author: alamar,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-08-22 08:59:54

Oto lista generatorów sitemap (z których oczywiście można pobrać listę adresów URL ze strony): http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

Generatory Sitemap Www

Poniżej znajdują się linki do narzędzi generujących lub utrzymujących pliki w XML Sitemaps format, otwarty standard zdefiniowany na sitemaps.org oraz obsługiwane przez wyszukiwarki takie jak Ask, Google, Microsoft Live Szukaj i Yahoo!. Pliki Sitemap ogólnie zawiera zbiór Adresy URL na stronie internetowej wraz z metadanymi dla tych adresów URL. Na następujące narzędzia zazwyczaj generują" web-type " XML Sitemap i URL-list plików (niektóre mogą również obsługiwać inne formaty).

Uwaga: Google nie przetestowało ani nie zweryfikowało funkcji ani bezpieczeństwo oprogramowania stron trzecich wymienionego na tej stronie. Proszę. wszelkie pytania dotyczące oprogramowania kierować do autora oprogramowania. Mamy nadzieję, że podobają ci się te narzędzia!

Server-side Programy

  • Enarion phpSitemapsNG (PHP)
  • Google Sitemap Generator (Linux / Windows, 32 / 64bit, open-source)
  • Outil en PHP (Francuski, PHP)
  • Perl Sitemap Generator (Perl)
  • Python Sitemap Generator (Python)
  • Simple Sitemaps (PHP)
  • SiteMap XML Dynamic Sitemap Generator (PHP) $
  • [[14]}Generator Sitemap dla OS / 2 (Rexx-script)
  • XML Sitemap Generator (PHP) $

CMS i Inne Wtyczki:

  • ASP.NET - Sitemaps.Net
  • DotClear (Hiszpański)
  • DotClear (2)
  • Drupal
  • Szablony ECommerce (PHP) $
  • Szablony Ecommerce (PHP lub ASP) $
  • LifeType
  • MediaWiki Sitemap generator
  • mnoGoSearch
  • OS Commerce
  • phpWebSite
  • Plone
  • RapidWeaver
  • Textpattern
  • vBulletin
  • Wikka Wiki (PHP)
  • WordPress

Narzędzia Do Pobrania

  • GSiteCrawler (Windows)
  • Strona Korzysta Z Plików Cookies W Celu Realizacji Usług I Zgodnie Z Polityką Plików Cookies.]}
  • G-Mapper (Windows)
  • Inspyder Sitemap Creator (Windows) $
  • IntelliMapper (Windows) $
  • Microsys A1 Sitemap Generator (Windows) $
  • Rage Google Sitemap Automator $ (OS-X)
  • Screaming Frog SEO Spider and Sitemap generator (Windows/Mac) $
  • Strona Map Pro (Windows) $
  • Sitemap Writer (Windows) $
  • Generator Sitemap by DevIntelligence (Windows)
  • Sorrowmans Sitemap Tools (Windows)
  • TheSiteMapper (Windows) $
  • Vigos Gsitemap (Windows)
  • Visual SEO Studio (Windows)
  • WebDesignPros Sitemap Generator (Aplikacja Java Webstart)
  • Weblight (Windows/Mac) $
  • Wonderwebware Sitemap Generator (Windows)

Online Generatory / Usługi

  • AuditMyPc.com Sitemap Generator
  • AutoMapIt
  • Autositemap $
  • Enarion phpSitemapsNG
  • Darmowy Generator Sitemap
  • Neuroticweb.com Sitemap Generator
  • ROR Sitemap Generator
  • Scriptsocket Sitemap Generator
  • Seoutility Sitemap Generator (Włoski)
  • SitemapDoc
  • Sitemapspal
  • SitemapSubmit
  • Smart-IT-Consulting Google Sitemaps XML Validator
  • XML Sitemap Generator
  • XML-Sitemaps Generator

CMS ze zintegrowanymi generatorami Sitemap

  • Concrete5

Google News Sitemap Generatory następujące wtyczki pozwalają wydawców, aby aktualizować pliki Google News Sitemap, wariant sitemaps.org protokół, który opisujemy w naszym Centrum pomocy. Dodatkowo do normalnych właściwości plików Sitemap, Google News Sitemaps pozwalają wydawców do opisania rodzajów publikowanych przez nich treści, wraz z określanie poziomów dostępu dla poszczególnych artykułów. Więcej informacji informacje o Google News można znaleźć w naszym Centrum pomocy i na forach pomocy.

  • WordPress Google News plugin

Fragmenty Kodu / Biblioteki

  • skrypt ASP
  • Emacs Lisp script
  • Biblioteka Javy
  • skrypt Perla
  • Klasa PHP
  • skrypt generatora PHP

Jeśli uważasz, że narzędzie powinno zostać dodane lub usunięte dla legalnego powód, proszę zostawić komentarz na forum Pomocy dla webmasterów.

 17
Author: Franck Dernoncourt,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2016-02-10 22:46:53

The best on I have found is http://www.auditmypc.com/xml-sitemap.asp który używa Javy i nie ma limitu stron, a nawet pozwala eksportować wyniki jako surową listę adresów URL.

Używa również sesji, więc jeśli używasz CMS, upewnij się, że jesteś wylogowany przed uruchomieniem crawl.

 6
Author: Collins,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-06-26 13:20:27

Tak więc, w idealnym świecie miałbyś specyfikację dla wszystkich stron w swojej witrynie. Będziesz mieć również infrastrukturę testową, która może trafić na wszystkie Twoje strony, aby je przetestować.

Prawdopodobnie nie jesteś w idealnym świecie. Dlaczego nie zrobić tego...?

  1. Tworzenie map między studnią znane stare adresy URL i nowe. Przekieruj, gdy zobaczysz stary adres URL. Rozważyłbym zaprezentowanie "ta strona została przeniesiona, jest to nowy url jest XXX, zostaniesz przekierowany wkrótce".

  2. Jeśli masz brak mapowania, prezent a "przepraszamy-ta strona została przeniesiona. Oto link do strony głównej " wiadomość i przekieruj je, jeśli chcesz.

  3. Zaloguj wszystkie przekierowania-szczególnie bez mapowania. Z czasem dodaj mapowanie stron, które są ważne.

 2
Author: Martin Peck,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-05-13 12:28:00

Wget z Linuksa może być również dobrą opcją, ponieważ są przełączniki na spider I zmieniają jego wyjście.

EDIT: wget jest również dostępny na Windows: http://gnuwin32.sourceforge.net/packages/wget.htm

 2
Author: Thomas Schultz,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-08-07 14:23:02

Napisz pająk, który odczytuje każdy html z dysku i wyprowadza każdy atrybut" href "elementu" a " (można to zrobić za pomocą parsera). Należy pamiętać, które linki należą do określonej strony(jest to wspólne zadanie dla struktury danych MultiMap). Następnie możesz utworzyć plik mapowania, który działa jako Wejście dla obsługi 404.

 0
Author: Mork0075,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-05-13 12:27:13

Chciałbym przyjrzeć się dowolnej liczbie narzędzi do generowania map online. Osobiście używałem tego (opartego na Javie) w przeszłości, ale jeśli wykonasz wyszukiwanie google dla "sitemap builder", jestem pewien, że znajdziesz wiele różnych opcji.

 0
Author: Eric Petroelje,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-05-13 12:29:22