Jaka jest różnica między web-crawling i Web-scraping? [duplikat]

To pytanie ma już odpowiedź tutaj:

Czy jest różnica między Crawling a web-scraping?

Jeśli jest różnica, jaka jest najlepsza metoda, aby zebrać niektóre dane internetowe, aby dostarczyć bazę danych do późniejszego wykorzystania w dostosowanej wyszukiwarce?

Author: wassimans, 2010-12-01

6 answers

Crawling będzie zasadniczo tym, co Google, Yahoo, MSN, itp. czy, Szukam jakichkolwiek informacji. Scrapowanie jest na ogół ukierunkowane na niektóre strony internetowe, dla danych specyficznych, np. dla porównania cen, więc są kodowane zupełnie inaczej.

Zwykle skrobak będzie dostosowany do stron, które mają skrobać, i będzie robił rzeczy ,których (dobry) crawler nie zrobi, tzn.:

    Nie zwracaj uwagi na roboty.txt
  • Zidentyfikuj się jako przeglądarka
  • Prześlij formularze z DANE
  • Execute Javascript (if required to zachowuj się jak użytkownik)
 96
Author: Ben,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2013-06-13 20:44:55

Tak, są różne. W praktyce może być konieczne użycie obu.

(muszę wskoczyć, ponieważ, jak dotąd, inne odpowiedzi nie docierają do istoty tego. Używają przykładów, ale nie wyjaśniają różnic. Przyznane, są z 2010 roku!)

Web scraping , aby użyć minimalnej definicji, jest procesem przetwarzania dokumentu internetowego i wydobywania z niego informacji. Możesz robić skrobanie stron internetowych bez indeksowania stron internetowych.

Web crawling , aby użyć minimal definition, to proces iteratywnego znajdowania i pobierania linków internetowych zaczynając od listy zalążkowych adresów URL. ściśle mówiąc, aby indeksować strony internetowe, musisz wykonać pewien stopień skrobania stron internetowych (aby wyodrębnić adresy URL)

Aby wyjaśnić niektóre pojęcia wymienione w innych odpowiedziach:

  • robots.txt ma zastosowanie do każdego zautomatyzowanego procesu, który uzyskuje dostęp do strony internetowej. Dotyczy to zarówno gąsienic, jak i skrobaków.

  • 'właściwe" Gąsienice i skrobaki, zarówno, powinni się dokładnie zidentyfikować.

Niektóre odniesienia:

 52
Author: David J.,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2012-06-21 17:08:37

AFAIK web Crawling jest tym, co robi Google - chodzi po stronie patrząc na linki i budowanie bazy danych układu tej strony i stron, do których linki

Web Scraping to progamatyczna analiza strony internetowej w celu załadowania z niej niektórych danych, np. załadowanie BBC weather i zgrywanie (skrobanie) pogody dla niego i umieszczenie go w innym miejscu lub użycie go w innym programie.

 6
Author: Chris Harden,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-12-01 17:58:18

Istnieje zasadnicza różnica między tymi dwoma. Dla tych, którzy chcą kopać głębiej, proponuję przeczytać to - skrobak internetowy, Web Crawler

Ten post wchodzi w szczegóły. Dobre podsumowanie znajduje się w tym wykresie z artykułu: wykres pokazujący różnicę między skrobaniem a pełzaniem

 2
Author: Mohit Sharma,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2017-11-21 15:57:40

Zdecydowanie jest różnica między tymi dwoma. Jeden odnosi się do odwiedzania witryny, drugi do ekstrakcji.

 0
Author: Annie,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2013-09-06 10:08:40

Indeksujemy witryny, aby mieć szeroką perspektywę, jak strona jest zorganizowana, jakie są powiązania między stronami, aby oszacować, ile czasu potrzebujemy na odwiedzenie wszystkich stron, które nas interesują. Skrobanie jest często trudniejsze do wdrożenia, ale jest esencją ekstrakcji danych. Pomyślmy o skrobaniu, jak o pokryciu strony arkuszem papieru z wycinanymi prostokątami. Możemy teraz zobaczyć tylko rzeczy, których potrzebujemy, całkowicie ignorując części strony, które są wspólne dla wszystkich stron (jak nawigacja, stopka, reklamy), lub obcych informacji jako komentarze lub bułki tartej. Więcej o różnicach między raczkowaniem a złomowaniem znajdziesz tutaj: https://tarantoola.io/web-scraping-vs-web-crawling/

 0
Author: shirk3y,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2016-11-26 21:14:20