web-crawler

Czy ktoś zna dobry robot internetowy oparty na Pythonie, którego mógłbym użyć?

Jestem w połowie kuszony, aby napisać swój własny, ale naprawdę nie mam teraz wystarczająco dużo czasu. Widziałem listę Wiki ... będzie używać API przeglądarki dla mojego nadchodzącego projektu. Z góry dzięki. Również, to jest moje pierwsze pytanie SO!

Jak zrobić prosty crawler w PHP?

Mam stronę z mnóstwem linków. Chcę napisać skrypt, który zrzuci wszystkie dane zawarte w tych linkach do lokalnego pliku. Czy ktoś to zrobił z PHP? Jako odpowiedź wystarczyłyby ogólne wytyczne i gotchas.

Projektowanie web crawler

Natknąłem się na pytanie wywiadu "gdybyś projektował web crawler, jak unikniesz wchodzenia w nieskończone pętle? "i próbuję n ... ociaż Google nie przecieka, jak działają algorytmy indeksowania stron internetowych i ranking stron itp., ale jakieś domysły?

Jak poprosić Google o ponowne indeksowanie mojej strony? [zamknięte]

Czy ktoś zna sposób, aby poprosić Google o ponowne indeksowanie strony? Jeśli to możliwe, to nie powinno trwać miesiące. Moja strona pokazuje Stary tytuł w wynikach wyszukiwania Google. Jak mogę pokazać go z poprawnym tytułem i opisem?

Różnica między BeautifulSoup a scrappy crawler?

Chcę zrobić stronę internetową, która pokazuje porównanie cen produktów amazon i e-bay. Który z nich będzie działał lepiej i dlaczego? Jestem trochę zaznajomiony z BeautifulSoup ale nie tak bardzo z Scrappy crawler .

jak wykryć boty wyszukiwarek za pomocą php?

Jak można wykryć boty wyszukiwarek za pomocą php?

Jak znaleźć wszystkie linki / strony na stronie internetowej

Czy można znaleźć wszystkie strony i linki na danej stronie? Chciałbym wprowadzić adres URL i stworzyć drzewo katalogów wszystkich linków z tej strony? Spojrzałem na HTTrack, ale to ściąga całą stronę i po prostu potrzebuję drzewa katalogów.

Wykrywanie uczciwych robotów internetowych

Chciałbym wykryć (po stronie serwera), które żądania są od botów. W tym momencie nie obchodzą mnie złośliwe boty, tylko te, ... był spójny. Również używam Javy, ale wyobrażam sobie, że podejście byłoby podobne dla każdej technologii po stronie serwera.

Wysyłanie "User-agent" za pomocą biblioteki zapytań w Pythonie

Chcę wysłać wartość dla "User-agent" podczas żądania strony internetowej za pomocą zapytań Pythona. Nie jestem pewien, czy j ... wków wysyłanych podczas żądania. Czy jest dopuszczalne wysyłanie tych informacji w nagłówku? Jeśli nie, jak mogę go wysłać?

Co to są dobre roboty webowe oparte na Ruby? [zamknięte]

Patrzę na pisanie własnych, ale zastanawiam się, czy są jakieś dobre crawlery internetowe, które są napisane w Ruby. W przec ... kilku miejscach, ale lista klejnotów mających zastosowanie do budowania robota internetowego byłaby również świetnym zasobem.

Spider strony internetowej i zwraca tylko adresy URL

Szukam sposobu na pseudo-spider stronę internetową. Kluczem jest to, że tak naprawdę nie chcę zawartości, ale raczej prostej ... rep 'Saving to:' Nadal byłbym zainteresowany innymi / lepszymi środkami do robienia tego typu rzeczy, jeśli takie istnieją.

Jak zarchiwizować całą stronę do przeglądania w trybie offline?

Faktycznie spaliliśmy statyczne / zarchiwizowane kopie naszego asp.net strony internetowe dla klientów wielokrotnie. Do tej ... y Czy ktoś ma oprogramowanie do archiwizacji, które by polecił? Czy ktoś ma naprawdę prosty proces, który podzieliłby się?

Pobierz listę adresów URL z witryny [zamknięta]

Wdrażam stronę zastępczą dla klienta, ale nie chcą, aby wszystkie ich Stare strony kończyły się w 404s. utrzymanie starej str ... dresy URL podane właśnie na stronie głównej. Jak pająk, ale taki, który nie dba o treść inną niż znajdowanie głębszych stron.

Jaka jest różnica między web-crawling i Web-scraping? [duplikat]

To pytanie ma już odpowiedź tutaj: crawler vs scraper 4 odpowied ... , aby zebrać niektóre dane internetowe, aby dostarczyć bazę danych do późniejszego wykorzystania w dostosowanej wyszukiwarce?

jak filtrować zduplikowane żądania na podstawie adresu url w Scrappy

Piszę crawler dla strony internetowej za pomocą Scrappy z CrawlSpider. Scrapy dostarcza wbudowany filtr duplikatów żądań, kt ... muszę. Więc w jaki sposób mogę powiedzieć scrapy ' emu, że nie powinien wysyłać konkretnego żądania na podstawie adresu url?

Bardzo prosty C++ Web crawler / spider?

Próbuję zrobić bardzo prostą aplikację Web crawler / spider w C++. Szukano mnie w google dla prostego, aby zrozumieć tę konce ... e przechowywać w jakimś pliku danych. Jakiś prosty tutorial, lub wytyczne dla mnie? Dopiero zaczynam naukę C++ (1 miesiąc)

Jak rozpoznać Web-crawlera?

Jak mogę odfiltrować hity z webcrawlerów itp. Trafienia, które nie są ludzkie.. Używam maxmind.com aby zażądać od IP miasta.. Nie jest to całkiem tanie, jeśli muszę płacić za wszystkie hity, w tym webcrawlers, roboty itp.

Zapisywanie elementów do bazy danych MySQL w Scrappy

Jestem nowy w scrapie, miałem kod pająka class Example_spider(BaseSpider): name = "example" allowed_domains = ["www.e ... ' object is not subscriptable Czy ktoś może uruchomić ten kod i upewnić się, że wszystkie elementy zapisane w bazie danych?

Kliknij przycisk w Scrappy

Używam Scrappy ' ego do indeksowania strony. Niektóre informacje, których potrzebuję, pojawiają się tylko po kliknięciu okreś ... nąć przycisk, który wyświetla informacje, których potrzebuję? Czy muszę używać biblioteka zewnętrzna jak mechanize czy lxml?

Jak przekazać argument zdefiniowany przez użytkownika w Scrappy spider

Próbuję przekazać argument zdefiniowany przez użytkownika do Scrappy ' ego pająka. Czy ktoś może zasugerować Jak to zrobić? Czytałem gdzieś o parametrze -a, ale nie mam pojęcia, jak go użyć.