web-scraping

Kodowanie HTML i parsowanie lxml

Próbuję w końcu rozwiązać problemy z kodowaniem, które pojawiają się po próbie zeskrobania HTML za pomocą lxml. Oto trzy przy ... = UnicodeDammit(raw_html) try: doc = fromstring(dammit.unicode_markup) except ValueError: doc = fromstring(raw_html)

Scrapowanie stron WWW w PHP

Szukam sposobu na zrobienie małego podglądu innej strony z adresu URL podanego przez użytkownika w PHP . Chciałbym odzyskać ... róbowałem użyć klasy DOCDocument, ładując HTML i wyświetlając go na ekranie, ale nie sądzę, że jest to właściwe sposób na to

Skrobanie strony wiki dla "układu okresowego" i wszystkich linków

Chciałbym zeskrobać następujący artykuł na wiki: http://en.wikipedia.org/wiki/Periodic_table Tak, aby wyjście mojego kodu ... es = TRUE) xmlChildren(parsed_html) getNodeSet(parsed_html, "//html", c(x = base_url)) [[1]] attr(,"class") [1] "XMLNodeSet"