html-parsing

Używanie beautifulsoup do wyodrębniania tekstu między łamami linii (np. znaczniki)

Mam następujący HTML, który znajduje się w większym dokumencie <br /> Important Text 1 <br /> <br /> Not ... r /> elementów, ale nie mogę znaleźć sposobu, aby uzyskać tekst pomiędzy. Każda pomoc będzie bardzo mile widziana. Dzięki.

Parse html table using file get contents to PHP array

Próbuję przetworzyć tabelę pokazaną tutaj do wielowymiarowej tablicy php. Używam poniższego kodu, ale z jakiegoś powodu zwr ... 2 --> 11:29AM --> LIL' WAYNE --> SHE WILL 3 --> 11:26AM --> KARDINAL OFFISHALL --> NUMBA 1 (TIDE IS HIGH)

Nokogiri vs Hpricot?

Który byś wybrał? Moje ważne atrybuty to (nie w kolejności): wsparcie i przyszłe ulepszenia. społeczność i ogólna baza wie ... mpleksowy (tj. Sprawdzony do analizy szerokiego zakresu*.* strony ml). Wydajność. memory footprint (runtime, nie code-base).

Python BeautifulSoup stoły do skrobania

Staram się stworzyć scrape tabeli z BeautifulSoup. Napisałem ten kod Pythona: import urllib2 from bs4 import BeautifulSoup ... up = BeautifulSoup(page) for i in soup.find_all('form'): print i.attrs['class'] Muszę zeskrobać Nome, Cognome, e-mail.

Jak zapisać zmiany wprowadzone do pliku HTML za pomocą BeautifulSoup w Pythonie?

Python noob tutaj... Mam poniżej skrypt, który modyfikuje hrefs dla pliku html (w przyszłości będzie to lista plików HTML w ... ##How do I save the link I have modified back to the HTML file? print(soup)##prints the original html tree htmlDoc.close()

Znajdź wszystkie style CSS używane na stronie

Mam skórkę DotNetNuke, która ma pojedynczy plik CSS o długości ponad 3500 linii. Zawiera style dla YUI, Telerik, Cluetip, a t ... dzić, które style rzeczywiście potrzebuje strona na wszystkich swoich stronach? Czy jest jakiś robot, który mógłby to zrobić?

Prosty przykład parsowania HTML libxml2 przy użyciu Objective-C, Xcode i HTMLparser.h

Proszę, czy ktoś może mi pokazać prosty przykład parsowania jakiegoś HTML przy użyciu libxml. #import <libxml2/libxml/HTM ... wać wewnętrzną zawartość każdego znacznika span, którego class = spantext. Powinno wyjść: "Hello World 1" i "Hello World 2".

Wyświetlanie obrazów na Androidzie za pomocą TextView i Html.ImageGetter asynchronicznie?

Chcę ustawić TextView z SpannableString, co jest z poniższej metody: Html.fromHtml(String source, Html.ImageGetter imageGet ... nieważ muszę uzyskać drawable z Internetu, muszę to zrobić asynchronicznie i wydaje się, że nie jest. Jak to zrobić? Dzięki.

Selen: iteracja przez grupy pierwiastków

Robiłam to z BeautifulSoup, ale jest to trochę uciążliwe i próbuję się dowiedzieć, czy mogę to zrobić bezpośrednio z selenem. ... anie, więc byłoby naprawdę nieefektywne). Robi wie ktoś może czy można to zrobić bezpośrednio w Selenie, a jeśli tak to jak?

Scrapowanie stron WWW w PHP

Szukam sposobu na zrobienie małego podglądu innej strony z adresu URL podanego przez użytkownika w PHP . Chciałbym odzyskać ... róbowałem użyć klasy DOCDocument, ładując HTML i wyświetlając go na ekranie, ale nie sądzę, że jest to właściwe sposób na to