beautifulsoup
UnicodeEncodeError: kodek 'ascii' nie może zakodować znaku u '\xa0 ' w pozycji 20: ordinal not in range (128)
Mam problemy z obsługą znaków unicode z tekstu pobranego z różnych stron internetowych (na różnych stronach). Używam Beautifu ... zymkolwiek innym niż Angielski.
Czy ktoś ma jakieś pomysły, jak to rozwiązać, abym mógł konsekwentnie rozwiązać ten problem?
pobieranie linków ze strony internetowej za pomocą Pythona i BeautifulSoup [zamknięty]
zamknięte . To pytanie wymaga szczegółów lub jasności . Obecnie nie przyjmuje odpowiedzi.
...
Jak mogę pobrać linki ze strony internetowej i skopiować adres url linków za pomocą Pythona?
pobieranie linków ze strony internetowej za pomocą Pythona i BeautifulSoup
Jak mogę pobrać linki ze strony internetowej i skopiować adres url linków za pomocą Pythona?
Różnica między BeautifulSoup a scrappy crawler?
Chcę zrobić stronę internetową, która pokazuje porównanie cen produktów amazon i e-bay.
Który z nich będzie działał lepiej i dlaczego? Jestem trochę zaznajomiony z BeautifulSoup ale nie tak bardzo z Scrappy crawler .
Jak znaleźć elementy według klasy
Mam problem z parsowaniem elementów html z atrybutem "class" za pomocą Beautifulsoup. Kod wygląda tak
soup = BeautifulSoup( ... eautifulSoup.py", line 599, in __getitem__
return self._getAttrMap()[key]
KeyError: 'class'
Jak się pozbyć lub ten błąd?
BeautifulSoup Grab Visible Webpage Text
Zasadniczo, chcę użyć BeautifulSoup, aby pobrać ściśle widoczny tekst na stronie internetowej. Na przykład, ta strona jest ... ocznego teksty na stronie www.
Więc, jak mam znaleźć wszystkie widoczne teksty z wyłączeniem skryptów, komentarzy, css itp.?
python BeautifulSoup parsing table
Uczę się Pythona requests i pięknego Dla ćwiczenia, zdecydowałem się napisać szybki parser biletów parkingowych NYC. Jestem ... ls = row.findAll("td")
print cells
Czy ktoś może mi pomóc? Proste szukanie wszystkiego tr nigdzie mnie nie zaprowadzi.
Parsowanie HTML w Pythonie-lxml czy BeautifulSoup? Który z nich jest lepszy do jakich celów?
Z tego co wiem, dwie główne biblioteki analizujące HTML w Pythonie to lxml i BeautifulSoup. Wybrałem BeautifulSoup dla projek ... nego nad drugim? Kiedy chcę używać lxml, a kiedy lepiej używać BeautifulSoup? Czy są jakieś inne biblioteki warte rozważenia?
czy możemy użyć xpath z BeautifulSoup?
Używam BeautifulSoup do zeskrobywania adresu url i miałem następujący kod
import urllib
import urllib2
from BeautifulSoup i ... . Czy Można używać xpath z BeautifulSoup? Jeśli to możliwe, czy ktoś może podać mi przykładowy kod, aby był bardziej pomocny?
Czy mogę usunąć znaczniki skryptu za pomocą BeautifulSoup?
Czy Skryptowe znaczniki i całą ich zawartość można usunąć z HTML za pomocą BeautifulSoup, czy też muszę używać wyrażeń regularnych lub czegoś innego?
Python: BeautifulSoup-pobranie wartości atrybutu na podstawie atrybutu name
Chcę wydrukować wartość atrybutu na podstawie jego nazwy, na przykład
<META NAME="City" content="Austin">
Chcę zrobi ... e dzieje się tak dlatego, że nazwa jest używana przez BeatifulSoup, więc nie może być używana jako argument słowa kluczowego.
Jak zeskrobać stronę, która wymaga logowania za pomocą Pythona i beautifulsoup?
Jeśli chcę najpierw zeskrobać stronę, która wymaga loginu i hasła, Jak mogę zacząć zeskrobywać ją za pomocą Pythona przy użyc ... żmy, że strona, którą chcę zeskrobać jest forum, które wymaga logowania. Przykładem jest http://forum.arduino.cc/index.php
Najlepszy sposób na naukę scrapowania ekranu przez Pythona
To może być jedno z tych pytań, na które trudno odpowiedzieć, Ale oto one:
Nie uważam się za samodzielnego programistę - al ... hcę to robić?
Dziękuję za wszelkie przemyślenia - i przepraszam, jeśli to jest do OGÓLNE Należy uznać za pytanie programowe.
ImportError: No Module Named bs4 (BeautifulSoup)
Pracuję w Pythonie i używam Flask. Kiedy uruchamiam mój główny plik Pythona na moim komputerze, działa on doskonale, ale kied ... nalu, mówi on, że mój główny plik Pythona nie ma modułu o nazwie bs4."Wszelkie komentarze lub porady są bardzo mile widziane.
BeautifulSoup: wystarczy wejść do tagu, bez względu na to, ile tagów jest
Próbuję zeskrobać wszystkie wewnętrzne elementy html z <p> na stronie internetowej za pomocą BeautifulSoup. Są wewnętrz ... in enumerate(p_tags):
print str(i) + p_tag
Ale to nie pomaga-drukuje:
0Red
1
2Blue
3
4Yellow
5
6Light
7green
8
Piękna zupa findAll nie znajduje wszystkich
Próbuję przeanalizować stronę i uzyskać informacje z find_all() metoda, ale nie znajduje ich wszystkich.
Oto kod:
#!/usr/bin ... ('a', {'class' : 'manga_img'}, limit=None)
for manga in manga_img:
print (manga['href'])
Drukuje tylko połowę z nich...
Piękna zupa i wyciąganie div I jego zawartość przez ID
soup.find("tagName", { "id" : "articlebody" })
Dlaczego to nie zwraca <div id="articlebody"> ... </div> znaczni ... , co prawdopodobnie oznacza, że strona, którą próbuję parsować, nie jest poprawnie sformatowana w SGML lub cokolwiek innego.
Usuń tag za pomocą BeautifulSoup, ale zachowaj jego zawartość
Obecnie mam kod, który robi coś takiego:
soup = BeautifulSoup(value)
for tag in soup.findAll(True):
if tag.name not in ... z nieprawidłowego tagu. Jak pozbyć się znacznika, ale zachować zawartość w środku podczas wywoływania zupy.renderContents ()?
Scraping ekranu: poruszanie się "błąd HTTP 403: żądanie wyłączone przez roboty.txt"
Czy istnieje sposób, aby obejść następujące?
httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt
Jest ... dlaczego odmówią dostępu na pewnej głębokości.
Używam mechanize i BeautifulSoup na Python2. 6.
Mając nadzieję na obejście
Selen a upiększanie stron www
Skrobam zawartość ze strony internetowej za pomocą Pythona. Najpierw użyłem BeautifulSoup i Mechanize w Pythonie, ale zobaczy ... sk JavaScript, więc jest to lepsze aby użyć selenu do parsowania, a także czy powinienem użyć zarówno selenu i pięknej zupy?