beautifulsoup

UnicodeEncodeError: kodek 'ascii' nie może zakodować znaku u '\xa0 ' w pozycji 20: ordinal not in range (128)

Mam problemy z obsługą znaków unicode z tekstu pobranego z różnych stron internetowych (na różnych stronach). Używam Beautifu ... zymkolwiek innym niż Angielski. Czy ktoś ma jakieś pomysły, jak to rozwiązać, abym mógł konsekwentnie rozwiązać ten problem?

pobieranie linków ze strony internetowej za pomocą Pythona i BeautifulSoup [zamknięty]

zamknięte . To pytanie wymaga szczegółów lub jasności . Obecnie nie przyjmuje odpowiedzi. ... Jak mogę pobrać linki ze strony internetowej i skopiować adres url linków za pomocą Pythona?

pobieranie linków ze strony internetowej za pomocą Pythona i BeautifulSoup

Jak mogę pobrać linki ze strony internetowej i skopiować adres url linków za pomocą Pythona?

Różnica między BeautifulSoup a scrappy crawler?

Chcę zrobić stronę internetową, która pokazuje porównanie cen produktów amazon i e-bay. Który z nich będzie działał lepiej i dlaczego? Jestem trochę zaznajomiony z BeautifulSoup ale nie tak bardzo z Scrappy crawler .

Jak znaleźć elementy według klasy

Mam problem z parsowaniem elementów html z atrybutem "class" za pomocą Beautifulsoup. Kod wygląda tak soup = BeautifulSoup( ... eautifulSoup.py", line 599, in __getitem__ return self._getAttrMap()[key] KeyError: 'class' Jak się pozbyć lub ten błąd?

BeautifulSoup Grab Visible Webpage Text

Zasadniczo, chcę użyć BeautifulSoup, aby pobrać ściśle widoczny tekst na stronie internetowej. Na przykład, ta strona jest ... ocznego teksty na stronie www. Więc, jak mam znaleźć wszystkie widoczne teksty z wyłączeniem skryptów, komentarzy, css itp.?

python BeautifulSoup parsing table

Uczę się Pythona requests i pięknego Dla ćwiczenia, zdecydowałem się napisać szybki parser biletów parkingowych NYC. Jestem ... ls = row.findAll("td") print cells Czy ktoś może mi pomóc? Proste szukanie wszystkiego tr nigdzie mnie nie zaprowadzi.

Parsowanie HTML w Pythonie-lxml czy BeautifulSoup? Który z nich jest lepszy do jakich celów?

Z tego co wiem, dwie główne biblioteki analizujące HTML w Pythonie to lxml i BeautifulSoup. Wybrałem BeautifulSoup dla projek ... nego nad drugim? Kiedy chcę używać lxml, a kiedy lepiej używać BeautifulSoup? Czy są jakieś inne biblioteki warte rozważenia?

czy możemy użyć xpath z BeautifulSoup?

Używam BeautifulSoup do zeskrobywania adresu url i miałem następujący kod import urllib import urllib2 from BeautifulSoup i ... . Czy Można używać xpath z BeautifulSoup? Jeśli to możliwe, czy ktoś może podać mi przykładowy kod, aby był bardziej pomocny?

Czy mogę usunąć znaczniki skryptu za pomocą BeautifulSoup?

Czy Skryptowe znaczniki i całą ich zawartość można usunąć z HTML za pomocą BeautifulSoup, czy też muszę używać wyrażeń regularnych lub czegoś innego?

Python: BeautifulSoup-pobranie wartości atrybutu na podstawie atrybutu name

Chcę wydrukować wartość atrybutu na podstawie jego nazwy, na przykład <META NAME="City" content="Austin"> Chcę zrobi ... e dzieje się tak dlatego, że nazwa jest używana przez BeatifulSoup, więc nie może być używana jako argument słowa kluczowego.

Jak zeskrobać stronę, która wymaga logowania za pomocą Pythona i beautifulsoup?

Jeśli chcę najpierw zeskrobać stronę, która wymaga loginu i hasła, Jak mogę zacząć zeskrobywać ją za pomocą Pythona przy użyc ... żmy, że strona, którą chcę zeskrobać jest forum, które wymaga logowania. Przykładem jest http://forum.arduino.cc/index.php

Najlepszy sposób na naukę scrapowania ekranu przez Pythona

To może być jedno z tych pytań, na które trudno odpowiedzieć, Ale oto one: Nie uważam się za samodzielnego programistę - al ... hcę to robić? Dziękuję za wszelkie przemyślenia - i przepraszam, jeśli to jest do OGÓLNE Należy uznać za pytanie programowe.

ImportError: No Module Named bs4 (BeautifulSoup)

Pracuję w Pythonie i używam Flask. Kiedy uruchamiam mój główny plik Pythona na moim komputerze, działa on doskonale, ale kied ... nalu, mówi on, że mój główny plik Pythona nie ma modułu o nazwie bs4."Wszelkie komentarze lub porady są bardzo mile widziane.

BeautifulSoup: wystarczy wejść do tagu, bez względu na to, ile tagów jest

Próbuję zeskrobać wszystkie wewnętrzne elementy html z <p> na stronie internetowej za pomocą BeautifulSoup. Są wewnętrz ... in enumerate(p_tags): print str(i) + p_tag Ale to nie pomaga-drukuje: 0Red 1 2Blue 3 4Yellow 5 6Light 7green 8

Piękna zupa findAll nie znajduje wszystkich

Próbuję przeanalizować stronę i uzyskać informacje z find_all() metoda, ale nie znajduje ich wszystkich. Oto kod: #!/usr/bin ... ('a', {'class' : 'manga_img'}, limit=None) for manga in manga_img: print (manga['href']) Drukuje tylko połowę z nich...

Piękna zupa i wyciąganie div I jego zawartość przez ID

soup.find("tagName", { "id" : "articlebody" }) Dlaczego to nie zwraca <div id="articlebody"> ... </div> znaczni ... , co prawdopodobnie oznacza, że strona, którą próbuję parsować, nie jest poprawnie sformatowana w SGML lub cokolwiek innego.

Usuń tag za pomocą BeautifulSoup, ale zachowaj jego zawartość

Obecnie mam kod, który robi coś takiego: soup = BeautifulSoup(value) for tag in soup.findAll(True): if tag.name not in ... z nieprawidłowego tagu. Jak pozbyć się znacznika, ale zachować zawartość w środku podczas wywoływania zupy.renderContents ()?

Scraping ekranu: poruszanie się "błąd HTTP 403: żądanie wyłączone przez roboty.txt"

Czy istnieje sposób, aby obejść następujące? httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt Jest ... dlaczego odmówią dostępu na pewnej głębokości. Używam mechanize i BeautifulSoup na Python2. 6. Mając nadzieję na obejście

Selen a upiększanie stron www

Skrobam zawartość ze strony internetowej za pomocą Pythona. Najpierw użyłem BeautifulSoup i Mechanize w Pythonie, ale zobaczy ... sk JavaScript, więc jest to lepsze aby użyć selenu do parsowania, a także czy powinienem użyć zarówno selenu i pięknej zupy?