html-parsing
Jak parsować i przetwarzać HTML / XML w PHP?
Jak można parsować HTML / XML i wyodrębniać z niego informacje?
Opcje skrobania HTML? [zamknięte]
Myślę o wypróbowaniu Beautiful Soup , pakietu Pythona do skrobania HTML. Czy są jakieś inne pakiety do skrobania HTML, na któ ...
htmlSQL
PHP Simple HTML DOM Parser
PHP Scraping with CURL
ScarletsQuery
Większość oni
Screen-Scraper
Jak wyodrębnić img src, title i alt z html za pomocą php?
Chciałbym stworzyć stronę, na której wszystkie obrazy znajdujące się na mojej stronie są wymienione z tytułem i alternatywną ... z nich, tak naprawdę Nie wiem, jak parsować to w elegancki sposób (mógłbym to zrobić hard char by char way, ale to bolesne).
Który Parser HTML jest najlepszy? [zamknięte]
Koduję wiele parserów. Do tej pory używałem HtmlUnit Headless browser do parsowania i automatyzacji przeglądarki.
Teraz chcę ... ę czyścić żadnego źródła HTML. Potrzebuję tylko najprostszego sposobu, aby przejść przez HtmlElements i pobierać z nich dane.
Parse a HTML string with JS
Szukałem rozwiązania, ale nic nie było istotne, więc oto mój problem:
Chcę przetworzyć łańcuch zawierający tekst HTML. Chcę ...
Moim celem jest wyodrębnienie linków z zewnętrznej strony HTML, które czytam jak ciąg znaków.
Czy znasz API żeby to zrobić?
Używanie wyrażeń regularnych do analizy HTML: dlaczego nie?
Wydaje się, że każde pytanie w stoskoverflow, gdzie asker używa regex do przechwytywania informacji z HTML, nieuchronnie będz ... a dobrze?
Ponadto, czy jest coś fundamentalnego, czego nie rozumiem w regex, co czyni je złym wyborem do parsowania w ogóle?
HTML Agility pack - parsowanie tabel
Chcę użyć Html agility pack do analizowania tabel ze złożonych stron internetowych, ale jestem jakoś zagubiony w modelu obiek ... ziałało. (HTML::TableParser).
Cieszę się również, jeśli można rzucić światło na właściwą kolejność obiektów dla parsowanie.
Jak normalizować HTML w JavaScript lub jQuery?
Znaczniki mogą mieć wiele atrybutów. Kolejność w jakiej atrybuty pojawiają się w kodzie nie ma znaczenia. Na przykład:
< ... fa, $('#different'). Teraz $('#original').html() i $('#different').html() Pokaż kod HTML z atrybutami w tej samej kolejności.
Jak wyodrębnić ciąg znaków według wzorca za pomocą GREP, REGEX lub PERL
Mam plik, który wygląda mniej więcej tak:
<table name="content_analyzer" primary-key="id">
<type="global" />
... r2 i content_analyzer_items.
Robię to na Linuksie, więc rozwiązanie wykorzystujące sed, perl, grep lub bash jest w porządku.
Wydobywanie informacji ze strony internetowej za pomocą uczenia maszynowego
Chciałbym wyodrębnić określony typ informacji ze stron internetowych w Pythonie. Powiedzmy adres pocztowy. Ma tysiące form, ... ;
Albo może wyglądać jak coś podobnego. Brak specjalnych reguł w znacznikach HTML, brak specjalnych reguł w kolejności itp.
Jak przetworzyć stronę HTML z węzłem.js
Muszę parsować (po stronie serwera) duże ilości stron HTML.
Wszyscy zgadzamy się, że regexp nie jest drogą, aby przejść tutaj ... Robi Węzeł.js mają tę zdolność wbudowaną?
Czy istnieje lepsze podejście do tego problemu, parsowanie HTML po stronie serwera?
Parsowanie HTML w Pythonie-lxml czy BeautifulSoup? Który z nich jest lepszy do jakich celów?
Z tego co wiem, dwie główne biblioteki analizujące HTML w Pythonie to lxml i BeautifulSoup. Wybrałem BeautifulSoup dla projek ... nego nad drugim? Kiedy chcę używać lxml, a kiedy lepiej używać BeautifulSoup? Czy są jakieś inne biblioteki warte rozważenia?
Android HTML ImageGetter jako AsyncTask
Dobra, tracę przez to rozum. Mam metodę w moim programie, która parsuje HTML. Chcę dołączyć obrazy w linii i mam wrażenie, że ... , więc nie ma sposobu, aby uczynić tę asynchroniczną.
Czy robię to całkowicie źle, czy co gorsza, czy to niemożliwe? Dzięki
Jak usunąć znaczniki HTML z napisów w JavaScript? [duplikat]
Możliwy duplikat:Usuń HTML z tekstu JavaScript
Jak mogę usunąć HTML z ciągu znaków w JavaScript?
Parsing HTML using Python
Szukam modułu parsera HTML dla Pythona, który pomoże mi uzyskać tagi w postaci list/słowników/obiektów Pythona.
Jeśli mam do ... kilka z nich szczegółowo funkcjonalność i po prostu kończy się debatą nad tym, który z nich jest szybszy/bardziej skuteczny.
Wyrażenie regularne zaznacza cały tekst pomiędzy znacznikami
Jaki jest najlepszy sposób na zaznaczenie całego tekstu pomiędzy znacznikami 2-ex: tekst pomiędzy wszystkimi znacznikami " pre " na stronie.
Web scraping - jak rozpoznać główne treści na stronie internetowej
Biorąc pod uwagę stronę artykułu wiadomości (z dowolnego głównego źródła wiadomości, takich jak times lub bloomberg), chcę zi ... ch serwisów informacyjnych?
Jakie są dobre narzędzia lub biblioteki do eksploracji danych? (najlepiej oparte na Pythonie)
Jak działają parsy HTML, jeśli nie używają wyrażenia regularnego?
Codziennie widzę pytania pytające, jak parsować lub wyodrębnić coś z jakiegoś ciągu HTML i pierwsza odpowiedź / komentarz jes ... czy to CW, czy nie, to jest prawdziwe pytanie, na które chcę być odpowiedział i tak naprawdę nie ma być wątkiem dyskusyjnym.
HTML Agility Pack strip tags NOT IN whitelist
Próbuję stworzyć funkcję, która usuwa znaczniki html i atrybuty, których nie ma na białej liście.
Mam następujący HTML:
< ... owodem, dla którego to robię, jest to, że niektórzy użytkownicy robią cpoy-Wklej z MS WORD do NY WYWYG HTML editor.
Dzięki.!
DOMDocument w php
Właśnie zacząłem czytać dokumentację i przykłady dotyczące DOM, aby indeksować i analizować dokument.
Na przykład mam część ... ;Crap</td>
</tr>
<tr>
<a href="link">title</a>
</tr>
Jak zachować węzły html (tagi)?