html-parsing

Jak parsować i przetwarzać HTML / XML w PHP?

Jak można parsować HTML / XML i wyodrębniać z niego informacje?

Opcje skrobania HTML? [zamknięte]

Myślę o wypróbowaniu Beautiful Soup , pakietu Pythona do skrobania HTML. Czy są jakieś inne pakiety do skrobania HTML, na któ ... htmlSQL PHP Simple HTML DOM Parser PHP Scraping with CURL ScarletsQuery Większość oni Screen-Scraper

Jak wyodrębnić img src, title i alt z html za pomocą php?

Chciałbym stworzyć stronę, na której wszystkie obrazy znajdujące się na mojej stronie są wymienione z tytułem i alternatywną ... z nich, tak naprawdę Nie wiem, jak parsować to w elegancki sposób (mógłbym to zrobić hard char by char way, ale to bolesne).

Który Parser HTML jest najlepszy? [zamknięte]

Koduję wiele parserów. Do tej pory używałem HtmlUnit Headless browser do parsowania i automatyzacji przeglądarki. Teraz chcę ... ę czyścić żadnego źródła HTML. Potrzebuję tylko najprostszego sposobu, aby przejść przez HtmlElements i pobierać z nich dane.

Parse a HTML string with JS

Szukałem rozwiązania, ale nic nie było istotne, więc oto mój problem: Chcę przetworzyć łańcuch zawierający tekst HTML. Chcę ... Moim celem jest wyodrębnienie linków z zewnętrznej strony HTML, które czytam jak ciąg znaków. Czy znasz API żeby to zrobić?

Używanie wyrażeń regularnych do analizy HTML: dlaczego nie?

Wydaje się, że każde pytanie w stoskoverflow, gdzie asker używa regex do przechwytywania informacji z HTML, nieuchronnie będz ... a dobrze? Ponadto, czy jest coś fundamentalnego, czego nie rozumiem w regex, co czyni je złym wyborem do parsowania w ogóle?

HTML Agility pack - parsowanie tabel

Chcę użyć Html agility pack do analizowania tabel ze złożonych stron internetowych, ale jestem jakoś zagubiony w modelu obiek ... ziałało. (HTML::TableParser). Cieszę się również, jeśli można rzucić światło na właściwą kolejność obiektów dla parsowanie.

Jak normalizować HTML w JavaScript lub jQuery?

Znaczniki mogą mieć wiele atrybutów. Kolejność w jakiej atrybuty pojawiają się w kodzie nie ma znaczenia. Na przykład: < ... fa, $('#different'). Teraz $('#original').html() i $('#different').html() Pokaż kod HTML z atrybutami w tej samej kolejności.

Jak wyodrębnić ciąg znaków według wzorca za pomocą GREP, REGEX lub PERL

Mam plik, który wygląda mniej więcej tak: <table name="content_analyzer" primary-key="id"> <type="global" /> ... r2 i content_analyzer_items. Robię to na Linuksie, więc rozwiązanie wykorzystujące sed, perl, grep lub bash jest w porządku.

Wydobywanie informacji ze strony internetowej za pomocą uczenia maszynowego

Chciałbym wyodrębnić określony typ informacji ze stron internetowych w Pythonie. Powiedzmy adres pocztowy. Ma tysiące form, ... ; Albo może wyglądać jak coś podobnego. Brak specjalnych reguł w znacznikach HTML, brak specjalnych reguł w kolejności itp.

Jak przetworzyć stronę HTML z węzłem.js

Muszę parsować (po stronie serwera) duże ilości stron HTML. Wszyscy zgadzamy się, że regexp nie jest drogą, aby przejść tutaj ... Robi Węzeł.js mają tę zdolność wbudowaną? Czy istnieje lepsze podejście do tego problemu, parsowanie HTML po stronie serwera?

Parsowanie HTML w Pythonie-lxml czy BeautifulSoup? Który z nich jest lepszy do jakich celów?

Z tego co wiem, dwie główne biblioteki analizujące HTML w Pythonie to lxml i BeautifulSoup. Wybrałem BeautifulSoup dla projek ... nego nad drugim? Kiedy chcę używać lxml, a kiedy lepiej używać BeautifulSoup? Czy są jakieś inne biblioteki warte rozważenia?

Android HTML ImageGetter jako AsyncTask

Dobra, tracę przez to rozum. Mam metodę w moim programie, która parsuje HTML. Chcę dołączyć obrazy w linii i mam wrażenie, że ... , więc nie ma sposobu, aby uczynić tę asynchroniczną. Czy robię to całkowicie źle, czy co gorsza, czy to niemożliwe? Dzięki

Jak usunąć znaczniki HTML z napisów w JavaScript? [duplikat]

Możliwy duplikat:Usuń HTML z tekstu JavaScript Jak mogę usunąć HTML z ciągu znaków w JavaScript?

Parsing HTML using Python

Szukam modułu parsera HTML dla Pythona, który pomoże mi uzyskać tagi w postaci list/słowników/obiektów Pythona. Jeśli mam do ... kilka z nich szczegółowo funkcjonalność i po prostu kończy się debatą nad tym, który z nich jest szybszy/bardziej skuteczny.

Wyrażenie regularne zaznacza cały tekst pomiędzy znacznikami

Jaki jest najlepszy sposób na zaznaczenie całego tekstu pomiędzy znacznikami 2-ex: tekst pomiędzy wszystkimi znacznikami " pre " na stronie.

Web scraping - jak rozpoznać główne treści na stronie internetowej

Biorąc pod uwagę stronę artykułu wiadomości (z dowolnego głównego źródła wiadomości, takich jak times lub bloomberg), chcę zi ... ch serwisów informacyjnych? Jakie są dobre narzędzia lub biblioteki do eksploracji danych? (najlepiej oparte na Pythonie)

Jak działają parsy HTML, jeśli nie używają wyrażenia regularnego?

Codziennie widzę pytania pytające, jak parsować lub wyodrębnić coś z jakiegoś ciągu HTML i pierwsza odpowiedź / komentarz jes ... czy to CW, czy nie, to jest prawdziwe pytanie, na które chcę być odpowiedział i tak naprawdę nie ma być wątkiem dyskusyjnym.

HTML Agility Pack strip tags NOT IN whitelist

Próbuję stworzyć funkcję, która usuwa znaczniki html i atrybuty, których nie ma na białej liście. Mam następujący HTML: < ... owodem, dla którego to robię, jest to, że niektórzy użytkownicy robią cpoy-Wklej z MS WORD do NY WYWYG HTML editor. Dzięki.!

DOMDocument w php

Właśnie zacząłem czytać dokumentację i przykłady dotyczące DOM, aby indeksować i analizować dokument. Na przykład mam część ... ;Crap</td> </tr> <tr> <a href="link">title</a> </tr> Jak zachować węzły html (tagi)?