lxml

Usuń wszystkie znaczniki javascript i znaczniki stylów z html za pomocą Pythona i modułu lxml

Analizuję dokument html używając http://lxml.de / biblioteka. Do tej pory odkryłem, jak usunąć znaczniki z dokumentu html w ... er-class.html / align = "left" / Użyj klasy, aby wyczyścić dokument. Jakakolwiek pomoc, może krótki przykład by mi pomógł!

Python sax to lxml for 80 + GB XML

Jak odczytać plik XML za pomocą sax i przekonwertować go na etree lxml.iterparse element? Aby zapewnić przegląd problemu, zb ... elf._artist_type_count = count self._cleanup(element) del element Daj mi znać, jeśli Mogę dodać jakieś wyjaśnienie.

Jak wybrać następujący znacznik rodzeństwa / XML za pomocą xpath

Mam plik HTML (z Newegg) i ich HTML jest zorganizowany jak poniżej. Wszystkie dane w tabeli specyfikacji to " desc", podczas ... ss="name"]/nextsibling?).text I robi to dla reszty wartości. Jak osiągnąć następny krok i czy jest na to łatwiejszy sposób?

Znajdowanie elementów według atrybutów za pomocą lxml

Muszę przeanalizować plik xml, aby wyodrębnić niektóre dane. Potrzebuję tylko niektórych elementów z pewnymi atrybutami, oto ... if article.attrib['type'] == 'news': content = article.find('content') content = content.text

Jak używać przestrzeni nazw xml z find / findall w lxml?

Próbuję przeanalizować zawartość w arkuszu kalkulacyjnym OpenOffice ODS. Format ods to w zasadzie tylko plik zipfile z wielom ... ages/lxml/_elementpath.py", line 184, in _build_path_iterator selector.append(ops[token[0]](_next, token)) KeyError: ':'

Efektywny sposób iteracji elementów xml

Mam taki xml: <a> <b>hello</b> <b>world</b> </a> <x> <y></y& ... rogi w użyciu. Zastanawiam się, może istnieje bardziej efektywny sposób na iterację przez nieskończoną liczbę elementów xml?

używanie lxml i iterparse() do analizy dużego (+- 1GB) pliku XML

Muszę przetworzyć plik XML 1Gb o strukturze takiej jak poniżej i wyodrębnić tekst w znacznikach "autor " i"treść": <Data ... jąć. Ponadto, jeśli nie było to dość oczywiste, jestem całkiem nowy w Pythonie i po raz pierwszy używam lxml. Proszę, pomocy!

Usuń przestrzeń nazw i prefiks z XML w Pythonie za pomocą lxml

Mam plik xml, który muszę otworzyć i wprowadzić pewne zmiany, jedną z tych zmian jest usunięcie przestrzeni nazw i prefiksu, ... ue, xml_declaration = True, encoding = 'UTF-8') Więc jak dodać kod w moim skrypcie, który usunie przestrzeń nazw a prefiks?

Kodowanie w Pythonie za pomocą lxml-kompleksowe rozwiązanie

Muszę pobrać i przeanalizować stronę z lxml i zbudować wyjście UTF-8 xml. Myślę, że schemat w pseudokodzie jest bardziej ilus ... ', '.join(converted.triedEncodings) continue webfile = converted.unicode.encode('utf-8')

jak usunąć element w lxml

Muszę całkowicie usunąć elementy, bazując na zawartości atrybutu, używając lxml Pythona. Przykład: import lxml.etree as et ... roceries>\n" for elt in tree.xpath('//fruit[@state=\'fresh\']'): newxml+=et.tostring(elt) newxml+="</groceries>"

Generowanie xml w Pythonie i lxml

Mam ten xml z sql, i chcę zrobić to samo przez python 2.7 i lxml <?xml version="1.0" encoding="utf-16"?> <results& ... (filename,"w") FILE.writelines(etree.tostring(root, pretty_print=True)) FILE.close() Czy wiesz jak dodać resztę atrybutów?

Instalacja lxml z pip w virtualenv Ubuntu 12.10 błąd: polecenie 'gcc' nie powiodło się ze statusem wyjścia 4

Mam następujący błąd podczas próby uruchomienia "pip install lxml" w virtualenv w Ubuntu 12.10 x64. Mam Pythona 2.7. Widział ... with error code 1 in /home/admin/.virtualenvs/dev.actualito.com/build/lxml Storing complete log in /home/admin/.pip/pip.log

Jak znaleźć rekurencyjnie dla tagu XML za pomocą LXML?

<?xml version="1.0" ?> <data> <test > <f1 /> </test > <test2 > ... ? Próbowałem metody findall, ale działa tylko dla najbliższych dzieci. Myślę, że powinienem pójść na BeautifulSoup za to !!!

Python: używanie XPath lokalnie / na określonym elemencie

Próbuję pobrać linki ze strony z xpath. Problem polega na tym, że chcę tylko linki wewnątrz tabeli, ale jeśli zastosuję wyraż ... muszę uczynić je względnymi? To wszystko? Zasadniczo, jak mogę filtrować tylko elementy, które istnieją wewnątrz tej tabeli?

Py2exe lxml

Mam aplikację wxpython, która zależy od lxml i działa dobrze podczas uruchamiania go przez interpreter Pythona. Jednak podcza ... o alternatywy, ale dostałem to samo ImportError: No module named _elementpath Błąd. Nie wiedziałem, jak dalej postępować.

Jak znaleźć elementy XML za pomocą XPath w Pythonie w przestrzeni nazw-agnostic sposób?

Ponieważ miałem ten irytujący problem po raz drugi, pomyślałem, że prośba pomoże. Czasami muszę pobierać elementy z dokument ... ext.find("//Description/following-sibling::*", rdf_tree) Zgodny z dokumentem, prosty, świadomy przestrzeni nazw; doskonały.

Python pretty XML printer with lxml

Po odczytaniu z istniejącego pliku z 'brzydkim' XML i dokonaniu pewnych modyfikacji, drukowanie pretty nie działa. Próbowałem ... l') root = tree.getroot() ... # modifications ... with open(FILE_NAME, "w") as f: tree.write(f, pretty_print=True)

Instalacja łatwa instalacja ... aby przejść do instalacji lxml

Pogodziłem się z faktem, że ElementTree nie zrobi tego, co chcę. Sprawdziłem dokumentację lxml i wygląda na to, że będzie ona ... xecute gcc-4.0: No such file or directory error: Setup script exited with error: command 'gcc-4.0' failed with exit status 1

Parsowanie zepsutego XML za pomocą lxml.etree.iterparse

Próbuję przetworzyć ogromny plik xml za pomocą lxml w sposób efektywny pamięciowo (tj. leniwie streamować z dysku zamiast ład ... chardet uważa, że jest to plik ascii, ale w środku tego przykładu znajduje się "\x1e", co sprawia, że lxml wywołuje wyjątek.

Pobierz wewnętrzny HTML elementu w lxml

Próbuję uzyskać zawartość HTML węzła potomnego za pomocą lxml i xpath w Pythonie. Jak pokazano w kodzie poniżej, chcę znaleźć ... productGrids = tree.xpath("//div[@class='name']/parent::*") for product in productGrids: print #html content of product