lxml pg. 2

Usuń wszystkie znaczniki javascript i znaczniki stylów z html za pomocą Pythona i modułu lxml

Analizuję dokument html używając http://lxml.de / biblioteka. Do tej pory odkryłem, jak usunąć znaczniki z dokumentu html w ... er-class.html / align = "left" / Użyj klasy, aby wyczyścić dokument. Jakakolwiek pomoc, może krótki przykład by mi pomógł!

Python sax to lxml for 80 + GB XML

Jak odczytać plik XML za pomocą sax i przekonwertować go na etree lxml.iterparse element? Aby zapewnić przegląd problemu, zb ... elf._artist_type_count = count self._cleanup(element) del element Daj mi znać, jeśli Mogę dodać jakieś wyjaśnienie.

python lxml sax

Jak wybrać następujący znacznik rodzeństwa / XML za pomocą xpath

Mam plik HTML (z Newegg) i ich HTML jest zorganizowany jak poniżej. Wszystkie dane w tabeli specyfikacji to " desc", podczas ... ss="name"]/nextsibling?).text I robi to dla reszty wartości. Jak osiągnąć następny krok i czy jest na to łatwiejszy sposób?

xml lxml xpath

Znajdowanie elementów według atrybutów za pomocą lxml

Muszę przeanalizować plik xml, aby wyodrębnić niektóre dane. Potrzebuję tylko niektórych elementów z pewnymi atrybutami, oto ... if article.attrib['type'] == 'news': content = article.find('content') content = content.text

python find attributes lxml

Jak używać przestrzeni nazw xml z find / findall w lxml?

Próbuję przeanalizować zawartość w arkuszu kalkulacyjnym OpenOffice ODS. Format ods to w zasadzie tylko plik zipfile z wielom ... ages/lxml/_elementpath.py", line 184, in _build_path_iterator selector.append(ops[token[0]](_next, token)) KeyError: ':'

python xml xml-namespaces lxml elementtree

Efektywny sposób iteracji elementów xml

Mam taki xml: <a> <b>hello</b> <b>world</b> </a> <x> <y></y& ... rogi w użyciu. Zastanawiam się, może istnieje bardziej efektywny sposób na iterację przez nieskończoną liczbę elementów xml?

python lxml

używanie lxml i iterparse() do analizy dużego (+- 1GB) pliku XML

Muszę przetworzyć plik XML 1Gb o strukturze takiej jak poniżej i wyodrębnić tekst w znacznikach "autor " i"treść": <Data ... jąć. Ponadto, jeśli nie było to dość oczywiste, jestem całkiem nowy w Pythonie i po raz pierwszy używam lxml. Proszę, pomocy!

python xml parsing lxml iterparse

Usuń przestrzeń nazw i prefiks z XML w Pythonie za pomocą lxml

Mam plik xml, który muszę otworzyć i wprowadzić pewne zmiany, jedną z tych zmian jest usunięcie przestrzeni nazw i prefiksu, ... ue, xml_declaration = True, encoding = 'UTF-8') Więc jak dodać kod w moim skrypcie, który usunie przestrzeń nazw a prefiks?

python namespaces xml lxml

Kodowanie w Pythonie za pomocą lxml-kompleksowe rozwiązanie

Muszę pobrać i przeanalizować stronę z lxml i zbudować wyjście UTF-8 xml. Myślę, że schemat w pseudokodzie jest bardziej ilus ... ', '.join(converted.triedEncodings) continue webfile = converted.unicode.encode('utf-8')

python lxml

jak usunąć element w lxml

Muszę całkowicie usunąć elementy, bazując na zawartości atrybutu, używając lxml Pythona. Przykład: import lxml.etree as et ... roceries>\n" for elt in tree.xpath('//fruit[@state=\'fresh\']'): newxml+=et.tostring(elt) newxml+="</groceries>"

python xml lxml

Generowanie xml w Pythonie i lxml

Mam ten xml z sql, i chcę zrobić to samo przez python 2.7 i lxml <?xml version="1.0" encoding="utf-16"?> <results& ... (filename,"w") FILE.writelines(etree.tostring(root, pretty_print=True)) FILE.close() Czy wiesz jak dodać resztę atrybutów?

python xml lxml

Instalacja lxml z pip w virtualenv Ubuntu 12.10 błąd: polecenie 'gcc' nie powiodło się ze statusem wyjścia 4

Mam następujący błąd podczas próby uruchomienia "pip install lxml" w virtualenv w Ubuntu 12.10 x64. Mam Pythona 2.7. Widział ... with error code 1 in /home/admin/.virtualenvs/dev.actualito.com/build/lxml Storing complete log in /home/admin/.pip/pip.log

python gcc django lxml

Jak znaleźć rekurencyjnie dla tagu XML za pomocą LXML?

<?xml version="1.0" ?> <data> <test > <f1 /> </test > <test2 > ... ? Próbowałem metody findall, ale działa tylko dla najbliższych dzieci. Myślę, że powinienem pójść na BeautifulSoup za to !!!

python find xml lxml

Python: używanie XPath lokalnie / na określonym elemencie

Próbuję pobrać linki ze strony z xpath. Problem polega na tym, że chcę tylko linki wewnątrz tabeli, ale jeśli zastosuję wyraż ... muszę uczynić je względnymi? To wszystko? Zasadniczo, jak mogę filtrować tylko elementy, które istnieją wewnątrz tej tabeli?

python lxml xpath

Py2exe lxml

Mam aplikację wxpython, która zależy od lxml i działa dobrze podczas uruchamiania go przez interpreter Pythona. Jednak podcza ... o alternatywy, ale dostałem to samo ImportError: No module named _elementpath Błąd. Nie wiedziałem, jak dalej postępować.

python lxml py2exe wxpython

Jak znaleźć elementy XML za pomocą XPath w Pythonie w przestrzeni nazw-agnostic sposób?

Ponieważ miałem ten irytujący problem po raz drugi, pomyślałem, że prośba pomoże. Czasami muszę pobierać elementy z dokument ... ext.find("//Description/following-sibling::*", rdf_tree) Zgodny z dokumentem, prosty, świadomy przestrzeni nazw; doskonały.

python xml lxml xpath elementtree

Python pretty XML printer with lxml

Po odczytaniu z istniejącego pliku z 'brzydkim' XML i dokonaniu pewnych modyfikacji, drukowanie pretty nie działa. Próbowałem ... l') root = tree.getroot() ... # modifications ... with open(FILE_NAME, "w") as f: tree.write(f, pretty_print=True)

python pretty-print lxml

Instalacja łatwa instalacja ... aby przejść do instalacji lxml

Pogodziłem się z faktem, że ElementTree nie zrobi tego, co chcę. Sprawdziłem dokumentację lxml i wygląda na to, że będzie ona ... xecute gcc-4.0: No such file or directory error: Setup script exited with error: command 'gcc-4.0' failed with exit status 1

python easy-install lxml

Parsowanie zepsutego XML za pomocą lxml.etree.iterparse

Próbuję przetworzyć ogromny plik xml za pomocą lxml w sposób efektywny pamięciowo (tj. leniwie streamować z dysku zamiast ład ... chardet uważa, że jest to plik ascii, ale w środku tego przykładu znajduje się "\x1e", co sprawia, że lxml wywołuje wyjątek.

python xml lxml sax

Pobierz wewnętrzny HTML elementu w lxml

Próbuję uzyskać zawartość HTML węzła potomnego za pomocą lxml i xpath w Pythonie. Jak pokazano w kodzie poniżej, chcę znaleźć ... productGrids = tree.xpath("//div[@class='name']/parent::*") for product in productGrids: print #html content of product

python lxml xpath