text-extraction

Moduł Pythona do konwersji plików PDF na tekst [zamknięty]

Jakie są najlepsze Moduły Pythona do konwersji plików PDF na tekst?

Jak wyodrębnić podłańcuch za pomocą wyrażenia regularnego

Mam ciąg znaków, który zawiera dwa pojedyncze cudzysłowy, znak '. Pomiędzy pojedynczymi cudzysłowami są dane, które chcę. Ja ... regularne, aby wyodrębnić "dane, które chcę" z następującego tekstu? mydata = "some string with 'the data i want' inside";

Wydobywanie tekstu z pliku PDF za pomocą PDFMiner w Pythonie?

Python Version 2.7 Szukam dokumentacji lub przykładów jak wyodrębnić tekst z pliku PDF za pomocą PDFMiner w Pythonie. Wy ... e jestem pewien, jak to zrobić. Tak jak jest, jestem po prostu patrzę na kod źródłowy, żeby zobaczyć, czy mogę to rozgryźć.

Jak wyodrębnić ciąg znaków według wzorca za pomocą GREP, REGEX lub PERL

Mam plik, który wygląda mniej więcej tak: <table name="content_analyzer" primary-key="id"> <type="global" /> ... r2 i content_analyzer_items. Robię to na Linuksie, więc rozwiązanie wykorzystujące sed, perl, grep lub bash jest w porządku.

Jaki jest stan wiedzy w ekstrakcji treści HTML?

Jest wiele prac naukowych na temat ekstrakcji treści HTML, np. Gupta & Kaiser (2005) ekstrakcja treści z dostępnych stro ... a w rzeczywistości znaleźć istotne. Aby sprostać aktualnemu stanowi, nowe odpowiedzi muszą dotyczyć cruft-from-meat peoblem.

Jak wyodrębnić tekst z dokumentów MS office w C#

Próbowałem wyodrębnić tekst (string) z MS Word (.doc,docx), Excel i Powerpoint przy użyciu C#. Gdzie mogę znaleźć darmową i prostą bibliotekę. NET do odczytu dokumentów MS Office? Próbowałem użyć NPOI, ale nie dostałem próbki o tym, jak używać NPOI.

Wyodrębnij kolumny tekstu z pliku pdf za pomocą iText

Muszę wyodrębnić tekst z plików pdf za pomocą iText. Problem polega na tym, że niektóre pliki pdf zawierają 2 kolumny, a gdy ... fw.close(); }catch (IOException ioe) {ioe.printStackTrace(); } } } Czy mógłbyś mi pomóc z tym zadaniem?

Wyrażenie regularne do wyodrębniania tekstu z HTML

Chciałbym wyodrębnić z ogólnej strony HTML cały tekst (wyświetlany lub nie). Chciałbym usunąć dowolne znaczniki HTML dowolny javascript dowolne style CSS Czy istnieje wyrażenie regularne (jedno lub więcej), które to osiągnie?

Wyodrębnij wszystkie adresy e-mail z tekstu zbiorczego za pomocą jquery

Mam ten tekst poniżej: [email protected], "assdsdf" <[email protected]>, "rodnsdfald ferdfnson ... obecne powyżej i zapisać je w tablicy. Czy istnieje łatwy sposób za pomocą regex, aby uzyskać wszystkie e-maile bezpośrednio?