text-mining

Czym jest "Entropia i zysk z informacji"?

Czytam tę książkę (NLTK) i jest to mylące. Entropia jest zdefiniowana jako : Entropia jest sumą prawdopodobieństwa każ ... tosować entropię i maksymalną entropię w odniesieniu do eksploracji tekstu? Może mi ktoś podać prosty przykład (wizualny)?

Jak mogę grupować dokument używając k-means (Flann z Pythonem)?

Chcę grupować dokumenty na podstawie podobieństwa. Próbowałem ssdeep (similarion hashing), bardzo szybko, ale powiedziano mi ... bliotekę, która obsługuje klastrowanie tekstu/dokumentów, które mają wrapper/API Pythona. czy k - oznacza właściwy algorytm?

Jak wyszukać wzorzec w pliku tekstowym za pomocą Pythona łączącego operacje regex i string/file i przechowującego instancje wzorca?

Więc zasadniczo Szukam konkretnie 4-cyfrowego kodu w dwóch nawiasach kątowych w pliku tekstowym. Wiem, że muszę otworzyć plik ... e.compile("(<(\d{4,5})>)?") Myślę, że nie muszę zawierać tyle kodu, biorąc pod uwagę jego dość podstawowy jak dotąd.

Co to jest format danych CoNLL?

Jestem nowy w eksploracji tekstu. Używam open source Jar (Mate Parser), który daje mi wyjście w formacie CoNLL 2009 po parsow ... mieć formatu danych CoNLL. Czy ktoś może mi pomóc w zrozumieniu formatu danych CoNLL?? Wszelkie wskazówki będą mile widziane.

Uczenie maszynowe na dużą skalę [zamknięte]

Muszę uruchomić różne techniki uczenia maszynowego na dużym zbiorze danych (10-100 miliardów rekordów) Problemy dotyczą główn ... rastrukturę MapReduce Silne preferencje do c++, ale Java i python są ok Amazon Azure czy własne datacenter (stać nas na to)?

Twórz ramki danych top N dla wielu korpusów za pomocą pakietu tm w R

Mam kilka TermDocumentMatrixs utworzonych z tm pakietu w R. Chcę znaleźć 10 najczęściej występujących terminów w każdym zbi ... Nmst frequent terms ale odpowiedź tutaj była dla mnie bardzo nieprzejrzysta, więc chciałem przeformułować pytanie. Dzięki!

Wykrywanie języka tekstowego w R

W R mam listę tweetów i chciałbym zachować tylko te, które są w języku angielskim. Zastanawiam się, czy ktoś z Was zna pakiet R, który zapewnia prosty sposób na identyfikację języka łańcucha znaków. Cheers, z

Czy istnieją API do analizy/wydobywania tekstu w Javie? [zamknięte]

Chcę wiedzieć, czy istnieje API do analizy tekstu w Javie. Coś, co może wyodrębnić wszystkie słowa w tekście, oddzielne słowa ... ne z tekstem. Czy są API do analizy tekstu w Javie? EDIT: text-mining, chcę wydobyć tekst. API dla Javy, które to zapewnia.

Użyj R do konwersji plików PDF na pliki tekstowe do wydobywania tekstu

Mam prawie tysiąc artykułów w czasopismach pdf w folderze. Muszę napisać mój na wszystkich abstraktach artykułu z całego fold ... ie treści między abstraktem a wstępem w każdym artykule; ale nie jestem w stanie tego zrobić. Każda pomoc jest mile widziana.

Algorytm klasyfikacji/kategoryzacji tekstu [zamknięty]

Moim celem jest automatyczne przypisywanie tekstów do różnych kategorii. Istnieje zestaw kategorii zdefiniowanych przez użytk ... klasyfikować nowe teksty. Czy ktoś może zasugerować taki algorytm, a może bibliotekę. NET, która implementuje ten algorytm?

Naprawdę szybka wektoryzacja słowa ngram w R

Edit: nowy pakiet text2vec jest doskonały i rozwiązuje ten problem (i wiele innych) naprawdę dobrze. Text2vec na CRAN text2 ... m.time(tau_ng2 <- tau::textcnt(as.list(sents2), n = 2L, method = "string", recursive = TRUE)) tau_t2 / zach_t2 #1.9295619

R dokumenty wydobywania tekstu z pliku CSV (jeden wiersz na dokument)

Próbuję pracować z pakietem tm w R i mam plik CSV opinii klientów, z każdą linią będącą inną instancją opinii. Chcę zaimporto ... derze i utworzyć z tego corpus... ale myślę, że jest o wiele prostsza odpowiedź, czytając każdą linijkę jako osobny dokument.

Najlepszy algorytm klastrowania? (po prostu wyjaśnione)

Wyobraź sobie następujący problem: masz bazę danych zawierającą około 20 000 tekstów w tabeli o nazwie "artykuły" chcesz ... ienia dla mnie. Więc kodowanie przykładów w (pseudo) kodzie byłoby świetne. Mam nadzieję, że możesz pomóż mi. Z góry dzięki!

Text-mining with the TM-package-word stemming

Wykonuję eksplorację tekstu w R za pomocą tm - package. Wszystko działa bardzo gładko. Jednak jeden problem pojawia się po st ... heir original form corpus.final <- tm_map(corpus.temp, stemCompletion, dictionary = corpus.copy) inspect(corpus.final)