text-mining
Czym jest "Entropia i zysk z informacji"?
Czytam tę książkę (NLTK) i jest to mylące. Entropia jest zdefiniowana jako :
Entropia jest sumą prawdopodobieństwa każ ... tosować entropię i maksymalną entropię w odniesieniu do eksploracji tekstu? Może mi ktoś podać prosty przykład (wizualny)?
Jak mogę grupować dokument używając k-means (Flann z Pythonem)?
Chcę grupować dokumenty na podstawie podobieństwa.
Próbowałem ssdeep (similarion hashing), bardzo szybko, ale powiedziano mi ... bliotekę, która obsługuje klastrowanie tekstu/dokumentów, które mają wrapper/API Pythona.
czy k - oznacza właściwy algorytm?
Jak wyszukać wzorzec w pliku tekstowym za pomocą Pythona łączącego operacje regex i string/file i przechowującego instancje wzorca?
Więc zasadniczo Szukam konkretnie 4-cyfrowego kodu w dwóch nawiasach kątowych w pliku tekstowym. Wiem, że muszę otworzyć plik ... e.compile("(<(\d{4,5})>)?")
Myślę, że nie muszę zawierać tyle kodu, biorąc pod uwagę jego dość podstawowy jak dotąd.
Co to jest format danych CoNLL?
Jestem nowy w eksploracji tekstu. Używam open source Jar (Mate Parser), który daje mi wyjście w formacie CoNLL 2009 po parsow ... mieć formatu danych CoNLL. Czy ktoś może mi pomóc w zrozumieniu formatu danych CoNLL?? Wszelkie wskazówki będą mile widziane.
Uczenie maszynowe na dużą skalę [zamknięte]
Muszę uruchomić różne techniki uczenia maszynowego na dużym zbiorze danych (10-100 miliardów rekordów)
Problemy dotyczą główn ... rastrukturę MapReduce
Silne preferencje do c++, ale Java i python są ok
Amazon Azure czy własne datacenter (stać nas na to)?
Twórz ramki danych top N dla wielu korpusów za pomocą pakietu tm w R
Mam kilka TermDocumentMatrixs utworzonych z tm pakietu w R.
Chcę znaleźć 10 najczęściej występujących terminów w każdym zbi ... Nmst frequent terms ale odpowiedź tutaj była dla mnie bardzo nieprzejrzysta, więc chciałem przeformułować pytanie.
Dzięki!
Wykrywanie języka tekstowego w R
W R mam listę tweetów i chciałbym zachować tylko te, które są w języku angielskim.
Zastanawiam się, czy ktoś z Was zna pakiet R, który zapewnia prosty sposób na identyfikację języka łańcucha znaków.
Cheers,
z
Czy istnieją API do analizy/wydobywania tekstu w Javie? [zamknięte]
Chcę wiedzieć, czy istnieje API do analizy tekstu w Javie. Coś, co może wyodrębnić wszystkie słowa w tekście, oddzielne słowa ... ne z tekstem.
Czy są API do analizy tekstu w Javie?
EDIT: text-mining, chcę wydobyć tekst. API dla Javy, które to zapewnia.
Użyj R do konwersji plików PDF na pliki tekstowe do wydobywania tekstu
Mam prawie tysiąc artykułów w czasopismach pdf w folderze. Muszę napisać mój na wszystkich abstraktach artykułu z całego fold ... ie treści między abstraktem a wstępem w każdym artykule; ale nie jestem w stanie tego zrobić. Każda pomoc jest mile widziana.
Algorytm klasyfikacji/kategoryzacji tekstu [zamknięty]
Moim celem jest automatyczne przypisywanie tekstów do różnych kategorii. Istnieje zestaw kategorii zdefiniowanych przez użytk ... klasyfikować nowe teksty.
Czy ktoś może zasugerować taki algorytm, a może bibliotekę. NET, która implementuje ten algorytm?
Naprawdę szybka wektoryzacja słowa ngram w R
Edit: nowy pakiet text2vec jest doskonały i rozwiązuje ten problem (i wiele innych) naprawdę dobrze.
Text2vec na CRAN
text2 ... m.time(tau_ng2 <- tau::textcnt(as.list(sents2), n = 2L, method = "string", recursive = TRUE))
tau_t2 / zach_t2 #1.9295619
R dokumenty wydobywania tekstu z pliku CSV (jeden wiersz na dokument)
Próbuję pracować z pakietem tm w R i mam plik CSV opinii klientów, z każdą linią będącą inną instancją opinii. Chcę zaimporto ... derze i utworzyć z tego corpus... ale myślę, że jest o wiele prostsza odpowiedź, czytając każdą linijkę jako osobny dokument.
Najlepszy algorytm klastrowania? (po prostu wyjaśnione)
Wyobraź sobie następujący problem:
masz bazę danych zawierającą około 20 000 tekstów w tabeli o nazwie "artykuły"
chcesz ... ienia dla mnie. Więc kodowanie przykładów w (pseudo) kodzie byłoby świetne.
Mam nadzieję, że możesz pomóż mi. Z góry dzięki!
Text-mining with the TM-package-word stemming
Wykonuję eksplorację tekstu w R za pomocą tm - package. Wszystko działa bardzo gładko. Jednak jeden problem pojawia się po st ... heir original form
corpus.final <- tm_map(corpus.temp, stemCompletion, dictionary = corpus.copy)
inspect(corpus.final)