nltk

Czym jest "Entropia i zysk z informacji"?

Czytam tę książkę (NLTK) i jest to mylące. Entropia jest zdefiniowana jako : Entropia jest sumą prawdopodobieństwa każ ... tosować entropię i maksymalną entropię w odniesieniu do eksploracji tekstu? Może mi ktoś podać prosty przykład (wizualny)?

Python: TF-idf-cosine: aby znaleźć podobieństwo dokumentów

Śledziłem tutorial, który był dostępny w Część 1 & Część 2 . Niestety autor nie miał czasu na ostatnią część, która poleg ... odobieństwa w odniesieniu do dwóch wektorów o podobnej długości, ale tutaj nie jestem pewien, jak zidentyfikować dwa wektory.

Tworzenie nowego korpusu z NLTK

Uznałem, że często odpowiedzią na mój tytuł jest iść i przeczytać dokumenty, ale przejrzałem książkę NLTK , ale to nie daje o ... ane dane do plików tekstowych? Edit: To pytanie miało kiedyś nagrodę, a teraz ma drugą nagrodę. Zobacz tekst w polu bounty.

Jak sprawdzić, czy słowo jest angielskim słowem w Pythonie?

Chcę sprawdzić w programie Pythona, czy słowo znajduje się w angielskim słowniku. Wierzę, że interfejs wordnet nltk może być ... w słowniku znajduje się forma pojedyncza wyrazu (np. properties -> property -> English word). Jak miałbym to osiągnąć?

Jakie są wszystkie możliwe tagi pos NLTK?

Jak znaleźć listę ze wszystkimi możliwymi znacznikami pos używanymi przez Zestaw Narzędzi języka naturalnego (nltk)?

generowanie znaczników z zawartości tekstowej

Jestem ciekaw, czy istnieje algorytm / metoda do generowania słów kluczowych / tagów z danego tekstu, za pomocą niektórych ob ... nych narzędzi. DODATKOWO będę wdzięczny, jeśli wskażesz do tego jakieś rozwiązanie / bibliotekę opartą na Pythonie. Thanks

Usuwanie hasła z NLTK

Próbuję przetworzyć wprowadzony przez użytkownika tekst, usuwając słowa stopowe za pomocą zestawu narzędzi nltk, ale przy usu ... ia. Nie wiem, które słowa mogą być operatorami w zapytaniu tekstowym, a także chcę usunąć niepotrzebne słowa z mojego tekstu.

Klasyfikowanie dokumentów w kategoriach

Mam około 300K dokumentów przechowywanych w bazie Postgres, które są oznaczone kategoriami tematycznymi(w sumie jest około 15 ... katora na wypadek, gdyby dokument nie pasował do żadnej z kategorii? Oto moja klasa testowa http://gist.github.com/451880

n-gram w Pythonie, 4, 5, 6 gramów?

Szukam sposobu na podzielenie tekstu na N-gram. Normalnie zrobiłbym coś takiego: import nltk from nltk import bigrams strin ... bigramy i trygramy, ale czy jest sposób, aby podzielić mój tekst na cztery gramy, pięć gramów lub nawet sto gramów? Dzięki!

Zapisz naiwnego Bayesa wyszkolonego klasyfikatora w NLTK

Jestem nieco zdezorientowany, jeśli chodzi o to, jak ratuję wyszkolonego klasyfikatora. Jak w, ponowne szkolenie klasyfikator ... (fval|label, fname) distribution feature_probdist = {} return NaiveBayesClassifier(label_probdist, feature_probdist)

jaka jest prawdziwa różnica między lematyzacją a stematyzacją?

Kiedy używam każdego ? Also...is lematyzacja NLTK uzależniona od części mowy? Czy nie byłoby to bardziej dokładne, gdyby tak było?

lematyzacja wordnet i tagowanie pos w Pythonie

Chciałem użyć wordnet lemmatizer w Pythonie i dowiedziałem się, że domyślnym znacznikiem pos jest rzeczownik i że nie wyświet ... et? Również czy muszę trenować nltk.pos_tag() z oznaczonym korpusem, czy mogę użyć go bezpośrednio na moich danych do oceny?

Implementacja worka-of-Words-Bayes classifier w NLTK

W zasadzie mam to samo pytanie co ten facet .. Przykład w książce nltk dla naiwnego klasyfikatora Bayesa uwzględnia tylko t ... ego zrobić z wbudowanymi klasyfikatorami NLTK. O to chodzi? Jak zrobić klasyfikację częstotliwości / worków słów NB z NLTK?

nltk NaiveBayesClassifier training for sentiment analysis

Trenuję NaiveBayesClassifier w Pythonie używając zdań, i to daje mi błąd poniżej. Nie rozumiem, jaki może być błąd, a każda p ... b\re.py", line 151, in sub return _compile(pattern, flags).sub(repl, string, count) TypeError: expected string or buffer

Jak podkręcić Tokenizer zdań nltk

Używam NLTK do analizy kilku klasycznych tekstów i mam problemy z tokenizacją tekstu przez zdanie. Na przykład, oto co dostaj ... oś jakieś zalecenia co do lepszego tokenizera zdań? Wolę prostą heurystykę, którą mogę zhakować, niż trenować własny parser.

Znacznik pos Pythona nltk nie zwraca prawidłowego znacznika części mowy

Mając to: text = word_tokenize("The quick brown fox jumps over the lazy dog") I bieg: nltk.pos_tag(text) Otrzymuję: ... tego za pomocą swojego narzędzia online daje taki sam wynik; quick, brown i fox powinny być przymiotniki, a nie rzeczowniki.

Parsing city of origin / destination city from a string

Mam ramkę danych pandy, gdzie jedna kolumna to wiązka łańcuchów z pewnymi szczegółami podróży. Moim celem jest przeanalizowan ... ] Utknąłem na tym etapie i nie jestem pewien, jak najlepiej to wdrożyć. Czy ktoś może wskazać mi właściwy kierunek? Dzięki.

Błąd SSL pobieranie danych NLTK

Próbuję pobrać NLTK 3.0 do użytku z Pythonem 3.6 Na Mac OS X 10.7.5, ale dostaję błąd SSL: import nltk nltk.download() ... łem za pomocne: Nltk download SSL: weryfikacja certyfikatu nie powiodła się Błąd pobierania korzystanie z nltk.Pobierz()

Analizowanie ilości składników języka naturalnego dla przepisów

Buduję aplikację do zarządzania recepturami ruby, a jako jej część chcę być w stanie analizować ilości składników do postaci, ... o być lbs. Dodałem również znacznik NLTK, ponieważ zastanawiam się, czy byłoby to łatwiejsze do zrobienia w Pythonie z NLTK.

jak sprawdzić, która wersja nltk, scikit learn zainstalowana?

W skrypcie shell sprawdzam czy te pakiety są zainstalowane czy nie, jeśli nie są zainstalowane to zainstaluj je. Tak więc skr ... any. Czy jest inny sposób na sprawdzenie instalacji pakietu w skrypcie powłoki, jeśli nie jest zainstalowany, zainstaluj go.