nlp

Nltk-Częstotliwość liczenia Bigramu

To jest Python i nltk newbie pytanie. Chcę znaleźć częstotliwość bigramów, które występują ponad 10 razy razem i mają najwy ... . Widzę wyniki, które mają częstotliwość Czy ktoś może wskazać, jak to zmodyfikować, aby uzyskać tylko top 20. Dziękuję

model języka nltk (ngram) Oblicz prob słowa z kontekstu

Używam Pythona i NLTK do budowania modelu języka w następujący sposób: from nltk.corpus import brown from nltk.probabilit ... (word, ' '.join(context))) TypeError: not all arguments converted during string formatting Czy ktoś może mi pomóc? Dzięki!

NLP i Machine learning do analizy nastrojów [zamknięty]

zamknięte. to pytanie nie spełnia wytycznych dotyczących przepełnienia stosu . Obecnie nie przyjmuje odpowiedzi. ... to Pozdrawiam. Z góry dzięki! PS: Proszę wymienić wszelkie powiązane algorytmy lub open-source realizacja Pozdrawiam, Mike

Jakie znaczenie ma długość wektora Word2vec?

Używam Word2vec poprzez gensim z przygotowanymi przez Google wektorami szkolonymi w Google News. Zauważyłem, że wektory słowa ... znaczenie? Na jakie obliczenia ma sens stosowanie wektorów znormalizowanych i kiedy należy stosować wektory nienormalizowane?

Odległość Hamming vs. odległość Levenshtein

Dla problemu, nad którym pracuję, znajdowanie odległości między dwoma sekwencjami w celu określenia ich podobieństwa, kolejno ... czba ruchów, aby dopasować sekwencje, nie ma wyraźnego powodu, aby wybrać Levenshteina zamiast Hamminga jako metrykę, prawda?

Generowanie N-gramów ze zdania

Jak wygenerować n-gram ciągu Jak: String Input="This is my car." Chcę wygenerować n-gram z tym wejściem: Input Ngram si ... jest dla niego dostępna. Próbuję użyć tego Ngramtokenizera , ale daje n-gram sekwencji znaków i chcę n-gram sekwencji słów.

Jak wykryć, że dwa zdania są podobne?

Chcę obliczyć, jak podobne są do siebie dwa dowolne zdania. Na przykład: Matematyk znalazł rozwiązanie problemu. Pro ... iązał Młody matematyk. Mogę używać taggera, stemmera i parsera, ale nie wiem jak to zrobić, żeby te zdania były podobne.

Co oznacza wynik algorytmu Brown clustering?

Uruchomiłem algorytm brown-clustering z https://github.com/percyliang/brown-cluster oraz implementacja Pythona https://git ... ak mogę stwierdzić na wyjściu, że dog and mouse and cat jest jednym klastrem, a the and chased nie jest w tym samym klastrze?

Algorytm podobieństwa tekstu

Mam dwa pliki z napisami. Potrzebuję funkcji, która mówi, czy reprezentują ten sam tekst, czy podobny tekst Czasami pojaw ... ukiwania-nie oczywiście Levenshtein, ale algorytm musi być zastosowany do pliku jako całości. To będzie bardzo długi sznurek.

SpaCy: jak wczytać wektory Google news word2vec?

Wypróbowałem kilka metod ładowania wektorów google news word2vec ( https://code.google.com/archive/p/word2vec/): en_nlp = sp ... ujący błąd: lib/python3.6/site-packages/spacy/cfile.pyx in spacy.cfile.CFile.read_into (spacy/cfile.cpp:1279)() OSError:

Wydobywanie relacji między podmiotami w Stanford CoreNLP

Chcę wyodrębnić pełną relację między dwoma bytami za pomocą Stanford CoreNLP (a może innych narzędzi). Na przykład: Win ... jpopularniejszą grą na świecie. Jaki jest najszybszy sposób? A jaka jest najlepsza praktyka w tym zakresie? Z góry dzięki

Parser NLP w Haskell [zamknięty]

Czy Haskell ma dobry a) parser języka naturalnego b) część znacznika mowy (c) biblioteka nlp (a la python ' s nltk)

Wyodrębnij trzy zdania podmiotowe, predykat i obiektowe

Próbuję wyodrębnić triplet podmiot, orzeczenie i przedmiot ze zdania. Potrzebuję więcej referencji, jak to zrobić.

Model LDA generuje różne tematy za każdym razem, gdy trenuję na tym samym korpusie

Używam Pythona gensim do trenowania utajonego modelu alokacji Dirichleta (LDA) z małego korpusu 231 zdań. Jednak za każdym ra ... lda, corpus_lda, topic_clusters, topic_wordonly = generateTopics(corpus, dictionary) for i in topic_wordonly: print i

Baza koniugacji czasowników [zamknięta]

Czy ktoś zna dobrą bazę koniugacji czasowników? Buduję aplikację do przetwarzania języka naturalnego. Chociaż udało mi się św ... danych MySQL (lub coś, co mogę łatwo przekształcić w bazę danych MySQL), więc mogę zrobić własne przetwarzanie i obliczenia.

Określenie położenia geograficznego w tekście

Jaki rodzaj pracy został wykonany, aby ustalić, czy dany ciąg odnosi się do położenia geograficznego? Na przykład: 'troy, ... onsekwentnie dostępny wskaźnik lokalizacji. Czy ktoś może wskazać mi podejścia, dokumenty lub istniejące narzędzia? Dzięki!

Narzędzia do przetwarzania języka naturalnego: co tam jest, a co nie? [zamknięte]

Szukam różnych narzędzi NLP do projektu, nad którym pracuję i w tej chwili najbardziej przydatne okazały się projekty Stanfor ... akademikiem (studentem pracującym nad projektem badawczym) i Szukam głównie projektów open source lub przynajmniej open api.

Prosta Analiza Nastrojów

Wygląda na to, że najprostszym, naiwnym sposobem wykonania podstawowej analizy nastrojów jest klasyfikacja bayesowska (potwierdzona przez to, co znajduję tutaj NA SO). Jakieś kontrargumenty lub inne sugestie?

Angielski czasownik inflector

Czy ktoś zna angielski czasownik inflector, który mogę użyć w leksykonie czasowników (w czasie teraźniejszym-imiesłowem), któ ... =================== run ran, running, runs sing sang, singing, sings play played, playing, plays