n-gram

Prosta implementacja podobieństwa n-Gram, TF-idf i cosinus w Pythonie

Muszę porównać dokumenty przechowywane w DB i uzyskać wynik podobieństwa między 0 a 1. Metoda, której potrzebuję, musi być ... ą TF-idf i podobieństwa cosinusów. Czy Jest jakiś program, który może to zrobić? A może powinienem zacząć pisać to od nowa?

Wyszukiwanie nazw plików za pomocą ElasticSearch

Chcę użyć ElasticSearch do wyszukiwania nazw plików (nie zawartości pliku). Dlatego muszę znaleźć część nazwy pliku (dokładne ... lename:2012.01.13 ' for file in ${FILES} do echo; echo; echo ">>> ${file}" curl "${file}&pretty=true" done

n-gram w Pythonie, 4, 5, 6 gramów?

Szukam sposobu na podzielenie tekstu na N-gram. Normalnie zrobiłbym coś takiego: import nltk from nltk import bigrams strin ... bigramy i trygramy, ale czy jest sposób, aby podzielić mój tekst na cztery gramy, pięć gramów lub nawet sto gramów? Dzięki!

Python: ograniczenie wykorzystania pamięci w słowniku

Próbuję załadować kilka plików do pamięci. Pliki mają jeden z następujących 3 formatów: string TAB int string tab float ... zrobić Google Translate tak szybko: muszą używać dużo techniki + dużo mocy serwerów? Dziękuję bardzo. Czekam na twoją radę.

Szybkie obliczanie n-gramów

Używam NLTK do wyszukiwania n-gramów w ciele, ale w niektórych przypadkach zajmuje to bardzo dużo czasu. Zauważyłem, że oblic ... bszy sposób znalezienia n-gramów w moim ciele, jeśli porzucę NLTK? Jeśli tak, to czego mogę użyć, aby przyspieszyć działanie?

N-gram: Wyjaśnienie + 2 wnioski

Chcę zaimplementować niektóre aplikacje z n-gramami (najlepiej w PHP). Który typ n-gramów jest bardziej odpowiedni dla wię ... ożliwe.]} Co sądzicie o moim podejściu do aplikacji, szczególnie o ostatnim? Mam nadzieję, że mi pomożesz. Z góry dzięki!

Computing ng using Python

Musiałem obliczyć Unigramy, Bigramy i trygramy dla pliku tekstowego zawierającego tekst w stylu: "Mukowiscydoza dotyka 30 0 ... y chcę go z Między słowami, jak w torbielowatości i mukowiscydozie lub mukowiscydozie. Czy ktoś może mi pomóc Jak to zrobić?

Elasticsearch: Znajdź pasujące podłoże

Chcę wykonać zarówno dokładne dopasowanie słów, jak i częściowe dopasowanie słów/podłańcuchów. Na przykład jeśli poszukam "go ... zę Zasugeruj mi, jak osiągnąć zarówno exact phrase match, jak i partial phrase match używając tego samego ustawienia indeksu.

Tworzenie pliku modelu języka ARPA za pomocą 50 000 słów

Chcę utworzyć plik modelu języka ARPA z prawie 50 000 słów. Nie mogę wygenerować modelu języka, przekazując mój plik tekstowy do Narzędzia języka CMU. Czy jest dostępny jakiś inny link, gdzie mogę uzyskać Model języka dla tych wielu słów?

Naprawdę szybka wektoryzacja słowa ngram w R

Edit: nowy pakiet text2vec jest doskonały i rozwiązuje ten problem (i wiele innych) naprawdę dobrze. Text2vec na CRAN text2 ... m.time(tau_ng2 <- tau::textcnt(as.list(sents2), n = 2L, method = "string", recursive = TRUE)) tau_t2 / zach_t2 #1.9295619

liczenie częstotliwości n-gram w Pythonie nltk

Mam następujący kod. Wiem, że mogę użyć funkcji apply_freq_filter do filtrowania kolokacji, które są mniejsze niż liczba częs ... finder = BigramCollocationFinder.from_words(tokens) finder.apply_freq_filter(3) print finder.nbest(bigram_measures.pmi, 100)

Wyodrębnij frazy kluczowe z tekstu (1-4 wyrazowe ngramy)

Jaki jest najlepszy sposób na wyodrębnienie fraz klawiszowych z bloku tekstu? Piszę narzędzie do ekstrakcji słów kluczowych: ... nie ma żadnych istniejących bibliotek JavaScript, czy ktoś może wyjaśnić, jak to zrobić, abym mógł po prostu napisać to sam?

Generowanie N-gramów ze zdania

Jak wygenerować n-gram ciągu Jak: String Input="This is my car." Chcę wygenerować n-gram z tym wejściem: Input Ngram si ... jest dla niego dostępna. Próbuję użyć tego Ngramtokenizera , ale daje n-gram sekwencji znaków i chcę n-gram sekwencji słów.