Lista "Stop words" po angielsku? [zamknięte]
Generuję statystyki dla jakiegoś anglojęzycznego tekstu i chciałbym pominąć nieciekawe słowa, takie jak " a "i"the".
- Gdzie mogę znaleźć listę tych nieciekawych słów?
- czy lista tych słów jest taka sama jak lista najczęściej używanych słów w języku angielskim?
Update: są to najwyraźniej "słowa stop", a nie "słowa skip".
6 answers
Magiczne słowo do umieszczenia w Google to "stop words". To pojawia się rozsądnie wyglądająca Lista .
MySQL ma również wbudowaną listę słów stop , ale jest to zbyt obszerne jak na mój gust. Na przykład w naszej Bibliotece Uniwersyteckiej mieliśmy problemy, ponieważ "trzecie" w "Trzecim Świecie" było uważane za słowo stop.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-08-02 07:23:54
Są to słowa stop, Sprawdź to Próbka
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-08-02 07:23:01
W zależności od subdomeny języka angielskiego, w której pracujesz, możesz mieć / chcieć skompilować własną listę słów stop. Niektóre ogólne słowa stop mogą mieć znaczenie w domenie. Na przykład słowo " are " może być skrótem / akronimem w jakiejś domenie . I odwrotnie, możesz zignorować niektóre słowa specyficzne dla domeny w zależności od aplikacji , których możesz nie chcieć ignorować w domenie języka angielskiego ogólnego. Np. jeśli analizujesz zbiór raportów szpitalnych, możesz ignorować słowa takie jak "historia" i "objawy", ponieważ można je znaleźć w każdym raporcie i mogą nie być użyteczne(z perspektywy odwróconego indeksu).
W Przeciwnym Razie listy zwracane przez Google powinny być w porządku. Porter Stemmer używa tego, a implementacja Lucene seach engine używa tego.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2012-11-04 18:51:40
Uzyskaj statystyki dotyczące częstotliwości słów w dużych korpusach txt. Ignoruj wszystkie słowa z frequency > some number.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-08-02 07:24:59
Myślę, że użyłem listy stopwordów dla języka niemieckiego z tutaj Kiedy zbudowałem aplikację wyszukiwania z lucene.net jakiś czas temu. Strona zawiera również listę w języku angielskim, a listy na stronie są najwyraźniej tymi, które Projekt lucene używa jako domyślne.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-08-02 07:59:08
Zazwyczaj słowa te pojawiają się w dokumentach z największą częstotliwością. Zakładając, że masz globalną listę słów:
{ Word Count }
Z listą słów, jeśli uporządkujesz słowa od najwyższej liczby do najniższej, będziesz miał Wykres (count (oś y) i słowo (oś x), który jest funkcją odwrotnego dziennika. Wszystkie słowa stop byłyby po lewej stronie, a punkt zatrzymania "słów stop" byłby w miejscu, w którym istnieje najwyższa pochodna 1.
To rozwiązanie jest lepsze niż próba słownika:
- To rozwiązanie jest uniwersalnym podejściem, które nie jest związane językiem
- ta próba uczy się, jakie słowa są uważane za "słowa stop"
- ta próba przyniesie lepsze wyniki dla kolekcji, które są bardzo podobne, i wytworzy unikalne listy słów dla przedmiotów w kolekcjach
- słowa stop mogą zostać przeliczone w późniejszym czasie (dzięki temu może być buforowanie i statystyczne ustalenie, że słowa stop mogły się zmienić od momentu ich wyliczenia) Może to również wyeliminować oparte na czasie lub nieformalne słowa i nazwy (takie jak slang, lub jeśli masz kilka dokumentów, które miały nazwę firmy jako nagłówek)
Próba słownika jest lepsza:
- Czas wyszukiwania jest znacznie szybszy
- wyniki są wstępnie zapisywane
- Its simple
- ktoś inny wymyślił słowa stop.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-10-30 22:17:23