Lista "Stop words" po angielsku? [zamknięte]

Question

Lista "Stop words" po angielsku? [zamknięte]

Generuję statystyki dla jakiegoś anglojęzycznego tekstu i chciałbym pominąć nieciekawe słowa, takie jak " a "i"the".

Gdzie mogę znaleźć listę tych nieciekawych słów?
czy lista tych słów jest taka sama jak lista najczęściej używanych słów w języku angielskim?

Update: są to najwyraźniej "słowa stop", a nie "słowa skip".

20

language-agnostic indexing filtering nlp stop-words

Author: Mark Harrison, 2009-08-02

Source

6 answers

Są to słowa stop, Sprawdź to Próbka

5

Author: Ahmed Said,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-08-02 07:23:01

W zależności od subdomeny języka angielskiego, w której pracujesz, możesz mieć / chcieć skompilować własną listę słów stop. Niektóre ogólne słowa stop mogą mieć znaczenie w domenie. Na przykład słowo " are " może być skrótem / akronimem w jakiejś domenie . I odwrotnie, możesz zignorować niektóre słowa specyficzne dla domeny w zależności od aplikacji , których możesz nie chcieć ignorować w domenie języka angielskiego ogólnego. Np. jeśli analizujesz zbiór raportów szpitalnych, możesz ignorować słowa takie jak "historia" i "objawy", ponieważ można je znaleźć w każdym raporcie i mogą nie być użyteczne(z perspektywy odwróconego indeksu).

W Przeciwnym Razie listy zwracane przez Google powinny być w porządku. Porter Stemmer używa tego, a implementacja Lucene seach engine używa tego.

5

Author: hashable,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2012-11-04 18:51:40

Uzyskaj statystyki dotyczące częstotliwości słów w dużych korpusach txt. Ignoruj wszystkie słowa z frequency > some number.

4

Author: Sean A.O. Harney,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-08-02 07:24:59

Myślę, że użyłem listy stopwordów dla języka niemieckiego z tutaj Kiedy zbudowałem aplikację wyszukiwania z lucene.net jakiś czas temu. Strona zawiera również listę w języku angielskim, a listy na stronie są najwyraźniej tymi, które Projekt lucene używa jako domyślne.

2

Author: Robert Petermeier,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-08-02 07:59:08

Zazwyczaj słowa te pojawiają się w dokumentach z największą częstotliwością. Zakładając, że masz globalną listę słów:

{ Word Count }

Z listą słów, jeśli uporządkujesz słowa od najwyższej liczby do najniższej, będziesz miał Wykres (count (oś y) i słowo (oś x), który jest funkcją odwrotnego dziennika. Wszystkie słowa stop byłyby po lewej stronie, a punkt zatrzymania "słów stop" byłby w miejscu, w którym istnieje najwyższa pochodna 1.

To rozwiązanie jest lepsze niż próba słownika:

To rozwiązanie jest uniwersalnym podejściem, które nie jest związane językiem
ta próba uczy się, jakie słowa są uważane za "słowa stop"
ta próba przyniesie lepsze wyniki dla kolekcji, które są bardzo podobne, i wytworzy unikalne listy słów dla przedmiotów w kolekcjach
słowa stop mogą zostać przeliczone w późniejszym czasie (dzięki temu może być buforowanie i statystyczne ustalenie, że słowa stop mogły się zmienić od momentu ich wyliczenia)

Próba słownika jest lepsza:

Czas wyszukiwania jest znacznie szybszy
wyniki są wstępnie zapisywane
Its simple
ktoś inny wymyślił słowa stop.

2

Author: monksy,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-10-30 22:17:23

score 20 · Accepted Answer

Magiczne słowo do umieszczenia w Google to "stop words". To pojawia się rozsądnie wyglądająca Lista .

MySQL ma również wbudowaną listę słów stop , ale jest to zbyt obszerne jak na mój gust. Na przykład w naszej Bibliotece Uniwersyteckiej mieliśmy problemy, ponieważ "trzecie" w "Trzecim Świecie" było uważane za słowo stop.