Lista "Stop words" po angielsku? [zamknięte]

Generuję statystyki dla jakiegoś anglojęzycznego tekstu i chciałbym pominąć nieciekawe słowa, takie jak " a "i"the".

  • Gdzie mogę znaleźć listę tych nieciekawych słów?
  • czy lista tych słów jest taka sama jak lista najczęściej używanych słów w języku angielskim?

Update: są to najwyraźniej "słowa stop", a nie "słowa skip".

Author: Mark Harrison, 2009-08-02

6 answers

Magiczne słowo do umieszczenia w Google to "stop words". To pojawia się rozsądnie wyglądająca Lista .

MySQL ma również wbudowaną listę słów stop , ale jest to zbyt obszerne jak na mój gust. Na przykład w naszej Bibliotece Uniwersyteckiej mieliśmy problemy, ponieważ "trzecie" w "Trzecim Świecie" było uważane za słowo stop.

 20
Author: Thomas,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-08-02 07:23:54

Są to słowa stop, Sprawdź to Próbka

 5
Author: Ahmed Said,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-08-02 07:23:01

W zależności od subdomeny języka angielskiego, w której pracujesz, możesz mieć / chcieć skompilować własną listę słów stop. Niektóre ogólne słowa stop mogą mieć znaczenie w domenie. Na przykład słowo " are " może być skrótem / akronimem w jakiejś domenie . I odwrotnie, możesz zignorować niektóre słowa specyficzne dla domeny w zależności od aplikacji , których możesz nie chcieć ignorować w domenie języka angielskiego ogólnego. Np. jeśli analizujesz zbiór raportów szpitalnych, możesz ignorować słowa takie jak "historia" i "objawy", ponieważ można je znaleźć w każdym raporcie i mogą nie być użyteczne(z perspektywy odwróconego indeksu).

W Przeciwnym Razie listy zwracane przez Google powinny być w porządku. Porter Stemmer używa tego, a implementacja Lucene seach engine używa tego.

 5
Author: hashable,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2012-11-04 18:51:40

Uzyskaj statystyki dotyczące częstotliwości słów w dużych korpusach txt. Ignoruj wszystkie słowa z frequency > some number.

 4
Author: Sean A.O. Harney,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-08-02 07:24:59

Myślę, że użyłem listy stopwordów dla języka niemieckiego z tutaj Kiedy zbudowałem aplikację wyszukiwania z lucene.net jakiś czas temu. Strona zawiera również listę w języku angielskim, a listy na stronie są najwyraźniej tymi, które Projekt lucene używa jako domyślne.

 2
Author: Robert Petermeier,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-08-02 07:59:08

Zazwyczaj słowa te pojawiają się w dokumentach z największą częstotliwością. Zakładając, że masz globalną listę słów:

{ Word Count }

Z listą słów, jeśli uporządkujesz słowa od najwyższej liczby do najniższej, będziesz miał Wykres (count (oś y) i słowo (oś x), który jest funkcją odwrotnego dziennika. Wszystkie słowa stop byłyby po lewej stronie, a punkt zatrzymania "słów stop" byłby w miejscu, w którym istnieje najwyższa pochodna 1.

To rozwiązanie jest lepsze niż próba słownika:

  • To rozwiązanie jest uniwersalnym podejściem, które nie jest związane językiem
  • ta próba uczy się, jakie słowa są uważane za "słowa stop"
  • ta próba przyniesie lepsze wyniki dla kolekcji, które są bardzo podobne, i wytworzy unikalne listy słów dla przedmiotów w kolekcjach
  • słowa stop mogą zostać przeliczone w późniejszym czasie (dzięki temu może być buforowanie i statystyczne ustalenie, że słowa stop mogły się zmienić od momentu ich wyliczenia)
  • Może to również wyeliminować oparte na czasie lub nieformalne słowa i nazwy (takie jak slang, lub jeśli masz kilka dokumentów, które miały nazwę firmy jako nagłówek)

Próba słownika jest lepsza:

  • Czas wyszukiwania jest znacznie szybszy
  • wyniki są wstępnie zapisywane
  • Its simple
  • ktoś inny wymyślił słowa stop.
 2
Author: monksy,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-10-30 22:17:23