Publicznie dostępny zestaw szkoleń z filtrem antyspamowym [zamknięty]

Jestem nowy w uczeniu maszynowym i dla mojego pierwszego projektu chciałbym napisać naiwny filtr antyspamowy Bayesa. Zastanawiałem się, czy są jakieś publicznie dostępne zestawy szkoleń oznaczonych spamem / nie spamem e-maili, najlepiej w postaci zwykłego tekstu, a nie zrzutu relacyjnej bazy danych(chyba, że ładnie-wydrukować?).

Wiem, że taka publicznie dostępna baza danych istnieje dla innych rodzajów klasyfikacji tekstu, w szczególności tekstu wiadomości. Po prostu nie byłem w stanie znaleźć tego samego rodzaju rzeczy na maile.

Author: JeremyKun, 2011-01-20

6 answers

Oto czego szukałem: http://untroubled.org/spam/

To archiwum ma około gigabajta skompresowanych wiadomości spamowych z lat 1998 - 2011. Teraz muszę tylko dostać e-mail bez spamu. Więc po prostu odpytam o to mój własny Gmail za pomocą programu getmail i samouczka na mattcutts.com

 27
Author: JeremyKun,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2011-01-22 21:00:39

Jasne, jest Spambase , który jest o ile mi wiadomo, jest najczęściej cytowanym zbiorem danych o spamie w literaturze uczenia maszynowego.

Używałem tego zestawu danych wiele razy; za każdym razem jestem pod wrażeniem, jak wiele wysiłku zostało włożone w formatowanie i dokumentację tego zestawu danych.

Kilka cech zestawu Spambase:

  • 4601 data points--all complete

  • Każdy z nich składał się z 58 funkcje (atrybuty)

  • Każdy punkt danych jest oznaczony jako "spam" lub "no spam"

  • Ok. 40% jest oznaczonych jako spam

  • Z funkcji, wszystkie są ciągłe

  • średnia ciągłość kapitału listy


Spambase jest archiwizowany w UCI Machine Learning repozytorium; ponadto jest również dostępny na stronie dla doskonałej ML / obliczenia statystyczne, elementy kształcenia Statystycznego autor: Hastie /

 9
Author: doug,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2011-01-20 08:45:48

SpamAssassin ma Korpus publiczny zarówno wiadomości spamowych, jak i nie-spamowych, chociaż nie był aktualizowany od kilku lat. Przeczytaj readme.plik html, aby dowiedzieć się, co tam jest.

 8
Author: ViennaMike,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2013-12-07 22:22:55

Mógłbyś rozważyć rzucenie okiem na TREC spam/ham corpus (który moim zdaniem jest zbiorem maili od Enrona, które zostały upublicznione ze sprawy sądowej). TREC zazwyczaj wykonuje kilka zadań związanych z konkurencyjnym przetwarzaniem tekstu, więc może dać ci kilka referencji do porównania.

Minusem jest to, że są one przechowywane w formacie raw mbox, choć istnieją parsery dostępne w wielu językach(Apache Tika jest dobrym przykładem).

Strona nie jest TREC, ale to chyba dobry przegląd zadania z linkami do danych: http://plg.uwaterloo.ca/~gvcormac / spam /

 6
Author: Keith Trnka,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2011-01-28 23:39:35

Bardziej nowoczesny zestaw treningowy do spamu można znaleźć na stronie kaggle . Co więcej, możesz sprawdzić dokładność swojego klasyfikatora na swojej stronie internetowej, przesyłając swoje wyniki.

 4
Author: warmspringwinds,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-12-13 12:15:42

Mam również odpowiedź, tutaj znajdziesz codziennie odświeżaną Bayesowską bazę danych do szkolenia wstępnego, a także codziennie tworzone archiwum zawierające przechwycone spamy. Instrukcje jak z niego korzystać znajdziesz na stronie.

 0
Author: Frantique,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-04-17 11:10:57