Publicznie dostępny zestaw szkoleń z filtrem antyspamowym [zamknięty]
Jestem nowy w uczeniu maszynowym i dla mojego pierwszego projektu chciałbym napisać naiwny filtr antyspamowy Bayesa. Zastanawiałem się, czy są jakieś publicznie dostępne zestawy szkoleń oznaczonych spamem / nie spamem e-maili, najlepiej w postaci zwykłego tekstu, a nie zrzutu relacyjnej bazy danych(chyba, że ładnie-wydrukować?).
Wiem, że taka publicznie dostępna baza danych istnieje dla innych rodzajów klasyfikacji tekstu, w szczególności tekstu wiadomości. Po prostu nie byłem w stanie znaleźć tego samego rodzaju rzeczy na maile.
6 answers
Oto czego szukałem: http://untroubled.org/spam/
To archiwum ma około gigabajta skompresowanych wiadomości spamowych z lat 1998 - 2011. Teraz muszę tylko dostać e-mail bez spamu. Więc po prostu odpytam o to mój własny Gmail za pomocą programu getmail i samouczka na mattcutts.com
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2011-01-22 21:00:39
Jasne, jest Spambase , który jest o ile mi wiadomo, jest najczęściej cytowanym zbiorem danych o spamie w literaturze uczenia maszynowego.
Używałem tego zestawu danych wiele razy; za każdym razem jestem pod wrażeniem, jak wiele wysiłku zostało włożone w formatowanie i dokumentację tego zestawu danych.
Kilka cech zestawu Spambase:
-
4601 data points--all complete
-
Każdy z nich składał się z 58 funkcje (atrybuty)
-
Każdy punkt danych jest oznaczony jako "spam" lub "no spam"
-
Ok. 40% jest oznaczonych jako spam
-
Z funkcji, wszystkie są ciągłe
średnia ciągłość kapitału listy
Spambase jest archiwizowany w UCI Machine Learning repozytorium; ponadto jest również dostępny na stronie dla doskonałej ML / obliczenia statystyczne, elementy kształcenia Statystycznego autor: Hastie /
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2011-01-20 08:45:48
SpamAssassin ma Korpus publiczny zarówno wiadomości spamowych, jak i nie-spamowych, chociaż nie był aktualizowany od kilku lat. Przeczytaj readme.plik html, aby dowiedzieć się, co tam jest.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2013-12-07 22:22:55
Mógłbyś rozważyć rzucenie okiem na TREC spam/ham corpus (który moim zdaniem jest zbiorem maili od Enrona, które zostały upublicznione ze sprawy sądowej). TREC zazwyczaj wykonuje kilka zadań związanych z konkurencyjnym przetwarzaniem tekstu, więc może dać ci kilka referencji do porównania.
Minusem jest to, że są one przechowywane w formacie raw mbox, choć istnieją parsery dostępne w wielu językach(Apache Tika jest dobrym przykładem).
Strona nie jest TREC, ale to chyba dobry przegląd zadania z linkami do danych: http://plg.uwaterloo.ca/~gvcormac / spam /
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2011-01-28 23:39:35
Bardziej nowoczesny zestaw treningowy do spamu można znaleźć na stronie kaggle . Co więcej, możesz sprawdzić dokładność swojego klasyfikatora na swojej stronie internetowej, przesyłając swoje wyniki.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-12-13 12:15:42
Mam również odpowiedź, tutaj znajdziesz codziennie odświeżaną Bayesowską bazę danych do szkolenia wstępnego, a także codziennie tworzone archiwum zawierające przechwycone spamy. Instrukcje jak z niego korzystać znajdziesz na stronie.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-04-17 11:10:57