Dobry zestaw danych do analizy nastrojów? [zamknięte]
Pracuję nad analizą nastrojów i używam zestawu danych podanego w tym linku: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html
i podzieliłem mój zestaw danych na stosunek 50: 50. 50% są używane jako próbki testowe, a 50% są używane jako próbki pociągu i cechy pobrane z próbek pociągu i wykonać klasyfikację za pomocą klasyfikatora WEKA, ale moja dokładność predykcji wynosi około 70-75%.
Czy ktoś może zasugerować jakieś inne zestawy danych, które mogą pomóc mi zwiększyć wynik - użyłem unigram, bigram i POStags jako mojego funkcje.
3 answers
Istnieje wiele źródeł, aby uzyskać zbiór danych analizy nastrojów:
- ogromny ngrams dataset od google storage.googleapis.com/books/ngrams/books/datasetsv2.html
- http://www.sananalytics.com/lab/twitter-sentiment/
- http://inclass.kaggle.com/c/si650winter11/data
- http://nlp.stanford.edu/sentiment/treebank.html
- lub możesz zajrzeć do tego globalnego repozytorium ML dataset: https://archive.ics.uci.edu/ml
W każdym razie, nie oznacza to, że pomoże ci uzyskać lepszą dokładność dla bieżącego zbioru danych, ponieważ korpus może się bardzo różnić od Twojego zbioru danych. Oprócz zmniejszenia odsetka testów w porównaniu do treningu, możesz: przetestować inne klasyfikatory lub dostroić wszystkie hiperparametry za pomocą półautomatycznego owijarki, takiego jak CVParameterSelection lub GridSearch, a nawet auto-WEKA, jeśli pasuje.
Dość rzadko używa się 50/50, 80/20 jest dość powszechnie występujące proporcje. Lepszą praktyką jest stosowanie: 60% na szkolenia, 20% na walidację krzyżową, 20% na testy.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-02-04 19:48:14
Zacząłem zbierać narzędzia do analizy nastrojów/zbiory danych/Leksykony w jednym miejscu, może się to również przydać: https://github.com/laugustyniak/awesome-sentiment-analysis
Start PR jeśli chcesz dodać coś więcej lub po prostu napisz do mnie. Dużo pracowałem z danymi Amazon [miliony recenzji].
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-05-17 19:10:32
Oto lista zestawów danych, które dają sentymenty dla poszczególnych słów.. http://positivewordsresearch.com/sentiment-analysis-resources/
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-05-27 18:39:36