Dobry zestaw danych do analizy nastrojów? [zamknięte]

Pracuję nad analizą nastrojów i używam zestawu danych podanego w tym linku: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html i podzieliłem mój zestaw danych na stosunek 50: 50. 50% są używane jako próbki testowe, a 50% są używane jako próbki pociągu i cechy pobrane z próbek pociągu i wykonać klasyfikację za pomocą klasyfikatora WEKA, ale moja dokładność predykcji wynosi około 70-75%.

Czy ktoś może zasugerować jakieś inne zestawy danych, które mogą pomóc mi zwiększyć wynik - użyłem unigram, bigram i POStags jako mojego funkcje.

Author: Keeth, 2014-07-07

3 answers

Istnieje wiele źródeł, aby uzyskać zbiór danych analizy nastrojów:

W każdym razie, nie oznacza to, że pomoże ci uzyskać lepszą dokładność dla bieżącego zbioru danych, ponieważ korpus może się bardzo różnić od Twojego zbioru danych. Oprócz zmniejszenia odsetka testów w porównaniu do treningu, możesz: przetestować inne klasyfikatory lub dostroić wszystkie hiperparametry za pomocą półautomatycznego owijarki, takiego jak CVParameterSelection lub GridSearch, a nawet auto-WEKA, jeśli pasuje.

Dość rzadko używa się 50/50, 80/20 jest dość powszechnie występujące proporcje. Lepszą praktyką jest stosowanie: 60% na szkolenia, 20% na walidację krzyżową, 20% na testy.

 24
Author: doxav,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-02-04 19:48:14

Zacząłem zbierać narzędzia do analizy nastrojów/zbiory danych/Leksykony w jednym miejscu, może się to również przydać: https://github.com/laugustyniak/awesome-sentiment-analysis

Start PR jeśli chcesz dodać coś więcej lub po prostu napisz do mnie. Dużo pracowałem z danymi Amazon [miliony recenzji].

 1
Author: l.augustyniak,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-05-17 19:10:32

Oto lista zestawów danych, które dają sentymenty dla poszczególnych słów.. http://positivewordsresearch.com/sentiment-analysis-resources/

 0
Author: Default picture,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-05-27 18:39:36