Lista narzędzi przetwarzania języka naturalnego w odniesieniu do analizy nastrojów-które z nich polecasz [zamknięty]

Po pierwsze przepraszam za mój niezbyt doskonały angielski... Jestem z Niemiec;)

Więc dla mojego projektu badawczego (praca licencjacka) muszę przeanalizować nastroje tweetów o niektórych firmach i markach. W tym celu będę musiał napisać własny program / użyć jakiegoś zmodyfikowanego kodu open source (brak API - muszę zrozumieć, co się dzieje).

Poniżej znajdziesz listę niektórych aplikacji NLP, które znalazłem. Moje pytanie brzmi teraz, który i który polecacie podejście? A który z nich nie wymaga długich nocy dostosowywania kodu?

Na przykład: kiedy wyświetlam Twittera dla odtwarzacza muzycznego > iPod

Które oprogramowanie jest wystarczająco inteligentne, aby zrozumieć, że koncentruje się na iPodzie, a nie na pogodzie?

Również które oprogramowanie jest skalowalne / zasobooszczędne (chcę analizować kilka tweetów i nie chcesz wydawać tysięcy dolarów)?

Uczenie maszynowe i eksploracja danych

Weka - jest zbiorem algorytmów uczenia maszynowego do eksploracji danych. Jest to jeden z najpopularniejszych frameworków klasyfikacji tekstu. Zawiera implementacje wielu różnych algorytmów, w tym naiwnych Bayesa i maszyn wektorowych (SVM, wymienionych w SMO) [Uwaga: inne powszechnie używane implementacje nie-Java SVM to SVM-Light, LibSVM, i SVMTorch]. Pokrewnym projektem jest Kea (Keyphrase Extraction Algorithm) algorytm ekstrakcji fraz kluczowych z dokumentów tekstowych.

Apache Lucene Mahout - projekt inkubatora mający na celu stworzenie wysoce skalowalnych, rozproszonych implementacji popularnych algorytmów uczenia maszynowego na bazie struktury Hadoop map-reduce.

Narzędzia NLP

LingPipe - (technicznie nie 'open-source, patrz poniżej) Alias-I' S Lingpipe jest zestawem narzędzi java dla lingwistyczne przetwarzanie tekstu, w tym ekstrakcja encji , znakowanie mowy (pos), grupowanie, klasyfikacja itp... Jest to jeden z najbardziej dojrzałych i szeroko stosowanych narzędzi NLP open source w przemyśle. Jest znany ze swojej szybkości, stabilności i skalowalności. Jedną z jego najlepszych funkcji jest obszerny zbiór dobrze napisanych samouczków, które pomogą Ci zacząć. Mają listę linków do konkurencji, zarówno akademickich, jak i przemysłowych. Koniecznie sprawdź ich blog. LingPipe jest wydany pod licencja komercyjna bez tantiem, która zawiera kod źródłowy, ale nie jest technicznie 'open-source'.

OpenNLP - zawiera wiele narzędzi NLP opartych na Javie, które wykonują wykrywanie zdań, tokenizację, tagowanie części mowy, chunking i parsowanie, wykrywanie nazw jednostek i analizę Ko-referencji przy użyciu pakietu maxent machine learning.

Stanford Parser and Part-of-Speech (POS) Tagger - Pakiety Javy do parsowania zdań i części mowy tagowanie z grupy Stanford NLP. Zawiera implementacje probabilistycznych parserów języka naturalnego, zarówno wysoce zoptymalizowanych parserów pcfg, jak i leksykalnych parserów zależności oraz leksykalnego parsera PCFG. Posiada pełną licencję GNU GPL.

openfst - pakiet do manipulowania ważonymi automatami skończonymi. Są one często używane do reprezentowania modelu probabilistycznego. Są one używane do modelowania tekstu do rozpoznawania mowy, korekcji błędów OCR, tłumaczenia maszynowego i wielu innych zadania. Biblioteka została opracowana przez współpracowników z Google Research i NYU. Jest to biblioteka C++, która ma być szybka i skalowalna.

NTLK - zestaw narzędzi języka naturalnego jest narzędziem do nauczania i badania klasyfikacji, grupowania, tagowania i parsowania mowy i innych. Zawiera zestaw samouczków i zestawów danych do eksperymentów. Został napisany przez Stevena Birda z Uniwersytetu w Melbourne.

Opinion Finder - system, który wykonuje analiza subiektywności, automatyczne identyfikowanie, kiedy w tekście obecne są opinie, sentymenty, spekulacje i inne państwa prywatne. W szczególności OpinionFinder ma na celu identyfikację zdań subiektywnych i zaznaczenie różnych aspektów subiektywności w tych zdaniach, w tym Źródła (posiadacza) subiektywności i słów, które są zawarte w frazach wyrażających pozytywne lub negatywne uczucia.

Tawlk / osae - biblioteka Pythona do klasyfikacji sentymentów na temat społecznego tekst. Celem końcowym jest posiadanie prostej biblioteki, która "po prostu działa". Powinien mieć łatwą barierę wejścia i być dokładnie udokumentowany. Uzyskaliśmy najlepszą dokładność za pomocą filtrowania stopwords z tweetami zebranymi na negwords.txt i poswords.txt

GATE - GATE ma ponad 15 lat i jest aktywnie używany do wszystkich typów zadań obliczeniowych obejmujących ludzki język. GATE doskonale sprawdza się w analizie tekstu o wszystkich kształtach i rozmiarach. Od dużych korporacji po małe startupy, od wielomilionowe konsorcja badawcze na projekty licencjackie, nasza społeczność użytkowników jest największą i najbardziej zróżnicowaną spośród wszystkich tego typu systemów i jest rozproszona na wszystkich kontynentach, z wyjątkiem jednego. 1

texttir - zestaw narzędzi do wyszukiwania tekstów i nastrojów. Obejmuje to funkcję "mnlm", dla rzadkiej wielomianowej regresji logistycznej, "pls", zwięzłą cząstkową rutynę najmniejszych kwadratów oraz funkcję "topics", dla efektywnego estymowania i wyboru wymiarów w utajonym temacie modelki.

NLP Toolsuite-the JULIE Lab oferuje kompleksowy zestaw narzędzi NLP do zastosowań w wyszukiwaniu semantycznym, ekstrakcji informacji i eksploracji tekstu. Większość naszego stale rozwijanego pakietu narzędzi opiera się na metodach uczenia maszynowego, a tym samym jest niezależna od domeny i języka.

...

Na marginesie: czy poleciłbyś twitter streaming lub get API?

Jak dla mnie jestem fanem Pythona i Javy;)

Wielkie dzięki za Twoje pomocy!!!

Author: Chriswede, 2012-09-06

1 answers

Nie jestem pewien, jak bardzo mogę pomóc, ale pracowałem już z ręcznie rozwijanym NLP. Przychodzi na myśl kilka kwestii - nie wszystkie produkty są agnostyczne językowo (czyli język ludzki, a nie język komputerowy). Jeśli planujesz analizować Niemieckie tweety, ważne będzie, aby wybrany produkt był w stanie obsługiwać język niemiecki. Wiem, ale łatwo zapomnieć. Jest też fakt, że to twitter obfituje w Skróty i akronimy, a struktura języka jest ograniczony przez limit znaków, co oznacza, że gramatyka nie zawsze będzie pasować do oczekiwanej struktury języka.

W języku angielskim, wyciąganie rzeczowników ze zdania może być nieco uproszczone, jeśli kiedykolwiek będziesz musiał napisać własny kod. Rzeczowniki właściwe mają początkowe kapitały i ciąg takich słów (ewentualnie w tym "of") jest przykładem wyrażenia rzeczownikowego. Słowo poprzedzone przez "a/An/my/his/her/the/this/these/those" będzie albo przymiotnikiem, albo rzeczownikiem. Po tym staje się trudniej niestety.

Istnieją reguły, które pomagają zidentyfikować liczby mnogie, ale jest też wiele wyjątków. Mówię tu oczywiście o angielskim, mój bardzo kiepski język niemiecki nie pomaga mi zrozumieć tej gramatyki, której się obawiam.

 3
Author: Paul W,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2012-09-07 02:29:39