Nabycie podstawowych umiejętności pracy z wizualizacją / analizą dużych zbiorów danych [zamknięte]

Szukam sposobu, aby nauczyć się czuć komfortowo z dużymi zestawami danych. Jestem studentem, więc wszystko, co robię, jest "ładnej" wielkości i złożoności. Pracując nad projektem badawczym z profesorem w tym semestrze, a ja musiałem wizualizować relacje między nieco dużym (z mojego doświadczenia) zestawem danych. Był to plik CSV o rozmiarze 15 MB.

Większość moich danych napisałem w Pythonie, wizualizowane za pomocą GNUPlot.

Czy są jakieś dostępne książki lub strony internetowe na ten temat tam? Punkty bonusowe za korzystanie z Pythona, więcej punktów bonusowych za bardziej "podstawowy" system wizualizacji niż poleganie na gnuplot. Kair czy coś.

Szukam czegoś, co zabierze mnie od eksploracji danych, przetwarzania, wizualizacji.

EDIT: bardziej szukam czegoś, co nauczy mnie "wielkich pomysłów". Mogę sam napisać kod, ale szukam technik, których ludzie używają do radzenia sobie z dużymi zbiorami danych. Chodzi mi o to, że moje 15 MB jest wystarczająco małe, gdzie mogę umieścić wszystko, co nigdy nie potrzebowałbym pamięci i po prostu zaczął chrupać. Co zrobić, aby wizualizować zbiory danych o pojemności 5 GB?

Author: Daniel Harms, 2011-05-05

4 answers

Powiedziałbym, że najbardziej podstawową umiejętnością jest dobre uziemienie w matematyce i statystyce. To może pomóc oceniasz i wybierasz spośród różnych technik filtrowania danych, a zmniejszenie jego objętości i wymiarowości przy zachowaniu integralności. The last chcesz zrobić coś ładnego, co pokazuje wzory lub związki, których tak naprawdę nie ma.

Matematyka Specjalistyczna

Aby rozwiązać niektóre rodzaje problemów, musisz nauczyć się matematyki, aby zrozumieć, jak poszczególne algorytmy działają i jaki wpływ będą miały na Twoje dane. Istnieją różne algorytmy grupowania danych, redukcji wymiarów, naturalnego przetwarzanie języka itp. Możesz nigdy nie używać wielu z nich, w zależności od rodzaju danych, które chcesz przeanalizować, ale w Internecie istnieje wiele zasobów (i stos witryn wymiany) jeśli potrzebujesz pomocy.

W celu zapoznania się ze wstępnym przeglądem technik eksploracji danych, Witten ' s Data Mining jest dobry. Mam i wydanie, i wyjaśnia pojęcia prostym językiem z odrobiną matematyki. Polecam, ponieważ zapewnia dobry przegląd i nie jest zbyt droga - jak czytasz więcej w terenie zauważysz, że wiele książek jest dość drogich. Jedyną wadą jest liczba stron poświęconych korzystaniu z Weka, pakietu Java data mining, który może nie być zbyt pomocny, ponieważ używasz Pythona (ale jest open source, więc możesz być w stanie zebrać kilka pomysłów z kodu źródłowego. Znalazłem też Wprowadzenie do uczenia maszynowego aby zapewnić dobry przegląd, również w rozsądnej cenie, z nieco więcej matematyki.

Narzędzia

Do tworzenia wizualizacji własnego wynalazku, na jednej maszynie, myślę, że podstawy powinny zacząć: Python, Numpy, Scipy, Matplotlib , oraz a dobra biblioteka graficzna, z którą masz doświadczenie, jak PIL lub Pycairo . Dzięki nim można wykreślić liczby, wykreślić je na wykresach i ładne rzeczy poprzez niestandardowe procedury rysowania.

Gdy chcesz tworzyć ruchome, interaktywne wizualizacje, narzędzia takie jak Biblioteka Java przetwarzanie ułatwia to. Tam są nawet sposoby pisania szkiców przetwarzania w Python przez Jython, na wypadek gdybyś nie chciał pisać Javy.

Istnieje wiele innych narzędzi, jeśli ich potrzebujesz, takich jak OpenCV (computer vision, uczenie maszynowe), Orange (data mining, analiza, viz) , oraz NLTK( język naturalny, tekst analiza) .

Zasady i techniki prezentacji

Książki ludzi z dziedziny np. Edward Tufte i odnośniki takie jak Informacje Grafika może pomóc uzyskać dobry przegląd sposobów tworzenia wizualizacji i skutecznie je prezentować.

Zasoby do znalezienia przykładów

Strony jak , Infostetyka, złożoność wizualna i informacja jest Piękne Pokaż najnowsze, ciekawe wizualizacje z całej sieci. Możesz również przejrzeć wiele zestawionych Listz witryn wizualizacyjnych w Internecie. Zacznij od nich jako zalążek i zacznij nawigować, jestem pewien, że znajdziesz wiele przydatnych stron i inspirujących przykładów.

(pierwotnie miał to być komentarz, ale za długo się rozrastał)

 12
Author: samplebias,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2011-05-08 01:54:47

Sprawdź informacje są piękne. Nie jest to książka techniczna, ale może dać ci kilka pomysłów na wizualizację danych.

I może spojrzeć na pierwsze 3 rozdziały Zasady eksploracji danych , przechodzi przez niektóre koncepcje wizualizacji danych w kontekście eksploracji danych, znalazłem niektóre jego części przydatne podczas studiów.

Hope this helps

 4
Author: Marcom,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2011-05-06 08:50:23

Jeśli szukasz wizualizacji, a nie eksploracji danych i analizy, wizualne wyświetlanie informacji ilościowych Edwarda Tufte jest uważana za jedną z najlepszych książek w tej dziedzinie.

 2
Author: ktdrv,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2011-05-05 01:08:13

Podoba mi się książka Analiza danych za pomocą narzędzi Open Source autorstwa Janerta. Jest to dość szerokie badanie metod analizy danych, koncentrując się na tym, jak zrozumieć system, który wyprodukował dane, a nie na zaawansowanych metod statystycznych. Jedno zastrzeżenie: chociaż matematyka nie jest szczególnie zaawansowana, myślę, że będziesz musiał czuć się komfortowo z argumentami matematycznymi, aby wiele zyskać z książki.

 1
Author: Michael J. Barber,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2011-05-06 08:45:27