Podstawowe umiejętności analityka danych [zamknięty]
Jakie są odpowiednie umiejętności w arsenale analityka danych? Nowe technologie pojawiają się każdego dnia, więc jak wybrać i wybrać to, co najważniejsze?
Kilka pomysłów na tę dyskusję:
- znajomość SQL i korzystanie z bazy danych, takich jak MySQL, PostgreSQL był świetny do czasu pojawienia się NoSql i nie relacyjnych baz danych. MongoDB, CouchDB itp. stają się popularne do pracy z danymi w skali internetowej.
- znajomość narzędzia statystyk takiego jak R wystarczy do analizy, ale do tworzenie aplikacji może być konieczne dodanie Javy, Pythona i takich innych do listy.
- Dane są teraz w postaci tekstu, adresów URL, multimediów, aby wymienić tylko kilka, i istnieją różne paradygmaty związane z ich manipulacją. A co z cluster computing, parallel computing, cloud, Amazon EC2, Hadoop ? Regresja OLS ma teraz Sztuczne sieci neuronowe, losowe lasy i inne stosunkowo egzotyczne algorytmy uczenia maszynowego/eksploracji danych. na firma
Myśli?
11 answers
Cytuję ze wstępu do pracy doktorskiej Hadleya:
Najpierw otrzymujesz dane w postaci, która możesz pracować ... Po drugie, ty wykreślić dane, aby poczuć, co dzieje się ... Po trzecie, ty iterujesz pomiędzy grafiką a modelami, aby zbudować zwięzłe podsumowanie ilościowe data ... W końcu patrzysz na co uczyniłeś i kontemplujesz jakie narzędzia trzeba zrobić lepiej w przyszłość
Krok 1 prawie na pewno obejmuje dane munging, i może obejmować dostęp do bazy danych lub skrobanie www. Przydatne jest również poznanie osób, które tworzą dane. (Składam to pod "networking".)
Krok 2 oznacza umiejętności wizualizacji/ kreślenia.
Krok 3 oznacza statystyki lub umiejętności modelowania. Ponieważ jest to głupio szeroka kategoria, umiejętność delegowania do modelarza jest również przydatną umiejętnością.
Ostatni krok dotyczy głównie umiejętności miękkich, takich jak introspekcja i umiejętności zarządzania.
Umiejętności programistyczne były również wymienione w pytaniu i zgadzam się, że bardzo się przydają. Software Carpentry ma dobrą listę wszystkich podstawowych umiejętności programistycznych, które powinieneś posiadać.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-19 15:21:42
Po prostu dorzucić kilka pomysłów, aby inni mogli się wypowiedzieć:
Na jakimś śmiesznie wysokim poziomie abstrakcji cała praca z danymi obejmuje następujące kroki:
- Gromadzenie Danych
- Przechowywanie/Pobieranie Danych
- Manipulacja Danymi/Synteza / Modelowanie
- Raportowanie Wyników
- Opowiadanie Historii
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-18 21:15:57
JD są świetne, a aby uzyskać więcej głębi na temat tych pomysłów, przeczytaj doskonały post Michaela Driscolla trzy seksowne umiejętności maniaków danych :
- Skill #1 : Statystyka (Nauka)
- Skill # 2 : Data Munging (Cierpienie)
- Skill #3 : Wizualizacja (opowiadanie historii)
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-19 10:49:42
At dataist pytanie jest kierowane w sposób ogólny z ładnym diagramem Venna:
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-10-15 09:45:52
JD hit it on the head: Storytelling. Chociaż zapomniał o innej ważnej historii: o tym, dlaczego użyłeś
Reszta to tylko młotki. Nie zrozum mnie źle, takie rzeczy jak R są świetne. R to cała torba młotków, ale ważne jest, aby wiedzieć, jak używać młotków i co innego, aby zrobić coś użytecznego.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-19 05:51:07
Myślę, że ważne jest, aby mieć komendę komercyjnej bazy danych lub dwóch. W świecie finansów, w którym konsultuję, często widzę DB / 2 i Oracle na dużych żelaznych i SQL Server na serwerach rozproszonych. Oznacza to w zasadzie możliwość odczytu i zapisu kodu SQL. Musisz być w stanie uzyskać dane z magazynu i do narzędzia analitycznego.
Jeśli chodzi o narzędzia analityczne, uważam, że R ma coraz większe znaczenie. Myślę również, że bardzo korzystne jest wiedzieć, jak korzystać z co najmniej jednego innego stat paczka również. To może być SAS lub SPSS... to naprawdę zależy od firmy lub klienta, dla którego pracujesz i czego oczekują.
Wreszcie, można mieć niesamowite zrozumienie wszystkich tych pakietów i nadal nie być bardzo cenne. Niezwykle ważne jest, aby dysponować sporą wiedzą merytoryczną w określonej dziedzinie i móc komunikować się z odpowiednimi użytkownikami i menedżerami, jakie problemy wiążą się z Twoją analizą, a także z wynikami.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-18 22:43:52
Algebra macierzy to mój najlepszy wybór
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-19 01:16:29
- Umiejętność współpracy.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-19 12:48:57
Istnieje kilka tematów informatycznych, które są przydatne dla analityków danych, wiele z nich zostało wymienionych: Komputery rozproszone, systemy operacyjne i bazy danych.
Analiza algorytmów , czyli zrozumienie wymagań czasowych i przestrzennych obliczeń, jest jednym z najważniejszych tematów informatyki dla analityków danych. Jest to przydatne do implementacji efektywnego kodu, od statystycznych metod uczenia się do zbierania danych; i określania potrzeb obliczeniowych, np. ile pamięci RAM lub ile węzłów Hadoop.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-19 15:16:44
Cierpliwość - zarówno dla uzyskania wyników w rozsądny sposób, a następnie, aby móc wrócić i zmienić go na to, co było "rzeczywiście" wymagane.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-19 15:18:59
Studiuj algebrę liniową na otwartym kursie MIT 18.06 i zastąp naukę książką "Wprowadzenie do algebry liniowej". Algebra liniowa jest jednym z podstawowych zestawów umiejętności w analityce danych oprócz umiejętności wymienionych powyżej.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-01-13 07:00:28