Podstawowe umiejętności analityka danych [zamknięty]

Jakie są odpowiednie umiejętności w arsenale analityka danych? Nowe technologie pojawiają się każdego dnia, więc jak wybrać i wybrać to, co najważniejsze?

Kilka pomysłów na tę dyskusję:

  • znajomość SQL i korzystanie z bazy danych, takich jak MySQL, PostgreSQL był świetny do czasu pojawienia się NoSql i nie relacyjnych baz danych. MongoDB, CouchDB itp. stają się popularne do pracy z danymi w skali internetowej.
  • znajomość narzędzia statystyk takiego jak R wystarczy do analizy, ale do tworzenie aplikacji może być konieczne dodanie Javy, Pythona i takich innych do listy.
  • Dane są teraz w postaci tekstu, adresów URL, multimediów, aby wymienić tylko kilka, i istnieją różne paradygmaty związane z ich manipulacją.
  • A co z cluster computing, parallel computing, cloud, Amazon EC2, Hadoop ? Regresja OLS ma teraz Sztuczne sieci neuronowe, losowe lasy i inne stosunkowo egzotyczne algorytmy uczenia maszynowego/eksploracji danych. na firma

Myśli?

 55
r
Author: harshsinghal, 2010-05-18

11 answers

Cytuję ze wstępu do pracy doktorskiej Hadleya:

Najpierw otrzymujesz dane w postaci, która możesz pracować ... Po drugie, ty wykreślić dane, aby poczuć, co dzieje się ... Po trzecie, ty iterujesz pomiędzy grafiką a modelami, aby zbudować zwięzłe podsumowanie ilościowe data ... W końcu patrzysz na co uczyniłeś i kontemplujesz jakie narzędzia trzeba zrobić lepiej w przyszłość

Krok 1 prawie na pewno obejmuje dane munging, i może obejmować dostęp do bazy danych lub skrobanie www. Przydatne jest również poznanie osób, które tworzą dane. (Składam to pod "networking".)

Krok 2 oznacza umiejętności wizualizacji/ kreślenia.

Krok 3 oznacza statystyki lub umiejętności modelowania. Ponieważ jest to głupio szeroka kategoria, umiejętność delegowania do modelarza jest również przydatną umiejętnością.

Ostatni krok dotyczy głównie umiejętności miękkich, takich jak introspekcja i umiejętności zarządzania.

Umiejętności programistyczne były również wymienione w pytaniu i zgadzam się, że bardzo się przydają. Software Carpentry ma dobrą listę wszystkich podstawowych umiejętności programistycznych, które powinieneś posiadać.

 23
Author: Richie Cotton,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-19 15:21:42

Po prostu dorzucić kilka pomysłów, aby inni mogli się wypowiedzieć:

Na jakimś śmiesznie wysokim poziomie abstrakcji cała praca z danymi obejmuje następujące kroki:

  • Gromadzenie Danych
  • Przechowywanie/Pobieranie Danych
  • Manipulacja Danymi/Synteza / Modelowanie
  • Raportowanie Wyników
  • Opowiadanie Historii
Analityk danych powinien posiadać przynajmniej pewne umiejętności w każdym z tych obszarów. Ale w zależności od specjalności można wydać dużo więcej czasu w ograniczonym zakresie.
 21
Author: JD Long,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-18 21:15:57

JD są świetne, a aby uzyskać więcej głębi na temat tych pomysłów, przeczytaj doskonały post Michaela Driscolla trzy seksowne umiejętności maniaków danych :

  1. Skill #1 : Statystyka (Nauka)
  2. Skill # 2 : Data Munging (Cierpienie)
  3. Skill #3 : Wizualizacja (opowiadanie historii)
 12
Author: DrewConway,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-19 10:49:42

At dataist pytanie jest kierowane w sposób ogólny z ładnym diagramem Venna:

diagram Venna

 10
Author: mropa,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-10-15 09:45:52

JD hit it on the head: Storytelling. Chociaż zapomniał o innej ważnej historii: o tym, dlaczego użyłeś . Bycie w stanie odpowiedzieć na to pytanie jest daleko i daleko najważniejszą umiejętnością można rozwijać.

Reszta to tylko młotki. Nie zrozum mnie źle, takie rzeczy jak R są świetne. R to cała torba młotków, ale ważne jest, aby wiedzieć, jak używać młotków i co innego, aby zrobić coś użytecznego.

 5
Author: Byron Ellis,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-19 05:51:07

Myślę, że ważne jest, aby mieć komendę komercyjnej bazy danych lub dwóch. W świecie finansów, w którym konsultuję, często widzę DB / 2 i Oracle na dużych żelaznych i SQL Server na serwerach rozproszonych. Oznacza to w zasadzie możliwość odczytu i zapisu kodu SQL. Musisz być w stanie uzyskać dane z magazynu i do narzędzia analitycznego.

Jeśli chodzi o narzędzia analityczne, uważam, że R ma coraz większe znaczenie. Myślę również, że bardzo korzystne jest wiedzieć, jak korzystać z co najmniej jednego innego stat paczka również. To może być SAS lub SPSS... to naprawdę zależy od firmy lub klienta, dla którego pracujesz i czego oczekują.

Wreszcie, można mieć niesamowite zrozumienie wszystkich tych pakietów i nadal nie być bardzo cenne. Niezwykle ważne jest, aby dysponować sporą wiedzą merytoryczną w określonej dziedzinie i móc komunikować się z odpowiednimi użytkownikami i menedżerami, jakie problemy wiążą się z Twoją analizą, a także z wynikami.

 4
Author: Phil Rack,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-18 22:43:52

Algebra macierzy to mój najlepszy wybór

 4
Author: Neil McGuigan,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-19 01:16:29
    Umiejętność współpracy.
Wielka nauka, w prawie każdej dyscyplinie, jest rzadko wykonywana przez jednostki w dzisiejszych czasach.
 4
Author: wkmor1,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-19 12:48:57

Istnieje kilka tematów informatycznych, które są przydatne dla analityków danych, wiele z nich zostało wymienionych: Komputery rozproszone, systemy operacyjne i bazy danych.

Analiza algorytmów , czyli zrozumienie wymagań czasowych i przestrzennych obliczeń, jest jednym z najważniejszych tematów informatyki dla analityków danych. Jest to przydatne do implementacji efektywnego kodu, od statystycznych metod uczenia się do zbierania danych; i określania potrzeb obliczeniowych, np. ile pamięci RAM lub ile węzłów Hadoop.

 3
Author: mattrepl,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-19 15:16:44

Cierpliwość - zarówno dla uzyskania wyników w rozsądny sposób, a następnie, aby móc wrócić i zmienić go na to, co było "rzeczywiście" wymagane.

 2
Author: Paddy,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-19 15:18:59

Studiuj algebrę liniową na otwartym kursie MIT 18.06 i zastąp naukę książką "Wprowadzenie do algebry liniowej". Algebra liniowa jest jednym z podstawowych zestawów umiejętności w analityce danych oprócz umiejętności wymienionych powyżej.

 0
Author: rohit,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-01-13 07:00:28