Implementacja MapReduce w Scali

Question

Implementacja MapReduce w Scali

Chciałbym poznać dobry i solidny framework MapReduce, do wykorzystania ze Scali.

27

frameworks scala mapreduce google-analytics

Author: Roman Kagan, 2009-06-07

Source

7 answers

Http://hadoop.apache.org / jest agnostykiem językowym.

3

Author: bayer,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-06-07 15:20:56

Osobiście stałem się wielkim fanem Spark

Http://spark-project.org/

Masz możliwość wykonywania obliczeń w klastrze pamięci, znacznie zmniejszając koszty, których doświadczysz podczas operacji mapowania wymagających dużej ilości dysków.

3

Author: MattM,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2013-02-01 12:49:23

Być może zainteresuje cię scouchdb, interfejs Scala do używania CouchDB.

Innym pomysłem jest użycie GridGain . Skaladudesmają przykład użycia GridGain ze scalą. I tutaj{[2] } jest inny przykład.

2

Author: AWhitford,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-10-30 07:09:50

Jakiś czas temu napotkałem dokładnie ten problem i skończyło się na napisaniu trochę infrastruktury, aby ułatwić korzystanie z Hadoop od Scali. Używałem go sam przez jakiś czas, ale w końcu udało mi się umieścić go w sieci. Nazywa się (bardzo oryginalnie) ScalaHadoop .

2

Author: bsdfish,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-07-18 22:40:19

Dla API scala na szczycie hadoop sprawdź Scoobi , jest nadal w ciężkim rozwoju, ale pokazuje wiele obietnic. W inkubatorze Scala Istnieje również pewien wysiłek, aby zaimplementować rozproszone kolekcje na szczycie hadoop, ale ten wysiłek nie jest jeszcze użyteczny.

Istnieje również nowy wrapper Scali do kaskadowania z Twittera, o nazwie Scalding . Po bardzo krótkim przejrzeniu dokumentacji do oparzenia wydaje się że podczas gdy sprawia, że integracja z kaskadowe gładsze to nadal robi nie rozwiązuje tego, co widzę jako główny problem z kaskadowaniem: bezpieczeństwo typu. Każda operacja w kaskadowaniu działa na krotkach kaskadowych (w zasadzie lista wartości pól z oddzielnym schematem lub bez), co oznacza, że błędy typu, czyli łączenie klucza jako ciągu znaków i klucza jako długich przewodów do awarii w czasie biegu.

2

Author: Xela,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2012-01-12 01:02:04

Do dalszego punktu jshena:

Hadoop streaming po prostu używa gniazd. używając strumieni unix, Twój kod (dowolny język) musi być po prostu w stanie odczytywać ze standardowego wejścia i wyprowadzać strumienie rozdzielane tabulatorami. zaimplementuj maper i w razie potrzeby reduktor (a jeśli to stosowne, skonfiguruj go jako kombiner).

1

Author: seanc,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-12-15 02:14:37

score 30 · Accepted Answer

Aby dodać do odpowiedzi na Hadoop: istnieją co najmniej dwa opakowania Scali, które sprawiają, że praca z Hadoop jest bardziej przyjemna.

Scala Map Reduce (SMR): http://scala-blogs.org/2008/09/scalable-language-and-scalable.html

SHadoop: http://jonhnny-weslley.blogspot.com/2008/05/shadoop.html

UPD 5 paź 11

Istnieje również scobi framework, który ma niesamowitą ekspresję.