mapreduce

Różnica między widłami / połączeniami a mapami / redukcjami

Jaka jest kluczowa różnica między Fork/Join i Map / Reduce? Czy różnią się one rodzajem rozkładu i rozkładu (dane a obliczenia)?

Używanie map/reduce do mapowania właściwości w kolekcji

Update: kontynuacja MongoDB pobiera nazwy wszystkich kluczy w kolekcji . Jak wskazuje Kristina , można użyć map/reduce Mon ... iom głębi, tworząc wyjście takie jak: ["_id","egg","foo","foo.bar","foo.bar.baaar","hello","type"] Z góry dziękuję!

Ustawianie liczby zadań na mapie i zmniejszanie zadań

Aktualnie prowadzę zadanie poprawiłem liczbę zadań map na 20 ale i otrzymałem wyższą liczbę. Ustawiłem również zadanie reduce ... p output records=40000000 11/07/30 19:48:56 INFO mapred.JobClient: Reduce input records=40000000 [hcrc1425n30]s0907855:

Hadoop DistributedCache jest przestarzały - jakie jest preferowane API?

Moje zadania z mapą wymagają pewnych danych konfiguracyjnych, które chciałbym rozpowszechnić poprzez rozproszoną pamięć podrę ... 2.2.0. Jaki jest nowy preferowany sposób, aby to osiągnąć? Czy istnieje aktualny przykład lub samouczek dotyczący tego API?

Łączenie dwóch kolekcji w MongoDB

Próbowałem użyć MapReduce w MongoDB, aby zrobić to, co uważam za prostą procedurę. Nie wiem, czy jest to właściwe podejście, ... dostęp do elementów w wynikowym elemencie MapReduce value? Czy MapReduce zawsze wyświetla value czy jak to inaczej nazwiesz?

Mapa-zmniejsz wydajność w MongoDb 2.2, 2.4 i 2.6

Znalazłem tę dyskusję: MongoDB: fatalna wydajność MapReduce . Zasadniczo mówi, że staraj się unikać zapytań MR Mongo, poniew ... kich jak pobieranie danych dla aplikacji internetowych częste żądania http. Czy jest w stanie efektywnie wykorzystać indeksy?

Czy apache spark może działać bez hadoop?

Czy są jakieś zależności między Iskra oraz Hadoop? Jeśli nie, czy są jakieś funkcje, których będę brakowało podczas biegu Iskra Bez Hadoop?

Jak Hadoop wykonuje podziały wejściowe?

Jest to pytanie koncepcyjne dotyczące Hadoop/HDFS. Powiedzmy, że masz plik zawierający 1 miliard linii. Dla uproszczenia przy ... dane ręcznie? Dokładniej, przy każdym wywołaniu funkcji map() jakie są jej parametry Key key and Value val? Dzięki, Deepak

Implementacja MapReduce w Scali

Chciałbym poznać dobry i solidny framework MapReduce, do wykorzystania ze Scali.

Java8: HashMap to HashMap using Stream / Map-Reduce / Collector

Wiem jak "przekształcić" prostą Javę List z Y -> Z, tj.: List<String> x; List<Integer> y = x.stream() ... ć się do String -> Integer. Podobnie jak w powyższym przykładzie List, chciałbym wywołać dowolną metodę (lub konstruktor).

Explode the Array of Struct in Hive

To jest poniższa tabela Ula CREATE EXTERNAL TABLE IF NOT EXISTS SampleTable ( USER_ID BIGINT, NEW_ITEM ARRAY<STRUCT<P ... .purchased_item.timestamps) myTable2 AS myCol2; Czy ktoś może mi pomóc, co robię źle? Wszelkie sugestie będą mile widziane.

Najlepszy sposób, aby zrobić jeden do wielu "przyłączyć się" w CouchDB

Szukam CouchDB odpowiednik "SQL joins". W moim przykładzie są dokumenty CouchDB, które są elementami listy: { "type" : "el ... dla każdego wpisu). Edytuj: Nie przegap komentarza JasonSmith ' a do jego odpowiedzi, gdzie opisuje, jak to zrobić krócej.

Czy lepiej użyć pakietu mapred lub mapreduce, aby utworzyć zadanie Hadoop?

Aby utworzyć zadania MapReduce, możesz użyć starego org.apache.hadoop.mapred lub nowszego org.apache.hadoop.mapreduce pakietu ... ko od tego, czy potrzebujesz czegoś takiego jak MultipleTextOutputFormat, który jest dostępny tylko w starym pakiecie mapred?

Mapa Hadoop: Algorytmy

Czy ktoś może wskazać mi dobrą stronę z dobrym zbiorem algorytmów Hadoop? Na przykład najbardziej złożoną rzeczą, którą mogę ... nalne rzeczy, jak liczenie słów i takie tam. Chcę zobaczyć stronę internetową, która pokazuje mi inne wykorzystanie hadoop.

Testy integracyjne Hive jobs

Próbuję napisać nietrywialną pracę Hive 'a używając interfejsów Hive i JDBC i mam problem z ustawieniem porządnego testu JUni ... . Problem, jak stwierdzono, polega na tym, że nie jest to realne rozwiązanie do skutecznego testowania przepływów pracy Hive.

Zmień rozmiar podziału pliku w Hadoop

Mam kilka małych plików w katalogu HDFS. Chociaż ilość plików jest stosunkowo niewielka, ilość czasu przetwarzania na plik j ... powiedzmy 10kb? Czy muszę zaimplementować własne InputFormat i RecordReader, czy jest jakiś parametr do Ustawienia? Dzięki.

Mapa RavenDB-zmniejsz przykład using.NET Klient

Szukam przykładu jak zaimplementować i wykorzystać Map-Reduce w kliencie RAVENDB. NET. Chciałbym zastosować to do konkretne ... umieć, jak z niego korzystać za pośrednictwem. NET API, a próbki nie wydają się implementować to w ogóle za pomocą. NET API.

Jakie jest zastosowanie komparatora grupującego w hadoop map reduce

Chciałbym wiedzieć, dlaczego komparator grupowania jest używany w drugorzędnym rodzaju mapreduce. Zgodnie z definitywnym prz ... óry dbałby o klucze wyjściowe mapy przechodzące do konkretnego reduktora, to dlaczego mielibyśmy je grupować. Z góry dzięki

Streaming danych i Hadoop? (Nie Hadoop Streaming)

Chciałbym przeanalizować ciągły strumień Danych (dostęp przez HTTP) przy użyciu podejścia MapReduce, więc szukałem Apache Had ... owy kawałek danych jest gotowy, ale to brudny hack; musi być jakiś bardziej elegancki sposób, aby to zrobić. Jakieś pomysły?

Licz linie w dużych plikach

Zwykle pracuję z plikami tekstowymi o rozmiarze ~20 Gb i bardzo często zliczam liczbę linii w danym pliku. Sposób, w jaki te ... aby rozwiązanie było tak proste jak jedna linia, jak rozwiązanie wc -l, ale nie wiem, jak to wykonalne jest. Jakieś pomysły?