mapreduce

Hadoop input split size vs block size

Przechodzę przez hadoop definitive guide, gdzie jasno wyjaśnia o podziałach wejściowych. It goes like Input splits nie z ... na danym węźle? 3) Jak to jest obsługiwane, jeśli rozmiar podziału wejściowego jest większy lub mniejszy niż rozmiar bloku?

Punkt wyjścia do nauki implementacji MapReduce / Hadoop w Pythonie?

Ostatnio zacząłem zajmować się analizą danych i nauczyłem się sporo w ciągu ostatniego roku (w tej chwili prawie wyłącznie pr ... , a następnie Jython-ify mój algorytm, zanim w końcu zacznie działać na klastrze za pomocą Hadoop? Wielkie dzięki za pomoc!

Hadoop wykonywanie zadań spekulacyjnych

W artykule MapReduce Google mają zadanie backupu, myślę, że to samo jest z zadaniem spekulacyjnym w Hadoop. W jaki sposób rea ... aczyna się od miejsca, w którym starsze zadanie osiągnęło (jeśli tak, to czy musi kopiować wszystkie pośrednie stany i dane?)

Odpowiednik Procedury Składowanej MongoDB

Mam duży plik CSV zawierający listę sklepów, w którym jednym z pól jest ZipCode. Mam oddzielną bazę danych MongoDB o nazwie Z ... ć geograficzną tego sklepu i zapisać to. Nie znam zbyt dobrze pojęcia Map/Reduce, ale czy byłoby to tutaj istotne? Dziękuję!

jakie są opcje hadoop na Scali

Rozpoczynamy projekt analityczny oparty na dużych danych i rozważamy przyjęcie Scali (stos typesafe). Chciałbym poznać różne projekty/projekty scala API, które są dostępne do wykonania programów hadoop, map reduce.

Mapa hadoop zmniejsz sortowanie wtórne

Czy ktoś może mi wyjaśnić, jak działa sortowanie wtórne w hadoop ? Dlaczego trzeba używać GroupingComparator i jak to działa ... wyjasnic jak dziala komparator grupowania? Http://www.bigdataspeak.com/2013/02/hadoop-how-to-do-secondary-sort-on_25.html

Jaki jest najszybszy sposób programowego ładowania danych do bazy HBase?

Mam zwykły plik tekstowy z prawdopodobnie milionami linii, który wymaga niestandardowego parsowania i chcę go jak najszybciej ... d time : " + endTime); System.out.println("Duration milliseconds: " + (endTime-startTime)); System.exit(errCode); }

Uczenie maszynowe na dużą skalę [zamknięte]

Muszę uruchomić różne techniki uczenia maszynowego na dużym zbiorze danych (10-100 miliardów rekordów) Problemy dotyczą główn ... rastrukturę MapReduce Silne preferencje do c++, ale Java i python są ok Amazon Azure czy własne datacenter (stać nas na to)?

Podziel rozmiar vs rozmiar bloku w Hadoop

Jaka jest zależność między rozmiarem podzielonym a rozmiarem bloku w Hadoop? Jak przeczytałem w to , rozmiar dzielenia musi b ... ałkowitą i N > 0), czy to prawda? Czy istnieje jakaś konieczność w związku między rozmiarem podzielonym a rozmiarem bloku?

Co to jest Hive: zwrot kodu 2 z org.Apacz.hadoop.hive.ql.exec.MapRedTask

Otrzymuję: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask Podczas próby zrobienia ... ob = job_201206191101_4557 with errors FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask

Hadoop jedna mapa i wiele redukcji

Mamy duży zbiór danych do analizy za pomocą wielu funkcji reduce . Wszystkie algorytmy reducedziałają na tym samym zbiorze ... u reduce funkcji. Czy Mogę to zrobić z Hadoop? Przeszukałem przykłady i intarweb, ale nie mogłem znaleźć żadnych rozwiązań.

Szybki sposób wyszukiwania duplikatów na indeksowanych kolumnach w mongodb

Mam kolekcję md5 w mongodb. Chciałbym znaleźć wszystkie duplikaty. Kolumna md5 jest indeksowana. Czy znasz jakiś szybki sposó ... rray.sum(vals); } ) db[res.result].find({value: {$gte:1}}).forEach( function (obj) { out.duplicates.insert(obj) });

Duży rozmiar bloku w HDFS! Jak rozliczana jest niewykorzystana przestrzeń?

Wszyscy wiemy, że rozmiar bloku w HDFS jest dość duży (64M lub 128M) w porównaniu do rozmiaru bloku w tradycyjnych systemach ... ego bloku i nie uwzględnia przestrzeni całego bloku, ale nie mogłem zrozumieć jak? Czy ktoś może rzucić na to trochę światła?

MongoDB map / reduce over multiple collections?

Najpierw tło. Kiedyś miałem kolekcję logs i używałem map/reduce do generowania różnych raportów. Większość tych raportów była ... ie. Czy istnieje sposób, aby uruchomić mapę / zmniejszyć (a dokładniej mapę) na wielu kolekcjach, tak jakby była tylko jedna?

Pierwsze kroki z MapReduce / Hadoop [zamknięte]

Ostatnio dużo czytam o MapReduce / Hadoop i myślę, że właśnie do tego właśnie zmierza branża. Chcę zacząć uczyć się MapReduc ... Może to być mały projekt, który mogę zrealizować samodzielnie, aby uzyskać lepsze zrozumienie technologii. Dzięki, Chander

Jak używać Map/Reduce w MongoDB?

Mam problem z tym, jak działa map/reduce w MongoDB. Mam kolekcję z polami: areacode, state, county, zip, city, lat, lon, któr ... eż. Jakieś rady, jak używać map/reduce, aby to osiągnąć? Wydaje mi się, że to dość proste, po prostu nie mogę tego rozgryźć.

Czy Mongoid ma Map/Reduce?

Używam kodu Ruby do obliczenia sumy z tablicy zwróconej przez Mongoid. Ale może używanie Map/Reduce może być szybsze, tyle ż ... lub Map/Reduce) Na stronie MongoDB są dokumenty map reduce site:mongodb.org Ale trzeba też użyć Map Reduce z Mongoidem.

W MongoDB mapreduce jak spłaścić obiekt values?

Próbuję użyć MongoDB do analizy plików dziennika Apache. Stworzyłem receipts kolekcję z dzienników dostępu Apache. Oto skróco ... "count" : 3 }, "/videos/6/buffers_listed_and_hidden.ogv" : { "count" : 1 } } }

Jaki jest cel "uber mode" w hadoop?

Cześć jestem Big Data newbie. Przeszukałem cały internet, aby znaleźć, co dokładnie uber mode jest. Im więcej Szukałem, tym b ... je pytania? Do czego służy tryb uber? czy to działa inaczej w mapred 1.x i 2.x? i gdzie mogę znaleźć ustawienie dla niego?

MapReduce czy Spark? [zamknięte]

Przetestowałem hadoop i mapreduce z cloudera i uznałem to za całkiem fajne, myślałem, że jestem najnowszym i odpowiednim rozw ... ? Czy jest coś więcej, Co MapReduce może zrobić, czy może MapReduce być bardziej wydajne niż Spark w określonym kontekście ?