mapreduce
Hadoop input split size vs block size
Przechodzę przez hadoop definitive guide, gdzie jasno wyjaśnia o podziałach wejściowych.
It goes like
Input splits nie z ... na danym węźle?
3) Jak to jest obsługiwane, jeśli rozmiar podziału wejściowego jest większy lub mniejszy niż rozmiar bloku?
Punkt wyjścia do nauki implementacji MapReduce / Hadoop w Pythonie?
Ostatnio zacząłem zajmować się analizą danych i nauczyłem się sporo w ciągu ostatniego roku (w tej chwili prawie wyłącznie pr ... , a następnie Jython-ify mój algorytm, zanim w końcu zacznie działać na klastrze za pomocą Hadoop?
Wielkie dzięki za pomoc!
Hadoop wykonywanie zadań spekulacyjnych
W artykule MapReduce Google mają zadanie backupu, myślę, że to samo jest z zadaniem spekulacyjnym w Hadoop. W jaki sposób rea ... aczyna się od miejsca, w którym starsze zadanie osiągnęło (jeśli tak, to czy musi kopiować wszystkie pośrednie stany i dane?)
Odpowiednik Procedury Składowanej MongoDB
Mam duży plik CSV zawierający listę sklepów, w którym jednym z pól jest ZipCode.
Mam oddzielną bazę danych MongoDB o nazwie Z ... ć geograficzną tego sklepu i zapisać to.
Nie znam zbyt dobrze pojęcia Map/Reduce, ale czy byłoby to tutaj istotne?
Dziękuję!
jakie są opcje hadoop na Scali
Rozpoczynamy projekt analityczny oparty na dużych danych i rozważamy przyjęcie Scali (stos typesafe). Chciałbym poznać różne projekty/projekty scala API, które są dostępne do wykonania programów hadoop, map reduce.
Mapa hadoop zmniejsz sortowanie wtórne
Czy ktoś może mi wyjaśnić, jak działa sortowanie wtórne w hadoop ?
Dlaczego trzeba używać GroupingComparator i jak to działa ... wyjasnic jak dziala komparator grupowania?
Http://www.bigdataspeak.com/2013/02/hadoop-how-to-do-secondary-sort-on_25.html
Jaki jest najszybszy sposób programowego ładowania danych do bazy HBase?
Mam zwykły plik tekstowy z prawdopodobnie milionami linii, który wymaga niestandardowego parsowania i chcę go jak najszybciej ... d time : " + endTime);
System.out.println("Duration milliseconds: " + (endTime-startTime));
System.exit(errCode);
}
Uczenie maszynowe na dużą skalę [zamknięte]
Muszę uruchomić różne techniki uczenia maszynowego na dużym zbiorze danych (10-100 miliardów rekordów)
Problemy dotyczą główn ... rastrukturę MapReduce
Silne preferencje do c++, ale Java i python są ok
Amazon Azure czy własne datacenter (stać nas na to)?
Podziel rozmiar vs rozmiar bloku w Hadoop
Jaka jest zależność między rozmiarem podzielonym a rozmiarem bloku w Hadoop? Jak przeczytałem w to , rozmiar dzielenia musi b ... ałkowitą i N > 0), czy to prawda? Czy istnieje jakaś konieczność w związku między rozmiarem podzielonym a rozmiarem bloku?
Co to jest Hive: zwrot kodu 2 z org.Apacz.hadoop.hive.ql.exec.MapRedTask
Otrzymuję:
FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask
Podczas próby zrobienia ... ob = job_201206191101_4557 with errors
FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask
Hadoop jedna mapa i wiele redukcji
Mamy duży zbiór danych do analizy za pomocą wielu funkcji reduce .
Wszystkie algorytmy reducedziałają na tym samym zbiorze ... u reduce funkcji.
Czy Mogę to zrobić z Hadoop? Przeszukałem przykłady i intarweb, ale nie mogłem znaleźć żadnych rozwiązań.
Szybki sposób wyszukiwania duplikatów na indeksowanych kolumnach w mongodb
Mam kolekcję md5 w mongodb. Chciałbym znaleźć wszystkie duplikaty. Kolumna md5 jest indeksowana. Czy znasz jakiś szybki sposó ... rray.sum(vals);
}
)
db[res.result].find({value: {$gte:1}}).forEach(
function (obj) {
out.duplicates.insert(obj)
});
Duży rozmiar bloku w HDFS! Jak rozliczana jest niewykorzystana przestrzeń?
Wszyscy wiemy, że rozmiar bloku w HDFS jest dość duży (64M lub 128M) w porównaniu do rozmiaru bloku w tradycyjnych systemach ... ego bloku i nie uwzględnia przestrzeni całego bloku, ale nie mogłem zrozumieć jak? Czy ktoś może rzucić na to trochę światła?
MongoDB map / reduce over multiple collections?
Najpierw tło. Kiedyś miałem kolekcję logs i używałem map/reduce do generowania różnych raportów. Większość tych raportów była ... ie. Czy istnieje sposób, aby uruchomić mapę / zmniejszyć (a dokładniej mapę) na wielu kolekcjach, tak jakby była tylko jedna?
Pierwsze kroki z MapReduce / Hadoop [zamknięte]
Ostatnio dużo czytam o MapReduce / Hadoop i myślę, że właśnie do tego właśnie zmierza branża.
Chcę zacząć uczyć się MapReduc ... Może to być mały projekt, który mogę zrealizować samodzielnie, aby uzyskać lepsze zrozumienie technologii.
Dzięki,
Chander
Jak używać Map/Reduce w MongoDB?
Mam problem z tym, jak działa map/reduce w MongoDB. Mam kolekcję z polami: areacode, state, county, zip, city, lat, lon, któr ... eż.
Jakieś rady, jak używać map/reduce, aby to osiągnąć? Wydaje mi się, że to dość proste, po prostu nie mogę tego rozgryźć.
Czy Mongoid ma Map/Reduce?
Używam kodu Ruby do obliczenia sumy z tablicy zwróconej przez Mongoid.
Ale może używanie Map/Reduce może być szybsze, tyle ż ... lub Map/Reduce)
Na stronie MongoDB są dokumenty
map reduce site:mongodb.org
Ale trzeba też użyć Map Reduce z Mongoidem.
W MongoDB mapreduce jak spłaścić obiekt values?
Próbuję użyć MongoDB do analizy plików dziennika Apache. Stworzyłem receipts kolekcję z dzienników dostępu Apache. Oto skróco ... "count" : 3
},
"/videos/6/buffers_listed_and_hidden.ogv" : {
"count" : 1
}
}
}
Jaki jest cel "uber mode" w hadoop?
Cześć jestem Big Data newbie. Przeszukałem cały internet, aby znaleźć, co dokładnie uber mode jest. Im więcej Szukałem, tym b ... je pytania?
Do czego służy tryb uber?
czy to działa inaczej w mapred 1.x i 2.x?
i gdzie mogę znaleźć ustawienie dla niego?
MapReduce czy Spark? [zamknięte]
Przetestowałem hadoop i mapreduce z cloudera i uznałem to za całkiem fajne, myślałem, że jestem najnowszym i odpowiednim rozw ... ? Czy jest coś więcej, Co MapReduce może zrobić, czy może MapReduce być bardziej wydajne niż Spark w określonym kontekście ?