mapreduce

Hadoop MapReduce vs MPI ( vs Spark vs Mahout vs Mesos) - kiedy używać jednego nad drugim?

Jestem nowy w obliczeniach równoległych i dopiero zaczynam wypróbowywać MPI i Hadoop + MapReduce na Amazon AWS. Ale nie wiem, ... e kryteria można zastosować przy podejmowaniu decyzji pomiędzy (lub kombinacją) Hadoop MapReduce, MPI, Mesos, Spark i Mahout?

Wyświetla listę z zadania redukcji Mapy Hadoop za pomocą niestandardowego zapisu

Próbuję stworzyć proste zadanie zmniejszania map, zmieniając przykład wordcount podany przez hadoop. Próbuję umieścić listę ... (job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); job.waitForCompletion(true); } }

Świnia vs Ul vs Native Map Reduce

Mam podstawowe zrozumienie, czym są abstrakcje Świnia, Ul. Ale nie mam jasnego pomysłu na scenariusze, które wymagają Ula, św ... ap reduce? Czy możesz wskazać kilka scenariuszy, których nie można rozwiązać za pomocą Pig lub Hive, ale w native map reduce?

Odpytywanie osadzonych obiektów w Mongoid/rails 3 ("Lower than", operatory Min i sortowanie)

Używam rails 3 z mongoid. Mam zbiór akcji z wbudowanym zbiorem cen: class Stock include Mongoid::Document field :name, ... w SQL byłoby coś takiego: SELECT name, code, min(price) from Stock WHERE price<p GROUP BY name, code Dzięki za pomoc.

Korzystając z Hadoop, czy moje reduktory gwarantują uzyskanie wszystkich rekordów z tym samym kluczem?

Uruchamiam zadanie Hadoop przy użyciu Hive, które ma być uniq linijkami w wielu plikach tekstowych. W kroku redukcja wybiera ... astrze? Obawiam się, że wyjście mappera może być podzielone po shuffle dzieje się w środku zestawu rekordów z ten sam klucz.

Analityka i wydobywanie danych

Mamy wiele danych interakcji użytkowników z różnych stron internetowych przechowywanych w Cassandrze, takich jak pliki cookie ... mionej instancji produkcyjnej Cassandra lub na kopii zapasowej, aby zapobiec wpływowi obciążenia zapytań na wydajność zapisu?

ponowne użycie JVM w Hadoop mapreduce jobs

Wiem, że możemy ustawić właściwość " mapred.praca.ponowne użycie.jvm.num.zadania " ponowne wykorzystanie JVM. Moje pytania to ... dobrym pomysłem jest ponowne użycie JVMs i ustawienie tej właściwości na wartość -1 w zadaniach mapreduce? Dziękuję bardzo!

Jak używać kodu MATLAB w maperze (Hadoop)?

Mam kod matlab, który przetwarza obrazy. Chcę stworzyć maper Hadoop, który używa tego kodu. Natknąłem się na następujące rozw ... ATLAB Java Builder. Ale utworzony w ten sposób plik jar będzie również potrzebował runtime. Jakieś sugestie? Z góry dzięki.

Jak przetłumaczyć z SQL na NoSQL / MapReduce?

Mam doświadczenie w pracy z relacyjnymi bazami danych, ale ostatnio zacząłem interesować się CouchDB i byłem zaskoczony tym, ... GROUP BY category; UPDATE products SET price = 19.99 WHERE price = 20.00; DELETE FROM products WHERE expires_at <= NOW();

Jak MapReduce jest dobrą metodą analizy logów serwera http?

Patrzyłem na MapReduce od jakiegoś czasu i wydaje się, że jest to bardzo dobry sposób na implementację odpornych na błędy obl ... a zrobienie tego ? Jak podzieliłbyś pliki dziennika internetowego między różne instancje obliczeniowe ? Dziękuję. Nicolas

Uruchom zadanie Hadoop bez użycia JobConf

Nie mogę znaleźć ani jednego przykładu wysłania zadania Hadoop, które nie używa przestarzałej klasy JobConf. JobClient, któr ... /reduce Hadoop używając tylko klasy Configuration (Nie JobConf), a używając pakietu mapreduce.lib.input zamiast mapred.input?

Lista nazw i datanodów klastra z dowolnego węzła?

Z dowolnego węzła w klastrze Hadoop, jakie jest polecenie zidentyfikować uruchomiony namenode? zidentyfikować wszystkie uruchomione datanody? Przejrzałem instrukcję poleceń i nie znalazłem tego.

Hadoop Streaming Job failed błąd w Pythonie

Z tego poradnika z powodzeniem przeprowadziłem przykładowe ćwiczenie. Ale po uruchomieniu mojej pracy mapreduce dostaję nas ... r.py -reducer /home/hadoop/reducer.py -input my-input/* -output my-output Input to dowolna losowa Sekwencja zdań. Dzięki,

MongoDB MapReduce-emituje jeden klucz/jedną wartość nie zmniejsza wywołania

Więc jestem nowy z mongodb i mapreduce w ogóle i natknąłem się na to " dziwactwo "(lub przynajmniej w moim umyśle dziwactwo) ... m kluczem) dostaję nieoczekiwane 0! Czy to naturalne zachowanie mapreduce w ogóle? Dla MongoDB? Do pymongo (którego używam)?

MultipleOutputFormat w hadoop

Jestem nowicjuszem w Hadoop. Wypróbuję program Wordcount. Teraz, aby wypróbować wiele plików wyjściowych, używam MultipleOu ... ) tak, że każde nieparzyste wyjście każdego Map-reduce zostanie zapisane w tym nieparzystym pliku, i to samo dla parzystego.

Różnica w wywołaniu pracy

Jaka jest różnica między wywołaniem zadania mapreduce z main() a z ToolRunner.run()? Kiedy mówimy, że główna klasa mówi, MapR ... awnienia, które otrzymujemy, a których nie mamy, gdybyśmy mieli wykonać proste uruchomienie zadania z głównej metody? Dzięki.

Przekazywanie argumentów do maperów Hadoop

Używam nowego API Hadoop i szukam sposobu na przekazanie niektórych parametrów (kilku ciągów) maperom.Jak mogę to zrobić? T ... ie można ustawić parametrów takich jak to: Configuration con = new Configuration(); con.set("NumberOfDocuments", args[0]);

Gdzie praca?setOutputKeyClass i job.setOutputReduceClass odnosi się do?

Myślałem, że odnoszą się do reduktora, ale w moim programie Mam public static class MyMapper extends Mapper< ... nież czy muszę używać job.setInputFormatClass i job.setOutputFormatClass? Ponieważ moje programy działają poprawnie bez nich.

Czy powinienem nauczyć się / używać MapReduce, lub innego rodzaju równoległości dla tego zadania?

Po rozmowie z moim przyjacielem z Google, chciałbym zaimplementować jakiś model pracy / pracownika do aktualizacji mojego zbi ... em obsługuje nieudane zadania. Jest bardzo tani. Może warto zaimplementować zamiast niestandardowego systemu kolejki zadań.

hadoop map reduce job with HDFS input and HBase output

Jestem nowy na hadoop. Mam zadanie MapReduce, które ma pobierać wejście z Hdfs i zapisywać wyjście reduktora do Hbase. Nie zn ... czelni zakończył się pomyślnie dwa lata temu. W przypadku konfiguracji zadania (Część sterownika) sprawdź poprawną odpowiedź.