Czy lepiej użyć pakietu mapred lub mapreduce, aby utworzyć zadanie Hadoop?

Aby utworzyć zadania MapReduce, możesz użyć starego org.apache.hadoop.mapred lub nowszego org.apache.hadoop.mapreduce pakietu dla maperów i reduktorów, Jobs ... Pierwszy z nich został oznaczony jako przestarzały, ale ten został przywrócony w międzyczasie. Teraz zastanawiam się, czy lepiej jest użyć starego pakietu mapred lub nowego pakietu mapreduce, aby utworzyć zadanie i dlaczego. A może zależy to tylko od tego, czy potrzebujesz czegoś takiego jak MultipleTextOutputFormat, który jest dostępny tylko w starym pakiecie mapred?

Author: coderz, 2011-09-29

3 answers

Funkcjonalność nie ma dużej różnicy między starym (o.a.h.mapred) a nowym (o.a.h.mapreduce) API. Jedyną istotną różnicą jest to, że rekordy są popychane do mapera/reduktora w starym API. Podczas gdy nowe API obsługuje zarówno mechanizm pull/push. Więcej informacji na temat mechanizmu ściągającego znajdziesz tutaj.

Również, stare API zostało nie-przestarzałe od 0.21. Więcej informacji o nowym API znajdziesz tutaj .

Jak wspomniałeś niektóre z klasy (takie jak MultipleTextOutputFormat) nie zostały przeniesione do nowego API, z tego powodu i z wyżej wymienionego powodu lepiej trzymać się starego API (chociaż tłumaczenie jest zwykle dość proste).

 40
Author: Praveen Sripati,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2017-05-23 11:46:18

Zarówno stare, jak i nowe interfejsy API są dobre. Nowe API jest jednak czystsze. Używaj nowego API tam, gdzie możesz, i używaj starego, tam, gdzie potrzebujesz określonych klas, które nie są obecne w nowym API (jak MultipleTextOutputFormat)

Ale uważaj, aby nie używać mieszanki starych i nowych API w tym samym zadaniu Mapreduce. To prowadzi do dziwnych problemów.

 14
Author: Hari Menon,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2011-09-29 18:28:59

Old API (mapred)

  1. Istnieje w pakiecie org.Apacz.hadoop.mapred

  2. Podaj mapÄ™ / zmniejsz konfiguracjÄ™ zadania.

  3. zmniejsza wartości dla danego klucza, w oparciu o Iterator
  4. Pakiet Podsumowanie

Nowe API (mapreduce)

  1. Istnieje w pakiecie org.Apacz.hadoop.mapreduce

  2. Konfiguracja zadania odbywa się za pomocą oddzielnej klasy o nazwie JobConf, która jest rozszerzeniem Konfiguracja
    Class

  3. Zmniejsza wartości dla danego klucza, w oparciu o Iterable

  4. Podsumowanie Pakietu

 2
Author: anish,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-01-16 19:58:14