Czy lepiej użyć pakietu mapred lub mapreduce, aby utworzyć zadanie Hadoop?
Aby utworzyć zadania MapReduce, możesz użyć starego org.apache.hadoop.mapred
lub nowszego org.apache.hadoop.mapreduce
pakietu dla maperów i reduktorów, Jobs ... Pierwszy z nich został oznaczony jako przestarzały, ale ten został przywrócony w międzyczasie. Teraz zastanawiam się, czy lepiej jest użyć starego pakietu mapred lub nowego pakietu mapreduce, aby utworzyć zadanie i dlaczego. A może zależy to tylko od tego, czy potrzebujesz czegoś takiego jak MultipleTextOutputFormat, który jest dostępny tylko w starym pakiecie mapred?
3 answers
Funkcjonalność nie ma dużej różnicy między starym (o.a.h.mapred
) a nowym (o.a.h.mapreduce
) API. Jedyną istotną różnicą jest to, że rekordy są popychane do mapera/reduktora w starym API. Podczas gdy nowe API obsługuje zarówno mechanizm pull/push. Więcej informacji na temat mechanizmu ściągającego znajdziesz tutaj.
Również, stare API zostało nie-przestarzałe od 0.21. Więcej informacji o nowym API znajdziesz tutaj .
Jak wspomniałeś niektóre z klasy (takie jak MultipleTextOutputFormat) nie zostały przeniesione do nowego API, z tego powodu i z wyżej wymienionego powodu lepiej trzymać się starego API (chociaż tłumaczenie jest zwykle dość proste).
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2017-05-23 11:46:18
Zarówno stare, jak i nowe interfejsy API są dobre. Nowe API jest jednak czystsze. Używaj nowego API tam, gdzie możesz, i używaj starego, tam, gdzie potrzebujesz określonych klas, które nie są obecne w nowym API (jak MultipleTextOutputFormat
)
Ale uważaj, aby nie używać mieszanki starych i nowych API w tym samym zadaniu Mapreduce. To prowadzi do dziwnych problemów.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2011-09-29 18:28:59
Old API (mapred)
-
Istnieje w pakiecie org.Apacz.hadoop.mapred
Podaj mapÄ™ / zmniejsz konfiguracjÄ™ zadania.
- zmniejsza wartości dla danego klucza, w oparciu o Iterator
- Pakiet Podsumowanie
Nowe API (mapreduce)
-
Istnieje w pakiecie org.Apacz.hadoop.mapreduce
-
Konfiguracja zadania odbywa się za pomocą oddzielnej klasy o nazwie JobConf, która jest rozszerzeniem Konfiguracja
Class -
Zmniejsza wartości dla danego klucza, w oparciu o Iterable
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-01-16 19:58:14