Różnice Dystrybucji Hadoop

Czy ktoś może opisać różne różnice między różnymi dostępnymi dystrybucjami Hadoop:

Używanie dystrybucji Apache Hadoop jako punktu odniesienia.

Czy istnieje dobry powód do używania jednej z tych dystrybucji w standardowej dystrybucji Apache Hadoop?

Author: Jon, 2009-09-11

4 answers

Disclaimer: staż w Cloudera tego lata (ale niektórzy z moich najlepszych przyjaciół są w Yahoo! :-))

Dystrybucja Yahoo jest wersją Hadoop 20, którą uruchamiają (ran?) na niektórych podzbiorach ich gromad. Zawiera zestaw łatek dla stabilności, poprawek błędów itp. Jest to wydanie źródłowe; nie ma przyjaznych dla administratorów funkcji, takich jak pakiety RPM czy Debiana itp.

Dystrybucją Cloudera są pakiety w postaci rpms i DEB (dostępne jest również źródło). Oznacza to, że można uzyskać aktualizacje metodami standardowymi itp. Zawiera również poprawki stabilności i błędów. Jest on stale utrzymywany (nie mówiąc, że Yahoo nie jest-przypuszczam, że można po prostu przejść na github i sprawdzić, kiedy ostatnio go zaktualizowali). Pakuje również świnie i ule.

Dystrybucja Hadoop 20 firmy Cloudera jest w wersji beta, a 18 jest uważana za stabilną (więcej na ten temat na blogu Cloudera). Wersja 18 zawiera również pakiety dla Ula i świni; za 20 trzeba je zbudować samemu (nie ma oficjalne wydania Pig lub Hive, które obsługują jeszcze 20, chociaż istnieją patche). Wersje Cloudera i Yahoo 20 mogą znacznie nakładać się na siebie; obie zawierają manifesty, więc możesz to sprawdzić. Najnowsza dokumentacja dystrybucji Cloudera znajduje się na http://archive.cloudera.com

Yahoo nie zapewnia wsparcia dla ich dystrybucji; zapewniają ich poprawioną wersję jako usługę dla społeczności, więc ludzie, którzy są zainteresowani mogą zbudować to, co działa Yahoo wewnętrznie. Biorąc pod uwagę wielkość klastrów Yahoo, jest to znaczący wkład, zwłaszcza jeśli nie jesteś deweloperem Hadoop, który śledzi JIRAs cały czas. Cloudera obsługuje ich dystrybucję komercyjnie, a także zapewnia wsparcie społeczności za pośrednictwem list dyskusyjnych Hadoop oraz, w przypadku problemów związanych z dystrybucją, na stronie GetSatisfaction.

Oba są całkiem różne od vanilla Apache distro, ponieważ łatają je między wydaniami (wersja cloudera 20 mA 60+ patches!).

 14
Author: SquareCog,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-09-13 07:53:20

Yahoo zaprzestało dystrybucji własnej i skupiło się na Apache Hadoop.

Http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of-hadoop/

Http://www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/

Ostatnio, HortonWorks (www.hortonworks.com) został wydzielony z Yahoo. A teraz HortonWorks będzie również zapewniać wsparcie w przeciwieństwie do Yahoo.

Http://www.hortonworks.com/about-us/our-manifesto/

Cloudera jest taka sama jak HortonWorks

Http://www.cloudera.com/products-services/

Główną różnicą jest to, że Hortonworks chce, aby dystrybucje Apache były stabilne, łatwe w instalacji i inne. Podczas gdy Cloudera ma własną dystrybucję CDH * opartą na Apache Hadoop.

 4
Author: Praveen Sripati,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2011-08-03 09:21:54

Istnieją różne powody wyboru dystrybucji Hadoop, takiej jak Cloudera, Hortonworks lub MapR zamiast Apache Hadoop. Dwie duże zalety to wsparcie narzędzi i wsparcie komercyjne. Masz też spore problemy z "zbieraniem i integrowaniem" wszystkich frameworków Hadoop takich jak Pig, Hive itp. w odpowiednich i kompatybilnych wersjach.

Spójrz na mój artykuł w InfoQ. Wyjaśnia różnice między Apache Hadoop, dystrybucjami Hadoop i pakietami big data, a kiedy używać których jeden:

Http://www.infoq.com/articles/BigDataPlatform

Pozdrawiam,

Kai Wähner (@KaiWaehner, www.kai-waehner.de/blog)

 1
Author: Kai Wähner,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2013-07-24 14:47:36

SquareCog ma rację na prawie wszystkich punktach z wyjątkiem: Yahoo! dystrybucja jest to, co jest uruchamiane na wszystkich klastrach produkcyjnych w Yahoo!, a nie ich podzbiór. Łącznie jest to ponad 25 000 maszyn. The Yahoo! Dystrybucja przeszła szeroko zakrojone, kompleksowe testy niezbędne do zapewnienia niezawodnego, spójnego działania. Druga dystrybucja jest bardziej liberalna, jeśli chodzi o stosowanie łat, więc może mieć więcej funkcji, ale nie została tak szeroko przetestowana.

 0
Author: Jakob Homan,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-03-07 06:53:56