Jakie dodatkowe korzyści przynosi dotychczasowa Mapa?

Yarn różni się warstwą infrastruktury od oryginalnej mapy w następujący sposób:

W YARN, job tracker jest podzielony na dwa różne demony o nazwie Resource Manager i Node Manager (specyficzne dla węzła). Menedżer zasobów zarządza tylko alokacją zasobów do różnych zadań, z wyjątkiem harmonogramu, który po prostu zajmuje się zadaniami harmonogramowania, nie martwiąc się o monitorowanie lub aktualizacje statusu. Różne zasoby, takie jak pamięć, Czas procesora, przepustowość sieci itp. są umieszczone w jednej jednostce zwanej Resource Container. Istnieją różne AppMasters działające na różnych węzłach, które rozmawiają z wieloma tymi kontenerami zasobów i odpowiednio aktualizują Menedżera węzłów za pomocą szczegółów monitorowania / stanu.

Chcę wiedzieć, w jaki sposób użycie tego typu podejścia zwiększa wydajność z perspektywy mapy-redukuje? Ponadto, jeśli istnieją jakieś ostateczne treści na temat motywacji przędzy i jej korzyści w stosunku do istniejącego wdrażania Map-reduce, proszę wskaż mi to samo.

Author: twid, 2012-10-21

5 answers

Oto niektóre z artykułów (1, 2, 3) o przędzy. Mówią o korzyściach płynących z używania przędzy.

YARN jest bardziej ogólny niż MR i powinno być możliwe uruchamianie innych modeli obliczeniowych, takich jak BSP oprócz Mr.przed YARNEM wymagało oddzielnego Klastra dla MR, BSP i innych. Teraz mogą one współistnieć w jednym klastrze, co prowadzi do większego wykorzystania klastra. tutaj są niektóre aplikacje przeniesione do przędzy.

Od perspektywa MapReduce w legacy MR istnieją oddzielne sloty dla Map i redukcji zadań, ale w YARN ich nie jest ustalonym celem kontenera. Ten sam kontener może być użyty do zadania Map, Reduce, Hama BSP lub czegoś innego. Prowadzi to do lepszego wykorzystania.

Umożliwia również uruchamianie różnych wersji Hadoop w tym samym klastrze, co nie jest możliwe w przypadku starszego MR, co ułatwia pracę z punktu serwisowego.

Tutaj są niektóre z dodatkowe linki do przędzy. Ponadto, Hadoop: the Definitive Guide, 3rd Edition zawiera całą sekcję poświęconą przędzy.

Dla twojej informacji, to było trochę kontrowersyjne rozwijać YARN zamiast używać niektórych frameworków, które robiły coś podobnego i działały od wieków z powodzeniem z usuniętymi błędami.

 20
Author: Praveen Sripati,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2012-10-21 03:56:51

Nie sądzę, aby Przędza przyspieszyła istniejące ramy MR. Patrząc na architekturę widzimy, że system jest teraz bardziej modułowy - ale modułowość Zwykle przeczy wyższej wydajności.
Można twierdzić, że YARN nie ma nic wspólnego z MapReduce. MapReduce stało się jednym z zastosowań przędzy. Możesz to zobaczyć jako przejście z jakiegoś osadzonego programu do osadzonego systemu operacyjnego z programem w nim
Jednocześnie otwiera drzwi dla różnych Mr z różnymi ramami. Na przykład , jeśli założymy, że nasz zbiór danych jest mniejszy niż pamięć klastra, możemy uzyskać znacznie lepszą wydajność. Myślę http://www.spark-project.org/ jest jednym z takich przykładów
Podsumowując: przędza nie poprawia istniejącego MR, ale pozwoli innym implementacjom MR być lepszym we wszystkich aspektach.

 7
Author: David Gruzman,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2012-10-21 11:40:50

Wszystkie powyższe odpowiedzi obejmowały wiele informacji: upraszczam wszystkie informacje w następujący sposób:

MapReduce:                          YARN:

1. It is Platform plus Application  It is a Platform in Hadoop 2.0 and 
in Hadoop 1. 0 and it is only of    doesn't exist in Hadoop 1.0
the applications in Hadoop 2.0

2. It is single use system i.e.,    It is multi purpose system, We can run
We can run MapReduce jobs only.     MapReduce, Spark, Tez, Flink, BSP, MPP,
                                    MPI, Giraph etc... (General Purpose)

3. JobTracker scalability i.e.,     Both Resource Management and
Both Resource Management and        Application Management gets separated & 
Job Management                      managed by RM+NM, Paradigm specific AMs
                                    respectively.

4. Poor Resource Management         Flexible Resource Management i.e., 
system i.e., slots (map/reduce)     containers.

5. It is not highly available       High availability and reliability.

6. Scaled out up to 5000 nodes      Scaled out 10000 plus nodes.

7. Job->tasks                        Application -> DAG of Jobs -> tasks

8. Classical MapReduce = MapReduce  Yarn MapReduce = MapReduce API +      
   API + MapReduce FrameWork        MapReduce FrameWork + YARN System
   + MapReduce System               So MR programs which were written over
                                    Hadoop 1.0 run over Yarn also with out
                                    changing a single line of code i.e.,
                                    backward compatibility.
 3
Author: Naga,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-09-02 05:29:05

Zobaczmy wady Hadoop 1.0, które zostały rozwiązane przez Hadoop 2.0 z dodatkiem przędzy.

  1. problem skalowalności : Job Tracker działa na jednej maszynie, nawet jeśli w klastrze Hadoop masz tysiące węzłów. Obowiązki Job tracker: Zarządzanie zasobami, Harmonogram zadań i zadań oraz monitorowanie. Ponieważ wszystkie te procesy działają na jednym węźle, model ten nie jest skalowalny.
  2. kwestia dostępności (pojedynczy punkt błąd) : Job Tracker jest pojedynczym punktem awarii.
  3. wykorzystanie zasobów: ze względu na predefiniowaną liczbę miejsc na mapy i redukcję zadań, zasoby nie są wykorzystywane prawidłowo. Gdy wszystkie węzły Mapera są zajęte, węzły reduktora są bezczynne i nie mogą być używane do przetwarzania zadań Mapera.
  4. [[5]}Ścisła integracja z Map Reduce framework : Hadoop 1.x może uruchamiać tylko zadania Map reduce. Wsparcie dla zadań innych niż zadania Map Reduce nie istnieje.

Teraz jedno zadanie Tracker bottleneck został usunięty za pomocą architektury YARN w Hadoop 2.x

Podstawową ideąYARN jest podzielenie funkcjonalności zarządzania zasobami i harmonogramowania zadań/monitorowania na oddzielne demony. Ideą jest posiadanie globalnego Resourcemanagera (RM) i per-application ApplicationMaster (AM). Aplikacja jest albo pojedynczym zadaniem lub DAG pracy.

ResourceManager posiada dwa główne komponenty: Scheduler oraz ApplicationsManager.

Scheduler jest odpowiedzialny za przydzielanie zasobów do różnych uruchomionych aplikacji z zastrzeżeniem znanych ograniczeń pojemności, kolejek itp. Scheduler jest czystym schedulerem w tym sensie, że nie wykonuje monitorowania ani śledzenia stanu aplikacji.

ApplicationsManager jest odpowiedzialny za przyjmowanie zgłoszeń zadań, negocjowanie pierwszego kontenera do wykonania konkretnej aplikacji ApplicationMaster and provides the service for restarting the ApplicationMaster container on failure.

The per-application ApplicationMaster jest odpowiedzialny za negocjowanie odpowiednich kontenerów zasobów z terminarza, śledzenie ich statusu i monitorowanie postępów.

Teraz zalety przędzy

  1. skalowalność problemy zostały rozwiązane
  2. Brak pojedynczego punktu awarii . Wszystkie komponenty są wysoce dostępne
  3. wykorzystanie zasobów zostało poprawione dzięki odpowiedniemu wykorzystaniu Map i zmniejsz szczeliny.
  4. oferty pracy bez Map można zgłaszać
 2
Author: Ravindra babu,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2016-02-20 02:17:18

Wygląda na to, że ten link może być tym, czego szukasz: http://developer.yahoo.com/blogs/hadoop/posts/2011/02/mapreduce-nextgen/.

Rozumiem, że włóczka powinna być bardziej ogólna. Możesz tworzyć własne aplikacje przędzy, które negocjują bezpośrednio z menedżerem zasobów(1), A MapReduce jest tylko jednym z kilku menedżerów aplikacji, które już istnieją (2).

 1
Author: Ben McCracken,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2012-10-21 03:40:46