Czym są pliki SUCCESS i part-r - 00000 w hadoop

Question

Czym są pliki SUCCESS i part-r - 00000 w hadoop

Chociaż często używam Hadoop na moim komputerze Ubuntu, nigdy nie myślałem o plikach SUCCESS i part-r-00000. Wyjście zawsze znajduje się w pliku part-r-00000, ale jaki jest pożytek z pliku SUCCESS? Dlaczego plik wyjściowy ma nazwę part-r-0000? Czy jest jakieś znaczenie / jakaś nomenklatura, czy jest to po prostu losowo zdefiniowane?

36

hadoop mapreduce

Author: HTNW, 2012-05-19

Source

1 answers

score 62 · Accepted Answer

Zobacz http://www.cloudera.com/blog/2010/08/what%E2%80%99s-new-in-apache-hadoop-0-21/

Po pomyślnym zakończeniu zadania środowisko uruchomieniowe MapReduce tworzy plik _SUCCESS w katalogu wyjściowym. Może to być przydatne w aplikacjach, które muszą sprawdzić, czy zestaw wyników jest kompletny tylko przez kontrolę HDFS. (MAPREDUCE-947)

Zwykle jest to używane przez systemy planowania zadań( takie jak OOZIE), aby określić, że dalsze przetwarzanie na zawartości katalog ten może się rozpocząć, gdy wszystkie dane zostały wyprowadzone.

Update (w odpowiedzi na komentarz)

Pliki wyjściowe są domyślnie nazwane part-x-yyyyy gdzie:

W zależności od tego, czy zadanie było tylko zadaniem na mapie, czy zmniejszeniem
yyyyy to numer zadania mapera lub reduktora (na podstawie zera)

Tak więc zadanie, które ma 32 reduktory, będzie miało pliki o nazwie part-r-00000 do part-r-00031, po jednym dla każdego zadania reduktora.