apache-pig

Kiedy używać Hadoop, HBase, Hive i Pig?

Jakie są korzyści z używania Hadoop lub HBase lub Hive ? Z mojego zrozumienia, HBase unika korzystania z Map-reduce i m ... e HDFS. Hive jest interfejsem podobnym do sql dla Hadoop i HBase. Chciałbym też wiedzieć jak ul porównuje się z świnią .

Świnia jak policzyć kilka wierszy w aliasie

Zrobiłem coś takiego, aby policzyć liczbę wierszy w aliasie w PIG: logs = LOAD 'log' logs_w_one = foreach logs generate 1 a ... nerate SUM(logs_w_one.one); dump logs_count; To wydaje się zbyt nieefektywne. Proszę oświeć mnie, jeśli jest lepszy sposób!

Pig Latin: załaduj wiele plików z zakresu dat (część struktury katalogów)

Mam następujący scenariusz - Wersja świńska używana 0.70 Przykładowa struktura katalogów HDFS: /user/training/test/2010 ... by przechwycić wszystkie znaczniki daty w zakresie i przekazać je do załadowania jako listę rozdzieloną przecinkami? Cheers

Jaka jest różnica między Apache Pig A Apache Hive?

Jaka jest dokładna różnica między świnią a ulem? Odkryłem, że oba mają takie samo znaczenie funkcjonalne, ponieważ są używane ... istnieje jakaś specyfikacja dla obu, która wyraźnie pokazuje różnicę między obydwoma pod względem zastosowania i wydajności?

Świnia-jak odwołać się do kolumn w FOREACH po połączeniu?

A = load 'a.txt' as (id, a1); B = load 'b.txt as (id, b1); C = join A by id, B by id; D = foreach C generate id,a1,b1; dump D ... ema Próbowałem zmienić na A.id ale wtedy ostatnia linia nie działa na: ERROR 0: Scalar has more than one row in the output.

Pig: Get top N values per group

Mam dane, które są już pogrupowane i zagregowane, wygląda to tak: user value count ---- -------- ------ Alice ... pożądane wyjście, które chcę, Jest Takie: Alice first 11 Alice second 10 Bob first 21 Bob second 20 Jak mogę to osiągnąć?

Świnia vs Ul vs Native Map Reduce

Mam podstawowe zrozumienie, czym są abstrakcje Świnia, Ul. Ale nie mam jasnego pomysłu na scenariusze, które wymagają Ula, św ... ap reduce? Czy możesz wskazać kilka scenariuszy, których nie można rozwiązać za pomocą Pig lub Hive, ale w native map reduce?

Dzielenie krotki na krotki wielokrotne w Pig

Lubię generować wiele krotek z jednej krotki. Chodzi mi o to, że: Mam Plik z następującymi danymi w nim. >> cat data ... row WrappedIOException.wrap("Caught exception processing input row ", e); } } } Czy to podejście jest poprawne?