hadoop

Kiedy używać Hadoop, HBase, Hive i Pig?

Jakie są korzyści z używania Hadoop lub HBase lub Hive ? Z mojego zrozumienia, HBase unika korzystania z Map-reduce i m ... e HDFS. Hive jest interfejsem podobnym do sql dla Hadoop i HBase. Chciałbym też wiedzieć jak ul porównuje się z świnią .

Jaka jest różnica między Apache Spark a Apache Flink? [zamknięte]

Jakie są różnice między Apache Spark A Apache Flink ? Czy Apache Flink zastąpi Hadoop ?

Hadoop" nie można załadować natywnej biblioteki hadoop dla Twojej platformy " Ostrzeżenie

Obecnie konfiguruję hadoop na serwerze działającym CentOs . Kiedy uruchamiam start-dfs.sh LUB stop-dfs.sh, pojawia się nastę ... l / hadoop / lib/ " Export HADOOP_COMMON_LIB_NATIVE_DIR= "/ usr / local / hadoop / lib / native / " dowolne pomysły?

W jaki sposób rekordy procesów Hadoop są dzielone między granice bloków?

Zgodnie z Hadoop - The Definitive Guide Logiczne rekordy definiowane przez FileInputFormats zwykle nie pasują do bloków ... rzający drugi blok (b2) określa, że pierwszy rekord jest niekompletny i powinien przetwarzać od drugiego rekord w bloku (b2)?

Łączenie wielu zadań MapReduce w Hadoop

W wielu rzeczywistych sytuacjach, w których stosujesz MapReduce, ostateczne algorytmy kończą się kilkoma krokami MapReduce. ... Hadoop? Czy istnieje (prosty) przykład, który pokazuje, jak prawidłowo obsługiwać te pośrednie dane, w tym oczyszczanie po?

Różnica między HBase a Hadoop/HDFS

To trochę naiwne pytanie, ale jestem nowy w paradygmacie NoSQL i niewiele o nim wiem. Więc jeśli ktoś może mi pomóc jasno zro ... nych. Hbase zapewnia warstwę logiczną nad HDFS, tak jak robi to SQL. Czy to prawda? Pls prosimy o poprawienie mnie. Dzięki.

Jaki jest cel fazy tasowania i sortowania w reduktorze w programowaniu Map Reduce?

W programowaniu Map Reduce Faza reduce ma tasowanie, sortowanie i reduce jako swoje podczęści. Sortowanie to kosztowna sprawa. Jaki jest cel fazy tasowania i sortowania w reduktorze w programowaniu Map Reduce?

Jaka jest różnica między partycjonowaniem a bucketowaniem tabeli w ulu?

Wiem, że oba są wykonywane na kolumnie w tabeli, ale jak każda operacja jest inna.

Różnica między tabelami wewnętrznymi ula a tabelami zewnętrznymi?

Czy ktoś może mi powiedzieć jaka jest różnica między tabelą zewnętrzną ula a tabelą wewnętrzną. Wiem, że różnica przychodzi, ... ne w wewnętrznych i tylko metadane są usuwane w tabelach zewnętrznych. Czy ktoś może mi wyjaśnić w kategoriach węzłów proszę.

Wielkoskalowe przetwarzanie danych HBase vs Cassandra [zamknięty]

Prawie wylądowałem w Cassandrze po moich badaniach nad rozwiązaniami do przechowywania danych na dużą skalę. Ale ogólnie mówi ... ezproblemowa replikacja i brak funkcji point of failure. A także zachowuje funkcję indeksu wtórnego, więc jest to dobry plus.

Zapis na wiele wyjść za pomocą klucza Spark - jedno zadanie Spark

Jak można zapisać na wiele wyjść zależnych od klucza za pomocą Spark w jednym zadaniu. Powiązane: zapis do wielu wyjść za po ... yskać dokładną odpowiedź z pełnym importem, pimp i kodekiem kompresji, zobacz https://stackoverflow.com/a/46118044/1586965

Skalowalna Pamięć Obrazów

Obecnie projektuję architekturę dla aplikacji internetowej, która powinna również zapewniać pewien rodzaj przechowywania obra ... datkowe pytanie: CouchDB zapisuje obiekty BLOB poprzez Base64. Czy jednak może zwrócić dane w postaci obrazu / jpeg itp.)?

Jak działa algorytm sortowania MapReduce?

Jednym z głównych przykładów, który jest używany do wykazania mocy MapReduce jest terasort benchmark. Mam problem ze zrozumie ... to ogromne zadanie. Więc jak to się naprawdę robi? Jak działa algorytm sortowania MapReduce? Dzięki za pomoc w zrozumieniu.

Czy jest a.NET odpowiednik Apache Hadoop? [zamknięte]

zamknięte. to pytanie nie spełnia wytycznych dotyczących przepełnienia stosu . Obecnie nie przyjmuje odpowiedzi. ... y tak bardzo, jak Szukam Hadoop.net lub nhadoop lub projekt. NET, który obejmuje podejście Google MapReduce . Ktoś o nim wie?

Kiedy w Hadoop rozpoczynają się zadania reduce?

W Hadoop kiedy rozpoczynają się zadania redukcyjne? Czy zaczynają się po zakończeniu określonego procentu (progu) maperów? Jeśli tak, to czy próg ten jest ustalony? Jakiego rodzaju próg jest zwykle używany?

Jak wyłączyć INFO logowania Spark?

Zainstalowałem Spark za pomocą przewodnika AWS EC2 i mogę uruchomić program dobrze za pomocą skryptu bin/pyspark, aby dostać ... x=y") # - SPARK_PUBLIC_DNS, to set the public dns name of the master or workers export SPARK_SUBMIT_CLASSPATH="$FWDIR/conf"

Kontener działa poza limitami pamięci

W Hadoop v1, przypisałem każdy slot mapper 7 i reducer o rozmiarze 1GB, moje mappers & reducers działa dobrze. Moja maszy ... m, jak mogę się upewnić, że do każdego kontenera nie zostanie przypisana większa ilość splitów niż jest w stanie obsłużyć?

Spark-załadować plik CSV jako ramkę danych?

Chciałbym odczytać plik CSV w sparku i przekonwertować go jako DataFrame i zapisać w HDFS za pomocą df.registerTempTable("tab ... .run(ForkJoinWorkerThread.java:107) Jakie jest właściwe polecenie, aby załadować plik CSV jako ramkę danych w Apache Spark?

Jakie są zalety i wady formatu parkietu w porównaniu do innych formatów?

Charakterystyka parkietu Apache to: Samoopisanie Format kolumnowy niezależne od języka W porównaniu do Avro, plików s ... wiedzieć, jak dostęp do danych i przechowywanie danych odbywa się w każdym z tych formatów. Jak parkiet ma przewagę nad inni?

Jak mogę wypisać wyniki zapytania HiveQL do pliku CSV?

Chcielibyśmy umieścić wyniki zapytania Hive w pliku CSV. Myślałem, że komenda powinna wyglądać tak: insert overwrite direct ... omyślnie, ale nigdy nie mogę znaleźć pliku. Jak mogę znaleźć ten plik lub powinienem wyodrębniać dane w inny sposób? Dzięki!