apache-spark

Różnica między ramką danych, zestawem danych i RDD w Spark

Zastanawiam się tylko jaka jest różnica między RDD a DataFrame (Spark 2.0.0 DataFrame jest zwykłym aliasem typu dla Dataset[Row]) W Apache Spark? Czy możesz zamienić jedno na drugie?

Apache Spark vs. Apache Storm [zamknięty]

Jakie są różnice między Apache Spark a Apache Storm ? Jakie są odpowiednie przypadki użycia dla każdego z nich?

Jaka jest różnica między Apache Spark a Apache Flink? [zamknięte]

Jakie są różnice między Apache Spark A Apache Flink ? Czy Apache Flink zastąpi Hadoop ?

Zadanie nie serializowalne: java. io. NotSerializableException podczas wywoływania funkcji poza zamknięciem tylko na klasach nie obiektach

Dziwne zachowanie podczas wywoływania funkcji poza Zamknięciem: Gdy funkcja jest w obiekcie wszystko działa Gdy funkcja j ... t.map(someFunc(_)) //this will crash (spark lazy) after.collect().map(println(_)) } def someFunc(a:Int) = a+1 }

Różnica między ramką danych (w Spark 2.0 i.E DataSet[Row]) a RDD w Spark

Zastanawiam się tylko jaka jest różnica między RDD a DataFrame (Spark 2.0.0 DataFrame jest zwykłym aliasem typu dla Dataset[Row]) W Apache Spark? Czy możesz zamienić jedno na drugie?

Czym są pracownicy, wykonawcy, rdzenie w samodzielnym klastrze Spark?

Przeczytałem Przegląd trybu klastra i nadal nie mogę zrozumieć różnych procesów w klastrze Spark Standalone i równoległoś ... nawcę? Ile rdzeni? W jaki sposób ustala się liczbę wykonawców na aplikację. Czy zawsze jest taka sama jak liczba pracowników?

Dodaj słoiki do Spark Job-spark-submit

Prawda ... to było omawiane dość dużo. Jest jednak wiele niejasności i niektóre z udzielonych odpowiedzi ... w tym duplikowa ... a różnicę między lokalnym sterownikiem (yarn-client) a zdalnym sterownikiem (yarn-cluster). Zdecydowanie ważne, aby pamiętać.

Jak przechowywać niestandardowe obiekty w zbiorze danych?

Zgodnie z Wprowadzenie zbiorów danych Spark: Z niecierpliwością czekamy na Spark 2.0, planujemy kilka ekscytujących ulep ... ako punkt wyjścia dla odpowiedzi na Wiki społeczności. Zachęcamy do aktualizacji / poprawy zarówno pytania, jak i odpowiedzi.

Jak zdefiniować partycjonowanie ramki danych?

Zacząłem używać Spark SQL i DataFrames w spark 1.4.0. Chcę zdefiniować niestandardowy partycjoner na ramkach danych, w Scali ... istnieje sposób, aby Spark podzielił tę ramkę danych tak, aby wszystkie dane dla konta znajdowały się na tej samej partycji?

Jak wybrać pierwszy wiersz każdej grupy?

Mam DataFrame wygenerowany następująco: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Ho ... --------+ Może być przydatne, aby móc wybrać górne n wierszy każdej grupy, jak również. Każda pomoc jest bardzo doceniana.

Jak skonfigurować Spark w systemie Windows?

Próbuję skonfigurować Apache Spark Na Windows. Po przeszukaniu trochę, rozumiem, że tryb samodzielny jest to, co chcę. Jakie ... hadoop i cdh na stronie pobierania spark. Nie mam odniesień w sieci do tego. Przewodnik krok po kroku jest bardzo ceniony.

Jak odczytać wiele plików tekstowych w jednym RDD?

Chcę odczytać kilka plików tekstowych z lokalizacji hdfs i wykonać na niej mapowanie w iteracji za pomocą spark. JavaRDD< ... w stanie odczytać tylko jeden plik na raz. Chcę przeczytać więcej niż jeden plik i przetworzyć je jako pojedynczy RDD. Jak?

Jak ustawić pamięć executora Apache Spark

Jak mogę zwiększyć pamięć dostępną dla węzłów Executor Apache spark? Mam plik 2 GB, który nadaje się do załadowania do Apach ... staję błąd i nie mam jasnego pojęcia, gdzie powinienem zmienić ustawienie. Uruchamiam mój kod interaktywnie z spark-shell

Apache Spark: map vs mapPartitions?

Jaka jest różnica między RDD ' s map i mapPartitions metoda? A czy flatMap zachowuje się jak map czy jak mapPartitions? Dzięk ... A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.map(fn) }

Zapis na wiele wyjść za pomocą klucza Spark - jedno zadanie Spark

Jak można zapisać na wiele wyjść zależnych od klucza za pomocą Spark w jednym zadaniu. Powiązane: zapis do wielu wyjść za po ... yskać dokładną odpowiedź z pełnym importem, pimp i kodekiem kompresji, zobacz https://stackoverflow.com/a/46118044/1586965

Zapytania Spark SQL DataFrame ze złożonymi typami

Jak mogę odpytywać RDD o złożone typy, takie jak mapy/tablice? na przykład, kiedy pisałem ten kod testowy: case class Test( ... tringType,true) I Org.Apacz.Iskra.sql.katalizator.błędy.pakiet$TreeNodeException: Unresolved atrybuty Odpowiednio.

Spark-repartition () vs coalesce()

Według nauki Spark Należy pamiętać, że repartycjonowanie danych jest dość kosztowną operacją. Spark ma również zoptyma ... niejszona. Jeśli partycje są rozłożone na wiele maszyn i coalesce () jest uruchomione, jak może uniknąć przenoszenia danych?

Jaka jest różnica między mapą a flatmapą i dobry przypadek użycia dla każdego z nich?

Czy ktoś może mi wyjaśnić różnicę między mapą a flatmapą i jaki jest dobry przypadek użycia dla każdego? Co oznacza "spłaszczyć wyniki"? Do czego to służy?

Jak wyłączyć INFO logowania Spark?

Zainstalowałem Spark za pomocą przewodnika AWS EC2 i mogę uruchomić program dobrze za pomocą skryptu bin/pyspark, aby dostać ... x=y") # - SPARK_PUBLIC_DNS, to set the public dns name of the master or workers export SPARK_SUBMIT_CLASSPATH="$FWDIR/conf"

Jak dostroić numer wykonywacza spark, rdzenie i pamięć wykonywacza?

Od czego zacząć stroić wyżej wymienione paramy. Czy zaczynamy od pamięci executora i otrzymujemy liczbę executorów, czy zaczy ... linkiem . Jednak mam pomysł na wysokim poziomie, ale nadal Nie wiem, jak i od czego zacząć i dojść do ostatecznego wniosku.