apache-spark

Różnica między ramką danych, zestawem danych i RDD w Spark

Zastanawiam się tylko jaka jest różnica między RDD a DataFrame (Spark 2.0.0 DataFrame jest zwykłym aliasem typu dla Dataset[Row]) W Apache Spark? Czy możesz zamienić jedno na drugie?

Apache Spark vs. Apache Storm [zamknięty]

Jakie są różnice między Apache Spark a Apache Storm ? Jakie są odpowiednie przypadki użycia dla każdego z nich?

apache-spark bigdata apache-storm

Jaka jest różnica między Apache Spark a Apache Flink? [zamknięte]

Jakie są różnice między Apache Spark A Apache Flink ? Czy Apache Flink zastąpi Hadoop ?

apache-spark hadoop apache-flink

Zadanie nie serializowalne: java. io. NotSerializableException podczas wywoływania funkcji poza zamknięciem tylko na klasach nie obiektach

Dziwne zachowanie podczas wywoływania funkcji poza Zamknięciem: Gdy funkcja jest w obiekcie wszystko działa Gdy funkcja j ... t.map(someFunc(_)) //this will crash (spark lazy) after.collect().map(println(_)) } def someFunc(a:Int) = a+1 }

serialization scala apache-spark typesafe

Różnica między ramką danych (w Spark 2.0 i.E DataSet[Row]) a RDD w Spark

Zastanawiam się tylko jaka jest różnica między RDD a DataFrame (Spark 2.0.0 DataFrame jest zwykłym aliasem typu dla Dataset[Row]) W Apache Spark? Czy możesz zamienić jedno na drugie?

apache-spark rdd apache-spark-dataset spark-dataframe

Czym są pracownicy, wykonawcy, rdzenie w samodzielnym klastrze Spark?

Przeczytałem Przegląd trybu klastra i nadal nie mogę zrozumieć różnych procesów w klastrze Spark Standalone i równoległoś ... nawcę? Ile rdzeni? W jaki sposób ustala się liczbę wykonawców na aplikację. Czy zawsze jest taka sama jak liczba pracowników?

distributed-computing apache-spark

Dodaj słoiki do Spark Job-spark-submit

Prawda ... to było omawiane dość dużo. Jest jednak wiele niejasności i niektóre z udzielonych odpowiedzi ... w tym duplikowa ... a różnicę między lokalnym sterownikiem (yarn-client) a zdalnym sterownikiem (yarn-cluster). Zdecydowanie ważne, aby pamiętać.

java scala apache-spark jar spark-submit

Jak przechowywać niestandardowe obiekty w zbiorze danych?

Zgodnie z Wprowadzenie zbiorów danych Spark: Z niecierpliwością czekamy na Spark 2.0, planujemy kilka ekscytujących ulep ... ako punkt wyjścia dla odpowiedzi na Wiki społeczności. Zachęcamy do aktualizacji / poprawy zarówno pytania, jak i odpowiedzi.

scala apache-spark apache-spark-dataset

Jak zdefiniować partycjonowanie ramki danych?

Zacząłem używać Spark SQL i DataFrames w spark 1.4.0. Chcę zdefiniować niestandardowy partycjoner na ramkach danych, w Scali ... istnieje sposób, aby Spark podzielił tę ramkę danych tak, aby wszystkie dane dla konta znajdowały się na tej samej partycji?

dataframe scala apache-spark apache-spark-sql partitioning

Jak wybrać pierwszy wiersz każdej grupy?

Mam DataFrame wygenerowany następująco: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Ho ... --------+ Może być przydatne, aby móc wybrać górne n wierszy każdej grupy, jak również. Każda pomoc jest bardzo doceniana.

scala apache-spark apache-spark-sql spark-dataframe

Jak skonfigurować Spark w systemie Windows?

Próbuję skonfigurować Apache Spark Na Windows. Po przeszukaniu trochę, rozumiem, że tryb samodzielny jest to, co chcę. Jakie ... hadoop i cdh na stronie pobierania spark. Nie mam odniesień w sieci do tego. Przewodnik krok po kroku jest bardzo ceniony.

windows apache-spark

Jak odczytać wiele plików tekstowych w jednym RDD?

Chcę odczytać kilka plików tekstowych z lokalizacji hdfs i wykonać na niej mapowanie w iteracji za pomocą spark. JavaRDD< ... w stanie odczytać tylko jeden plik na raz. Chcę przeczytać więcej niż jeden plik i przetworzyć je jako pojedynczy RDD. Jak?

apache-spark

Jak ustawić pamięć executora Apache Spark

Jak mogę zwiększyć pamięć dostępną dla węzłów Executor Apache spark? Mam plik 2 GB, który nadaje się do załadowania do Apach ... staję błąd i nie mam jasnego pojęcia, gdzie powinienem zmienić ustawienie. Uruchamiam mój kod interaktywnie z spark-shell

memory apache-spark

Apache Spark: map vs mapPartitions?

Jaka jest różnica między RDD ' s map i mapPartitions metoda? A czy flatMap zachowuje się jak map czy jak mapPartitions? Dzięk ... A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.map(fn) }

performance scala apache-spark rdd

Zapis na wiele wyjść za pomocą klucza Spark - jedno zadanie Spark

Jak można zapisać na wiele wyjść zależnych od klucza za pomocą Spark w jednym zadaniu. Powiązane: zapis do wielu wyjść za po ... yskać dokładną odpowiedź z pełnym importem, pimp i kodekiem kompresji, zobacz https://stackoverflow.com/a/46118044/1586965

output scala apache-spark hadoop hdfs

Zapytania Spark SQL DataFrame ze złożonymi typami

Jak mogę odpytywać RDD o złożone typy, takie jak mapy/tablice? na przykład, kiedy pisałem ten kod testowy: case class Test( ... tringType,true) I Org.Apacz.Iskra.sql.katalizator.błędy.pakiet$TreeNodeException: Unresolved atrybuty Odpowiednio.

sql dataframe scala apache-spark apache-spark-sql

Spark-repartition () vs coalesce()

Według nauki Spark Należy pamiętać, że repartycjonowanie danych jest dość kosztowną operacją. Spark ma również zoptyma ... niejszona. Jeśli partycje są rozłożone na wiele maszyn i coalesce () jest uruchomione, jak może uniknąć przenoszenia danych?

distributed-computing apache-spark rdd

Jaka jest różnica między mapą a flatmapą i dobry przypadek użycia dla każdego z nich?

Czy ktoś może mi wyjaśnić różnicę między mapą a flatmapą i jaki jest dobry przypadek użycia dla każdego? Co oznacza "spłaszczyć wyniki"? Do czego to służy?

apache-spark

Jak wyłączyć INFO logowania Spark?

Zainstalowałem Spark za pomocą przewodnika AWS EC2 i mogę uruchomić program dobrze za pomocą skryptu bin/pyspark, aby dostać ... x=y") # - SPARK_PUBLIC_DNS, to set the public dns name of the master or workers export SPARK_SUBMIT_CLASSPATH="$FWDIR/conf"

python apache-spark hadoop pyspark yarn

Jak dostroić numer wykonywacza spark, rdzenie i pamięć wykonywacza?

Od czego zacząć stroić wyżej wymienione paramy. Czy zaczynamy od pamięci executora i otrzymujemy liczbę executorów, czy zaczy ... linkiem . Jednak mam pomysł na wysokim poziomie, ale nadal Nie wiem, jak i od czego zacząć i dojść do ostatecznego wniosku.

apache-spark