rdd

Różnica między ramką danych, zestawem danych i RDD w Spark

Zastanawiam się tylko jaka jest różnica między RDD a DataFrame (Spark 2.0.0 DataFrame jest zwykłym aliasem typu dla Dataset[Row]) W Apache Spark? Czy możesz zamienić jedno na drugie?

Różnica między ramką danych (w Spark 2.0 i.E DataSet[Row]) a RDD w Spark

Zastanawiam się tylko jaka jest różnica między RDD a DataFrame (Spark 2.0.0 DataFrame jest zwykłym aliasem typu dla Dataset[Row]) W Apache Spark? Czy możesz zamienić jedno na drugie?

apache-spark rdd apache-spark-dataset spark-dataframe

Apache Spark: map vs mapPartitions?

Jaka jest różnica między RDD ' s map i mapPartitions metoda? A czy flatMap zachowuje się jak map czy jak mapPartitions? Dzięk ... A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.map(fn) }

performance scala apache-spark rdd

Spark-repartition () vs coalesce()

Według nauki Spark Należy pamiętać, że repartycjonowanie danych jest dość kosztowną operacją. Spark ma również zoptyma ... niejszona. Jeśli partycje są rozłożone na wiele maszyn i coalesce () jest uruchomione, jak może uniknąć przenoszenia danych?

distributed-computing apache-spark rdd

Jak przekonwertować obiekt rdd na ramkę danych w spark

Jak mogę przekonwertować RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) Na ramkę danych org.apache.spark.sql.DataFrame. Konwertowałem ramkę danych na rdd używając .rdd. Po przetworzeniu chcę go z powrotem w dataframe. Jak mogę to zrobić ?

scala apache-spark rdd spark-dataframe

Jak znaleźć medianę i kwantyle za pomocą Spark

Jak mogę znaleźć medianę RDD liczb całkowitych przy użyciu rozproszonej metody IPython i Spark? RDD jest około 700 000 elemen ... nt. A potem mogę spróbować sortować według wartości? Nie wiem, czy jest to możliwe, ponieważ istnieje tylko metoda sortByKey.

python apache-spark rdd median pyspark

Jak działa HashPartitioner?

Czytałem o dokumentacji HashPartitioner. Niestety nic nie zostało wyjaśnione poza wywołaniami API. Jestem przy założeniu, że ... k czy wyniki byłyby inne, gdybym zrobił new HashPartitoner(1) new HashPartitoner(2) new HashPartitoner(10) Jak to działa?

scala apache-spark rdd partitioning

Co oznacza "pominięcie etapu" w interfejsie Apache Spark web?

From my Spark UI. Co to znaczy "pominięty"?

apache-spark rdd

Jak czytać z hbase za pomocą spark

Poniższy kod zostanie odczytany z bazy hbase, a następnie przekonwertowany na strukturę json i konwertowany na schemaRDD, ale ... ; System.out.println(schemaRDD.take(2)); } finally { table.close(); } } }

apache-spark rdd hbase

Jak spark odczytuje duży plik (petabajt), gdy plik nie może zmieścić się w pamięci głównej spark

Co się stanie w przypadku dużych plików? 1) Spark pobiera lokalizację z NameNode dla danych . Czy Spark zatrzyma się w tym s ... ywane w pamięci głównej raz dane tego głównego magazynu pamięci będą ponownie przetwarzane, spark załaduje inne dane z dysku.

apache-spark rdd partition

Liczba partycji w RDD i wydajność w Spark

W Pyspark, mogę utworzyć RDD z listy i zdecydować, ile partycji mieć: sc = SparkContext() sc.parallelize(xrange(0, 10), 4) ... ycji, które zdecyduję się na partycję mojego RDD, wpływa na wydajność? Jak to zależy od liczby rdzeni, które ma moja maszyna?

performance apache-spark rdd pyspark

Które operacje zachowują porządek RDD?

RDD ma znaczące (w przeciwieństwie do jakiegoś losowego porządku narzuconego przez model przechowywania) zamówienie, jeśli z ... alna", tzn. nie ma możliwości aby odróżnić wynik za pomocą operacji na poziomie użytkownika (tj. bez czytania logów & c).

apache-spark rdd

Co to jest RDD w spark

Definicja mówi: RDD jest niezmiennym rozproszonym zbiorem obiektów Nie do końca rozumiem, co to znaczy. Jeśli tak, to ... driver Jestem naprawdę zdezorientowany rozumieniem RDD w ogóle i w odniesieniu do spark i hadoop. Czy ktoś może mi pomóc?

scala apache-spark rdd hadoop

Obiekt 'PipelinedRDD' nie posiada atrybutu 'toDF' w PySpark

Próbuję załadować plik SVM i przekonwertować go na DataFrame, aby móc korzystać z modułu ML (Pipeline ML) ze Spark. Właśnie z ... e jeśli ucieknę: data = MLUtils.loadLibSVMFile(sc, "/home/svm_capture").toDF() Bezpośrednio w powłoce PySpark, to działa.

python apache-spark apache-spark-sql rdd pyspark

Spark określa warunki łączenia wielu kolumn dla DataFrame

Jak podać więcej warunków kolumn przy łączeniu dwóch ramek danych. Na przykład chcę uruchomić następujące : val Lead_all = L ... . Ale powyższa składnia nie jest poprawna, ponieważ cols zajmuje tylko jeden ciąg znaków. Więc jak mam dostać to, czego chcę.

apache-spark apache-spark-sql rdd

Spark odczytuje plik z S3 używając sc.textFile ("s3n://…)

Próba odczytania pliku znajdującego się w S3 przy użyciu spark-shell: scala> val myRdd = sc.textFile("s3n://myBucket/myF ... ną dla Hadoop 2.60, jak sugeruje ten post. Zamierzam wypróbować Spark dla Hadoop 2.40, aby zobaczyć, czy to rozwiąże problem.

apache-spark rdd hortonworks-data-platform

Obliczanie średnich dla każdego klucza w parach (K,V) RDD w Spark za pomocą Pythona

Chcę podzielić się tym konkretnym Apache Spark z Pythonem, ponieważ dokumentacja dla niego jest dość słaba. Chciałem obliczy ... gt; print(rdd1.collect()) [(u'2013-10-09', 11.235365503035176), (u'2013-10-07', 23.39500642456595), ... snip ... ]

python apache-spark rdd aggregate average

Stackoverflow ze względu na długi Rodowód RDD

Mam tysiące małych plików w HDFS. Trzeba przetworzyć nieco mniejszy podzbiór plików (który jest ponownie w tysiącach), fileLi ... ==================================== at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244)

scala apache-spark rdd

Spark RDD - czy partycja(y) jest zawsze w pamięci RAM?

Wszyscy wiemy, że Spark wykonuje obliczenia w pamięci. Jestem po prostu ciekaw, co dalej. Jeśli utworzę 10 RDD w mojej powł ... pamięci? Jeśli rozmiar mojego zestawu danych (pliku) przekracza Dostępny rozmiar pamięci RAM, gdzie będą przechowywane dane?

apache-spark rdd hadoop hdfs pyspark

Jak znaleźć Rozmiar spark RDD / Dataframe?

Wiem jak znaleźć Rozmiar pliku w Scali.Ale jak znaleźć Rozmiar RDD / dataframe w spark? Scala: object Main extends App { ... e = sc.textFile(file) println(distFile.length) Ale jeśli przetworzę to nie uzyskam rozmiaru pliku. Jak znaleźć Rozmiar RDD?

scala apache-spark rdd size spark-dataframe