rdd

Różnica między ramką danych, zestawem danych i RDD w Spark

Zastanawiam się tylko jaka jest różnica między RDD a DataFrame (Spark 2.0.0 DataFrame jest zwykłym aliasem typu dla Dataset[Row]) W Apache Spark? Czy możesz zamienić jedno na drugie?

Różnica między ramką danych (w Spark 2.0 i.E DataSet[Row]) a RDD w Spark

Zastanawiam się tylko jaka jest różnica między RDD a DataFrame (Spark 2.0.0 DataFrame jest zwykłym aliasem typu dla Dataset[Row]) W Apache Spark? Czy możesz zamienić jedno na drugie?

Apache Spark: map vs mapPartitions?

Jaka jest różnica między RDD ' s map i mapPartitions metoda? A czy flatMap zachowuje się jak map czy jak mapPartitions? Dzięk ... A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.map(fn) }

Spark-repartition () vs coalesce()

Według nauki Spark Należy pamiętać, że repartycjonowanie danych jest dość kosztowną operacją. Spark ma również zoptyma ... niejszona. Jeśli partycje są rozłożone na wiele maszyn i coalesce () jest uruchomione, jak może uniknąć przenoszenia danych?

Jak przekonwertować obiekt rdd na ramkę danych w spark

Jak mogę przekonwertować RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) Na ramkę danych org.apache.spark.sql.DataFrame. Konwertowałem ramkę danych na rdd używając .rdd. Po przetworzeniu chcę go z powrotem w dataframe. Jak mogę to zrobić ?

Jak znaleźć medianę i kwantyle za pomocą Spark

Jak mogę znaleźć medianę RDD liczb całkowitych przy użyciu rozproszonej metody IPython i Spark? RDD jest około 700 000 elemen ... nt. A potem mogę spróbować sortować według wartości? Nie wiem, czy jest to możliwe, ponieważ istnieje tylko metoda sortByKey.

Jak działa HashPartitioner?

Czytałem o dokumentacji HashPartitioner. Niestety nic nie zostało wyjaśnione poza wywołaniami API. Jestem przy założeniu, że ... k czy wyniki byłyby inne, gdybym zrobił new HashPartitoner(1) new HashPartitoner(2) new HashPartitoner(10) Jak to działa?

Jak czytać z hbase za pomocą spark

Poniższy kod zostanie odczytany z bazy hbase, a następnie przekonwertowany na strukturę json i konwertowany na schemaRDD, ale ... ; System.out.println(schemaRDD.take(2)); } finally { table.close(); } } }

Jak spark odczytuje duży plik (petabajt), gdy plik nie może zmieścić się w pamięci głównej spark

Co się stanie w przypadku dużych plików? 1) Spark pobiera lokalizację z NameNode dla danych . Czy Spark zatrzyma się w tym s ... ywane w pamięci głównej raz dane tego głównego magazynu pamięci będą ponownie przetwarzane, spark załaduje inne dane z dysku.

Liczba partycji w RDD i wydajność w Spark

W Pyspark, mogę utworzyć RDD z listy i zdecydować, ile partycji mieć: sc = SparkContext() sc.parallelize(xrange(0, 10), 4) ... ycji, które zdecyduję się na partycję mojego RDD, wpływa na wydajność? Jak to zależy od liczby rdzeni, które ma moja maszyna?

Które operacje zachowują porządek RDD?

RDD ma znaczące (w przeciwieństwie do jakiegoś losowego porządku narzuconego przez model przechowywania) zamówienie, jeśli z ... alna", tzn. nie ma możliwości aby odróżnić wynik za pomocą operacji na poziomie użytkownika (tj. bez czytania logów & c).

Co to jest RDD w spark

Definicja mówi: RDD jest niezmiennym rozproszonym zbiorem obiektów Nie do końca rozumiem, co to znaczy. Jeśli tak, to ... driver Jestem naprawdę zdezorientowany rozumieniem RDD w ogóle i w odniesieniu do spark i hadoop. Czy ktoś może mi pomóc?

Obiekt 'PipelinedRDD' nie posiada atrybutu 'toDF' w PySpark

Próbuję załadować plik SVM i przekonwertować go na DataFrame, aby móc korzystać z modułu ML (Pipeline ML) ze Spark. Właśnie z ... e jeśli ucieknę: data = MLUtils.loadLibSVMFile(sc, "/home/svm_capture").toDF() Bezpośrednio w powłoce PySpark, to działa.

Spark określa warunki łączenia wielu kolumn dla DataFrame

Jak podać więcej warunków kolumn przy łączeniu dwóch ramek danych. Na przykład chcę uruchomić następujące : val Lead_all = L ... . Ale powyższa składnia nie jest poprawna, ponieważ cols zajmuje tylko jeden ciąg znaków. Więc jak mam dostać to, czego chcę.

Spark odczytuje plik z S3 używając sc.textFile ("s3n://…)

Próba odczytania pliku znajdującego się w S3 przy użyciu spark-shell: scala> val myRdd = sc.textFile("s3n://myBucket/myF ... ną dla Hadoop 2.60, jak sugeruje ten post. Zamierzam wypróbować Spark dla Hadoop 2.40, aby zobaczyć, czy to rozwiąże problem.

Obliczanie średnich dla każdego klucza w parach (K,V) RDD w Spark za pomocą Pythona

Chcę podzielić się tym konkretnym Apache Spark z Pythonem, ponieważ dokumentacja dla niego jest dość słaba. Chciałem obliczy ... gt; print(rdd1.collect()) [(u'2013-10-09', 11.235365503035176), (u'2013-10-07', 23.39500642456595), ... snip ... ]

Stackoverflow ze względu na długi Rodowód RDD

Mam tysiące małych plików w HDFS. Trzeba przetworzyć nieco mniejszy podzbiór plików (który jest ponownie w tysiącach), fileLi ... ==================================== at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244)

Spark RDD - czy partycja(y) jest zawsze w pamięci RAM?

Wszyscy wiemy, że Spark wykonuje obliczenia w pamięci. Jestem po prostu ciekaw, co dalej. Jeśli utworzę 10 RDD w mojej powł ... pamięci? Jeśli rozmiar mojego zestawu danych (pliku) przekracza Dostępny rozmiar pamięci RAM, gdzie będą przechowywane dane?

Jak znaleźć Rozmiar spark RDD / Dataframe?

Wiem jak znaleźć Rozmiar pliku w Scali.Ale jak znaleźć Rozmiar RDD / dataframe w spark? Scala: object Main extends App { ... e = sc.textFile(file) println(distFile.length) Ale jeśli przetworzę to nie uzyskam rozmiaru pliku. Jak znaleźć Rozmiar RDD?