rdd
Różnica między ramką danych, zestawem danych i RDD w Spark
Zastanawiam się tylko jaka jest różnica między RDD a DataFrame (Spark 2.0.0 DataFrame jest zwykłym aliasem typu dla Dataset[Row]) W Apache Spark?
Czy możesz zamienić jedno na drugie?
Różnica między ramką danych (w Spark 2.0 i.E DataSet[Row]) a RDD w Spark
Zastanawiam się tylko jaka jest różnica między RDD a DataFrame (Spark 2.0.0 DataFrame jest zwykłym aliasem typu dla Dataset[Row]) W Apache Spark?
Czy możesz zamienić jedno na drugie?
Apache Spark: map vs mapPartitions?
Jaka jest różnica między RDD ' s map i mapPartitions metoda? A czy flatMap zachowuje się jak map czy jak mapPartitions? Dzięk ... A, B](rdd: RDD[A], fn: (A => B))
(implicit a: Manifest[A], b: Manifest[B]): RDD[B] = {
rdd.map(fn)
}
Spark-repartition () vs coalesce()
Według nauki Spark
Należy pamiętać, że repartycjonowanie danych jest dość kosztowną operacją.
Spark ma również zoptyma ... niejszona.
Jeśli partycje są rozłożone na wiele maszyn i coalesce () jest uruchomione, jak może uniknąć przenoszenia danych?
Jak przekonwertować obiekt rdd na ramkę danych w spark
Jak mogę przekonwertować RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) Na ramkę danych org.apache.spark.sql.DataFrame. Konwertowałem ramkę danych na rdd używając .rdd. Po przetworzeniu chcę go z powrotem w dataframe. Jak mogę to zrobić ?
Jak znaleźć medianę i kwantyle za pomocą Spark
Jak mogę znaleźć medianę RDD liczb całkowitych przy użyciu rozproszonej metody IPython i Spark? RDD jest około 700 000 elemen ... nt. A potem mogę spróbować sortować według wartości? Nie wiem, czy jest to możliwe, ponieważ istnieje tylko metoda sortByKey.
Jak działa HashPartitioner?
Czytałem o dokumentacji HashPartitioner. Niestety nic nie zostało wyjaśnione poza wywołaniami API. Jestem przy założeniu, że ... k czy wyniki byłyby inne, gdybym zrobił
new HashPartitoner(1)
new HashPartitoner(2)
new HashPartitoner(10)
Jak to działa?
Co oznacza "pominięcie etapu" w interfejsie Apache Spark web?
From my Spark UI. Co to znaczy "pominięty"?
Jak czytać z hbase za pomocą spark
Poniższy kod zostanie odczytany z bazy hbase, a następnie przekonwertowany na strukturę json i konwertowany na schemaRDD, ale ... ;
System.out.println(schemaRDD.take(2));
} finally {
table.close();
}
}
}
Jak spark odczytuje duży plik (petabajt), gdy plik nie może zmieścić się w pamięci głównej spark
Co się stanie w przypadku dużych plików?
1) Spark pobiera lokalizację z NameNode dla danych . Czy Spark zatrzyma się w tym s ... ywane w pamięci głównej raz dane tego głównego magazynu pamięci będą ponownie przetwarzane, spark załaduje inne dane z dysku.
Liczba partycji w RDD i wydajność w Spark
W Pyspark, mogę utworzyć RDD z listy i zdecydować, ile partycji mieć:
sc = SparkContext()
sc.parallelize(xrange(0, 10), 4)
... ycji, które zdecyduję się na partycję mojego RDD, wpływa na wydajność?
Jak to zależy od liczby rdzeni, które ma moja maszyna?
Które operacje zachowują porządek RDD?
RDD ma znaczące (w przeciwieństwie do jakiegoś losowego porządku narzuconego przez model przechowywania) zamówienie, jeśli z ... alna", tzn. nie ma możliwości aby odróżnić wynik za pomocą operacji na poziomie użytkownika (tj. bez czytania logów & c).
Co to jest RDD w spark
Definicja mówi:
RDD jest niezmiennym rozproszonym zbiorem obiektów
Nie do końca rozumiem, co to znaczy. Jeśli tak, to ... driver
Jestem naprawdę zdezorientowany rozumieniem RDD w ogóle i w odniesieniu do spark i hadoop.
Czy ktoś może mi pomóc?
Obiekt 'PipelinedRDD' nie posiada atrybutu 'toDF' w PySpark
Próbuję załadować plik SVM i przekonwertować go na DataFrame, aby móc korzystać z modułu ML (Pipeline ML) ze Spark.
Właśnie z ... e jeśli ucieknę:
data = MLUtils.loadLibSVMFile(sc, "/home/svm_capture").toDF()
Bezpośrednio w powłoce PySpark, to działa.
Spark określa warunki łączenia wielu kolumn dla DataFrame
Jak podać więcej warunków kolumn przy łączeniu dwóch ramek danych. Na przykład chcę uruchomić następujące :
val Lead_all = L ... . Ale powyższa składnia nie jest poprawna, ponieważ cols zajmuje tylko jeden ciąg znaków. Więc jak mam dostać to, czego chcę.
Spark odczytuje plik z S3 używając sc.textFile ("s3n://…)
Próba odczytania pliku znajdującego się w S3 przy użyciu spark-shell:
scala> val myRdd = sc.textFile("s3n://myBucket/myF ... ną dla Hadoop 2.60, jak sugeruje ten post. Zamierzam wypróbować Spark dla Hadoop 2.40, aby zobaczyć, czy to rozwiąże problem.
Obliczanie średnich dla każdego klucza w parach (K,V) RDD w Spark za pomocą Pythona
Chcę podzielić się tym konkretnym Apache Spark z Pythonem, ponieważ dokumentacja dla niego jest dość słaba.
Chciałem obliczy ... gt; print(rdd1.collect())
[(u'2013-10-09', 11.235365503035176),
(u'2013-10-07', 23.39500642456595),
... snip ...
]
Stackoverflow ze względu na długi Rodowód RDD
Mam tysiące małych plików w HDFS. Trzeba przetworzyć nieco mniejszy podzbiór plików (który jest ponownie w tysiącach), fileLi ... ====================================
at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244)
Spark RDD - czy partycja(y) jest zawsze w pamięci RAM?
Wszyscy wiemy, że Spark wykonuje obliczenia w pamięci. Jestem po prostu ciekaw, co dalej.
Jeśli utworzę 10 RDD w mojej powł ... pamięci?
Jeśli rozmiar mojego zestawu danych (pliku) przekracza Dostępny rozmiar pamięci RAM, gdzie będą przechowywane dane?
Jak znaleźć Rozmiar spark RDD / Dataframe?
Wiem jak znaleźć Rozmiar pliku w Scali.Ale jak znaleźć Rozmiar RDD / dataframe w spark?
Scala:
object Main extends App {
... e = sc.textFile(file)
println(distFile.length)
Ale jeśli przetworzę to nie uzyskam rozmiaru pliku. Jak znaleźć Rozmiar RDD?
- 1
- 2