spark-dataframe

Różnica między ramką danych (w Spark 2.0 i.E DataSet[Row]) a RDD w Spark

Zastanawiam się tylko jaka jest różnica między RDD a DataFrame (Spark 2.0.0 DataFrame jest zwykłym aliasem typu dla Dataset[Row]) W Apache Spark? Czy możesz zamienić jedno na drugie?

Jak wybrać pierwszy wiersz każdej grupy?

Mam DataFrame wygenerowany następująco: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Ho ... --------+ Może być przydatne, aby móc wybrać górne n wierszy każdej grupy, jak również. Każda pomoc jest bardzo doceniana.

Jak przekonwertować obiekt rdd na ramkę danych w spark

Jak mogę przekonwertować RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) Na ramkę danych org.apache.spark.sql.DataFrame. Konwertowałem ramkę danych na rdd używając .rdd. Po przetworzeniu chcę go z powrotem w dataframe. Jak mogę to zrobić ?

Jak dodać nową kolumnę do ramki danych Spark (używając PySpark)?

Mam ramkę danych Spark (używając PySpark 1.5.1) i chciałbym dodać nową kolumnę. Próbowałem następujących bez żadnego sukcesu ... arallelize(randomed_hours)) Więc jak dodać nową kolumnę (opartą na wektorze Pythona) do istniejącej ramki danych z PySpark?

Jak zaimportować wiele plików csv w jednym ładowaniu?

Załóżmy, że mam zdefiniowany schemat ładowania 10 plików csv w folderze. Czy istnieje sposób na automatyczne ładowanie tabel ... ntext.read .format("com.databricks.spark.csv") .option("header", "true") .load("../Downloads/2008.csv")

Aktualizacja kolumny ramki danych w spark

Patrząc na nowe API Spark dataframe, nie jest jasne, czy możliwe jest modyfikowanie kolumn dataframe. Jak zmienić wartość w ... stara kolumna, możesz dodać dodatkowy krok: df = df.drop('update_col').withColumnRenamed('new_column_name', 'update_col')

SparkSQL: apply aggregate functions to a list of column

Czy istnieje sposób na zastosowanie funkcji zbiorczej do wszystkich (lub listy) kolumn ramki danych, wykonując groupBy? Innym ... aby uniknąć tego dla każdej kolumny: df.groupBy("col1") .agg(sum("col2").alias("col2"), sum("col3").alias("col3"), ...)

Jak zrobić dobre powtarzalne Apache Spark Dataframe przykłady

Spędziłem sporo czasu czytając kilka pytań za pomocą tagów pyspark i Spark-dataframe i bardzo często stwierdzam, że plakaty ... rame w wersji to pytanie pandas jako przewodnik, który można połączyć. Więc jak można stworzyć dobry, powtarzalny przykład?

Znajdź maksymalny wiersz dla grupy w ramce danych Spark

Staram się używać ramek danych Spark zamiast RDD, ponieważ wydają się być bardziej zaawansowane niż RDD i mają tendencję do t ... d_sb=b2), Row(id_sa=a2, max_id_sb=b2)] Ale może próbuję użyć niewłaściwego narzędzia i powinienem wrócić do używania RDDs.

Jak dodać stałą kolumnę w ramce danych Spark?

Chcę dodać kolumnę w {[2] } z dowolną wartością (która jest taka sama dla każdego wiersza). Pojawia się błąd, gdy używam with ... essagetype=1, dt=4809600.0, new_column=10)] To jest bardzo trudne, prawda? Zakładam, że jest na to bardziej legalny sposób?

Zastąp określone partycje w Spark dataframe write method

Chcę nadpisać określone partycje zamiast wszystkich w spark. Próbuję wykonać następujące polecenie: df.write.orc('maprfs:// ... m wymaganiem jest nadpisanie tylko tych partycji obecnych w df na podanej ścieżce hdfs. Czy ktoś może proszę, pomóż mi w tym?

Spark / Scala: forward fill z ostatnią obserwacją

Używanie Spark 1.4.0, Scala 2.10 Próbowałem znaleźć sposób, aby wypełnić wartości null ostatnią znaną obserwacją, ale nie w ... yższe rozwiązanie może nie jest najskuteczniejsze, ale działa dla mnie. Jeśli chcesz zoptymalizować, sprawdź rozwiązanie RDD.

Wyodrębnij wartości kolumn ramki danych jako listę w Apache Spark

Chciałbym przekonwertować kolumnę łańcuchową ramki danych na listę. Co mogę znaleźć z Dataframe API jest RDD, więc próbowałem ... b na konwersję kolumny na Listę lub sposób na usunięcie nawiasów kwadratowych. Wszelkie sugestie będą doceniam to. Dziękuję!

Spark RDD to DataFrame python

Próbuję przekonwertować Spark RDD na ramkę danych. Widziałem dokumentację i przykład gdzie schemat jest przekazywany do sqlC ... będzie tak żmudne zadanie. Czy istnieje inny sposób na określenie schematu bez uprzedniej znajomości informacji o kolumnach.

Spark, Scala, DataFrame: tworzenie wektorów funkcji

Mam DataFrame, który wygląda jak follow: userID, category, frequency 1,cat1,1 1,cat2,3 1,cat9,5 2,cat4,6 2,cat9,2 2,cat10,1 ... identyfikatorów użytkownika i 300 unikalnych kategorii. Jaki jest najbardziej efektywny sposób tworzenia funkcji DataFrame?

Upakowanie listy w celu wybrania wielu kolumn z ramki danych spark

Mam ramkę danych spark df. Czy istnieje sposób na podwyzszenie kilku kolumn za pomoca listy tych kolumn? scala> df.column ... zy istnieje sposób, aby przekazać to do df.wybrać? df.select(cols) wyrzuca błąd. Coś w stylu df.select(*cols) jak w Pythonie

Save Spark dataframe as dynamic partitioned table in Hive

Mam przykładową aplikację pracującą do odczytu z plików csv do ramki danych. Ramkę danych można zapisać do tabeli ula w forma ... ytanie może być traktowane jako rozszerzenie do: Jak zapisać DataFrame bezpośrednio do Hive? Każda pomoc jest mile widziana.

Spark Dataframe rozróżnia kolumny o zduplikowanej nazwie

Tak jak Wiem w Spark Dataframe, że dla wielu kolumn może mieć taką samą nazwę, jak pokazano na poniższej migawce dataframe: ... . Czy mimo to w Spark API mogę ponownie odróżnić kolumny od zduplikowanych nazw? a może jakiś sposób na zmianę nazw kolumn?

Spark: Dodaj kolumnę do dataframe warunkowo

Próbuję pobrać moje dane wejściowe: A B C -------------- 4 blah 2 2 3 56 foo 3 I dodać ko ... cą tylko metod Scala i nie trzeba wpisywać zapytania SQL w Scali. Próbowałem .withColumn, ale nie mogę tego zrobić, co chcę.

Agregowanie wielu kolumn za pomocą niestandardowej funkcji w spark

Zastanawiałem się, czy jest jakiś sposób, aby określić niestandardową funkcję agregacji dla ramek danych spark dla wielu kolu ... y jest to możliwe w dataframes? Niedawno dowiedziałem się o collect_list, ale wydaje się, że działa tylko dla jednej kolumny.