spark-dataframe
Różnica między ramką danych (w Spark 2.0 i.E DataSet[Row]) a RDD w Spark
Zastanawiam się tylko jaka jest różnica między RDD a DataFrame (Spark 2.0.0 DataFrame jest zwykłym aliasem typu dla Dataset[Row]) W Apache Spark?
Czy możesz zamienić jedno na drugie?
Jak wybrać pierwszy wiersz każdej grupy?
Mam DataFrame wygenerowany następująco:
df.groupBy($"Hour", $"Category")
.agg(sum($"value") as "TotalValue")
.sort($"Ho ... --------+
Może być przydatne, aby móc wybrać górne n wierszy każdej grupy, jak również.
Każda pomoc jest bardzo doceniana.
Jak przekonwertować obiekt rdd na ramkę danych w spark
Jak mogę przekonwertować RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) Na ramkę danych org.apache.spark.sql.DataFrame. Konwertowałem ramkę danych na rdd używając .rdd. Po przetworzeniu chcę go z powrotem w dataframe. Jak mogę to zrobić ?
Jak dodać nową kolumnę do ramki danych Spark (używając PySpark)?
Mam ramkę danych Spark (używając PySpark 1.5.1) i chciałbym dodać nową kolumnę.
Próbowałem następujących bez żadnego sukcesu ... arallelize(randomed_hours))
Więc jak dodać nową kolumnę (opartą na wektorze Pythona) do istniejącej ramki danych z PySpark?
Jak zaimportować wiele plików csv w jednym ładowaniu?
Załóżmy, że mam zdefiniowany schemat ładowania 10 plików csv w folderze. Czy istnieje sposób na automatyczne ładowanie tabel ... ntext.read
.format("com.databricks.spark.csv")
.option("header", "true")
.load("../Downloads/2008.csv")
Aktualizacja kolumny ramki danych w spark
Patrząc na nowe API Spark dataframe, nie jest jasne, czy możliwe jest modyfikowanie kolumn dataframe.
Jak zmienić wartość w ... stara kolumna, możesz dodać dodatkowy krok:
df = df.drop('update_col').withColumnRenamed('new_column_name', 'update_col')
SparkSQL: apply aggregate functions to a list of column
Czy istnieje sposób na zastosowanie funkcji zbiorczej do wszystkich (lub listy) kolumn ramki danych, wykonując groupBy? Innym ... aby uniknąć tego dla każdej kolumny:
df.groupBy("col1")
.agg(sum("col2").alias("col2"), sum("col3").alias("col3"), ...)
Jak zrobić dobre powtarzalne Apache Spark Dataframe przykłady
Spędziłem sporo czasu czytając kilka pytań za pomocą tagów pyspark i Spark-dataframe i bardzo często stwierdzam, że plakaty ... rame w wersji to pytanie pandas jako przewodnik, który można połączyć.
Więc jak można stworzyć dobry, powtarzalny przykład?
Znajdź maksymalny wiersz dla grupy w ramce danych Spark
Staram się używać ramek danych Spark zamiast RDD, ponieważ wydają się być bardziej zaawansowane niż RDD i mają tendencję do t ... d_sb=b2),
Row(id_sa=a2, max_id_sb=b2)]
Ale może próbuję użyć niewłaściwego narzędzia i powinienem wrócić do używania RDDs.
Jak dodać stałą kolumnę w ramce danych Spark?
Chcę dodać kolumnę w {[2] } z dowolną wartością (która jest taka sama dla każdego wiersza). Pojawia się błąd, gdy używam with ... essagetype=1, dt=4809600.0, new_column=10)]
To jest bardzo trudne, prawda? Zakładam, że jest na to bardziej legalny sposób?
Zastąp określone partycje w Spark dataframe write method
Chcę nadpisać określone partycje zamiast wszystkich w spark. Próbuję wykonać następujące polecenie:
df.write.orc('maprfs:// ... m wymaganiem jest nadpisanie tylko tych partycji obecnych w df na podanej ścieżce hdfs. Czy ktoś może proszę, pomóż mi w tym?
Spark / Scala: forward fill z ostatnią obserwacją
Używanie Spark 1.4.0, Scala 2.10
Próbowałem znaleźć sposób, aby wypełnić wartości null ostatnią znaną obserwacją, ale nie w ... yższe rozwiązanie może nie jest najskuteczniejsze, ale działa dla mnie. Jeśli chcesz zoptymalizować, sprawdź rozwiązanie RDD.
Wyodrębnij wartości kolumn ramki danych jako listę w Apache Spark
Chciałbym przekonwertować kolumnę łańcuchową ramki danych na listę. Co mogę znaleźć z Dataframe API jest RDD, więc próbowałem ... b na konwersję kolumny na Listę lub sposób na usunięcie nawiasów kwadratowych.
Wszelkie sugestie będą doceniam to. Dziękuję!
Spark RDD to DataFrame python
Próbuję przekonwertować Spark RDD na ramkę danych. Widziałem dokumentację i przykład gdzie schemat jest przekazywany do
sqlC ... będzie tak żmudne zadanie.
Czy istnieje inny sposób na określenie schematu bez uprzedniej znajomości informacji o kolumnach.
Spark, Scala, DataFrame: tworzenie wektorów funkcji
Mam DataFrame, który wygląda jak follow:
userID, category, frequency
1,cat1,1
1,cat2,3
1,cat9,5
2,cat4,6
2,cat9,2
2,cat10,1
... identyfikatorów użytkownika i 300 unikalnych kategorii.
Jaki jest najbardziej efektywny sposób tworzenia funkcji DataFrame?
Upakowanie listy w celu wybrania wielu kolumn z ramki danych spark
Mam ramkę danych spark df. Czy istnieje sposób na podwyzszenie kilku kolumn za pomoca listy tych kolumn?
scala> df.column ... zy istnieje sposób, aby przekazać to do df.wybrać? df.select(cols) wyrzuca błąd. Coś w stylu df.select(*cols) jak w Pythonie
Save Spark dataframe as dynamic partitioned table in Hive
Mam przykładową aplikację pracującą do odczytu z plików csv do ramki danych. Ramkę danych można zapisać do tabeli ula w forma ... ytanie może być traktowane jako rozszerzenie do: Jak zapisać DataFrame bezpośrednio do Hive?
Każda pomoc jest mile widziana.
Spark Dataframe rozróżnia kolumny o zduplikowanej nazwie
Tak jak Wiem w Spark Dataframe, że dla wielu kolumn może mieć taką samą nazwę, jak pokazano na poniższej migawce dataframe:
... .
Czy mimo to w Spark API mogę ponownie odróżnić kolumny od zduplikowanych nazw? a może jakiś sposób na zmianę nazw kolumn?
Spark: Dodaj kolumnę do dataframe warunkowo
Próbuję pobrać moje dane wejściowe:
A B C
--------------
4 blah 2
2 3
56 foo 3
I dodać ko ... cą tylko metod Scala i nie trzeba wpisywać zapytania SQL w Scali.
Próbowałem .withColumn, ale nie mogę tego zrobić, co chcę.
Agregowanie wielu kolumn za pomocą niestandardowej funkcji w spark
Zastanawiałem się, czy jest jakiś sposób, aby określić niestandardową funkcję agregacji dla ramek danych spark dla wielu kolu ... y jest to możliwe w dataframes? Niedawno dowiedziałem się o collect_list, ale wydaje się, że działa tylko dla jednej kolumny.
- 1
- 2