apache-spark-sql

Różnica między ramką danych, zestawem danych i RDD w Spark

Zastanawiam się tylko jaka jest różnica między RDD a DataFrame (Spark 2.0.0 DataFrame jest zwykłym aliasem typu dla Dataset[Row]) W Apache Spark? Czy możesz zamienić jedno na drugie?

Jak zdefiniować partycjonowanie ramki danych?

Zacząłem używać Spark SQL i DataFrames w spark 1.4.0. Chcę zdefiniować niestandardowy partycjoner na ramkach danych, w Scali ... istnieje sposób, aby Spark podzielił tę ramkę danych tak, aby wszystkie dane dla konta znajdowały się na tej samej partycji?

Jak wybrać pierwszy wiersz każdej grupy?

Mam DataFrame wygenerowany następująco: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Ho ... --------+ Może być przydatne, aby móc wybrać górne n wierszy każdej grupy, jak również. Każda pomoc jest bardzo doceniana.

Zapytania Spark SQL DataFrame ze złożonymi typami

Jak mogę odpytywać RDD o złożone typy, takie jak mapy/tablice? na przykład, kiedy pisałem ten kod testowy: case class Test( ... tringType,true) I Org.Apacz.Iskra.sql.katalizator.błędy.pakiet$TreeNodeException: Unresolved atrybuty Odpowiednio.

Spark-załadować plik CSV jako ramkę danych?

Chciałbym odczytać plik CSV w sparku i przekonwertować go jako DataFrame i zapisać w HDFS za pomocą df.registerTempTable("tab ... .run(ForkJoinWorkerThread.java:107) Jakie jest właściwe polecenie, aby załadować plik CSV jako ramkę danych w Apache Spark?

Spark SQL: apply aggregate functions to a list of columns

Czy istnieje sposób na zastosowanie funkcji zbiorczej do wszystkich (lub listy) kolumn ramki danych, wykonując groupBy? Innym ... aby uniknąć tego dla każdej kolumny: df.groupBy("col1") .agg(sum("col2").alias("col2"), sum("col3").alias("col3"), ...)

Jak efektywnie znaleźć liczbę wartości Null i Nan dla każdej kolumny w ramce danych PySpark?

import numpy as np df = spark.createDataFrame( [(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, flo ... kcji isnull () w spark, aby znaleźć liczbę wartości Null w kolumnie Spark, ale jak znaleźć wartości Nan w ramce danych Spark?

Jak dodać nową kolumnę do ramki danych Spark (używając PySpark)?

Mam ramkę danych Spark (używając PySpark 1.5.1) i chciałbym dodać nową kolumnę. Próbowałem następujących bez żadnego sukcesu ... arallelize(randomed_hours)) Więc jak dodać nową kolumnę (opartą na wektorze Pythona) do istniejącej ramki danych z PySpark?

Jak zaimportować wiele plików csv w jednym ładowaniu?

Załóżmy, że mam zdefiniowany schemat ładowania 10 plików csv w folderze. Czy istnieje sposób na automatyczne ładowanie tabel ... ntext.read .format("com.databricks.spark.csv") .option("header", "true") .load("../Downloads/2008.csv")

Spark SQL zamiennik dla MySQL GROUP CONCAT agregate function

Mam tabelę z dwoma kolumnami typu string (username, friend) i dla każdej nazwy użytkownika chcę zebrać wszystkich znajomych w ... nds1, friends2, friends3') Wiem, że MySQL robi to z GROUP_CONCAT. Czy jest jakiś sposób, aby to zrobić za pomocą Spark SQL?

Zmiana nazw kolumn ramki danych w Spark Scala

Próbuję przekonwertować wszystkie nagłówki / nazwy kolumn DataFrame W Spark-Scali. jak na razie wymyślam następujący kod, któ ... for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

Policz liczbę wpisów Nie-NaN w każdej kolumnie ramki danych Spark z Pyspark

Mam bardzo duży zestaw danych, który jest załadowany w Hive. Składa się z około 1,9 miliona wierszy i 1450 kolumn. Muszę ok ... gę jednak używać pand, ponieważ nie jest on obecnie dostępny w klastrze, na którym pracuję i nie mam praw do jego instalacji.

Funkcje Spark a wydajność UDF?

Spark oferuje teraz predefiniowane funkcje, które mogą być używane w ramkach danych i wydaje się, że są one wysoce zoptymaliz ... .alias('name')) spfData.count() Udf Zwykle trwało około 1,1 - 1,4 s, a funkcja Spark concat zawsze trwała poniżej 0,15 s.]}

Błąd kodera podczas próby odwzorowania wiersza ramki danych do zaktualizowanego wiersza

Kiedy próbuję zrobić to samo w moim kodzie, jak wspomniano poniżej dataframe.map(row => { val row1 = row.getAs[String] ... n = "left" / _ Wsparcie dla serializacji innych typów będzie być dodawane w przyszłości wydania. Uwaga: używam spark 2.0!

Jak stworzyć poprawną ramkę danych do klasyfikacji w SPARK ML

Próbuję uruchomić random forest classification za pomocą Spark ML api ale mam problemy z tworzeniem właściwej ramki danych d ... ang.IllegalArgumentException: Field "features" does not exist. val cmModel = cv.fit(dataFixed) } } Dzięki za pomoc!

Aktualizacja kolumny ramki danych w spark

Patrząc na nowe API Spark dataframe, nie jest jasne, czy możliwe jest modyfikowanie kolumn dataframe. Jak zmienić wartość w ... stara kolumna, możesz dodać dodatkowy krok: df = df.drop('update_col').withColumnRenamed('new_column_name', 'update_col')

SparkSQL: apply aggregate functions to a list of column

Czy istnieje sposób na zastosowanie funkcji zbiorczej do wszystkich (lub listy) kolumn ramki danych, wykonując groupBy? Innym ... aby uniknąć tego dla każdej kolumny: df.groupBy("col1") .agg(sum("col2").alias("col2"), sum("col3").alias("col3"), ...)

Jak używać JDBC source do zapisu i odczytu danych w (Py)Spark?

Celem tego pytania jest udokumentowanie: Kroki wymagane do odczytu i zapisu danych przy użyciu połączeń JDBC w PySpark ... rozwiązaniami know Przy niewielkich zmianach metody te powinny działać z innymi obsługiwanymi językami, w tym Scala i R.

Jak zrobić dobre powtarzalne Apache Spark Dataframe przykłady

Spędziłem sporo czasu czytając kilka pytań za pomocą tagów pyspark i Spark-dataframe i bardzo często stwierdzam, że plakaty ... rame w wersji to pytanie pandas jako przewodnik, który można połączyć. Więc jak można stworzyć dobry, powtarzalny przykład?

Jak obracać Spark DataFrame?

Zaczynam używać ramek danych Spark i muszę być w stanie obracać dane, aby utworzyć wiele kolumn z 1 kolumny z wieloma wiersza ... Czy ktoś wie jak to zrobić z wbudowanym funkcjonalność lub sugestie, jak napisać coś w Scali, Jest to bardzo mile widziane.