apache-spark-sql

Różnica między ramką danych, zestawem danych i RDD w Spark

Zastanawiam się tylko jaka jest różnica między RDD a DataFrame (Spark 2.0.0 DataFrame jest zwykłym aliasem typu dla Dataset[Row]) W Apache Spark? Czy możesz zamienić jedno na drugie?

Jak zdefiniować partycjonowanie ramki danych?

Zacząłem używać Spark SQL i DataFrames w spark 1.4.0. Chcę zdefiniować niestandardowy partycjoner na ramkach danych, w Scali ... istnieje sposób, aby Spark podzielił tę ramkę danych tak, aby wszystkie dane dla konta znajdowały się na tej samej partycji?

dataframe scala apache-spark apache-spark-sql partitioning

Jak wybrać pierwszy wiersz każdej grupy?

Mam DataFrame wygenerowany następująco: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Ho ... --------+ Może być przydatne, aby móc wybrać górne n wierszy każdej grupy, jak również. Każda pomoc jest bardzo doceniana.

scala apache-spark apache-spark-sql spark-dataframe

Zapytania Spark SQL DataFrame ze złożonymi typami

Jak mogę odpytywać RDD o złożone typy, takie jak mapy/tablice? na przykład, kiedy pisałem ten kod testowy: case class Test( ... tringType,true) I Org.Apacz.Iskra.sql.katalizator.błędy.pakiet$TreeNodeException: Unresolved atrybuty Odpowiednio.

sql dataframe scala apache-spark apache-spark-sql

Spark-załadować plik CSV jako ramkę danych?

Chciałbym odczytać plik CSV w sparku i przekonwertować go jako DataFrame i zapisać w HDFS za pomocą df.registerTempTable("tab ... .run(ForkJoinWorkerThread.java:107) Jakie jest właściwe polecenie, aby załadować plik CSV jako ramkę danych w Apache Spark?

scala apache-spark apache-spark-sql hadoop hdfs

Spark SQL: apply aggregate functions to a list of columns

Czy istnieje sposób na zastosowanie funkcji zbiorczej do wszystkich (lub listy) kolumn ramki danych, wykonując groupBy? Innym ... aby uniknąć tego dla każdej kolumny: df.groupBy("col1") .agg(sum("col2").alias("col2"), sum("col3").alias("col3"), ...)

dataframe aggregate-functions apache-spark apache-spark-sql

Jak efektywnie znaleźć liczbę wartości Null i Nan dla każdej kolumny w ramce danych PySpark?

import numpy as np df = spark.createDataFrame( [(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, flo ... kcji isnull () w spark, aby znaleźć liczbę wartości Null w kolumnie Spark, ale jak znaleźć wartości Nan w ramce danych Spark?

apache-spark apache-spark-sql pyspark pyspark-sql

Jak dodać nową kolumnę do ramki danych Spark (używając PySpark)?

Mam ramkę danych Spark (używając PySpark 1.5.1) i chciałbym dodać nową kolumnę. Próbowałem następujących bez żadnego sukcesu ... arallelize(randomed_hours)) Więc jak dodać nową kolumnę (opartą na wektorze Pythona) do istniejącej ramki danych z PySpark?

python apache-spark apache-spark-sql spark-dataframe pyspark

Jak zaimportować wiele plików csv w jednym ładowaniu?

Załóżmy, że mam zdefiniowany schemat ładowania 10 plików csv w folderze. Czy istnieje sposób na automatyczne ładowanie tabel ... ntext.read .format("com.databricks.spark.csv") .option("header", "true") .load("../Downloads/2008.csv")

apache-spark apache-spark-sql spark-dataframe

Spark SQL zamiennik dla MySQL GROUP CONCAT agregate function

Mam tabelę z dwoma kolumnami typu string (username, friend) i dla każdej nazwy użytkownika chcę zebrać wszystkich znajomych w ... nds1, friends2, friends3') Wiem, że MySQL robi to z GROUP_CONCAT. Czy jest jakiś sposób, aby to zrobić za pomocą Spark SQL?

aggregate-functions apache-spark apache-spark-sql

Zmiana nazw kolumn ramki danych w Spark Scala

Próbuję przekonwertować wszystkie nagłówki / nazwy kolumn DataFrame W Spark-Scali. jak na razie wymyślam następujący kod, któ ... for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

dataframe scala apache-spark apache-spark-sql

Policz liczbę wpisów Nie-NaN w każdej kolumnie ramki danych Spark z Pyspark

Mam bardzo duży zestaw danych, który jest załadowany w Hive. Składa się z około 1,9 miliona wierszy i 1450 kolumn. Muszę ok ... gę jednak używać pand, ponieważ nie jest on obecnie dostępny w klastrze, na którym pracuję i nie mam praw do jego instalacji.

python apache-spark apache-spark-sql pyspark

Funkcje Spark a wydajność UDF?

Spark oferuje teraz predefiniowane funkcje, które mogą być używane w ramkach danych i wydaje się, że są one wysoce zoptymaliz ... .alias('name')) spfData.count() Udf Zwykle trwało około 1,1 - 1,4 s, a funkcja Spark concat zawsze trwała poniżej 0,15 s.]}

performance apache-spark apache-spark-sql user-defined-functions pyspark

Błąd kodera podczas próby odwzorowania wiersza ramki danych do zaktualizowanego wiersza

Kiedy próbuję zrobić to samo w moim kodzie, jak wspomniano poniżej dataframe.map(row => { val row1 = row.getAs[String] ... n = "left" / _ Wsparcie dla serializacji innych typów będzie być dodawane w przyszłości wydania. Uwaga: używam spark 2.0!

scala apache-spark apache-spark-sql apache-spark-dataset

Jak stworzyć poprawną ramkę danych do klasyfikacji w SPARK ML

Próbuję uruchomić random forest classification za pomocą Spark ML api ale mam problemy z tworzeniem właściwej ramki danych d ... ang.IllegalArgumentException: Field "features" does not exist. val cmModel = cv.fit(dataFixed) } } Dzięki za pomoc!

scala apache-spark apache-spark-sql apache-spark-mllib

Aktualizacja kolumny ramki danych w spark

Patrząc na nowe API Spark dataframe, nie jest jasne, czy możliwe jest modyfikowanie kolumn dataframe. Jak zmienić wartość w ... stara kolumna, możesz dodać dodatkowy krok: df = df.drop('update_col').withColumnRenamed('new_column_name', 'update_col')

python apache-spark apache-spark-sql spark-dataframe pyspark

SparkSQL: apply aggregate functions to a list of column

Czy istnieje sposób na zastosowanie funkcji zbiorczej do wszystkich (lub listy) kolumn ramki danych, wykonując groupBy? Innym ... aby uniknąć tego dla każdej kolumny: df.groupBy("col1") .agg(sum("col2").alias("col2"), sum("col3").alias("col3"), ...)

dataframe aggregate-functions apache-spark apache-spark-sql spark-dataframe

Jak używać JDBC source do zapisu i odczytu danych w (Py)Spark?

Celem tego pytania jest udokumentowanie: Kroki wymagane do odczytu i zapisu danych przy użyciu połączeń JDBC w PySpark ... rozwiązaniami know Przy niewielkich zmianach metody te powinny działać z innymi obsługiwanymi językami, w tym Scala i R.

python scala apache-spark apache-spark-sql pyspark

Jak zrobić dobre powtarzalne Apache Spark Dataframe przykłady

Spędziłem sporo czasu czytając kilka pytań za pomocą tagów pyspark i Spark-dataframe i bardzo często stwierdzam, że plakaty ... rame w wersji to pytanie pandas jako przewodnik, który można połączyć. Więc jak można stworzyć dobry, powtarzalny przykład?

apache-spark apache-spark-sql spark-dataframe pyspark pyspark-sql

Jak obracać Spark DataFrame?

Zaczynam używać ramek danych Spark i muszę być w stanie obracać dane, aby utworzyć wiele kolumn z 1 kolumny z wieloma wiersza ... Czy ktoś wie jak to zrobić z wbudowanym funkcjonalność lub sugestie, jak napisać coś w Scali, Jest to bardzo mile widziane.

dataframe scala pivot apache-spark apache-spark-sql