pyspark pg. 2

Pyspark: podziel wiele kolumn tablicy na wiersze

Mam ramkę danych, która ma jeden wiersz i kilka kolumn. Niektóre kolumny są pojedynczymi wartościami, a inne są listami. Wszy ... olumnach w ramce danych, ale to też nie działa: df_split = df.rdd.map(lambda col: df.withColumn(col, explode(col))).toDF()

Liczba partycji w RDD i wydajność w Spark

W Pyspark, mogę utworzyć RDD z listy i zdecydować, ile partycji mieć: sc = SparkContext() sc.parallelize(xrange(0, 10), 4) ... ycji, które zdecyduję się na partycję mojego RDD, wpływa na wydajność? Jak to zależy od liczby rdzeni, które ma moja maszyna?

performance apache-spark rdd pyspark

Obliczanie czasu trwania przez odjęcie dwóch kolumn datetime w formacie string

Mam Spark Dataframe w który składa się z serii dat: from pyspark.sql import SQLContext from pyspark.sql import Row from pys ... ewien, czy moje podejście jest poprawne, czy nie. Jeśli nie, chętnie zaakceptowałbym inny sugerowany sposób, aby to osiągnąć.

apache-spark apache-spark-sql pyspark

Czas iteracji iskry rośnie wykładniczo podczas używania join

Jestem całkiem nowy w Spark i próbuję zaimplementować jakiś iteracyjny algorytm klastrowania (oczekiwanie-maksymalizacja) z c ... 00:01.525314 3 10000 0:00:04.194715 4 10000 0:00:08.139040 5 10000 0:00:17.852815 Będę naprawdę wdzięczny za każdą pomoc:)

python loops iteration apache-spark pyspark

Pivot String column on Pyspark Dataframe

python dataframe apache-spark apache-spark-sql pyspark

Obiekt 'PipelinedRDD' nie posiada atrybutu 'toDF' w PySpark

Próbuję załadować plik SVM i przekonwertować go na DataFrame, aby móc korzystać z modułu ML (Pipeline ML) ze Spark. Właśnie z ... e jeśli ucieknę: data = MLUtils.loadLibSVMFile(sc, "/home/svm_capture").toDF() Bezpośrednio w powłoce PySpark, to działa.

python apache-spark apache-spark-sql rdd pyspark

Pyspark i PCA: Jak mogę wyodrębnić wektory własne tego PCA? Jak mogę obliczyć, ile wariancji wyjaśniają?

Redukuję wymiarowość Spark DataFrame za pomocą modelu PCA z pyspark (za pomocą spark ml Biblioteka) w następujący sposób: p ... 0.625])) Moje pytanie brzmi: Jak mogę wyodrębnić wektory wewnętrzne tego PCA? Jak mogę obliczyć, ile wariancji wyjaśniają?

apache-spark apache-spark-sql pca pyspark apache-spark-ml

Spark RDD to DataFrame python

Próbuję przekonwertować Spark RDD na ramkę danych. Widziałem dokumentację i przykład gdzie schemat jest przekazywany do sqlC ... będzie tak żmudne zadanie. Czy istnieje inny sposób na określenie schematu bez uprzedniej znajomości informacji o kolumnach.

python apache-spark spark-dataframe pyspark

Jak połączyć HBase i Spark za pomocą Pythona?

Mam żenująco równoległe zadanie, do którego używam Sparka do dystrybucji obliczeń. Te obliczenia są w Pythonie, a ja używam P ... widzę różnicy między tymi dwoma...). Nie wygląda tak solidny i dobrze obsługiwany, jak chciałbym, aby moje rozwiązanie było.

python apache-spark apache-spark-sql hbase pyspark

Co tak naprawdę robi Spark DataFrame method "toPandas"?

Jestem początkującym programistą Spark-DataFrame API. Używam tego kodu do załadowania karty csv-rozdzielonej do Spark Dataf ... lności pandy dataframe?(Chyba tak) Czy mogę go przekonwertować na i po prostu z tym skończyć, bez dotykania DataFrame API?

python pandas apache-spark pyspark

Spark RDD - czy partycja(y) jest zawsze w pamięci RAM?

Wszyscy wiemy, że Spark wykonuje obliczenia w pamięci. Jestem po prostu ciekaw, co dalej. Jeśli utworzę 10 RDD w mojej powł ... pamięci? Jeśli rozmiar mojego zestawu danych (pliku) przekracza Dostępny rozmiar pamięci RAM, gdzie będą przechowywane dane?

apache-spark rdd hadoop hdfs pyspark

Wypełnij null znanymi wcześniej dobrymi wartościami w pyspark

Czy istnieje sposób na zastąpienie wartości null w ramce danych pyspark ostatnią prawidłową wartością? Istnieją dodatkowe kol ... null| | 1| 10| 110| +---------+-----------+-----------+ +---------+-----------+-----------+

apache-spark apache-spark-sql pyspark

Zmień nazwę zagnieżdżonego pola w ramce danych spark

Posiadanie ramki danych df W Spark: |-- array_field: array (nullable = true) | |-- element: struct (containsNull = tru ... stem na dobrej drodze, ale df.printSchema() nadal pokazuje starą nazwę dla array_field.a, choć df.schema == schema jest True

python dataframe rename apache-spark pyspark

Spark Dataframe rozróżnia kolumny o zduplikowanej nazwie

Tak jak Wiem w Spark Dataframe, że dla wielu kolumn może mieć taką samą nazwę, jak pokazano na poniższej migawce dataframe: ... . Czy mimo to w Spark API mogę ponownie odróżnić kolumny od zduplikowanych nazw? a może jakiś sposób na zmianę nazw kolumn?

python apache-spark apache-spark-sql spark-dataframe pyspark

pyspark