pyspark

Pyspark: podziel wiele kolumn tablicy na wiersze

Mam ramkę danych, która ma jeden wiersz i kilka kolumn. Niektóre kolumny są pojedynczymi wartościami, a inne są listami. Wszy ... olumnach w ramce danych, ale to też nie działa: df_split = df.rdd.map(lambda col: df.withColumn(col, explode(col))).toDF()

Liczba partycji w RDD i wydajność w Spark

W Pyspark, mogę utworzyć RDD z listy i zdecydować, ile partycji mieć: sc = SparkContext() sc.parallelize(xrange(0, 10), 4) ... ycji, które zdecyduję się na partycję mojego RDD, wpływa na wydajność? Jak to zależy od liczby rdzeni, które ma moja maszyna?

Obliczanie czasu trwania przez odjęcie dwóch kolumn datetime w formacie string

Mam Spark Dataframe w który składa się z serii dat: from pyspark.sql import SQLContext from pyspark.sql import Row from pys ... ewien, czy moje podejście jest poprawne, czy nie. Jeśli nie, chętnie zaakceptowałbym inny sugerowany sposób, aby to osiągnąć.

Czas iteracji iskry rośnie wykładniczo podczas używania join

Jestem całkiem nowy w Spark i próbuję zaimplementować jakiś iteracyjny algorytm klastrowania (oczekiwanie-maksymalizacja) z c ... 00:01.525314 3 10000 0:00:04.194715 4 10000 0:00:08.139040 5 10000 0:00:17.852815 Będę naprawdę wdzięczny za każdą pomoc:)

Pivot String column on Pyspark Dataframe

Mam taki prosty dataframe: rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602 ... ull| | 0| A| DOCK | PORT| DOCK| | 1| B|DOCK |PORT | null| +---+----+------+------+------+ Czy to możliwe z pivot?

Obiekt 'PipelinedRDD' nie posiada atrybutu 'toDF' w PySpark

Próbuję załadować plik SVM i przekonwertować go na DataFrame, aby móc korzystać z modułu ML (Pipeline ML) ze Spark. Właśnie z ... e jeśli ucieknę: data = MLUtils.loadLibSVMFile(sc, "/home/svm_capture").toDF() Bezpośrednio w powłoce PySpark, to działa.

Pyspark i PCA: Jak mogę wyodrębnić wektory własne tego PCA? Jak mogę obliczyć, ile wariancji wyjaśniają?

Redukuję wymiarowość Spark DataFrame za pomocą modelu PCA z pyspark (za pomocą spark ml Biblioteka) w następujący sposób: p ... 0.625])) Moje pytanie brzmi: Jak mogę wyodrębnić wektory wewnętrzne tego PCA? Jak mogę obliczyć, ile wariancji wyjaśniają?

Spark RDD to DataFrame python

Próbuję przekonwertować Spark RDD na ramkę danych. Widziałem dokumentację i przykład gdzie schemat jest przekazywany do sqlC ... będzie tak żmudne zadanie. Czy istnieje inny sposób na określenie schematu bez uprzedniej znajomości informacji o kolumnach.

Jak połączyć HBase i Spark za pomocą Pythona?

Mam żenująco równoległe zadanie, do którego używam Sparka do dystrybucji obliczeń. Te obliczenia są w Pythonie, a ja używam P ... widzę różnicy między tymi dwoma...). Nie wygląda tak solidny i dobrze obsługiwany, jak chciałbym, aby moje rozwiązanie było.

Co tak naprawdę robi Spark DataFrame method "toPandas"?

Jestem początkującym programistą Spark-DataFrame API. Używam tego kodu do załadowania karty csv-rozdzielonej do Spark Dataf ... lności pandy dataframe?(Chyba tak) Czy mogę go przekonwertować na i po prostu z tym skończyć, bez dotykania DataFrame API?

Spark RDD - czy partycja(y) jest zawsze w pamięci RAM?

Wszyscy wiemy, że Spark wykonuje obliczenia w pamięci. Jestem po prostu ciekaw, co dalej. Jeśli utworzę 10 RDD w mojej powł ... pamięci? Jeśli rozmiar mojego zestawu danych (pliku) przekracza Dostępny rozmiar pamięci RAM, gdzie będą przechowywane dane?

Wypełnij null znanymi wcześniej dobrymi wartościami w pyspark

Czy istnieje sposób na zastąpienie wartości null w ramce danych pyspark ostatnią prawidłową wartością? Istnieją dodatkowe kol ... null| | 1| 10| 110| +---------+-----------+-----------+ +---------+-----------+-----------+

Zmień nazwę zagnieżdżonego pola w ramce danych spark

Posiadanie ramki danych df W Spark: |-- array_field: array (nullable = true) | |-- element: struct (containsNull = tru ... stem na dobrej drodze, ale df.printSchema() nadal pokazuje starą nazwę dla array_field.a, choć df.schema == schema jest True

Spark Dataframe rozróżnia kolumny o zduplikowanej nazwie

Tak jak Wiem w Spark Dataframe, że dla wielu kolumn może mieć taką samą nazwę, jak pokazano na poniższej migawce dataframe: ... . Czy mimo to w Spark API mogę ponownie odróżnić kolumny od zduplikowanych nazw? a może jakiś sposób na zmianę nazw kolumn?

Jak stopić Spark DataFrame?

Czy w Apache Spark w PySpark czy przynajmniej w Scali istnieje odpowiednik funkcji Pandy Melt? Do tej pory używałem przykładowego zestawu danych w Pythonie i teraz chcę użyć Sparka dla całego zestawu danych. Z góry dzięki.

Link Spark z notebookiem iPython

Śledziłem jakiś tutorial online, ale nie działają z {[4] } na OS X El Capitan (10.11) W zasadzie uruchomiłem to polecenie P ... : możesz postępować zgodnie z tym przewodnikiem, aby to działało Https://gist.github.com/tommycarpi/f5a67c66a8f2170e263c

Pobieranie top n w każdej grupie ramki danych w pyspark

W pyspark znajduje się ramka danych z danymi jak poniżej: user_id object_id score user_1 object_1 3 user_1 object_1 1 u ... ę nowy w pyspark, czy ktoś mógłby mi podać fragment kodu lub portal do powiązanej dokumentacji tego problemu? Wielkie dzięki!

Pyspark: explode json in column to multiple columns

Dane wyglądają tak - +-----------+-----------+-----------------------------+ | id| point| ... to nie jest pożądane rozwiązanie. Uwaga: To rozwiązanie nie odpowiada na moje pytania. PySpark "explode" dict w kolumnie

PySpark: jak przekonwertować kolumnę tablicy (np. list) na Wektor

Krótka wersja pytania! Rozważ następujący fragment (zakładając, że {[12] } jest już ustawiony na jakieś SparkSession): from ... ctor), None)] +- Project [city#0, <lambda>(temperatures#1) AS temperatures#5] +- LogicalRDD [city#0, temperatures#1] "

Filtr kolumny Pyspark dataframe z wartością None

Próbuję filtrować ramkę danych PySpark, która ma None jako wartość wiersza: df.select('dt_mvmt').distinct().collect() [Row ... dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Ale są zdecydowanie wartości w każdej kategorii. Co się dzieje?