pyspark
Jak wyłączyć INFO logowania Spark?
Zainstalowałem Spark za pomocą przewodnika AWS EC2 i mogę uruchomić program dobrze za pomocą skryptu bin/pyspark, aby dostać ... x=y")
# - SPARK_PUBLIC_DNS, to set the public dns name of the master or workers
export SPARK_SUBMIT_CLASSPATH="$FWDIR/conf"
Spark Kill Running Application
Mam uruchomioną aplikację Spark, w której zajmuje wszystkie rdzenie, w których moje inne aplikacje nie będą przydzielane żadn ... używam wersji CDH i /bin / spark-class w ogóle nie istnieje, aplikacja YARN kill też nie działa.
Może ktoś ze mną z tym?
importowanie pyspark w powłoce Pythona
to jest kopia cudzego pytania na innym forum, na które nigdy nie udzielono odpowiedzi, więc pomyślałem, że zapytam ponownie t ... to / spark/, które ścieżki pyspark muszę uwzględnić? Czy programy pyspark mogą być uruchamiane tylko z interpretera pyspark?
Jak połączyć PyCharm z PySpark?
Jestem nowy z apache spark i najwyraźniej zainstalowałem apache-spark z homebrew w moim MacBooku:
Last login: Fri Jan 8 12 ... apache-spark/1.5.1/libexec$ ls
R/ bin/ data/ examples/ python/
RELEASE conf/ ec2/ lib/ sbin/
Jak efektywnie znaleźć liczbę wartości Null i Nan dla każdej kolumny w ramce danych PySpark?
import numpy as np
df = spark.createDataFrame(
[(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, flo ... kcji isnull () w spark, aby znaleźć liczbę wartości Null w kolumnie Spark, ale jak znaleźć wartości Nan w ramce danych Spark?
Jak dodać nową kolumnę do ramki danych Spark (używając PySpark)?
Mam ramkę danych Spark (używając PySpark 1.5.1) i chciałbym dodać nową kolumnę.
Próbowałem następujących bez żadnego sukcesu ... arallelize(randomed_hours))
Więc jak dodać nową kolumnę (opartą na wektorze Pythona) do istniejącej ramki danych z PySpark?
Jak znaleźć medianę i kwantyle za pomocą Spark
Jak mogę znaleźć medianę RDD liczb całkowitych przy użyciu rozproszonej metody IPython i Spark? RDD jest około 700 000 elemen ... nt. A potem mogę spróbować sortować według wartości? Nie wiem, czy jest to możliwe, ponieważ istnieje tylko metoda sortByKey.
Jak ustawić wersję Pythona Sterownika w spark?
Używam spark 1.4.0-rc2, więc mogę używać Pythona 3 z spark. Jeśli dodam export PYSPARK_PYTHON=python3 do mojego .plik bashrc ... versions
Jak mogę określić wersję Pythona dla sterownika? Ustawienie export PYSPARK_DRIVER_PYTHON=python3 nie zadziałało.
Załaduj plik CSV za pomocą Spark
Jestem nowy w Spark i próbuję odczytać dane CSV z pliku z Spark.
Oto co robię:
sc.textFile('file.csv')
.map(lambda line ... 983>", line 1, in <lambda>
IndexError: list index out of range
Chociaż mój plik CSV jako więcej niż jedna kolumna.
Jak zmienić nazwy kolumn dataframe w pyspark?
Pochodzę z tła pandas i jestem przyzwyczajony do odczytu danych z plików CSV do ramki danych, a następnie po prostu zmiany na ... m schematem.
Czy jest lepszy i skuteczniejszy sposób, aby to zrobić, jak to robimy w pandach ?
Moja wersja spark to 1.5.0
Policz liczbę wpisów Nie-NaN w każdej kolumnie ramki danych Spark z Pyspark
Mam bardzo duży zestaw danych, który jest załadowany w Hive. Składa się z około 1,9 miliona wierszy i 1450 kolumn. Muszę ok ... gę jednak używać pand, ponieważ nie jest on obecnie dostępny w klastrze, na którym pracuję i nie mam praw do jego instalacji.
Funkcje Spark a wydajność UDF?
Spark oferuje teraz predefiniowane funkcje, które mogą być używane w ramkach danych i wydaje się, że są one wysoce zoptymaliz ... .alias('name'))
spfData.count()
Udf Zwykle trwało około 1,1 - 1,4 s, a funkcja Spark concat zawsze trwała poniżej 0,15 s.]}
Błąd Spark - nieobsługiwana Wersja pliku klasy
[2]} próbuję zainstalować Sparka na moim Macu. Użyłem home-brew do zainstalowania spark 2.4.0 i Scala. Zainstalowałem PySpark ... he.spark.api.python.PythonRDD.collectAndServe.
: java.lang.IllegalArgumentException: Unsupported class file major version 55
pyspark: wydajnie mieć partycję zapisując do tej samej liczby partycji co oryginalna tabela
Mam pytanie związane z funkcją pyspark repartitionBy(), które pierwotnie zamieściłem w komentarzu do tego pytania . W związk ... e jej z małą liczbą partycji przed Robienie partitionBy(COL) wydaje się złym pomysłem.
Wszelkie sugestie są bardzo doceniam!
Wywołanie funkcji Java / Scala z zadania
Tło
Moje pierwotne pytanie brzmiało dlaczego użycie DecisionTreeModel.predict wewnątrz funkcji mapy powoduje wyjątek? i jes ... zszerzanie klas Spark poprzez ukryte konwersje lub dodawanie pewnego rodzaju opakowań
korzystanie bezpośrednio z bramy Py4j
Aktualizacja kolumny ramki danych w spark
Patrząc na nowe API Spark dataframe, nie jest jasne, czy możliwe jest modyfikowanie kolumn dataframe.
Jak zmienić wartość w ... stara kolumna, możesz dodać dodatkowy krok:
df = df.drop('update_col').withColumnRenamed('new_column_name', 'update_col')
Jak używać JDBC source do zapisu i odczytu danych w (Py)Spark?
Celem tego pytania jest udokumentowanie:
Kroki wymagane do odczytu i zapisu danych przy użyciu połączeń JDBC w PySpark
... rozwiązaniami know
Przy niewielkich zmianach metody te powinny działać z innymi obsługiwanymi językami, w tym Scala i R.
Jak zrobić dobre powtarzalne Apache Spark Dataframe przykłady
Spędziłem sporo czasu czytając kilka pytań za pomocą tagów pyspark i Spark-dataframe i bardzo często stwierdzam, że plakaty ... rame w wersji to pytanie pandas jako przewodnik, który można połączyć.
Więc jak można stworzyć dobry, powtarzalny przykład?
Znajdź maksymalny wiersz dla grupy w ramce danych Spark
Staram się używać ramek danych Spark zamiast RDD, ponieważ wydają się być bardziej zaawansowane niż RDD i mają tendencję do t ... d_sb=b2),
Row(id_sa=a2, max_id_sb=b2)]
Ale może próbuję użyć niewłaściwego narzędzia i powinienem wrócić do używania RDDs.
Jak dodać stałą kolumnę w ramce danych Spark?
Chcę dodać kolumnę w {[2] } z dowolną wartością (która jest taka sama dla każdego wiersza). Pojawia się błąd, gdy używam with ... essagetype=1, dt=4809600.0, new_column=10)]
To jest bardzo trudne, prawda? Zakładam, że jest na to bardziej legalny sposób?