dataframe
Różnica między wspornikiem [] i wspornikiem podwójnym []] dla dostępu do elementów listy lub ramki danych
R udostępnia dwie różne metody dostępu do elementów listy lub danych.frame: [] i [[]].
Jaka jest różnica między tymi dwoma i kiedy powinienem użyć jednego nad drugim?
Uzyskaj statystyki dla każdej grupy (takie jak count, mean, etc) za pomocą pandas GroupBy?
Mam ramkę danych df i używam kilku kolumn od niej do groupby:
df['col1','col2','col3','col4'].groupby(['col1','col2']).mean ... w pierwszej grupie jest 8 wartości, a w drugiej 10 i tak dalej.
W skrócie: jak uzyskać grupowe statystyki dla ramki danych?
Różnica między ramką danych, zestawem danych i RDD w Spark
Zastanawiam się tylko jaka jest różnica między RDD a DataFrame (Spark 2.0.0 DataFrame jest zwykłym aliasem typu dla Dataset[Row]) W Apache Spark?
Czy możesz zamienić jedno na drugie?
Dodawanie nowej kolumny do istniejącego DataFrame w Pythonie
Mam następujący indeksowany DataFrame z nazwanymi kolumnami i wierszami nie-ciągłymi liczbami:
a b ... end, merge, ale nie dostałem pożądanego rezultatu, tylko co najwyżej błędy. Jak Mogę dodać kolumnę e do powyższego przykładu?
Zapisanie ramki danych pandy do pliku CSV
Mam w Pandzie ramkę danych, którą chciałbym zapisać do pliku CSV. Robię to używając:
df.to_csv('out.csv')
I uzyskanie błę ... ób na zapis do pliku rozdzielanego tabulatorami zamiast pliku CSV przy użyciu np. metody 'to-tab' (która chyba nie istnieje)?
R-Lista do ramki danych
Mam zagnieżdżoną listę danych. Jego długość wynosi 132, a każdy element jest listą długości 20. Czy istnieje Szybki sposób n ... kolumn danych?
Oto przykładowe dane do pracy:
l <- replicate(
132,
list(sample(letters, 20)),
simplify = FALSE
)
Jak zastąpić wartości NA zerami w ramce danych R?
Mam data.frame a niektóre kolumny mają NA wartości. Chcę zamienić NA s na zera. Jak to robię?
Spadek nieużywanych poziomów współczynnika w podgrupie danych
Mam ramkę danych zawierającą factor. Kiedy tworzę podzbiór tej ramki danych za pomocą subset lub innej funkcji indeksującej, ... # 2 b 2
## 3 c 3
# all levels are still there!
levels(subdf$letters)
## [1] "a" "b" "c" "d" "e"
Różnica między wspornikiem [] a wspornikiem podwójnym [[]] dla dostępu do elementów listy lub ramki danych
R udostępnia dwie różne metody dostępu do elementów listy lub danych.frame-operatory [] i [[]].
Jaka jest różnica między nimi? W jakich sytuacjach powinienem używać jednego nad drugim?
Wybieranie wielu kolumn w ramce danych pandy
Mam dane w różnych kolumnach, ale nie wiem, jak je wyodrębnić, aby zapisać je w innej zmiennej.
index a b c
1 2 ... wybrać 'a', 'b' i zapisać to do df1?
Próbowałem
df1 = df['a':'b']
df1 = df.ix[:, 'a':'b']
Nic nie działa.
(Minor Edit)
Łączenie listy ramek danych w jedną ramkę danych
Mam kod, który w jednym miejscu kończy się listą ramek danych, które naprawdę chcę przekonwertować na pojedynczą dużą ramkę d ... b=rnorm(500), c=rnorm(500))
}
Obecnie używam tego:
df <- do.call("rbind", listOfDataFrames)
Poziomy współczynnika spadku w podgrupie danych
Mam ramkę danych zawierającą czynnik. Kiedy tworzę podzbiór tej ramki danych za pomocą subset() lub innej funkcji indeksując ... b 2
## 3 c 3
## but the levels are still there!
levels(subdf$letters)
## [1] "a" "b" "c" "d" "e"
Wybierz wiersze w ramce danych pandy MultiIndex
Jakie są najczęstsze sposoby wybierania / filtrowania wierszy ramki danych, której indeks jest MultiIndex?
krojenie na pods ... nywać operacje przyporządkowania na nich, lub wszelkie dyskusje związane z wydajnością (są to oddzielne tematy na inny raz).
Filtruj wiersze ramki danych, jeśli wartość w kolumnie znajduje się na ustawionej liście wartości [duplikat]
to pytanie ma już odpowiedzi tutaj :
... TK_ID'] in stk_list] # this does not works in pandas
Ponieważ pandy nie akceptują powyższego polecenia, jak osiągnąć cel?
Konwertuj dane.ramka kolumny od czynników do znaków
Mam ramkę danych. Nazwijmy go bob:
> head(bob)
phenotype exclusion
GSM399350 3- ... znakowymi bez konieczności ręcznego przechodzenia przez każdą kolumnę?
Pytanie dodatkowe: dlaczego podejście ręczne działa?
Jak filtrować dane Pandy używając 'in' I 'not in' jak w SQL
Jak mogę uzyskać odpowiedniki SQL IN i NOT IN?
Mam listę z wymaganymi wartościami.
Oto scenariusz:
df = pd.DataFrame({'count ... ', on='country')
not_in = not_in[pd.isnull(not_in['matched'])]
Ale to wygląda na straszną kludge. Czy ktoś może to poprawić?
Pandy - jak spłaszczyć indeks hierarchiczny w kolumnach
Mam ramkę danych z hierarchicznym indeksem w osi 1 (kolumny) (z operacji groupby.agg):
USAF WBAN year month day ... 9999999969,
3: 3.9199999999999982,
4: 10.940000000000001},
('year', ''): {0: 1993, 1: 1993, 2: 1993, 3: 1993, 4: 1993}}
Jak zsumować zmienną według grupy
Mam ramkę danych z dwiema kolumnami. Pierwsza kolumna zawiera kategorie takie jak "pierwsza"," druga"," trzecia", a druga kol ... ać wszystkie częstotliwości:
Category Frequency
First 30
Second 5
Third 34
Jak mam to zrobić w R?
Jak przekonwertować indeks ramki danych pandy na kolumnę?
Wydaje się to dość oczywiste, ale nie mogę wymyślić, jak przekonwertować indeks ramki danych na kolumnę?
Na przykład:
df=
... =
index1 gi ptt_loc
0 0 384444683 593
1 1 384444684 594
2 2 384444686 596
Konwersja obiektu Panas GroupBy na DataFrame
Zaczynam od takich danych wejściowych
df1 = pandas.DataFrame( {
"Name" : ["Alice", "Bob", "Mallory", "Mallory", "Bob" ... 2 2
Mallory Seattle 1 1
Nie wiem, jak to osiągnąć w dokumentacji pand. Wszelkie wskazówki będą mile widziane.