dataframe

Różnica między wspornikiem [] i wspornikiem podwójnym []] dla dostępu do elementów listy lub ramki danych

R udostępnia dwie różne metody dostępu do elementów listy lub danych.frame: [] i [[]]. Jaka jest różnica między tymi dwoma i kiedy powinienem użyć jednego nad drugim?

Uzyskaj statystyki dla każdej grupy (takie jak count, mean, etc) za pomocą pandas GroupBy?

Mam ramkę danych df i używam kilku kolumn od niej do groupby: df['col1','col2','col3','col4'].groupby(['col1','col2']).mean ... w pierwszej grupie jest 8 wartości, a w drugiej 10 i tak dalej. W skrócie: jak uzyskać grupowe statystyki dla ramki danych?

Różnica między ramką danych, zestawem danych i RDD w Spark

Zastanawiam się tylko jaka jest różnica między RDD a DataFrame (Spark 2.0.0 DataFrame jest zwykłym aliasem typu dla Dataset[Row]) W Apache Spark? Czy możesz zamienić jedno na drugie?

Dodawanie nowej kolumny do istniejącego DataFrame w Pythonie

Mam następujący indeksowany DataFrame z nazwanymi kolumnami i wierszami nie-ciągłymi liczbami: a b ... end, merge, ale nie dostałem pożądanego rezultatu, tylko co najwyżej błędy. Jak Mogę dodać kolumnę e do powyższego przykładu?

Zapisanie ramki danych pandy do pliku CSV

Mam w Pandzie ramkę danych, którą chciałbym zapisać do pliku CSV. Robię to używając: df.to_csv('out.csv') I uzyskanie błę ... ób na zapis do pliku rozdzielanego tabulatorami zamiast pliku CSV przy użyciu np. metody 'to-tab' (która chyba nie istnieje)?

R-Lista do ramki danych

Mam zagnieżdżoną listę danych. Jego długość wynosi 132, a każdy element jest listą długości 20. Czy istnieje Szybki sposób n ... kolumn danych? Oto przykładowe dane do pracy: l <- replicate( 132, list(sample(letters, 20)), simplify = FALSE )

Jak zastąpić wartości NA zerami w ramce danych R?

Mam data.frame a niektóre kolumny mają NA wartości. Chcę zamienić NA s na zera. Jak to robię?

Spadek nieużywanych poziomów współczynnika w podgrupie danych

Mam ramkę danych zawierającą factor. Kiedy tworzę podzbiór tej ramki danych za pomocą subset lub innej funkcji indeksującej, ... # 2 b 2 ## 3 c 3 # all levels are still there! levels(subdf$letters) ## [1] "a" "b" "c" "d" "e"

Różnica między wspornikiem [] a wspornikiem podwójnym [[]] dla dostępu do elementów listy lub ramki danych

R udostępnia dwie różne metody dostępu do elementów listy lub danych.frame-operatory [] i [[]]. Jaka jest różnica między nimi? W jakich sytuacjach powinienem używać jednego nad drugim?

Wybieranie wielu kolumn w ramce danych pandy

Mam dane w różnych kolumnach, ale nie wiem, jak je wyodrębnić, aby zapisać je w innej zmiennej. index a b c 1 2 ... wybrać 'a', 'b' i zapisać to do df1? Próbowałem df1 = df['a':'b'] df1 = df.ix[:, 'a':'b'] Nic nie działa. (Minor Edit)

Łączenie listy ramek danych w jedną ramkę danych

Mam kod, który w jednym miejscu kończy się listą ramek danych, które naprawdę chcę przekonwertować na pojedynczą dużą ramkę d ... b=rnorm(500), c=rnorm(500)) } Obecnie używam tego: df <- do.call("rbind", listOfDataFrames)

Poziomy współczynnika spadku w podgrupie danych

Mam ramkę danych zawierającą czynnik. Kiedy tworzę podzbiór tej ramki danych za pomocą subset() lub innej funkcji indeksując ... b 2 ## 3 c 3 ## but the levels are still there! levels(subdf$letters) ## [1] "a" "b" "c" "d" "e"

Wybierz wiersze w ramce danych pandy MultiIndex

Jakie są najczęstsze sposoby wybierania / filtrowania wierszy ramki danych, której indeks jest MultiIndex? krojenie na pods ... nywać operacje przyporządkowania na nich, lub wszelkie dyskusje związane z wydajnością (są to oddzielne tematy na inny raz).

Filtruj wiersze ramki danych, jeśli wartość w kolumnie znajduje się na ustawionej liście wartości [duplikat]

to pytanie ma już odpowiedzi tutaj : ... TK_ID'] in stk_list] # this does not works in pandas Ponieważ pandy nie akceptują powyższego polecenia, jak osiągnąć cel?

Konwertuj dane.ramka kolumny od czynników do znaków

Mam ramkę danych. Nazwijmy go bob: > head(bob) phenotype exclusion GSM399350 3- ... znakowymi bez konieczności ręcznego przechodzenia przez każdą kolumnę? Pytanie dodatkowe: dlaczego podejście ręczne działa?

Jak filtrować dane Pandy używając 'in' I 'not in' jak w SQL

Jak mogę uzyskać odpowiedniki SQL IN i NOT IN? Mam listę z wymaganymi wartościami. Oto scenariusz: df = pd.DataFrame({'count ... ', on='country') not_in = not_in[pd.isnull(not_in['matched'])] Ale to wygląda na straszną kludge. Czy ktoś może to poprawić?

Pandy - jak spłaszczyć indeks hierarchiczny w kolumnach

Mam ramkę danych z hierarchicznym indeksem w osi 1 (kolumny) (z operacji groupby.agg): USAF WBAN year month day ... 9999999969, 3: 3.9199999999999982, 4: 10.940000000000001}, ('year', ''): {0: 1993, 1: 1993, 2: 1993, 3: 1993, 4: 1993}}

Jak zsumować zmienną według grupy

Mam ramkę danych z dwiema kolumnami. Pierwsza kolumna zawiera kategorie takie jak "pierwsza"," druga"," trzecia", a druga kol ... ać wszystkie częstotliwości: Category Frequency First 30 Second 5 Third 34 Jak mam to zrobić w R?

Jak przekonwertować indeks ramki danych pandy na kolumnę?

Wydaje się to dość oczywiste, ale nie mogę wymyślić, jak przekonwertować indeks ramki danych na kolumnę? Na przykład: df= ... = index1 gi ptt_loc 0 0 384444683 593 1 1 384444684 594 2 2 384444686 596

Konwersja obiektu Panas GroupBy na DataFrame

Zaczynam od takich danych wejściowych df1 = pandas.DataFrame( { "Name" : ["Alice", "Bob", "Mallory", "Mallory", "Bob" ... 2 2 Mallory Seattle 1 1 Nie wiem, jak to osiągnąć w dokumentacji pand. Wszelkie wskazówki będą mile widziane.