dataframe

Wybieranie wiersza serii/ramki danych według indeksu liczb całkowitych

Jestem ciekaw dlaczego df[2] nie jest obsługiwane, podczas gdy df.ix[2] i df[2:3] oba działają. In [26]: df.ix[2] Out[26]: ... indeksowania Pythona. Czy istnieje projektowy powód, aby nie wspierać indeksowania wiersza przez pojedynczą liczbę całkowitą?

Jak podzielić dane na 3 zestawy (pociąg, Walidacja i test)?

Mam ramkę danych pandy i chcę podzielić ją na 3 oddzielne zestawy. Wiem, że używając train_test_split z sklearn.cross_valid ... oś dopasowanie wskaźników. Ale czy istnieje bardziej standardowy / wbudowany sposób na podzielić dane na 3 zestawy zamiast 2?

Jak mogę użyć funkcji apply () dla pojedynczej kolumny?

Mam ramkę danych pandy z dwiema kolumnami. Muszę zmienić wartości pierwszej kolumny bez wpływu na drugą i odzyskać całą ramkę danych z tylko wartości pierwszej kolumny zmienione. Jak mogę to zrobić używając apply in pands?

Przekształć trzy kolumnową ramkę danych w matrycę (format" długi "na" szeroki")

Mam data.frame, który wygląda tak. x a 1 x b 2 x c 3 y a 3 y b 3 y c 2 Chcę to w postaci matrycy, więc mogę go nakar ... akietu reshape i próbowałem napisać ręczną funkcję, aby to zrobić, ale wydaje się, że nie jestem w stanie zrobić tego dobrze.

Jak zdefiniować partycjonowanie ramki danych?

Zacząłem używać Spark SQL i DataFrames w spark 1.4.0. Chcę zdefiniować niestandardowy partycjoner na ramkach danych, w Scali ... istnieje sposób, aby Spark podzielił tę ramkę danych tak, aby wszystkie dane dla konta znajdowały się na tej samej partycji?

Get column index from column name in python

W R, gdy musisz pobrać indeks kolumny na podstawie nazwy kolumny, możesz to zrobić idx <- which(names(my_data)==my_colum_name) Czy istnieje sposób, aby zrobić to samo z pand dataframes?

Wyprowadzanie różnicy w dwóch ramkach danych Pandy obok siebie - podkreślanie różnicy

Staram się dokładnie podkreślić, co zmieniło się między dwoma ramkami danych. Załóżmy, że mam dwa ramki danych Pythona: "S ... n vacation" Myślę, że mógłbym zrobić wiersz po wierszu i kolumna po kolumnie porównanie, ale czy jest łatwiejszy sposób?

Dodać nowy wiersz do dataframe, w określonym wierszu-index, nie dołączony?

Następujący kod łączy wektor z ramką danych: newrow = c(1:4) existingDF = rbind(existingDF,newrow) Jednak ten kod zawsze ... w ramce danych? Na przykład, powiedzmy, że ramka danych ma 20 wierszy, jak mogę wstawić nowy wiersz między wierszami 10 i 11?

Co można zrobić z danymi.ramka, której nie można z danymi.stolik?

Właśnie zacząłem używać R, i natknąłem się na dane.stolik. Uważam to za genialne. Bardzo naiwne pytanie: Czy mogę zignorować dane.ramka do wykorzystania danych.tabela aby uniknąć pomyłek składni pomiędzy dwoma pakietami?

Jak podzielić kolumnę na dwie kolumny?

Mam ramkę danych z jedną kolumną i chciałbym podzielić ją na dwie kolumny, z nagłówkiem jednej kolumny jako ' fips' a drugiej ... UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 Baldwin County, AL 4 01005 Barbour County, AL

Jak filtrować wiersze zawierające wzór łańcucha z ramki danych Pandy [duplicate]

to pytanie ma już odpowiedzi tutaj : ... wać wiersze zawierające słowo kluczowe " piłka?"Na przykład wyjście powinno być: ids vals aball 1 bball 2 fball 4

Znajdź kolumnę, której nazwa zawiera określony ciąg znaków

Mam ramkę danych z nazwami kolumn i chcę znaleźć tę, która zawiera określony ciąg znaków, ale nie do końca go pasuje. Szukam ... później za pomocą df['name'] lub df[name] Jak zwykle. Próbowałem znaleźć sposób, aby to zrobić, bez skutku. Jakieś wskazówki?

Zmień Nazwę Pandy DataFrame Index

Mam plik csv bez nagłówka, z indeksem DateTime. Chcę zmienić nazwę indeksu i nazwy kolumny, ale z df.rename () tylko nazwa ko ... 2002-06-18 0.112000 2002-06-22 0.190333 2002-06-26 0.134000 2002-06-30 0.093000 2002-07-04 0.098667

Jak zresetować indeks w ramce danych pandy?

Mam ramkę danych, z której usuwam kilka wierszy. W rezultacie otrzymuję ramkę danych, w której indeks jest coś takiego: [1,5, ... ogę to zrobić? Dodano Wygląda na to, że działa: df = df.reset_index() del df['index'] Nie działa: df = df.reindex()

Agregacja / podsumowanie wielu zmiennych w grupie (np. suma, średnia)

Z ramki danych, czy jest łatwy sposób na agregację (sum, mean, max et c) wiele zmiennych jednocześnie? Poniżej kilka przykła ... les by year month df2=aggregate(x1 ~ year+month, data=df1, sum, na.rm=TRUE) head(df2) Wszelkie sugestie będą mile widziane.

Wiele agregacji tej samej kolumny za pomocą pandy GroupBy.agg()

Czy jest wbudowany sposób na zastosowanie dwóch różnych funkcji agregujących f1, f2 do tej samej kolumny df["returns"], bez k ... zdefiniowaniem funkcji pomocniczej, która po prostu stosuje obie funkcje wewnątrz niego? (Jak to w ogóle działa z agregacją?)

Jak połączyć wiele warunków, aby podzestawić ramkę danych za pomocą "OR"?

Mam dane.ramka w R. chcę wypróbować dwa różne warunki na dwóch różnych kolumnach, ale chcę, aby te warunki były włącznie. Dla ... arunku "i". my.data.frame <- data[(data$V1 > 2) & (data$V2 < 4), ] Ale nie wiem, jak używać 'OR' w powyższym.

Przekształcanie danych.ramka od szerokiego do długiego formatu

Mam pewien problem, aby przekształcić mój data.frame z szerokiego stołu do długiego stołu. W tej chwili wygląda to tak: Cod ... jne wyniki. Jeśli jest to możliwe chciałbym to zrobić za pomocą funkcji reshape() ponieważ wygląda trochę milsza w obsłudze.

Powinienem użyć danych.ramka czy matryca?

Kiedy należy użyć data.frame, a kiedy lepiej użyć matrix? Obie przechowują dane w formacie prostokątnym, Więc czasami jest to niejasne. Czy są jakieś ogólne zasady, kiedy używać jakiego typu danych?

Jak pozbyć się kolumny "Unnamed: 0" w ramce danych pandy?

Mam sytuację, w której czasami kiedy czytam csv z df dostaję niechcianą kolumnę podobną do indeksu o nazwie unnamed:0. file ... 0 1 2 3 1 1 4 5 6 2 2 7 8 9 To bardzo irytujące! Czy ktoś ma pomysł jak się tego pozbyć?