dataframe pg. 5

Wybieranie wiersza serii/ramki danych według indeksu liczb całkowitych

Jestem ciekaw dlaczego df[2] nie jest obsługiwane, podczas gdy df.ix[2] i df[2:3] oba działają. In [26]: df.ix[2] Out[26]: ... indeksowania Pythona. Czy istnieje projektowy powód, aby nie wspierać indeksowania wiersza przez pojedynczą liczbę całkowitą?

Jak podzielić dane na 3 zestawy (pociąg, Walidacja i test)?

Mam ramkę danych pandy i chcę podzielić ją na 3 oddzielne zestawy. Wiem, że używając train_test_split z sklearn.cross_valid ... oś dopasowanie wskaźników. Ale czy istnieje bardziej standardowy / wbudowany sposób na podzielić dane na 3 zestawy zamiast 2?

pandas dataframe machine-learning numpy scikit-learn

Jak mogę użyć funkcji apply () dla pojedynczej kolumny?

Mam ramkę danych pandy z dwiema kolumnami. Muszę zmienić wartości pierwszej kolumny bez wpływu na drugą i odzyskać całą ramkę danych z tylko wartości pierwszej kolumny zmienione. Jak mogę to zrobić używając apply in pands?

python pandas dataframe

Przekształć trzy kolumnową ramkę danych w matrycę (format" długi "na" szeroki")

Mam data.frame, który wygląda tak. x a 1 x b 2 x c 3 y a 3 y b 3 y c 2 Chcę to w postaci matrycy, więc mogę go nakar ... akietu reshape i próbowałem napisać ręczną funkcję, aby to zrobić, ale wydaje się, że nie jestem w stanie zrobić tego dobrze.

dataframe r matrix reshape plyr

Jak zdefiniować partycjonowanie ramki danych?

Zacząłem używać Spark SQL i DataFrames w spark 1.4.0. Chcę zdefiniować niestandardowy partycjoner na ramkach danych, w Scali ... istnieje sposób, aby Spark podzielił tę ramkę danych tak, aby wszystkie dane dla konta znajdowały się na tej samej partycji?

dataframe scala apache-spark apache-spark-sql partitioning

Get column index from column name in python

W R, gdy musisz pobrać indeks kolumny na podstawie nazwy kolumny, możesz to zrobić idx <- which(names(my_data)==my_colum_name) Czy istnieje sposób, aby zrobić to samo z pand dataframes?

python indexing pandas dataframe

Wyprowadzanie różnicy w dwóch ramkach danych Pandy obok siebie - podkreślanie różnicy

Staram się dokładnie podkreślić, co zmieniło się między dwoma ramkami danych. Załóżmy, że mam dwa ramki danych Pythona: "S ... n vacation" Myślę, że mógłbym zrobić wiersz po wierszu i kolumna po kolumnie porównanie, ale czy jest łatwiejszy sposób?

python html pandas dataframe panel

Dodać nowy wiersz do dataframe, w określonym wierszu-index, nie dołączony?

Następujący kod łączy wektor z ramką danych: newrow = c(1:4) existingDF = rbind(existingDF,newrow) Jednak ten kod zawsze ... w ramce danych? Na przykład, powiedzmy, że ramka danych ma 20 wierszy, jak mogę wstawić nowy wiersz między wierszami 10 i 11?

dataframe r insert

Co można zrobić z danymi.ramka, której nie można z danymi.stolik?

Właśnie zacząłem używać R, i natknąłem się na dane.stolik. Uważam to za genialne. Bardzo naiwne pytanie: Czy mogę zignorować dane.ramka do wykorzystania danych.tabela aby uniknąć pomyłek składni pomiędzy dwoma pakietami?

dataframe r data.table

Jak podzielić kolumnę na dwie kolumny?

Mam ramkę danych z jedną kolumną i chciałbym podzielić ją na dwie kolumny, z nagłówkiem jednej kolumny jako ' fips' a drugiej ... UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 Baldwin County, AL 4 01005 Barbour County, AL

python pandas dataframe

Jak filtrować wiersze zawierające wzór łańcucha z ramki danych Pandy [duplicate]

to pytanie ma już odpowiedzi tutaj : ... wać wiersze zawierające słowo kluczowe " piłka?"Na przykład wyjście powinno być: ids vals aball 1 bball 2 fball 4

python pandas dataframe

Znajdź kolumnę, której nazwa zawiera określony ciąg znaków

Mam ramkę danych z nazwami kolumn i chcę znaleźć tę, która zawiera określony ciąg znaków, ale nie do końca go pasuje. Szukam ... później za pomocą df['name'] lub df[name] Jak zwykle. Próbowałem znaleźć sposób, aby to zrobić, bez skutku. Jakieś wskazówki?

python pandas dataframe string python-3.x

Zmień Nazwę Pandy DataFrame Index

Mam plik csv bez nagłówka, z indeksem DateTime. Chcę zmienić nazwę indeksu i nazwy kolumny, ale z df.rename () tylko nazwa ko ... 2002-06-18 0.112000 2002-06-22 0.190333 2002-06-26 0.134000 2002-06-30 0.093000 2002-07-04 0.098667

python pandas dataframe

Jak zresetować indeks w ramce danych pandy?

Mam ramkę danych, z której usuwam kilka wierszy. W rezultacie otrzymuję ramkę danych, w której indeks jest coś takiego: [1,5, ... ogę to zrobić? Dodano Wygląda na to, że działa: df = df.reset_index() del df['index'] Nie działa: df = df.reindex()

python indexing pandas dataframe

Agregacja / podsumowanie wielu zmiennych w grupie (np. suma, średnia)

Z ramki danych, czy jest łatwy sposób na agregację (sum, mean, max et c) wiele zmiennych jednocześnie? Poniżej kilka przykła ... les by year month df2=aggregate(x1 ~ year+month, data=df1, sum, na.rm=TRUE) head(df2) Wszelkie sugestie będą mile widziane.

dataframe r r-faq data.table aggregate

Wiele agregacji tej samej kolumny za pomocą pandy GroupBy.agg()

Czy jest wbudowany sposób na zastosowanie dwóch różnych funkcji agregujących f1, f2 do tej samej kolumny df["returns"], bez k ... zdefiniowaniem funkcji pomocniczej, która po prostu stosuje obie funkcje wewnątrz niego? (Jak to w ogóle działa z agregacją?)

python pandas dataframe pandas-groupby aggregate

Jak połączyć wiele warunków, aby podzestawić ramkę danych za pomocą "OR"?

Mam dane.ramka w R. chcę wypróbować dwa różne warunki na dwóch różnych kolumnach, ale chcę, aby te warunki były włącznie. Dla ... arunku "i". my.data.frame <- data[(data$V1 > 2) & (data$V2 < 4), ] Ale nie wiem, jak używać 'OR' w powyższym.

dataframe r conditional

Przekształcanie danych.ramka od szerokiego do długiego formatu

Mam pewien problem, aby przekształcić mój data.frame z szerokiego stołu do długiego stołu. W tej chwili wygląda to tak: Cod ... jne wyniki. Jeśli jest to możliwe chciałbym to zrobić za pomocą funkcji reshape() ponieważ wygląda trochę milsza w obsłudze.

dataframe r r-faq reshape

Powinienem użyć danych.ramka czy matryca?

Kiedy należy użyć data.frame, a kiedy lepiej użyć matrix? Obie przechowują dane w formacie prostokątnym, Więc czasami jest to niejasne. Czy są jakieś ogólne zasady, kiedy używać jakiego typu danych?

dataframe r r-faq matrix

Jak pozbyć się kolumny "Unnamed: 0" w ramce danych pandy?

Mam sytuację, w której czasami kiedy czytam csv z df dostaję niechcianą kolumnę podobną do indeksu o nazwie unnamed:0. file ... 0 1 2 3 1 1 4 5 6 2 2 7 8 9 To bardzo irytujące! Czy ktoś ma pomysł jak się tego pozbyć?

python pandas dataframe csv