dataframe

python pandy wyodrębniają rok z datetime: df ['year'] = df ['date'].rok nie działa

Importuję ramkę danych przez read_csv, ale z jakiegoś powodu nie mogę wyodrębnić roku lub miesiąca z serii df['date'], staraj ... adni. Używam Pythona 3.4.1 64bit. conda update pandas conda install pandas==0.15.2 conda install -f pandas Jakieś pomysły?

Python pandas dataframe: pobieranie liczby kolumn

Jak programowo pobrać liczbę kolumn w ramce danych pandy? Liczyłem na coś w stylu: df.num_columns

Jak stworzyć ramkę danych losowych liczb całkowitych z pand?

Wiem, że jeśli używam randn, import pandas as pd import numpy as np df = pd.DataFrame(np.random.randn(100, 4), columns=list( ... danie zakresu, ale nie tablicy, jak robi to randn. Więc jak to zrobić z losowymi liczbami całkowitymi między pewnym zakresem?

Warunkowe zastąpienie wartości w danych.ramka

Próbuję zrozumieć, jak warunkowo zastąpić wartości w ramce danych bez użycia pętli. Moja ramka danych ma następującą struktur ... o replace is not a multiple of replacement length Czy jest sposób, w jaki mogę przekazać odpowiednią komórkę, a nie wektor?

Dodaj brakujące daty do ramki danych pandy

Moje dane mogą mieć wiele zdarzeń w danej dacie lub żadnych zdarzeń w danej dacie. Biorę te wydarzenia, policzę po dacie i sp ... leDate']).size() ), ogłoszenie brak wpisów Dla 04 I 05. 09-02-2013 2 09-03-2013 10 09-06-2013 5 09-07-2013 1

Pandy Sortuj według grupy Agregaty i kolumny

Biorąc pod uwagę następujący dataframe In [31]: rand = np.random.RandomState(1) df = pd.DataFrame({'A': ['foo', 'b ... r -0.611756 True 4 bar 0.865408 False 3 foo -1.072969 True 0 foo 1.624345 False Jak można to zrobić?

Znajdź indeksy zduplikowanych wierszy [duplicate]

To pytanie ma już odpowiedź tutaj: znajdowanie wszystkich zduplikowanych wierszy, w tym "elementów o mni ... wiersz jest identyczny? Mógłbym zrobić pętlę na danych.ramka, ale myślę, że jest bardziej elegancka odpowiedź na to pytanie.

Jak zastąpić Nan przez poprzednie wartości w ramce danych Panda?

Załóżmy, że mam ramkę danych z niektórymi NaN s: >>> import pandas as pd >>> df = pd.DataFrame([[1, 2, 3] ... ement po elemencie i ustawić wartości bezpośrednio, ale czy istnieje łatwy (optymalnie wolny od pętli) sposób osiągnięcia to?

Zmień wartość zmiennej za pomocą dplyr [duplikat]

To pytanie ma już odpowiedź tutaj: Ustaw pewne wartości na Na za pomocą dplyr ... ale nie udało się: mtcars %>% mutate(mpg = mpg == NA[cyl == 4]) %>% as.data.frame() Jak mógłbym to zrobić z dplyr?

Wyhodowanie danych.kadrowanie w sposób efektywny pamięciowo

Zgodnie z tworzeniem ramki danych r wiersz po wierszu , nie jest idealnym rozwiązaniem dołączanie do data.frame za pomocą rbi ... za każdym razem. Jak gromadzić dane w R w wyniku data.frame bez ponoszenia tej kary? Format pośredni nie musi być data.frame.

Jak sortować ramkę danych według daty

Muszę posortować ramkę danych według daty w R. wszystkie daty są w formie "dd / mm / RRRR". Daty są w trzeciej kolumnie. Nag ... działem, jak przekonwertować łańcuch na wartość daty. Nie mogę połączyć tych dwóch, aby posortować ramkę danych według daty.

Jaki jest najszybszy sposób przesłania dużego pliku csv do notebooka do pracy z Pythonem?

[1]} próbuję wgrać plik csv, który ma 250MB. Zasadniczo 4 miliony wierszy i 6 kolumn danych szeregów czasowych(1min). Typowa ... ęcej) i jest wyraźny zwycięzca. Jeśli nikt nie odpowie, w przyszłości opublikuję swoje wyniki. Po prostu nie mam teraz czasu.

data.wiersze ramek do listy

Mam dane.ramka, którą chciałbym przekonwertować na listę według wierszy, co oznacza, że każdy wiersz będzie odpowiadał swoim ... fill it with a loop xy.list <- vector("list", nrow(xy.df)) for (i in 1:nrow(xy.df)) { xy.list[[i]] <- xy.df[i,] }

Pomiń wiersze zawierające określoną kolumnę NA

Chcę wiedzieć, jak pominąć wartości NA w ramce danych, ale tylko w niektórych kolumnach, które mnie interesują. Na przykład, ... 2, 3,NA), y = c(1,0, 10, NA), z=c(43,NA, 33, NA)) Jeśli chcę pominąć tylko x=na lub z=na, gdzie mogę umieścić | w funkcji?

Pandy DataFrame grupuje dwie kolumny i zlicza

Mam ramkę danych pandy w następującym formacie: df = pd.DataFrame([[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1. ... 3 2 B 2 etc... Jak uzyskać oczekiwaną wydajność? I chcę znaleźć największą liczbę dla każdej wartości 'col2'?

Dynamiczne zaznaczanie kolumn ramki danych za pomocą $ i wektora nazw kolumn

Chcę zamówić ramkę danych opartą na różnych kolumnach, po jednej na kolei. Mam wektor znaków z odpowiednimi nazwami kolumn, n ... y sposób jak powyżej (Q1_R1000$parameter[X]), kolumna nie jest zaznaczona: cols <- c("cyl", "am") mtcars$cols[1] # NULL

Zmiana nazw kolumn ramki danych w Spark Scala

Próbuję przekonwertować wszystkie nagłówki / nazwy kolumn DataFrame W Spark-Scali. jak na razie wymyślam następujący kod, któ ... for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

Porównywanie dwóch ram danych i uzyskiwanie różnic

Mam dwa ramki danych. Przykłady: df1: Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 O ... ie, aby zwróciło False, ale nie mogę dowiedzieć się, jak faktycznie zobaczyć różne wiersze. Dowolne wskaźniki byłyby Witamy

Pandy dataframe get pierwszy wiersz każdej grupy

[6]}mam pandy [4]} jak podążać. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : [" ... . In [25]: for index, row in df.iterrows(): ....: df2 = pd.DataFrame(df.groupby(['id','value']).reset_index().ix[0])

pandy unikalne wartości wiele kolumn

df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'], 'Col2': ['Joe', 'Steve', 'Bob', 'Bob', ' ... lepszy sposób na zwrócenie unikalnych wartości 'Col1' i 'Col2'? Pożądane wyjście to 'Bob', 'Joe', 'Bill', 'Mary', 'Steve'