dataframe
python pandy wyodrębniają rok z datetime: df ['year'] = df ['date'].rok nie działa
Importuję ramkę danych przez read_csv, ale z jakiegoś powodu nie mogę wyodrębnić roku lub miesiąca z serii df['date'], staraj ... adni. Używam Pythona 3.4.1 64bit.
conda update pandas
conda install pandas==0.15.2
conda install -f pandas
Jakieś pomysły?
Python pandas dataframe: pobieranie liczby kolumn
Jak programowo pobrać liczbę kolumn w ramce danych pandy? Liczyłem na coś w stylu:
df.num_columns
Jak stworzyć ramkę danych losowych liczb całkowitych z pand?
Wiem, że jeśli używam randn,
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(100, 4), columns=list( ... danie zakresu, ale nie tablicy, jak robi to randn. Więc jak to zrobić z losowymi liczbami całkowitymi między pewnym zakresem?
Warunkowe zastąpienie wartości w danych.ramka
Próbuję zrozumieć, jak warunkowo zastąpić wartości w ramce danych bez użycia pętli. Moja ramka danych ma następującą struktur ... o replace is not a multiple of replacement length
Czy jest sposób, w jaki mogę przekazać odpowiednią komórkę, a nie wektor?
Dodaj brakujące daty do ramki danych pandy
Moje dane mogą mieć wiele zdarzeń w danej dacie lub żadnych zdarzeń w danej dacie. Biorę te wydarzenia, policzę po dacie i sp ... leDate']).size() ), ogłoszenie brak wpisów Dla 04 I 05.
09-02-2013 2
09-03-2013 10
09-06-2013 5
09-07-2013 1
Pandy Sortuj według grupy Agregaty i kolumny
Biorąc pod uwagę następujący dataframe
In [31]: rand = np.random.RandomState(1)
df = pd.DataFrame({'A': ['foo', 'b ... r -0.611756 True
4 bar 0.865408 False
3 foo -1.072969 True
0 foo 1.624345 False
Jak można to zrobić?
Znajdź indeksy zduplikowanych wierszy [duplicate]
To pytanie ma już odpowiedź tutaj:
znajdowanie wszystkich zduplikowanych wierszy, w tym "elementów o mni ... wiersz jest identyczny?
Mógłbym zrobić pętlę na danych.ramka, ale myślę, że jest bardziej elegancka odpowiedź na to pytanie.
Jak zastąpić Nan przez poprzednie wartości w ramce danych Panda?
Załóżmy, że mam ramkę danych z niektórymi NaN s:
>>> import pandas as pd
>>> df = pd.DataFrame([[1, 2, 3] ... ement po elemencie i ustawić wartości bezpośrednio, ale czy istnieje łatwy (optymalnie wolny od pętli) sposób osiągnięcia to?
Zmień wartość zmiennej za pomocą dplyr [duplikat]
To pytanie ma już odpowiedź tutaj:
Ustaw pewne wartości na Na za pomocą dplyr
... ale nie udało się:
mtcars %>%
mutate(mpg = mpg == NA[cyl == 4]) %>%
as.data.frame()
Jak mógłbym to zrobić z dplyr?
Wyhodowanie danych.kadrowanie w sposób efektywny pamięciowo
Zgodnie z tworzeniem ramki danych r wiersz po wierszu , nie jest idealnym rozwiązaniem dołączanie do data.frame za pomocą rbi ... za każdym razem. Jak gromadzić dane w R w wyniku data.frame bez ponoszenia tej kary? Format pośredni nie musi być data.frame.
Jak sortować ramkę danych według daty
Muszę posortować ramkę danych według daty w R. wszystkie daty są w formie "dd / mm / RRRR". Daty są w trzeciej kolumnie. Nag ... działem, jak przekonwertować łańcuch na wartość daty. Nie mogę połączyć tych dwóch, aby posortować ramkę danych według daty.
Jaki jest najszybszy sposób przesłania dużego pliku csv do notebooka do pracy z Pythonem?
[1]} próbuję wgrać plik csv, który ma 250MB. Zasadniczo 4 miliony wierszy i 6 kolumn danych szeregów czasowych(1min). Typowa ... ęcej) i jest wyraźny zwycięzca. Jeśli nikt nie odpowie, w przyszłości opublikuję swoje wyniki. Po prostu nie mam teraz czasu.
data.wiersze ramek do listy
Mam dane.ramka, którą chciałbym przekonwertować na listę według wierszy, co oznacza, że każdy wiersz będzie odpowiadał swoim ... fill it with a loop
xy.list <- vector("list", nrow(xy.df))
for (i in 1:nrow(xy.df)) {
xy.list[[i]] <- xy.df[i,]
}
Pomiń wiersze zawierające określoną kolumnę NA
Chcę wiedzieć, jak pominąć wartości NA w ramce danych, ale tylko w niektórych kolumnach, które mnie interesują.
Na przykład, ... 2, 3,NA), y = c(1,0, 10, NA), z=c(43,NA, 33, NA))
Jeśli chcę pominąć tylko x=na lub z=na, gdzie mogę umieścić | w funkcji?
Pandy DataFrame grupuje dwie kolumny i zlicza
Mam ramkę danych pandy w następującym formacie:
df = pd.DataFrame([[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1. ... 3
2 B 2
etc...
Jak uzyskać oczekiwaną wydajność? I chcę znaleźć największą liczbę dla każdej wartości 'col2'?
Dynamiczne zaznaczanie kolumn ramki danych za pomocą $ i wektora nazw kolumn
Chcę zamówić ramkę danych opartą na różnych kolumnach, po jednej na kolei. Mam wektor znaków z odpowiednimi nazwami kolumn, n ... y sposób jak powyżej (Q1_R1000$parameter[X]), kolumna nie jest zaznaczona:
cols <- c("cyl", "am")
mtcars$cols[1]
# NULL
Zmiana nazw kolumn ramki danych w Spark Scala
Próbuję przekonwertować wszystkie nagłówki / nazwy kolumn DataFrame W Spark-Scali. jak na razie wymyślam następujący kod, któ ...
for( i <- 0 to origCols.length - 1) {
df.withColumnRenamed(
df.columns(i),
df.columns(i).toLowerCase
);
}
Porównywanie dwóch ram danych i uzyskiwanie różnic
Mam dwa ramki danych. Przykłady:
df1:
Date Fruit Num Color
2013-11-24 Banana 22.1 Yellow
2013-11-24 Orange 8.6 O ... ie, aby zwróciło False, ale nie mogę dowiedzieć się, jak faktycznie zobaczyć różne wiersze.
Dowolne wskaźniki byłyby Witamy
Pandy dataframe get pierwszy wiersz każdej grupy
[6]}mam pandy [4]} jak podążać.
df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7],
'value' : [" ... .
In [25]: for index, row in df.iterrows():
....: df2 = pd.DataFrame(df.groupby(['id','value']).reset_index().ix[0])
pandy unikalne wartości wiele kolumn
df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'],
'Col2': ['Joe', 'Steve', 'Bob', 'Bob', ' ... lepszy sposób na zwrócenie unikalnych wartości 'Col1' i 'Col2'?
Pożądane wyjście to
'Bob', 'Joe', 'Bill', 'Mary', 'Steve'