Wyodrębnianie określonych kolumn z ramki danych

Mam ramkę danych R z 6 kolumnami i chcę utworzyć nową ramkę danych, która ma tylko trzy kolumny.

Zakładając, że moja ramka danych to df i chcę wyodrębnić Kolumny A, B, i E, jest to jedyne polecenie, jakie mogę rozgryźć:

 data.frame(df$A,df$B,df$E)
Czy jest na to sposób bardziej kompaktowy?
 287
Author: Aren Cambre, 2012-04-10

8 answers

Za pomocą pakietu dplyr , Jeśli Twoje dane.frame is called df1:

library(dplyr)

df1 %>%
  select(A, B, E)

Można to również zapisać Bez %>% jako:

select(df1, A, B, E)
 45
Author: Sam Firke,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-04-19 21:19:17

Możesz ustawić podzbiór używając wektora nazw kolumn. Zdecydowanie wolę takie podejście niż te, które traktują nazwy kolumn tak, jakby były nazwami obiektów (np. subset()), szczególnie podczas programowania w funkcjach, pakietach lub aplikacjach.

# data for reproducible example
# (and to avoid confusion from trying to subset `stats::df`)
df <- setNames(data.frame(as.list(1:5)), LETTERS[1:5])
# subset
df[,c("A","B","E")]
 376
Author: Joshua Ulrich,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-09-07 22:18:16

To jest rola subset() Funkcja:

> dat <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9)) 
> subset(dat, select=c("A", "B"))
  A B
1 1 3
2 2 4
 83
Author: Stéphane Laurent,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-01-15 00:24:29

Istnieją dwa oczywiste wybory: Joshua Ulrich df[,c("A","B","E")] lub

df[,c(1,2,5)]

Jak w

> df <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9)) 
> df
  A B C D E F
1 1 3 5 7 8 9
2 2 4 6 7 8 9
> df[,c(1,2,5)]
  A B E
1 1 3 8
2 2 4 8
> df[,c("A","B","E")]
  A B E
1 1 3 8
2 2 4 8
 55
Author: Henry,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2012-04-10 06:49:54

Możesz również użyć pakietu sqldf, który wykonuje selekcje na ramkach danych R jako:

df1 <- sqldf("select A, B, E from df")

To daje jako wyjście ramkę danych df1 z kolumnami: A, B, E.

 10
Author: Aman Burman,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-04-20 16:57:16

Ponownie używając dplyr, gdzie df1 jest oryginalną ramką danych:

df2 <- subset(df1, select = c(1, 2, 5))
 8
Author: Richard Ball,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2016-06-10 11:34:19

Tylko z jakiegoś powodu

df[, (names(df) %in% c("A","B","E"))]
Zadziałało dla mnie. Wszystkie powyższe składnie dały "wybrane niezdefiniowane kolumny".
 5
Author: so860,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2017-10-12 18:12:23

[ oraz podzbiory nie są substytutywne:

[ zwraca wektor, jeśli zaznaczona jest tylko jedna kolumna.

df = data.frame(a="a",b="b")    

identical(
  df[,c("a")], 
  subset(df,select="a")
) 

identical(
  df[,c("a","b")],  
  subset(df,select=c("a","b"))
)
 0
Author: fxi,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2016-11-09 15:32:24