Podzbiór wierszy odpowiadających wartości maksymalnej według grupy wykorzystującej dane.tabela

Question

Podzbiór wierszy odpowiadających wartości maksymalnej według grupy wykorzystującej dane.tabela

Załóżmy, że mam data.table zawierające kilku baseballistów:

library(plyr)
library(data.table)

bdt <- as.data.table(baseball)

Dla każdej grupy (podanej przez ID gracza) chcę wybrać wiersze odpowiadające maksymalnej liczbie gier "g". Jest to proste w plyr:

ddply(baseball, "id", subset, g == max(g))

Jaki jest równoważny kod dla data.table?

Próbowałem:

setkey(bdt, "id") 
bdt[g == max(g)]  # only one row
bdt[g == max(g), by = id]  # Error: 'by' or 'keyby' is supplied but not j
bdt[, .SD[g == max(g)]] # only one row

To działa:

bdt[, .SD[g == max(g)], by = id]

Ale jest tylko o 30% szybszy niż plyr, co sugeruje, że prawdopodobnie nie jest idiomatyczny.

61

r greatest-n-per-group data.table

Author: Henrik, 2013-05-15

Source

1 answers

score 79 · Accepted Answer

Oto szybki data.table sposób:

bdt[bdt[, .I[g == max(g)], by = id]$V1]

Pozwala to uniknąć konstruowania .SD, co jest wąskim gardłem w wyrażeniach.

Edit: właściwie, głównym powodem, dla którego OP jest powolny, nie jest tylko to, że ma w sobie .SD, ale fakt, że używa go w szczególny sposób - wywołując [.data.table, które w tej chwili ma ogromny narzut, więc uruchamianie go w pętli (gdy robi się by), kumuluje bardzo dużą karę.