data.table

pisz.csv dla dużych danych.tabela

Mam data.table, który nie jest zbyt duży (2 GB), ale z jakiegoś powodu write.csv zajmuje bardzo dużo czasu, aby go zapisać (n ... za data.frame. czy ktoś na to wpadł? Co ważniejsze, jeśli zatrzymasz go za pomocą Ctrl-C , R wydaje się nie zwracać pamięci.

Adaptive moving average-najwyższa wydajność w R

Szukam pewnej poprawy wydajności w zakresie funkcji okna rolowanego/przesuwnego w R. jest to dość powszechne zadanie, które m ... ntu width jako różnych wariantów adaptacyjnych średnich kroczących lub dowolnej innej funkcji. Szukam najlepszego występu.

Uzyskiwanie najwyższych wartości według grup

Oto przykładowa ramka danych: d <- data.frame( x = runif(90), grp = gl(3, 30) ) Chcę podzbiór d zawierający wie ... ca całość d. d %>% arrange_(~ desc(x)) %>% group_by_(~ grp) %>% top_n(n = 5) Jak uzyskać poprawny podzbiór?

Policz liczbę rekordów i wygeneruj numer wiersza w każdej grupie w danych.tabela

Mam następujące dane.tabela set.seed(1) DT <- data.table(VAL = sample(c(1, 2, 3), 10, replace = TRUE)) VAL 1: 1 ... e FAQ i śledzenia postów tutaj), że należy unikać zapętlania wierszy, jeśli to możliwe. Więc, jaki jest data.table sposób?

Eleganckie przypisywanie wielu kolumn w danych.stół z lapply()

Próbuję wymyślić elegancki sposób użycia := przypisania do zastąpienia wielu kolumn na raz w data.table poprzez zastosowanie ... <- parse(text = paste("list(", paste(paste0("V", 20:100), collapse = ", "), ")")) dt[, eval(l) := lapply(eval(l), sqrt)]

Użycie lapply.SD w danych.tabela R

Nie jestem zbyt jasny co do stosowania .SD i by. Na przykład, czy poniższy fragment oznacza: "zmień wszystkie kolumny w DT ... rzez {[18] } jak w SQL) DT[,lapply(.SD,sum),by=.(A,B)] To jak zrobić proste colsum na wszystkich kolumnach oprócz A i B?

Jak zrobić dane.operacja scalania tabeli

uwaga: to pytanie i poniższe odpowiedzi odnoszą się do danych.wersja table Zobacz najnowszą obróbkę (03-2012): tłumaczenie z ... oły? Wygląda na to, że po prostu bierze wiersze x, gdzie klucz pasuje do klucza y, ale ignorując resztę / align = "left" / ..

Wymusza kodowanie wektorowe znaków z "unknown" na "UTF-8" W R

Mam problem zniekonsekwentnym kodowaniem wektora znaków w R. Plik tekstowy, z którego odczytałem tabelę, jest zakodowany ( ... loaded via a namespace (and not attached): [1] plyr_1.8.1 Rcpp_0.11.1 reshape2_1.2.2 stringr_0.6.2 tools_3.0.3

Utwórz wyrażenie z funkcji dla danych.tabela do oceny

Biorąc pod uwagę data.table dat: dat <- data.table(x_one=1:10, x_two=1:10, y_one=1:10, y_two=1:10) Chciałbym funkcji, ... memoise_0.1 munsell_0.3 proto_0.3-9.2 RColorBrewer_1.0-5 scales_0.2.1 [13] tools_2.15.1

Używanie dynamicznych nazw kolumn w ' data.tabela"

Chcę obliczyć średnią każdej z kilku kolumn w danych.tabela, pogrupowana według innej kolumny. Moje pytanie jest podobne do d ... e 101.0 1001.0 10001.0 2: two 104.0 1004.0 10004.0 3: three 107.0 1007.0 10007.0 4: four 109.5 1009.5 10009.5

R: jak rbindować dwie ogromne ramki danych bez wyczerpania pamięci

Mam dwie ramki danych df1 i df2, z których każda ma około 10 milionów wierszy i 4 kolumny. Czytam je do R używając RODBC/SQLQ ... tać kluczowy argument dbname = tempfile() w wywołaniu sqldf powyżej, jak sugeruje JD Long w swojej odpowiedzi na to pytanie

Odwołując się do danych.kolumny tabeli według nazw zapisanych w zmiennych

data.table to fantastyczny pakiet R i używam go w bibliotece, którą rozwijam. Jak na razie wszystko idzie bardzo dobrze, z wy ... Załóżmy distcol="dist", valcol="val". Jak najlepiej wykonać powyższe czynności używając distcol i valcol, ale nie dist i val?

Podziel ciąg tekstowy na dane.kolumny tabeli

Mam skrypt, który odczytuje dane z pliku CSV do data.table, a następnie dzieli tekst w jednej kolumnie na kilka nowych kolumn ... ", 2)) }) # user system elapsed # 33.185 0.000 33.191 Tak więc metoda str_split_fixed trwa około 20X razy dłużej.

dplyr mutate / replace na podzbiorze wierszy

Jestem w trakcie testowania przepływu pracy opartego na dplyr (zamiast używać głównie danych.tabela, do której jestem przyzwy ... - jest to uproszczony przykład, ale czasami istnieje wiele przydziałów opartych na jednym warunku. Z góry dzięki za pomoc!

Funkcje (procedury) zapisu danych.obiekty tabeli

W książce Software for Data Analysis: Programming with R John Chambers podkreśla, że funkcje zazwyczaj nie powinny być zapis ... zignorować jego rady, jakich pułapek powinienem być świadomy? Co mogę zrobić, aby napisać "dobre" dane.procedury przy stole?

Filtrowanie zduplikowanych / unikalnych wierszy w danych.tabela

Mam data.table tabelę z około 2,5 miliona wierszy. Są dwie kolumny. Chcę usunąć wszystkie wiersze, które są zduplikowane w ob ... s = c(NA, -10L), class = c("data.table", "data.frame"), .internal.selfref = <pointer: 0x7fb4c4804578>, sorted = "V2")

Korzystanie z danych.pakiet tabeli w moim własnym pakiecie

Próbuję wykorzystać dane.pakiet stołu w moim własnym pakiecie. MWE jest następujące: Tworzę funkcję, test.zabawa, która po ... Czy ktoś może mi wyjaśnić, dlaczego tak się dzieje i co mogę zrobić, aby to naprawić? Każda pomoc jest bardzo mile widziana.

Dlaczego plyr jest taki powolny?

Myślę, że używam plyr niewłaściwie. Czy ktoś mógłby mi powiedzieć czy to jest "efektywny" kod plyr? require(plyr) plyr < ... table_1.8.1 plyr_1.7.1 loaded via a namespace (and not attached): [1] grid_2.15.1 lattice_0.20-6 tools_2.15.1

Jak uruchomić aplikację na danych.stolik?

Mam data.table z kolumnami od 2 do 20 jako ciągi znaków ze spacjami (np. "nazwa gatunku"). Chcę uruchomić str_replace() na ws ... eciesName := str_replace(SpeciesName, " ", "_") Jak to zrobić dla wszystkich kolumn 2 przez koniec podobny do tego z wyżej?

Bardziej efektywny sposób tworzenia korpusu i DTM z rzędami 4M

Mój plik ma ponad 4M wierszy i potrzebuję bardziej wydajnego sposobu konwersji moich danych do korpusu i macierzy terminów do ... ki pojawia mi się błąd, do tego nawet nie wiem czy to zadziała. Ref. http://cran.r-project.org/web/packages/qdap/qdap.pdf