data.table pg. 3

pisz.csv dla dużych danych.tabela

Mam data.table, który nie jest zbyt duży (2 GB), ale z jakiegoś powodu write.csv zajmuje bardzo dużo czasu, aby go zapisać (n ... za data.frame. czy ktoś na to wpadł? Co ważniejsze, jeśli zatrzymasz go za pomocą Ctrl-C , R wydaje się nie zwracać pamięci.

Adaptive moving average-najwyższa wydajność w R

Szukam pewnej poprawy wydajności w zakresie funkcji okna rolowanego/przesuwnego w R. jest to dość powszechne zadanie, które m ... ntu width jako różnych wariantów adaptacyjnych średnich kroczących lub dowolnej innej funkcji. Szukam najlepszego występu.

r data.table zoo mapply rollapply

Uzyskiwanie najwyższych wartości według grup

Oto przykładowa ramka danych: d <- data.frame( x = runif(90), grp = gl(3, 30) ) Chcę podzbiór d zawierający wie ... ca całość d. d %>% arrange_(~ desc(x)) %>% group_by_(~ grp) %>% top_n(n = 5) Jak uzyskać poprawny podzbiór?

r data.table dplyr

Policz liczbę rekordów i wygeneruj numer wiersza w każdej grupie w danych.tabela

Mam następujące dane.tabela set.seed(1) DT <- data.table(VAL = sample(c(1, 2, 3), 10, replace = TRUE)) VAL 1: 1 ... e FAQ i śledzenia postów tutaj), że należy unikać zapętlania wierszy, jeśli to możliwe. Więc, jaki jest data.table sposób?

r data.table

Eleganckie przypisywanie wielu kolumn w danych.stół z lapply()

Próbuję wymyślić elegancki sposób użycia := przypisania do zastąpienia wielu kolumn na raz w data.table poprzez zastosowanie ... <- parse(text = paste("list(", paste(paste0("V", 20:100), collapse = ", "), ")")) dt[, eval(l) := lapply(eval(l), sqrt)]

r data.table

Użycie lapply.SD w danych.tabela R

Nie jestem zbyt jasny co do stosowania .SD i by. Na przykład, czy poniższy fragment oznacza: "zmień wszystkie kolumny w DT ... rzez {[18] } jak w SQL) DT[,lapply(.SD,sum),by=.(A,B)] To jak zrobić proste colsum na wszystkich kolumnach oprócz A i B?

r data.table

Jak zrobić dane.operacja scalania tabeli

uwaga: to pytanie i poniższe odpowiedzi odnoszą się do danych.wersja table Zobacz najnowszą obróbkę (03-2012): tłumaczenie z ... oły? Wygląda na to, że po prostu bierze wiersze x, gdzie klucz pasuje do klucza y, ale ignorując resztę / align = "left" / ..

merge r data.table

Wymusza kodowanie wektorowe znaków z "unknown" na "UTF-8" W R

Mam problem zniekonsekwentnym kodowaniem wektora znaków w R. Plik tekstowy, z którego odczytałem tabelę, jest zakodowany ( ... loaded via a namespace (and not attached): [1] plyr_1.8.1 Rcpp_0.11.1 reshape2_1.2.2 stringr_0.6.2 tools_3.0.3

r data.table utf-8 character-encoding

Utwórz wyrażenie z funkcji dla danych.tabela do oceny

Biorąc pod uwagę data.table dat: dat <- data.table(x_one=1:10, x_two=1:10, y_one=1:10, y_two=1:10) Chciałbym funkcji, ... memoise_0.1 munsell_0.3 proto_0.3-9.2 RColorBrewer_1.0-5 scales_0.2.1 [13] tools_2.15.1

r data.table

Używanie dynamicznych nazw kolumn w ' data.tabela"

Chcę obliczyć średnią każdej z kilku kolumn w danych.tabela, pogrupowana według innej kolumny. Moje pytanie jest podobne do d ... e 101.0 1001.0 10001.0 2: two 104.0 1004.0 10004.0 3: three 107.0 1007.0 10007.0 4: four 109.5 1009.5 10009.5

r data.table

R: jak rbindować dwie ogromne ramki danych bez wyczerpania pamięci

Mam dwie ramki danych df1 i df2, z których każda ma około 10 milionów wierszy i 4 kolumny. Czytam je do R używając RODBC/SQLQ ... tać kluczowy argument dbname = tempfile() w wywołaniu sqldf powyżej, jak sugeruje JD Long w swojej odpowiedzi na to pytanie

memory-management memory r data.table sqldf

Odwołując się do danych.kolumny tabeli według nazw zapisanych w zmiennych

data.table to fantastyczny pakiet R i używam go w bibliotece, którą rozwijam. Jak na razie wszystko idzie bardzo dobrze, z wy ... Załóżmy distcol="dist", valcol="val". Jak najlepiej wykonać powyższe czynności używając distcol i valcol, ale nie dist i val?

r data.table

Podziel ciąg tekstowy na dane.kolumny tabeli

Mam skrypt, który odczytuje dane z pliku CSV do data.table, a następnie dzieli tekst w jednej kolumnie na kilka nowych kolumn ... ", 2)) }) # user system elapsed # 33.185 0.000 33.191 Tak więc metoda str_split_fixed trwa około 20X razy dłużej.

r data.table

dplyr mutate / replace na podzbiorze wierszy

Jestem w trakcie testowania przepływu pracy opartego na dplyr (zamiast używać głównie danych.tabela, do której jestem przyzwy ... - jest to uproszczony przykład, ale czasami istnieje wiele przydziałów opartych na jednym warunku. Z góry dzięki za pomoc!

r data.table dplyr

Funkcje (procedury) zapisu danych.obiekty tabeli

W książce Software for Data Analysis: Programming with R John Chambers podkreśla, że funkcje zazwyczaj nie powinny być zapis ... zignorować jego rady, jakich pułapek powinienem być świadomy? Co mogę zrobić, aby napisać "dobre" dane.procedury przy stole?

r data.table

Filtrowanie zduplikowanych / unikalnych wierszy w danych.tabela

Mam data.table tabelę z około 2,5 miliona wierszy. Są dwie kolumny. Chcę usunąć wszystkie wiersze, które są zduplikowane w ob ... s = c(NA, -10L), class = c("data.table", "data.frame"), .internal.selfref = <pointer: 0x7fb4c4804578>, sorted = "V2")

r data.table duplicate-removal

Korzystanie z danych.pakiet tabeli w moim własnym pakiecie

Próbuję wykorzystać dane.pakiet stołu w moim własnym pakiecie. MWE jest następujące: Tworzę funkcję, test.zabawa, która po ... Czy ktoś może mi wyjaśnić, dlaczego tak się dzieje i co mogę zrobić, aby to naprawić? Każda pomoc jest bardzo mile widziana.

r data.table

Dlaczego plyr jest taki powolny?

Myślę, że używam plyr niewłaściwie. Czy ktoś mógłby mi powiedzieć czy to jest "efektywny" kod plyr? require(plyr) plyr < ... table_1.8.1 plyr_1.7.1 loaded via a namespace (and not attached): [1] grid_2.15.1 lattice_0.20-6 tools_2.15.1

dataframe r data.table plyr

Jak uruchomić aplikację na danych.stolik?

Mam data.table z kolumnami od 2 do 20 jako ciągi znaków ze spacjami (np. "nazwa gatunku"). Chcę uruchomić str_replace() na ws ... eciesName := str_replace(SpeciesName, " ", "_") Jak to zrobić dla wszystkich kolumn 2 przez koniec podobny do tego z wyżej?

r data.table apply

Bardziej efektywny sposób tworzenia korpusu i DTM z rzędami 4M

Mój plik ma ponad 4M wierszy i potrzebuję bardziej wydajnego sposobu konwersji moich danych do korpusu i macierzy terminów do ... ki pojawia mi się błąd, do tego nawet nie wiem czy to zadziała. Ref. http://cran.r-project.org/web/packages/qdap/qdap.pdf

r data.table corpus term-document-matrix qdap