r

Jak odczytać dane, gdy niektóre liczby zawierają przecinki jako separator tysięcy?

Mam plik csv, gdzie niektóre wartości liczbowe są wyrażone jako ciągi znaków z przecinkami jako separator tysięcy, np. "1,513 ... usunąć przecinki z odpowiednich elementów przed konwersją tych kolumn na Liczby i nie mogę znaleźć na to porządnego sposobu.

Jak połączyć wiele warunków, aby podzestawić ramkę danych za pomocą "OR"?

Mam dane.ramka w R. chcę wypróbować dwa różne warunki na dwóch różnych kolumnach, ale chcę, aby te warunki były włącznie. Dla ... arunku "i". my.data.frame <- data[(data$V1 > 2) & (data$V2 < 4), ] Ale nie wiem, jak używać 'OR' w powyższym.

Zamień wszystkie wartości 0 Na NA

Mam ramkę danych z kilkoma kolumnami numerycznymi. Niektóre wiersze mają wartość 0, która powinna być traktowana jako null w analizie statystycznej. Jaki jest najszybszy sposób na zastąpienie wszystkich wartości 0 Na NULL W R?

Przekształcanie danych.ramka od szerokiego do długiego formatu

Mam pewien problem, aby przekształcić mój data.frame z szerokiego stołu do długiego stołu. W tej chwili wygląda to tak: Cod ... jne wyniki. Jeśli jest to możliwe chciałbym to zrobić za pomocą funkcji reshape() ponieważ wygląda trochę milsza w obsłudze.

Standaryzacja kolumn danych w R

Mam zbiór danych o nazwie spam, który zawiera 58 kolumn i około 3500 wierszy danych związanych z wiadomościami spamowymi. P ... alizację za pomocą R ? Mam już dane poprawnie załadowany i szukam tylko kilku pakietów lub metod do wykonania tego zadania.

Jak stworzyć wykres gęstości w matplotlib?

W R mogę utworzyć żądane wyjście wykonując: data = c(rep(1.5, 7), rep(2.5, 2), rep(3.5, 8), rep(4.5, 3), rep(5.5, ... tnie próby były wokół scipy.stats i gaussian_kde, podążając za przykładami w Internecie, ale do tej pory nie powiodło mi się.

Jak mogę nauczyć się tworzyć piękne infografiki (w związku z moją wiedzą R)? [zamknięte]

Jestem oddanym R (r-project.org) user, I love infographics. Właśnie natknąłem się na ten artykuł: http://www.noupe.com/desi ... zrobić ten skok? Jakie książki / oprogramowanie/umiejętności muszę mieć / rozwijać się, aby móc tworzyć piękne infografiki?

Powinienem użyć danych.ramka czy matryca?

Kiedy należy użyć data.frame, a kiedy lepiej użyć matrix? Obie przechowują dane w formacie prostokątnym, Więc czasami jest to niejasne. Czy są jakieś ogólne zasady, kiedy używać jakiego typu danych?

Jak wybrać lustro CRAN w R

Próbuję zainstalować pakiet poprzez znak zachęty R, wykonując następujące czynności: install.packages('RMySQL') Ale wyjśc ... nia tego bardzo podstawowego problemu. Co mam wpisać, aby wybrać lustro CRAN? EDIT: OS: Mac-OS X 10.6.8 Wersja R: 2.15.0

Powtórz każdy wiersz danych.ramka ilość razy określona w kolumnie

df <- data.frame(var1 = c('a', 'b', 'c'), var2 = c('d', 'e', 'f'), freq = 1:3) Jaki jest najprostszy sp ... c f 3 Do tego: df.expanded var1 var2 1 a d 2 b e 3 b e 4 c f 5 c f 6 c f

Dopasowanie krzywej gęstości do histogramu w R

Czy istnieje funkcja w R, która pasuje do krzywej do histogramu? Załóżmy, że masz następujący histogram hist(c(rep(65, tim ... zekrzywiona, aby owinąć ten histogram. To pytanie jest raczej podstawowe, ale nie mogę znaleźć odpowiedzi na R w Internecie.

Cieniowanie wykresu gęstości jądra między dwoma punktami.

Często używam Wykresów gęstości jądra do zilustrowania dystrybucji. Są one łatwe i szybkie do utworzenia w R jak tak: set.s ... nkcji quantile: q75 <- quantile(draws, .75) q95 <- quantile(draws, .95) Ale jak zacienić obszar pomiędzy q75 i q95?

Dlaczego rbindlist jest "lepszy" niż rbind?

Przeglądam dokumentację data.table, a także zauważyłem z niektórych rozmów tutaj na tak, że rbindlist ma być lepszy niż rbind ... ind i w jakich scenariuszach rbindlist naprawdę przewyższa rbind? Czy jest jakaś korzyść w zakresie wykorzystania pamięci?

Jak zwięźle napisać formułę z wieloma zmiennymi z ramki danych?

Załóżmy, że mam zmienną odpowiedzi i dane zawierające trzy kowarianty (jako przykład zabawkowy): y = c(1,4,6) d = data.fram ... ramce danych była kowariantną.) Pytam, bo w ramce danych Mam 50 zmiennych, więc chcę uniknąć wypisywania x1 + x2 + x3 + etc.

Mylenie poziomów czynników i etykiet czynników

Wydaje się, że istnieje różnica między poziomami a etykietami czynnika w R. Do tej pory zawsze uważałem, że poziomy są "prawd ... ku sprawozdań i wykresów te krótkie poziomy współczynników mogą nie być odpowiednie i należy je zastąpić nazwami preciserów.

Określa niestandardowy format daty dla argumentu colClasses w read.tabela / Czytaj.csv

Pytanie: Czy istnieje sposób na określenie formatu daty Podczas używania argumentu colClasses w read.tabela / Czytaj.csv? ... t;- read.csv("data.csv", colClasses = c("factor","factor","Date")) str(dataImport) dataImport A oto jak wygląda wyjście:

Jak szybko tworzyć grupy (kwartyle, decyle itp.), zamawiając kolumny w ramce danych

Widzę wiele pytań i odpowiedzi re order i sort. Czy jest coś, co sortuje wektory lub ramki danych w grupy (jak kwartyle lub d ... 0.05146856 2 # 12 l -0.12310229 1 Czy istnieje lepsze (czystsze/szybsze/jednoliniowe) podejście? Dzięki!

Odczyt tylko wybranych kolumn

Czy ktoś może mi powiedzieć, jak odczytać tylko pierwsze 6 miesięcy (7 kolumn) dla każdego roku z poniższych danych, na przyk ... 41 -27 -25 -31 -31 -39 -25 -15 -30 -27 -21 -25 2011 -21 -27 -2 -6 -10 -32 -13 -12 -27 -30 -38 -29

Policz liczbę wystąpień dla każdej unikalnej wartości

Powiedzmy, że mam: v = rep(c(1,2, 2, 2), 25) Teraz chcę policzyć, ile razy pojawia się każda unikalna wartość. unique(v) ... bardziej ogólne jednoliniowe:) coś bliskiego (ale nie do końca) jak to: #<doesn't work right> length(v[v==unique(v)])

Wymusić, aby R nie używał notacji wykładniczej (np. e+10)?

Czy Mogę wymusić na R używanie zwykłych liczb zamiast używania notacji e+10? Mam: 1.810032e+09 # and 4 W obrębie tego sa ... programu i muszę napisać plik tekstowy za pomocą cat. Na razie działa dobrze, ale po prostu nie mogę tam użyć notacji e+10.