r
Jak odczytać dane, gdy niektóre liczby zawierają przecinki jako separator tysięcy?
Mam plik csv, gdzie niektóre wartości liczbowe są wyrażone jako ciągi znaków z przecinkami jako separator tysięcy, np. "1,513 ... usunąć przecinki z odpowiednich elementów przed konwersją tych kolumn na Liczby i nie mogę znaleźć na to porządnego sposobu.
Jak połączyć wiele warunków, aby podzestawić ramkę danych za pomocą "OR"?
Mam dane.ramka w R. chcę wypróbować dwa różne warunki na dwóch różnych kolumnach, ale chcę, aby te warunki były włącznie. Dla ... arunku "i".
my.data.frame <- data[(data$V1 > 2) & (data$V2 < 4), ]
Ale nie wiem, jak używać 'OR' w powyższym.
Zamień wszystkie wartości 0 Na NA
Mam ramkę danych z kilkoma kolumnami numerycznymi. Niektóre wiersze mają wartość 0, która powinna być traktowana jako null w analizie statystycznej. Jaki jest najszybszy sposób na zastąpienie wszystkich wartości 0 Na NULL W R?
Przekształcanie danych.ramka od szerokiego do długiego formatu
Mam pewien problem, aby przekształcić mój data.frame z szerokiego stołu do długiego stołu.
W tej chwili wygląda to tak:
Cod ... jne wyniki.
Jeśli jest to możliwe chciałbym to zrobić za pomocą funkcji reshape() ponieważ
wygląda trochę milsza w obsłudze.
Standaryzacja kolumn danych w R
Mam zbiór danych o nazwie spam, który zawiera 58 kolumn i około 3500 wierszy danych związanych z wiadomościami spamowymi.
P ... alizację za pomocą R ? Mam już dane poprawnie załadowany i szukam tylko kilku pakietów lub metod do wykonania tego zadania.
Jak stworzyć wykres gęstości w matplotlib?
W R mogę utworzyć żądane wyjście wykonując:
data = c(rep(1.5, 7), rep(2.5, 2), rep(3.5, 8),
rep(4.5, 3), rep(5.5, ... tnie próby były wokół scipy.stats i gaussian_kde, podążając za przykładami w Internecie, ale do tej pory nie powiodło mi się.
Jak mogę nauczyć się tworzyć piękne infografiki (w związku z moją wiedzą R)? [zamknięte]
Jestem oddanym R (r-project.org) user, I love infographics.
Właśnie natknąłem się na ten artykuł:
http://www.noupe.com/desi ... zrobić ten skok?
Jakie książki / oprogramowanie/umiejętności muszę mieć / rozwijać się, aby móc tworzyć piękne infografiki?
Powinienem użyć danych.ramka czy matryca?
Kiedy należy użyć data.frame, a kiedy lepiej użyć matrix?
Obie przechowują dane w formacie prostokątnym, Więc czasami jest to niejasne.
Czy są jakieś ogólne zasady, kiedy używać jakiego typu danych?
Jak wybrać lustro CRAN w R
Próbuję zainstalować pakiet poprzez znak zachęty R, wykonując następujące czynności:
install.packages('RMySQL')
Ale wyjśc ... nia tego bardzo podstawowego problemu. Co mam wpisać, aby wybrać lustro CRAN?
EDIT:
OS: Mac-OS X 10.6.8
Wersja R: 2.15.0
Powtórz każdy wiersz danych.ramka ilość razy określona w kolumnie
df <- data.frame(var1 = c('a', 'b', 'c'), var2 = c('d', 'e', 'f'),
freq = 1:3)
Jaki jest najprostszy sp ... c f 3
Do tego:
df.expanded
var1 var2
1 a d
2 b e
3 b e
4 c f
5 c f
6 c f
Dopasowanie krzywej gęstości do histogramu w R
Czy istnieje funkcja w R, która pasuje do krzywej do histogramu?
Załóżmy, że masz następujący histogram
hist(c(rep(65, tim ... zekrzywiona, aby owinąć ten histogram.
To pytanie jest raczej podstawowe, ale nie mogę znaleźć odpowiedzi na R w Internecie.
Cieniowanie wykresu gęstości jądra między dwoma punktami.
Często używam Wykresów gęstości jądra do zilustrowania dystrybucji. Są one łatwe i szybkie do utworzenia w R jak tak:
set.s ... nkcji quantile:
q75 <- quantile(draws, .75)
q95 <- quantile(draws, .95)
Ale jak zacienić obszar pomiędzy q75 i q95?
Dlaczego rbindlist jest "lepszy" niż rbind?
Przeglądam dokumentację data.table, a także zauważyłem z niektórych rozmów tutaj na tak, że rbindlist ma być lepszy niż rbind ... ind i w jakich scenariuszach rbindlist naprawdę przewyższa rbind?
Czy jest jakaś korzyść w zakresie wykorzystania pamięci?
Jak zwięźle napisać formułę z wieloma zmiennymi z ramki danych?
Załóżmy, że mam zmienną odpowiedzi i dane zawierające trzy kowarianty (jako przykład zabawkowy):
y = c(1,4,6)
d = data.fram ... ramce danych była kowariantną.) Pytam, bo w ramce danych Mam 50 zmiennych, więc chcę uniknąć wypisywania x1 + x2 + x3 + etc.
Mylenie poziomów czynników i etykiet czynników
Wydaje się, że istnieje różnica między poziomami a etykietami czynnika w R.
Do tej pory zawsze uważałem, że poziomy są "prawd ... ku sprawozdań i wykresów te krótkie poziomy współczynników mogą nie być odpowiednie i należy je zastąpić nazwami preciserów.
Określa niestandardowy format daty dla argumentu colClasses w read.tabela / Czytaj.csv
Pytanie:
Czy istnieje sposób na określenie formatu daty Podczas używania argumentu colClasses w read.tabela / Czytaj.csv?
... t;- read.csv("data.csv", colClasses = c("factor","factor","Date"))
str(dataImport)
dataImport
A oto jak wygląda wyjście:
Jak szybko tworzyć grupy (kwartyle, decyle itp.), zamawiając kolumny w ramce danych
Widzę wiele pytań i odpowiedzi re order i sort. Czy jest coś, co sortuje wektory lub ramki danych w grupy (jak kwartyle lub d ... 0.05146856 2
# 12 l -0.12310229 1
Czy istnieje lepsze (czystsze/szybsze/jednoliniowe) podejście? Dzięki!
Odczyt tylko wybranych kolumn
Czy ktoś może mi powiedzieć, jak odczytać tylko pierwsze 6 miesięcy (7 kolumn) dla każdego roku z poniższych danych, na przyk ... 41 -27 -25 -31 -31 -39 -25 -15 -30 -27 -21 -25
2011 -21 -27 -2 -6 -10 -32 -13 -12 -27 -30 -38 -29
Policz liczbę wystąpień dla każdej unikalnej wartości
Powiedzmy, że mam:
v = rep(c(1,2, 2, 2), 25)
Teraz chcę policzyć, ile razy pojawia się każda unikalna wartość. unique(v) ... bardziej ogólne jednoliniowe:) coś bliskiego (ale nie do końca) jak to:
#<doesn't work right> length(v[v==unique(v)])
Wymusić, aby R nie używał notacji wykładniczej (np. e+10)?
Czy Mogę wymusić na R używanie zwykłych liczb zamiast używania notacji e+10? Mam:
1.810032e+09
# and
4
W obrębie tego sa ... programu i muszę napisać plik tekstowy za pomocą cat.
Na razie działa dobrze, ale po prostu nie mogę tam użyć notacji e+10.