Jak przekonwertować czynnik na liczbę całkowitą umeric bez utraty informacji?

Question

Jak przekonwertować czynnik na liczbę całkowitą umeric bez utraty informacji?

Kiedy przekonwertuję czynnik na liczbę lub liczbę całkowitą, otrzymuję podstawowe kody poziomów, a nie wartości jako liczby.

f <- factor(sample(runif(5), 20, replace = TRUE))
##  [1] 0.0248644019011408 0.0248644019011408 0.179684827337041 
##  [4] 0.0284090070053935 0.363644931698218  0.363644931698218 
##  [7] 0.179684827337041  0.249704354675487  0.249704354675487 
## [10] 0.0248644019011408 0.249704354675487  0.0284090070053935
## [13] 0.179684827337041  0.0248644019011408 0.179684827337041 
## [16] 0.363644931698218  0.249704354675487  0.363644931698218 
## [19] 0.179684827337041  0.0284090070053935
## 5 Levels: 0.0248644019011408 0.0284090070053935 ... 0.363644931698218

as.numeric(f)
##  [1] 1 1 3 2 5 5 3 4 4 1 4 2 3 1 3 5 4 5 3 2

as.integer(f)
##  [1] 1 1 3 2 5 5 3 4 4 1 4 2 3 1 3 5 4 5 3 2

Muszę uciekać się do paste, aby uzyskać prawdziwe wartości:

as.numeric(paste(f))
##  [1] 0.02486440 0.02486440 0.17968483 0.02840901 0.36364493 0.36364493
##  [7] 0.17968483 0.24970435 0.24970435 0.02486440 0.24970435 0.02840901
## [13] 0.17968483 0.02486440 0.17968483 0.36364493 0.24970435 0.36364493
## [19] 0.17968483 0.02840901

Czy istnieje lepszy sposób na konwersję współczynnika na liczbę?

477

casting r r-faq

Author: Jaap, 2010-08-05

Source

5 answers

R ma szereg (nieudokumentowanych) funkcji wygodnych do przeliczania współczynników:

as.character.factor
as.data.frame.factor
as.Date.factor
as.list.factor
as.vector.factor
...

Ale nie ma co obsługiwać konwersji factor - > numeric. Jako rozszerzenie odpowiedzi Joshuy Ulricha, sugerowałbym przezwyciężenie tego pominięcia za pomocą definicji własnej funkcji idiomatycznej: {]}

as.numeric.factor <- function(x) {as.numeric(levels(x))[x]}

, które można przechowywać na początku twój scenariusz, a nawet lepiej w Twoim .Rprofile plik.

68

Author: Jealie,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-06-04 18:19:53

Najprostszym sposobem byłoby użycie unfactor funkcji z pakietu varhandle

unfactor(your_factor_variable)

Ten przykład może być szybki start:

x <- rep(c("a", "b", "c"), 20)
y <- rep(c(1, 1, 0), 20)

class(x)  # -> "character"
class(y)  # -> "numeric"

x <- factor(x)
y <- factor(y)

class(x)  # -> "factor"
class(y)  # -> "factor"

library(varhandle)
x <- unfactor(x)
y <- unfactor(y)

class(x)  # -> "character"
class(y)  # -> "numeric"

21

Author: Mehrad Mahmoudian,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2016-01-25 09:14:08

Każda odpowiedź w tym poście nie generowała dla mnie wyników, NAs były generowane.

y2<-factor(c("A","B","C","D","A")); 
as.numeric(levels(y2))[y2] 
[1] NA NA NA NA NA Warning message: NAs introduced by coercion

To, co dla mnie zadziałało, to ...

as.integer(y2)
# [1] 1 2 3 4 1

UWAGA: Ta konkretna odpowiedź to Nie do konwersji współczynników liczbowych na liczby, jest to konwersja współczynników kategorycznych na odpowiadające im liczby poziomów.

13

Author: Indi,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-06-01 15:13:52

Jest to możliwe tylko W przypadku, gdy etykiety czynników odpowiadają pierwotnym wartościom. Wyjaśnię to na przykładzie.

Załóżmy, że dane są wektorowe x:

x <- c(20, 10, 30, 20, 10, 40, 10, 40)

Teraz stworzę czynnik z czterema etykietami:

f <- factor(x, levels = c(10, 20, 30, 40), labels = c("A", "B", "C", "D"))

1) x jest z typem double, {[7] } jest z typem integer. Jest to pierwsza nieunikniona utrata informacji. Czynniki są zawsze przechowywane jako liczby całkowite.

> typeof(x)
[1] "double"
> typeof(f)
[1] "integer"

2) nie jest możliwe przywrócenie oryginalnych wartości (10, 20, 30, 40) mając tylko f dostępne. Widzimy, że f posiada tylko wartości całkowite 1, 2, 3, 4 i dwa atrybuty - listę etykiet ("A", "B", "C", "D") oraz atrybut klasy "factor". Nic więcej.

> str(f)
 Factor w/ 4 levels "A","B","C","D": 2 1 3 2 1 4 1 4
> attributes(f)
$levels
[1] "A" "B" "C" "D"

$class
[1] "factor"

Aby powrócić do oryginalnych wartości musimy znać wartości poziomów używanych w tworzeniu czynnika. W tym przypadku c(10, 20, 30, 40). Jeśli znamy oryginalne poziomy (we właściwej kolejności), możemy powrócić do oryginalnych wartości.

> orig_levels <- c(10, 20, 30, 40)
> x1 <- orig_levels[f]
> all.equal(x, x1)
[1] TRUE

I to będzie działać tylko w przypadku, gdy etykiety zostały zdefiniowane dla wszystkich możliwych wartości w oryginalnych danych.

Więc jeśli potrzebujesz oryginalnych wartości, musisz je zachować. W przeciwnym razie istnieje duża szansa, że nie będzie można wrócić do nich tylko z czynnika.

7

Author: djhurio,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-10-09 12:34:35

score 571 · Accepted Answer

Zobacz sekcję Ostrzeżenie?factor:

W szczególności, as.numeric stosuje się do czynnik jest bez znaczenia i może stało się to pod przymusem. Na przekształć czynnik f na w przybliżeniu jego oryginalna liczba wartości, as.numeric(levels(f))[f] jest polecam i trochę więcej wydajny niż as.numeric(as.character(f)).

FAQ na temat R ma podobne porady.

Dlaczego as.numeric(levels(f))[f] jest bardziej skuteczny niż as.numeric(as.character(f))?

as.numeric(as.character(f)) jest skutecznie as.numeric(levels(f)[f]), więc wykonujesz konwersję na wartości liczbowe na wartościach length(x), a nie na wartościach nlevels(x). Różnica prędkości będzie najbardziej widoczna dla długich wektorów o kilku poziomach. Jeśli wartości są w większości unikalne, nie będzie dużej różnicy w prędkości. Jakkolwiek wykonasz konwersję, Ta operacja prawdopodobnie nie będzie wąskim gardłem w Twoim kodzie, więc nie martw się o to zbytnio.

Niektóre terminy

library(microbenchmark)
microbenchmark(
  as.numeric(levels(f))[f],
  as.numeric(levels(f)[f]),
  as.numeric(as.character(f)),
  paste0(x),
  paste(x),
  times = 1e5
)
## Unit: microseconds
##                         expr   min    lq      mean median     uq      max neval
##     as.numeric(levels(f))[f] 3.982 5.120  6.088624  5.405  5.974 1981.418 1e+05
##     as.numeric(levels(f)[f]) 5.973 7.111  8.352032  7.396  8.250 4256.380 1e+05
##  as.numeric(as.character(f)) 6.827 8.249  9.628264  8.534  9.671 1983.694 1e+05
##                    paste0(x) 7.964 9.387 11.026351  9.956 10.810 2911.257 1e+05
##                     paste(x) 7.965 9.387 11.127308  9.956 11.093 2419.458 1e+05