Jak przekonwertować czynnik na liczbę całkowitą\liczbową bez utraty informacji?

Question

Jak przekonwertować czynnik na liczbę całkowitą\liczbową bez utraty informacji?

Kiedy przekonwertuję czynnik na liczbę lub liczbę całkowitą, otrzymuję podstawowe kody poziomów, a nie wartości jako liczby.

f <- factor(sample(runif(5), 20, replace = TRUE))
##  [1] 0.0248644019011408 0.0248644019011408 0.179684827337041 
##  [4] 0.0284090070053935 0.363644931698218  0.363644931698218 
##  [7] 0.179684827337041  0.249704354675487  0.249704354675487 
## [10] 0.0248644019011408 0.249704354675487  0.0284090070053935
## [13] 0.179684827337041  0.0248644019011408 0.179684827337041 
## [16] 0.363644931698218  0.249704354675487  0.363644931698218 
## [19] 0.179684827337041  0.0284090070053935
## 5 Levels: 0.0248644019011408 0.0284090070053935 ... 0.363644931698218

as.numeric(f)
##  [1] 1 1 3 2 5 5 3 4 4 1 4 2 3 1 3 5 4 5 3 2

as.integer(f)
##  [1] 1 1 3 2 5 5 3 4 4 1 4 2 3 1 3 5 4 5 3 2

Muszę uciekać się do paste, aby uzyskać prawdziwe wartości:

as.numeric(paste(f))
##  [1] 0.02486440 0.02486440 0.17968483 0.02840901 0.36364493 0.36364493
##  [7] 0.17968483 0.24970435 0.24970435 0.02486440 0.24970435 0.02840901
## [13] 0.17968483 0.02486440 0.17968483 0.36364493 0.24970435 0.36364493
## [19] 0.17968483 0.02840901

Czy istnieje lepszy sposób na konwersję współczynnika na liczbę?

641

casting r r-faq

Author: Jaap, 2010-08-05

Source

10 answers

R ma szereg (nieudokumentowanych) funkcji wygodnych do przeliczania współczynników:

as.character.factor
as.data.frame.factor
as.Date.factor
as.list.factor
as.vector.factor
...

Ale nie ma co obsługiwać konwersji factor - > numeric. Jako rozszerzenie odpowiedzi Joshuy Ulricha, sugerowałbym przezwyciężenie tego pominięcia za pomocą definicji własnej funkcji idiomatycznej: {]}

as.numeric.factor <- function(x) {as.numeric(levels(x))[x]}

, które można przechowywać na początku twój scenariusz, a nawet lepiej w Twoim .Rprofile plik.

95

Author: Jealie,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-06-04 18:19:53

Najprostszym sposobem byłoby użycie unfactor funkcji z pakietu varhandle, która może przyjmować wektor czynnika lub nawet ramkę danych :

unfactor(your_factor_variable)

Ten przykład może być szybki start:

x <- rep(c("a", "b", "c"), 20)
y <- rep(c(1, 1, 0), 20)

class(x)  # -> "character"
class(y)  # -> "numeric"

x <- factor(x)
y <- factor(y)

class(x)  # -> "factor"
class(y)  # -> "factor"

library(varhandle)
x <- unfactor(x)
y <- unfactor(y)

class(x)  # -> "character"
class(y)  # -> "numeric"

Można go również użyć na ramce danych. Na przykład zbiór danych iris:

sapply(iris, class)

Sepal.Length  Sepal.Width Petal.Length  Petal.Width      Species
   "numeric"    "numeric"    "numeric"    "numeric"     "factor"

# load the package
library("varhandle")
# pass the iris to unfactor
tmp_iris <- unfactor(iris)
# check the classes of the columns
sapply(tmp_iris, class)

Sepal.Length  Sepal.Width Petal.Length  Petal.Width      Species
   "numeric"    "numeric"    "numeric"    "numeric"  "character"

# check if the last column is correctly converted
tmp_iris$Species

  [1] "setosa"     "setosa"     "setosa"     "setosa"     "setosa"    
  [6] "setosa"     "setosa"     "setosa"     "setosa"     "setosa"    
 [11] "setosa"     "setosa"     "setosa"     "setosa"     "setosa"    
 [16] "setosa"     "setosa"     "setosa"     "setosa"     "setosa"    
 [21] "setosa"     "setosa"     "setosa"     "setosa"     "setosa"    
 [26] "setosa"     "setosa"     "setosa"     "setosa"     "setosa"    
 [31] "setosa"     "setosa"     "setosa"     "setosa"     "setosa"
 [36] "setosa"     "setosa"     "setosa"     "setosa"     "setosa"
 [41] "setosa"     "setosa"     "setosa"     "setosa"     "setosa"
 [46] "setosa"     "setosa"     "setosa"     "setosa"     "setosa"
 [51] "versicolor" "versicolor" "versicolor" "versicolor" "versicolor"
 [56] "versicolor" "versicolor" "versicolor" "versicolor" "versicolor"
 [61] "versicolor" "versicolor" "versicolor" "versicolor" "versicolor"
 [66] "versicolor" "versicolor" "versicolor" "versicolor" "versicolor"
 [71] "versicolor" "versicolor" "versicolor" "versicolor" "versicolor"
 [76] "versicolor" "versicolor" "versicolor" "versicolor" "versicolor"
 [81] "versicolor" "versicolor" "versicolor" "versicolor" "versicolor"
 [86] "versicolor" "versicolor" "versicolor" "versicolor" "versicolor"
 [91] "versicolor" "versicolor" "versicolor" "versicolor" "versicolor"
 [96] "versicolor" "versicolor" "versicolor" "versicolor" "versicolor"
[101] "virginica"  "virginica"  "virginica"  "virginica"  "virginica"
[106] "virginica"  "virginica"  "virginica"  "virginica"  "virginica"
[111] "virginica"  "virginica"  "virginica"  "virginica"  "virginica"
[116] "virginica"  "virginica"  "virginica"  "virginica"  "virginica"
[121] "virginica"  "virginica"  "virginica"  "virginica"  "virginica"
[126] "virginica"  "virginica"  "virginica"  "virginica"  "virginica"
[131] "virginica"  "virginica"  "virginica"  "virginica"  "virginica"
[136] "virginica"  "virginica"  "virginica"  "virginica"  "virginica"
[141] "virginica"  "virginica"  "virginica"  "virginica"  "virginica"
[146] "virginica"  "virginica"  "virginica"  "virginica"  "virginica"

36

Author: Mehrad Mahmoudian,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2021-02-03 12:58:27

Uwaga: Ta konkretna odpowiedź to nie do konwersji współczynników liczbowych na liczby, jest to konwersja współczynników kategorycznych na odpowiadające im liczby poziomów.

Każda odpowiedź w tym poście nie generowała dla mnie wyników, NAs były generowane.

y2<-factor(c("A","B","C","D","A")); 
as.numeric(levels(y2))[y2] 
[1] NA NA NA NA NA Warning message: NAs introduced by coercion

To, co dla mnie zadziałało, to ...

as.integer(y2)
# [1] 1 2 3 4 1

27

Author: Indi,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2019-03-03 21:54:56

Jest to możliwe tylko W przypadku, gdy etykiety czynników odpowiadają pierwotnym wartościom. Wyjaśnię to na przykładzie.

Załóżmy, że dane są wektorowe x:

x <- c(20, 10, 30, 20, 10, 40, 10, 40)

Teraz stworzę czynnik z czterema etykietami:

f <- factor(x, levels = c(10, 20, 30, 40), labels = c("A", "B", "C", "D"))

1) x jest z typem double, {[7] } jest z typem integer. Jest to pierwsza nieunikniona utrata informacji. Czynniki są zawsze przechowywane jako liczby całkowite.

> typeof(x)
[1] "double"
> typeof(f)
[1] "integer"

2) nie jest możliwe przywrócenie oryginalnych wartości (10, 20, 30, 40) mając tylko f dostępne. Widzimy, że f posiada tylko wartości całkowite 1, 2, 3, 4 i dwa atrybuty - listę etykiet ("A", "B", "C", "D") oraz atrybut klasy "factor". Nic więcej.

> str(f)
 Factor w/ 4 levels "A","B","C","D": 2 1 3 2 1 4 1 4
> attributes(f)
$levels
[1] "A" "B" "C" "D"

$class
[1] "factor"

Aby powrócić do oryginalnych wartości musimy znać wartości poziomów używanych w tworzeniu czynnika. W tym przypadku c(10, 20, 30, 40). Jeśli znamy oryginalne poziomy (we właściwej kolejności), możemy powrócić do oryginalnych wartości.

> orig_levels <- c(10, 20, 30, 40)
> x1 <- orig_levels[f]
> all.equal(x, x1)
[1] TRUE

I to będzie działać tylko w przypadku, gdy etykiety zostały zdefiniowane dla wszystkich możliwych wartości w oryginalnych danych.

Więc jeśli potrzebujesz oryginalnych wartości, musisz je zachować. W przeciwnym razie istnieje duża szansa, że nie będzie można wrócić do nich tylko z czynnika.

9

Author: djhurio,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-10-09 12:34:35

Możesz użyć hablar::convert Jeśli masz ramkę danych. Składnia jest prosta:

Próbka DF

library(hablar)
library(dplyr)

df <- dplyr::tibble(a = as.factor(c("7", "3")),
                    b = as.factor(c("1.5", "6.3")))

Rozwiązanie

df %>% 
  convert(num(a, b))

Daje:

# A tibble: 2 x 2
      a     b
  <dbl> <dbl>
1    7.  1.50
2    3.  6.30

Lub jeśli chcesz, aby jedna kolumna była liczbą całkowitą i jedną liczbową:

df %>% 
  convert(int(a),
          num(b))

Wyniki w:

# A tibble: 2 x 2
      a     b
  <int> <dbl>
1     7  1.50
2     3  6.30

2

Author: davsjob,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-11-01 10:05:27

Późno do gry, przypadkowo znalazłem trimws() można przekształcić factor(3:5) do c("3","4","5"). Wtedy możesz zadzwonić as.numeric(). Czyli:

as.numeric(trimws(x_factor_var))

2

Author: Jerry T,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-11-13 02:37:04

type.convert(f) na czynnik, którego poziomy są całkowicie numeryczne, jest inną opcją podstawową.

Pod względem wydajności jest to odpowiednik as.numeric(as.character(f)), ale nie tak szybki jak as.numeric(levels(f))[f].

identical(type.convert(f), as.numeric(levels(f))[f])

[1] TRUE

To powiedziawszy, jeśli powód, dla którego wektor został utworzony jako czynnik w pierwszej instancji, nie został rozwiązany (tzn. prawdopodobnie zawierał znaki, których nie można było zmusić do numerycznego), to takie podejście nie zadziała i zwróci czynnik.

levels(f)[1] <- "some character level"
identical(type.convert(f), as.numeric(levels(f))[f])

[1] FALSE

1

Author: 27 ϕ 9,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2020-06-17 05:47:01

Z wielu odpowiedzi, które mogłem przeczytać, jedynym sposobem było rozszerzenie liczby zmiennych w zależności od liczby czynników. Jeśli masz zmienną " pet "z poziomami" dog " i "cat", skończysz z pet_dog i pet_cat.

W moim przypadku chciałem pozostać przy tej samej liczbie zmiennych, po prostu tłumacząc zmienną czynnika na liczbową, w sposób, który może być stosowany do wielu zmiennych o wielu poziomach, tak że kot=1 i pies=0 Na przykład.

Proszę znaleźć odpowiednie rozwiązanie poniżej:

crime <- data.frame(city = c("SF", "SF", "NYC"),
                    year = c(1990, 2000, 1990),
                    crime = 1:3)

indx <- sapply(crime, is.factor)

crime[indx] <- lapply(crime[indx], function(x){ 
  listOri <- unique(x)
  listMod <- seq_along(listOri)
  res <- factor(x, levels=listOri)
  res <- as.numeric(res)
  return(res)
}
)

-1

Author: Xavier Prudent,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2019-11-27 19:04:05

Wygląda na rozwiązanie jako.numeric(levels (f))[f] nie działa już z R 4.0.

Alternatywne rozwiązanie:

factor2number <- function(x){
    data.frame(levels(x), 1:length(levels(x)), row.names = 1)[x, 1]
}

factor2number(yourFactor)

-1

Author: Life_Searching_Steps,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2020-05-24 16:38:36

score 760 · Accepted Answer

Zobacz sekcję Ostrzeżenie?factor:

W szczególności, as.numeric stosuje się do czynnik jest bez znaczenia i może stało się to pod przymusem. Na przekształć czynnik f na w przybliżeniu jego oryginalna liczba wartości, as.numeric(levels(f))[f] jest polecam i trochę więcej wydajny niż as.numeric(as.character(f)).

FAQ na temat R ma podobne porady.

Dlaczego as.numeric(levels(f))[f] jest bardziej skuteczny niż as.numeric(as.character(f))?

as.numeric(as.character(f)) jest skutecznie as.numeric(levels(f)[f]), więc wykonujesz konwersję na wartości liczbowe na wartościach length(x), a nie na wartościach nlevels(x). Różnica prędkości będzie najbardziej widoczna dla długich wektorów o kilku poziomach. Jeśli wartości są w większości unikalne, nie będzie dużej różnicy w prędkości. Jakkolwiek wykonasz konwersję, Ta operacja prawdopodobnie nie będzie wąskim gardłem w Twoim kodzie, więc nie martw się o to zbytnio.

Niektóre terminy

library(microbenchmark)
microbenchmark(
  as.numeric(levels(f))[f],
  as.numeric(levels(f)[f]),
  as.numeric(as.character(f)),
  paste0(x),
  paste(x),
  times = 1e5
)
## Unit: microseconds
##                         expr   min    lq      mean median     uq      max neval
##     as.numeric(levels(f))[f] 3.982 5.120  6.088624  5.405  5.974 1981.418 1e+05
##     as.numeric(levels(f)[f]) 5.973 7.111  8.352032  7.396  8.250 4256.380 1e+05
##  as.numeric(as.character(f)) 6.827 8.249  9.628264  8.534  9.671 1983.694 1e+05
##                    paste0(x) 7.964 9.387 11.026351  9.956 10.810 2911.257 1e+05
##                     paste(x) 7.965 9.387 11.127308  9.956 11.093 2419.458 1e+05