Jaka jest różnica między wielokrotnym R do kwadratu i skorygowanym R do kwadratu w regresji najmniejszych kwadratów z jedną zmienną?

Czy ktoś mógłby wyjaśnić statystycznie naiwnym, jaka jest różnica między Multiple R-squared a Adjusted R-squared? Wykonuję analizę regresji jednowariantowej w następujący sposób:

 v.lm <- lm(epm ~ n_days, data=v)
 print(summary(v.lm))

Wyniki:

Call:
lm(formula = epm ~ n_days, data = v)

Residuals:
    Min      1Q  Median      3Q     Max 
-693.59 -325.79   53.34  302.46  964.95 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2550.39      92.15  27.677   <2e-16 ***
n_days        -13.12       5.39  -2.433   0.0216 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 410.1 on 28 degrees of freedom
Multiple R-squared: 0.1746,     Adjusted R-squared: 0.1451 
F-statistic: 5.921 on 1 and 28 DF,  p-value: 0.0216 
Author: TMS, 2010-05-20

4 answers

"korekta" w skorygowanym r-kwadracie jest związana z liczbą zmiennych i liczbą obserwacji.

Jeśli dodasz zmienne (predyktory) do swojego modelu, R-kwadrat poprawi się - to znaczy, predyktory będą wydawać się wyjaśniać wariancję - ale część tej poprawy może być spowodowana samym przypadkiem. Tak skorygowany R-kwadrat próbuje skorygować to, biorąc pod uwagę stosunek (N-1) / (N-k-1), gdzie N = liczba obserwacji i k = liczba zmiennych (predyktory).

To prawdopodobnie nie jest problemem w Twoim przypadku, ponieważ masz jedną odmianę.

Niektóre odniesienia:

  1. jak wysoko, R-kwadrat?
  2. dobre statystyki dopasowania
  3. regresja wielokrotna
  4. Re: Co to jest "skorygowane R^2" w regresji wielokrotnej
 58
Author: neilfws,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-20 03:09:19

Skorygowany R-kwadrat jest zbliżony do wartości R2, ale różni się od niej. Zamiast bazować na wyjaśnionej sumie kwadratów SSR i całkowitej sumie kwadratów SSY, opiera się na ogólnej wariancji (ilości, której zazwyczaj nie obliczamy), s2T = SSY/(n - 1) i wariancji błędu MSE (z tabeli ANOVA) i jest opracowywane w następujący sposób: skorygowany R-kwadrat = (s2T - MSE) / S2T. {]}

To podejście zapewnia lepszą podstawę do oceny poprawy dopasowania dzięki dodaniu zmienna objaśniająca, ale nie ma prostej interpretacji podsumowującej, jaką ma R2.

Jeśli nie popełniłem błędu, powinieneś zweryfikować wartości skorygowanych R-do kwadratu i R-do kwadratu w następujący sposób:

s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
MSE <- anova(v.lm)[[3]][2]
adj.R2 <- (s2T - MSE) / s2T

Po drugiej stronie R2 to: SSR / SSY, gdzie SSR = SSY-SSE

attach(v)
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
R2 <- SSR / SSY 
 8
Author: George Dontas,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-20 14:00:28

R-kwadrat nie jest zależny od liczby zmiennych w modelu. Skorygowany R-kwadrat jest.

Skorygowany R-kwadrat dodaje karę za dodanie zmiennych do modelu, które są nieskorelowane ze zmienną, którą próbujesz wyjaśnić. Możesz go użyć do sprawdzenia, czy zmienna jest istotna dla rzeczy, którą próbujesz wyjaśnić.

Skorygowany R-kwadrat to R-kwadrat z dodanymi podziałami, aby uzależnić go od liczby zmiennych w modelu.

 6
Author: Jay,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-05-20 17:20:09

Należy zauważyć, że oprócz liczby zmiennych predykcyjnych, skorygowany wzór R-kwadrat powyżej również dostosowuje się do wielkości próbki. Mała próbka da zwodniczo duży R-kwadrat.

Ping Yin & XITAO Fan, J. of Experimental Education 69(2): 203-224, "Estimating R-squared shrinkage in multiple regression", porównuje różne metody regulacji R-squared i stwierdza, że powszechnie stosowane te cytowane powyżej nie są dobre. Polecają Olkin & Pratt formuła.

Jednak, widziałem pewne oznaki, że wielkość populacji ma znacznie większy wpływ niż którykolwiek z tych wzorów wskazują. Nie jestem przekonany, że któreś z tych formuł są wystarczająco dobre, aby umożliwić porównanie regresji wykonanych z bardzo różnych rozmiarów próbek (np. Zrobiłbym weryfikację krzyżową, aby sprawdzić R-kwadrat na każdej próbce.

 2
Author: Phil Goetz,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-10-31 00:04:03