Interpretacja wyjścia R lm()

Strony pomocy w R zakładają, że wiem, co oznaczają te liczby, ale nie wiem. Staram się intuicyjnie zrozumieć każdą liczbę. Po prostu opublikuję wyniki i skomentuję to, co się dowiedziałem. Mogą (będą) być błędy, bo napiszę tylko to, co zakładam. Przede wszystkim chciałbym wiedzieć, co oznacza wartość t we współczynnikach i dlaczego wypisują pozostały błąd standardowy.

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

To jest 5-punktowe podsumowanie pozostałości (ich średnia zawsze wynosi 0, prawda?). Liczby można użyć (zgaduję tutaj), aby szybko sprawdzić, czy są jakieś duże wartości odstające. Również można już zobaczyć tutaj, jeśli pozostałości są daleko od normalnie dystrybuowane (powinny być normalnie dystrybuowane).

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Oszacowanie $ \ hat {\beta_i}$, obliczone przez regresję najmniejszych kwadratów. Ponadto standardowy błąd to $ \ sigma_ {\beta_i}$. Chciałbym wiedzieć, jak to jest obliczane. Nie mam pojęcia, skąd bierze się wartość t i odpowiadająca jej wartość P. I know $ \ hat {\beta} $ should be normal rozproszone, ale jak oblicza się wartość t?

Residual standard error: 0.407 on 148 degrees of freedom

$\sqrt {\frac{1} {n-p} \ epsilon^T \ epsilon}$, chyba. Ale dlaczego to obliczamy i co nam to mówi?

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

$ R^2 = \frac{s_\hat{y}^2}{s_y^2} $, czyli $ \frac{\sum_{i=1}^n (\hat{y_i} - \ bar{y})^2} {\sum_ {i=1}^n (y_i- \ bar{y})^2}$. Stosunek jest zbliżony do 1, Jeśli punkty leżą na linii prostej, i 0, jeśli są losowe. Co to jest skorygowany R-kwadrat?

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

F I p dla całego modelu, nie tylko dla pojedynczych $ \ beta_i$s jak poprzednio. Wartość F to $ \ frac{s^2_ {\hat{y}}} {\sum \ epsilon_i}$. Im większy rośnie, tym bardziej prawdopodobne jest, że $ \ beta $ nie mają żadnego wpływu.

Author: gung - Reinstate Monica, 2010-12-04

2 answers

Podsumowanie pięciu punktów

Tak, chodzi o szybkie podsumowanie dystrybucji. Powinna być mniej więcej symetryczna względem średniej, mediana powinna być bliska 0, wartości 1Q i 3Q powinny być z grubsza podobne.

$ \ hat {\beta_i} s$

Każdy Współczynnik w modelu jest zmienną losową Gaussa (normalną). $ \ hat {\beta_i}$ jest oszacowaniem średniej rozkładu tej zmiennej losowej, a błąd standardowy jest pierwiastkiem kwadratowym wariancji tego rozkładu. Jest miarą niepewności w oszacowaniu $ \ hat {\beta_i}$.

Możesz zobaczyć, jak są one obliczane (dobrze wzory matematyczne używane) na Wikipedii . Zauważ, że każdy szanujący się program statystyki będzie , a nie używał standardowych równań matematycznych do obliczania $ \ hat {\beta_i}$, ponieważ wykonywanie ich na komputerze może prowadzić do dużej utraty precyzji w obliczenia.

$t$ - statystyka

$T$ Statystyki są szacunkami ($\hat{\beta_i}$) podzielonymi przez ich standardowe błędy ($\hat{\sigma_i}$)), np. $t_i = \frac{\hat{\beta_i}}{\hat{\sigma_i}}$. Zakładając, że masz ten sam model w obiekcie mod Jak Twoje Q:

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

Następnie $T$ wartości R są obliczane jako:

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

Gdzie coef(mod)$ \ hat {\beta_i}$ i sqrt(diag(vcov(mod))) podaje pierwiastki kwadratowe przekątnych elementów macierzy kowariancji parametrów modelu, które są standardowymi błędami parametrów ($ \ hat {\sigma_i}$).

Wartość p jest prawdopodobieństwem osiągnięcia $ / t / $ tak dużej lub większej od obserwowanej wartości bezwzględnej T, jeśli hipoteza zerowa ($h_0$) była prawdziwa, gdzie $h_0$ jest $\beta_i = 0$. Są one obliczane jako (używając tstats z góry):

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

Więc my Oblicz prawdopodobieństwo osiągnięcia wartości $t $ z rozkładu $t$ z stopniami swobody równymi pozostałym stopniom swobody modelu. Oznacza to prawdopodobieństwo osiągnięcia wartości $t$ większej od wartości bezwzględnych obserwowanych $t$ S. jest ona pomnożona przez 2, ponieważ oczywiście $t$ Może być duża również w kierunku ujemnym.

Pozostały błąd standardowy

The residual błąd standardowy jest oszacowaniem parametru $ \ sigma$. Założenie w najmniejszych kwadratach zwykłych jest takie, że pozostałości są indywidualnie opisane przez rozkład Gaussa (normalny) ze średnią 0 i odchyleniem standardowym $\sigma$. $ \ sigma$ odnosi się do założenia wariancji stałej; każdy rezydualny ma taką samą wariancję i ta wariancja jest równa $\sigma^2$.

$R^2$

$R^2 $ jest obliczony jako:

$$1 - (1 - R^2) \ frac{n-1} {n - p - 1}$$

Skorygowany $R^2$ jest tym samym co $R^2$, ale dostosowany do złożoności (tj. liczby parametrów) modelu. Biorąc pod uwagę model z jednym parametrem, z pewnym $R^2$, jeśli dodamy kolejny parametr do tego modelu, $R^2$ nowego modelu musi wzrosnąć, nawet jeśli dodany parametr nie ma mocy statystycznej. / Align = "left" / $R^2$ rozlicza się za to poprzez uwzględnienie liczby parametrów w modelu.

$F$ - statystyka

The $F$ jest stosunkiem dwóch wariancji ( $ SSR / SSE$), wariancji wyjaśnionej przez parametry w modelu (suma kwadratów regresji, SSR) i rezydualnej lub niewyjaśnionej wariancji (suma kwadratów błędu, SSE). Możesz to zobaczyć lepiej, jeśli otrzymamy tabelę ANOVA dla modelu poprzez anova():

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

$F$S są to samo w wyjściu ANOVA i wyjściu summary(mod). Kolumna Mean Sq zawiera dwie wariancje i $3.7945 / 0.1656 = 22.91$. Możemy obliczyć prawdopodobieństwo osiągnięcia $F$ tak dużego pod hipotezą zerową braku efektu, z $F$-rozkładu z 1 i 148 stopniami swobody. Jest to kwota zgłoszona w końcowej kolumnie tabeli ANOVA. W prostym przypadku pojedynczego, ciągłego predyktora (jak na przykład), $F = t_ {\mathrm{Petal.Szerokość}}^2$, dlatego wartości p są takie same. Równoważność ta obowiązuje tylko w tym prostym przypadku.

 222
Author: Gavin Simpson,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2019-04-03 15:11:20

Ronen Israel i Adrienne Ross (AQR) napisali bardzo ładną pracę na ten temat: pomiar ekspozycji na czynniki: zastosowania i nadużycia .

Podsumować (patrz: s. 8),

  • Ogólnie rzecz biorąc, im wyższa $R^2$, tym lepiej model wyjaśnia zwroty z portfela.
  • gdy statystyka T jest większa niż dwa, możemy powiedzieć z 95% pewnością (lub 5% szansą, że się mylimy), że estymacja beta jest statystycznie inna niż zero. Innymi słowy, możemy powiedzieć, że portfel ma znaczną ekspozycję na czynnik.

R ' S lm() summary oblicza wartość p Pr(>|t|). Im mniejsza jest wartość p, tym znaczniejszy jest czynnik. Wartość P = 0,05 jest rozsądnym progiem.

 2
Author: Steve Lihn,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2019-04-02 01:01:38