W ggplot2, co oznacza koniec linii boxplot?
Nie mogę znaleźć opisu tego, co reprezentują punkty końcowe linii kartonu.
Na przykład, tutaj są wartości punktowe powyżej i poniżej, gdzie kończą się linie.
(zdaję sobie sprawę, że górna i dolna część pudełka to 25 I 75 percentyl, a linia środkowa to 50). Zakładam, że istnieją punkty powyżej i poniżej linii, które nie reprezentują wartości max / min.
3 answers
"kropki" na końcu pudełka reprezentują wartości odstające. Istnieje wiele różnych zasad określania, czy punkt jest odstający, ale metoda, której używają R i ggplot, to "reguła 1.5". Jeżeli punktem danych jest:
- mniej niż Q1 - 1,5*IQR
- większy niż Q3 + 1,5*IQR
Następnie punkt ten jest klasyfikowany jako "odstający". Wąsy definiowane są jako:
Górny wąs = min(max (x), Q_3 + 1,5 * IQR)
Dolny wąs = max(min (x), Q_1 – 1,5 * IQR)
Gdzie IQR = Q_3-Q_1, długość pola. Więc górny wąs znajduje się przy mniejszym maksymalnej wartości x i Q_3 + 1,5 IQR, natomiast dolny wąs znajduje się przy większym najmniejszej wartości x i Q_1-1,5 IQR.
Informacje dodatkowe
- Zobacz stronęwikipedia boxplot Dla alternatywnych reguł odstających.
- istnieją różne sposoby obliczania kwantyli. Rzucić okiem?kwantyl do opisu dziewięciu różnych metod.
Przykład
Rozważ następujący przykład
> set.seed(1)
> x = rlnorm(20, 1/2)#skewed data
> par(mfrow=c(1,3))
> boxplot(x, range=1.7, main="range=1.7")
> boxplot(x, range=1.5, main="range=1.5")#default
> boxplot(x, range=0, main="range=0")#The same as range="Very big number"
Daje to następujący wykres:
Zmniejszając zakres od 1,7 do 1,5 zmniejszamy długość wąsów. Jednak range=0
jest szczególnym przypadkiem - jest odpowiednikiem "range = infinity"
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2017-09-21 15:04:07
Myślę, że ggplot używa standardowych wartości domyślnych, takich samych jak boxplot: "wąsy rozciągają się do najbardziej ekstremalnego punktu danych, który jest nie większy niż [1.5] razy dłuższy niż długość pudełka od pudełka"
Zobacz: boxplot.statystyki
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2011-02-09 15:41:43
P1IMSA Tutorial 8-zrozumienie działek Box i Whisker wideo oferuje wizualne wyjaśnienie krok po kroku (Tukey) działek box i whisker.
W 4m 23s wyjaśniam znaczenie końcówek wąsów i ich związek z 1,5 * IQR.
Chociaż Wykres pokazany w filmie został renderowany za pomocą D3.js zamiast R, jego objaśnienia współgrają ze wspomnianymi implementacjami r boxplots.
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-04-10 20:33:22