W ggplot2, co oznacza koniec linii boxplot?

Nie mogę znaleźć opisu tego, co reprezentują punkty końcowe linii kartonu.

Na przykład, tutaj są wartości punktowe powyżej i poniżej, gdzie kończą się linie. Tutaj wpisz opis obrazka

(zdaję sobie sprawę, że górna i dolna część pudełka to 25 I 75 percentyl, a linia środkowa to 50). Zakładam, że istnieją punkty powyżej i poniżej linii, które nie reprezentują wartości max / min.

Author: csgillespie, 2011-02-09

3 answers

"kropki" na końcu pudełka reprezentują wartości odstające. Istnieje wiele różnych zasad określania, czy punkt jest odstający, ale metoda, której używają R i ggplot, to "reguła 1.5". Jeżeli punktem danych jest:

  • mniej niż Q1 - 1,5*IQR
  • większy niż Q3 + 1,5*IQR

Następnie punkt ten jest klasyfikowany jako "odstający". Wąsy definiowane są jako:

Górny wąs = min(max (x), Q_3 + 1,5 * IQR)

Dolny wąs = max(min (x), Q_1 – 1,5 * IQR)

Gdzie IQR = Q_3-Q_1, długość pola. Więc górny wąs znajduje się przy mniejszym maksymalnej wartości x i Q_3 + 1,5 IQR, natomiast dolny wąs znajduje się przy większym najmniejszej wartości x i Q_1-1,5 IQR.

Informacje dodatkowe

  • Zobacz stronęwikipedia boxplot Dla alternatywnych reguł odstających.
  • istnieją różne sposoby obliczania kwantyli. Rzucić okiem?kwantyl do opisu dziewięciu różnych metod.

Przykład

Rozważ następujący przykład

> set.seed(1)
> x = rlnorm(20, 1/2)#skewed data
> par(mfrow=c(1,3))
> boxplot(x, range=1.7, main="range=1.7")
> boxplot(x, range=1.5, main="range=1.5")#default
> boxplot(x, range=0, main="range=0")#The same as range="Very big number"

Daje to następujący wykres: Tutaj wpisz opis obrazka

Zmniejszając zakres od 1,7 do 1,5 zmniejszamy długość wąsów. Jednak range=0 jest szczególnym przypadkiem - jest odpowiednikiem "range = infinity"

 53
Author: csgillespie,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2017-09-21 15:04:07

Myślę, że ggplot używa standardowych wartości domyślnych, takich samych jak boxplot: "wąsy rozciągają się do najbardziej ekstremalnego punktu danych, który jest nie większy niż [1.5] razy dłuższy niż długość pudełka od pudełka"

Zobacz: boxplot.statystyki

 13
Author: Tyler,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2011-02-09 15:41:43

P1IMSA Tutorial 8-zrozumienie działek Box i Whisker wideo oferuje wizualne wyjaśnienie krok po kroku (Tukey) działek box i whisker.

W 4m 23s wyjaśniam znaczenie końcówek wąsów i ich związek z 1,5 * IQR.

Chociaż Wykres pokazany w filmie został renderowany za pomocą D3.js zamiast R, jego objaśnienia współgrają ze wspomnianymi implementacjami r boxplots.

 0
Author: Ken Lin,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-04-10 20:33:22