Ir al contenido

Diagrama de caja

De Wikipedia, la enciclopedia libre
Del experimento de Michelson y Morley.

Un diagrama de caja (también, diagrama de caja y bigotes o box plot) es un método estandarizado para representar gráficamente una serie de datos numéricos a través de sus cuartiles. De esta manera, se muestran a simple vista la mediana y los cuartiles de los datos,[1]​ y también pueden representarse sus valores atípicos. Conviene recordar que se utilizan las bisagras de Tukey, y no los cuartiles, a la hora de dibujar la caja del gráfico, aunque los resultados son semejantes en muestras grandes.

Tipos de variables que se necesitan

[editar]

Discretas y Continuas.

Componentes del diagrama de caja

[editar]
Componentes del diagrama de caja

El diagrama de caja incluye los siguientes elementos:

  • rango (sin datos atípicos)
  • datos atípicos
  • rango intercuartil (también conocido como RIC)
  • cuartiles (Q1, Q2 y Q3)
  • mediana (Q2)
  • mínimo y máximo

Elaboración manual del diagrama de caja

[editar]

Para la elaboración de manera manual de este tipo de gráfico, primero se obtiene la media de cada intervalo, y luego la mediana de la tabla de frecuencias en general. Con estos datos, se utiliza la fórmula de la media de cada intervalo elevado a la mediana. Los datos obtenidos en esta fórmula son la interpretación.

                            +-----+-+    
  *       o     |-----------|     | |---|
                            +-----+-+    
                                         
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+
0   1   2       4   5       7       9   10      12          15
  • Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3 y el rango intercuartílico (RIC):
En el ejemplo, para trazar la caja:
  • Valor 7: es el Q1 (25% de los datos)
  • Valor 8.5: es el Q2 o mediana (el 50% de los datos)
  • Valor 9: es el Q3 (75% de los datos)
  • Rango intercuartílico (Q3–Q1)
  • Los «bigotes», las líneas que se extienden desde la caja, se extienden hasta los valores máximo y mínimo de la serie o hasta 1,5 veces el RIC.

Cuando los datos se extienden más allá de esto, significa que hay valores atípicos en la serie y entonces hay que calcular los límites superior e inferior, Li y Ls.

Para ello, se consideran atípicos los valores inferiores a Q1–1.5·RIC o superiores a Q3+1.5·RIC.
En el ejemplo:
  • inferior: 7–1.5·2 = 4
  • superior: 9+1.5·2 = 12
Ahora se buscan los últimos valores que no son atípicos, que serán los extremos de los bigotes.
  • En el ejemplo: 4 y 10
  • Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).
En el ejemplo: 0,5 y 2,5
  • Además, se pueden considerar valores extremadamente atípicos aquellos que exceden Q1–3·RIC o Q3+3·RIC.
De modo que, en el ejemplo:
  • inferior: 7–3·2 = 1
  • superior: 9+3·2 = 15

Utilidad

[editar]
  • Proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución no es simétrica.
  • Son útiles para ver la presencia de valores atípicos también llamados outliers.
  • Pertenece a las herramientas de la estadística descriptiva. Permite ver cómo es la dispersión de los puntos con la mediana, los percentiles 25 y 75 y los valores máximos y mínimos.
  • Ponen en una sola dimensión los datos de un histograma, facilitando así el análisis de la información al detectar que el 50 % de la población está en los límites de la caja.

Referencias

[editar]
  1. «BBC Bitesize - GCSE Maths - Representing data - Edexcel - Revision 7». BBC Bitesize (en inglés británico). Consultado el 12 de noviembre de 2018. 

Enlaces externos

[editar]
pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy