Diagrama de caja

gráfico que está basado en cuartiles y mediante el cual se visualiza la distribución de un conjunto de datos

También conocido como diagrama de caja y bigote, box plot, box-plot o boxplot. Es un método estandarizado para representar gráficamente una serie de datos numéricos a través de sus cuartiles. De esta manera, el diagrama de caja muestra a simple vista la mediana y los cuartiles de los datos,[1]​ pudiendo también representar los valores atípicos de estos. Conviene recordar que se utilizan las bisagras de Tukey, y no los cuartiles a la hora de dibujar la caja del gráfico, aunque los resultados son semejantes en muestras grandes.

Componentes del diagrama de cajaEditar

 
Componentes del diagrama de caja

El diagrama de caja es compuesto de los siguientes elementos:

  • Rango (sin datos atípicos)
  • Datos atípicos.
  • Rango intercuartil (también conocido como RIC)
  • Cuartiles (denotados como Q1, Q2 y Q3)
  • Mediana (Q2)
  • Mínimo y máximo.



Elaboración manual del diagrama de cajaEditar

Para la elaboración de manera manual de este tipo de gráfico, primero obtenemos la media de cada intervalo, y luego la mediana de la tabla de frecuencias en general. Con estos datos utilizamos la fórmula de la media de cada intervalo elevado a la mediana. Los datos obtenidos en esta fórmula son la interpretación.

                            +-----+-+    
  *       o     |-----------|     | |---|
                            +-----+-+    
                                         
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+
0   1   2       4   5       7       9   10      12          15
  • Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3 y el rango intercuartílico (RIC):
En el ejemplo, para trazar la caja:
  • Valor 7: es el Q1 (25% de los datos)
  • Valor 8.5: es el Q2 o mediana (el 50% de los datos)
  • Valor 9: es el Q3 (75% de los datos)
  • Rango intercuartílico (Q3–Q1)
  • Los «bigotes», las líneas que se extienden desde la caja, se extienden hasta los valores máximo y mínimo de la serie o hasta 1,5 veces el RIC.

Cuando los datos se extienden más allá de esto, significa que hay valores atípicos en la serie y entonces hay que calcular los límites superior e inferior, Li y Ls.

Para ello, se consideran atípicos los valores inferiores a Q1–1.5·RIC o superiores a Q3+1.5·RIC.
En el ejemplo:
  • inferior: 7–1.5·2 = 4
  • superior: 9+1.5·2 = 12
Ahora se buscan los últimos valores que no son atípicos, que serán los extremos de los bigotes.
  • En el ejemplo: 4 y 10
  • Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).
En el ejemplo: 0,5 y 2,5
  • Además, se pueden considerar valores extremadamente atípicos aquellos que exceden Q1–3·RIC o Q3+3·RIC.
De modo que, en el ejemplo:
  • inferior: 7–3·2 = 1
  • superior: 9+3·2 = 15

UtilidadEditar

  • Proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución no es simétrica.
  • Son útiles para ver la presencia de valores atípicos también llamados outliers.
  • Pertenece a las herramientas de las estadística descriptiva. Permite ver como es la dispersión de los puntos con la mediana, los percentiles 25 y 75 y los valores máximos y mínimos.
  • Ponen en una sola dimensión los datos de un histograma, facilitando así el análisis de la información al detectar que el 50% de la población está en los límites de la caja.

ReferenciasEditar

  1. «BBC Bitesize - GCSE Maths - Representing data - Edexcel - Revision 7». BBC Bitesize (en inglés británico). Consultado el 12 de noviembre de 2018. 

Enlaces externosEditar