miércoles, 12 de diciembre de 2018

2. Medidas de centralización

Media, mediana y moda

Un conjunto N de observaciones, N números, puede que por si solo no nos diga nada. En cambio, si además nos dicen que están situados alrededor de uno o varios valores centrales ya tenemos una referencia que sintetiza la información.

Moda. Si una observación se repite más que cualquier otra, será considerada la moda de esos datos. Por ejemplo, si tenemos las observaciones 6, 7, 8, 6, 7, 6, 8, 6, 9 y agrupamos los datos (6, 4 veces), (7, 2 veces), (8, 2 veces), (9, 1 vez), vemos claramente que el valor 6 aparece más que ningún otro. En este caso la moda es 6.
En el caso de variable continua, consideraremos por moda a la marca del intervalo de mayor frecuencia, cuando esto ocurra. También puede ocurrir que haya dos modas o que no haya ninguna que destaque.

Mediana. El número tal que la mitad de las observaciones son mayores que él y la otra mitad menores. El valor de la mediana, será aquel valor que deje a la izquierda el 50% de los datos y a la derecha el otro 50%. Por ejemplo si tenemos las observaciones 6, 7, 8, 6, 7, 6, 8, 6, 9, las ordenamos: 6, 6, 6, 6, 7, 7, 8, 8, 9. El número 7 deja a su izquierda 4 observaciones y a su derecha otras 4, por lo tanto es la mediana. ¿Qué pasa si el total de las observaciones es par? Por ejemplo: 6, 6, 6, 7, 7, 8, 8, 8, 9, 9. Tendríamos que sumar estos dos números centrales y dividirlo por 2. La mediana es 7,5.

Media. La suma de los N números dividida entre N. Por ejemplo, para 3, 4 y 5, (3+4+5)/3=12/3=4; para 1, 1, 4, 8, 8 y 8, (1*2+4+8*3)/6=5.

"Visualisation mode median mean" by RIDC NeuroMat CC BY-SA 4.0 (2018)

Media. Evolución de esta al añadir y/o cambiar un dato.
  1. Para los datos 5 y 5 la media es 5. Si añadimos un 5 se mantiene en 5. Si añadimos un 8 la media pasa a ser 6.
  2. Si tenemos 9 datos con media 5, necesitamos añadir un 6 para que la media pase a ser 5,1. Si tenemos 19 datos con media 5, necesitamos un dato de valor 7 para que la media suba a 5,1.
  3. Para un conjunto de datos con media 5, si añadimos otro con media 5, por ejemplo 6 y 4, el nuevo conjunto conserva la media.

Mediana. Evolución de esta al añadir y/o cambiar un dato.
  1. La mediana, para los datos 2, 3 y 4 es Me=3. Si cambiamos el 4 por 5 o por 6 o por cualquier otro valor mayor sigue siendo Me=3.
  2. En cambio, si añadimos otro dato y tenemos 2, 3, 4 y 4, por ejemplo, la Me=3,5. Y si ahora añadimos un quinto valor, un 4 o un 5 o un 6 o cualquier otro mayor que 4, la mediana en 2, 3, 4, 4 y X pasa a ser 4. Da igual si el valor X es 5, 10 o 50.

Media y mediana comparadas.
Para los datos 4 y 6 la media y la mediana coinciden en 5. Añadir un 8 o un 11 da los mismo para la mediana, que pasa a ser en ambos casos 6. Sin embargo, la media con un 8 pasa a ser 6 y con un 11 pasa a ser 7. Los valores 8 y 11 se consideran observaciones atípicas, están distanciados del resto de valores, tiran de la media y no afectan a la mediana. Si los datos estuvieran repartidos simétricamente respecto a un valor, ese valor sería a la vez la media y la mediana. En cambio, si los valores a un lado de la mediana están más alejados de ella que de los del otro lado, la media se desplaza hacia esos valores alejados que tiran de ella. Hay una asimetría.

Medidas de posición: cuartiles y percentiles.
Dado un conjunto de datos numéricos además de la mediana podemos considerar otras medidas de posición.
  • Si nos fijamos en el primer valor que supera al 25% o al 75% de los datos, estamos hablando del primer y tercer cuartil, Q1 y Q3. La mediana es igual al segundo cuartil (Q2), ya que como hemos visto, deja a la izquierda y derecha el 50% de los datos.
  • Para otros valores como el 10%, o el 80% hablamos de percentiles, P10 y P80.
"Quantile graph" by René Schwarz CC BY-SA 3.0 (2018)

No hay comentarios:

Publicar un comentario