Mostrar la distribución con histogramas

  1. Educación
  2. Ciencia
  3. Biología
  4. Mostrar la distribución con histogramas

Libro Relacionado

Bioestadística para tontos

Por John Pezzullo

Los histogramas son gráficos de barras que muestran qué fracción de los sujetos tiene valores que caen dentro de los intervalos especificados. El propósito principal de un histograma es mostrar cómo se distribuyen los valores de un valor numérico. Esta distribución es una aproximación de la verdadera distribución de frecuencia de la población para esa variable.

La curva suave muestra cómo se distribuyen los valores del coeficiente intelectual en una población infinitamente grande. La altura de la curva en cualquier valor de CI es proporcional a la fracción de la población en la vecindad inmediata de ese CI. Esta curva tiene la típica forma de “campana” de una distribución normal.

El histograma indica cómo se pueden distribuir los CI de 60 sujetos muestreados al azar de la población. Cada barra representa un intervalo de valores de CI con un ancho de diez puntos de CI, y la altura de cada barra es proporcional al número de sujetos en la muestra cuyo CI se encuentra dentro de ese intervalo.

Distribuciones logarítmicas normales

Debido a que una muestra es sólo una representación imperfecta de la población, determinar la forma exacta de una distribución puede ser difícil a menos que el tamaño de la muestra sea muy grande. Sin embargo, un histograma generalmente ayuda a detectar datos sesgados.

Una forma sesgada es típica de una distribución logarítmica normal, que ocurre muy a menudo en el trabajo biológico. Se llama log-normal porque si se toma el logaritmo de cada valor de datos (no importa qué tipo de logaritmo se tome), los logs resultantes tendrán una distribución normal.

Así que es una buena práctica preparar un histograma para cada variable numérica que planeas analizar, para ver si está notablemente sesgada y, si es así, si una “transformación” logarítmica hace que la distribución sea más casi normal.

Otras distribuciones anormales

La log-normalidad no es el único tipo de no-normalidad que puede surgir en los datos del mundo real. Dependiendo del proceso subyacente que da lugar a los datos, los números pueden distribuirse de otras maneras.

Por ejemplo, los conteos de eventos a menudo se comportan de acuerdo con la distribución de Poisson y pueden normalizarse, al menos aproximadamente, tomando la raíz cuadrada de cada conteo (en lugar del logaritmo, como se hace con los datos log-normales). Otros procesos pueden dar lugar a datos sesgados a la izquierda o a datos con dos (o más) picos.

¿Y si ni la transformación log-normal ni la transformación de raíz cuadrada normalizan los datos sesgados? Un enfoque es utilizar la transformación Box-Cox, que tiene esta fórmula general: Transformado X = (XA- 1)/A, donde A es un parámetro ajustable que puede variar de valores negativos a positivos.

Dependiendo del valor de A, esta transformación puede hacer que los datos sesgados a la izquierda o a la derecha sean más simétricos (y más normalmente distribuidos). La figura muestra cómo la transformación Box-Cox puede ayudar a normalizar los datos sesgados.

Algunos programas le permiten variar A a través de un rango de valores positivos o negativos utilizando un control deslizante en la pantalla que puede mover con el ratón. A medida que desliza el valor A hacia adelante y hacia atrás, verá que el histograma cambia su forma de sesgada hacia la izquierda a simétrica y de sesgada hacia la derecha. Aquí, usar A = 0.12 normaliza los datos bastante bien.

Cuando A es exactamente 0, la fórmula Box-Cox se convierte en 0/0, lo que es indeterminado. Pero se puede demostrar que cuando A se acerca a 0 (ya sea por el lado positivo o negativo), la fórmula Box-Cox se convierte en la misma que la función logarítmica. Así que la transformación logarítmica es sólo un caso especial de la transformación más general de Box-Cox.

Si no puede encontrar ninguna transformación que haga que sus datos parezcan aproximadamente normales, entonces tiene que analizar sus datos usando métodos no paramétricos, los cuales no asumen que sus datos se distribuyen normalmente.

  • Add Your Comment