2.5 Comparaciones a posteriori
Si el contraste estadístico indica que existen diferencias significativas entre las variables resulta necesario determinar cuáles son esas diferencias. Para ello, se han propuesto distintos métodos. Aquí solo mencionaremos algunos de ellos: el procedimiento basado en el criterio de Bonferroni, el criterio de Sidak y la prueba de Tukey.
2.5.1 Criterio de Bonferroni
En un determinado estudio existen \({2 \choose n}\) parejas de medias que han de ser comparadas. En el caso del ejemplo 1, tenemos que decidir si \(\mu_A \neq \mu_B\), \(\mu_A \neq \mu_C\) ó \(\mu_C \neq \mu_B\). Si solo tuviéramos que realizar una comparación la tasa de error sería \(\alpha\) (error tipo I). Si \(\alpha\) vale 0,05 la probabilidad de cometer un error tipo I será 0,05. Sin embargo, cuando realizamos más de una comparación esta probabilidad será diferente. Mientras mayor sea el número de comparaciones a realizar, mayor será la probabilidad de rechazar la hipótesis nula cuando es verdadera (error tipo I). En nuestro caso, si tenemos que realizar 3 comparaciones la probabilidad de no cometer un error tipo I será:
\[ P(\text{ningún error tipo I}) = {3 \choose 0}.05^0.95^3 = 0.857 \]
Por lo que cometer algún error tipo I será 1 - 0,857 = 0,143. Es decir, la tasa de error tipo I aumenta a medida que aumentamos el número de comparaciones. En general, podemos considerar que la probabilidad de cometer al menos un error tipo I en k comparaciones utilizando \(\alpha\) en cada comparación es:
\[ P(un\; error\; tipo\; I\;o\;más) = 1 - (1 - \alpha)^k \]
El criterio de Bonferroni es uno de los procedimientos utilizados para corregir la tasa de error. Consiste en dividir el nivel de significación \(\alpha\) (habitualmente \(\alpha\) = 0,05) por el número de comparaciones que pueden realizarse en el diseño. En nuestro ejemplo será \(\alpha_{CB}\) = 0,05/3 = 0,01667. Esta corrección tiene sentido en el caso de que se aplique varias veces una misma prueba estadística en un estudio, ya que la probabilidad de rechazar \(H_0\) aumenta a medida que se incrementan las comparaciones posibles. Un criterio ligeramente diferente es el propuesto por Sidak. Este método es algo menos conservador que el de Bonferroni, ya que se cumple que \(\alpha_{CB} \leq \alpha_{CS}\) Con ambos criterios se asume que las comparaciones son independientes.
\[ \alpha_{CS} = 1 - (1 - \alpha)^{1/k} \]
Aplicado a los datos del ejemplo 2.1 tenemos:
Comparación del grupo A con el C:
##
## Two Sample t-test
##
## data: a and c
## t = 3.8991, df = 8, p-value = 0.004551
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 6.128625 23.871375
## sample estimates:
## mean of x mean of y
## 25 10
Comparación del grupo C con el B:
##
## Two Sample t-test
##
## data: c and b
## t = -2.0197, df = 8, p-value = 0.0781
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -16.277442 1.077442
## sample estimates:
## mean of x mean of y
## 10.0 17.6
Encontramos que sólo existen diferencias significativas entre el grupo A de los individuos sanos y el grupo C de los niños con el tumor de meduloblastoma. Como el nivel de riesgo es igual a 0,005, menor que el criterio de significación de Bonferroni (0.0167), concluimos que existen diferencias significativas entre ambos grupos. Aplicando el criterio de Sidak obtendríamos las mismas conclusiones en este caso:
\[ \alpha_{CS} = 1 - (1 - \alpha)^{1/k} = 1 - (1 - 0,05)^{1/3} = 0.01695 \]
2.5.2 Prueba de Tukey
Se basa en la distribución del rango estudentizado. Esta distribución tiene en cuenta el número de comparaciones entre medias existentes en el diseño. Se parte de la obtención de lo que Tukey denominó diferencia de medias significativas (DMS) que es la diferencia mínima que debe existir entre dos medias para considerar que sus medias muestrales son distintas:
\[ DMS_{Tukey} = q_{J,N-J; 1- \alpha_{F}}\sqrt{MCE/n} \]
donde q es el cuantil de la distribución del rango estudentizado que corresponde a un nivel de significación \(\alpha_F\) con J medias y N - J grados de libertad. Aplicado al ejemplo 2.1 los resultados serían los siguientes:
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = aciertos ~ grupo)
##
## $grupo
## diff lwr upr p adj
## B-A -7.4 -18.5626 3.7626 0.2213224
## C-A -15.0 -26.1626 -3.8374 0.0097002
## C-B -7.6 -18.7626 3.5626 0.2058874
En este caso también encontramos diferencias significativas entre los grupos A y C.