Sin categoría

P-Valor: Nadie me entiende

A raíz de una gran cantidad de estudios científicos (sobretodo a nivel metodológico) realizado con respecto al uso, mal interpretaciones y limitaciones del valor p en los últimos 30 años, diversos organismos se han pronunciado a fin de aclarar sus significados y/o plantar algunas condiciones en su uso.
La ASA (Asociación Estadística Americana), una de las mayores organizaciones que reúne expertos estadísticos en el mundo, el 5 de febrero de 2016 publicó una declaración (formato de artículo) definiendo cual es el significado del valor p, estableciendo principios sobre lo que es y no es, y recomendaciones sobre su uso.
A continuación presentamos una breve síntesis de lo que encontrará en el artículo (referencia al final). Como siempre, se recomienda leer la fuente original a fin de obtener la mayor información posible:
Principios:
  1. Los p-valores pueden indicar como de incompatible son los datos con respecto a un modelo estadístico específico.
    A menudo la hipótesis nula postula la ausencia de un efecto, como el que no haya diferencia entre dos grupos, o la ausencia de una relación entre dos variables. Cuanto menor sea el valor p, mayor es la incompatibilidad estadístico de los datos con la hipótesis nula. Esta incompatibilidad se puede interpretar como el poner en duda o presentar evidencias contra la hipótesis nula o suposiciones subyacentes de los modelos.
  2. Los p-valores no miden la probabilidad en que la hipótesis estudiada sea cierta, ni la probabilidad de que los datos se produzcan solo por el azar.
    A menudo, los investigadores desean convertir el valor-p en una afirmación sobre la verdad de una hipótesis nula o de que el azar producen los datos observados. El valor-p es una afirmación acerca de los datos en relación a una explicación hipotética especfífica, y no una afirmación acerca de la propia explicación.
  3. Las conclusiones científicas así como las decisiones empresariales o políticas no deben basarse solamente en si un valor-p pasa un umbral específico
    En la práctica, el análisis de datos o la inferencia científica se ha reducido a una regla mecánica aceptado por todos (como lo es «p<.05») para justificar las afirmaciones o conclusiones científicas, sin embargo esto puede conducir a creencias erróneas y una mala toma de decisiones.
    Una conclusión no se convierte inmediatamente en verdadero en un lado de la brecha y falso en la otra. A pesar de que muchas consideraciones prácticas requieren a menudo decisiones binarias de «si» o «no», no significa que los valores-p solamente puedan asegurar que una decisión es «correcta» o «incorrecta». El uso generalizado del «estadísticamente significativo» como licencia para realizar afirmaciones de un descubrimiento científico conduce a una distorsión significativa del proceso científico.
    Los investigadores deben aportar muchos factores contextuales para poder realizar inferencias científicas, tale como el diseño de estudio, calidad de mediciones, evidencia externa para el fenómeno de estudio y validez de supuestos que subyacen el análisis de datos.
  4. Una adecuada inferencia requiere un informe completo y una total transparencia.
    Los valores-p y los análisis relacionados no deben ser reportados de forma selectiva.
    Cada vez que un investigador elige que presentar sobre sus resultados estadísticos, la interpretación de los mismos se ve gravemente comprometida si el lector no tiene conocimiento dicha «elección». Las conclusiones científicas basadas en los valores-p y los estadísticos relacionados no pueden extraerse sin al menos conocer cuántos y qué análisis se llevó a cabo, y de que forma se seleccionaron dichos análisis para la presentación de los informes.
  5. El valor-p o la significancia estadística no miden el tamaño del efecto ni la importancia de los resultados.
    La significación estadística no es equivalente a la significancia científica, humana o económica. Los valores-p pequeños no necesariamente implican la presencia de efectos más grandes o importantes. Cualquier efecto, no importa cuán diminuto sea, puede producir un valor-p pequeño si el tamaño de la muestra o la precisión de la medición es lo suficientemente alta, y grandes efectos podrían producir valores-p poco mediocres si el tamaño de la muestra es pequeño o las meciones son imprecisas.
  6. Por sí mismo, un valor-p no ofrece una buena medida de evidencia con respecto a un modelo o hipótesis
    Los investigadores deben reconocer que un valor-p fuera de contexto o cualquier otra evidencia proporciona una información limitada de los resultados. Un valor-p próximo a .05 tomada solo por si mismo, ofrece una evidencia débidl en contra de la hipótesis nula, del mismo modo un valor-p relativamente más grande no implica evidencia suficiente para estar a favor de la hipótesis nula; muchas hipótesis pueden ser igual o más consistentes con los datos observados.
Los investigadores deben reconocer que un p-valor sin contexto o cualquier otra evidencia sin contexto proporciona información limitada. Por ejemplo, un valor de p cerca de 0,05 tomada en sí misma ofrece una prueba muy debil en contra de la hipótesis nula. Del mismo modo, una valor-p relativamente grande no implica ser una evidencia a favor de la hipótesis nula; muchas otras hipótesis pueden ser igual o más coherente con los datos observados. Por estas razones, el análisis de datos no debe terminar con el cálculo de un valor de p cuando otros enfoques son apropiadas y factibles.
Otros Enfoques:
En vista de los malos usos e ideas erróneas frecuentes acerca de los valores-p, algunos estadísticos recomiendan complementar o sustituir dichos valores con otros enfoques, como lo son los intervales de confiana, credibilidad y predicción; los métodos Baysianos; cocientes de probabilidad o factores de Bayes; y otros como el decision-theoretic modeling y tasas de falso descubrimiento.Todas estas medidas y enfoques se basan en supuestos adicionales, pero pueden abordar más directamente el tamaño de un efecto (y su incertidumbre asociada) o si la hipótesis es correcta.
Conclusiones
La buena práctica estadística, como un componente esencial de la buena práctica científica, hace hincapié en los principios del buen diseño del estudio y la conducta, una variedad de resúmenes numéricos y gráficos de datos, la comprensión del fenómeno en estudio, la interpretación de los resultados en contexto, una información completa y adecuada lógica y la comprensión cuantitativa de lo que significan los resúmenes de datos. Ningún índice, número o coeficiente único debería sustituir el razonamiento cientifico.
Referencia:
Wasserstein, R. (2016). ASA Statement on Statistical Significance and P. The American Statistician, 70 (2).