Fisher no tomó bien las críticas de Neyman y Pearson. En respuesta, calificó sus métodos “infantiles” y “académico absurdamente”. En specific, Fisher no estuvo de acuerdo con la thought de decidir entre dos hipótesis, en lugar de calcular la “importancia” de la evidencia disponible, como había propuesto. Mientras que una decisión es definitiva, sus pruebas de significado solo dieron una opinión provisional, que podría revisarse más tarde. Aun así, el atractivo de Fisher para una mente científica abierta se vio un poco socavada por su insistencia de que los investigadores deberían usar un límite del 5 por ciento para un valor p “significativo”, y su afirmación de que “ignoraría completamente todos los resultados que no alcanzaron este nivel”.
La acritud daría paso a décadas de ambigüedad, ya que los libros de texto gradualmente confundieron las pruebas de hipótesis nula de Fisher con el enfoque basado en la decisión de Neyman y Pearson. Un debate matizado sobre cómo interpretar la evidencia, con la discusión del razonamiento estadístico y el diseño de experimentos, se convirtió en un conjunto de reglas fijas para que los estudiantes los sigan.
La investigación científica convencional se basaría en los umbrales simplistas del valor p y las decisiones verdaderas o falsas sobre las hipótesis. En este mundo aprendido de roles, los efectos experimentales estaban presentes o no lo estaban. Los medicamentos funcionaban o no lo hicieron. No sería hasta la década de 1980 que las principales revistas médicas finalmente comenzaron a liberarse de estos hábitos.
Irónicamente, gran parte del cambio se remonta a una thought que Neyman acuñó a principios de la década de 1930. Con las economías luchando en la Gran Depresión, notó que había una creciente demanda de concepts estadísticas sobre la vida de las poblaciones. Desafortunadamente, había recursos limitados disponibles para que los gobiernos estudien estos problemas. Los políticos querían resultados en meses, o incluso semanas, y no había suficiente tiempo o dinero para un estudio integral. Como resultado, los estadísticos tuvieron que confiar en muestrear un pequeño subconjunto de la población. Esta fue una oportunidad para desarrollar algunas nuevas concepts estadísticas. Supongamos que queremos estimar un valor specific, como la proporción de la población que tiene hijos. Si probamos a 100 adultos al azar y ninguno de ellos son padres, ¿qué sugiere esto sobre el país en su conjunto? No podemos decir definitivamente que nadie tenga un hijo, porque si probamos un grupo diferente de 100 adultos, podríamos encontrar a algunos padres. Por lo tanto, necesitamos una forma de medir cuán seguros debemos estar sobre nuestra estimación. Aquí es donde entró la innovación de Neyman. Mostró que podemos calcular un “intervalo de confianza” para una muestra que nos cube con qué frecuencia debemos esperar que el verdadero valor de la población se encuentre en un cierto rango.
Los intervalos de confianza pueden ser un concepto resbaladizo, dado que requieren que interpretemos datos de la vida actual tangibles imaginando muchas otras muestras hipotéticas que se recopilan. Al igual que esos errores tipo I y tipo II, los intervalos de confianza de Neyman abordan una pregunta importante, solo de una manera que a menudo perpleja a los estudiantes e investigadores. A pesar de estos obstáculos conceptuales, hay valor en tener una medición que puede capturar la incertidumbre en un estudio. A menudo es tentador, particularmente en los medios y la política, centrarse en un valor promedio único. Un valor único puede parecer más seguro y preciso, pero en última instancia es una conclusión ilusoria. En algunos de nuestros análisis epidemiológicos orientados al público, mis colegas y yo hemos elegido informar solo los intervalos de confianza, para evitar que la atención fuera de lugar fuera de valores específicos.
Desde la década de 1980, las revistas médicas se han centrado más en los intervalos de confianza en lugar de las afirmaciones independientes verdaderas o falsas. Sin embargo, los hábitos pueden ser difíciles de romper. La relación entre los intervalos de confianza y los valores P no ha ayudado. Supongamos que nuestra hipótesis nula es que un tratamiento tiene un efecto cero. Si nuestro intervalo de confianza estimado del 95 por ciento para el efecto no contiene cero, entonces el valor p será inferior al 5 por ciento, y según el enfoque de Fisher, rechazaremos la hipótesis nula. Como resultado, los documentos médicos a menudo están menos interesados en el intervalo de incertidumbre en sí, y en cambio están más interesados en los valores que tiene, o no tiene, contienen. La medicina podría estar tratando de ir más allá de Fisher, pero la influencia de su límite arbitrario del 5 por ciento permanece.
Extracto adaptado de Prueba: La ciencia incierta de la certeza, por Adam Kucharski. Publicado por Perfil Books el 20 de marzo de 2025, en el Reino Unido.