La semana antepasada, hablamos de Daniel Kahneman, uno de los psicólogos más importantes de la historia.
Lamentablemente, hoy te tengo que contar algo no tan bueno de este personaje. En “Pensar rápido, pensar despacio”, su libro éxito de ventas, Kahneman se equivocó.
Y no fue una metida de pata piola. Se equivocó bastante.
¿Qué pasó?
Cometió un error muy común en la ciencia moderna: sacó conclusiones en base a estudios que no pasaban un estándar mínimo de validez: haber sido replicados.
No obstante, esta edición no es para crucificar a Kahneman. Lo que quiero, es contarte sobre este problema, el cual es muy frecuente, pero del que se habla alarmantemente poco. Es un problema grave, que de hecho tiene un nombre:
La crisis de la replicación.
Esta crisis partió en 2011, y puso en jaque muchísimos estudios científicos, algunos de ellos muy reconocidos. También, sembró dudas sobre la validez general de la ciencia, o al menos sobre cómo hacemos ciencia hoy.
Resolver esta crisis es clave para seguir confiando en el conocimiento científico. Pero vamos de a poco: ¿cómo funciona la ciencia hoy?
Cómo funciona la ciencia
En el mundo ideal, el proceso de un científico debería ser más o menos así:
Plantear una hipótesis, hacer experimentos y/o recopilar datos para probar su falsedad o verdad.
Analizar esos datos para obtener conclusiones.
Si las conclusiones son un aporte al conocimiento, publicar el trabajo en una revista científica.
El último paso es súper importante: la ciencia solo vive y evoluciona cuando se publica el conocimiento generado. Pero también es relevante por otra razón: de esta forma, otros científicos del mundo pueden replicar el proceso de experimentación y análisis y comprobar si las conclusiones se repiten o no.
Esta última parte es indispensable para comprobar que el descubrimiento es real y no una casualidad. Este proceso, se conoce como replicación, y es lo que está en crisis.
Cómo partió la crisis
Imagina que tienes un amigo cuentero que te dice que tiene habilidades extrasensoriales: según él, si le pasas un mazo de cartas, podrá adivinar el color del 70% de estas, y lo ha logrado varias veces en su casa.
(Como son solo dos colores en un mazo, todos los que no tenemos superpoderes deberíamos adivinar un 50%, en promedio).
Lo que todos haríamos, sería decirle a tu amigo “el vidente” que lo demuestre contigo presente. Esto sería justamente un intento de replicación.
Resulta que uno de los hallazgos que hizo que la comunidad científica se diera cuenta de que estaba en medio de una crisis, fue la publicación de un estudio donde el investigador decía – igual que tu amigo – que había probado que había personas con habilidades extrasensoriales.
Era un reputado investigador publicando en una revista muy prestigiosa, por lo que era muy sorprendente que apareciera un hallazgo tan fuera de serie.
Por esto mismo, varios científicos hicieron zoom en los análisis y descubrieron que no tenían mucho sentido. Y cuando intentaron replicar los experimentos, no lograron obtener ninguno de los resultados a favor de las supuestas habilidades paranormales de los participantes.
Por cierto, esto fue en 2011, el mismo año del libro de Kahneman, lo cual explica por qué alcanzó a ser publicado sin estos cuestionamientos.
Volviendo a lo paranormal, ¿cómo una revista seria pudo haber publicado algo así? y ¿cuántos otros estudios en revistas prestigiosas tendrán los mismos problemas?
Resultó ser que muchos. Demasiados. En todas las ramas de la ciencia.
Por ejemplo:
En 2012, dos científicos descubrieron que solo el 11% de 53 estudios sobre el cáncer tenían replicaciones que pudieran confirmar sus conclusiones.
En 2015, se realizó un gran proyecto para replicar 100 estudios publicados en prestigiosas revistas de psicología. Los resultados solo se replicaron en un 36%.
En 2016, un estudio de la revista Science replicó 18 prestigiosos estudios de economía experimental. Solo se logró igualar los resultados de un 60%.
Y esto en revistas con reputación. Imagina la calidad de estudios que se publica en las revistas no tan buenas. El problema es enorme: se estima que al año se publican un millón de estudios y papers.
En resumen:
Es posible que una parte importante del conocimiento publicado, no sea correcta ya que nadie se tomó el trabajo de ver si se podía replicar o no. Por esto hablamos de que estamos en una crisis. La crisis de la replicación.
¿Y cómo llegamos a estar tan mal?
¿Qué estamos haciendo mal?
Hay varias razones que explican que hayamos llegado a este punto. Todas tienen que ver con cómo funciona la ciencia y la publicación de conocimiento científico a nivel sistémico.
Lo primero y más importante, es que a los investigadores los evalúan siempre según cuántos estudios publican y en qué revistas logran hacerlo. Si no logras publicar en revistas prestigiosas, tu carrera de investigador será un fracaso.
Esta presión hace que muchos investigadores se preocupen de encontrar resultados novedosos a toda cosa, usando metodologías ahí nomás.
Lo segundo, es que las revistas científicas siempre quieren publicar resultados novedosos y atractivos. Lamentablemente, publicar un estudio en el que se intenta replicar un experimento que ya se hizo, es poco sexy, y son muy pocas las revistas que lo hacen. Es menos sexy aún cuando se intenta replicar un experimento “exitoso” y no se obtienen los mismos resultados.
Este fenómeno se conoce como sesgo de publicación. Como ilustración: imagina que 20 investigadores hacen el mismo experimento por separado. De estos, solo 1 obtiene resultados interesantes, y los otros 19 no encuentran nada. Al que tuvo la suerte de encontrar algo, le publicarán el estudio, y de los otros 19, probablemente nadie nunca sabrá que lo intentaron.
Esto se relaciona con una tercera causa de esta crisis: la obsesión que hay en la comunidad científica con el “p-valor”. Por si no lo has escuchado, un p-valor, es un indicador que se obtiene de los datos de un estudio y que busca reflejar si sus resultados son válidos o no.
La convención – definida hace como 100 años – dicta que si el p-valor de tu estudio es menor a 0.05, entonces tu estudio es significativo. El problema es que con un p-valor de 0.05, en promedio uno de cada 20 estudios, serán falsos positivos. Es decir, se habrá encontrado un resultado significativo de pura suerte. Justamente lo que pasó, el ejemplo de los 20 científicos.
También, existe un fenómeno llamado “p-hacking”, en el que los investigadores – a veces de forma inconsciente, otras no tanto – analizan sus datos de forma conveniente para alcanzar alcanzar un p-valor significativo a toda costa.
Lo que sea para poder publicar y seguir avanzando con tu carrera científica.
Para terminar, ¿qué podemos hacer?
La comunidad científica lleva varios años desarrollando iniciativas para salir de esta crisis: desde transparentar más los datos y metodologías de los estudios, promover la publicación de resultados poco sexys y la realización de estudios de replicación y cambiar el estándar del p-valor.
Estos cambios son esenciales para que el método científico salga fortalecido y pueda seguir siendo una de las grandes herramientas que tenemos para conocer el mundo.
Pero mientras no logremos arreglarlo, debemos mantener un nivel de duda razonable. Mi intención con esto no es decirte que ahora no podemos confiar en la ciencia. Pero sí recordarte que la ciencia es una actividad humana y como tal, es susceptible a sesgos e influencias sistémicas que la pueden corromper.
Por eso, la próxima vez que escuches de algún “estudio” lo primero que quiero que te preguntes es: ¿y alguien ha podido replicarlo?
Palabras al cierre
Ingenuamente pensé que podía hacer este artículo más corto. ¿Te pareció demasiado largo? Cuéntame si fue así.
Estuve apunto de dividirlo en dos partes, y de hecho me quedé con varias cosas que no dije. Pero al final opté por lo sano: publicarlo así no más. “Mejor publicado que perfecto”.
La lista de correos ha crecido harto los últimos meses. Si eres de las personas “nuevas”, ¡gracias por sumarte! Además, te quiero pedir un favor:
Si te gusta lo que hago, me ayudas mucho si lo compartes con tus amigos. Puedes usar tu enlace único que encuentras acá:
Y si logras que tres personas se suscriban, estarás participando en un sorteo de un libro que haremos las próximas semanas.
También me ayudas con un “me gusta”, con el botón al final de este correo.
Hasta el próximo domingo.
– Francis
Hola Francisco! Gracias por la columna. Te comparto una reflexión que me ha mantenido ocupado últimamente, cuando pienso en esta crisis:
- Específicamente, ¿qué "áreas" de la ciencia están más críticas, y por qué? Me da la impresión de que, salvo los ejemplos médicos, algunas ciencias sociales (nombraste psicología, economía conductual) sufren más de este problema. Y esto abre la puerta a otra pregunta: ¿todo resultado científico (social) es replicable? ¿Es inválido si no es replicable? ¿Qué pasa con las etnografías o estudios de caso? Creo que esto abre también otra cuestión sobre los paradigmas epistemológicos más comunmente utilizados en nuestro dia a día, y por qué le creemos más a resultados cuantitativos y significativos que a las descripciones cualitativas.
Me pareció precisa la extensión del artículo