Pensar de manera estadística

Revisando los mapas de distribución de probabilidad de morir de cáncer en España entre 2004 y 2008, se pueden hacer muchas lecturas. Yo destaco dos datos

Los menores riesgos de mortalidad por cáncer de pulmón se dan en zonas rurales escasamente pobladas. Esto se debe a que estas zonas están más libres de polución, las aguas más puras y los alimentos son en su mayoría frescos y naturales.

Los mayores riesgos de mortalidad por cáncer de pulmón también se dan en zonas rurales escasamente pobladas. Esto se debe a que estas zonas tienen peor acceso a buena asistencia médica, y la pobreza y carencias educativas propias de la forma de vida del campo hace que las personas tengan más tendencia a llevar dietas ricas en grasas y exceso de alcohol y tabaco.

Hay algo raro en esos dos párrafos. ¿Se puede explicar tanto la alta como la baja incidencia de mortalidad por cáncer en zonas igualmente rurales y escasamente pobladas?, ¿cuál de las dos afirmaciones es la verdadera?

Respuesta: Ninguna.

Pero dejemos por un momento el tema del cáncer. Pasemos a otro problema.

Imaginemos una gran urna, llena de bolas de colores. Unas bolas son rojas, y otras son blancas.

41108799-Un-mont-n-de-bolas-blancas-y-rojas-interact-an-Imagen-3D-rinden--Foto-de-archivo.jpg

Encargamos a dos personas, Ana y Carlos, que saquen a ciegas bolas de la urna. Pero les damos unas reglas:

  • Ana deberá sacar las bolas de dos en dos, sin mirarlas.
  • Carlos deberá sacar las bolas de seis en seis. También sin mirarlas.

Si observamos los colores de las bolas que van sacando Ana y Carlos, nos fijamos en algo que resulta obvio: para Ana, es mucho más fácil sacar todas las bolas del mismo color, ya que solo tiene que sacar dos bolas cada vez. Carlos ha de sacar seis, de manera que es mucho más complicado que las seis bolas que saque sean todas rojas, o todas blancas.

Ahora, hagamos un pequeño esfuerzo. Imaginemos que Ana y Carlos, al sacar las bolas, van colocándolas sobre un mapa de España. En las ciudades más pobladas, ponen más bolas que en las ciudades menos pobladas, de manera que el número de bolas en cada ciudad, representa la población de la misma.

Al momento vemos que hay muchas poblaciones pequeñas donde todas las bolas son del mismo color. Son las poblaciones donde Ana ha ido dejando las bolas de dos en dos. También nos fijamos que, en las ciudades grandes, en las que Carlos ha ido poniendo bolas de seis en seis, las bolas tienden a estar mezcladas. Hay algunas blancas, y otras rojas. Pero es muy raro ver una ciudad grande con todas las bolas blancas o todas la bolas rojas.

De esta manera tan visual y sencilla, acabamos de resolver el problema de la incidencia de cáncer. Y, sin saberlo, hemos usado una de las leyes más conocidas de la estadística: la Ley de los Grandes Números.

Por si no lo terminamos de ver claro, imaginemos que las bolas rojas representan “cáncer", y las bolas blancas representan “no cáncer". Como hemos entendido de manera obvia, es mucho más sencillo tener todas las bolas blancas o todas las bolas rojas cuando el número de bolas a sacar es pequeño. O dicho de otra manera: los casos extremos (poca incidencia de cáncer y mucha incidencia de cáncer) se van a dar casi con toda seguridad en zonas poco pobladas (con menor número de bolas).

¿Lo queremos aun más claro? Simplemente analizando los resultados de los mapas, la mayor o menor incidencia de casos no tiene nada que ver con el hecho de que la vida en el campo sea teóricamente más sana, o que el acceso a servicios sanitarios sea teóricamente más difícil. Es un resultado causado por el tamaño de la muestra elegida (considerar casos por poblaciones).

Por matizar: para determinar si realmente la cobertura sanitaria debe o no mejorar en zonas rurales, y eso puede ser causa de mayor incidencia de cáncer, hay que tomar muestras suficientemente grandes e intervalos de tiempo suficientemente amplios. De otra forma, es casi seguro que vamos a incurrir en errores debidos a problemas en las mediciones.

Esto sucede porque nuestra intuición es básicamente inútil cuando se enfrenta a problemas de naturaleza estadística.

Este ejemplo de cómo se deben afrontar los problemas estadísticos, está basado en un ejemplo real narrado por los matemáticos Howard Weiner y Harris L. Zwerling, que trataban de explicar este mismo fenómeno en su publicación Evidence Than Smaller Schools Do Not Improve Student Achievement. Y lo cita Daniel Kanheman en su obra Thinking fast and slow.

¿Parece simplemente una anécdota entretenida? Yo creo que es bastante más que eso.

A diario, medios de comunicación interpretan datos de naturaleza estadística de manera deliberadamente falsa, apelando a dos características de nuestro cerebro:

  • Siempre utilizamos el sistema intuitivo por delante del racional. Así que basta con relacionar la mayor incidencia de casos de cáncer en determinadas zonas con las políticas educativas y sociales del partido que gobierne en la región. Ya tenemos, a ojos de nuestra intuición, un culpable claro.

  • La familiaridad y la realidad acaban por ser indistinguibles. Es otra manera de decir que una mentira mil veces repetida se convierte en verdad. Y que basta con poner juntos dos hechos aislados (incidencia de cáncer y gobierno por parte de un determinado partido) para que el cerebro se invente una relación entre ambos.

¿Acaso no vale la pena entender un poco más acerca de cómo pensar de manera estadística, aunque sea poco intuitivo, para evitar ser manipulado?


comments powered by Disqus