20 febrero 2011

Y repetimos: correlación no es causación.

Las correlaciones son herramientas estadísticas que permiten establecer la relación entre dos variables de estudio. Además nos permiten establecer la fuerza de dicha relación (lo estrechamente que están unidas), así como la dirección de esa relación (ver Figura y pie de Figura). El problema de las correlaciones es que no establecen causalidad, y nos podemos topar con lo que se denominan correlaciones espurias. Es decir, yo puedo tener una correlación entre dos variables que me indica que cuanto más tengo de A más tengo de B. Pero esa correlación no implique que A dé lugar a B. Puede darse, por ejemplo, que B dé lugar a A. Pongamos un ejemplo: queremos ver la relación entre el porcentaje de personas fumadoras y pacientes esquizofrénicos en la población. Los resultados muestran que entre los fumadores existe un mayor porcentaje de pacientes esquizofrénicos. ¿Implica esto que fumar produce esquizofrenia? Podría ser, pero no podemos saberlo con los datos de una correlación. También podría ser que los pacientes esquizofrénicos tiendan a fumar más, y que eso explique por qué hay más esquizofrénicos entre la población fumadora. Este último, de hecho, parece ser el caso, si atendemos a algunos estudios que se han hecho en estos pacientes y que indican que su sistema colinérgico podrían estar alterado, de modo que la inhalación de nicotina (que afecta precisamente a ese sistema neurotransmisor) podría compensar en parte esas alteraciones.

La Figura muestra una correlación entre dos variables cualesquiera. Esta representación sólo muestra que los valores de dichas variables varían de forma paralela y que cuanto mayor es el valor de una, mayor es el de la otra.

Pero existe otra opción, y es que A no dé lugar a B, ni B dé lugar a A, sino que haya una causa común para ambos. Siempre me ha gustado este ejemplo que leí en un libro de Punset: se ha visto que cuanto mayor es el tamaño del pie de los niños, mayor es su conocimiento en matemáticas. ¿Implica esta observación que el tener pies grandes hace que sepas más matemáticas? No necesariamente. Puede que exista una causa común que dé lugar a la concurrencia de ambos sucesos. En este ejemplo, los niños con pies más grandes tendrán más edad, y por tanto estarán en cursos superiores donde las lecciones de matemáticas serán más avanzadas. E incluso a veces puede que ni siquiera exista una causa común. Un ejemplo de esto que siempre me ha gustado mucho es una gráfica que se muestra en la web del Flying Spaghetti Monster, en la que aparece una correlación inversa entre el número de piratas (ha caído desde 1800) y el incremento en la temperatura media global de la Tierra (ha subido desde 1800). ¿Es posible que el menor número de piratas haya dado lugar al calentamiento global? Por ser posible, puede serlo. Pero es posible que la Revolución Industrial sea causa común del cambio de ambos factores o que incluso tengan causas diferentes pero por casualidad hayan variado de forma paralela e inversa en el tiempo.

Pero ojo, las correlaciones son muy útiles en ciencia. Si no encontramos una correlación entre dos variables, va a ser muy difícil que encontremos causalidad entre ellas. Se trata por tanto, de un buen punto de partida para tratar de evaluar posteriormente la causalidad entre ellas. Estos trabajos son muy útiles en trabajos epidemiológicos, en los que nos interesa especialmente saber si ciertas variables podrían estar implicadas en la aparición de una determinada enfermedad. Para ello se realizan lo que se denomina estudios de componentes principales (aunque hay otros) en los que se puede evaluar el peso que ejercen unas determinadas variables sobre nuestra variable de estudio. Esto nos permite estudiar factores como el sexo, la edad, historia de tabaquismo o alcoholismo, etc., a la hora de determinar los factores que afectan de forma más importante a esa variable que estamos estudiando.

Por último, recomendar el artículo sobre las correlaciones, así como el de la falacia Cum hoc ergo propter hoc de Wikipedia, que incluye algunos otros ejemplos acerca de correlaciones espurias muy interesantes. Y recordad, correlación no es causación y establecer esta conexión puede tener serias consecuencias, algo de lo que hablaremos en un próximo apunte.

10 comentarios:

Jesús Zamora Bonilla dijo...

Está claro que la correlación SOLA no es causación. Pero lo interesante sería saber ¿qué SÍ es la causación? Es decir, ¿qué tenemos que observar para llegar a la conclusión de que una cosa es causa de otra?

Jesús Zamora Bonilla dijo...

seguimiento

Héctor dijo...

Una cosa interesante también y que no se suele mencionar al hablar de este tema, es que las correlaciones a pesar de que no impliquen causalidad necesariamente, sí que pueden servir para predecir.

A partir del tamaño de los pies podré predecir con cierto éxito (depende de cómo sea la correlación) la capacidad del niño en matemáticas.

Un saludo ;)

Anónimo dijo...

Hace tiempo me interesó esta otra correlación espuria, a la que encontré sin embargo una explicación.

http://piramidescerebro.blogspot.com/2006/12/cerebro-y-cido-brico-la-conexin-oculta.html

Gregorio

PD: Pues a mi las raspas sí me gustan.

Pedro Garrido dijo...

Jesús, cuánto tiempo.

Haces una de esas preguntas a las que gusta responder: me alegro de que me haga usted esa pregunta. Y la respuesta, sin embargo, no puede ser fácil ni posiblemente convincente.

Partamos de la base de que yo estoy con Hume, pero aunque no pueda existir una causalidad eficiente, creo que es posible inferirla. Y ese grado de inferencia dependerá de lo que pongamos de nuestra parte para que esta sea más o menos acertada.
Ahora te llevo a mi terreno. Creeré, por ejemplo, que existe un mayor grado de causalidad, si me demuestran un mismo hecho con diferentes técnicas. Asímismo, cuantos más controles tenga el experimento, más acertada será la inferencia de causalidad que haga. El ejemplo clásico si hablamos exclusivamente de correlaciones está en los estudios epidemiológicos. Cada vez incluyen más controles y más posibles variables de confusión para tratar de conseguir que la correlación que muestran sea "algo más" que una simple correlación.
Es decir, lo que podemos hacer con la ciencia es eliminar causas no probables, de ahí que sea siempre una búsqueda continua.

Aunque existen ciertas condiciones gracias a las cuales podríamos más o menos inferir causalidad a partir de una correlación, lo que viene dado por la condición causal de Markov, pero eso ya son complicaciones adicionales.

Un saludo.

Pedro Garrido dijo...

Estoy contigo Héctor. Las correlaciones sirven también para predecir, pero todo depende de la interpretación que se dé a dicha predicción. Por ejemplo, en el caso del calentamiento global y el número de piratas. ¿De qué nos sirve predecir que cuando la temperatura del planeta sea de x habrá y piratas? Sólo si existe posibilidad de una cierta relación entre las variables esa predicción tendrá valor. Si no, se queda en mera curiosidad.

Pedro Garrido dijo...

Gregorio, me acuerdo de ese apunte. De los mejores del blog, de hecho, aunque algunos de los comentaristas no entendieron nada de nada. Pero suele pasar.

Jesús Zamora Bonilla dijo...

Pedro,
entonces, ¿una correlación no implica causación, pero de mogollón de correlaciones sí podemos inferir causación?

Pedro Garrido dijo...

Jaja, pues hasta cierto punto te diría que sí, pero no es eso lo que quería decir. Si tienes muchas correlaciones no significativas para variables que consideras que pueden ser factores de confusión en tu correlación, eso puede ayudar a que consideres que esa relación es causal.

Pero, evidentemente, lo que más apoyará la causalidad en una correlación es otro tipo de evidencias en las que no necesariamente se establezcan correlaciones, por ejemplo manipulando las variables de estudio y comprobando si esa correlación se sigue manteniendo. Por ejemplo, puedo ver una correlación entre una determinada conducta y la expresión del receptor x. Eso no demuestra que el receptor x esté relacionado necesariamente con la conducta. Pero podemos crear ratones que carezcan de ese receptor para ver si la conducta se mantiene (si lo hace, es que no hay relación causal entre ambos), o podemos manipular farmacológicamente a ese receptor mediante la inyección de agonistas o antagonistas, o estudiar primero dicha conducta y luego la expresión y función de esos receptores a varios niveles (mRNA, proteíona, binding). De ahí que si varias técnicas apoyan esa relación, la correlación tenga más peso. Es decir, tendrás un grado de seguridad en esa relación mayor que si sólo tienes la simple correlación. Evidentemente siempre puede aparecer esa variable en la que no habías pensado y que desbarate todo lo que anteriormente habías hecho, pero para eso están las evidencias, y cuanto mayores y más variadas sean estas mayor será tu seguridad sobre la relación causal entre dos variables.

Blanca dijo...

Como me gusta tu ejemplo de los piratas!

Negra