R

La paradoja de Simpson

kalinda

06/03/2015

2

A principios de marzo comencé el curso “Exploratory Data Analysis” dentro de la especialización “Data Science“, que, por cierto, aprovecho para recomendar a todo el mundo que sienta curiosidad por este tema.

En una de las primeras clases, en las que se exponían los principios básicos del análisis visual de datos y en concreto sobre la conveniencia de mostrar datos multivariantes, se nos planteó a los alumnos el siguiente ejemplo:

A partir de los datos del siguiente estudio, se pinta en un gráfico la relación entre la concentración de ciertas partículas en el aire y la mortalidad diaria.

Como se puede observar, la pendiente de la recta de regresión es negativa.

gráfico1

Ahora bien, si dividimos la muestra de datos en función de la estación del año en la que fueron tomados y representamos la misma relación, vemos como, sorprendentemente en todos los casos, la pendiente de la recta de regresión es positiva.

gráfico2

¿Cómo es posible? Pensé en aquel momento… pues bien, esto es lo que se conoce como la “Paradoja de Simpson

“Se denomina paradoja de Simpson (o efecto Yule-Simpson) al cambio en el sentido de una asociación entre dos variables, numéricas o cualitativas, cuando se controla el efecto de una tercera variable.”

En el siguiente ejemplo se ilustra de forma muy sencilla.

Ejemplo: Discriminación por género en la Universidad de Berkeley, California

Uno de los ejemplos más conocidos de esta paradoja ocurrió en el año 1973 en la Universidad de Berkeley, en California.

Los resultados de admisiones para el verano de este año publicados por la universidad mostraban que las mujeres solicitantes tenían menor probabilidad de ser aceptadas que los hombres, y que la diferencia era tan significativa que no era posible que fuera debida al azar.

tabla1

Ante estos datos, una joven que acababa de ver rechazada su solicitud de ingreso a la universidad, interpuso una demanda por discriminación contra las mujeres que habían solicitado su ingreso.

Sin embargo, cuando posteriormente se analizaron los datos de cada uno de los departamentos de forma individual, se demostró que en ningún caso existía un sesgo contra las mujeres. De hecho, la mayoría de los departamentos analizados había presentado un pequeño pero estadísticamente significativo sesgo en favor de las mujeres.

tabla2

Moraleja

“Es fácil trasladar las conclusiones equivocadas, sólo es cuestión de encontrar la manera adecuada de mostrar los datos”

Por ello, hay que tener mucho cuidado con las conclusiones que continuamente se nos ofrecen partiendo de una base estadística. No hay que asumir nada como cierto mientras no conozcamos todos los datos en los que se ha basado el análisis o podemos encontrarnos con muchas sorpresas como las que ofrece el ejemplo anterior.

2 Comments
Inline Feedbacks
View all comments
kalinda
8 years ago

Gracias por tu comentario libesa, y por el enlace que aportas, es muy ilustrativo!

libesa
8 years ago

Que curioso kalinda. Sin duda enfatiza la importancia de analizar los datos de varios ángulos y no quedarnos sólo con la primera conclusión.

He encontrado una explicación gráfica muy chula del ejemplo que comentas aquí: http://vudlab.com/simpsons/