R para profesionales de los datos: una introducción

4.3 Regresión logística

La regresión logística forma parte de los llamados modelos lineales generalizados y trata de estimar la probabilidad de ocurrencia de un evento binario (éxito/fracaso, cara/cruz) en función de una serie de variables predictoras.

En el ejemplo siguiente, usaremos el conjunto de datos UCBAdmissions y el evento binario es la admisión de un estudiante a un programa de doctorado en función otras variables.

datos <- as.data.frame(UCBAdmissions)
datos$Admit <- datos$Admit == "Admitted"

Este conjunto de datos se recogió para un estudio acerca de la discriminación contra las mujeres en este tipo de ámbitos publicado por Science en 1975. Por eso interesa conocer el efecto de la variable Gender en la probabilidad de resultar admitido.

Por lo tanto, en primer lugar, vamos a probar un modelo usando exclusivamente dicha variable:

modelo.sin.dept <- glm(Admit ~ Gender, 
                       data = datos, weights = Freq, 
                       family = binomial())
summary(modelo.sin.dept)

## 
## Call:
## glm(formula = Admit ~ Gender, family = binomial(), data = datos, 
##     weights = Freq)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -20.336  -15.244    1.781   14.662   28.787  
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  -0.22013    0.03879  -5.675 1.38e-08 ***
## GenderFemale -0.61035    0.06389  -9.553  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6044.3  on 23  degrees of freedom
## Residual deviance: 5950.9  on 22  degrees of freedom
## AIC: 5954.9
## 
## Number of Fisher Scoring iterations: 4

Se aprecia en el resumen del modelo cómo el sexo es una variable predictora muy importante (el p-valor es ínfimo y el tamaño del coeficiente relativamente grande) y cómo da la impresión de que en el proceso de admisión existe discriminación contra las mujeres: el coeficiente es negativo.

El siguiente modelo incluye el departamento como variable predictora. En el resultado se aprecia cómo el efecto del sexo prácticamente desaparece.

modelo.con.dept <- glm(Admit ~ Gender + Dept, 
                       data = datos, weights = Freq, 
                       family = binomial())
summary(modelo.con.dept)

## 
## Call:
## glm(formula = Admit ~ Gender + Dept, family = binomial(), data = datos, 
##     weights = Freq)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -25.3424  -13.0584   -0.1631   16.0167   21.3199  
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept)   0.58205    0.06899   8.436   <2e-16 ***
## GenderFemale  0.09987    0.08085   1.235    0.217    
## DeptB        -0.04340    0.10984  -0.395    0.693    
## DeptC        -1.26260    0.10663 -11.841   <2e-16 ***
## DeptD        -1.29461    0.10582 -12.234   <2e-16 ***
## DeptE        -1.73931    0.12611 -13.792   <2e-16 ***
## DeptF        -3.30648    0.16998 -19.452   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 6044.3  on 23  degrees of freedom
## Residual deviance: 5187.5  on 17  degrees of freedom
## AIC: 5201.5
## 
## Number of Fisher Scoring iterations: 6

Lo que evidencia este segundo modelo es que no existía tal discriminación contra las mujeres. Lo que ocurría realmente es que los distintos departamentos tenían niveles de exigencia distintos y en los más exigentes predominaban las candidatas sobre sus compañeros hombres. Las tasas de admitidos en cada departamento por sexo eran similares pero, globalmente, parecía haber un sesgo. Este es un ejemplo de libro de la llamada paradoja de Simpson.

De hecho, los autores del artículo mencionado más arriba lo resumieron así:

Measuring bias is harder than is usually assumed, and the evidence is sometimes contrary to expectation.

El primer modelo, esencialmente, compara dos proporciones: el de hombres y mujeres admitidos. Utiliza la prueba de proporciones (prop.test en R) para compararlas de otra manera. ¿Coinciden los resultados?