R para profesionales de los datos: una introducción

13.5 Regresión logística

La regresión logística se usa para predecir (y explicar) una variable binaria. A continuación estudiaremos un conjunto de datos que trata de explicar los factores que afectan a la admisión de alumnos en determinadas universidades estadounidenses como la nota en una serie de exámentes previos o la categoría de su escuela de educación secundaria.

Primero, vamos a leer los datos:

admitidos <- read.table("data/admitidos.csv", header = T, sep = "\t")
admitidos$rank <- factor(admitidos$rank)

Luego, vamos a ajustar el modelo usando la función glm (para modelos lineales generalizados). La sintaxis es similar a la usada más arriba con lm; cambia, esencialmente, la familia. El modelo logístico corresponde a family = binomial; las opciones gaussian y poisson corresponden al modelo lineal habitual (para modelar variables continuas) y al de Poisson (para modelar conteos).

La función summary genera una tabla similar a la obtenida con lm.

modelo.logistico <- glm(admit ~ ., data = admitidos, 
                        family = binomial)
summary(modelo.logistico)

## 
## Call:
## glm(formula = admit ~ ., family = binomial, data = admitidos)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.6268  -0.8662  -0.6388   1.1490   2.0790  
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -3.989979   1.139951  -3.500 0.000465 ***
## gre          0.002264   0.001094   2.070 0.038465 *  
## gpa          0.804038   0.331819   2.423 0.015388 *  
## rank2       -0.675443   0.316490  -2.134 0.032829 *  
## rank3       -1.340204   0.345306  -3.881 0.000104 ***
## rank4       -1.551464   0.417832  -3.713 0.000205 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 499.98  on 399  degrees of freedom
## Residual deviance: 458.52  on 394  degrees of freedom
## AIC: 470.52
## 
## Number of Fisher Scoring iterations: 4

La variable rank es categórica. El coeficiente rank2 (negativo) muestra cómo la probabilidad de ser admitido decrece en las escuelas del segundo nivel con respecto a las del primero, que es implícito. La misma interpretación tienen los coeficientes rank3 y rank4. R elige el nivel de referencia, en este caso el 1, por estricto orden alfabético salvo que se especifique explícitamente³⁶ lo contrario.

¿Cuántos puntos en el GRE son necesarios para compensar el haber estudiado la secundaria en una escuela de segundo nivel y no del primero?

El coeficiente de la variable gre es muy pequeño con respecto al de gpa. Eso se debe a la distinta escala en la que se puntúan ambos exámenes. Una de las maneras de comparar la importancia relativa de los dos exámenes consiste en normalizar los datos. Hazlo, crea otro modelo y discute los resultados.

La manera excede el alcance del curso.↩