R para profesionales de los datos: una introducción

13.8 Resumen y referencias

13.8.1 Árboles

En este capítulo hemos usado árboles en un problema de clasificación. Los árboles tienen una historia que se remonta a finales de los años setenta y fueron presentados en sociedad en el libro de 1984 Classification and Regression Trees, de Leo Breiman y otros coautores. Desde entonces se han creado muchas versiones de los árboles (CART, C4.5, etc.). Los árboles originales, los descritos en el libro anterior, están implementados en el paquete rpart de R. Nosotros, sin embargo, hemos usado los de party, que están basados en desarrollos teóricos posteriores.

Los árboles, en cualquiera de sus versiones, tienen las características indicadas en este capítulo: son simples, excesivamente simples y su poder predictivo es limitado, pero son fáciles de interpretar. Existen dos estrategias para mejorar el poder predictivo de los árboles. La primera es crear muchos de ellos y promediarlos. Es la que siguen los bosques aleatorios sugeridos más arriba. La segunda es crear iterativamente listas de árboles de manera que el i-ésimo corrija los errores cometidos por los anteriores. Es la estrategia subyacente a xgboost y sus versiones.

En ambos casos se pierde en gran medida la interpretabilidad de los modelos. Sin embargo, como contrapartida, tanto los bosques aleatorios como los basados en la técnica del boosting permiten construir modelos con un poder predictivo muy alto.

13.8.2 Pruebas de hipótesis

En R están implementadas infinidad de pruebas estadísticas: t.test, wilcox.test, prop.test, etc. De hecho, la inmensa mayoría de las que se enseñan en los cursos de introducción a la estadística. Sin embargo, R nos permite ir más allá de las limitaciones inherentes a este tipo de pruebas. Por ejemplo, tal y como hemos ilustrado en esta sección, nos permite crear nuestras propias pruebas mediante remuestreos.

Pero también, y aunque no nos hemos ocupado de eso, también nos permite subsumir pruebas estadísticas en modelos estadísticos que permiten considerar fuentes alternativas de información, i.e., el efecto confusor de otras variables observadas sobre el fenómeno. Y esto tanto bajo un punto de vista estrictamente frecuentista como desde otro, más moderno, bayesiano que da respuesta a los problemas metodológicos asociados a las pruebas de hipótesis, los p-valores, los errores de tipo I y II, etc.

13.8.3 Modelos lineales y sus extensiones

El modelo lineal ilustrado en esta sección tiene una larga historia y aunque hay pocos contextos en los que hoy en día sea la opción de modelado preferible, mucha de la estadística y la ciencia de datos moderna consiste en generalizaciones suyas. En esta sección hemos explorado algunas de ellas, como el modelo logístico (como ejemplo de los llamados modelos lineales generalizados) y los modelos lineales generalizados (GAM), pero podríamos haber tratado las regresiones penalizadas (ridge, lasso, elasticnet, etc.).

Una ventaja de R es que proporciona una interfaz relativamente homogénea y previsible para todos estos tipos de modelos: todos cuentan con una función predict, summary, etc.

13.8.4 Clústering

En esta sección hemos presentado el algoritmo de clústering más utilizado, k-medias. No obstante, existen alternativas como como las implementadas en el paquete cluster. Una alternativa cada vez más popular a los métodos clásicos anteriores es DBSCAN (véase https://cran.r-project.org/web/packages/dbscan/index.html).