1.1 Contenido y plan del libro

Este libro está motivado por la experiencia del autor en entornos de trabajo similares a los descritos más arriba y cubre aquellos aspectos que ha visto que más demandaban sus colegas. Que son, esencialmente, cuatro:

  • Crear visualizaciones de datos de alta calidad.
  • Crear dashboards para visualizar y analizar datos.
  • Crear informes automáticos.
  • Disponer de herramientas de análisis estadístico para ahondar en el conocimiento de los datos.

Este libro se centra en los tres primeros, aunque hace una breve incursión en el último (que exige no solo un par de capítulos en este libro sino una biblioteca entera que, seguro, desarrollarán mucho mejor otros autores). Esos serán los tres grandes objetivos de lo que sigue.

Claro que son inalcanzables si el interesado no se familiariza con los prerrequisitos (tablas, vectores, programación) que son los mimbres con los que armar aquellos canastos. El plan del libro incluye el ubicar las recompensas lo más tempranamente posible para que el trayecto por los capítulos más áridos sean, si no llevaderos, al menos breves. Obviamente, eso deja muchos cabos sueltos que el autor espera que el lector, motivado por las aplicaciones, cubra de mejor grado.

La obra deja fuera varios temas de interés como, por ejemplo:

  • Las series temporales. Porque son objetos especiales que se manipulan y se analizan con herramientas específicas. Incluirlas contribuiría a confundir por acumulación de conceptos nuevos antes que a facilitar la transición de lector desde completo ignorante hasta usuario capaz de manejar R autónomamente.
  • La manipulación de datos grandes. R sufre una no del todo justificada fama de tener problemas para manipular datos grandes (o medianos, i.e., datos con muchos registros pero que aún caben en la RAM de un ordenador moderno). Existen extensiones ad hoc para procesarlos eficazmente, pero, de nuevo, no se tratarán aquí.
  • La estadística. R es, también entre otras muchas cosas, una herramienta para el análisis estadístico de datos. Pero todo lo que tiene que ver con la estadística viene justo después de lo que aquí se trata. Incluso cuando toque temas de interés estadístico (p.e., la regresión lineal), lo hará más desde la perspectiva de su encaje en R que desde la descripción del aparataje matemático subyacente.

El libro no está ordenado por materias. De hecho, comparado con otras obras más formales, está desordenado. Ni siquera comienza por lo más básico (p.e., vectores) sino por lo más familiar para su audiencia potencial: las tablas. Porque el libro es una carrera contrarreloj cuyas metas son las recompensas anunciadas más arriba: gráficos, informes automatizados y dashboards.

El libro quiere dejar claro que R no es solo (sino únicamente también) un lenguaje de programación. El usuario habitual de R no programa propiamente sino que utiliza R interactivamente: ensaya, se equivoca y vuelve a probar. Solo cuando termina el ciclo y el resultado es satisfactorio, produce un resultado final. Que, usualmente, no es un programa sino, p.e., un informe. Por eso la parte relativa a la programación se relega a la parte final.

El libro lleva al lector hasta el punto en el que puede comenzar a aplicar métodos estadísticos (y de la llamada ciencia de datos) por su cuenta. El último capítulo es una introducción a la materia. Aunque más que a la materia en sí, a cómo se aplicar esos métodos con R. La gran lección que aprender es que tienen un tratamiento homogéneo y previsible en R.

Existe un principio director en Python: debería existir un método obvio (y preferiblente solo uno) de hacer las cosas. En R no es así: existen tal vez demasiadas maneras alternativas de hacer las cosas y eso es un problema, un problema muy serio, para el principiante. No obstante, por motivos pedagógicos, el libro tratará de presentar una y solo una de las formas de resolver un determinado problema: la que el autor, falible, considere más natural. De todos modos, el autor espera que el lector sea capaz, al final de la obra, de dar con, evaluar y aplicar las distintas alternativas.