Análisis Científico de Datos

Presentación y Objetivos

La necesidad de extraer conocimiento a partir de la información recogida en una base de datos se ha convertido en un factor común de la investigación científica actual. Sin duda, el elemento desencadenante de esta situación es el gran avance tecnológico que, por un lado, ha facilitado enormemente las tareas de obtención, almacenamiento y transmisión de datos, y por otro, ha proporcionado medios muy potentes para su tratamiento gráfico y computacional.

Ante este panorama, parece evidente que los investigadores y profesionales de cualquier área, que se enfrenten con frecuencia a este tipo de análisis, necesitarán una formación que les permita, al menos, una comunicación fluida con los expertos en el análisis de datos. En la percepción de este escenario está la raíz de este curso cuya actual edición presentamos.

En él se estudian técnicas estadísticas multivariantes como medio para el aprendizaje a partir de los datos. Se pretende que el alumno adquiera una "capacidad de maniobra" que le permita desplazarse con cierta soltura por un terreno cada vez más heterogéneo. Pensamos que esto no se consigue con la revisión de una vasta colección de técnicas "sueltas"; por el contrario, puede ser más efectivo el estudio detallado de una serie de técnicas “básicas”, descubriendo el engranaje que conecta los mecanismos de este tipo de metodología.

Con estas premisas, se hace un recorrido acorde con los créditos ECTS que el curso tiene asignados (El crédito europeo mide el volumen o carga total del trabajo de aprendizaje del estudiante para alcanzar los objetivos previstos en el Plan de Estudios, y se corresponde con una carga de trabajo de 25 a 30 horas). El desarrollo se centra en dos focos: los procedimientos basados en modelos —hasta hace poco tiempo la forma habitual de afrontar el análisis— y la “cultura” algorítmica, que está adquiriendo un gran desarrollo en las últimas décadas, apoyada en la rápida evolución de la tecnología informática. En el primero de los apartados se estudian técnicas para resolver problemas de clasificación, análisis de la varianza, agrupación de objetos y/o variables ("cluster"), etc., mientras que en el segundo se hace una introducción a los métodos que actualmente se utilizan para resolver los mismos problemas cuando las bases de datos no se ajustan estrictamente a las hipótesis iniciales —predictores cuantitativos y cualitativos, muchas más variables que unidades muestrales, etc. En este grupo se encuadran los métodos de particionamiento recursivo (CART), las versiones RIDGE y LASSO de la regresión, las máquinas de vector soporte (SVM) y los métodos de combinación de predictores/clasificadores como “bagging”, “boosting” y “random forests”. También se dedica un apartado especial a la metodología bayesiana, que proporciona alternativas muy válidas en las aplicaciones a problemas reales y a algunos ejemplos de modelos gráficos probabilísticos (Redes Bayesianas). Todo este conjunto permite al alumno tener una descripción rigurosa de las vías disponibles actualmente para enfrentarse a una amplia gama de problemas en cualquier área de investigación científica.

Para realizar este curso con garantías de éxito se precisa tener conocimientos de estadística univariante, tanto descriptiva como inferencial y un nivel de inglés “técnico” suficiente para la lectura de documentos como el que se presenta en este enlace.

No es necesario justificar el importante papel que los medios informáticos juegan tanto en las aplicaciones reales de la metodología que aquí se describe como en el propio aprendizaje de la misma. Aunque entre nuestros objetivos no figura el adiestramiento en el manejo de ningún paquete de programas, resulta casi imposible pensar en el estudio de esta materia sin una herramienta que nos asista en el aspecto computacional. En el curso no se impone ninguna norma al respecto. La experiencia de ediciones anteriores nos dicta que un porcentaje elevado de alumnos dispone, a nivel profesional, de alguno de los productos de software más usuales y lo que le falta es, precisamente, conocimiento para hacer un uso científico de los mismos. Sin embargo, aquellos alumnos que no tengan acceso a ningún "paquete estadístico", o simplemente lo prefieran, podrán realizar sus prácticas con , producto de libre distribución con licencia GNU; toda la información y medios para poner en funcionamiento este entorno informático se encuentran en internet.