Minería de Datos en Observatorios Virtuales

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Minería de Datos en Observatorios Virtuales"

Transcripción

1 Aprendizaje Estadístico L.M. Sarro 1 Universidad Nacional de Educación a Distancia Departmento de Inteligencia Artificial Abril de 2006 / 1 a Reunión de la Red Temática SVO

2 Outline 1 Clasificación Supervisada

3 e-ciencia Descubrimiento de Conocimiento Los archivos de datos científicos del siglo XXI nos permiten muestrear las funciones de densidad de probabilidad como nunca hasta ahora. Los datos sin más no bastan. Si queremos sacar provecho necesitamos darle valor añadido a los archivos. El análisis de poblaciones debe realizarse una única vez por archivo (en el VO) y no una vez por query.

4 e-ciencia Astroestadística Parte inseparable del desarrollo de este tipo de soluciones es el estudio estadístico de los archivos: Astroestadística. El grupo de aprendizaje estadístico del SVO pretende ser un centro de encuentro entre disciplinas: IA, estadística y astrofísica.

5 Grupos Grupos de Aprendizaje Estadístico en Astrofísica U. de Coruña U. de La Laguna U. de Alicante Grupo de Sistemas Inteligentes UPV U. Politécnica de Madrid UNED

6 Outline 1 Clasificación Supervisada

7 Cefeida o Mira? Ejemplos Separación estrellas/galaxias en imágenes Identificación de cuasares Clasificación de espectros estelares en el sistema MK Predicción de fulguraciones solares Clasificación de eventos en telescopios Cerenkov

8 Qué es la clasificación supervisada? 4 y x Ejemplo Dos distribuciones gaussianas (separables linealmente) Sobreajuste/Overfitting Mapa R N i N.

9 Métodos 1 Redes Neuronales Artificiales 2 K-NN (Maldición de la dimensionalidad) 3 Support Vector Machines 4 Redes Bayesianas 5 Árboles de Decisión 6 Sistemas de Reglas 7 Metaclasificadores

10 Outline 1 Clasificación Supervisada

11 Ejemplos Obtención de desplazamientos al rojo fotométricos Obtención de temperaturas efectivas, gravedades, metalicidades, etc a partir de espectros Cálculo de campos magnéticos a partir de imágenes de polarización. Aproximación 1 La mayoría de los métodos de clasificación mencionados en la transparencia anterior permiten la regresión. El mapa entonces se realiza entre el espacio de entrada y el espacio de los parámetros que deseamos obtener.

12 Aproximación II Teorema de Bayes: p(t eff, logg, [Fe/H] E) = p(e T eff,logg,[fe/h]) p(t eff,logg,[fe/h]) p(e)

13 Outline 1 Clasificación Supervisada

14 Objetivo Objetivos: 1 Identificar las clases que surgen de forma natural de los datos 2 Describir estadísticamente sus distribuciones de probabilidad. 3 Estudio taxonómico. Descubrimiento de nuevas clases (outliers) o subclases.

15 Se ha empleado para obtener esquemas clasificatorios de Curvas de luz de objetos variables Curvas de luz de GRBs Vientos solares Espectros infrarrojos estelares (Autoclass) En general, la evaluación de la calidad de una clasificación no supervisada requiere la definición a priori de una medida de distancia puesto que lo que se pretende es minimizar las distancias internas dentro de una clase y maximizar las distancias entre clases.

16 Métodos Paramétricos (Autoclass, mezcla de gaussianas, Bernouilli...) Basados en el algoritmo EM: k-medias y derivados Métodos kernel (Vapnik, SVMs) Jerárquicos/planos Asignaciones probabilísticas/unívocas Por aglomeración/división Semisupervisados

17 Outline 1 Clasificación Supervisada

18 Ejemplos de tareas en Visión Artificial Interpretación de imágenes Reducción de imágenes. Vida media de los tubos de flujo fotosféricos Análisis morfológico de galaxias Análisis de la estructura del Universo (Análisis multiescala, Valencia) Correlaciones entre imágenes (GRBs) Detección de estructura en espectros de rendija larga o cubos de espectros.

19 Outline 1 Clasificación Supervisada

20 1 Estudios de población 2 Detección de correlaciones 3 Análisis de sesgos 4 Selección de modelos 5 Intervalos de confianza 6 Comprobación de hipótesis

21 Outline 1 Clasificación Supervisada

22 CoRoT Clasificación supervisada Clasificación global no supervisada GAIA Variabilidad Clasificación supervisada Variabilidad Clasificación global no supervisada Variabilidad Análisis estadístico y comparación de Surveys Parámetros Clasificación global no supervisada Inferencia bayesiana de parámetros de discos protoplanetarios