TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN FUNDAMENTOS CURSO DE DOCTORADO Dr. Ramón García-Martínez
* * * CONTEXTO La inteligencia de negocio propone un abordaje interdisciplinario que tomando: + + todos los recursos de información disponibles el uso de herramientas analíticas y de síntesis con capacidad de transformar la información en conocimiento se centra en generar a partir de estos, conocimiento que contribuya con la toma de decisiones de gestión y generación de planes estratégicos en las organizaciones. La explotación de Información es la sub-disciplina Informática que aporta a la Inteligencia de Negocio las herramientas (procesos y tecnologías) para la transformación de información en conocimiento La explotación de información basada en tecnologias de sistemas inteligentes se refiere a la aplicación de métodos de sistemas inteligentes, para descubrir y enumerar patrones de conocimiento presentes en la información.
QUÉ ES UN PATRON DE CONOCIMIENTO? INFORMACION
QUÉ ES UN PATRON DE CONOCIMIENTO? ESTADISTICA: Marco Conceptual
QUÉ ES UN PATRON DE CONOCIMIENTO? ESTADISTICA: Patrón a priori 1
QUÉ ES UN PATRON DE CONOCIMIENTO? ESTADISTICA: Patrón a priori 2
QUÉ ES UN PATRON DE CONOCIMIENTO? EXPLOTACION DE INFORMACION (sin patrón a priori)
PROCESOS DE EXPLOTACION DE INFORMACION * * PROCESOS UNITARIOS: + Predicción + Agrupamiento + Inducción + Ponderación PROCESOS COMBINADOS: + + Agrupamiento + Inducción Inducción + Ponderación + Agrupamiento + Ponderación
TECNOLOGIAS DE SISTEMAS INTELIGENTES CONSIDERADAS * * * * REDES BP REDES SOM ALGORITMOS TDIDT REDES BAYESIANAS
CORRESPONDENCIA ENTRE PROCESOS DE EXPLOTACION DE INFORMACION Y TECNOLOGIAS INTELIGENTES PROCESOS Predicción Agrupamiento Inducción Ponderación Agrupamiento + Inducción Inducción + Ponderación Agrupamiento + Ponderación TECNOLOGIAS Redes BP Redes SOM Algoritmos TDIDT Redes Bayesianas SOM + TDIDT TDIDT + Redes Bayesianas SOM + Redes Bayesianas
EXPLOTACION DE INFORMACION VS ESTADISTICA Visión Complementaria ESTADISTICA PATRONES INFORMACION PATRONES PROCESOS CONFIRMA / REFUTA / AJUSTA PATRONES SUPUESTOS EXPLOTACION DE INFORMACION
REVISION REDES NEURONALES Neurona biológica Neurona artificial
REVISION REDES BP Arquitectura Básica CONEXIONES ENTRE NEURONAS PATRON DE ENTRADA PATRON DE SALIDA NEURONAS DE SALIDA NEURONAS DE ENTRADA NEURONAS OCULTAS
REVISION REDES BP Presentación intuitiva del proceso de entrenamiento Patrones de Entrenamiento 0 1 0 1 0 1 1 0.86 1 0.11 1 0 0 0 1 1 1 1 0 1 0 1 1 1 0 Patrones de Consulta Entrada 1 1 0 1 1 Patrones de Salida 0 1 1 0 0.86 0.11
REVISION REDES BP Presentación intuitiva del proceso de entrenamiento f(x 1,...,X n ) = (Y 1,...,Y m ) relación conocida f relación desconocida f(x 1,...,X n ) = (Y 1,...,Y m ) Suponemos que existe una función f entre X e Y Sabemos que (patrones de entrenamiento): f(x 1,...,X n ) = (Y 1,...,Y m ) Con la BP entrenada podremos saber (para patrones de entrada desconocidos): f(x 1,...,X n ) = (Y 1,...,Y m )
REVISION REDES SOM Fundamentos Este modelo trata de establecer una correspondencia entre los datos de entrada y un espacio bidimensional, creando mapas topológicos, de manera que datos similares activen neuronas en zonas próximas. Produce una partición (clasificación) de un conjunto de registros ingresados (partición desconocida apriori ) en subconjuntos de registros con caracteristicas similares (clusters). Cada vez que se presenta una registro de entrada, las neuronas compiten y una se define como la ganadora (Best Matching Unit). Los pesos de la BMU se actualizan y también los de las neuronas vecinas de manera más atenuada a través de una función de vecindario o Kernel. Los registros deben tener un grado de redundancia elevado para que la SOM pueda realizar su clasificación.
REVISION REDES SOM Arquitectura Básica Cada una de las N neuronas de entrada se conecta a las M de salida a través de conexiones hacia adelante (feedfoward). Entre las neuronas de la capa de salida, existen conexiones laterales de inhibición (peso negativo) implícitas Aunque no estén conectadas cada una de las neuronas va a tener cierta influencia sobre sus vecinas. El valor que se asigne a los pesos de las conexiones hacia adelante entre las capas de entrada y salida durante el proceso de aprendizaje de la red va a depender precisamente de esta interacción lateral.
REVISION REDES SOM Presentación intuitiva del proceso de agrupamiento SOM
ALGORITMOS TDIDT Fundamentos La familia TDIDT (Top Down Induction Trees) pertenece a los métodos inductivos del Aprendizaje Automático que aprenden a partir de ejemplos preclasificados. Valor a Atributo 1 Valor c Dado un conjunto que contiene ejemplos pertenecientes a distintas clases, se realiza una prueba sobre los distintos atributos y se realiza una partición según el mejor atributo. Valor x Atributo 3 Atributo2 Valor y Clase 1 Valor z Clase 2 Valor k Atributo 2 Atributo 4 Valor l Clase 1 Para encontrar el mejor atributo, se utiliza la teoría de la información, determinando que atributo aporta mayor ganacia (o menor perdida de informacion) al tomar un determinado valor. Valor m Clase 3 Valor n Clase 1 Valor x Clase 2 Valor y Clase 4 Valor z Clase 1 TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
ALGORITMOS TDIDT Presentación intuitiva del proceso de inducción Dolor de pecho de angor Irradiación del angor Angor en relación Duración del angor Antigüedad del angor Respuesta vasodilatadora Infarto agudo de miocardio Típico Con esfuerzo Menos de 30 Reciente Positivo Atípico En reposo Más de 30 Más de 1 mes Negativo Ausente En reposo Menos de 30 Más de 1 mes Negativo Atípico En reposo Menos de 30 Reciente Positivo Típico En reposo Menos de 30 Más de 1 mes Negativo Típico Con esfuerzo Más de 30 Reciente Positivo Atípico En reposo Más de 30 Reciente Negativo Típico Con esfuerzo Menos de 30 Reciente Negativo Atípico Con esfuerzo Menos de 30 Reciente Negativo Típico En reposo Más de 30 Más de 1 mes Positivo Ausente En reposo Menos de 30 Más de 1 mes Negativo Típico En reposo Menos de 30 Reciente Negativo Ausente Con esfuerzo Más de 30 Reciente Positivo Típico En reposo Más de 30 Más de 1 mes Positivo Típico En reposo Menos de 30 Reciente Negativo.............. Típico Con esfuerzo Menos de 30 Más de 1 mes Negativo TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
ALGORITMOS TDIDT Presentación intuitiva del proceso de inducción Angor en relación Antigüedad del angor Duración del angor Más de 30 Menos de 30 Dolor de pecho de angor (Infarto de miocardio) Típico Ausente Atípico (Infarto de miocardio) (Infarto de miocardio) Respuesta vasodilatadora Negativo Positivo Irradiación del angor (Infarto de miocardio) (Infarto de miocardio) (Infarto de miocardio) TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
ALGORITMOS TDIDT Construcción de reglas Estoy Estoy yendo Acción Cantidad a dieta? de de al gimnasio? calorías = Alta Baja = Alta Entonces Alta Y estoy Sí a a dieta Sí = = Sí comerlo Alta Sí comerlo Entonces YComerlo estoy yendo al gimnasio = Sí Alta Sí Comerlo Entonces comerlo Alta Comer la Comerlo la mitad mitad Cantidad de calorías Reglas Baja Sí Sí Comerlo Baja Sí Comerlo Baja Sí Comerlo Baja Comerlo TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
ALGORITMOS TDIDT Construcción de reglas Cantidad de calorías = Alta Y estoy a dieta = Sí Entonces comerlo Cantidad de calorías = Alta Y estoy a dieta = Y estoy yendo al gimnasio = Entonces Comerlo la mitad Cantidad de calorías = Alta Y estoy a dieta = Y estoy yendo al gimnasio = Sí Entonces Comerlo Cantidad de calorías = Baja Entonces Comerlo TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN Dr. Ramón García-Martínez
REVISION REDES BAYESIANAS Fundamentos Gentileza: Ing. Pablo Felgaer Una red bayesiana es: Grafo acíclico dirigido dos representan variables Arcos representan dependencias probabilísticas Causa Efecto Probabilidad condicional Ladrón 30% 70% Ladrón Ladrón Terremoto Alarma Alarma 99% 91% 1% 9% Terremoto Terremoto 76% 15% 24% 85% 10% 90%
REVISION REDES BAYESIANAS Generación Gentileza: Ing. Pablo Felgaer Aprendizaje estructural Relaciones de dependencia e independencia Aprendizaje paramétrico Probabilidad a priori y condicionales Proceso de inferencia Predicciones a partir de observaciones
REVISION REDES BAYESIANAS Aprendizaje estructural Gentileza: Ing. Pablo Felgaer
REVISION REDES BAYESIANAS Aprendizaje paramétrico Gentileza: Ing. Pablo Felgaer Visitó Asia Fumador Tuberculosis Cáncer de pulmón Bronquitis Tuberculosis o Cáncer Bronquitis Disnea Presente Ausente Tuberculosis o Cáncer Verdadero Verdadero Presente Ausente 90% 70% 10% 30% Falso Presente 80% 20% Falso Ausente 10% 90% Radiografías Disnea
REVISION REDES BAYESIANAS Proceso de inferencia Gentileza: Ing. Pablo Felgaer Visitó 1,0% visitó 99,0% Visitó Asia Visitó Asia Fumador 50,0% fumador 50,0% Fumador Fumador Presente 1,0% Tuberculosis Cáncer de pulmón Bronquitis Tuberculosis Presente Cáncer 5,5% de pulmón Presente Bronquitis 45,0% Ausente 99,0% Ausente 94,5% Ausente 55,0% Tuberculosis o Cáncer de pulmón Tuberculosis o Cáncer Verdadero 6,5% Falso 93,5% Anormal 11,0% rmal 89,0% Radiografías Radiografías Presente 43,5% Ausente 56,5% Disnea Disnea
REVISION REDES BAYESIANAS Proceso de inferencia Gentileza: Ing. Pablo Felgaer Visitó 100% 1,0% visitó 99,0% Visitó Asia Visitó Asia Fumador 50,0% fumador 50,0% Fumador Fumador Presente 1,0% 5,0% Tuberculosis Cáncer de pulmón Bronquitis Tuberculosis PresenteCáncer 5,5% de pulmón Presente Bronquitis 45,0% Ausente 99,0% 95,0% Ausente 94,5% Ausente 55,0% Tuberculosis o Cáncer de pulmón Tuberculosis o Cáncer Verdadero 10,2% 6,5% Falso 93,5% 89,8% Radiografías Radiografías Anormal 11,0% 14,5% rmal 89,0% 85,5% Presente 43,5% 45,0% Ausente 56,5% 55,0% Disnea Disnea
REVISION REDES BAYESIANAS Proceso de inferencia Gentileza: Ing. Pablo Felgaer Visitó Asia Visitó 100% visitó 0% Fumador Fumador 50,0% 100% fumador 50,0% 0% Tuberculosis Presente 5,0% Ausente 95,0% Cáncer de pulmón Presente 10,0% 5,5% Ausente 94,5% 90,0% Bronquitis Presente 45,0% 60,0% Ausente 55,0% 40,0% Tuberculosis o Cáncer de pulmón Verdadero 10,2% 14,5% Falso 89,8% 85,5% Radiografías Anormal 14,5% 18,5% rmal 85,5% 81,5% Disnea Presente 45,0% 56,4% Ausente 55,0% 43,6%
REVISION REDES BAYESIANAS Proceso de inferencia Gentileza: Ing. Pablo Felgaer Visitó Asia Visitó 100% visitó 0% Fumador Fumador 100% fumador 0% Tuberculosis Presente 5,0% 0,1% Ausente 95,0% 99,9% Cáncer de pulmón Presente 10,0% 0,2% Ausente 90,0% 99,8% Bronquitis Presente 60,0% Ausente 40,0% Tuberculosis o Cáncer de pulmón Verdadero 14,5% 0,4% Falso 85,5% 99,6% Radiografías Anormal 18,5% 0% rmal 81,5% 100% Disnea Presente 56,4% 52,1% Ausente 43,6% 47,9%
REVISION REDES BAYESIANAS Proceso de inferencia Gentileza: Ing. Pablo Felgaer Visitó Asia Visitó 100% visitó 0% Fumador Fumador 100% fumador 0% Tuberculosis Presente 0,1% 0,2% Ausente 99,9% 99,8% Cáncer de pulmón Presente 0,2% 0,4% Ausente 99,8% 99,6% Bronquitis Presente 60,0% 92,2% Ausente 40,0% 7,8% Tuberculosis o Cáncer de pulmón Verdadero 0,4% 0,6% Falso 99,6% 99,4% Radiografías Anormal 0% rmal 100% Disnea Presente 52,1% 100% Ausente 47,9% 0%