MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL:

Tamaño: px
Comenzar la demostración a partir de la página:

Download "MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL:"

Transcripción

1 MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Manuel Sánchez-Montañés Luis Lago Ana González Escuela Politécnica Superior Universidad Autónoma de Madrid

2 Aprendizaje APRENDIZAJE AUTOMATICO: Qué significa aprender? No hay una única definición. Es un proceso de inducción del conocimiento. Por qué automático? Problemas demasiados complicados para resolverlos a mano: Grandes bases de datos Alta dimensionalidad Objetivo: Crear programas capaces de generalizar comportamientos a partir de una información, por lo general no estructurada, suministrada en forma de ejemplos.

3 Aprendizaje Razonamiento Lógico: Deducción versus Inducción. Deducción: aplicar un conocimiento general que ya teníamos a casos específicos: Todos los hombres son mortales. Sócrates es hombre. Luego Sócrates es mortal. Inducción: A partir de una observación o varias observaciones, se puede reconocer un patrón. Una vez definido el patrón, se convierte en una hipótesis provisional. Una vez la hipótesis es definida y demostrada se convierte en una teoría. Observación: Thor, Lasy y Luna son perros Patrón: tienen cuatro patas Hipótesis: Los perros tienen cuatro patas, induzco que perro -- > cuatro patas. Ahora me dicen que Niebla es un perro, y con la regla que he aprendido infiero que Niebla tiene cuatro patas.

4 Aprendizaje Aprender está relacionado con generalizar, con saber reaccionar a casos nuevos: predecir/inferir. Para introducir lo que vamos a utilizar a lo largo del curso necesitaremos definir tres conceptos: Agente Entorno Función de coste

5 Aprendizaje Agente y entorno: Consideremos un sistema o agente A que interacciona con un entorno E. El agente es una entidad capaz de percibir el entorno y de actuar sobre él. Ejemplos: - un robot que mueve objetos en una fábrica - un programa de ordenador que clasifica el correo electrónico como spam o no spam - un alumno que interacciona con su profesor Los agentes tienen un punto de vista incompleto, pero esto no limita que se halle una solución (aproximada) Búsqueda de una solución completa y consistente.

6 Aprendizaje Función de coste, f(a, E): - Es una función que depende del error entre la salida real del sistema que se pretende modelar (entorno) y la salida del núcleo estimador. Mide el grado de confianza en la interacción del agente con su entorno Cómo de bueno es el resultado obtenido? Medición: Resultado numérico Ejemplos: - energía total que necesita el robot para transportar los objetos - número de fallos que comete el ordenador clasificando los correos - puntuación media que obtiene el alumno en sus exámenes

7 Aprendizaje Qué significa entonces aprender? Decimos que el agente A aprende si es capaz de rectificar su comportamiento de tal forma que la función de coste f(a, E) mejora con el paso del tiempo hasta conseguir (si es posible) llegar al óptimo. Ejemplos: el robot consume menos energía cada día moviendo el mismo número de objetos el programa clasifica cada vez mejor el correo electrónico el alumno saca cada vez mejores notas ( saber versus aprender )

8 Aprendizaje Aprendizaje: siempre hay una función de coste que se debe optimizar. El aprendizaje consiste en la búsqueda de la hipótesis óptima que maximiza (o minimiza) esta función. Ejemplos: Robot adaptativo que busca minimizar la energía invertida en el transporte de objetos Física, Química,...: Búsqueda de teorías científicas que: minimicen la complejidad de la teoría (número de parámetros) y maximicen el número de observaciones explicadas Estudiante: minimizar esfuerzo necesario para aprobar exámenes maximizar puntuación obtenida en exámenes maximizar cantidad de conocimiento obtenido maximizar otras cantidades no relacionadas con estas

9 Aprendizaje Clasificación principal de los tipos de aprendizaje Nos basamos en cómo obtiene el agente la información adicional para aprender. Aprendizaje no supervisado: el agente no necesita información adicional Ejemplo: nuestro robot que minimiza la energía consumida Aprendizaje supervisado: hay un supervisor que le da información al agente sobre lo que debe hacer. Ejemplo: nuestro programa que clasifica el mail como spam o no spam Los ejemplos etiquetados (spam/no spam) son datos del pasado. Aprendizaje por refuerzo: hay un supervisor que da información al agente sobre si lo está haciendo bien o mal, pero no exactamente lo que debe hacer. Ejemplo: profesor de matemáticas que no da clases y sólo examina

10 Aprendizaje Qué es aprendizaje automático? Desarrollo de Algoritmos Explotación del producto final Base de datos Entrenamiento Respuesta Nuevos datos

11 Terminología Términos similares: Aprendizaje Automático o Machine Learning, Reconocimiento de patrones o Pattern Recognition Minería de datos o Data Mining Data Mining: extracción de conocimiento oculto en grandes volúmenes de datos; minería en los datos con el objetivo de identificar patrones y establecer relaciones

12 Terminología: Atributos y patrones Atributo (o Variable o Característica o Descriptor) Es cualquier aspecto distintivo, cualidad o característica Los atributos pueden ser: nominales (por ej., color: blanco, rojo, amarillo, verde, azul, ), numéricos (por ej., altura medida en metros-). Patrones (o Casos o Instancias) Colección (posiblemente ordenada y estructurada) de descriptores (características) que representan un objeto. Importante: patrones que describen objetos de una misma clase, presentan características similares.

13 Terminología: Atributos y patrones Cada patrón está representado por un conjunto de atributos un vector columna de d dimensiones llamado vector de atributos El espacio de atributos es el espacio de d dimensiones definido por este vector Los patrones se representan como puntos del espacio de atributos Vector de atributos Espacio de atributos

14 Terminología: Atributos y patrones Qué es un buen vector de atributos? La calidad de un vector de atributos está relacionada con su capacidad de discriminar ejemplos de clases diferentes: Los atributos de ejemplos de la misma clase deberían tener valores similares Los atributos de ejemplos de diferentes clases deberían tener valores diferentes Atributos buenos : Significativamente diferenciados Atributos malos

15 Terminología: Atributos y patrones Otras propiedades relacionadas con los atributos: Separabilidad lineal Separabilidad no lineal Atributos altamente correlacionados Multi-modal

16 Áreas relacionadas y aplicaciones del reconocimiento de patrones Áreas relacionadas - Procesamiento adaptativo de señal - Machine Learning - Redes neuronales artificiales - Robótica y Visión - Ciencias Cognitivas - Estadística Matemática - Optimización No Lineal - Análisis exploratorio de datos ( Data Mining ) - Sistemas genéticos, sistemas difusos (Computación Evolutiva) - Teoría de la Detección, Teoría de la Estimación - Lenguajes formales - Modelado estructural -Neurociencia Computacional -Bioinformática: Genómica y Proteómica -Biomedicina

17 Áreas relacionadas y aplicaciones del reconocimiento de patrones Aplicaciones - Pre-Procesamiento de Imágenes / Segmentación - Visión automática - Reconocimiento del habla - Reconocimiento automático de objetivos militares - Reconocimiento óptico de caracteres - Análisis de Seismos - Diagnóstico de pacientes / máquinas - Identificación de huellas digitales - Inspección Industrial - Predicción en entornos Financieros - Detección automática de fraudes en tarjetas de crédito - Diagnóstico médico - Análisis de señales ECG y EEG

18 Áreas relacionadas y aplicaciones del reconocimiento de patrones - Visión automática - Inspección visual - Detección de enemigos - Reconocimiento de caracteres (OCR) - Ordenamiento automático de cartas - Procesamiento automático de cheques bancarios - Diagnóstico asistido por ordenador - Análisis de imágenes médicas (RMN) - Análisis de señales (EEG, ECG) - Diseñadas para ayudar (no sustituir) a los médicos Reconocimiento del habla - Interacción ordenador-humano, acceso universal: El micrófono graba una señal acústica del habla, la señal es clasificada en fonemas y/o palabras

19 Áreas relacionadas y aplicaciones del reconocimiento de patrones System diagnosis # ejemplos 10 5 Ecology Market Analysis Machine Vision 10 4 Text Categorization OCR HWR Bioinformatics # variables

20 Componentes de un sistema de reconocimiento de patrones Un sistema de clasificación de patrones contiene: - Sensor Adquisición de la base de datos - Mecanismo de preprocesamiento - Mecanismo de reducción de la dimensionalidad - Algoritmo de aprendizaje - Mecanismos de validación con un conjunto de ejemplos ya clasificados (conjunto de test) Sistemas de medición Preprocesamiento Reducción de la dimensionalidad Predicción Selección del modelo el mundo real Resultados del análisis Sensores Cámaras Bases de datos Selección/proyección de características Eliminación del ruido Extracción de características Normalización Clasificación Regresión Clustering Descripción Validación cruzada Bootstrap

21 Componentes de un sistema de reconocimiento de patrones Sistemas de medición Preprocesamiento Reducción de la dimensionalidad Predicción Selección del modelo el mundo real Resultados del análisis Entorno Sensores Cámaras Bases de datos Selección/proyección de características Validación cruzada Bootstrap Eliminación del ruido Extracción de características Normalización Valores perdidos (missing values) Clasificación Regresión Clustering Descripción

22 Tipos de problemas de predicción Clasificación - El problema consiste en asignar una clase a un objeto - La salida del sistema es una etiqueta Ejemplo: clasificar un producto como bueno o malo en un test de control de calidad Regresión - Generalización del problema de clasificación - La salida del sistema es un número/vector real Ejemplo: predecir la temperatura que habrá la semana que viene Clustering (agrupamiento) - El problema de organizar objetos en grupos que tengan sentido - El sistema halla una agrupación de objetos que puede ser jerárquica Ejemplo: organizar plantas en una taxonomía de especies Descripción - El problema de representar un objeto en términos de una serie de primitivas - El sistema produce una descripción estructural o lingüística Ejemplo: etiquetar una señal ECG en términos de complejos P, QRS y T

23

24 Aprendizaje Supervisado: Clasificadores La tarea de un clasificador es separar el espacio de atributos en regiones de decisión, cada una con una etiqueta (clase asignada) - Los límites entre diferentes regiones se llaman fronteras de decisión - La clasificación del vector de atributos x consiste en determinar a qué región de decisión pertenece, y asignarle la clase correspondiente Clasificador con fronteras lineales Clasificador con fronteras no lineales Aprendizaje supervisado: le damos ejemplos al sistema acerca de qué debe hacer exactamente en esos casos. Queremos que el sistema aprenda de ellos a generalizar situaciones nuevas.

25 X3 Aprendizaje Supervisado: Clasificadores Frontera de decisión lineal x x x x 2 X xx

26 Hs.7780 Aprendizaje Supervisado: Clasificadores Frontera de decisión no lineal x x x 1 x 2 Hs x 1 Hs

27 Aprendizaje Supervisado: Clasificadores El clasificador se puede ver como un conjunto de funciones discriminantes El clasificador etiqueta el vector x como clase ω i si g i (x) > g j (x) para todo j i

28 Aprendizaje no Supervisado: Clustering Cuántos grupos/clusters? Cómo sabemos que un determinado agrupamiento/clustering es bueno?

29 Aprendizaje no Supervisado: Clustering Queremos un sistema que reconozca automáticamente las letras L, P, O, E, Q - Determinar un número suficiente de atributos - Diseñar un clasificador basado en árboles de decisión

30 Aprendizaje no Supervisado: Clustering DENDROGRAMA EN BIOLOGIA

31 Aprendizaje no Supervisado: Clustering DENDROGRAMA EN BIOLOGIA- Bi-clustering

32 Ciclo de diseño de un sistema de reconocimiento de patrones (1) Obtención de datos Probablemente es el componente que requiere más tiempo de un proyecto de RP Cuántos ejemplos son suficientes? Preprocesamiento de los datos Señal/Ruido Missing Values Outliers Normalización de los datos Elección de los atributos Es crítico para el éxito en un problema Reconocimiento de Patrones Requiere un conocimiento básico del problema a priori Elección del modelo Diferentes tipos de modelos Diferentes parámetros con los que jugar

33 Ciclo de diseño de un sistema de reconocimiento de patrones (2) Entrenamiento Dado un conjunto de atributos y un modelo en blanco, adaptar el modelo para explicar los datos Aprendizajes supervisado, no supervisado, por refuerzo Evaluación Cómo es de bueno el modelo entrenado? Sobreajuste ( overfitting ) versus generalización

34 Ciclo de diseño de un sistema de reconocimiento de patrones (3) Consideremos el siguiente problema: Una empresa pesquera quiere automatizar el proceso de separación de los peces, de acuerdo con la especie (salmón o lubina) El sistema de automatización consiste en: - Una cinta de transporte para el pescado recogido en el mar - Dos cintas de transporte para los peces separados (salmón y lubina) - Un brazo mecánico que coge los peces de la cinta de entrada y los lleva a una de las dos cintas de salida - Un sistema de visión con una cámara CCD - Un ordenador que analiza las imágenes, toma una decisión y controla el brazo mecánico hacia una u otra cinta De [Duda, Hart y Stork, 2001]

35 Ciclo de diseño de un sistema de reconocimiento de patrones (4) Sensor - El sistema de visión captura una imagen de cada pez que entra en el área de separación Preprocesamiento - Algoritmos de procesamiento de imágenes - Ajustes de niveles medios de intensidad - Segmentación para separar el pez del fondo (cinta, suelo, ) Extracción de características - Sabemos que en promedio la lubina es más grande que el salmón - Estimamos la longitud del pez a partir de la imagen segmentada

36 Ciclo de diseño de un sistema de reconocimiento de patrones (5) Clasificación - Reunimos un conjunto de ejemplos de ambas especies - Calculamos la distribución de longitudes para ambas clases - Determinamos una frontera de decisión (umbral) que minimice el error de clasificación - Estimamos la probabilidad de error obteniendo un resultado desalentador del 40% Qué hacemos ahora?

37 Ciclo de diseño de un sistema de reconocimiento de patrones (6) Mejorando el rendimiento de nuestro sistema de Reconocimiento de Patrones - Nos piden que alcancemos una tasa de reconocimiento del 95% - Intentar añadir otros atributos: Ancho área, posición de los ojos respecto a la boca, Estos atributos no contienen información discriminatoria - Finalmente encontramos un buen atributo: la intensidad media de las escamas

38 Ciclo de diseño de un sistema de reconocimiento de patrones (7) - Combinamos longitud e intensidad media de las escamas para mejorar la separabilidad de las clases - Calculamos una función discriminante lineal para separar las dos clases, obteniendo una tasa de clasificación correcta del 95.7%

39 Ciclo de diseño de un sistema de reconocimiento de patrones (8) Riesgo versus Tasa de clasificación - Nuestro clasificador lineal fue diseñado para minimizar el error global de clasificación - Es ésta la mejor función objetivo para nuestra industria pesquera? El riesgo de clasificar un salmón como lubina es: un consumidor final se encuentra un sabroso salmón habiendo comprado lubina El riesgo de clasificar una lubina como salmón es: un consumidor final enfadado ya que le han vendido lubina al precio de salmón - Intuitivamente, podríamos ajustar la frontera de decisión para minimizar el riesgo Satisfacer al cliente

40 Ciclo de diseño de un sistema de reconocimiento de patrones (9)

41 Ciclo de diseño de un sistema de reconocimiento de patrones (10) El problema de la generalización - La tasa de reconocimiento de nuestro clasificador lineal (95.7%) se ajustaba a las especificaciones, pero pensamos que podemos mejorar esta tasa - Así que diseñamos una red neuronal artificial con 5 capas ocultas, una combinación de funciones de activación logísticas e hiperbólicas, la entrenamos usando el algoritmo de Levenberg-Marquadt y obtenemos una tasa impresionante del % con la siguiente frontera de decisión:

42 Ciclo de diseño de un sistema de reconocimiento de patrones (11) - Contentos con nuestro clasificador, lo integramos en el sistema de la fábrica - Después de un par de días, el director de la fábrica nos llama quejándose de que el sistema clasifica mal el 25% de los peces - Qué ha pasado? -SOBREAJUSTE (OVERFITTING) -Se ha memorizado el problema

43 Pasos para el desarrollo de un modelo de predicción: introducción Objetivo: poder predecir de manera eficaz una propiedad de un conjunto de casos que no se nos han dado anteriormente. Ejemplos: hay problemas cardíacos o no en paciente nuevo? un cliente de un banco se cambiará o no a otra compañía? subirá o bajará el índice Dow Jones mañana? Dicha predicción se realiza a partir de información adicional (variables independientes o atributos). Ejemplos: historial clínico + pruebas clínicas sencillas historial de movimientos bancarios + datos personales historial del Dow Jones + otros índices relevantes

44 Pasos para el desarrollo de un modelo de predicción: introducción Requisito indispensable para la construcción de un modelo: necesitamos partir de una base de datos de casos anteriores conocimiento Si no disponemos de la base de datos, hay que crearla. La mayor parte de las veces esta base de datos proviene de investigadores de áreas distintas a la informática.

45 Pasos para el desarrollo de un modelo de predicción: introducción Qué propiedades debe tener la base de datos de casos anteriores? Los casos deben ser medidos en las mismas condiciones que los que queremos predecir. Por ejemplo, las pruebas médicas deben de hacerse y evaluarse usando los mismos criterios problema práctico cuando se mezclan informaciones de diferentes fuentes. Los casos no deben tener ningún sesgo relevante frente a los casos a predecir. Por ejemplo, si queremos predecir problemas de corazón en pacientes de ambos sexos, no nos vale una base de datos en la que sólo hay mujeres, ya que el sexo puede ser un factor importante en el diagnóstico.

46 Pasos para el desarrollo de un modelo de predicción: introducción Qué propiedades debe tener la base de datos de casos anteriores? Codificación de las variables: Cada una de las variables de cada caso (variable a predecir, variables independientes) debe tomar un único valor, que debe ser numérico o simbólico. Por ejemplo: la variable sexo puede ser H o M, pero no de género masculino, de género femenino. En general, los métodos estándar de aprendizaje prefieren variables numéricas: por ejemplo 0 para hombre, 1 para mujer.

47 Pasos para el desarrollo de un modelo de predicción: introducción Qué propiedades debe tener la base de datos de casos anteriores? - Minimización de la redundancia en las variables: se evitará codificar con diferentes valores el mismo significado. Por ejemplo: no se admite codificar a veces como 0, otras como 1 el sexo hombre, y a veces como 2, otras como 3 el sexo mujer. - Definición inconfusa de los valores: se evitará codificar con el mismo valor cosas diferentes: cuidado al mezclar datos provenientes de distintas fuentes!!!

48 Pasos para el desarrollo de un modelo de predicción: introducción Qué es entonces la base de datos de casos anteriores? - Tabla en la que hay tantas filas como casos. - Hay tantas columnas como variables en el problema: variables predictoras + variables a predecir (etiquetas o target) - En cada celda de la tabla, hay un sólo valor, que se escoge como numérico - En problemas de clasificación y regresión, los valores de la columna variable a predecir están rellenados apropiadamente - Valores del resto de las columnas pueden no estar rellenos: missing values ( valores ausentes ).

49 Pasos para el desarrollo de un modelo de predicción: introducción Representación de la Base de datos Base de datos: X m filas = patrones n columnas = atributos n X={x ij } m y={y j } x i Colon cancer, Alon et al 1999

50 Pasos para el desarrollo de un modelo de predicción: Análisis y definición del problema qué queremos predecir exactamente? Debemos definir de una manera objetiva, medible y completamente clara la variable a predecir. Hace falta un conocimiento profundo del problema: esta variable se deberá determinar con ayuda de expertos.

51 Pasos para el desarrollo de un modelo de predicción: Análisis y definición del problema A partir de qué datos vamos a predecir la variable objetivo? Si partimos del problema de cero (no tenemos la base de datos creada): - conocimiento experto: qué variables son relevantes? - obtención de los datos Si ya tenemos la base de datos: - conocimiento experto + análisis de datos - selección de variables y unificación de los datos en una sola base de datos En cualquiera de los dos casos, se puede realizar una segunda selección de variables en el proceso de modelado.

52 Pasos para el desarrollo de un modelo de predicción: Creación y depuración de la base de datos Creación de tabla con el mismo número de columnas = número de atributos Codificación numérica de las variables Minimización de la redundancia en las variables Definición inconfusa de los valores Depuración de los datos Auditoria de los datos Análisis estadístico de la base de datos (Normalización). Limpieza de outliers (datos anómalos). Missing values ( valores ausentes ). Segmentación de valores.

53 Pasos para el desarrollo de un modelo de predicción: Creación y depuración de la base de datos Preprocesamiento de datos - Diferentes tipos de datos: numéricos (discretos/continuos), simbólicos, categóricos, series temporales, vectoriales, - Cómo se codifican? diferentes criterios - Creación de grupos: segmentación - Compresión de series temporales: media, tendencia, varianza. - Obtención de variables sintéticas: ratios. Se necesita conocimiento experto. - Obtención de nuevas características: PCA, LDA, ICA - Missing values (datos ausentes)

54 Pasos para el desarrollo de un modelo de predicción: Creación y depuración de la base de datos Missing values Tipos de missing values : - campo no rellenado por olvido. Ejemplo: sexo de una persona - campo no rellenado por imposibilidad. Ejemplo: edad del marido/mujer (en caso de ser solter@). - valor "especial". - verificar en qué datos hay missing values y discutir por qué -> detección de posibles errores en la introducción de los datos. Qué hacemos con ellos? - borrar patrón: qué hacemos entonces con los nuevos datos a predecir que contengan missing values? - borrar columna: pierdo datos. A lo mejor el hecho de ser missing value es informativo. - sustituir missing values por un valor numérico especial: cuidado! rompo topología. - sustituir missing value por valor promedio. - tratar de predecir missing values.

55 Pasos para el desarrollo de un modelo de predicción: Creación Conjuntos de Entrenamiento, Validación y Test Dividir el conjunto de datos iniciales en subconjuntos de forma aleatoria, manteniendo la representación de partida Objetivo: construcción de un modelo definitivo que responda al problema de predicción planteado con un grado de fiabilidad determinado Conjunto de entrenamiento: conjunto de datos con el que Se construyen distintos modelos para resolver el problema Se seleccionan uno o varios modelos finales

56 Pasos para el desarrollo de un modelo de predicción: Creación Conjuntos de Entrenamiento, Validación y Test Conjunto de validación: conjunto de datos con el que Se validan los modelos finales del punto anterior Se determina el modelo definitivo según: 1.- Modelo con mejor ajuste a los datos 2.- Modelo más cercano al problema de predicción Conjunto de prueba: conjunto de datos con el que Se realizan pruebas de funcionamiento del modelo

57 Pasos para el desarrollo de un modelo de predicción: Creación Conjuntos de Entrenamiento, Validación y Test Conjunto de datos de partida 1.- El conjunto de entrenamiento y validación deben salir del mismo conjunto de datos inicial (misma población) 60% + 40% entrenamiento + validación Muestras reducidas: Validación cruzada ( Cross-validation ) K-fold (K=10) leave-one-out = n-fold Bootstrap = muestreo con reemplazamiento 2.- El conjunto de prueba puede o no salir del conjunto de datos inicial Valoraciones independientes

58 Pasos para el desarrollo de un modelo de predicción: selección de modelos Modelos lineales: Análisis Discriminantes Lineales Modelos basados en núcleos: Máquinas de vectores de soporte ( Suppot Vector Machine, SVM) Redes neuronales: Perceptrón Multicapa, PCM ( Multilayer Perceptron, MLP) Modelos probabilísticos: Redes Bayesianas Árboles de decisión: ID3, C4.5 Métodos de clustering : K-means, Métodos Espectrales

59 Pasos para el desarrollo de un modelo de predicción: selección de modelos Discriminante Lineal Árboles de decisión Representación: Iris Data Set (Fisher, 1936) setosa versicolor virginica Mezclas de Gausianas Kernel method (SVM)

60 Pasos para el desarrollo de un modelo de predicción: selección de modelos Cómo de bueno es un clasificador? Métodos Estadísticos ANÁLISIS ROC: Receiver Operating Characteristic curve Negativo Positivo Sens TP TP FN Spec TN TN FP acc Recall TN TP P N TP TP TN Precision TP TP FP

61 Pasos para el desarrollo de un modelo de predicción: selección de modelos Variación del umbral Elección de la frontera de decisión f(x) < 0 f(x) < 0 x 2 x 2 f(x) > 0 f(x) > 0 x 1 x 1

62 Pasos para el desarrollo de un modelo de predicción: selección de modelos Variación del umbral Elección de la frontera de decisión f(x) < -1 f(x) < -1 x 2 x 2 f(x) > -1 f(x) > -1 x 1 x 1

63 Pasos para el desarrollo de un modelo de predicción: selección de modelos Variación del umbral Elección de la frontera de decisión f(x) < 1 f(x) < 1 x 2 x 2 f(x) > 1 f(x) > 1 x 1 x 1

64 Pasos para el desarrollo de un modelo de predicción: selección de modelos Curva ROC 100% TPR, tasa de acierto ( hit rate ), sensibilidad curva ROC Ideal (AUC=1) Cada punto de la curva ROC corresponde al resultado para un valor de umbral en f(x)=δ. 0 AUC 1 0 FPR, 1-specificity 100%

65 Pasos para el desarrollo de un modelo de predicción: selección de modelos Puntos de la curva ROC son distintos niveles de decisión o valores de corte que permiten una clasificación dicotómica de los valores de la prueba según sean superiores o inferiores al valor elegido. La diferencia esencial con el caso más simple es que ahora no tenemos un único par de valores de sensibilidad y especificidad que definan la exactitud de la prueba, sino un conjunto de pares correspondientes a cada uno de los distintos niveles de decisión.

66 Pasos para el desarrollo de un modelo de predicción: selección de modelos Muestra un balance entre sensibilidad y especificidad El clasificador (medido sobre el conjunto de test) es más exacto cuanto más cerca esté del borde superior izquierdo. El clasificador (medido sobre el conjunto de test) es tanto más inexacto cuánto más cerca esté la curva a la diagonal de los 45 grados. La pendiente de la línea tangente en un punto de corte da la tasa de verosimilitud (LR) para ese valor del test. El área bajo la curva es una medida de la calidad del clasificador (AUC- ROC) = excelente = buena = justa = pobre = mala

67 Pasos para el desarrollo de un modelo de predicción: selección de modelos Comparamos distintos clasificadores

68 Pasos para el desarrollo de un modelo de predicción: selección de modelos Curva de campaña Estamos interesados en detectar los ejemplos más claros de una clase: queremos detectar las personas que dado unos síntomas X claramente no tienen la enfermedad Y. De esta forma nos evitamos hacer pruebas médicas innecesarias. Empresas que quieren retener a los clientes de su cartera actual (por ej. aseguradora o compañía telefónica. ). Lanzamos una campaña de marketing en la que se ofertan regalos a los clientes a cambio de que se queden en la compañia. No queremos malgastar el dinero asignado a esta campaña de promoción ofertándoles regalos a clientes que de todas formas se iban a quedar: así que detectamos los clientes que tienen más probabilidad de abandonar la compañía.

69 Pasos para el desarrollo de un modelo de predicción: selección de modelos Cómo de bien el clasificador distingue los casos positivos? hit % TPprediction _ rate Hit rate = sensitivity % P dataset Datos son ordenados de acuerdo al resultado del clasificador: probabilidad de la clase positiva de mayor a menor División del conjunto de datos en fracciones (10 es un número aceptado, 10%, 20%,..., 100%) hit 10%, hit 20%, hit 30%,..., hit 100% La mayor concentración de predicciones positivas estarán en los primeros quantiles.

70 Pasos para el desarrollo de un modelo de predicción: selección de modelos ANÁLISIS TAMAÑO CAMPAÑA vs ACIERTO - Procedemos a estudiar el comportamiento de nuestro modelo en el conjunto de entrenamiento/validación/test. - Dado un umbral, la regla x < selecciona N patrones, que representan un porcentaje del t % ( tamaño de la campaña ). - De ese número de patrones seleccionado, un porcentaje h 1 % pertenece a la clase que queremos detectar ( tasa de acierto de la campaña ). - La curva tamaño campaña vs acierto es el conjunto de todos los pares (t, h 1 ) que podemos obtener.

71 Pasos para el desarrollo de un modelo de predicción: selección de modelos CÓMPUTO DE LA GRÁFICA TAMAÑO CAMPAÑA vs ACIERTO 1. Calcular las estimaciones/predicciones de los ejemplos en el conjunto a estudiar, y ordenarlas de mayor a menor en referencia a las predicciones positivas. 2. Inicializar n=1, N 1 =0 (positiva), N 0 =0 (negativa) 3. Si la clase del ejemplo es 1, sumar 1 a N 1. Si no, sumarlo a N La campaña con = z n tiene un tamaño del 100*n / N data %, y una tasa de acierto del 100*N 1 / n %. 5. Si siguen quedando ejemplos de entrenamiento, sumar 1 a n y volver al punto 3.

72 Pasos para el desarrollo de un modelo de predicción: selección de modelos

73 Pasos para el desarrollo de un modelo de predicción: selección de modelos COMBINACIÓN DEL ANÁLISIS CON LA MATRIZ DE COSTO - Para terminar de ajustar nuestro modelo (umbral de decisión), deberíamos tener en cuenta el coste total de predicción: nuestro objetivo es maximizar los beneficios. En el caso de la predicción de la enfermedad, queremos maximizar la tasa de acierto en los pacientes que no han desarrollado la enfermedad, a la vez que minimizamos el número de personas en las que nos equivocamos. En el caso de la compañía, queremos maximizar los beneficios totales de la compañía (beneficios que reportan los clientes que se quedan menos costo de la campaña de publicidad). -Estos costes / beneficios se obtienen a través de análisis de expertos, y constituyen nuestra matriz de costo: C ij : beneficio obtenido al clasificar un patrón de tipo j como i.

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Reconocimiento de patrones (RP): clasificar objetos en un número de categorías o clases.

Más detalles

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Desde la antigüedad, el problema de buscar patrones en datos es fundamental en diversas

Más detalles

Pattern Classification

Pattern Classification Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors

Más detalles

Capitulo 1: Introducción al reconocimiento de patrones (Secciones )

Capitulo 1: Introducción al reconocimiento de patrones (Secciones ) Capitulo 1: Introducción al reconocimiento de patrones (Secciones 1.1-1.6) M A C H I N E P E R C E P T I O N U N E J E M P L O S I S T E M A S D E R E C O N O C I M I E N T O D E P A T R O N E S C I C

Más detalles

Lingüística computacional

Lingüística computacional Lingüística computacional Definición y alcance Escuela Nacional de Antropología e Historia (ENAH) Agosto diciembre de 2015 Lingüística Ciencias de la computación Lingüística computacional Estudio del lenguaje

Más detalles

Aprendizaje Automatizado

Aprendizaje Automatizado Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto

Más detalles

Inteligencia Artificial: Su uso para la investigación

Inteligencia Artificial: Su uso para la investigación Inteligencia Artificial: Su uso para la investigación Dra. Helena Montserrat Gómez Adorno Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas helena.adorno@iimas.unam.mx 1 Introducción

Más detalles

Aprendizaje Automatizado

Aprendizaje Automatizado Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto

Más detalles

Aprendizaje inductivo

Aprendizaje inductivo Inteligencia Artificial Aprendizaje inductivo Ing. Sup. en Informática, 4º Curso académico: 2011/2012 Profesores: Ramón Hermoso y Matteo Vasirani Aprendizaje Resumen: 3. Aprendizaje automático 3.1 Introducción

Más detalles

Índice general. Prefacio...5

Índice general. Prefacio...5 Índice general Prefacio...5 Capítulo 1 Introducción...13 1.1 Introducción...13 1.2 Los datos...19 1.3 Etapas en los procesos de big data...20 1.4 Minería de datos...21 1.5 Estructura de un proyecto de

Más detalles

VIII Jornadas de Usuarios de R

VIII Jornadas de Usuarios de R VIII Jornadas de Usuarios de R Análisis del Abandono en el Sector Bancario Predicción del abandono de clientes Albacete, 17 de Noviembre de 2016 I. INDICE : Modelo Abandonos I. COMPRENSIÓN DEL NEGOCIO

Más detalles

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) Curso Académico: 2015-2016 Programa: Centro: Universidad: Máster Universitario en Ingeniería Informática Escuela Politécnica Superior

Más detalles

10 EXÁMENES

10 EXÁMENES 10 EXÁMENES 2014-2018 Convocatoria Extraordinaria de Septiembre 1 de Septiembre de 2014 1. (1 pto.) a) Aunque por abuso del lenguaje hemos hablado de minería de datos y de KDD como sinónimos, indica las

Más detalles

Introducción. Qué es Machine Learning?

Introducción. Qué es Machine Learning? Introducción Qué es Machine Learning? Introducción Hay problemas en Informática que se pueden definir concretamente y son simples de convertir en un algoritmo Ejemplo: Ordenar alfabéticamente una lista,

Más detalles

INTRODUCTION TO MACHINE LEARNING ISABELLE GUYON

INTRODUCTION TO MACHINE LEARNING ISABELLE GUYON INTRODUCTION TO MACHINE LEARNING ISABELLE GUYON 2008-02-31 Notas tomadas por: María Eugenia Rojas Qué es Machine Learning? El proceso de aprendizaje de maquina consiste en tener una gran base de datos

Más detalles

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: clasificación CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja

Más detalles

RECONOCIMIENTO DE PATRONES DRA. LETICIA FLORES PULIDO

RECONOCIMIENTO DE PATRONES DRA. LETICIA FLORES PULIDO RECONOCIMIENTO DE PATRONES DRA. LETICIA FLORES PULIDO 2 CONTENIDO TEMA1: INTRODUCCIÓN TEMA2: APRENDIZAJE MÁQUINA TEMA3: RECONOCIMIENTO DE PATRONES TEMA4: PROGRAMACIÓN EVOLUTIVA 3 TEMA 3 : RECONOCIMIENTO

Más detalles

Sistemas de Percepción Visión por Computador

Sistemas de Percepción Visión por Computador Nota: Algunas de las imágenes que aparecen en esta presentación provienen del libro: Visión por Computador: fundamentos y métodos. Arturo de la Escalera Hueso. Prentice Hall. Sistemas de Percepción Visión

Más detalles

Support Vector Machines

Support Vector Machines Support Vector Machines Métodos Avanzados en Aprendizaje Artificial Luis F. Lago Fernández Manuel Sánchez-Montañés Ana González Universidad Autónoma de Madrid 6 de abril de 2010 L. Lago - M. Sánchez -

Más detalles

Aprendizaje Supervisado Máquinas Vectoriales de Soporte

Aprendizaje Supervisado Máquinas Vectoriales de Soporte Aprendizaje Supervisado Máquinas Vectoriales de Soporte Tipos de Variables 10 10 Modelo general de los métodos de Clasificación Id Reembolso Estado Civil Ingresos Anuales 1 Sí Soltero 125K No 2 No Casado

Más detalles

Evaluación de modelos

Evaluación de modelos Evaluación de modelos José Luis Ruiz Reina Dpto. Ciencias de la Computación e Inteligencia Artificial Razonamiento Asistido por Computador, 2017-2018 Evaluación de modelos Una de las fases principales

Más detalles

ANÁLISIS DE DATOS. Jesús García Herrero

ANÁLISIS DE DATOS. Jesús García Herrero ANÁLISIS DE DATOS Jesús García Herrero ANALISIS DE DATOS EJERCICIOS Una empresa de seguros de automóviles quiere utilizar los datos sobre sus clientes para obtener reglas útiles que permita clasificar

Más detalles

Análisis de Datos. Validación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Validación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores Análisis de Datos Validación de clasificadores Profesor: Dr. Wilfrido Gómez Flores 1 Introducción La mayoría de los clasificadores que se han visto requieren de uno o más parámetros definidos libremente,

Más detalles

TEMA 1: INTRODUCCIÓN N AL PROCESADO Y ANÁLISIS DE DATOS

TEMA 1: INTRODUCCIÓN N AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano TEMA 1: INTRODUCCIÓN N AL PROCESADO Y ANÁLISIS DE DATOS ÍNDICE Introducción. Selección de variables.

Más detalles

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR Tareas de la minería de datos: clasificación PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja o asocia datos

Más detalles

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) Curso Académico: 2017-2018 Programa: Centro: Universidad: Máster Universitario en Ingeniería Informática Universidad Autónoma de

Más detalles

Reconocimiento de Patrones DRA. LETICIA FLORES PULIDO

Reconocimiento de Patrones DRA. LETICIA FLORES PULIDO Reconocimiento de Patrones DRA. LETICIA FLORES PULIDO 2 CONTENIDO TEMA1: INTRODUCCIÓN TEMA2: APRENDIZAJE MÁQUINA TEMA3: REDES NEURONALES MULTICAPA TEMA4: PROGRAMACIÓN EVOLUTIVA 3 TEMA 2 : APRENDIZAJE MÁQUINA

Más detalles

MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN

MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Manuel Sánchez-Montañés Luis Lago Ana González Escuela Politécnica Superior Universidad Autónoma de Madrid Teoría

Más detalles

Intensificación en "Lenguajes e Inteligencia Artificial"

Intensificación en Lenguajes e Inteligencia Artificial Ingeniería Informática - ETS Informática Métodos y Técnicas Informáticas específicas. Comportamientos humanos que se quieren simular/emular: IA: Vertiente "cognitiva" : Razonamiento, Intelecto,. RF: Vertiente

Más detalles

Modelos de Scoring para Riesgo de Crédito

Modelos de Scoring para Riesgo de Crédito Modelos de Scoring para Riesgo de Crédito Los modelos de scoring de riesgo, dentro del proceso de otorgamiento de crédito, están orientados a anticipar comportamiento futuro. Podemos dividirlos en tres

Más detalles

Perceptrón Simple. Aspectos Prácticos y Algoritmos Redes Neuronales, DC-FCEyN-UBA. Rosana Matuk Primer Cuatrimestre 2018

Perceptrón Simple. Aspectos Prácticos y Algoritmos Redes Neuronales, DC-FCEyN-UBA. Rosana Matuk Primer Cuatrimestre 2018 Perceptrón Simple Aspectos Prácticos y Algoritmos Redes Neuronales, DC-FCEyN-UBA Rosana Matuk Primer Cuatrimestre 2018 Rosana Matuk (DC-FCEyN-UBA) Perceptrón simple Primer Cuatrimestre 2018 1 / 29 Objetivo

Más detalles

Bases estadísticas del reconocimiento de patrones

Bases estadísticas del reconocimiento de patrones Bases estadísticas del reconocimiento de patrones César Martínez cmartinez _AT_ fich.unl.edu.ar Inteligencia Computacional FICH-UNL Percepción humana Tarea muuuuy simple: Cuántas llaves hay? Inteligencia

Más detalles

Estadística con R. Clasificadores

Estadística con R. Clasificadores Estadística con R Clasificadores Análisis discriminante lineal (estadístico) Árbol de decisión (aprendizaje automático) Máquina soporte vector (aprendizaje automático) Análisis discriminante lineal (AD)

Más detalles

Técnicas de aprendizaje automático en el análisis de datos de DP. Dr. Carlos Fernández Lozano Juan de la Cierva-Formación

Técnicas de aprendizaje automático en el análisis de datos de DP. Dr. Carlos Fernández Lozano Juan de la Cierva-Formación Técnicas de aprendizaje automático en el análisis de datos de DP Dr. Carlos Fernández Lozano Juan de la Cierva-Formación carlos.fernandez@udc.es Índice Acerca de mí Big data? Medicina de precisión? Integración

Más detalles

El Perceptrón Multicapa

El Perceptrón Multicapa El Perceptrón Multicapa N entradas M neuronas de salida L: neuronas en la capa oculta E = 1 p M ( zi ( k) yi ( k) ) k = 1 i= 1 Implementación de la función XOR Regiones de clasificación en función del

Más detalles

ANÁLISIS DE DATOS. Ricardo Aler Mur

ANÁLISIS DE DATOS. Ricardo Aler Mur ANÁLISIS DE DATOS Ricardo Aler Mur EXAMEN DE ANÁLISIS DE DATOS GRADO EN INFORMÁTICA ENERO 2014 10 puntos, 1 hora y media de duración. Responder cada pregunta con respuestas breves (unas pocas líneas).

Más detalles

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN APRENDIZAJE DE MÁQUINA

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN APRENDIZAJE DE MÁQUINA UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN APRENDIZAJE DE MÁQUINA OBJETIVO GENERAL El objetivo general del Aprendizaje de Máquina (ML por

Más detalles

Clasificación de estados cerebralesusando neuroimágenes funcionales

Clasificación de estados cerebralesusando neuroimágenes funcionales Clasificación de estados cerebralesusando neuroimágenes funcionales Clase 2: Reconocimiento de patrones en datos de neuroimagenes Enzo Tagliazucchi (tagliazucchi.enzo@googlemail.com) Primera clase: introducción

Más detalles

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA Ricardo Aler Mur EVALUACIÓN Evaluación: entrenamiento y test Una vez obtenido el conocimiento es necesario validarlo para

Más detalles

Planteamiento del problema y conceptos básicos Sistemas de reconocimiento de patrones Ciclo de diseño Reconocimiento de patrones y aprendizaje

Planteamiento del problema y conceptos básicos Sistemas de reconocimiento de patrones Ciclo de diseño Reconocimiento de patrones y aprendizaje Tema 1: Introducción 10529 Informàtica Encastada i Aplicacions Máster en Tecnologías de la Información y las Comunicaciones Universitat de les Illes Balears Departament de Ciències Matemàtiques i Informàtica

Más detalles

FUNDAMENTOS Y APLICACIONES DE APRENDIZAJE AUTOMÁTICO

FUNDAMENTOS Y APLICACIONES DE APRENDIZAJE AUTOMÁTICO FUNDAMENTOS Y APLICACIONES DE APRENDIZAJE AUTOMÁTICO Año 2016 Carrera/ Plan: Licenciatura en Informática Plan 2015 Licenciatura en Sistemas Plan 2015 Licenciatura en Informática Plan 2003-07/Plan 2012

Más detalles

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES 1 APRENDIZAJE PROBABILÍSTICO NAIVE BAYES Bases de Datos Masivas 9 de Noviembre de 2016 2 Razonamiento Probabilístico Es una herramienta de aprendizaje estadístico. Se trata de razonar en un contexto incierto;

Más detalles

Comparativa de clasificadores para la detección de microaneurismas en angiografías digitales.

Comparativa de clasificadores para la detección de microaneurismas en angiografías digitales. Escuela Técnica Superior de Ingenieros Proyecto Fin de Carrera Comparativa de clasificadores para la detección de microaneurismas en angiografías digitales. DEPARTAMENTO DE TEORÍA DE LA SEÑAL Y COMUNICACIONES

Más detalles

Bloque temático: Sistemas de Reconocimiento de Patrones

Bloque temático: Sistemas de Reconocimiento de Patrones Bloque temático: Sistemas de Reconocimiento de Patrones 1 Sistemas de Reconocimiento de Patrones PRACTICAS 6)Estudio de ejemplos en Matlab 7)Adquisición de imágenes reales: generación de una librería de

Más detalles

Científico de datos o data scientist

Científico de datos o data scientist Científico de datos o data scientist La demanda de científicos de datos se ha incrementado de manera constante en los últimos años, existe en el mercado una amplia oferta para los científicos de datos.

Más detalles

II. 2. Análisis manual de imágenes médicas: Análisis de la curva ROC (Receiver Operating Characteristic).

II. 2. Análisis manual de imágenes médicas: Análisis de la curva ROC (Receiver Operating Characteristic). II. 2. Análisis manual de imágenes médicas: Análisis de la curva ROC (Receiver Operating Characteristic). Psicofísica: calidad física de una imagen médica y calidad del diagnóstico El análisis de la curva

Más detalles

Sistemas inteligentes Casos de uso de IA

Sistemas inteligentes Casos de uso de IA Sistemas inteligentes Casos de uso de IA Áreas de investigación aplicada NLP Visión WSN Señal Audio Machine Learning (data/text/web mining) Robótica Inspección HCI... Semántica Objetivo de la jornada Desmitificar

Más detalles

240AR022 - Reconocimiento de Formas y Aprendizaje Automático

240AR022 - Reconocimiento de Formas y Aprendizaje Automático Unidad responsable: Unidad que imparte: Curso: Titulación: Créditos ECTS: 2017 240 - ETSEIB - Escuela Técnica Superior de Ingeniería Industrial de Barcelona 707 - ESAII - Departamento de Ingeniería de

Más detalles

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

IAAE - Inteligencia Artificial Aplicada a la Ingeniería Unidad responsable: Unidad que imparte: Curso: Titulación: Créditos ECTS: 2017 295 - EEBE - Escuela de Ingeniería de Barcelona Este 723 - CS - Departamento de Ciencias de la Computación GRADO EN INGENIERÍA

Más detalles

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

IAAE - Inteligencia Artificial Aplicada a la Ingeniería Unidad responsable: Unidad que imparte: Curso: Titulación: Créditos ECTS: 2017 295 - EEBE - Escuela de Ingeniería de Barcelona Este 723 - CS - Departamento de Ciencias de la Computación GRADO EN INGENIERÍA

Más detalles

Aprendizaje: Boosting y Adaboost

Aprendizaje: Boosting y Adaboost Técnicas de Inteligencia Artificial Aprendizaje: Boosting y Adaboost Boosting 1 Indice Combinando clasificadores débiles Clasificadores débiles La necesidad de combinar clasificadores Bagging El algoritmo

Más detalles

GUÍA DE APRENDIZAJE ASIGNATURA SISTEMAS BASADOS EN APRENDIZAJE AUTOMATICO. CURSO ACADÉMICO - SEMESTRE Primer semestre

GUÍA DE APRENDIZAJE ASIGNATURA SISTEMAS BASADOS EN APRENDIZAJE AUTOMATICO. CURSO ACADÉMICO - SEMESTRE Primer semestre GUÍA DE APRENDIZAJE ASIGNATURA SISTEMAS BASADOS EN APRENDIZAJE AUTOMATICO CURSO ACADÉMICO - SEMESTRE 2015-16 - Primer semestre FECHA DE PUBLICACIÓN Julio - 2015 Datos Descriptivos Nombre de la Asignatura

Más detalles

CRITERIOS DE SELECCIÓN DE MODELOS

CRITERIOS DE SELECCIÓN DE MODELOS Inteligencia artificial y reconocimiento de patrones CRITERIOS DE SELECCIÓN DE MODELOS 1 Criterios para elegir un modelo Dos decisiones fundamentales: El tipo de modelo (árboles de decisión, redes neuronales,

Más detalles

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

IAAE - Inteligencia Artificial Aplicada a la Ingeniería Unidad responsable: Unidad que imparte: Curso: Titulación: Créditos ECTS: 2016 295 - EEBE - Escuela de Ingeniería de Barcelona Este 723 - CS - Departamento de Ciencias de la Computación GRADO EN INGENIERÍA

Más detalles

Tema 2: Análisis Discriminante

Tema 2: Análisis Discriminante Tema 2: Análisis Discriminante P 1 P 2 Problema de clasificación: Ténemos observaciones que corresponden a 2 grupos P_1, P_2. Si nos dan uno nuevo x_0 a que grupo pertenece? Guión 1. Motivación 2. Clasificación

Más detalles

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

IAAE - Inteligencia Artificial Aplicada a la Ingeniería Unidad responsable: Unidad que imparte: Curso: Titulación: Créditos ECTS: 2017 295 - EEBE - Escuela de Ingeniería de Barcelona Este 723 - CS - Departamento de Ciencias de la Computación GRADO EN INGENIERÍA

Más detalles

Módulo Minería de Datos Diplomado. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Módulo Minería de Datos Diplomado. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Error de clasificación Algoritmo de aprendizaje h Entrenamiento DATOS Evaluación

Más detalles

Introducción a la minería de datos

Introducción a la minería de datos Introducción a la minería de datos 1 Temario Qué es minería de datos? Quién usa minería de datos? Por qué de la minería de datos? Ciclo virtuoso de la minería de datos 2 Definición de minería de datos

Más detalles

Aprendizaje Automatizado. Redes Neuronales Artificiales

Aprendizaje Automatizado. Redes Neuronales Artificiales Aprendizaje Automatizado Redes Neuronales Artificiales Introducción Otra forma de emular características propias de los humanos: memorizar y asociar hechos. Se aprende de la experiencia. El cerebro humano

Más detalles

Análisis Inteligente de Datos: Introducción

Análisis Inteligente de Datos: Introducción Análisis Inteligente de Datos: cvalle@inf.utfsm.cl Departamento de Informática - Universidad Técnica Federico Santa María Santiago, Marzo 2009 Temario 1 Temario 1 Preguntas Relevantes Por qué análisis

Más detalles

Estadística Computacional

Estadística Computacional Estadística Computacional Profesor : Héctor Allende O. Departamento de Informática Universidad Técnica Federico Santa María Estructura del Curso 1.- Introducción. 2.- Análisis Exploratorio de Datos. 3.-

Más detalles

Examen de Septiembre de TACCIII y TAI (Modelo 2)

Examen de Septiembre de TACCIII y TAI (Modelo 2) Examen de Septiembre de TACCIII y TAI (Modelo 2) 12 de septiembre de 2008 1. La desordenación de la base de datos puede influir en el resultado obtenido mediante a) clasificación por distancia a las medias

Más detalles

Asignaturas Temas Asignaturas Temas

Asignaturas Temas Asignaturas Temas 1 Datos de la Asignatura Nombre de la asignatura: Carrera: Clave de la asignatura: Reconocimiento de Patrones Ingeniería en Sistemas CIE-0701 Horas teoría / práctica / Créditos: 2 2 6 2 Historia del Programa

Más detalles

Detección Multiusuario para DS-CDMA basado en SVM

Detección Multiusuario para DS-CDMA basado en SVM 9 Otra técnica basada en el aprendizaje y más conocida que la anterior es la basada en. Vamos a realizar una pequeña comparativa teórica de sobre ambas técnicas de clasificación. Estudiaremos los conceptos

Más detalles

Técnicas de Minería de Datos

Técnicas de Minería de Datos Técnicas de Minería de Datos Act. Humberto Ramos S. 1 Qué es Minería de datos? El desarrollo de dispositivos tecnológicos para acumular datos a bajo costo. Acumulación o registro de gran cantidad de datos.

Más detalles

Itinerario: Inteligencia Computacional

Itinerario: Inteligencia Computacional Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Itinerario: Inteligencia Computacional Escuela Politécnica Superior Universidad Autónoma de Madrid

Más detalles

Aprendizaje Automático

Aprendizaje Automático id3 id3 como búsqueda Cuestiones Adicionales Regresión Lineal. Árboles y Reglas de Regresión Ingeniería Informática Fernando Fernández Rebollo y Daniel Borrajo Millán Grupo de Planificación y Aprendizaje

Más detalles

LA MINERÍA DE DATOS APLICADA A LA BÚSQUEDA DE PATRONES DE SUPERVIVIENCIA EN LA NEOPLASIA MALIGNA DE TRÁQUEA, BRONQUIOS Y PULMÓN

LA MINERÍA DE DATOS APLICADA A LA BÚSQUEDA DE PATRONES DE SUPERVIVIENCIA EN LA NEOPLASIA MALIGNA DE TRÁQUEA, BRONQUIOS Y PULMÓN LA MINERÍA DE DATOS APLICADA A LA BÚSQUEDA DE PATRONES DE SUPERVIVIENCIA EN LA NEOPLASIA MALIGNA DE TRÁQUEA, BRONQUIOS Y PULMÓN Miguel Ángel Negrín; Christian González; Jaime Pinilla; Francisco-José Vázquez-Polo

Más detalles

Aprendizaje Automatizado. Árboles de Clasificación

Aprendizaje Automatizado. Árboles de Clasificación Aprendizaje Automatizado Árboles de Clasificación Árboles de Clasificación Estudiaremos un algoritmo para la creación del árbol. Selección de atributos comenzando en el nodo raíz. Proceso recursivo. Árboles

Más detalles

Tema 2: Introducción a scikit-learn

Tema 2: Introducción a scikit-learn Tema 2: Introducción a scikit-learn José Luis Ruiz Reina Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Razonamiento asistido por computador, 2017-18 Ejemplo:

Más detalles

Reconocimiento de Patrones

Reconocimiento de Patrones Reconocimiento de Patrones Técnicas de validación (Clasificación Supervisada) Jesús Ariel Carrasco Ochoa Instituto Nacional de Astrofísica, Óptica y Electrónica Clasificación Supervisada Para qué evaluar

Más detalles

Combinación de Clasificadores

Combinación de Clasificadores Combinación de Clasificadores Parte 1: Métodos de comité, Bagging, Boosting Reconocimiento de Patrones Departamento de Procesamiento de Señales Instituto de Ingeniería Eléctrica Facultad de Ingeniería,

Más detalles

Aprendizaje No Supervisado

Aprendizaje No Supervisado Aprendizaje Automático Segundo Cuatrimestre de 2015 Aprendizaje No Supervisado Supervisado vs. No Supervisado Aprendizaje Supervisado Clasificación y regresión. Requiere instancias etiquetadas para entrenamiento.

Más detalles

APLICACIONES DE MINERA DE DATOS EN ADUANA DE PERU. Luis Azaña Bocanegra

APLICACIONES DE MINERA DE DATOS EN ADUANA DE PERU. Luis Azaña Bocanegra APLICACIONES DE MINERA DE DATOS EN ADUANA DE PERU Luis Azaña Bocanegra TEMARIO CONCEPTOS DEFINICION DE MINERIA DE DATOS USOS DE LA MINERIA DE DATOS TECNICAS DE MINERIA DE DATOS ETAPAS DE UN PROYECTO DE

Más detalles

Línea de Especialización Control de Sistemas

Línea de Especialización Control de Sistemas Línea de Especialización Control de Sistemas 1.- Propósito de la línea de especialización. Profesional con sólida formación teórico-práctica y visión global amplia acerca de diferentes métodos de modelación,

Más detalles

Tópicos Selectos en Aprendizaje Maquinal. Clasificación y Regresión con Datos Reales

Tópicos Selectos en Aprendizaje Maquinal. Clasificación y Regresión con Datos Reales Tópicos Selectos en Aprendizaje Maquinal Guía de Trabajos Prácticos N 2 Clasificación y Regresión con Datos Reales 18 de septiembre de 2014 1. Objetivos Introducir conceptos básicos de aprendizaje automático.

Más detalles

Clasificación de documentos

Clasificación de documentos Minería de Datos Web P r o f. D r. M a r c e l o G. A r m e n t a n o I S I S TA N, F a c. d e C s. E x a c t a s, U N I C E N m a r c e l o. a r m e n t a n o @ i s i s t a n. u n i c e n. e d u. a r

Más detalles

Primera aproximación al aprendizaje automático.

Primera aproximación al aprendizaje automático. APRENDIZAJE Introducción al aprendizaje algorítmico José M. Sempere Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia Aprender: Tomar algo en la memoria [...] Adquirir

Más detalles

EVALUACIÓN EN APRENDIZAJE. Eduardo Morales y Jesús González

EVALUACIÓN EN APRENDIZAJE. Eduardo Morales y Jesús González EVALUACIÓN EN APRENDIZAJE Eduardo Morales y Jesús González Significancia Estadística 2 En estadística, se dice que un resultado es estadísticamente significante, cuando no es posible que se presente por

Más detalles

Línea de Especialización Inteligencia Computacional y Robótica

Línea de Especialización Inteligencia Computacional y Robótica Línea de Especialización Inteligencia Computacional y Robótica 1.- Propósito de la línea de especialización La Inteligencia Computacional agrupa la teoría, diseño y aplicación de métodos y técnicas biológica

Más detalles

Introducción Aprendizaje de Máquina. Gerardo Gutiérrez Gutiérrez Alexis Rodríguez Gutiérrez

Introducción Aprendizaje de Máquina. Gerardo Gutiérrez Gutiérrez Alexis Rodríguez Gutiérrez Introducción Aprendizaje de Máquina Gerardo Gutiérrez Gutiérrez Alexis Rodríguez Gutiérrez Qué es Aprendizaje de Máquina? "Field of study that gives computers the ability to learn without being explicitly

Más detalles

Inteligencia Artificial (Curso ) Grado en Ingeniería Informática - Ingeniería del Software

Inteligencia Artificial (Curso ) Grado en Ingeniería Informática - Ingeniería del Software Inteligencia Artificial (Curso 0-0) Grado en Ingeniería Informática - Ingeniería del Software Redes neuronales Cuestión : Decir si las siguientes afirmaciones son verdaderas o falsas: Si tomamos la función

Más detalles

Sistemas de Reconocimiento de Patrones

Sistemas de Reconocimiento de Patrones Sistemas de Reconocimiento de Patrones p. 1/33 Sistemas de Reconocimiento de Patrones Luis Vázquez GTI - IIE Facultad de Ingeniería Universidad de la República Sistemas de Reconocimiento de Patrones p.

Más detalles

Conjuntos de Clasificadores (Ensemble Learning)

Conjuntos de Clasificadores (Ensemble Learning) Aprendizaje Automático Segundo Cuatrimestre de 2016 Conjuntos de Clasificadores (Ensemble Learning) Gracias a Ramiro Gálvez por la ayuda y los materiales para esta clase. Bibliografía: S. Fortmann-Roe,

Más detalles

Experimentos Introducción

Experimentos Introducción Capítulo 5 Experimentos 5.1. Introducción En este capítulo se describirán los desarrollos y resultados de los experimentos realizados con el sistema de reconocimiento de voz presentado en este proyecto.

Más detalles

CLASIFICACIÓN DE LA IMAGEN. Escuela de Ingeniería Civil y Geomática Francisco Luis Hernández Torres

CLASIFICACIÓN DE LA IMAGEN. Escuela de Ingeniería Civil y Geomática Francisco Luis Hernández Torres CLASIFICACIÓN DE LA IMAGEN TÉCNICA QUE PERMITE LA IDENTIFICACIÓN DE LOS DIFERENTES OBJETOS O GRUPOS PRESENTES EN UNA IMAGEN MULTI-ESPECTRAL. MÉTODO NO SUPERVISADO MÉTODO SUPERVISADO El Desarrollo De Las

Más detalles

[20380] Visió per Computador Prueba 2 (2013) Teoria (10p) (una pregunta test fallada descuenta 1/4 de pregunta acertada)

[20380] Visió per Computador Prueba 2 (2013) Teoria (10p) (una pregunta test fallada descuenta 1/4 de pregunta acertada) 102784 [20380] Visió per Computador Prueba 2 (2013) Teoria (10p) (una pregunta test fallada descuenta 1/4 de pregunta acertada) 1. En cuál de estas posibles aplicaciones podríamos utilizar una característica

Más detalles

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión. MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión. 1 Objetivos del tema Conocer en qué consiste un árbol de decisión. Aprender los problemas que pueden

Más detalles

ESTIMACIÓN Estas transparencias contienen material adaptado del curso de PATTERN RECOGNITION AND MACHINE LEARNING de Heikki Huttunen y del libro Duda.

ESTIMACIÓN Estas transparencias contienen material adaptado del curso de PATTERN RECOGNITION AND MACHINE LEARNING de Heikki Huttunen y del libro Duda. ESTIMACIÓN Estas transparencias contienen material adaptado del curso de PATTERN RECOGNITION AND MACHINE LEARNING de Heikki Huttunen y del libro Duda. APRENDIZAJE AUTOMÁTICO, ESTIMACIÓN Y DETECCIÓN Introducción

Más detalles

RECONOCIMIENTO DE PAUTAS

RECONOCIMIENTO DE PAUTAS RECONOCIMIENTO DE PAUTAS ANÁLISIS DISCRIMINANTE (Discriminant analysis) Reconocimiento de pautas supervisado si se cuenta con objetos cuya pertenencia a un grupo es conocida métodos: análisis de discriminantes

Más detalles

CAPÍTULO 2 MARCO TEÓRICO

CAPÍTULO 2 MARCO TEÓRICO CAPÍTULO 2 MARCO TEÓRICO Reconocimiento de Patrones El reconocimiento de patrones es utiliza actualmente para la solución de tareas tales como el reconocimiento de caracteres, de huellas digitales y reconocimiento

Más detalles

(x) = 1 si P (Y = 1 X = x) P (Y = 0 X = x) P (Y = 0 X = x) > P (Y = 1 X = x) P (X = x Y = 0)P (Y = 0) > P (X = x Y = 1)P (Y = 1)

(x) = 1 si P (Y = 1 X = x) P (Y = 0 X = x) P (Y = 0 X = x) > P (Y = 1 X = x) P (X = x Y = 0)P (Y = 0) > P (X = x Y = 1)P (Y = 1) 1 1. Conceptos generales de clasificación 2. Clasificador k-vecino más cercano 3. Clasificador Bayesiano óptimo 4. Análisis discriminante lineal (LDA) 5. Clasificadores lineales y el Modelo perceptrón

Más detalles

Clasificación Supervisada

Clasificación Supervisada Clasificación Supervisada Ricardo Fraiman 26 de abril de 2010 Resumen Reglas de Clasificación Resumen Reglas de Clasificación Descripción del problema Muestra de entrenamiento (X 1, Y 1 ),..., (X n, Y

Más detalles

Inteligencia Artificial e Ingeniería del Conocimiento

Inteligencia Artificial e Ingeniería del Conocimiento Inteligencia Artificial e Ingeniería del Conocimiento I. A. Clásica Nuevos enfoques de la I. A. Agentes Inteligentes Aprendizaje Introducción Aprendizaje inductivo decisión Planteamiento conectivista.

Más detalles

Complementos de aprendizaje automático

Complementos de aprendizaje automático Complementos de aprendizaje automático David Soĺıs Martín Dpto. Ciencias de la Computación e Inteligencia Artificial Ampliación de Inteligencia Artificial, 2016-2017 Índice Introducción Métricas Validación

Más detalles

Análisis de Datos. Análisis lineal discriminante. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Análisis lineal discriminante. Profesor: Dr. Wilfrido Gómez Flores Análisis de Datos Análisis lineal discriminante Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Para reducir el error de clasificación algunas veces es necesario identificar el subconjunto de características

Más detalles