Aprendizaje Automático

Documentos relacionados
Tema 8. Fundamentos de Análisis discriminante

Teorema Central del Límite (1)

ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M.

Aprendizaje Automatizado

Conceptos Básicos de Inferencia

Tema 2. Introducción a la Estadística Bayesiana

Tema 4: Probabilidad y Teoría de Muestras

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

INTERVALOS DE CONFIANZA Julián de la Horra Departamento de Matemáticas U.A.M.

Análisis de datos Categóricos

ANÁLISIS DISCRIMINANTE (AD)

ANX-PR/CL/ GUÍA DE APRENDIZAJE. ASIGNATURA Estadistica. CURSO ACADÉMICO - SEMESTRE Primer semestre

Econometría II Grado en finanzas y contabilidad

Modelos Estadísticos de Crimen

Distribuciones de probabilidad bidimensionales o conjuntas

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES CUAUTITLÁN PLAN DE ESTUDIOS DE LA LICENCIATURA EN QUÍMICA INDUSTRIAL

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Distribuciones de probabilidad

Tema 5. Contraste de hipótesis (I)

Clasificación Bayesiana de textos y páginas web

478 Índice alfabético

Contrastes de hipótesis paramétricos

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

8. Estimación puntual

Tabla de datos de la asignatura Asignatura: Métodos Estadísticos de la Ingeniería

Carrera: Ingeniería Civil Participantes Comité de Evaluación Curricular de Institutos Tecnológicos

CÁLCULO DE PROBABILIDADES

Distribuciones de probabilidad más usuales

Estadística y sus aplicaciones en Ciencias Sociales 1. Introducción a la probabilidad

Probabilidad y Estadística Descripción de Datos

Variable Aleatoria Continua. Principales Distribuciones

Algunas Distribuciones Continuas de Probabilidad. UCR ECCI CI-1352 Probabilidad y Estadística Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Facultad de Ciencias Sociales - Universidad de la República

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Métodos Estadísticos Multivariados

Probabilidad. Carrera: IFM Participantes. Representantes de la academia de sistemas y computación de los Institutos Tecnológicos.

Simulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12

Cota Inferior de Cramer Rao

Definición de probabilidad

Capítulo 6: Variable Aleatoria Bidimensional

Programa Analítico Plan de estudios Asignatura: Probabilidad y Estadística

Repaso de conceptos de álgebra lineal

Fundamentos de Estadística

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Distribuciones de probabilidad multivariadas

Estadística y sus aplicaciones en Ciencias Sociales 2. Modelos de probabilidad

Métodos Bayesianos. Carlos J. Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid

INFERENCIA ESTADISTICA

Unidad IV: Distribuciones muestrales

Estimación por intervalo del parámetro de la distribución de Poisson con una sola observación

Contenido. 2 Probabilidad 9. Prefacio. 1 Introducci6n a la estadfstica y al an;!llisis de datos

Probabilidad II Algunas distribuciones notables. Antonio Cuevas Departamento de Matemáticas Universidad Autónoma de Madrid

Tema 5. Variables Aleatorias

Variables aleatorias

Unidad 1: Espacio de Probabilidad

7 Uso de la probabilidad en la investigación psicológica

1. Los números reales. 2. Representación. 3. Densidad de los números racionales. 4. Propiedades de los números reales

Variables aleatorias

Modelado de la aleatoriedad: Distribuciones

Aprendizaje: Boosting y Adaboost

EJERCICIOS RESUELTOS DE ESTADÍSTICA II

OPTIMIZACIÓN EXPERIMENTAL. Ing. José Luis Zamorano E.

Maestría en Bioinformática Probabilidad y Estadística: Clase 1

ESTADISTICA GENERAL. INFERENCIA ESTADISTICA Profesor: Celso Celso Gonzales

Tema 4: Probabilidad y Teoría de Muestras

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

VARIABLES ALEATORIAS DISCRETAS

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

Definición 4.1 Diremos que una variable aleatoria discreta X tiene una distribución Uniforme de parámetro N, N 1, si. rg(x) = {1, 2,...

Tema 4. Probabilidad Condicionada

18 Experimentos aleatorios. Sucesos y espacio muestral. Frecuencia y probabilidad de un suceso.

Estimación de homografías

Curso de Inteligencia Artificial

Introducción. Autoencoders. RBMs. Redes de Convolución. Deep Learning. Eduardo Morales INAOE (INAOE) 1 / 60

ESTADÍSTICA I PRESENTACIÓN DE LA ASIGNATURA

UNIVERSIDAD DEL NORTE

PROGRAMA ACADEMICO Ingeniería Industrial

Introducción al Tema 9

Robusticidad de los Diseños D-óptimos a la Elección. de los Valores Locales para el Modelo Logístico

Carrera: EMM Participantes Representante de las academias de ingeniería Electromecánica de los Institutos Tecnológicos.

T1. Distribuciones de probabilidad discretas

PONTIFICIA UNIVERSIDAD CATOLICA DEL ECUADOR FACULTAD DE INGENIERIA ESCUELA DE INGENIERIA DE SISTEMAS

Tema 5 Algunas distribuciones importantes

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Matemáticas 2.º Bachillerato. Intervalos de confianza. Contraste de hipótesis

Capítulo 8. Análisis Discriminante

ESTADISTICA APLICADA: PROGRAMA

Unidad Temática 2 Probabilidad

Discretas. Continuas

Estadística Espacial en Ecología del Paisaje

DIPLOMADO EN ESTADÍSTICA APLICADA

TEMARIO PARA EL EXAMEN DE ACCESO A LA ESPECIALIDAD MATEMÁTICAS PARA E.S.O. Y BACHILLERATO DEL MÁSTER DE SECUNDARIA

Transcripción:

Regresión Lineal: Descenso de Gradiente Árboles de Regresión: M5 Ingeniería Informática Fernando Fernández Rebollo y Daniel Borrajo Millán Grupo de Planificación y Aprendizaje (PLG) Departamento de Informática Escuela Politécnica Superior Universidad Carlos III de Madrid 27 de febrero de 2009

En Esta Sección: 3 Árboles y Reglas de Decisión id3 id3 como búsqueda Cuestiones Adicionales 4 Regresión Lineal: Descenso de Gradiente Árboles de Regresión: M5 5 6 Aprendizaje Basado en Instancias () K-NN

Árboles y Reglas de Decisión La teoría de decisión bayesiana se basa en dos suposiciones: El problema de decisión se puede describir en términos probabiĺısticos: Dado un conjunto de datos, D, cuál es la mejor hipótesis h del cunjunto de hipótesis H La mejor hipótesis es la hipótesis más probable Todos los valores de las probabilidades del problema son conocidas Decisiones tomadas en función de ciertas observaciones

Ejemplo: el Caso de la Moneda Trucada Espacio de hipótesis: {cara, cruz} Espacio de observaciones: {brillo, mate} Lanzo una moneda, recibo la observación, D, y genero una hipótesis, h Preguntas: Cuál es la mejor hipótesis? Cuál es la hipótesis más probable? Cuál es la probabilidad de obtener cara? Cuál es la probabilidad de obtener cruz? Cuál es la probabilidad de obtener cara, habiéndo recibido como observación brillo? Cuál es la probabilidad de obtener cruz, habiéndo recibido como observación mate?

Probabilidades a Priori P(h): Probabilidad de que la hipótesis h sea cierta o Probabilidad a priori de la hipótesis h Refleja el conocimiento que tenemos sobre las oportunidades de que la hipótesis h sea cierta antes de recibir ninguna observación Si no tenemos ningún conocimiento a priori, se le podría asignar la misma probabilidad a todas las hipótesis P(D): Probabilidad de que recibamos la observación D o Probabilidad a priori de la observación D Refleja la probabilidad de recibir la observación D, cuando no tenemos ninguna idea sobre cuál es la hipótesis real

Probabilidades a Posteriori P(D h): Probabilidad de observar el dato D, cuando se cumple la hipótesis h o Probabilidad a posteriori de la observación D P(h D): Probabilidad de que se cumpla la hipótesis h, dado que se ha obtenido el dato D, o Probabilidad a posteriori de la hipótesis h

Teorema de Bayes En aprendizaje inductivo, estamos interesados en calcular las probabilidades de las hipótesis a posteriori, ya que son las que se obtienen tras recibir observaciones o ejemplos de entrenamiento. Teorema de Bayes: P(h D) = P(D h)p(h) P(D) Calcula la probabilidad a posteriori de la hipótesis en función de otras probabilidades

Decisor MAP Árboles y Reglas de Decisión Decisor máximo a posteriori: h MAP = arg máx h H P(h D) = arg máx h H P(D h)p(h) P(D) = arg máx P(h D) = P(D h)p(h) h H El decisor de máxima verosimilitud, ML (maximum likelihood), asume que todas las hipótesis son equiprobables a priori: h ML = arg máx h H P(D h)

Ejemplo: el Caso de la Moneda Trucada Probabilidades a priori: P(cara) = 0,2, P(cruz) = 0,8 Probabilidades a posteriori: P(brillo cara) = 0,9, P(mate cara) = 0,1 P(brillo cruz) = 0,6, P(mate cruz) = 0,4 Tiro la moneda y obtengo brillo: arg máx cara,cruz h MAP = arg máx P(brillo h)p(h) = cara,cruz (P(brillo cara)p(cara), P(brillo cruz)p(cruz)) = arg máx cara,cruz arg máx cara,cruz (0,9 0,2, 0,6 0, 8) = (0,18, 0,48) = cruz

Ejemplo: el Caso de la Moneda Trucada Sin embargo: h ML = arg máx P(brillo h) = cara,cruz arg máx cara,cruz (P(brillo cara), P(brillo cruz)) = arg máx cara,cruz (0 9, 0 6) = cara

Clasificador MAP de Fuerza Bruta Caso general: 1 Para cada hipótesis clase h H, calcular la probabilidad a posteriori: P(h D) = P( D h)p(h) P( D) 2 Dar como salida la hipótesis/clase con la mayor probabilidad a posteriori: h MAP = arg máx h H P(h D) = Dos hipótesis/clases: g( D) = P( D h 1 )P(h 1 ) P( D h 2 )P(h 2 ) h MAP = { h1 g(x) 0 h 2 g(x) < 0 (3)

Probabilidades de Error: Ejemplo Un clasificador de, por ejemplo, dos categorías, divide el espacio en dos regiones, R 1 para la categoría h 1, y R 2 para la categoría h 2. Errores de clasificación de una instancia x: 1 x pertenece a categoría w 1 pero cae en la región R 2 2 x pertenece a categoría w 2 pero cae en la región R 1 Probabilidad de Error de un clasificador MAP: P(error) = P( x R 2, w 1 ) + P( x R 1, w 2 ) = P( x R 2 w 1 )P(w 1 ) + P( x R 1 w 2 )P(w 2 ) = R 2 p( x w 1 )P(w 1 )dx + R 1 p( x w 2 )P(w 2 )dx (4)

Árboles y Reglas de Decisión Probabilidades de Error p(x w 1 )P(w 1 ) p(x w 2 )P(w 2 ) R 1 R 2 x Cuál es el punto de división entre las regiones que minimiza el error de clasificación?

Dadas dos clases, ω 1 y ω 2, tenemos sus funciones discriminantes: g i ( x) = p( x ω i )P(ω i ) Frontera de decisión: g i ( x) = log p( x ω i ) + log P(ω i ) g 1 ( x) = g 2 ( x)

Función de Densidad Normal Función de densidad normal unidimensional: [ p(x) = 1 exp 1 ( ) ] x µ 2 = N(µ, σ 2 ) (5) 2πσ 2 σ Donde: E[x] = E[(x µ)) 2 ] = xp(x)dx = µ (x µ) 2 p(x)dx = σ 2 0.5 0.4 0.3 0.2 0.1 0 N(0, 1) 4 2 0 2 4 Con un factor de confianza de aproximadamente el 95 %, x µ 2σ

Función de Densidad Normal Función de densidad normal multidimensional: p( x) = 1 (2π) d/2 Σ 1/2 exp[ 1 2 ( x µ)t Σ 1 ( x µ)] = N[µ, Σ] Donde: µ: vector de medias µ = E[ x]; µ i = E[x i ] Σ: matriz de covarianzas d d Σ = E[( x µ)( x µ) t ]; σ ij = E[(x i µ i )(x j µ j )] σ ii : varianza de x i Si σ ij = 0, para i j, entonces x i es estadísticamente independiente de x j Σ : determinante de Σ ( x µ) t : transpuesta de ( x µ) (6)

Función Discriminante de una Densidad Normal Recordamos la función discriminante: g i ( x) = log p( x ω i ) + log P(ω i ) Si asumimos que p( x ω i ) = N( µ i, Σ i ): g i ( x) = 1 2 ( x µ i) t Σ 1 i ( x µ i ) d 2 log 2π 1 2 log Σ i +log P(ω i ) (7)

Caso Particular: Σ i = σ 2 I Si Σ i = σ 2 I : Las características son estadísticamente independientes Todas las características tienen la misma varianza, σ 2 Σ i = σ 2d Σ 1 i = (1/σ 2 )I Entonces: g i ( x) = x µ i 2 2σ 2 + log P(ω i ) (8) Donde. es la norma eucĺıdea: x µ i 2 = ( x µ i )( x µ i ) t = d (x j µ ij ) 2 j=1

Caso Particular: Σ i = σ 2 I Si desarrollamos la función discriminante: g i ( x) = 1 2σ 2 [ x t x 2 µ t i x + µt i µ i ] + log P(ω i ) (9) De donde se deriva un discriminador lineal (dado que x t x es independiente de i): Donde: g i ( x) = w t i x + w i0 (10) w i = 1 σ 2 µ i w i0 = 1 2σ 2 µt i µ i + log P(ω i )

Ejemplo Árboles y Reglas de Decisión x 2 R 1 g 1 (x)=g 2 (x) R 2 x 1

y Aprendizaje Supervisado Hemos visto que se pueden construir clasificadores óptimos si se conocen las probabilidades a priori, P(ω j ), y las densidades de clases condicionales, p( x ω j ) Desafortunadamente, esas probabilidades son raramente conocidas En cambio, en la mayoría de las ocasiones se dispone de cierto conocimiento del modelo, así como de un número de ejemplos representativos de dicho modelo Por tanto, una buena aproximación es utilizar el conocimiento del dominio y los ejemplos para diseñar el clasificador: Probabilidades a priori parece sencillo Para las probabilidades a posteriori, se necesita demasiada información, sobre todo cuando crece la dimensión de los datos de entrada.

y Aprendizaje Supervisado Utilizar conocimiento del problema para parametrizar las funciones de densidad Asumir que la función de densidad sigue una distribunción dada, por ejemplo N( µ j, Σ j ) Traspasar el problema de aproximar la función p( x ω j ) a estimar los parámetros µ j y Σ j. Añadir más simplificaciones, por ejemplo, que Σ j es conocida.

Estimación de Máxima Verosimilitud (Maximum Likelihood Estimation) Suponer que podemos separar todas las instancias de acuerdo con su clase, de forma que generamos c conjuntos de ejemplo, χ 1,..., χ c Los ejemplos en χ han sido generados independientes siguiendo una distribución p( x ω j ) Asumimos que p( x, ω j ) se puede parametrizar unívocamente por un vector de parámetros θ j Por ejemplo, podemos asumir que p( x, ω j ) N( µ j, Σ j ), donde θ j =< µ j, Σ j > Esa dependencia de p( x ω j ) con θ j la representamos expĺıcitamente con p( x ω j, θ j ) Objetivo: utilizar los conjuntos de ejemplos χ 1,..., χ c para estimar θ 1,..., θ c

Estimador de Máxima Verosimilitud Idea: utilizar el conjunto de ejemplos χ, generados independientemente siguiendo la densidad de probabilidad p(χ θ), para estimar el vector de parámetros desconocido θ. Si que χ contiene n ejemplos, χ = { x 1,..., x n }, dado que fueron generados independientemente: p(χ θ) = n p( x k θ) (11) k=1 Vista como una función, p(χ θ) puede ser denominada la probabilidad de θ dado el conjunto χ El estimador de verosimilitud probabilidad de θ es, por definición, el valor ˆθ que maximiza p(χ θ)

Estimador de Máxima Verosimilitud: Ejemplo p( χ θ ) ^ θ θ

Estimador de Máxima Verosimilitud para una Densidad de Probabilidad Normal, dada Σ Como Σ viene dada, intentamos estimar ˆµ Dado que la función logaritmo es monótona creciente, el estimador de máxima verosimilitud coincide con el estimador de máxima verosimilitud de su logaritmo 1 p( x k µ) = exp[ 1 (2π) d/2 Σ 1/2 2 ( x k µ) t Σ 1 ( x k µ)] log p( x k µ) = 1 2 ( x k µ) t Σ 1 ( x k µ) d 2 log 2π 1 2 log Σ µ log p( x k µ) = Σ 1 ( x k µ) (12) µ p(χ θ) = µ n k=1 p( x k θ) = n k=1 µ log p( x k µ) = n k=1 Σ 1 ( x k µ) (13)

Estimador de Máxima Verosimilitud para una Densidad de Probabilidad Normal, dada Σ Ahora igualamos a 0 para obtener el máximo: n Σ 1 ( x k ˆµ) = 0 (14) k=1 ˆµ = 1 n x k (15) n k=1 Igualmente, se puede calcular el estimador de la matriz de covarianzas cuando dicha matriz es desconocida: ˆΣ = 1 ( x k ˆµ)( x k ˆµ) t (16) n k=1

Clasificador Bayesiano Necesitamos aprender las probabilidades a posteri, P(ω i x) Por teorema de Bayes: P(ω i x) = p( x ω i)p(ω i ) P( x) = P( x ω i )P(ω i ) c j=1 p( x ω i)p(ω j ) (17) Las probabilidades anteriores son desconocidas, pero: Diponemos de conocimiento del dominio que nos permite parametrizar esas densidades de probabilidad (por ejemplo, que siguen una distribución normal) Diponemos de un conjunto de entrenamiento, χ, del que podemos aprender los parámetros de las funciones de densidad

Clasificador Bayesiano (caso continuo) La regla de Bayes para clasificación desde ejemplos queda como: P(ω i x, χ) = p( x ω i, χ)p(ω i χ) P( x χ) = p( x ω i, χ)p(ω i χ) c j=1 p( x ω j, χ)p(ω j χ) (18) Separando las instancias de entrenamiento de χ en c conjuntos, χ 1,..., χ c, y asumiendo que las probabilidades a priori son conocidas: P(ω i x, χ) = p( x ω i, χ i )P(ω i ) c j=1 p( x ω j, χ j )P(ω j ) Por tanto, el clasificador Bayesiano se define como: (19) Bayes( x) = ω = arg ωi máx p( x ω i, χ i )P(ω i ) (20)

El Caso Discreto Para toda clase ω i, P(ω i χ) = χ i χ Para toda posible instancia x Sea M i el conjunto de todas las ocurrencias de x en χ i p( x ω i, χ i ) = M i χ i Bayes( x) = arg ωi máx M i El problema de la dimensionalidad: Cada ejemplo x debe aparencer en χ i un número suficientemente grande de veces como para obtener estadísticas significativas. Si la dimensión de x crece, el número de posibles valores de x crece exponencialmente, haciendo el problema intratable Qué ocurre si el nuevo ejemplo a clasificar, x, no se había dado en χ?

Ejemplo: Jugar al tenis Day outlook temperature humidity windy play D1 sunny hot high weak no D2 sunny hot high strong no D3 overcast hot high weak yes D4 rainy mild high weak yes D5 rainy cool normal weak yes D6 rainy cool normal strong no D7 overcast cool normal strong yes D8 sunny mild high weak no D9 sunny cool normal weak yes D10 rainy mild normal weak yes D11 sunny mild normal strong yes D12 overcast mild high strong yes D13 overcast hot normal weak yes D14 rainy mild high strong no

Solución de la Clasificación Bayesiana Consulta: (outlook=sunny, Temperature=cool, Humidity=high, Wind=strong) Clasificador Bayesiano: Bayes( x) = ω = arg i máx p( x ω i, χ i )P(ω i χ) = ω = arg yes,no máx(p( x ω yes, χ yes )P(ω yes χ), p( x ω no, χ no )P(ω no χ)) (21) Probabilidades a priori: P(ω yes ) = 9 14 P(ω no ) = 5 14 (22) probabilidades a posteriori: p(< sunny, cool, high, strong > ω yes, χ yes ) =?? p(< sunny, cool, high, strong > ω no, χ no ) =?? (23)

El Clasificador Naive Bayes Naive Bayes asume independencia lineal entre los distintos atributos Eso implica que: p( x ω i, χ i ) = p(< x 1, x 2,..., x k > ω i, χ i ) = K k=1 p(x k ω i, χ i ) (24) Por tanto: K NaiveBayes( x) = ω = arg i máx p(x k ω i, χ i )P(ω i ) (25) k=1

Solución al Ejemplo con Naive Bayes Consulta: (outlook=sunny, Temperature=cool, Humidity=high, Wind=strong) Probabilidades a priori: P(ω yes χ) = 9 14 = 0,64 P(ω no χ) = 5 14 = 0,35 (26)

Solución al Ejemplo con Naive Bayes Probabilidades a posteriori: p(< outlook = sunny > ω yes, χ yes) = 2 9 = 0,22 p(< outlook = sunny > ω no, χ no) = 3 5 = 0,6 p(< Temperature = cool > ω yes, χ yes) = 3 9 = 0,33 p(< Temperature = cool > ω no, χ no) = 1 5 = 0,2 p(< Humidity = high > ω yes, χ yes) = 3 9 = 0,33 p(< Humidity = high > ω no, χ no) = 4 9 = 0,44 p(< Wind = strong > ω yes, χ yes) = 3 9 = 0,33 p(< Wind = strong > ω no, χ no) = 3 5 = 0,6 (27) Entonces: P(yes)p(sunny yes)p(cool yes)p(high yes)p(strong yes) = 0,64 0,22 0,33 0,33 0,33 = 0,005 P(no)p(sunny no)p(cool no)p(high no)p(strong no) = 0,35 0,6 0,2 0,44 0,6 = 0,01 NaiveBayes(< sunny, cool, high, strong >) = no (28)

Resumen Árboles y Reglas de Decisión Teoría Bayesina nos da mecanismos para generar clasificadores basándose en las probabilidades a priori y las distribuciones de probabilidad a posteriori Las probabilidades pueden ser desconocidas: aprendizaje paramétrico Estimación de parámetros en densidades de probabilidad conocidas Clasificador Bayesiano Naive Bayes

Bibliografía Árboles y Reglas de Decisión Pattern Classification and Scene Analysis, Duda and Hart. Capítulo 2 Tom Mitchell. Machine Learning, capítulo 6, McGraw-Hill 1997