Aprendizaje de modelos probabiĺısticos

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Aprendizaje de modelos probabiĺısticos"

Transcripción

1 J. L. Ruiz Reina Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

2 Contenido Aprendizaje modelos probabiĺısticos ( qué modelo probabiĺıstico explica mejor los datos observados?) Aprendizaje estadístico, MAP y ML Aprendizaje de redes bayesianas Aprendizaje de modelos continuos Clasificación de nuevos ejemplos usando modelos probabiĺısticos Naive Bayes Vecinos más cercanos Aprendizaje no supervisado: clustering k-medias Algoritmo EM

3 Parte I Parte I a partir de ejemplos

4 Visión estadística del aprendizaje Volvemos en este tema a tratar cuestiones relacionadas con el aprendizaje a partir de observaciones Como en los temas anteriores, el problema se plantea con un conjunto de entrenamiento d y con un conjunto de hipótesis H, candidatas a ser aprendidas En este caso, nos moveremos en un dominio descrito por variables aleatorias El conjunto de datos d representa una serie de evidencias observadas (instancias concretas de algunas de las v.a. D) Las hipótesis de H son modelos probabiĺısticos de cómo funciona el dominio (por ejemplo, distintas distribuciones de probabilidad)

5 Ejemplos de hipótesis y observaciones Una urna con N bolas de colores, desconocemos la proporción de cada color: Observaciones: una serie de extracciones, de cada una anotamos el color Hipótesis candidatas: cada una de las posibles distribuciones de proporción de colores de las bolas. Red bayesiana que describe un dominio médico, conocemos su estructura pero desconocemos las tablas de probabilidad Observaciones: valores de las variables aleatorias para una serie de pacientes concretos Hipótesis candidatas: cada una de los posibles conjuntos de tablas de probabilidad de la red Una población cuyas alturas sabemos que siguen una distribución de Gauss Observaciones: datos sobre alturas de algunas personas de la población Hipótesis candidatas: todos los posibles pares (µ, σ) que indicarían la media y desviación típica de una distribución normal.

6 Visión estadística del aprendizaje A diferencia de los temas anteriores, las decisiones sobre qué aprender se tomarán, esencialmente, calculando probabilidades condicionadas No necesariamente se descarta una hipótesis que sea inconsistente con d, sino que busca la hipótesis más probable, dadas las observaciones de d Por ejemplo, se buscan hipótesis que maximizan P(h d), para h H Por tanto, será esencial el uso del teorema de Bayes (de hecho, este tipo de aprendiaje se denomina llamado aprendizaje bayesiano ) Además, incorpora el conocimiento a priori del que se dispone: Probabilidades de la forma P(d h) y P(h), esencialmente

7 El marco general del aprendizaje bayesiano Sea H un conjunto de hipótesis, D una v.a. que representa los datos observables. La información de entrada es: Los datos observados, d La probabilidades a priori de las hipótesis, P(h) La verosimilitud de los datos bajo las hipótesis, P(d h) El aprendizaje bayesiano consiste en calcular la probabilidad de cada hipótesis de H (dados los datos) y predecir valores desconocidos a partir de esas probabilidades Por el teorema de Bayes, P(h d) se calcula de la siguiente manera: P(h d) = αp(d h)p(h) Donde α es la constante que normaliza P(d h)p(h) para todos los h H (es decir, para que sumen 1)

8 Un ejemplo (Russel & Norvig) Un fabricante de caramelos fabrica grandes bolsas de cinco tipos, cada una con una proporción diferente entre limón y naranja: h 1 : 100% de naranja h 2 : 75% de naranja y 25% de limón h 3 : 50% de naranja y 50% de limón h 4 : 25% de naranja y 75% de limón h 5 : 100% de limón Cada tipo de bolsa h 1, h 2, h 3, h 4 y h 5 las hace el fabricante con probabilidad 0,1,0,2,0,4,0,2 y 0,1, resp. Tomamos una bolsa y vamos abriendo algunos caramelos y anotando su sabor Podemos predecir el sabor del siguiente caramelo que saquemos de la bolsa? Lo planteamos como un problema de aprendizaje bayesiano

9 Un ejemplo (Russel & Norvig) En este caso, las hipótesis son las cinco composiciones posibles de la bolsa Los datos son los distintos sabores de los caramelos abiertos Las probabilidades a priori P(h i ) de cada hipótesis vienen dadas por el fabricante: 0.1, 0.2, 0.4, 0.2 y 0.1, resp. La verosimilitud de los datos, P(d h), se puede calcular teniendo en cuenta que cada vez que se abre un caramelo es un evento independiente e idénticamente distribuido (i.i.d.) de los anteriores. Por tanto P(d h i ) = j P(d j h i ) Por ejemplo, si los datos son de 10 caramelos extraidos, todos ellos de limón, P(d h 3 ) = 0,5 10 Veamos algunos ejemplos de cómo se calcula P(h i d) para distintos casos de d.

10 Ejemplo para d = l,l Supongamos que las observaciones que tenemos son dos extracciones, ambas de caramelos de limón. Hipótesis P(h i ) P(d h i ) P(d hi)p(h i ) P(h i d) = αp(d hi)p(h i ) h 1 0, h 2 0,2 (0,25) 2 0,0125 0,04 h 3 0,4 (0,5) 2 0,1 0,31 h 4 0,2 (0,75) 2 0,1125 0,35 h 5 0,1 (1) 2 0,1 0,3 La hipótesis más probable dados los datos es h 4

11 Ejemplo para d = l,l,l Supongamos ahora tres extracciones, todas salen de limón. Hipótesis P(h i ) P(d h i ) P(d hi)p(h i ) P(h i d) = αp(d hi)p(h i ) h 1 0, h 2 0,2 (0,25) 3 0, ,01 h 3 0,4 (0,5) 3 0,05 0,21 h 4 0,2 (0,75) 3 0, ,36 h 5 0,1 (1) 3 0,1 0,42 La hipótesis más probable dados los datos es h 5

12 Ejemplo para d = l,l,l,l Un último ejemplo: cuatro extracciones, y todas salen de limón. Hipótesis P(h i ) P(d h i ) P(d hi)p(h i ) P(h i d) = αp(d hi)p(h i ) h 1 0, h 2 0,2 (0,25) 4 0, ,004 h 3 0,4 (0,5) 4 0,025 0,13 h 4 0,2 (0,75) 4 0, ,336 h 5 0,1 (1) 4 0,1 0,53 La hipótesis más probable dados los datos es h 5

13 Inferencia a partir de lo aprendido Dada una v.a. X sobre la que se consulta, la información aprendida será la distribución de probabilidad P(X d), que servirá de base para predecir el valor de X Se puede calcular de la siguiente forma (suponiendo que cada hipótesis determina completamente la distribución de probabilidad de X) P(X d) = h H P(X d,h i )P(h i d) = h HP(X h i )P(h i d) Observación: nótese que el principio de la navaja de Occam tiene cabida en este marco general del aprendizaje bayesiano: Simplemente, la probabilidades a priori de las hipótesis más complejas serían menores

14 Inferencia en el ejemplo de los caramelos Supongamos que d = l,l en el ejemplo anterior y que X es la variable aleatoria correspondiente a la siguiente extracción Cuál es la probabillidad de que salga otra vez de limón? P(X = l d) = 5 i=1 P(X = l h i)p(h i d) = 0 0+0,04 0,25+0,31 0,5+0,35 0,75+0,3 1 = 0,725 De manera análoga, si d = l,l,l, entonces P(X = l d) = 0,7975 Igualmente, si d = l,l,l,l, entonces P(X = l d) = 0,848

15 Aumentando el número de observaciones En el ejemplo, supongamos que la bolsa realmente es del tipo 5 (todos de limón), pero que no lo sabemos Las gráficas siguientes muestran cómo evolucionarían los cálculos anteriores a medida que vamos obteniendo más observaciones: Probabilidades a posteriori de cada hipotesis P(h1 d) P(h2 d) P(h3 d) P(h4 d) P(h5 d) Numero de datos en d Probabilidad de que el proximo sea de limon Numero de datos en d

16 Observaciones A medida que los datos aumentan, la hipótesis verdadera eventualmente domina a las otras Aunque la mejor manera de predecir el comportamiento de una v.a. X es calculando P(X d) como se ha visto, esto tiene un precio: El espacio de hipótesis puede ser muy grande, por lo que el cálculo de P(X d) según la fórmula anterior puede ser imposible en la práctica Pero algunas simplificaciones nos permitirán trabajar en la práctica

17 Primera simplificación: hipótesis MAP En lugar de hacer predicciones teniendo en cuenta todas las hipótesis ponderadas cada una con P(h d), las hacemos en base solamente a la hipótesis más probable a posteriori (notada como h MAP ): h MAP = argmax h H P(h d) = argmax h H Esta última igualdad, por el teorema de Bayes P(d h)p(h) En nuestro ejemplo, a partir del tercer caramelo extraído h MAP es h 5 Y por tanto nuestra predicción sería, con probabilidad 1, que el siguiente caramelo es de limón MAP no es la predicción óptima, pero a medida que se tienen más datos, la predicción bayesiana y la predicción MAP tienden a coincidir, ya que esta domina a las demás: P(X d) P(X h MAP )

18 Simplificando aún más: hipótesis ML Se busca la hipótesis MAP, pero suponiendo que todas las hipótesis son igualmente probables a priori: Esta hipótesis se denomina de máxima verosimilitud, notada h ML (maximum likelihood en inglés): h ML = argmax P(d h) h H Puede ser una buena aproximación al aprendizaje bayesiano y a MAP, pero sólo cuando se maneja un conjunto de datos grande Tanto MAP como ML suelen ser más fáciles computacionalmente que el aprendizaje bayesiano puro, ya que se tratan de problemas de optimización, en lugar de la realización de sumas (o integrales) enormes

19 Aprendizaje de redes bayesianas (con datos completos) Vamos a aplicar el aprendizaje tipo ML para aprender las tablas de probabilidad condicional de una red bayesiana: Hemos modelado nuestro dominio de conocimiento con un conjunto de variables aleatorias, en una red bayesiana de la cual desconocemos las tablas de probabilidad pero de la que sí conocemos su estructura Supondremos que tenemos un conjunto de datos observados, y que cada dato es una observación completa de valores concretos para cada v.a. Es un ejemplo de aprendizaje de parámetros: conocemos el modelo probabiĺıstico, salvo los parámetros (probabilidades de las tablas) de los que depende

20 Un ejemplo (el más simple) Tenemos una bolsa de caramelos de naranja y limón en proporciones desconocidas. Supongamos que abrimos N caramelos y que hemos observado que n son de naranja y l de limón. Queremos aprender la proporción de caramelos de naranja y limón de la bolsa La respuesta va a ser obvia, pero vamos a deducirla como hipótesis ML La situación se describe por esta simple red bayesiana, de la cual desconocemos el valor del parámetro θ: Sabor P(S=naranja) θ

21 Un ejemplo (el más simple) Aplicaremos aprendizaje ML, en el que: El conjunto de hipótesis es {θ : θ [0,1]} (infinito) Todas las hipótesis son igualmente probables a priori (suposición bastante razonable) El conjunto de datos es el dado por el sabor de los caramelos que se han abierto Puesto que las observaciones son i.i.d., la verosimilitud de los datos es P(d h θ ) = j P(d j h θ ) = θ n (1 θ) l Se trata de encontrar el valor de θ que maximiza dicha probabilidad

22 Un ejemplo (el más simple) Para maximizar, es habitual tomar el logaritmo de la verosimilitud, ya que suele facilitar la tarea y no afecta al resultado; se denomina log-verosimilitud y se representa mediante la letra L. En este caso: L(d h θ ) = j log(p(d j h θ )) = n logθ +l log(1 θ) Para encontrar el máximo, derivamos respecto de θ e igualamos a 0, obteniendo dl dθ = n θ l 1 θ = 0 θ = n = n n+l N Luego la hipótesis ML se obtiene cuando θ = n N Lo cual era obvio, pero este ejemplo ha ilustrado el que suele ser el procedimiento general en estos casos: calcular verosimilitud, tomar logaritmo y encontrar el parámetro que hace la derivada igual a 0

23 Otro ejemplo Supongamos que un fabricante de caramelos de limón y de naranja fabrica bolsas de proporción desconocida. Además, cada caramelo tiene un envoltorio rojo o verde, envoltorio que depende probabiĺısticamente del sabor (pero tampoco conocemos dichas probabilidades) Supongamos que hemos desenvuelto N caramelos de los cuales n son de naranja y l de limón. De los de naranja, r n eran rojos y v n verdes. De los de limón r l eran rojos y v l verdes

24 Otro ejemplo La situación se puede modelar con esta red bayesiana, de la cual desconocemos θ,θ 1,θ 2 : Sabor P(S=naranja) θ Envoltorio S P(E=r S) naranja θ 1 limon θ 2 En este caso, el conjunto de hipótesis es { θ,θ 1,θ 2 : θ,θ 1,θ 2 [0,1]}

25 Otro ejemplo La verosimilitud de los datos es: P(d h θ,θ1,θ 2 ) = θ n (1 θ) l θ rn 1 (1 θ 1) vn θ r l 2 (1 θ 2) v l Como antes, tomando logaritmos, derivando parcialmente respecto de θ, θ 1 y θ 2 e igualando a 0, se obtienen los siguientes valores para los parámetros: θ = n n+l θ 1 = r n n θ 2 = r l l Nuevamente, resultados bastante obvios Por ejemplo, para estimar la probabilidad de que un caramelo de limón tenga el envoltorio rojo, calculamos la fracción de caramelos con envoltorio rojo de entre todos los de limón

26 Aprendizaje paramétrico en redes bayesianas Los resultados del ejemplo anterior se extienden de manera natural a cualquier red bayesiana de la cual conocemos sus estructura pero desconocemos sus tablas de probabilidad Y además disponemos de un conjunto D de observaciones completas Por ejemplo, si en una red los padres de X son Y 1,...,Y k, para obtener la hipótesis ML para la entrada de la tabla de probabilidad correspondiente a P(X = v Y 1 = a 1,...,Y k = a k ), simplemente calculamos la fracción de datos observados con valor de X = v de entre los que cumplen Y 1 = a 1,...,Y k = a k Nótese que cada parámetro se aprende por separado y de manera local

27 Aprendizaje de redes bayesianas: cuestiones adicionales Variables no observables: El aprendizaje anterior no funciona cuando algunas de las variables de la red son no observables (p.ej. el hecho de que un paciente tenga o no una determinada enfermedad) Existen algoritmos de aprendizaje específicos para tratar esta cuestión (por ejemplo, EM) Sólo hemos visto aprendizaje de tablas de probabilidad. A veces es necesario aprender también la estructura de la red: aprender las dependencias causales Se pueden usar técnicas de búsqueda local, donde los cambios a los grafos pueden ser inclusión o borrado de arcos El aprendizaje de la estructura es aún un tema de investigación que se encuentra en sus primera etapas

28 Aprendizaje paramétrico en modelos continuos La misma aproximación ML se puede seguir para el aprendizaje de modelos probabiĺısticos continuos. Un ejemplo sencillo: Supongamos que tenemos una serie de datos d = x 1,x 2,...,x n, con pesos de una serie de personas de un mismo pais, tomados de manera i.i.d. Esos datos pueden ser considerados valores que toma una variable aleatoria continua Peso Asumiremos como conocido que Peso sigue una distribución normal o de Gauss (cuya función de densidad notaremos N µ,σ ). Esto es: N µ,σ (x) = 1 e (x µ)2 2σ 2 2πσ Pero no conocemos ni la media µ ni la desviación típica σ

29 Aprendizaje paramétrico en modelos continuos El problema anterior se puede plantear como un problema de aprendizaje ML en el que el espacio de hipótesis viene dado por {(µ,σ) : µ,σ R} Los valores de µ y σ que aprenderemos serán aquellos para los cuales se maximice la verosimilitud de los datos observados En este caso, la verosimilitud es: P(d h µ,σ ) = N N µ,σ (x i ) = i=1 N 1 e (x i µ) 2σ 2 2πσ i=1 2

30 Aprendizaje paramétrico en modelos continuos Como en los casos anteriores, tomando logaritmos, derivando parcialmente respecto de µ, y σ e igualando a 0, se obtiene los siguientes valores para los parámetros: µ = N i=1 x i N σ = N i=1 (x i µ) 2 N Nuevamente, los resultados esperados Lo que se ha obtenido es que la hipótesis ML es aquella que considera que los datos se han generado por una distribución normal cuya media y desviación típica son las de la muestra

31 Parte II Parte II Clasificación de nuevos ejemplos

32 Clasificadores Supongamos que estamos ante el problema de clasificar un ejemplo dentro de una serie de categorías posibles El conjunto de entrenamiento vendrá dado por una serie de ejemplos y su clasificación (similar a lo visto en temas anteriores) La idea es aprender un modelo probabiĺıstico a partir de los ejemplos y luego usarlo para clasificar nuevos ejemplos Dos tipos de clasificadores: Paramétricos: usan el conjunto de entrenamiento para aprender el modelo expĺıcitamente No paramétricos: usan directamente los datos de entrenamiento para inferir cada vez la clasificación de un nuevo ejemplo, sin construir expĺıcitamente un modelo probabiĺıstico. Veremos un método paramétrico (Naive Bayes) y otro no paramétrico (knn)

33 Clasificadores Naive Bayes Supongamos un conjunto de atributos A 1,...,A n cuyos valores determinan un valor en un conjunto finito V de posibles clasificaciones Tenemos un conjunto de entrenamiento D con una serie de tuplas de valores concretos para los atributos, junto con su clasificación Queremos aprender un clasificador tal que clasifique nuevas instancias a 1,...,a n Es decir, el mismo problema en el tema de aprendizaje de árboles de decisión y de reglas (pero ahora lo abordaremos desde una perspectiva probabiĺıstica).

34 Clasificadores Naive Bayes Podemos diseñar un modelo probabiĺıstico para un problema de clasificación de este tipo, tomando los atributos y la clasificación como variables aleatorias El valor de clasificación asignado a una nueva instancia a 1,...,a n, notado v MAP vendrá dado por argmax v j V P(v j a 1,...,a n ) Aplicando el teorema de Bayes podemos escribir v MAP = argmax v j V P(a 1,...,a n v j )P(v j ) Y ahora, simplemente estimar las probabilidades de la fórmula anterior a partir del conjunto de entrenamiento Problema: necesitaríamos una gran cantidad de datos para estimar adecuadamente las probabilidades P(a 1,...,a n v j )

35 Clasificadores Naive Bayes Podemos simplificar el aprendizaje suponiendo que los atributos son (mútuamente) condicionalmente independientes dado el valor de clasificación (de ahí lo de naive ) La situación se representa entonces por la red: V A A A 1 n 2 En ese caso, tomamos como valor de clasificación: v NB = argmax v j V P(v j ) i P(a i v j )

36 Clasificadores Naive Bayes Para el proceso de aprendizaje, sólo tenemos que estimar las probabilidades P(v j ) y P(a i v j ) (que son muchas menos que en el caso general) Y además ya hemos visto cómo se obtienen estimaciones ML de estas probabilidades, simplemente mediante cálculo de sus frecuencias en el conjunto de entrenamiento Nótese que a diferencia de otros métodos (como ID3) no hay una búsqueda en el espacio de hipótesis: simplemente contamos frecuencias A pesar de su aparente sencillez, los clasificadores Naive Bayes tienen un rendimiento comparable al de los árboles de decisión, las reglas o las redes neuronales

37 Clasificador Naive Bayes: un ejemplo Vamos a aplicar el clasificador a un ejemplo ya conocido, usado en el tema de árboles de decisión: Ej. Cielo Temperatura Humedad Viento JugarTenis D 1 Soleado Alta Alta Débil - D 2 Soleado Alta Alta Fuerte - D 3 Nublado Alta Alta Débil + D 4 Lluvia Suave Alta Débil + D 5 Lluvia Baja Normal Débil + D 6 Lluvia Baja Normal Fuerte - D 7 Nublado Baja Normal Fuerte + D 8 Soleado Suave Alta Débil - D 9 Soleado Baja Normal Débil + D 10 Lluvia Suave Normal Débil + D 11 Soleado Suave Normal Fuerte + D 12 Nublado Suave Alta Fuerte + D 13 Nublado Alta Normal Débil + D 14 Lluvia Suave Alta Fuerte -

38 Clasificador Naive Bayes: un ejemplo Supongamos que queremos predecir si un día soleado, de temperatura suave, humedad alta y viento fuerte es bueno para jugar al tenis Según el clasificador Naive Bayes: v NB = argmax P(v j )P(soleado v j )P(suave v j )P(alta v j )P(fuerte v j ) v j {+, } Así que necesitamos estimar todas estas probabilidades, lo que hacemos simplemente calculando frecuencias en la tabla anterior: p(+) = 9/14, p( ) = 5/14, p(soleado +) = 2/9, p(soleado ) = 3/5, p(suave +) = 4/9, p(suave ) = 2/5, p(alta +) = 2/9, p(alta ) = 4/5, p(fuerte +) = 3/9 y p(fuerte ) = 3/5

39 Clasificador Naive Bayes: un ejemplo Por tanto, las dos probabilidades a posteriori son: P(+)P(soleado +)P(suave +)P(alta +)P(fuerte +) = 0,0053 P( )P(soleado )P(suave )P(alta )P(fuerte ) = 0,0206 Así que el clasificador devuelve la clasificación con mayor probabilidad a posteriori, en este caso la respuesta es (no es un día bueno para jugar al tenis)

40 Detalles técnicos sobre las estimaciones Tal y como estamos calculando las estimaciones, existe el riesgo de que algunas de ellas sean excesivamente bajas Si realmente alguna de las probabilidades es baja y tenemos pocos ejemplos en el conjunto de entrenamiento, lo más seguro es que la estimación de esa probabilidad sea 0 Esto plantea dos problemas: La inexactitud de la propia estimación Afecta enormemente a la clasificación que se calcule, ya que se multiplican las probabilidades estimadas y por tanto si una de ellas es 0, anula a las demás

41 Detalles técnicos sobre las estimaciones Para evitarlo, y en lugar de la estimación directa, se suele usar lo que se denomina m-estimación: n +m p n+m n es el número total de observaciones correspondiente a una clasificación n es el número de observaciones, de esas, que tienen como valor de atributo el correspondiente al que se está estimando p es una estimación a priori de la probabilidad que se quiere calcular. En ausencia de otra información, podría ser p = 1/k, donde k es el número de valores del atributo m es una constante (llamada tamaño de muestreo equivalente) que determina el peso de p en la fórmula anterior

42 Clasificación de documentos El problema de clasificar documentos: Dado un documento d y un conjunto C de categorías documentales (o temas), encontrar la clase c a la que pertenece d. Es un problema de aprendizaje: supondremos que tenemos un conjunto entrenamiento (textos ya clasificados) Tiene numerosas aplicaciones: Filtros anti-spam Control de contenidos infantiles Clasificación automática de correos Detección de sentimientos y opiniones Presentación de resultados en recuperación de la información,... Veamos cómo se puede usar Naive Bayes para clasificar textos

43 Clasificación de documentos usando Naive Bayes Partimos de un vocabulario fijo de términos relevantes, escogido a priori Procedimiento: dado el documento d a clasificar y {t 1,...,t nd } el conjunto de términos del vocabulario que aparecen en d, devolver c nb como clasificación de d, donde c nb se define: c nb = argmax c C P(c d) = argmax c C P(c) 1 k n d P(t k c) Para evitar desbordamientos por números muy bajos, se suele usar la siguiente versión equivalente con logaritmos: c nb = argmax[logp(c)+ logp(t k c)] c C 1 k n d

44 Clasificación de documentos usando Naive Bayes P(c) se estima como Nc N, donde N c es el número de documentos de la categoría c y N el número total de documentos en el conjunto de entrenamiento, respectivamente. P(t c) se estima como la proporción de ocurrencias de t en todo el conjunto de entrenamiento (respecto de todas las T ocurrencias de todos los términos del vocabulario): c,t s V Tc,s Nota: además de las suposiciones de independencia sobre las que está basado Naive Bayes, también asumimos independencia respecto de la posición de los términos dentro del documento Para evitar que muchas de estas probabilidades sean 0, se aplica un suavizado de Laplace: P(t c) = T c,t +1 s V (T c,s +1) = T c,t +1 s V T c,s + V

45 Clasificación de documentos usando Naive Bayes Algoritmo Naive Bayes para clasificar textos EntrenaNB(C,D) 1. Sea V igual al vocabulario que se extrae del conjunto de entrenamiento D, y N el número de documentos de D 2. Para cada categoría c en C, hacer: 2.1 Sea Nc el número de documentos en la clase c, y prior[c]=nc/n 2.2 Sea Texto(c) la concatenación de todos los documentos de la clase c 2.3 Para cada t en V sea T(t,c) el número de ocurrencias de t en Texto(c) 2.4 Para cada t en V sea condprob[t,c] el resultado de dividir T(t,c)+1 entre la suma de todos los (T(s,c)+1), con s en V 3. Devolver V, y las matrices prior y condprob ClasificaNB(C,V,prior, condprob, d) 1. Sea W el conjunto de términos de V que aparecen en d 2. Para cada clase c en C, hacer: 2.1 Inicializar score[c] con log(prior[c]) 2.2 Para cada término t en W, acumular en score[c] la cantidad log(condprob[t,c]) 3. Devolver la clase c para la que score[c] sea máximo

46 Clasificación mediante vecino más cercano Una técnica alternativa a construir el modelo probabiĺıstico es calcular la clasificación directamente a partir de los ejemplos (aprendizaje basado en instancias) Idea: obtener la clasificación de un nuevo ejemplo a apartir de las categorías de los ejemplos más cercanos. Debemos manejar, por tanto, una noción de distancia entre ejemplos. En la mayoría de los casos, los ejemplos serán elementos de R n y la distancia, la eucĺıdea. Pero se podría usar otra noción de distancia

47 El algoritmo k-nn El algoritmo k-nn (de k nearest neighbors ): Dado un conjunto de entrenamiento (vectores numéricos con una categoría asignada) y un ejemplo nuevo Devolver la categoría mayoritaria en los k ejemplos del conjunto de entrenamiento más cercanos al ejemplo que se quiere clasificar

48 Aplicación de knn: clasificación de textos La cercanía entre documentos la calculamos usando la medida de similitud definida en el modelo vectorial (ver tema 3). Previamente, hay que elegir: El vocabulario: conjunto de términos cuyos tfidf servirán para obtener la representación vectorial El valor de k El vocabulario debe ser un conjunto de términos cuya presencia o ausencia sea relevante para caracterizar la pertenencia a una clase.

49 Distancias para k-nn Posibles distancias usadas para definir la cercanía : n Eucĺıdea: d e (x,y) = i=1 (x i y i ) 2 Manhattan: d m (x,y) = n i=1 x i y i Hamming: número de componentes en las que se difiere. La eucĺıdea se usa cuando cada dimensión mide propiedades similares y la Mahattan en caso contrario; la distancia Hamming se puede usar aún cuando los vectores no sean numéricos. Normalización: cuando no todas las dimensiones son del mismo orden de magnitud, se normalizan las componentes (restando la media y dividiendo por la desviación típica)

50 Algunas observaciones sobre k-nn Elección de k: Usualmente, basándonos en algún conocimiento específico sobre el problema de clasificación También como resultado de pruebas en conjuntos más pequeños Si la clasificación es binaria, preferiblemente impar, para intentar evitar empates (k=5, por ejemplo) Variante en knn: para cada clase c, sumar la similitud (con el que se quiere clasificar) de cada documento de esa clase que esté entre los k más cercanos. Devolver la clase que obtenga mayor puntuación. Así un documento cuenta más cuanto más cercano esté

51 Parte III Parte III Clustering

52 Clustering Como última aplicación del aprendizaje estadístico, trataremos técnicas de agrupamiento o clustering Se trata de dividir un conjunto de datos de entrada en subconjuntos (clusters), de tal manera que los elementos de cada subconjunto compartan cierto patrón o características a priori desconocidas En nuestro caso, los datos serán números o vectores de números y el número de clusters nos vendrá dado Aprendizaje no supervisado: no tenemos información sobre qué cluster corresponde a cada dato. Aplicaciones de clustering: Minería de datos Procesamiento de imágenes digitales Bioinformática

53 Dos ejemplos Color quantization: Una imagen digital almacenada con 24 bits/pixel (aprox. 16 millones de colores) se tiene que mostrar sobre una pantalla que sólo tiene 8 bits/pixel (256 colores) Cuál es la mejor correspondencia entre los colores de la imagen original y los colores que pueden ser mostrados en la pantalla? Mezcla de distribuciones: Tenemos una serie de datos con el peso de personas de un pais; no tenemos información sobre si el peso viene de un varón o de una mujer, pero sabemos que la distribución de pesos es de tipo normal, y que en los hombres es distinta que en las mujeres Atendiendo a los datos, podemos aprender de qué dos distribuciones de probabilidad vienen?

54 Clustering basado en distancia Idea: dado el número k de grupos o clusters, buscar k puntos o centros representantes de cada cluster, de manera que cada dato se considera en el cluster correspondiente al centro que tiene a menor distancia Como antes, la distancia sería específica de cada problema: Expresará la medida de similitud La distancia más usada es la eucĺıdea

55 Un algoritmo clásico: k-medias Entrada: un número k de clusters, un conjunto de datos {x i } N i=1 y una función de distancia Salida: un conjunto de k centros m 1,...,m k k-medias(k,datos,distancia) 1. Inicializar m i (i=1,...,k) (aleatoriamente o con algún criterio heurístico) 2. REPETIR (hasta que los m i no cambien): 2.1 PARA j=1,...,n, HACER: Calcular el cluster correspondiente a x j, escogiendo, de entre todos los m i, el m h tal que distancia(x j,m h) sea mínima 2.2 PARA i=1,...,k HACER: Asignar a m i la media aritmética de los datos asignados al cluster i-ésimo 3. Devolver m 1,...,m n

56 Idea gráfica intuitiva en el algoritmo de k-medias Iteracion 0 Iteracion 1 Iteracion 2 Iteracion 3

57 Ejemplo en el algoritmo k-medias Datos sobre pesos de la población: 51, 43, 62, 64, 45, 42, 46, 45, 45, 62, 47, 52, 64, 51, 65, 48, 49, 46, 64, 51, 52, 62, 49, 48, 62, 43, 40, 48, 64, 51, 63, 43, 65, 66, 65, 46, 39, 62, 64, 52, 63, 64, 48, 64, 48, 51, 48, 64, 42, 48, 41 El algoritmo, aplicado con k = 2 y distancia eucĺıdea, encuentra dos centros m 1 = 63,63 y m 2 = 46,81 en tres iteraciones 19 datos pertenecen al primer cluster y 32 al segundo cluster

58 Diversas cuestiones sobre el algoritmo k-medias Búsqueda local: Puede verse como un algoritmo de búsqueda local, en el que se trata de encontrar los centros m i que optimizan Σ j Σ i b ij d(x j,m i ) 2, donde b ij vale 1 si x j tiene a m i como el centro más cercano, 0 en otro caso Como todo algoritmo de búsqueda local, no tiene garantizado encontrar el óptimo global Inicialización: aleatoria o con alguna técnica heurística (por ejemplo, partir los datos aleatoriamente en k clusters y empezar con los centros de esos clusters) En la práctica, los centros con los que se inicie el algoritmo tienen un gran impacto en la calidad de los resultados que se obtengan

59 Otro ejemplo en el algoritmo k-medias El archivo iris.arff del sistema WEKA contiene 150 datos sobre longitudes y anchura de sépalo y pétalo de plantas del genero iris, clasificadas en tres tipos (setosa, versicolor y virgínica) Ejemplo de instancia de iris.arff: 5.1,3.5,1.4,0.2,Iris-setosa Podemos aplicar k-medias, con k = 3 y distancia eucĺıdea, ignorando el último atributo (como si no se conociera): En 6 iteraciones se estabiliza De los tres clusters obtenidos, el primero incluye justamente a las 50 instancias que originalmente estaban clasificadas como iris setosa El segundo cluster incluye a 47 versicolor y a 3 virgínicas El tercero incluye 14 versicolor y 36 virgínicas No ha sido capaz de discriminar correctamente entre versicolor y virgínica

60 Una visión probabiĺıstica del clustering La aproximación del algoritmo k-medias al problema del clustering puede ser demasiado rígida, ya que asume que cada instancia pertenece de manera categórica a un único cluster Visión probabiĺıstica: Cada instancia tiene una probabilidad de pertenecer a cada cluster La pertenencia a cada cluster se rige por una distribución de probabilidad distinta Es lo que se conoce como una mezcla de distribuciones Aprendizaje ML: asumiendo que los datos han sido generados mediante una mezcla de distribuciones, encontrar el modelo probabiĺıstico en el que los datos observados alcancen la mayor probabilidad Para simplificar, supondremos que los datos son números reales. Es fácil generalizar estas técnicas a espacios de dimensión n

61 Aprendizaje de mezcla de distribuciones normales Supongamos una serie de datos D = {x 1,...,x n } de una v.a. X que cuya distribución es una mezcla de k distribuciones normales (o componentes). Es decir: Cada instancia x j ha sido generada escogiendo primero una de las k componentes y luego generando una muestra respecto de esa componente Es decir, si C es una variable aleatoria que indica la componente (con valores i = 1,...,k), se tiene: P(X = x) = k P(X = x,c = i) = i=1 k P(X = x C = i)p(c = i) Asumiremos que P(X C = i) sigue una distribución normal de media µ i y desviación típica σ i (i = 1,...,k) El problema es que no conocemos ni la distribución de probabilidad de C (las probabilidades w i = P(C = i)) ni los parámetros µ i y σ i, i = 1,...,k i=1

62 Aprendizaje de mezcla de distribuciones normales Podemos aplicar aprendizaje ML a este problema? Podemos encontrar valores de w i, µ i y σ i (i = 1,...,k) que maximizan la probabilidad de los datos de D? Si conociéramos a qué componente pertenece cada x j (j = 1,...,N), podríamos estimar (ML) los parámetros: Como ya hemos visto, las estimaciones ML de µ i y σ i serían las medias y desviación típica de los datos de cada componente, y las de w i serían las proporciones de datos en cada componente Si conociéramos los w i, µ i y σ i, entonces podríamos calcular si cada dato pertenece o no a cada una de las componente (o mejor dicho, la probabilidad de que pertenezca, aplicando el teorema de Bayes): P(C = i X = x j ) = αp(x = x j C = i)p(c = i) = αn µi,σ i (x j )w i donde N µi,σ i es la función de distribución normal Idea: alternar los pasos anteriores

63 Algoritmo EM para clustering Inicializar los parámetros w i, µ i y σ i (i = 1,...,k). Paso E: Calcular los valores esperados p ij = P(C = i X = x j ) de pertenencia de cada x j a cada clase, con los valores actuales de los parámetros Paso M: Realizar una nueva estimación de máxima verosimilitud de los parámetros w i, µ i y σ i, tomando los p ij como un peso de la pertenencia de cada datos x j a la componente i-ésima Repetir los dos pasos anteriores hasta satisfacer algún criterio de convergencia

64 Pasos E y M en detalle Paso E. Para i = 1,...,k, j = 1,...,N, hacer: p ij w in µi,σ i (x j ) k h=1 w hn µh,σ h (x j ) Paso M. Para i = 1,...,k, hacer: N j=1 µ i p ijx j donde N i = Σ N j=1 p ij σ i N i N j=1 p ij(x j µ i ) 2 N i w i N i N

65 Algunas consideraciones sobre el algoritmo EM EM es un tipo de algoritmo (Expectation-Maximization), no sólo usado para clustering, sino en otros contextos en los que hay información oculta En este caso, lo oculto es la componente de cada ejemplo Es posible demostrar que en cada iteración, los nuevos parámetros w i, µ i y σ i incrementan la log-verosimilitud de los datos respecto de la iteración anterior El criterio de parada del algoritmo suele estar basado en la comprobación de que la log-verosimilitud se estabiliza No asegura un óptimo global, aunque sí converge hacia un óptimo local Es bastante usual repetir el proceso varias veces, con distintos valores inicales para los parámetros, tomando como resultado el de la ejecución que mejor log-verosimilitud consiga

66 EM aplicado a iris Usando WEKA, aplicamos el algoritmo EM al conjunto de datos de iris.arff (versión multivariante) Para k = 3 Ignorando el último atributo, en el que aparece la clase de cada ejemplo Es razonable pensar que los datos de longitud y anchura de sépalo y pétalo siguen distribuciones normales multivariantes, distintas según el tipo de iris Resultado: Respecto de los datos originales, el algoritmo es capaz de descubrir, sin errores, los 50 ejemplo de la clase versicolor y los 50 ejemplos de la clase setosa Sin embargo, aún incluye erróneamente, 14 de los 50 ejemplos de la clase virginica dentro de la clase versicolor

67 Bibliografía Russell, S. y Norvig, P. Artificial Intelligence (A modern approach) (Third edition) (Prentice Hall, 2010) Secs y 20.2: Statistical Learning y Learning wih Complete Data (disponible on-line en la web de la segunda edición) Mitchell, T.M. Machine Learning (McGraw-Hill, 1997) Cap. 6: Bayesian Learning Cap. 8: Instance Based Learning

Aprendizaje de modelos probabiĺısticos

Aprendizaje de modelos probabiĺısticos J. L. Ruiz Reina Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Contenido El teorema de Bayes ( qué modelo probabiĺıstico explica mejor los datos observados?) Aprendizaje

Más detalles

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES 1 APRENDIZAJE PROBABILÍSTICO NAIVE BAYES Bases de Datos Masivas 9 de Noviembre de 2016 2 Razonamiento Probabilístico Es una herramienta de aprendizaje estadístico. Se trata de razonar en un contexto incierto;

Más detalles

MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN

MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Manuel Sánchez-Montañés Luis Lago Ana González Escuela Politécnica Superior Universidad Autónoma de Madrid Teoría

Más detalles

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: clasificación CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja

Más detalles

Tema 7: Aprendizaje de árboles de decisión

Tema 7: Aprendizaje de árboles de decisión Inteligencia Artificial 2 Curso 2002 03 Tema 7: Aprendizaje de árboles de decisión José A. Alonso Jiménez Miguel A. Gutiérrez Naranjo Francisco J. Martín Mateos José L. Ruiz Reina Dpto. de Ciencias de

Más detalles

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO 2 Objetivo El objetivo principal de las técnicas de clasificación supervisada es obtener un modelo clasificatorio válido para permitir tratar

Más detalles

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica ECONOMETRÍA II Prof.: Begoña Álvarez 2007-2008 TEMA 1 INTRODUCCIÓN Estimación por máxima verosimilitud y conceptos de teoría asintótica 1. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD (MAXIMUM LIKELIHOOD) La estimación

Más detalles

El Algoritmo E-M. José Antonio Camarena Ibarrola

El Algoritmo E-M. José Antonio Camarena Ibarrola El Algoritmo E-M José Antonio Camarena Ibarrola Introducción Método para encontrar una estimación de máima verosimilitud para un parámetro ѳ de una distribución Ejemplo simple 24 Si tiene las temperaturas

Más detalles

Tema AA-4: Sesgo inductivo

Tema AA-4: Sesgo inductivo Razonamiento Automático Curso 2002 2003 Tema AA-4: Sesgo inductivo Miguel A. Gutiérrez Naranjo José A. Alonso Jiménez Dpto. de Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Más detalles

Auxiliar 9. MNL y MLE. Daniel Olcay. 21 de octubre de 2014 IN4402. Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de / 13

Auxiliar 9. MNL y MLE. Daniel Olcay. 21 de octubre de 2014 IN4402. Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de / 13 Auxiliar 9 MNL y MLE Daniel Olcay IN4402 21 de octubre de 2014 Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de 2014 1 / 13 Índice Modelos no lineales Probabilidad lineal Probit Logit Máxima verosimilitud

Más detalles

Redes Bayesianas (3) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile

Redes Bayesianas (3) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile Redes Bayesianas (3) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile Referencia Tutorial NIPS (Neural Information Processing Systems Conference) 2001: Learning Bayesian Networks

Más detalles

Tema 8: Árboles de decisión

Tema 8: Árboles de decisión Introducción a la Ingeniería del Conocimiento Curso 2004 2005 Tema 8: Árboles de decisión Miguel A. Gutiérrez Naranjo Dpto. de Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Más detalles

Aprendizaje Automatizado

Aprendizaje Automatizado Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto

Más detalles

Tema 7: Sesgo inductivo

Tema 7: Sesgo inductivo Introducción a la Ingeniería del Conocimiento Curso 2004 2005 Tema 7: Sesgo inductivo Miguel A. Gutiérrez Naranjo Dpto. de Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla IIC

Más detalles

Técnicas de Minería de Datos

Técnicas de Minería de Datos Técnicas de Minería de Datos Act. Humberto Ramos S. 1 Qué es Minería de datos? El desarrollo de dispositivos tecnológicos para acumular datos a bajo costo. Acumulación o registro de gran cantidad de datos.

Más detalles

Teorema Central del Límite (1)

Teorema Central del Límite (1) Teorema Central del Límite (1) Definición. Cualquier cantidad calculada a partir de las observaciones de una muestra se llama estadístico. La distribución de los valores que puede tomar un estadístico

Más detalles

Redes Bayesianas (1) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile

Redes Bayesianas (1) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile Redes Bayesianas (1) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile Referencia Bayesian networks without tears: making Bayesian networks more accessible to the probabilistically

Más detalles

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión. MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión. 1 Objetivos del tema Conocer en qué consiste un árbol de decisión. Aprender los problemas que pueden

Más detalles

ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M.

ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M. 1 Introducción ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M. En este capítulo, vamos a abordar la Estimación Puntual, que es uno de los tres grandes conjuntos de técnicas que

Más detalles

Razonamiento probabilístico y Redes Bayesianas

Razonamiento probabilístico y Redes Bayesianas Inteligencia Computacional Razonamiento probabilístico y Redes Bayesianas Probabilidad y Teorema de Bayes Blanca A. Vargas Govea - vargasgovea@itesm.mx - Oct 9, 2012 Avisos: Exámenes Fecha de examen parcial

Más detalles

Clasificación Bayesiana

Clasificación Bayesiana Clasificación Bayesiana Naive Bayes septiembre 30, 2014 Ricardo Corral Corral rcorral@email.ifc.unam.mx Instituto de Fisiología Celular Universidad Nacional Autónoma de México Temas 1 Introducción Conceptos

Más detalles

Bases Formales de la Computación: Redes de Bayes (segunda parte)

Bases Formales de la Computación: Redes de Bayes (segunda parte) Bases Formales de la Computación: Redes de Bayes (segunda parte) Departamento de Ciencias e Ingeniería de la Computación Pontificia Universidad Javeriana Cali Periodo 2008-2 Razonamiento en Redes de Bayes

Más detalles

Curso de Inteligencia Artificial

Curso de Inteligencia Artificial Curso de Inteligencia Artificial Modelos Ocultos de Markov Gibran Fuentes Pineda IIMAS, UNAM Redes Bayesianas Representación gráfica de relaciones probabilísticas Relaciones causales entre variables aleatorias

Más detalles

Tema 2. Introducción a la Estadística Bayesiana

Tema 2. Introducción a la Estadística Bayesiana 2-1 Tema 2 Introducción a la Estadística Bayesiana El teorema de Bayes Ejemplo Interpretación Ejemplo: influencia de la distribución a priori Ejemplo: densidad de flujo Probabilidad bayesiana Ejemplo:

Más detalles

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos Agro 6998 Conferencia Introducción a los modelos estadísticos mixtos Los modelos estadísticos permiten modelar la respuesta de un estudio experimental u observacional en función de factores (tratamientos,

Más detalles

J. Vilares El Modelo Probabilístico: Características y Modelos Derivados p. 1

J. Vilares El Modelo Probabilístico: Características y Modelos Derivados p. 1 El Modelo Probabilístico: Características y Modelos Derivados Jesús Vilares Grupo de Lengua y Sociedad de la Información (LYS) Universidade da Coruña jvilares@udc.es J. Vilares El Modelo Probabilístico:

Más detalles

Aprendizaje basado en ejemplos.

Aprendizaje basado en ejemplos. Aprendizaje basado en ejemplos. In whitch we describe agents that can improve their behavior through diligent study of their own experiences. Porqué queremos que un agente aprenda? Si es posible un mejor

Más detalles

Comparación de dos métodos de aprendizaje sobre el mismo problema

Comparación de dos métodos de aprendizaje sobre el mismo problema Comparación de dos métodos de aprendizaje sobre el mismo problema Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Contenido 1. Motivación 2.

Más detalles

Inteligencia en Redes de Comunicaciones - 06 Aprendizaje

Inteligencia en Redes de Comunicaciones - 06 Aprendizaje El objetivo de este tema es realizar una introducción a los conceptos, fundamentos y técnicas básicas de aprendizaje computacional. En primer lugar se formalizará el concepto de aprendizaje y se describirán

Más detalles

ESTADÍSTICA I Tema 2: Algunas ideas básicas sobre inferencia estadística. Muestreo aleatorio

ESTADÍSTICA I Tema 2: Algunas ideas básicas sobre inferencia estadística. Muestreo aleatorio ESTADÍSTICA I Tema 2: Algunas ideas básicas sobre inferencia estadística. Muestreo aleatorio Muestra aleatoria Conceptos probabiĺısticos básicos El problema de inferencia Estadísticos. Media y varianza

Más detalles

Tema 6: Introducción a la Inferencia Bayesiana

Tema 6: Introducción a la Inferencia Bayesiana Tema 6: Introducción a la Inferencia Bayesiana Conchi Ausín Departamento de Estadística Universidad Carlos III de Madrid concepcion.ausin@uc3m.es CESGA, Noviembre 2012 Contenidos 1. Elementos básicos de

Más detalles

PRÁCTICA I. Ejercicios Teóricos

PRÁCTICA I. Ejercicios Teóricos PRÁCTICA I TEORÍA DE LA DECISIÓN BAYESIANA Ejercicios Teóricos Ejercicio. En el caso de dos categorías, en la regla de decisión de Bayes el error condicional está dado por la ecuación (7). Incluso si las

Más detalles

Teoría de probabilidades

Teoría de probabilidades Modelos Probabilistas Teoría de probabilidades Teoría de probabilidades Definiremos como probabilidad a priori (P(a)) asociada a una proposición como el grado de creencia en ella a falta de otra información

Más detalles

Tema 15: Combinación de clasificadores

Tema 15: Combinación de clasificadores Tema 15: Combinación de clasificadores p. 1/21 Tema 15: Combinación de clasificadores Abdelmalik Moujahid, Iñaki Inza, Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial

Más detalles

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR Tareas de la minería de datos: clasificación PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja o asocia datos

Más detalles

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD) EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD) Fortino Vela Peón fvela@correo.xoc.uam.mx FVela-0 Objetivo Introducir las ideas básicas del principio de máxima verosimilitud. Problema Considere el experimento

Más detalles

Redes de Neuronas de Base Radial

Redes de Neuronas de Base Radial Redes de Neuronas de Base Radial 1 Introducción Redes multicapa con conexiones hacia delante Única capa oculta Las neuronas ocultas poseen carácter local Cada neurona oculta se activa en una región distinta

Más detalles

Estadistica II Tema 0. Repaso de conceptos básicos. Curso 2009/10

Estadistica II Tema 0. Repaso de conceptos básicos. Curso 2009/10 Estadistica II Tema 0. Repaso de conceptos básicos Curso 2009/10 Tema 0. Repaso de conceptos básicos Contenidos Variables aleatorias y distribuciones de probabilidad La distribución normal Muestras aleatorias,

Más detalles

un conjunto cuyos elementos denominaremos vectores y denotaremos por es un espacio vectorial si verifica las siguientes propiedades:

un conjunto cuyos elementos denominaremos vectores y denotaremos por es un espacio vectorial si verifica las siguientes propiedades: CAPÍTULO 2: ESPACIOS VECTORIALES 2.1- Definición y propiedades. 2.1.1-Definición: espacio vectorial. Sea un cuerpo conmutativo a cuyos elementos denominaremos escalares o números. No es necesario preocuparse

Más detalles

Tema 9: Contraste de hipótesis.

Tema 9: Contraste de hipótesis. Estadística 84 Tema 9: Contraste de hipótesis. 9.1 Introducción. El objetivo de este tema es proporcionar métodos que permiten decidir si una hipótesis estadística debe o no ser rechazada, en base a los

Más detalles

Julio Deride Silva. 4 de junio de 2010

Julio Deride Silva. 4 de junio de 2010 Curvas ROC y Regresión Lineal Julio Deride Silva Área de Matemática Facultad de Ciencias Químicas y Farmcéuticas Universidad de Chile 4 de junio de 2010 Tabla de Contenidos Curvas ROC y Regresión Lineal

Más detalles

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua ESTADÍSTICA Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal Cuantitativa discreta continua DISTRIBUCIÓN DE FRECUENCIAS Frecuencia absoluta: fi Frecuencia relativa:

Más detalles

INFERENCIA ESTADÍSTICA Notas de clase. Profesores: A. Leonardo Bañuelos S. Nayelli Manzanarez Gómez

INFERENCIA ESTADÍSTICA Notas de clase. Profesores: A. Leonardo Bañuelos S. Nayelli Manzanarez Gómez INFERENCIA ESTADÍSTICA Notas de clase Profesores: A. Leonardo Bañuelos S. Naelli Manzanarez Gómez TEMA II ESTIMACIÓN PUNTUAL DE PARÁMETROS POBLACIONALES La estimación puntual de un parámetro relativo a

Más detalles

Tema 5. Muestreo y distribuciones muestrales

Tema 5. Muestreo y distribuciones muestrales 1 Tema 5. Muestreo y distribuciones muestrales En este tema: Muestreo y muestras aleatorias simples. Distribución de la media muestral: Esperanza y varianza. Distribución exacta en el caso normal. Distribución

Más detalles

INTERVALOS DE CONFIANZA Julián de la Horra Departamento de Matemáticas U.A.M.

INTERVALOS DE CONFIANZA Julián de la Horra Departamento de Matemáticas U.A.M. 1 Introducción INTERVALOS DE CONFIANZA Julián de la Horra Departamento de Matemáticas U.A.M. En este capítulo, vamos a abordar la estimación mediante Intervalos de Confianza, que es otro de los tres grandes

Más detalles

TEMA 1.- PROBABILIDAD.- CURSO

TEMA 1.- PROBABILIDAD.- CURSO TEMA 1.- PROBABILIDAD.- CURSO 2016-2017 1.1.- Introducción. Definición axiomática de probabilidad. Consecuencias de los axiomas. 1.2.- Probabilidad condicionada. 1.3.- Independencia de sucesos. 1.4.- Teoremas

Más detalles

Tópicos Selectos en Aprendizaje Maquinal. Algoritmos para Reconocimiento de Patrones

Tópicos Selectos en Aprendizaje Maquinal. Algoritmos para Reconocimiento de Patrones Tópicos Selectos en Aprendizaje Maquinal Guía de Trabajos Prácticos N 1 (2da. parte) Algoritmos para Reconocimiento de Patrones 20 de Octubre de 2010 1. Objetivos Introducir conceptos básicos de aprendizaje

Más detalles

DEFINICIONES BÁSICAS

DEFINICIONES BÁSICAS 1 CLASES DE ESTADÍSTICA II CLASE 14) INTRODUCCIÓN A LAS PRUEBAS DE HIPÓTESIS. A menudo el analista debe tomar decisiones acerca de la investigación que se está desarrollando. En ese proceso de toma de

Más detalles

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación Facultad de Ciencias Sociales, UdelaR Índice 1. Repaso: estimadores y estimaciones. Propiedades de los estimadores. 2. Estimación puntual.

Más detalles

Algoritmos genéticos

Algoritmos genéticos Algoritmos genéticos Introducción 2 Esquema básico 3 El problema de la mochila 7 Asignación de recursos 0 El problema del viajante 3 Variantes del esquema básico 5 Por qué funciona? 9 Observaciones finales

Más detalles

Simulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12

Simulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12 Simulación I Prof. José Niño Mora Investigación Operativa, Grado en Estadística y Empresa, 2011/12 Esquema Modelos de simulación y el método de Montecarlo Ejemplo: estimación de un área Ejemplo: estimación

Más detalles

Aplicaciones de apoyo al diagnóstico médico. Identificación de objetos amigos y enemigos. Identificación de zonas afectadas por un desastre natural.

Aplicaciones de apoyo al diagnóstico médico. Identificación de objetos amigos y enemigos. Identificación de zonas afectadas por un desastre natural. Capítulo 5 Evaluación En muchas ocasiones requerimos hacer una evaluación muy precisa de nuestros algoritmos de aprendizaje computacional porque los vamos a utilizar en algún tipo de aplicación que así

Más detalles

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS 1 POR QUÉ SE LLAMAN CONTRASTES NO PARAMÉTRICOS? A diferencia de lo que ocurría en la inferencia paramétrica, ahora, el desconocimiento de la población que vamos

Más detalles

ESTADISTICA INFERENCIAL DR. JORGE ACUÑA A.

ESTADISTICA INFERENCIAL DR. JORGE ACUÑA A. ESTADISTICA INFERENCIAL DR. JORGE ACUÑA A. 1 PROBABILIDAD Probabilidad de un evento es la posibilidad relativa de que este ocurra al realizar el experimento Es la frecuencia de que algo ocurra dividido

Más detalles

ANÁLISIS DISCRIMINANTE (AD)

ANÁLISIS DISCRIMINANTE (AD) discrim_predictivo.doc 30//05 vgg ANÁLISIS DISCRIMINANTE (AD) Regresión con respuesta categórica Y Cómo depende Y de las variables X, X,... X p? cualitativa cuantitativas Planteamiento Predictivo del AD:

Más detalles

METODOS ESTADÍSTICOS

METODOS ESTADÍSTICOS METODOS ESTADÍSTICOS Introducción. Uno de los objetivos de la asignatura de Hidrología, es mostrar a los alumnos, las herramientas de cálculo utilizadas en Hidrología Aplicada para diseño de Obras Hidráulicas.

Más detalles

Unidad Temática 3: Probabilidad y Variables Aleatorias

Unidad Temática 3: Probabilidad y Variables Aleatorias Unidad Temática 3: Probabilidad y Variables Aleatorias 1) Qué entiende por probabilidad? Cómo lo relaciona con los Sistemas de Comunicaciones? Probabilidad - Definiciones Experimento aleatorio: Un experimento

Más detalles

Modelos Gráficos Probabilistas L. Enrique Sucar INAOE. Sesión 10: Redes Bayesianas Inferencia. 1era parte. [Neapolitan 90]

Modelos Gráficos Probabilistas L. Enrique Sucar INAOE. Sesión 10: Redes Bayesianas Inferencia. 1era parte. [Neapolitan 90] Modelos Gráficos Probabilistas L. Enrique Sucar INAOE Sesión 10: Redes Bayesianas Inferencia 1era parte [Neapolitan 90] Inferencia en Redes Bayesianas Introducción Clases de algoritmos 1era Parte Propagación

Más detalles

Muestreo de variables aleatorias

Muestreo de variables aleatorias Estadística II Universidad de Salamanca Curso 2011/2012 Outline 1 Introducción 2 Distribución de la muestra 3 4 5 Distribuciones de la media y la varianza en poblaciones normales Introducción Tiene como

Más detalles

Estadística Descriptiva y Probabilidad FORMULARIO

Estadística Descriptiva y Probabilidad FORMULARIO Estadística Descriptiva y Probabilidad FORMULARIO Departament d Estadística i Investigació Operativa Universitat de València Angel Corberán Francisco Montes 2 3 Capítulo 1 Estadística Descriptiva 1.1.

Más detalles

Primera aproximación al aprendizaje automático.

Primera aproximación al aprendizaje automático. APRENDIZAJE Introducción al aprendizaje algorítmico José M. Sempere Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia Aprender: Tomar algo en la memoria [...] Adquirir

Más detalles

Tema 1: Distribuciones en el muestreo

Tema 1: Distribuciones en el muestreo Tema 1: Distribuciones en el muestreo 1 (transparencias de A. Jach http://www.est.uc3m.es/ajach/) Muestras aleatorias Estadísticos Concepto de distribución muestral Media muestral Distribución muestral

Más detalles

Práctica 5: Clasificación con número variable de ejemplos.

Práctica 5: Clasificación con número variable de ejemplos. 5º INGENIERÍA DE TELECOMUNICACIÓN INTELIGENCIA ARTIFICIAL Y RECONOCIMIENTO DE PATRONES Práctica 5: Clasificación con número variable de ejemplos. Objetivos: Utilización de conjuntos de entrenamiento y

Más detalles

Análisis de la Varianza (ANOVA) y Correlación

Análisis de la Varianza (ANOVA) y Correlación Universidad de Chile Rodrigo Assar FCFM MA34B Andrés Iturriaga DIM Víctor Riquelme Análisis de la Varianza (ANOVA) y Correlación Resumen El test ANOVA analiza la relación entre una variable numérica y

Más detalles

1. La Distribución Normal

1. La Distribución Normal 1. La Distribución Normal Los espacios muestrales continuos y las variables aleatorias continuas se presentan siempre que se manejan cantidades que se miden en una escala continua; por ejemplo, cuando

Más detalles

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) Curso Académico: 2015-2016 Programa: Centro: Universidad: Máster Universitario en Ingeniería Informática Escuela Politécnica Superior

Más detalles

Capítulo 8. Análisis Discriminante

Capítulo 8. Análisis Discriminante Capítulo 8 Análisis Discriminante Técnica de clasificación donde el objetivo es obtener una función capaz de clasificar a un nuevo individuo a partir del conocimiento de los valores de ciertas variables

Más detalles

Análisis de imágenes digitales

Análisis de imágenes digitales Análisis de imágenes digitales SEGMENTACIÓN DE LA IMAGEN Segmentación basada en texturas INTRODUCCIÓN La textura provee información sobre la distribución espacio-local del color o niveles de intensidades

Más detalles

ESTADISTICA Y PROBABILIDAD ESTADÍSTICA

ESTADISTICA Y PROBABILIDAD ESTADÍSTICA ESTADÍSTICA La estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comprobaciones y sacar conclusiones. Un estudio estadístico consta

Más detalles

Sesión 2: Teoría de Probabilidad

Sesión 2: Teoría de Probabilidad Modelos Gráficos Probabilistas L. Enrique Sucar INAOE Sesión 2: Teoría de Probabilidad las reglas mátemáticas de la probabilidad no son simplemente reglas para calcular frecuencias de variables aleatorias;

Más detalles

PROBABILIDAD Y ESTADÍSTICA. Sesión 6 (A partir de tema 5.9)

PROBABILIDAD Y ESTADÍSTICA. Sesión 6 (A partir de tema 5.9) PROBABILIDAD Y ESTADÍSTICA Sesión 6 (A partir de tema 5.9) 5.9 Muestreo: 5.9.1 Introducción al muestreo 5.9.2 Tipos de muestreo 5.10 Teorema del límite central 5.11 Distribución muestral de la media 5.12

Más detalles

Proyecto 6. Árboles de decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial.

Proyecto 6. Árboles de decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial. Árboles de decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial. Funcionamiento: Se realiza un test en cada nodo interno del árbol, a medida que

Más detalles

INDICE. Prólogo a la Segunda Edición

INDICE. Prólogo a la Segunda Edición INDICE Prólogo a la Segunda Edición XV Prefacio XVI Capitulo 1. Análisis de datos de Negocios 1 1.1. Definición de estadística de negocios 1 1.2. Estadística descriptiva r inferencia estadística 1 1.3.

Más detalles

12 ESTADÍSTICA Y PROBABILIDAD

12 ESTADÍSTICA Y PROBABILIDAD 12 ESTADÍSTICA Y PROBABILIDAD 12.1.- TABLAS DE FRECUENCIA ABSOLUTA Y RELATIVA. PARÁMETROS ESTADÍSTICOS. 12.2.- GRÁFICOS ESTADÍSTICOS 12.3.- CÁLCULO DE PROBABILIDADES. REGLA DE LAPLACE. 12.1.- TABLAS DE

Más detalles

Estadística. Generalmente se considera que las variables son obtenidas independientemente de la misma población. De esta forma: con

Estadística. Generalmente se considera que las variables son obtenidas independientemente de la misma población. De esta forma: con Hasta ahora hemos supuesto que conocemos o podemos calcular la función/densidad de probabilidad (distribución) de las variables aleatorias. En general, esto no es así. Más bien se tiene una muestra experimental

Más detalles

Identificación mediante el método de los mínimos cuadrados

Identificación mediante el método de los mínimos cuadrados Ingeniería de Control Identificación mediante el método de los mínimos cuadrados Daniel Rodríguez Ramírez Teodoro Alamo Cantarero Contextualización del tema Conocimientos relevantes aprendidos previamente:

Más detalles

Distribuciones de Probabilidad

Distribuciones de Probabilidad Distribuciones de Probabilidad Variables Aleatorias Ahora se introducirá el concepto de variable aleatoria y luego se introducirán las distribuciones de probabilidad discretas más comunes en la práctica

Más detalles

Tema 7: Estadística y probabilidad

Tema 7: Estadística y probabilidad Tema 7: Estadística y probabilidad En este tema revisaremos: 1. Representación de datos e interpretación de gráficas. 2. Estadística descriptiva. 3. Probabilidad elemental. Representaciones de datos Cuatro

Más detalles

Definición Una hipótesis es una afirmación acerca de un parámetro.

Definición Una hipótesis es una afirmación acerca de un parámetro. Capítulo 8 Prueba de hipótesis Existen dos áreas de interés en el proceso de inferencia estadística: la estimación puntual y las pruebas de hipótesis. En este capítulo se presentan algunos métodos para

Más detalles

Conceptos. Experimento Aleatorio: Es un fenómeno en el que interviene el azar, es decir no se puede predecir el resultado.

Conceptos. Experimento Aleatorio: Es un fenómeno en el que interviene el azar, es decir no se puede predecir el resultado. Teresa Pérez P DíazD Profesora de matemática tica Conceptos Experimento Aleatorio: Es un fenómeno en el que interviene el azar, es decir no se puede predecir el resultado. Ejemplos: E : Lanzar un dado,

Más detalles

Números naturales y recursividad

Números naturales y recursividad Números naturales y recursividad Rafael F. Isaacs G. * Fecha: 12 de abril de 2004 Números naturales Cuál es el primer conjunto de números que estudiamos desde la escuela primaria? Se sabe que los números

Más detalles

Aprendizaje: Boosting y Adaboost

Aprendizaje: Boosting y Adaboost Técnicas de Inteligencia Artificial Aprendizaje: Boosting y Adaboost Boosting 1 Indice Combinando clasificadores débiles Clasificadores débiles La necesidad de combinar clasificadores Bagging El algoritmo

Más detalles

Aprendizaje para Clasificación con Factorización Matricial Basado en Listwise para Filtrado Colaborativo

Aprendizaje para Clasificación con Factorización Matricial Basado en Listwise para Filtrado Colaborativo 2012 Aprendizaje para Clasificación con Factorización Matricial Basado en Listwise para Filtrado Colaborativo Iván López Espejo 22/04/2012 2 Aprendizaje para Clasificación con Factorización Matricial Basado

Más detalles

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA 5)

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA 5) TEMA 5 NOCIONES BÁSICAS DE PROBABILIDAD OBJETIVOS DE APRENDIZAJE: Conocer los conceptos de experimento aleatorio y espacio muestral. Distinguir los distintos tipos de sucesos que forman parte del espacio

Más detalles

CRITERIOS DE SELECCIÓN DE MODELOS

CRITERIOS DE SELECCIÓN DE MODELOS Inteligencia artificial y reconocimiento de patrones CRITERIOS DE SELECCIÓN DE MODELOS 1 Criterios para elegir un modelo Dos decisiones fundamentales: El tipo de modelo (árboles de decisión, redes neuronales,

Más detalles

CONTRASTE DE HIPÓTESIS

CONTRASTE DE HIPÓTESIS CONTRASTE DE HIPÓTESIS Antonio Morillas A. Morillas: Contraste de hipótesis 1 CONTRASTE DE HIPÓTESIS 1. Introducción 2. Conceptos básicos 3. Región crítica óptima i. Teorema de Neyman-Pearson ii. Región

Más detalles

Tema 2: Análisis Discriminante

Tema 2: Análisis Discriminante Tema 2: Análisis Discriminante P 1 P 2 Problema de clasificación: Ténemos observaciones que corresponden a 2 grupos P_1, P_2. Si nos dan uno nuevo x_0 a que grupo pertenece? Guión 1. Motivación 2. Clasificación

Más detalles

Unidad 1: Espacio de Probabilidad

Unidad 1: Espacio de Probabilidad Unidad 1: Espacio de Probabilidad 1.1 Espacios de Probabilidad. (1) Breve introducción histórica de las probabilidades (2) Diferencial entre modelos matemáticos deterministicos y probabilísticos (3) Identificar

Más detalles

Tema 1: Introducción a la Estadística Bayesiana

Tema 1: Introducción a la Estadística Bayesiana Tema 1: Introducción a la Estadística Bayesiana Introducción En general, se usan probabilidades de modo informal para expresar la información o la incertidumbre que se tiene acerca de observaciones de

Más detalles

MATEMÁTICAS APLICADAS A LAS CCSS II (2º BACHILLERATO)

MATEMÁTICAS APLICADAS A LAS CCSS II (2º BACHILLERATO) MATEMÁTICAS APLICADAS A LAS CCSS II (2º BACHILLERATO) 1.1.1 Contenidos y temporalización. Matemáticas Aplicadas a las Ciencias Sociales II 1.1.1.1 Bloque 1. Álgebra (Total : 40 sesiones) Matrices y determinantes

Más detalles

Incertidumbre. Dr. Jesús Antonio González Bernal

Incertidumbre. Dr. Jesús Antonio González Bernal Incertidumbre Universidad Politécnica de Puebla Dr. Jesús Antonio González Bernal Introducción In which we see what an agent should do when not all is crystal clear. R&N, pg 462 2 Introducción Sea la acción

Más detalles

Conceptos Básicos de Inferencia

Conceptos Básicos de Inferencia Conceptos Básicos de Inferencia Álvaro José Flórez 1 Escuela de Ingeniería Industrial y Estadística Facultad de Ingenierías Febrero - Junio 2012 Inferencia Estadística Cuando obtenemos una muestra, conocemos

Más detalles

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA MODELO DE REGRESIÓN LOGÍSTICA Introducción A grandes rasgos, el objetivo de la regresión logística se puede describir de la siguiente forma: Supongamos que los individuos de una población pueden clasificarse

Más detalles

Cuáles son las características aleatorias de la nueva variable?

Cuáles son las características aleatorias de la nueva variable? Apuntes de Estadística II. Ingeniería Industrial. UCAB. Marzo 203 CLASES DE ESTADÍSTICA II CLASE 5) UNA TRANSFORMACIÓN DE DOS VARIABLES. Sea Z = g(, ) una función de las variables aleatorias e, tales que

Más detalles

ANÁLISIS DE DATOS. Jesús García Herrero

ANÁLISIS DE DATOS. Jesús García Herrero ANÁLISIS DE DATOS Jesús García Herrero ANALISIS DE DATOS EJERCICIOS Una empresa de seguros de automóviles quiere utilizar los datos sobre sus clientes para obtener reglas útiles que permita clasificar

Más detalles

I.E.S. DE INGENIO Avda. de los Artesanos, INGENIO POC-PC EVALUACIÓN CONTENIDOS MÍNIMOS CURSO CURSO: 1º BACH.

I.E.S. DE INGENIO Avda. de los Artesanos, INGENIO POC-PC EVALUACIÓN CONTENIDOS MÍNIMOS CURSO CURSO: 1º BACH. CURSO 2009-2010 CURSO: 1º BACH. CCSS Números reales (Intervalos y entornos, valor absoluto, logaritmo). ÁREA: MATEMATICAS AP. CCSS I Polinomios y fracciones algebraicas (operaciones básicas, divisibilidad,

Más detalles

INFERENCIA ESTADÍSTICA

INFERENCIA ESTADÍSTICA INFERENCIA ESTADÍSTICA 1. DEFINICIÓN DE INFERENCIA ESTADÍSTICA Llamamos Inferencia Estadística al proceso de sacar conclusiones generales para toda una población a partir del estudio de una muestra, así

Más detalles

ANÁLISIS DE FRECUENCIAS

ANÁLISIS DE FRECUENCIAS ANÁLISIS DE FRECUENCIAS EXPRESIONES PARA EL CÁLCULO DE LOS EVENTOS PARA EL PERÍODO DE RETORNO T Y DE LOS RESPECTIVOS ERRORES ESTÁNDAR DE ESTIMACIÓN REQUERIDOS PARA LA DETERMINACIÓN DE LOS INTERVALOS DE

Más detalles