Qué son los árboles de decisión? Inducción de árboles de decisión. Tipos de problemas abordables. Ejemplo: árbol de decisión 1
|
|
- Javier Domínguez Morales
- hace 6 años
- Vistas:
Transcripción
1 Inducción de árboles de decisión Qué son los árboles de decisión? Cómo pueden inducirse automáticamente? inducción topdown de árboles de decisión cómo evitar el overfitting cómo convertir árboles en reglas heurísticas alternativas un algoritmo TDIDT genérico Mitchell, Cap. 3 Prof. Carlos I. Chesñevar UNS 1 Qué son los árboles de decisión? Representan secuencias de tests Según el resultado de un test, llevan a cabo un nuevo test. Continuan hasta que el resultado obtenido es conocido Ej. adivinar una identidad preguntando sólo preguntas respondibles con sí/no : hacer una pregunta según la respuesta, hacer nueva pregunta continuar hasta que la respuesta es conocida Prof. Carlos I. Chesñevar UNS 2 Tipos de problemas abordables Las instancias se representan por pares (atributo, valor). La función target tiene un output discreto (ej. Clasificación sí/no ). Los datos de entrenamiento pueden contener errores. Los datos de entrenamiento pueden contener atributos con valores desconocidos (missing values). Ejemplo: árbol de decisión 1 Del texto de Mitchell: Jugamos al tenis o no? (dependiendo de las condiciones climáticas) Humidity Sunny Overcast Rainy Yes Wind High Normal Strong Weak No Yes No Yes Prof. Carlos I. Chesñevar UNS 3 Prof. Carlos I. Chesñevar UNS 4 Ejemplo de árbol de decisión 2 Del texto de Mitchell: árbol para predecir si hace falta una Csection Las hojas no son puras ; se da una proporción pos/neg Fetal_Presentation Previous_Csection 0 1 [3+, 29] Primiparous [55+, 35] Prof. Carlos I. Chesñevar UNS 5 [8+, 22] Poder representativo Típicamente: los ejemplos se representan con arreglos de atributos 1 nodo en el árbol testea el valor de 1 atributo 1 nodo hijo para cada resultado posible del test Los nodos hoja asignan una clasificación Nota: el árbol puede representar cualquier función booleana i.e., también conceptos disjunctivos (<> ejemplos VS ) el árbol permite ruido (hojas no puras) Prof. Carlos I. Chesñevar UNS 6
2 Cómo representar fórmulas booleanas E.g., A B A Similarmente (hacerlo como ejercicio!): A B, A xor B, (A B) (C D E) Complejidad árbol vs. complejidad fórmula. Prof. Carlos I. Chesñevar UNS 7 B Arboles para Clasificación, Regresión y Clustering Los árboles de clasificación representan funciones X > C con C discreto (como los árboles de decisión antes vistos) Los árboles de regresión predicen números en las hojas podría usarse una constante (ej., media), o modelo de regresión lineal, o Los árboles de clustering sólo agrupan ejemplos en las hojas. La mayoría (no toda) de la investigación en ML se focaliza en los árboles de clasificación. Prof. Carlos I. Chesñevar UNS 8 Arbol de Decisión (estudio de calidad de agua de un río) Aplicación de "Data mining" Dadas: descripciones de muestras de aguas de río descripción biológica: aparición de organismos en el agua ( abundancia, medida entre 05) descripción química: 16 variables (temperatura, concentrciones de químicos (NH 4,...)) Pregunta: caracterizar las propiedades químicas del agua a partir de los organismos que aparecen en ella. Prof. Carlos I. Chesñevar UNS 9 sí T = ph = cond = O2 = O2sat = CO2 = hard = NO2 = NO3 = NH4 = PO4 = Cl = SiO2 = KMnO4 = K2Cr2O7 = BOD = Arbol de Clustering abundancia(tubifex sp.,5)? no abundancia(sphaerotilus natans,5)? sí no T = ph = cond = abundancia(...) O2 = O2sat = CO2 = hard = NO2 = NO3 = NH4 = PO4 = Cl = SiO2 = KMnO4 = K2Cr2O7 = BOD Prof. Carlos = I. Chesñevar UNS 10 valores estandardizados" (nro. de desvíos estándar por sobre la media) Algoritmos Básicos para Arboles de Decisión ID3 (Quinlan, 1986) Siguiendo el texto de Mitchell, centraremos nuestra discusión en ID3. Al final veremos un algoritmo genérico para construir árboles de decisión de manera topdown. C4.5 (Quinlan, 1993) Ross Quinlan Prof. Carlos I. Chesñevar UNS 11 Inducción TopDown de Arboles de Decisión (TDIDT) Algoritmo básico para TDIDT: (luego versión más formal) Comenzar con el cjto. de datos completo inicial encontrar tests que particionen los ejemplos tan bien como sea posible: bien = ejemplos con la misma clase, o bien ejemplos similares, deberían ir juntos Para cada resultado de un test, crear un nodo hijo mover ejemplos a los hijos según el resultado del test repetir procedimiento para cada hijo no puro Pregunta ppal: cómo decidir cuál es el mejor test? Prof. Carlos I. Chesñevar UNS 12
3 Cómo encontrar el mejor test (para árboles de clasificación) Para árboles de clasificación: hallar el test según el cual los hijos son tan puros como sea posible Medida de pureza tomada de la teoría de la información: entropía es una medida de información faltante ; más precisamente, #bits necesarios para representar la información faltante, en promedio, usando una codificación optimal Dado un cjto. S con instancias que pertenecen a la clase i con probabilidad p i : Entropía(S) = Σ p i log 2 p i Entropía: ejemplo Ejemplo: Sea S una colección de 14 ejemplos positivos (p (+) ) y negativos (p () ), tal que hay 9 positivos y 5 negativos [9+,5] Entropía(S) = p (+) log 2 p (+) p () log 2 p () Entropía([9+,5]) = (9/14) log 2 (9/14) (5/14) log 2 (5/14)=0.940 Si entropía=0, ent. todos los miembros de S pertenecen a la misma clase. Si entropía=1, ent. la cantidad de ejs. positivos y negativos es igual... Prof. Carlos I. Chesñevar UNS 13 Prof. Carlos I. Chesñevar UNS 14 Entropía Aquí se ve la función Entropía relativa a una clasificación booleana, en función de p (+) oscilando entre 0 y 1: Entropía: idea intuitiva Entropía: especifica el min. nro. de bits. necesario para codificar la clasificación de un miembro arbitrario de S (ie, un miembro de S tomado al azar con probabilidad uniforme). Ej: si p (+) = 1, ent. el receptor sabe que el ejemplo es positivo. Luego la información necesaria para codificar esto es 0. Prof. Carlos I. Chesñevar UNS 15 Prof. Carlos I. Chesñevar UNS 16 Entropía: idea intuitiva Razonamiento intuitivo en teoría de la información: usar codificación más corta para los mensajes más frecuentes Teoría de la información: un mensaje con probabilidad p debería recibir log 2 p bits ej. A,B,C,D c/u. con 25% probabilidad: 2 bits para c/u (00,01,10,11) Si hay alguno más probable, es posible hacer las cosas mejor. Nro. de bits promedio para un mensaje es ent. Σ p i log 2 p i Prof. Carlos I. Chesñevar UNS 17 Ganancia de Información Heurística para elegir un test en un nodo: elegir el test que en promedio provee mayor información acerca de la clase este es el test que, en promedio, reduce más la entropía de la clase En promedio: la reducción de la entropía de la clase difiere según el resultado del test Reducc. esperada de la entropía = ganancia de información Gain(S,A) = Entropía(S) Σ v Valores(A) ( S v / S )*Entropía(S v ) donde A = atributo, S v = subcjto. de S para el cual el atributo A tiene valor v. Prof. Carlos I. Chesñevar UNS 18
4 Day Temp. Humid Wind PlayTennis? D1 Sunny Hot High Weak No D2 Sunny Hot High Strong No D3 Overcast Hot High Weak Yes D4 Rain Mild High Weak Yes D5 Rain Cool Normal Weak Yes D6 Rain Cool Normal Strong No D7 Overcast Cool Normal Strong Yes D8 Sunny Mild High Weak No D9 Sunny Cool Normal Weak Yes D10 Rain Mild Normal Weak Yes D11 Sunny Mild Normal Strong Yes D12 Overcast Mild High Strong Yes D13 Overcast Hot Normal Weak Yes D14 Rain Mild High Strong No Prof. Carlos I. Chesñevar UNS 19 Gain(S,A): ejemplo Sea S = [9+,5] una colección de 14 ejemplos que describen días (ej: ). Hay un atributo (Wind), que tiene los valores Weak y Strong. De los 14 ejemplos, supongamos que para 6 días de los ejemplos positivos y para 2 días de los ejs. negativos tenemos Wind=Weak. El resto, Wind=Strong. Valores(Wind)={Weak,Strong} S = [9+,5], S Weak [6+,2], S Strong [3+,3] Gain(S,Wind) = = Entropia(S)Σ v {Weak,Strong} ( S v / S )*Entropía(S v ) = = Entropia(S)(8/14)Entropia(S Weak )(6/14)Entropia(S Strong ) = = (8/14)0.811 (6/14)1.00 = Prof. Carlos I. Chesñevar UNS 20 High Ejemplo Asumiendo que S tiene ejemplos 9+ y 5 ; veamos la partición según el atributo Wind ó Humidity S: [9+,5] S: [9+,5] E = E = Humidity Normal Strong Wind Weak S: [3+,4] S: [6+,1] S: [6+,2] S: [3+,3] E = E = E = E = 1.0 Gain(S, Humidity) =.940 (7/14).985 (7/14).592 = Gain(S, Wind) =.940 (8/14).811 (6/14)1.0 = Ejemplo El algoritmo ID3 básicamente determina la ganancia que brinda cada atributo, y se queda con el mejor. Para la tabla anterior: Gain(S,Wind) = Gain(S,) = Gain(S,Humidity) = Gain(S,Temperature)=0.029 Ent. elegimos. Prof. Carlos I. Chesñevar UNS 21 Prof. Carlos I. Chesñevar UNS 22 Supongamos que fue elegido: continuar particionando en nodos hijos Aplico recursivamente [9+,5] Sunny Overcast Rainy? Yes? [2+,3] [4+,0] [3+,2] [D4,D5,D6,D10,D14] [D3,D7,D12,D13] [D4,D5,D6,D10,D14] Arbol de decisión Resultante vía ID3 Sunny Overcast Rainy Humidity Yes Wind High Normal Strong Weak No Yes No Yes Prof. Carlos I. Chesñevar UNS 23 Prof. Carlos I. Chesñevar UNS 24
5 Espacio de búsqueda de hipótesis en TDIDT Espacio de hipótesis H = cjto. de todos los árboles H es recorrido de forma hillclimbing, de lo más simple a lo más complejo... Prof. Carlos I. Chesñevar UNS 25 Sesgo inductivo en TDIDT Nota: para conceptos booleanos, H es completo: cada concepto puede representarse! dados n atributos, se pueden seguir añadiendo tests hasta que todos los atributos hayan sido testeados Entonces.. que pasa con el sesgo inductivo? Claramente no hay sesgo de restricción (H 2 U ) como en Version Spaces. Sesgo de preferencia: algunas hipótesis en H son preferidas por sobre otras En este caso: preferencia por árboles cortos con atributos informativos en el tope Prof. Carlos I. Chesñevar UNS 26 ID3 vs. Version Spaces ID3 busca en un espacio de hipótesis completo (=puede expresar cualq. fc. finita discreta). Busca incompletamente en este espacio, de hipótesis simples a hipótesis complejas, hasta encontrar condición de terminación. Su sesgo inductivo: meramente consecuencia del ordenamiento de las hipótesis por su estrategia de búsqueda. El espacio de hipótesis no introduce sesgo adicional. Sesgo inductivo se sigue de la estrategia de búsqueda ID3 vs. Version Spaces Version Spaces busca en un espacio de hipótesis incompleto (ej: no puede manejar disyunciones). Explora este espacio completamente, encontrando todas las hipótesis consistentes con los datos de entrenamiento. Su sesgo inductivo: consecuencia del poder expresivo de su hipótesis de representación. Su estrategia de búsqueda no añade un sesgo adicional. Sesgo inductivo se sigue de la def. de espacio de búsqueda. Prof. Carlos I. Chesñevar UNS 27 Prof. Carlos I. Chesñevar UNS 28 Navaja de Occam La preferencia por modelos simples por sobre modelos complejos se usa bastante en Machine Learning Principio similar en ciencia: Navaja de Occam No hacer las cosas más complicadas de lo necesario El razonamiento, en el caso de los árboles de decisión: los árboles más complejos tienen probabilidad más alta de sobreajustar (overfitting) el conjunto de datos. Navaja de Occam: discusión Un argumento a favor: hay menos hipótesis cortas que largas. Por ende, es menos probable encontrar una hipótesis corta que se ajuste a los datos de entrenamiento. En contraste, puede haber muchas hipótesis complejas que se ajusten a los datos de entrenamiento, y no se ajusten a los datos subsecuentes. Ej: hay muchos más árboles de decisión de 500 nodos que de 5 nodos. Con 20 ejemplos, es más dificil encuadrarlos en un árbol del segundo tipo. Prof. Carlos I. Chesñevar UNS 29 Prof. Carlos I. Chesñevar UNS 30
6 Navaja de Occam: discusión Un argumento en contra: podríamos tambien argumentar que hay que preferir árboles con pocas ramas, o pocas hojas. O exactamente 17 nodos hoja y 10 nodos nohoja. Hay pocos árboles como estos, y por el mismo razonamiento que antes, la posibilidad de encontrar un árbol que se ajuste a los ejemplos de entrenamiento es baja. Navaja de Occam: discusión Un problema inherente a la representación interna: notemos que el tamaño de una hipótesis está asociado a cómo un aprendiz las representa. Dos aprendices que usen distintas representaciones internas podrían arribar a distintas hipótesis, y justificar conclusiones contradictorias entre sí aplicando navaja de Occam. Ej: definir un atributo XYZ = combinación de X,Y,Z. Pregunta abierta: Cómo distinguimos un atributo del otro los seres inteligentes? Prof. Carlos I. Chesñevar UNS 31 Prof. Carlos I. Chesñevar UNS 32 Cuestiones de interés para Arboles de Decisión Overfitting (Sobreajuste) Incorporación de atributos de valor continuo Medidas alternativas a Entropía Ejemplos de entrenamiento con valores faltantes Tratamiento de Atributos con distintos costos Estas cuestiones y extensiones redundaron en que el algoritmo básico ID3 fuera extendido para abordar estos aspectos, resultando en el sistema C4.5 (Quinlan, 1993). Overfitting Def: Dado un espacio de hipótesis H, una hipótesis h H se dice que sobreajusta los datos de entrenamiento si existe alguna hipótesis h H tal que h tiene un error menor que h en los ejemplos de entrenamiento, pero h tiene un error menor que h sobre toda la distribución de instancias. Prof. Carlos I. Chesñevar UNS 33 Prof. Carlos I. Chesñevar UNS 34 Cómo Evitar Sobreajuste Fenómeno del sobreajuste (overfitting): Continuar mejorando un modelo, haciéndolo mejor, mejor y mejor a partir de un conjunto de entrenamiento haciéndolo cada vez más complicado aumenta el riesgo de modelar ruido y coincidencias en el cjto. de datos puede en realidad dañar el poder predictivo de la teoría para casos aún no vistos Ej. ajustar un curva con demasiados parámetros Sobreajuste: ejemplo área que contiene probablementepredicciones erróneas Prof. Carlos I. Chesñevar UNS 35 Prof. Carlos I. Chesñevar UNS 36
7 Sobreajuste: efecto en la exactitud predictiva Fenómeno típico con el overfitting: la exactitud de entrenamiento aumenta continuamente la exactitud del cjto. de validación aún no visto comienza a decrecer exactitud overfitting comienza aprox. aquí exactitud en datos de entrenamiento exactitud en datos aún no vistos tam. del árbol Prof. Carlos I. Chesñevar UNS 37 Cómo aparece el overfitting? Una forma en que aparezca el overfitting es que aparezcan errores aleatorios o ruido. Ej: consideremos el sgte. ejemplo (incorrectamente etiquetado como negativo): <=Sunny, Temperature=Hot, Humidity=Normal, Wind=Strong, PlayTennis=No> Este ejemplo haría que nuestro algoritmo ID3 construya un árbol más complejo que el que teníamos antes (se lo ordenaría en el 2do. nodo hoja desde la izquierda). Prof. Carlos I. Chesñevar UNS 38 Hot No Sunny Overcast Rainy Humidity Yes Wind High Normal Strong Weak No Yes No Yes Sunny Rainy Temp. Overcast Wind Yes Mild Cool Strong Weak Humidity No Yes Yes High Normal No Yes Prof. Carlos I. Chesñevar UNS 39 Cómo aparece el overfitting? Resultado: ID3 encontraría exitosamente un árbol de decisión alternativo (h) que es más complejo que el árbol anterior (h ). El árbol h se ajustaría perfectamente a los ejemplos dados, mientras que h no lo haría. No obstante, el nuevo nodo en el árbol de decisión es simplemente una consecuencia de un ejemplo que causa ruido. Sería razonable que h superara a h en pruebas subsecuentes Prof. Carlos I. Chesñevar UNS 40 Cómo evitar overfitting cuando se construyen árboles de classificación? Opción 1: dejar de añadir nodos al árbol cuando comienza a haber overfitting necesitamos un criterio de detención Opción 2: no preocuparse por el overfitting cuando se construye el árbol después de construir el árbol, comenzar a podarlo nuevamente Prof. Carlos I. Chesñevar UNS 41 Criterios de detención Cómo sabemos cuándo comienza a haber overfitting? a) usar un cjto. de validación : los datos no son considerados para elegir el mejor test cuando la exactitud baja con respecto al cjto. de validación: dejar de añadir nodos a esta rama. b) usar algún test estadístico test de significación: ej., es el cambio en la distribución de clases aún significativo? (test χ 2 ) MDL: principio de minimal description length teoría totalmente correcta = árbol + correcciones para clasificaciones erróneas específicas minimizar size(teoría tot.correcta) = size(tree) + size(misclassifications(tree)) Navaja de Occam Prof. Carlos I. Chesñevar UNS 42
8 Cjtos. de entrenamiento y validación Acercamiento común: los datos disponibles se particionan en dos clases: Cjto. de entrenamiento: se usa para formar las hipótesis Cjto. de Validación: se usa para evaluar la exactitud de las hipótesis con respecto a los datos subsecuentes, y para evaluar el impacto de la poda con respecto a estas hipótesis. Es importante que el cjto. de validación sea suficientemente grande para tener significancia estadística. Heurística común: 1/3 de los ejemplos para validación, 2/3 para entrenamiento. Prof. Carlos I. Chesñevar UNS 43 Postpoda de árboles Después de aprender el árbol: comenzar a podar ramas Para todos los nodos del árbol: Estimar el efecto de podar el árbol en este nodo con respecto a la exactitud predictiva e.g. usar exactitud con respecto a cjto. de validación Podar el nodo que muestre la mayor mejora Continuar hasta que no haya mejoras Nota: esta poda constituye una segunda búsqueda en el espacio de hipótesis. Prof. Carlos I. Chesñevar UNS 44 exactitud tam. de árbol exactitud en datos de entrenamiento efecto de poda exactitud en datos aún no vistos Comparación Ventaja de Opción 1: no hay trabajo superfluo Pero: los tests pueden llevarnos a veces por mal camino Ej., la exactitud de validación puede bajar de repente, y luego volver a subir Por esto, la opción 2 (postpoda) es usualmente la preferida (aunque involucra más trabajo, computacionalmente) Prof. Carlos I. Chesñevar UNS 45 Prof. Carlos I. Chesñevar UNS 46 Transformando árboles en reglas A partir de un árbol puede derivarse un cjto. de reglas Camino de raíz a hoja = regla ifthen Ventaja de tales reglas pueden mejorar la comprensibilidad pueden ser podadas más flexiblemente en 1 regla, 1 única condición puede ser removida vs. árbol: al remover un nodo, hay que remover todo el subarbol 1 regla puede removerse enteramente (no puedo eliminar un camino del árbol) Prof. Carlos I. Chesñevar UNS 47 Reglas a partir de árboles: ejemplo Humidity Sunny Overcast Rainy Yes Wind High Normal Strong Weak No Yes No Yes if = Sunny and Humidity = High then No if = Sunny and Humidity = Normal then Yes Prof. Carlos I. Chesñevar UNS 48
9 Poda de Reglas Método posible: 1. Convertir árboles en reglas 2. Podar cada regla independientemente remover conds. que no dañen la exactitud de la regla 3. ordenar reglas (e.g., la regla más exacta primero) antes de podar: cada ejemplo cubierto por una regla después de podar, 1 ejemplo podría estar cubierto por múltiples reglas Luego, algunas reglas podrían contradecirse entre sí Prof. Carlos I. Chesñevar UNS 49 Ejemplo: Poda de Reglas A B if A= then if A= and B= then if A= and B= then Arbol que representa A B Reglas que representan A ( A B) A B Tener en cuenta que los tests asociados a reglas pueden ser computacionalmente costosos! (de ahí la utilidad de optimizarlos) Prof. Carlos I. Chesñevar UNS 50 Incorporación de Atributos con Valores Continuos Def. Inicial de ID3: considera sólo atributos con un conjunto discreto de valores. Atributo meta aprendido: es discreto. Atributos testeados en el árbol: también discretos. La 2da. restricción puede removerse para incorporar atributos de valores continuos. Para esto: se definen dinámicamente nuevos atributos con valores discretos que particionen el valor de atributo continuo en un cjto. discreto de intervalos. Incorporación de Atributos con Valores Continuos Para un atributo A con valor continuo, crear un atributo booleano A c cuyo valor sea si A<c, y en caso contrario. Cómo elegir el valor del umbral c? Ej: Supongamos la siguiente situación Temperatura PlayTennis No No Yes Yes Yes No Prof. Carlos I. Chesñevar UNS 51 Prof. Carlos I. Chesñevar UNS 52 Incorporación de Atributos con Valores Continuos Nos gustaría elegir c tal que produjera la mayor ganancia de información. Si ordenamos ejemplos según el atributo continuo A, e identificamos ejemplos adyacentes, podemos definir una frontera. Estos umbrales candidatos pueden evaluarse según la ganancia de información asociada a c/u. Ej: en el caso anterior, dos candidatos en donde Temperatura cambia significativamente: (48+60)/2=54 y (80+90)/2=85. Resulta en: Temperatura >54 y Temperatura >85, atributos discretos. Prof. Carlos I. Chesñevar UNS 53 Medidas alternativas para elegir atributos Ganancia de información: tiene un sesgo natural que favorece atributos con muchos valores por sobre pocos valores. Ej: consideremos el atributo Fecha. Tiene una gran cantidad de valores posibles: ej. 27Marzo2006. Si añadieramos fecha a nuestro ejemplo, sería el atributo con mayor ganancia de información. Esto es así porque Fecha predice perfectamente el atributo meta con respecto al cjto. de entrenamiento!. Podríamos hacer un árbol muy amplio, con una rama por fecha, y un nivel de profundidad! Características de predicción: muy pobres! Prof. Carlos I. Chesñevar UNS 54
10 Tasa de Ganancia (Gain Ratio) Una opción: utilizar la noción de gain ratio, que penaliza atributos como Fecha, incorporando un término llamado split information (SI), que es sensible a cuán ampliamente y nouniformemente el atributo divide a los datos. Tasa de Ganancia: GainRatio(S,A) = Gain(S,A) / SI(S,A) Splitinformation SI(S,A) = Si / S log2 Si / S i varía en relación a los distintos resultados del test A SplitInformation desalienta la selección de atributos con muchos valores distribuidos uniformemente. Tasa de Ganancia: GainRatio(S,A) = Gain(S,A) / SI(S,A) Splitinformation SI(S,A) = i=1 c S i / S log 2 S i / S i varía en relación a los distintos resultados del test A SplitInformation desalienta la selección de atributos con muchos valores distribuidos uniformemente. Ej: un atributo A con n ejemplos totalmente separados tendrá un valor SplitInformation = log 2 n. Un atributo booleano B que separe los n ejemplos exactamente por la mitad tendrá SplitInformation=1. Si los atributos A y B tienen igual ganancia de información, ent. B tendrá más valor con respecto a GainRatio. Prof. Carlos I. Chesñevar UNS 55 Prof. Carlos I. Chesñevar UNS 56 Ejemplos de Entrenamiento con Valores Faltantes Supongamos querer calcular Gain(S,A) Nos gustaría elegir c tal que produjera la mayor ganancia de información. Supongamos que <x,c(x)> es uno de los ejemplos de entrenamiento en S, y que el valor A(x) es desconocido. Una estrategia: asignar el valor más común entre los ejemplos de entrenamiento que caigan en el nodo n. Otra estrategia: asignar probabilidades a cada valor posible de A. Ej: si un atributo booleano A en un nodo n contiene 6 ejemplos con A=1, y 4 ejemplos con A=0, ent. A(x)=1 tiene probabilidad 0.6, y A(x)=0 tiene probabilidad 0.4. Prof. Carlos I. Chesñevar UNS 57 Atributos con diferentes costos Normalmente los atributos tienen distintos costos. Cómo ponderar el costo cuando calculamos la ganancia de información? Una idea sencilla: dividir por Costo(A). Tan&Schlimmer (1990) y Tan(1993): en un problema de percepción de un robot donde el robot con un sonar debía clasificar distintos objetos, el costo se definió a partir del nro. de segundos requeridos para obtener el valor del los atributos del objeto. Medida usada: Gain 2 (S,A) / Costo(A) Prof. Carlos I. Chesñevar UNS 58 Algoritmo genérico TDIDT function TDIDT(E: set of examples) returns tree; T' := grow_tree(e); T := prune(t'); return T; function grow_tree(e: set of examples) returns tree; T := generate_tests(e); t := best_test(t, E); P := partition induced on E by t; if stop_criterion(e, P) then return leaf(info(e)) else for all E j in P: t j := grow_tree(e j ); return node(t, {(j,t j )}; Para clasificación... prune: ej: reducederror pruning generate_tests : Attr=val, Attr<val,... para atributos numéricos : generar valores best_test : Gain, Gainratio,... stop_criterion : MDL, test significancia (ej. χ 2 test),... info : clase más frecuente ("moda") Sistemas populares: C4.5 (Quinlan 1993), C5.0 ( Prof. Carlos I. Chesñevar UNS 59 Prof. Carlos I. Chesñevar UNS 60
11 SINTESIS Aprendizaje de Arboles de Decisión: provee un método práctico para aprendizaje de conceptos y aprender funciones de valores discretos. Familia de algoritmos ID3: recorren un espacio de hipótesis completo. Evitan así la mayor dificultad de otros métodos (ej: VersionSpaces), en los que la función meta buscada podría no estar presente en el espacio de hipótesis. Sesgo inductivo: preferencia por árboles pequeños. Problema principal: overfitting Extensiones de ID3: técnicas de poda, inclusión de valores reales, tratamiento de valors faltantes, costo de atributos, etc. Prof. Carlos I. Chesñevar UNS 61
3. Árboles de decisión
3.1 Introducción Método para aproximación de funciones objetivo que tengan valores discretos (clasificación) Uno de los métodos mas extensamente usados para inferencia inductiva Capaz de aprender hipótesis
Más detallesAprendizaje Automatizado. Árboles de Clasificación
Aprendizaje Automatizado Árboles de Clasificación Árboles de Clasificación Estudiaremos un algoritmo para la creación del árbol. Selección de atributos comenzando en el nodo raíz. Proceso recursivo. Árboles
Más detallesTema 8: Árboles de decisión
Introducción a la Ingeniería del Conocimiento Curso 2004 2005 Tema 8: Árboles de decisión Miguel A. Gutiérrez Naranjo Dpto. de Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla
Más detallesAprendizaje Automático Segundo Cuatrimestre de Árboles de Decisión
Aprendizaje Automático Segundo Cuatrimestre de 2015 Árboles de Decisión Aproximación de Funciones Ejemplo: Un amigo juega al tenis los sábados. Juega o no, dependiendo del estado del tiempo. Cielo: {Sol,
Más detallesTema 7: Aprendizaje de árboles de decisión
Inteligencia Artificial 2 Curso 2002 03 Tema 7: Aprendizaje de árboles de decisión José A. Alonso Jiménez Miguel A. Gutiérrez Naranjo Francisco J. Martín Mateos José L. Ruiz Reina Dpto. de Ciencias de
Más detallesArboles de Decisión (II) Carlos Hurtado L. Depto de Ciencias de la Computación, Universidad de Chile
Arboles de Decisión (II) Carlos Hurtado L. Depto de Ciencias de la Computación, Universidad de Chile Arboles de Decisión Algoritmo de Hunt (I) Nodo interior Nodo por expandir Nodo hoja Algoritmo de Hunt
Más detallesAprendizaje Automatizado
Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto
Más detallesÁrboles de decisión en aprendizaje automático y minería de datos
Árboles de decisión en aprendizaje automático y minería de datos Tratamiento Inteligente de la Información y Aplicaciones Juan A. Botía Departamento de Ingeniería de la Información y las Comunicaciones
Más detallesAprendizaje Automático. Objetivos. Funciona? Notas
Introducción Las técnicas que hemos visto hasta ahora nos permiten crear sistemas que resuelven tareas que necesitan inteligencia La limitación de estos sistemas reside en que sólo resuelven los problemas
Más detallesInducción de Árboles de Decisión ID3, C4.5
Inducción de Árboles de Decisión ID3, C4.5 Contenido 1. Representación mediante árboles de decisión. 2. Algoritmo básico: divide y vencerás. 3. Heurística para la selección de atributos. 4. Espacio de
Más detallesFundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 11 -
Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 11 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Resolución manual de clasificación bayesiana
Más detallesÁrboles de Decisión. Tomás Arredondo Vidal 26/3/08
Árboles de Decisión Tomás Arredondo Vidal 26/3/08 Árboles de Decisión Contenidos Árboles de Decisión Sobreajuste Recorte (Pruning) Investigación Relacionada a los Árboles de Decisión William of Occam inventa
Más detallesArboles de Decisión Representación de los árboles de decisión
Capítulo 10 Arboles de Decisión Resumen En este capítulo abordaremos la solución de problemas en el contexto del aprendizaje automático, ejemplificado con el algoritmo ID3 [13] (Inductive Dicotomizer).
Más detallesD conjunto de N patrones etiquetados, cada uno de los cuales está caracterizado por n variables predictoras X 1,..., X n y la variable clase C.
Tema 10. Árboles de Clasificación Pedro Larrañaga, Iñaki Inza, Abdelmalik Moujahid Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Euskal Herriko Unibertsitatea
Más detallesTema 12: Arboles de decisión
Razonamiento Automático Curso 2000 2001 Tema 12: Arboles de decisión José A. Alonso Jiménez Miguel A. Gutiérrez Naranjo Dpto. de Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla
Más detallesArboles de Decisión (II) Carlos Hurtado L. Depto de Ciencias de la Computación, Universidad de Chile
Arboles de Decisión (II) Carlos Hurtado L Depto de Ciencias de la Computación, Universidad de Chile Cuál es el mejor split? Buscamos splits que generen nodos hijos con la menor impureza posible (mayor
Más detallesALGORITMO ID3. Objetivo
ALGORITMO ID3 Desarrollado por J. Ross Quinlan en 1983. ID3 significa Induction Decision Trees. Pertenece a la familia TDIDT (Top- Down Induction of Decision Trees). Objetivo Construir un árbol de decisión
Más detallesTema 8: Árboles de Clasificación
Tema 8: Árboles de Clasificación p. 1/11 Tema 8: Árboles de Clasificación Abdelmalik Moujahid, Iñaki Inza, Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad
Más detallesCRITERIOS DE SELECCIÓN DE MODELOS
Inteligencia artificial y reconocimiento de patrones CRITERIOS DE SELECCIÓN DE MODELOS 1 Criterios para elegir un modelo Dos decisiones fundamentales: El tipo de modelo (árboles de decisión, redes neuronales,
Más detallesMinería de Datos. Árboles de Decisión. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria
Minería de Datos Árboles de Decisión Cristina Tîrnăucă Dept. Matesco, Universidad de Cantabria Fac. Ciencias Ing. Informática Otoño de 2012 Twenty questions Intuición sobre los árboles de decisión Juego
Más detallesMinería de Datos. Árboles de Decisión. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria
Minería de Datos Árboles de Decisión Cristina Tîrnăucă Dept. Matesco, Universidad de Cantabria Fac. Ciencias Ing. Informática Otoño de 2012 Twenty questions Intuición sobre los árboles de decisión Juego
Más detallesInducción de Árboles de Decisión ID3, C4.5
Inducción de Árboles de Decisión ID3, C4.5 Contenido 1. Representación mediante árboles de decisión 2. Algoritmo básico: divide y vencerás 3. Heurística para la selección de atributos 4. Espacio de búsqueda
Más detallesMASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.
MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión. 1 Objetivos del tema Conocer en qué consiste un árbol de decisión. Aprender los problemas que pueden
Más detallesAnálisis y Complejidad de Algoritmos. Arboles Binarios. Arturo Díaz Pérez
Análisis y Complejidad de Algoritmos Arboles Binarios Arturo Díaz Pérez Arboles Definiciones Recorridos Arboles Binarios Profundidad y Número de Nodos Arboles-1 Arbol Un árbol es una colección de elementos,
Más detallesAprendizaje Automático: Arboles de Decisión.
Aprendizaje Automático: Arboles de Decisión. Dr. Alejandro Guerra Hernández Universidad Veracruzana Facultad de Física e Inteligencia Artificial Maestría en Inteligencia Artificial Sebastián Camacho No.
Más detallesAprendizaje de conceptos. El aprendizaje como generalización
Aprendizaje de conceptos. El aprendizaje como generalización 1 Aprendizaje de conceptos Consideraremos el problema de inferir automáticamente la definición general de un concepto o clase a partir de un
Más detallesProyecto 6. Árboles de decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial.
Árboles de decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial. Funcionamiento: Se realiza un test en cada nodo interno del árbol, a medida que
Más detallesÁrboles de Decisión Árboles de Sintaxis
Árboles de Decisión Árboles de Sintaxis Estructuras de Datos Andrea Rueda Pontificia Universidad Javeriana Departamento de Ingeniería de Sistemas Árboles de Decisión Árbol de Decisión Forma gráfica de
Más detallesANÁLISIS DE DATOS. Jesús García Herrero
ANÁLISIS DE DATOS Jesús García Herrero ANALISIS DE DATOS EJERCICIOS Una empresa de seguros de automóviles quiere utilizar los datos sobre sus clientes para obtener reglas útiles que permita clasificar
Más detallesMétodos de Clasificación sin Métrica. Reconocimiento de Patrones- 2013
Métodos de Clasificación sin Métrica Reconocimiento de Patrones- 03 Métodos de Clasificación sin Métrica Datos nominales sin noción de similitud o distancia (sin orden). Escala nominal: conjunto de categorías
Más detallesJesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL
Jesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL En esta clase se presenta un método de inducción de modelos numéricos de regresión a partir de datos. En el tema de técnicas clásicas se presentó la
Más detallesGuía de Ejercicios Aprendizaje de Máquinas Inteligencia Articial (CC52A)
Guía de Ejercicios Aprendizaje de Máquinas Inteligencia Articial (CC52A) 6 de noviembre de 2007 1. Arboles de Decision 1. Investigue las ventajas y desventajas de los árboles de decisión versus los siguientes
Más detallesAprendizaje inductivo
Inteligencia Artificial Aprendizaje inductivo Ing. Sup. en Informática, 4º Curso académico: 2011/2012 Profesores: Ramón Hermoso y Matteo Vasirani Aprendizaje Resumen: 3. Aprendizaje automático 3.1 Introducción
Más detallesTema 9. Inducción de Reglas
Tema 9. Inducción de Reglas Abdelmalik Moujahid, Iñaki Inza, Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Euskal Herriko Unibertsitatea
Más detallesEl Juego como Problema de Búsqueda
El Juego como Problema de Búsqueda En este algoritmo identificamos dos jugadores: max y min. El objetivo es encontrar la mejor movida para max. Supondremos que max mueve inicialmente y que luego se turnan
Más detallesTareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR
Tareas de la minería de datos: clasificación CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja
Más detallesAux 6. Introducción a la Minería de Datos
Aux 6. Introducción a la Minería de Datos Gastón L Huillier 1,2, Richard Weber 2 glhuilli@dcc.uchile.cl 1 Departamento de Ciencias de la Computación Universidad de Chile 2 Departamento de Ingeniería Industrial
Más detallesCarteras minoristas. árbol de decisión. Ejemplo: Construcción de un scoring de concesión basado en un DIRECCIÓN GENERAL DE SUPERVISIÓN
Carteras minoristas Ejemplo: Construcción de un scoring de concesión basado en un árbol de decisión Grupo de Tesorería y Modelos de Gestión de Riesgos Sergio Gavilá II Seminario sobre Basilea II Validación
Más detallesAprendizaje Automático
Aprendizaje Automático cbea LSI - FIB IA - Curso 2014/2015 cbea (LSI - FIB) Aprendizaje Automático IA - Curso 2014/2015 1 / 46 Índice 1 Introducción 2 Aprendizaje inductivo 3 Árboles de decisión 4 Aprendizaje
Más detallesAprendizaje de árboles de decisión. Aprendizaje de árboles de decisión
Aprendizaje de árboles de decisión José M. Sempere Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia Aprendizaje de árboles de decisión 1. Introducción. Definición
Más detallesTécnicas de Minería de Datos
Técnicas de Minería de Datos Act. Humberto Ramos S. 1 Qué es Minería de datos? El desarrollo de dispositivos tecnológicos para acumular datos a bajo costo. Acumulación o registro de gran cantidad de datos.
Más detallesÁRBOLES CRISTIAN ALFREDO MUÑOZ ÁLVAREZ JUAN DAVID LONDOÑO CASTRO JUAN PABLO CHACÓN PEÑA EDUARDO GONZALES
ÁRBOLES CRISTIAN ALFREDO MUÑOZ ÁLVAREZ JUAN DAVID LONDOÑO CASTRO JUAN PABLO CHACÓN PEÑA EDUARDO GONZALES ÁRBOL Un árbol es un grafo no dirigido, conexo, sin ciclos (acíclico), y que no contiene aristas
Más detallesBúsqueda en línea y Búsqueda multiagente
Búsqueda en línea y Búsqueda multiagente Ingeniería Informática, 4º Curso académico: 2011/2012 Profesores: Ramón Hermoso y Matteo Vasirani 1 Tema 2: Agentes basados en Búsqueda Resumen: 2. Agentes basados
Más detallesSobreajuste - Overfitting
Sobreajuste - Overfitting Miguel Cárdenas-Montes Cuando se evalúa la calidad de un modelo o un ajuste, es importante medir el error en el conjunto de entrenamiento y en la predicción. La utilización exclusiva
Más detallesTema 9: Inducción de Reglas
Tema 9: Inducción de Reglas p. 1/15 Tema 9: Inducción de Reglas Abdelmalik Moujahid, Iñaki Inza, Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País
Más detallesBúsqueda en e.e. --> reglas para elegir entre las ramas que con más probabilidad lleven a la solución.
BÚSQUEDA HEURÍSTICA estudio de los métodos y reglas del descubrimiento y la invención. Búsqueda en e.e. --> reglas para elegir entre las ramas que con más probabilidad lleven a la solución. Situaciones
Más detallesGLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.
GLOSARIO ESTADÍSTICO Fuente: Murray R. Spiegel, Estadística, McGraw Hill. CONCEPTOS Y DEFINICIONES ESPECIALES Es el estudio científico de los métodos para recoger, organizar, resumir y analizar los datos
Más detallesInteligencia Artificial Técnicas de clasificación
Inteligencia Artificial Técnicas de clasificación ISISTAN - CONICET Clasificación: Agenda Concepto Clasificación Predicción Evaluación Árboles de Decisión Construcción Uso Poda Clasificador Bayesiano Ejemplos
Más detallesAprendizaje Computacional y Extracción de Información
Aprendizaje Computacional y Extracción de Información Inferencia Gramatical Jose Oncina oncina@dlsi.ua.es Dep. Lenguajes y Sistemas Informáticos Universidad de Alicante 26 de septiembre de 2007 J. Oncina
Más detallesEstructuras de datos Listas y árboles
Estructuras de datos Listas y árboles Dra. Elisa Schaeffer elisa.schaeffer@gmail.com PISIS / FIME / UANL Listas y árboles p. 1 Listas Listas son estructuras un poco más avanzadas que puros arreglos, como
Más detallesTema 11: Inducción de Reglas p. 1/1
Tema 11: Inducción de Reglas Pedro Larrañaga, Iñaki Inza, Abdelmalik Moujahid Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco http://www.sc.ehu.es/isg/ Tema
Más detallesInteligencia Artificial
I.T. en Informática de Sistemas, 3º Curso académico: 2009/2010 Profesores: Sascha Ossowski y Ramón Hermoso 1 Tema 2: Búsqueda Resumen: 2. Búsqueda 2.1. Agentes de resolución de problemas 2.2. Búsqueda
Más detallesProblemas de programación entera: El método Ramifica y Acota. Investigación Operativa, Grado en Estadística y Empresa, 2011/12
Problemas de programación entera: El método Ramifica y Acota Prof. José Niño Mora Investigación Operativa, Grado en Estadística y Empresa, 2011/12 Esquema La estrategia Divide y vencerás Árboles de enumeración
Más detallesInteligencia Artificial
Mayo 21 de 2008 El estudiante de la Pontificia Universidad Javeriana, como agente de su propia formación, es corresponsable de la Identidad Institucional, uno de cuyos cimientos es tener como hábito un
Más detallesInteligencia Artificial II Razonamiento Bayesiano
Inteligencia Artificial II Razonamiento Bayesiano Dr. Alejandro Guerra-Hernández Universidad Veracruzana Centro de Investigación en Inteligencia Artificial mailto:aguerra@uv.mx http://www.uv.mx/personal/aguerra
Más detallesIntroducción. Qué es machine learning? Algunos Tipos de Machine Learning. Generalización & Exploración. Ejemplos de aplicaciones en Machine Learning
Introducción Qué es aprendizaje automatizado e inferencia inductiva"? Para qué sirve? (ejemplos/aplicaciones) Tareas de aprendizaje Representación de datos Enfoques usados Concept learning: algoritmos
Más detallesSesión 14: Redes de Decisión
Modelos Gráficos Probabilistas L. Enrique Sucar INAOE Sesión 14: Redes de Decisión un agente racional ideal es aquel que, para cada posible secuencia de percepciones, realiza la acción que maximiza su
Más detallesTema 4: Aprendizaje de conceptos
Inteligencia Artificial II Curso 2004 2005 Tema 4: Aprendizaje de conceptos José A. Alonso Jiménez Francisco Jesús Martín Mateos José Luis Ruiz Reina Dpto. de Ciencias de la Computación e Inteligencia
Más detallesTareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR
Tareas de la minería de datos: clasificación PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja o asocia datos
Más detallesApellidos:... Nombre:...
Apellidos:....................................... Nombre:........................................ Introducción a la Inteligencia Artificial 1 er Parcial de Teoría 12 Noviembre 2004 Ejercicio 1: Responder
Más detallesRandom Forests. Teoría y ejemplos. Romain Gouron. Conferencia 9, GLAM, Doble titulo Ecole Centrale de Nantes (Francia)
Teoría y ejemplos 1 1 Departamiento de Ingenería Matemática Doble titulo Ecole Centrale de Nantes (Francia) Conferencia 9, GLAM, 2016 Outline 1 Árboles de decisión Construcción 2 3 Rotation forest Gradient
Más detallesARBOLES DE DECISION. Miguel Cárdenas-Montes. 1 Introducción. Objetivos: Entender como funcionan los algoritmos basados en árboles de decisión.
ARBOLES DE DECISION Miguel Cárdenas-Montes Los árboles de decisión son estructuras lógicas con amplia utilización en la toma de decisión, la predicción y la minería de datos. Objetivos: Entender como funcionan
Más detallesAnálisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Combinación de clasificadores Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Diversos algoritmos de clasificación están limitados a resolver problemas binarios, es decir, con dos
Más detallesAprendizaje automático mediante árboles de decisión
Aprendizaje automático mediante árboles de decisión Aprendizaje por inducción Los árboles de decisión son uno de los métodos de aprendizaje inductivo más usado. Hipótesis de aprendizaje inductivo: cualquier
Más detallesAgro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos
Agro 6998 Conferencia Introducción a los modelos estadísticos mixtos Los modelos estadísticos permiten modelar la respuesta de un estudio experimental u observacional en función de factores (tratamientos,
Más detallesHipótesis. Teoria del Aprendizaje Computacional
Teoria del Aprendizaje Computacional CI5438 - Inteligencia Artificial 2 Clase 7 Cap 18. Russel & Norvig: Inteligencia Artificial. Un enfoque estructurado El aprendiz inductivo se puede reinterpretar como
Más detallesEstructura de datos y de la información Boletín de problemas - Tema 10
Estructura de datos y de la información Boletín de problemas - Tema 10 1. En el caso de que sea posible, dar un ejemplo de los siguientes puntos. Si no, explicar por qué no lo es. Considerar un valor genérico
Más detallesRedes Bayesianas (1) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile
Redes Bayesianas (1) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile Referencia Bayesian networks without tears: making Bayesian networks more accessible to the probabilistically
Más detallesEstructura de datos y algoritmos. Tema V TDA DINÁMICOS NO LINEALES: Árboles: árboles binarios
Estructura de datos y algoritmos Tema V TDA DINÁMICOS NO LINEALES: Árboles: árboles binarios TEMA V : TIPOS DE DATOS ABSTRACTOS NO LINEALES: ÁRBOLES 5.1 Conceptos y definiciones 5.2 Árboles perfectamente
Más detalles2 de mar de 2004 Codificación de imágenes y v ideo
Teoría de la Información 2 de mar de 2004 Codificación de imágenes y v ideo 2 de mar de 2004 Codificación de imágenes y video 2 El clima en el Río de la Plata...... N L N N L S N... N L L T L L L... N
Más detallesTema 2. Introducción a la Estadística Bayesiana
2-1 Tema 2 Introducción a la Estadística Bayesiana El teorema de Bayes Ejemplo Interpretación Ejemplo: influencia de la distribución a priori Ejemplo: densidad de flujo Probabilidad bayesiana Ejemplo:
Más detallesPROBABILIDAD Y ESTADÍSTICA
PROBABILIDAD Y ESTADÍSTICA Pablo Torres Facultad de Ciencias Exactas, Ingeniera y Agrimensura - Universidad Nacional de Rosario Unidad 2: Probabilidad INTRODUCCIÓN Al lanzar un dado muchas veces veremos
Más detallesAPRENDIZAJE DE REGLAS. Eduardo Morales y Jesús González
APRENDIZAJE DE REGLAS Eduardo Morales y Jesús González Clasificación con Reglas 2 Resultados fáciles de entender En dominios en que se trabaja de cerca con expertos en otras áreas Reglas del tipo If att
Más detallesObject Recognition as Machine Translation: Learning a Lexicon for a Fixed Image Vocabulary
Object Recognition as Machine Translation: Learning a Lexicon for a Fixed Image Vocabulary P. Duygulu, K. Barnard, J.F.G. de Freitas, and D.A. Forsyth Dr. Enrique Sucar 1 Victor Hugo Arroyo Dominguez 1
Más detallesCómo se usa Data Mining hoy?
Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta
Más detallesEstimación de Parámetros. Jhon Jairo Padilla A., PhD.
Estimación de Parámetros Jhon Jairo Padilla A., PhD. Inferencia Estadística La inferencia estadística puede dividirse en dos áreas principales: Estimación de Parámetros Prueba de Hipótesis Estimación de
Más detallesEstimación de Parámetros. Jhon Jairo Padilla A., PhD.
Estimación de Parámetros Jhon Jairo Padilla A., PhD. Inferencia Estadística La inferencia estadística puede dividirse en dos áreas principales: Estimación de Parámetros Prueba de Hipótesis Estimación de
Más detallesTeorema Central del Límite (1)
Teorema Central del Límite (1) Definición. Cualquier cantidad calculada a partir de las observaciones de una muestra se llama estadístico. La distribución de los valores que puede tomar un estadístico
Más detallesProbabilidad y Estadística
Probabilidad y Estadística Grado en Ingeniería Informática - Curso 2 Pablo Candela Departamento de Matemáticas (despacho 212) Universidad Autónoma de Madrid pablo.candela@uam.es Introducción 1 / 8 Organización
Más detallesTema 10: Árbol binario de búsqueda
Tema 10: Árbol binario de búsqueda M. en C. Edgardo Adrián Franco Martínez http://www.eafranco.com edfrancom@ipn.mx @edfrancom edgardoadrianfrancom (Prof. Edgardo A. Franco) 1 Contenido Árbol binario de
Más detallesCaso 105. Tamaño de muestra y potencia de una prueba. Diseño de experimentos. Jesús López Fidalgo
Caso 105. Tamaño de muestra y potencia de una prueba. Diseño de experimentos. Jesús López Fidalgo Caso Práctico El objetivo de este ejercicio es analizar diferentes tipos de pruebas estadísticas en las
Más detallesAlgoritmos genéticos
Algoritmos genéticos Introducción 2 Esquema básico 3 El problema de la mochila 7 Asignación de recursos 0 El problema del viajante 3 Variantes del esquema básico 5 Por qué funciona? 9 Observaciones finales
Más detallesIntroducción a Árboles Árboles Binarios
Introducción a Árboles Árboles Binarios Estructuras de Datos Andrea Rueda Pontificia Universidad Javeriana Departamento de Ingeniería de Sistemas Introducción a Árboles Estructuras hasta ahora Estructuras
Más detallesDiseño de Conjuntos y Diccionarios
Diseño de Conjuntos y Diccionarios Representación de Conjuntos y Diccionarios TAD Diccionario(clave, significado) Observadores básicos def?: clave c x dicc(clave, significado) d bool obtener: clave c dicc(clave,
Más detallesCurso de Estadística no-paramétrica
Curso de Estadística no-paramétrica Sesión 3: Regresión no paramétrica y Contrastes de Aleatoriedad y bondad de ajuste Facundo Muñoz Grup d Estadística espacial i Temporal Departament d Estadística en
Más detallesTests de Hipótesis basados en una muestra. ESTADÍSTICA (Q) 5. TESTS DE HIPÓTESIS PARA LA MEDIA DE UNA POBLACIÓN NORMAL CON VARIANZA CONOCIDA
2 5. TESTS DE HIPÓTESIS PARA LA MEDIA DE UNA POBLACIÓN NORMAL CON VARIANZA CONOCIDA 5. Desarrollo de un ejemplo Interesa saber si el método de absorción atómica de vapor frío para determinar mercurio introduce
Más detallesAlgoritmos glotones 2 (código de Huffman) mat-151
Algoritmos glotones 2 (código de Huffman) mat-151 Alonso Ramírez Manzanares Computación y Algoritmos 05.06.2009 Son técnicas muy efectivas para comprimir datos. Alcanzan una compresión de entre 20% y 90%
Más detallesTEMA 3.- EL ANALISIS ESTADISTICO DE LA INFORMACION (MODELIZACION) DIFERENTES TIPOS DE PROCEDIMIENTOS ESTADISTICOS
TEMA 3.- EL ANALISIS ESTADISTICO DE LA INFORMACION (MODELIZACION) PROCEDIMIENTOS ESTADISTICOS CONSTRUCCION DE MODELOS DIFERENTES TIPOS DE PROCEDIMIENTOS ESTADISTICOS Cada procedimiento es aplicable a un
Más detallesUNIDAD Creación del Árbol Octal de un objeto sólido vía la definición CSG
UNIDAD 3 3 Creación de Árbol Octal vía la definición CSG 3.1 Creación del Árbol Octal de un objeto sólido vía la definición CSG Un árbol CSG hace uso de un conjunto de primitivas sólidas, estas primitivas
Más detallesCapítulo. Distribución de probabilidad normal. Pearson Prentice Hall. All rights reserved
Capítulo 37 Distribución de probabilidad normal 2010 Pearson Prentice Hall. All rights 2010 reserved Pearson Prentice Hall. All rights reserved La distribución de probabilidad uniforme Hasta ahora hemos
Más detallesRedes Bayesianas (3) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile
Redes Bayesianas (3) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile Referencia Tutorial NIPS (Neural Information Processing Systems Conference) 2001: Learning Bayesian Networks
Más detalles12/08/2017 AVL. Especificación sobre árboles AVL. AVL: rotaciones
VL Se dice que un árbol binario está balanceado si y sólo si en cada nodo las alturas de sus 2 subárboles difieren como máximo en 1. Todos los árboles perfectamente balanceados son árboles VL. Especificación
Más detallesMATRIZ DE ARBOLES DE DECISION
MATRIZ DE ARBOLES DE DECISION Los árboles son un subconjunto importante de los grafos, y son una herramienta útil para describir estructuras que presentan algún tipo de jerarquía. Las dificultades de las
Más detallesEstructuras de Datos y Algoritmos
Estructuras de Datos y Algoritmos Tema 5.1. Árboles. Árboles binarios y generales Prof. Dr. P. Javier Herrera Contenido 1. Introducción 2. Terminología 3. Árboles binarios 4. Árboles generales Tema 5.1.
Más detallesAprendizaje Supervisado Árboles de Decisión
Aprendizaje Supervisado Árboles de Decisión 10 10 Modelo general de los métodos de Clasificación Id Reembolso Estado Civil Ingresos Anuales 1 Sí Soltero 125K No 2 No Casado 100K No 3 No Soltero 70K No
Más detallesUn árbol binario T se define como un conjunto finito de elementos, llamados nodos, de forma que:
Instituto Universitario de Tecnología Industrial Rodolfo Loero Arismendi I.U.T.I.R.L.A. ÁRBOLES Sección 3DA Asignatura: Estructura de Datos Lenguaje (C). Ciudad Bolívar _ abril_ 2006. Introducción El siguiente
Más detallesLECCION N 08 ARBOLES. Un árbol es un grafo A que tiene un único nodo llamado raíz que:
LECCION N 08 ARBOLES Los árboles son estructuras de datos útiles en muchas aplicaciones. Hay varias formas de árboles y cada una de ellas es práctica en situaciones especiales, en este capítulo vamos a
Más detallesTema 6: Estructuras de datos recursivas
Tema 6: Estructuras de datos recursivas Índice 1 Listas jerárquicas...2 2 Árboles binarios... 4 3 Árboles genéricos...7 4 Referencias...10 1. Listas jerárquicas Las listas tienen la propiedad de la clausura
Más detallesFase 2. Estudio de mercado: ESTADÍSTICA
1. CONCEPTO DE ESTADÍSTICA. ESTADÍSTICA DESCRIPTIVA 2. 3. TABLA DE FRECUENCIAS 4. REPRESENTACIONES GRÁFICAS 5. TIPOS DE MEDIDAS: A. MEDIDAS DE POSICIÓN B. MEDIDAS DE DISPERSIÓN C. MEDIDAS DE FORMA 1 1.
Más detallesIntroducción a la Teoría de la Información
Introducción a la Teoría de la Información Codificación de fuentes Facultad de Ingeniería, UdelaR (Facultad de Ingeniería, UdelaR) Teoría de la Información 1 / 43 Agenda 1 Codificación de fuente Definiciones
Más detalles