Complementos de aprendizaje automático

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Complementos de aprendizaje automático"

Transcripción

1 Complementos de aprendizaje automático David Soĺıs Martín Dpto. Ciencias de la Computación e Inteligencia Artificial Ampliación de Inteligencia Artificial,

2 Índice Introducción Métricas Validación de modelos Optimización de parámetros

3 Introducción

4 Scikit learn Es una librería / framework desarrollada en Python y C++ orientada al aprendizaje automático (machine learning). Un poco de historia Inicialmente desarrollada por David Cournapeau durante el Google summer code en 2007 Later Matthieu Brucher se une al proyecto y la usa como parte de su tésis. En 2010 INRIA (Institut national de recherche en informatique et en automatique) lidera el proyecto y publica la primera release.

5 Scikit learn Muy bien estructurado. Otras librerías se basan en dicha estructura para que estas pueden usarse junto a sklearn. Muy bien documentado. Incluye referencias a artículos en las que se basa las implementaciones. Tiene un comunidad de desarrolladores muy activa. Posee un colección muy amplia de algoritmos. Nota: Para la lectura, escritura y manipulaciones genéricas de los conjuntos de datos usar pandas, numpy y scipy

6 Scikit learn - Estructura Agregación de Datos Procesado de Datos Ingeniería de Atributos Entrenamiento y evaluación Puesta en producción

7 Scikit learn - Estructura Algunos de los paquetes más importantes: linear model, ensemble, neighbors, neural networks: Algoritmos agrupados según su naturaleza. metrics. Con un conjunto de funciones para evaluar la calidad de nuestros modelos. Metricas en función del tipo de problema: clustering, clasificación, regresión,... model selection. Funciones orientadas a crear divisiones de los datos en entrenamiento y validación para controlar el sobreajuste.

8 Scikit learn - Estructura Hay dos tipos de clases principales: Las que derivan de TransformerMixin. Clases que manipulan los datos, para realizar una transformación o generar nuevos atributos. fit. Estas clases también se entrenan previamente. transform. Realizar la transformación. Recibe el conjunto de datos X y devuelve el conjunto X. fit transform. Método de ayuda que llama a los anteriores métodos secuencialmente.

9 Scikit learn - Ejemplo Por ejemplo, este dataset: tiene atributos codificados con texto (como el género, el status y el día de la semana) y también hay fechas. Todos los algoritmos en sklearn trabajan con datos numérico, por lo que tenemos que codificar esos tipos de datos a numérico.

10 Scikit learn - Ejemplo Para el caso de los atributos categoricos codificados como texto podemos usar, por ejemplo, la clase LabelEncoder: 1 from s k l e a r n. p r e p r o c e s s i n g \ 2 import L a b e l E n c o d e r 3 4 l c = L a b e l E n c o d e r ( ) 5 l c. f i t (X. Gender ) 6 7 # a cada c a t e g o r í a l e a s i g n a e l í n d i c e d e l a r r a y 8 p r i n t ( C l a s e s : %s % l c. c l a s s e s ) 9 p r i n t ( V a l o r e s o r i g i n a l e s : %s % X. Gender. v a l u e s ) e n c o d i n g = l c. t r a n s f o r m (X. Gender ) p r i n t ( V a l o r e s c o d i f i c a d o s : %s % e n c o d i n g ) $ C l a s e s : [ F M ] 16 $ V a l o r e s o r i g i n a l e s : [ M F F..., F M M ] 17 $ V a l o r e s c o d i f i c a d o s : [ , ]

11 Scikit learn - Ejemplo # l c. f i t (X. Gender ) 5 # e n c o d i n g = l c. t r a n s f o r m (X. Gender ) 6 7 e n c o d i n g = l c. f i t t r a n s f o r m (X. Gender ) $ C l a s e s : [ F M ] 14 $ V a l o r e s o r i g i n a l e s : [ M F F..., F M M ] 15 $ V a l o r e s c o d i f i c a d o s : [ , ]

12 Scikit learn - Estructura Hay dos tipos de clases principales: Las que derivan de BaseEstimator. Todos los algoritmos de aprendizaje. Los métodos más importantes: fit. Para entrenar el modelo. Recibe dos parámetros X e y. X conjunto de datos en forma tabular (filas=muestras, columnas=atributos) e y es la variable respuesta (la que se quiere predecir) predict. Realiza la predicción de un modelo previamente entrenado. Solo recibe un conjunto X de muestras usados para recibir predict proba. Idem al anterior pero la respuesta se obtiene como probabilidades.

13 1 from s k l e a r n. l i n e a r m o d e l \ 2 import L o g i s t i c R e g r e s s i o n 3 Scikit learn - Ejemplo 4 # creamos e l modelo 5 e s t i m a t o r = L o g i s t i c R e g r e s s i o n ( ) 6 7 # a j u s t a m o s e l modelo 8 e s t i m a t o r. f i t ( X t r a i n, y ) 9 10 # obtenemos l a p r e d i c c i o n e s 11 pred = e s t i m a t o r. p r e d i c t ( X t e s t ) p r i n t ( pred ) 14 p r i n t ( t y p e ( pred ) ) [ , ] 17 <c l a s s numpy. n d a r r a y > Cuidado!, las predicciones obtenidas son un array de numpy no una lista de python.

14 Métricas

15 Métricas en scikit-learn Cuando estamos ajustando un modelo es necesario establecer una métrica para determina como de bueno es nuestro modelo. La métrica dependerá del problema: Naturaleza de este: clasificación, regresión, clustering, ranking,... Y del uso futuro que se le vaya a dar al modelo. En un modelo para determinar si un paciente debe ser operado de urgencia es muy imporante reducir el falsos positivos (sobre todo si dicha operación es de alto riesgo). En un modelo que determina que objetos hay dentro de un imagen será interesante tener una probabilidad para cada objeto. Diferentes métricas influyen en la importancia que el modelo da a los atributos. También nos ayuda a parametrizar el modelo de la manera más conveniente.

16 Métricas para clasificación Los problemas de clasificación son los más comunes y en lo que más métricas se han desarollado. Las más importantes: Matriz de confusión. Para determinar en que clases falla el modelo y con que clases las confunde. Precisión, recall, f1-score, soporte. Son ratios entre los grupos de (FP, FN, TP, TN) tomados por parejas. Accuracy (exactitud). Promedio de acierto. LogLoss. Evalua las probabilidades para cada categoría. Area bajo la curva (AUC). Mide la habilidad de un modelo para discriminar entre clases positivas y negativas.

17 Tipos de error en clasificación binaria Verdaderos positivos (TP): Aquellas muestras con clase positiva que han sido clasificadas como positivas (clasificadas correctamente) Verdaderos negativo (TN): Aquellas muestras con clase negativa que han sido clasificadas como negativas (clasificadas correctamente) Falsos positivos (FP): Aquellas muestras con clase negativa que han sido clasificadas como positiva (clasificadas incorrectamente) Falsos negativos (FN): Aquellas muestras con clase positiva que han sido clasificadas como positivas (clasificadas incorrectamente)

18 Tipos de error en clasificación binaria FALSO POSITIVO FALSO NEGATIVO

19 Accuracy Mide el porcentaje de acierto. Accuracy = Accuracy = #prediccionescorrectas #totaldemuestras TP + TN TP + TN + FP + FN = TP + TN N Es la metrica más usada para clasificación y la más usada incorrectamente. Solo útil cuando tenemos el mismo número de observaciones de ambas clases y todas las predicciones sobre las clases son igualmente de importantes. (1) (2)

20 Accuracy Ejemplo: Supongamos que tenemos muestras positivas y negativas. Nuestro modelo clasifica correcamente de las muestras positivas y de las muestras negativas. Accuracy = = = 56.87% (3)

21 Accuracy 1 from s k l e a r n. m e t r i c s \ 2 import a c c u r a c y s c o r e 3 4 acc = a c c u r a c y s c o r e ( y, e s t i m a t o r. p r e d i c t (X) ) 5 p r i n t ( acc ) 6 7 $ TP FP = a c c u r a c y s c o r e ( y, e s t i m a t o r. p r e d i c t (X), n o r m a l i z e=f a l s e ) 10 p r i n t ( TP FP ) $

22 Accuracy Ejemplo: Supongamos que tenemos 9850 muestras negativas y 150 positivas. Nuestro modelo clasifica correcamente 9700 de las muestras negativas y 50 de las muestras positivas. Accuracy = = 0.98 = 98.0% (4)

23 Accuracy Paradox Ejemplo: Supongamos ahora que nuestro modelo siempre da una respuesta negativa (modelo trivial): Accuracy = = = 98.5% (5) Este modelo tiene una mejor medida de exactitud, sin embargo, es un modelo inútil. Por qué el accuracy general no es una buena métrica en casos de datos desbalanceados? Las clases con mayor número de muestras dominarán el resultado del cálculo de la métrica.

24 Matriz de confusión La matriz de confusión nos muestra más información de las clasificaciones correctas e incorrectas por clase. Con los datos del ejemplo anterior: Con la matriz de confusión podemos extraer más información del comportamiento del modelo por clase: En que clase se equivoca más? Dada una clase, en que grado se confunde con la otra clase? Que clase tiene mayor precisión?

25 Matriz de confusión 1 from s k l e a r n. m e t r i c s import c o n f u s i o n m a t r i x 2 m = c o n f u s i o n m a t r i x ( y, e s t i m a t o r. p r e d i c t (X) ) 3 4 p r i n t (m) 5 6 $ a r r a y ( [ [ 43693, ], 7 [ 82309, ] ] )

26 Matriz de confusión 1 from s k l e a r n. m e t r i c s import c o n f u s i o n m a t r i x 2 m = c o n f u s i o n m a t r i x ( y, e s t i m a t o r. p r e d i c t (X) ) 3 4 # creamos un dataframe con l a i n f o m a c i o n l a m a t r i z de 5 # c o n f u n s i ó n 6 m = pd. DataFrame ( data={ N : m.t [ 0 ], P : m.t [ 1 ], 7 i n d e x : [ N, P ] } ) 8 m = m. s e t i n d e x (m[ i n d e x ]. v a l u e s ) 9 10 d e l m[ i n d e x ] p r i n t (m)

27 Log-Loss Se usa cuando la predicción obtenida es una probabilidad. Es válida tanto para clasificación binaria como multiclase (más de 2 clases). 1 N N M y ij log(p ij ) (6) i=1 i=1 donde N es el número de muestras, M el número de clases, y ij es un indicador binario de si la clase j es la clase real asociada a la muestra i y p ij es la probabilidad que asigna el modelo para la muestra i y la clase j. No solo se busca optimizar el número de aciertos, sino también la seguridad con que el modelo acierta y penalizando los fallos.

28 Log-Loss Para clasificación binaria se puede simplicar a: 1 N N y (i) log(p (i) ) + (1 y (i) ) log(1 p (i) ). (7) i=1 donde y i es la clase real asociada a la muestra i y p i es la probabilidad que asigna el modelo para la muestra i y la clase positiva. Cuando la predicción es perfecta esta métrica is 0 (cuanto menor mejor). Minimizar el log-loss implica maximizar el accuracy generalmente.

29 Log-Loss 1 from s k l e a r n. m e t r i c s import l o g l o s s 2 l l = l o g l o s s ( y, e s t i m a t o r. p r e d i c t p r o b a (X) ) 3 4 p r i n t ( l l ) 5 6 $

30 Precision - Recall Estas métricas responden a las siguientes preguntas. De todas las muestras clasificadas como positivas, que porcentaje es correctamente clasificado? Precision = TP TP + FP (8) También llamada PPV (positive predictive value) De todas las muestras positivas, que porcentaje es correctamente clasificado? Recall = TP TP + FN (9) Muchos otros nombres: sensitivy, hit rate y TPR (true positive rate)

31 F-Measure Es la media armónica de precision y recall: F 1 = 2 precision recall precision + recall Se busca que esta métrica de un valor alto solo cuando la precision y el recall sean altos. (10)

32 Metricas de ranking Estas métricas son muy utlizadas en sitemas de ranking. Por ejemplo, el buscador de google. Un motor de búsqueda puede ser visto como un clasificador binario: dado un término de búsqueda el documento Dx es relevante para la búsqueda Las métricas anteriores pueden ser interpretadas como probabilidades en vez de como proporciones: Precision: probabilidad de que un documento devuelto en la búsqueda sea relevante. Recall: probabilidad de un documento relevante sea devuelto en la búsqueda.

33 Informe 1 from s k l e a r n. m e t r i c s import c l a s s i f i c a t i o n r e p o r t 2 r e p o r t = c l a s s i f i c a t i o n r e p o r t ( y, e s t i m a t o r. p r e d i c t (X) ) 3 4 p r i n t ( r e p o r t ) 5 6 $ p r e c i s i o n r e c a l l f1 s c o r e s u p p o r t 7 $ 8 $ $ $ 11 $ avg / t o t a l

34 Resumen Pred P Pred N Verd. P TP FP TPR = Verd. N FN TN FPR = TP PPV = TP + FP FP FDR = FP + TP FN FOR = FN + TN TN NPV = TN + FN TP TP + FN FP FP + TN LR+ = TPR FPR LR = FNR TNR FN FNR = TP + FN TN FNR = FP + TN DOR = LR+ LR P 0 : Positive N: Negative P 1 : Predictive R: Rate V: Value F: False T: True D: Discovery O: Odds L: Likelihood

35 Espacio ROC ROC (Receiver Operating Characteristic). Gráfico bidimensional en el cual representamos en el eje Y el TPR y en el eje X el FPR. Representa la relación entre beneficio (TPR) y coste (FPR). ESPACIO ROC PERFECTO MEJOR PEOR

36 MEJOR PEOR Espacio ROC Puntos importantes: (0,0): Representa un clasificador que nunca da como salida una respuesta positiva. Falla en todos los positivos y acierta en todos los negativos. (1,1): Representa el caso contrario. Siempre da una respuesta positiva. Acierta todos los casos positivos, pero falla en todos los negativos. (1,0): Representa a un clasificador perfecto. Acierta todos los casos positivos y los negativos. ESPACIO ROC PERFECTO

37 MEJOR PEOR Espacio ROC Un clasificador C1 es mejor que C2 si C1 está más cerca de (1,0) que C2. Los clasificadores cerca del eje Y pueden ser vistos como clasificadores conservativos. Solo dan una respuesta positiva cuando tienen una fuerte evidencia de ello. Los clasificadores localizados en la zona superior derecha pueden ser vistos como liberales. Necesitan una mínima evidencia para clasificar positivamente una muestra. ESPACIO ROC PERFECTO

38 MEJOR PEOR Espacio ROC La diagonal (x=y) representa una estrategia aleatoria. Por ejemplo: Un clasificador que clasifique como positiva la mitad de las muestras aleatoriamente se espera que clasifique correctamente el 50% de las muestras positivas por lo que estará en el punto (0.5, 0.5). Si clasifica aleatoriamente como positivas el 80% de las muestras deberá encontrarse en el punto (0.8, 0.8). ESPACIO ROC PERFECTO Un clasificador, para salir de la diagonal debe explotar algún tipo de información extraida de los datos.

39 MEJOR PEOR Espacio ROC Un clasificador localizado por debajo de la diagonal es peor que cualquier clasificador aleatorio ( o no?). Si negamos la respuesta del clasificador, tendremos un clasificador en la parte superior de la diagonal. ESPACIO ROC PERFECTO Un clasificador sobre la diagonal no tiene información sobre las clases. Sin embargo, un clasificador por debajo de la diagonal, si la tiene pero la está aplicando incorrectamente.

40 Curva ROC Algunos algoritmos dan como respuesta un valor numérico que indica el grado de seguridad de que una instancia pertenezca a una clase. Naive Bayes, Redes Neuronales, Random Forest, etc. Estos clasificadores probabilisticos pueden ser convertidos a discretos aplicando un umbral. Si aplicamos este umbral gradualemente podemos trazar un curva en el espacio ROC para un solo clasificador.

41 Area bajo la curva (AUC) El area bajo la curva ROC siempre va entre 0 y 1. Bajo la diagonal hay un area de 0.5, por tanto ningún clasificador debe dar un AUC inferior a 0.5. Propiedades: Es equivalente a la probibilidad de dar un mayor score a una muestra positiva que a una negativa tomadas aleatoriamente. P(score(x + ) > score(x )) (11) El coeficiente de Gini es dos veces el area entre la diagonal y la curva. Gini = (2 AUC) 1 (12)

42 Validación de modelos

43 Entrenamiento y validación En el enfoque clásico los datos se dividen en datos de entrenamiento y datos de validación y test en un ratio 7:3 aproximadamente. Entrenamos con un 70% de los datos. Validamos nuestro modelo con el 30% restante. 1 from s k l e a r n. m o d e l s e l e c t i o n i mport t r a i n t e s t s p l i t 2 3 X t r a i n, X t e s t, y t r a i n, y t e s t = \ 4 t r a i n t e s t s p l i t (X, y, t e s t s i z e =0.33) Como sabemos que el 30% de los datos que hemos reservado son representativos de la realidad? Podría existir otra subvidisión mejor? Hemos desaprovechado un 30% de los datos para entrenar.

44 Dilema sesgo-varianza El error que comete nuestro modelo se puede descomponer en dos tipos de errores: Error de sesgo: Es la media del error entre el valor predicho por nuestro modelo y el valor real. Para conseguir dicha media sería necesario entrenar el mismo modelo N veces con diferentes datos. Medimos la generalidad del modelo respecto a los datos. Error de varianza: La variabilidad en la predicción para una muestra concreta. Medimos la estabilidad del modelo.

45 Dilema sesgo-varianza Modelos muy simples: alto sesgo. Modelos muy complejos: alta varianza. Tenemos que buscar un equilibrio entre el sesgo y la varianza del modelo.

46 Validación cruzada Como podemos entrenar nuestro modelo con diferentes datos? Es lo que se conoce como validación cruzada: Conjunto de validación Conjunto de entrenamiento Modelo 1 Modelo 2 Modelo 3 Modelo 10 Accuracy: Acurracy final: Media(Modelo1, Modelo2,..., Modelo10) Desviación : Std(Modelo1, Modelo2,..., Modelo10) Si divido el conjunto de entranamiento en N partes. Cada una de esas partes (fold) se usará para validar y el resto para entrenar. Si creamos 10 folds, tendremos que entrenar 10 modelos. Cada modelo se entrerá con el 90% por de los datos y se validará con un 10%.

47 Validación cruzada La función cross val score entrenará un modelo por cada fold y calculará la validación de cada uno: 1 from s k l e a r n. m o d e l s e l e c t i o n i mport c r o s s v a l s c o r e 2 3 p r i n t ( c r o s s v a l s c o r e ( e s t i m a t o r, X, y, cv =5) ) 4 [ ] Para calcular el score cada modelo debe realizar las predicciones de su fold. A estas predicciones se les conoce como predicciones out of fold.

48 Validación cruzada En el ejemplo anterior pasamos el número de folds. Lo habitual es trabajar siempre con los mismo folds. Para ello scikit learn tiene varias clases, en función de la extrategia de validación cruzada para crear los folds: KFold. Crea los folds aleatoriamente. StratifiedKFold. Para casos con clases desbalanceadas (muchos más positivos que negativos). Los folds mantendrán la misma propoción de clases. LeaveOneOut. Solo se deja un muestra para validar. Creará tantos modelos como muestras haya en nuestro conjunto de datos. LeavePOut. Se dejan P muestras para validar.

49 Validación cruzada 1 from s k l e a r n. m o d e l s e l e c t i o n i mport c r o s s v a l s c o r e 2 from s k l e a r n. m o d e l s e l e c t i o n i mport KFold 3 4 k f = KFold ( n s p l i t s =5) 5 6 p r i n t ( c r o s s v a l s c o r e ( e s t i m a t o r, X, y, cv=k f ) ) 7 [ ]

50 Optimización de parámetros

51 Selección de modelos Los algoritmos suelen tener un conjunto de parámetros amplio. La selección de modelos consiste en determina que conjunto de parámetros es más aconsejable. En scikit learn tenemos dos clases para realizar la optimización de parámetros: RandomizedSearchCV. Entrena modelos seleccionando los parámetros de manera aleatoria. Se le especifica el rango de cada parámetro a estudiar. GridSearchCV. Se le especifica que valores de cada parámetro estudiar y genera todas las combinaciones entre parámetros posibles.

52 Selección de modelos 1 from s k l e a r n. m o d e l s e l e c t i o n i mport GridSearchCV 2 3 e s t i m a t o r = L o g i s t i c R e g r e s s i o n ( f i t i n t e r c e p t=true, C =10, t o l =0.001) 4 5 p a r a m e t e r s = { C : [ 1, 10, 2 0 ], t o l : [ 0. 1, ] } 6 7 c l f = GridSearchCV ( e s t i m a t o r, parameters, cv =5) 8 c l f. f i t (X, y ) 9 10 p r i n t ( c l f. g r i d s c o r e s ) [ mean : , s t d : , params : { C : 1, t o l : 0. 1 }, 13 mean : , s t d : , params : { C : 1, t o l : }, 14 mean : , s t d : , params : { C : 1 0, t o l : 0. 1 }, 15 mean : , s t d : , params : { C : 1 0, t o l : }, 16 mean : , s t d : , params : { C : 2 0, t o l : 0. 1 }, 17 mean : , s t d : , params : { C : 2 0, t o l : } ]

Evaluación de modelos

Evaluación de modelos Evaluación de modelos José Luis Ruiz Reina Dpto. Ciencias de la Computación e Inteligencia Artificial Razonamiento Asistido por Computador, 2017-2018 Evaluación de modelos Una de las fases principales

Más detalles

Precisión del Modelo

Precisión del Modelo Precisión del Modelo Gráficas, estadística y minería de datos con python Miguel Cárdenas Montes Centro de Investigaciones Energéticas Medioambientales y Tecnológicas, Madrid, Spain miguel.cardenas@ciemat.es

Más detalles

Módulo Minería de Datos Diplomado. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Módulo Minería de Datos Diplomado. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Error de clasificación Algoritmo de aprendizaje h Entrenamiento DATOS Evaluación

Más detalles

Clasificación de documentos

Clasificación de documentos Minería de Datos Web P r o f. D r. M a r c e l o G. A r m e n t a n o I S I S TA N, F a c. d e C s. E x a c t a s, U N I C E N m a r c e l o. a r m e n t a n o @ i s i s t a n. u n i c e n. e d u. a r

Más detalles

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA Ricardo Aler Mur CLASIFICACIÓN CON COSTES Y MUESTRAS DESBALANCEADAS R I C A R D O A L E R M U R Organización Evaluación Sensible

Más detalles

Evaluación de Hipótesis

Evaluación de Hipótesis Aprendizaje Automático Segundo Cuatrimestre de 2016 Evaluación de Hipótesis Aproximación de Funciones Marco del problema: Conjunto de instancias posibles X Función objetivo desconocida f: X Y Conjunto

Más detalles

Clasificación de estados cerebralesusando neuroimágenes funcionales

Clasificación de estados cerebralesusando neuroimágenes funcionales Clasificación de estados cerebralesusando neuroimágenes funcionales Clase 2: Reconocimiento de patrones en datos de neuroimagenes Enzo Tagliazucchi (tagliazucchi.enzo@googlemail.com) Primera clase: introducción

Más detalles

Análisis de Datos. Validación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Validación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores Análisis de Datos Validación de clasificadores Profesor: Dr. Wilfrido Gómez Flores 1 Introducción La mayoría de los clasificadores que se han visto requieren de uno o más parámetros definidos libremente,

Más detalles

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA Ricardo Aler Mur EVALUACIÓN Evaluación: entrenamiento y test Una vez obtenido el conocimiento es necesario validarlo para

Más detalles

Aprendizaje Automático Segundo Cuatrimestre de Evaluación de Hipótesis

Aprendizaje Automático Segundo Cuatrimestre de Evaluación de Hipótesis Aprendizaje Automático Segundo Cuatrimestre de 2015 Evaluación de Hipótesis Aproximación de Funciones Marco del problema: Conjunto de instancias posibles X Función objetivo desconocida f: X Y Conjunto

Más detalles

Reconocimiento de Patrones

Reconocimiento de Patrones Reconocimiento de Patrones Técnicas de validación (Clasificación Supervisada) Jesús Ariel Carrasco Ochoa Instituto Nacional de Astrofísica, Óptica y Electrónica Clasificación Supervisada Para qué evaluar

Más detalles

Macro para evaluación de modelos con variables de respuesta dicotómicas con fines de priorización.

Macro para evaluación de modelos con variables de respuesta dicotómicas con fines de priorización. Macro para evaluación de modelos con variables de respuesta dicotómicas con fines de priorización. 21-Ago-2014 Introducción Uno de los principales problemas en la construcción de modelos con variables

Más detalles

ANÁLISIS DE DATOS. Jesús García Herrero

ANÁLISIS DE DATOS. Jesús García Herrero ANÁLISIS DE DATOS Jesús García Herrero ANALISIS DE DATOS EJERCICIOS Una empresa de seguros de automóviles quiere utilizar los datos sobre sus clientes para obtener reglas útiles que permita clasificar

Más detalles

II. 2. Análisis manual de imágenes médicas: Análisis de la curva ROC (Receiver Operating Characteristic).

II. 2. Análisis manual de imágenes médicas: Análisis de la curva ROC (Receiver Operating Characteristic). II. 2. Análisis manual de imágenes médicas: Análisis de la curva ROC (Receiver Operating Characteristic). Psicofísica: calidad física de una imagen médica y calidad del diagnóstico El análisis de la curva

Más detalles

Aprendizaje Automatizado

Aprendizaje Automatizado Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto

Más detalles

Tema 2: Introducción a scikit-learn

Tema 2: Introducción a scikit-learn Tema 2: Introducción a scikit-learn José Luis Ruiz Reina Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Razonamiento asistido por computador, 2017-18 Ejemplo:

Más detalles

Análisis Estadístico de Datos Climáticos. Verificación y valor de los pronósticos

Análisis Estadístico de Datos Climáticos. Verificación y valor de los pronósticos Análisis Estadístico de Datos Climáticos Verificación y valor de los pronósticos A. Díaz M. Bidegain - M. Barreiro Facultad de Ciencias Facultad de Ingeniería 2011 Verificación de pronósticos Una definición:

Más detalles

ANÁLISIS DE DATOS. Ricardo Aler Mur

ANÁLISIS DE DATOS. Ricardo Aler Mur ANÁLISIS DE DATOS Ricardo Aler Mur EXAMEN DE ANÁLISIS DE DATOS GRADO EN INFORMÁTICA ENERO 2014 10 puntos, 1 hora y media de duración. Responder cada pregunta con respuestas breves (unas pocas líneas).

Más detalles

Minería de datos. Unidad 2. El proceso KDD Evaluación, difusión y uso. M en I Sara Vera Noguez

Minería de datos. Unidad 2. El proceso KDD Evaluación, difusión y uso. M en I Sara Vera Noguez Minería de datos Unidad 2. El proceso KDD Evaluación, difusión y uso M en I Sara Vera Noguez El proceso KDD Hernández, 2008 p.20 La parte iterativa Una vez obtenido el modelo se debe evaluar Si satisface

Más detalles

Análisis Estadístico de Datos Climáticos. Verificación y valor de los pronósticos (Wilks, Cap. 7) Facultad de Ciencias Facultad de Ingeniería 2013

Análisis Estadístico de Datos Climáticos. Verificación y valor de los pronósticos (Wilks, Cap. 7) Facultad de Ciencias Facultad de Ingeniería 2013 Análisis Estadístico de Datos Climáticos Verificación y valor de los pronósticos (Wilks, Cap. 7) Facultad de Ciencias Facultad de Ingeniería 2013 Verificación de pronósticos Una definición: La verificación

Más detalles

III JORNADAS DE DATA MINING

III JORNADAS DE DATA MINING III JORNADAS DE DATA MINING EN EL MARCO DE LA MAESTRÍA EN DATA MINING DE LA UNIVERSIDAD AUSTRAL VISIÓN DE MODELOS PREDICTIVOS COMO RANKEADORES Gustavo Denicolay, Socio Gerente Adaptive, Profesor Maestría

Más detalles

Sistemas de Percepción Visión por Computador

Sistemas de Percepción Visión por Computador Nota: Algunas de las imágenes que aparecen en esta presentación provienen del libro: Visión por Computador: fundamentos y métodos. Arturo de la Escalera Hueso. Prentice Hall. Sistemas de Percepción Visión

Más detalles

VIII Jornadas de Usuarios de R

VIII Jornadas de Usuarios de R VIII Jornadas de Usuarios de R Análisis del Abandono en el Sector Bancario Predicción del abandono de clientes Albacete, 17 de Noviembre de 2016 I. INDICE : Modelo Abandonos I. COMPRENSIÓN DEL NEGOCIO

Más detalles

Introducción a los sistemas Multiclasificadores. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

Introducción a los sistemas Multiclasificadores. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Introducción a los sistemas Multiclasificadores Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido 1. Combinación de modelos 2. Descomposición bias-varianza 3. Bagging

Más detalles

Introducción al Procesamiento de Lenguaje Natural. Grupo de PLN - InCo

Introducción al Procesamiento de Lenguaje Natural. Grupo de PLN - InCo Introducción al Procesamiento de Lenguaje Natural Grupo de PLN - InCo Clasificación Clasificación Dado un objeto y un conjunto de clases, quiero saber a qué clase pertenece el objeto. Muchas tareas de

Más detalles

Modelos de Churn Bancarios con R Trabajo Final de la Maestría en Data Mining

Modelos de Churn Bancarios con R Trabajo Final de la Maestría en Data Mining Modelos de Churn Bancarios con R Trabajo Final de la Maestría en Data Mining Presentado por Diego Ariel Oppenheim Director Martin Volpacchio Fecha: 31/7/2017 Objetivos del trabajo final Entender la situación

Más detalles

Conjuntos de Clasificadores (Ensemble Learning)

Conjuntos de Clasificadores (Ensemble Learning) Aprendizaje Automático Segundo Cuatrimestre de 2016 Conjuntos de Clasificadores (Ensemble Learning) Gracias a Ramiro Gálvez por la ayuda y los materiales para esta clase. Bibliografía: S. Fortmann-Roe,

Más detalles

Proyecto Final - Reconocimiento de Patrones

Proyecto Final - Reconocimiento de Patrones Proyecto Final - Reconocimiento de Patrones Salim Perchy Maestría en Ingeniería Énfasis en Computación Pontificia Universidad Javeriana Cali, Valle del Cauca Email: ysperchy@cic.javerianacali.edu.co Mario

Más detalles

Métodos de Remuestreo en Aprendizaje Automático

Métodos de Remuestreo en Aprendizaje Automático Métodos de Remuestreo en Aprendizaje Automático en datos, en hipótesis, y algunos otros trucos: Cross-validation, Bootstrap, Bagging, Boosting, Random Subspaces Lo que sabemos hasta ahora: Hemos visto

Más detalles

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Desde la antigüedad, el problema de buscar patrones en datos es fundamental en diversas

Más detalles

Evaluación, validación y sobre-ajuste

Evaluación, validación y sobre-ajuste Evaluación, validación y sobre-ajuste Eduardo Morales, Hugo Jair Escalante Coordinación Ciencias Computacionales Instituto Nacional Astrofísica, Óptica y Electrónica Agosto, 2015 (INAOE) Agosto, 2015 1

Más detalles

Análisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores Análisis de Datos Combinación de clasificadores Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Diversos algoritmos de clasificación están limitados a resolver problemas binarios, es decir, con dos

Más detalles

Aprendizaje inductivo

Aprendizaje inductivo Inteligencia Artificial Aprendizaje inductivo Ing. Sup. en Informática, 4º Curso académico: 2011/2012 Profesores: Ramón Hermoso y Matteo Vasirani Aprendizaje Resumen: 3. Aprendizaje automático 3.1 Introducción

Más detalles

Examen Parcial. Attr1: A, B Attr2: A, B, C Attr3 1, 2, 3 Attr4; a, b Attr5: 1, 2, 3, 4

Examen Parcial. Attr1: A, B Attr2: A, B, C Attr3 1, 2, 3 Attr4; a, b Attr5: 1, 2, 3, 4 Aprenentatge 0-03 Q Examen Parcial Nombre: (Examen ) Instrucciones. (0 puntos) Este examen dura horas. Responded todas las preguntas en estas hojas. Para las preguntas test poned un circulo alrededor de

Más detalles

Jugando a policías y ladrones para detectar anomalías en red con ML. Carmen Torrano Giménez #CyberCamp17

Jugando a policías y ladrones para detectar anomalías en red con ML. Carmen Torrano Giménez #CyberCamp17 Jugando a policías y ladrones para detectar anomalías en red con ML Carmen Torrano Giménez #CyberCamp17 Presentación @ctorranog Carmen.torrano@11paths.com 2 Machine Learning 3 Detección de anomalías 4

Más detalles

RECONOCIMIENTO DE VINOS POR CULTIVOS CLASIFICACION

RECONOCIMIENTO DE VINOS POR CULTIVOS CLASIFICACION RECONOCIMIENTO DE VINOS POR CULTIVOS CLASIFICACION Miguel Caballero Sierra Guillermo Rubio Escuela Colombiana de Ingeniería Julio Garavito Ingeniería Industrial, Minería de Datos RESUMEN Los modelos de

Más detalles

RECONOCIMIENTO DE PAUTAS

RECONOCIMIENTO DE PAUTAS RECONOCIMIENTO DE PAUTAS ANÁLISIS DISCRIMINANTE (Discriminant analysis) Reconocimiento de pautas supervisado si se cuenta con objetos cuya pertenencia a un grupo es conocida métodos: análisis de discriminantes

Más detalles

R PARA SABER SI VAS A VENIR

R PARA SABER SI VAS A VENIR 1 R PARA SABER SI VAS A VENIR Aproximación a la predicción de cancelaciones en el sector hotelero 28 de febrero de 2017 QUIÉNES SOMOS? 2 Kernel Analytics Francisco Diego Data Scientist Claudia Guirao Data

Más detalles

Apéndice A: Matrices de confusión y resultados de precisión, exhaustividad y medida F

Apéndice A: Matrices de confusión y resultados de precisión, exhaustividad y medida F Apéndices 77 Apéndice A: Matrices de confusión y resultados de precisión, exhaustividad y medida F En este apéndice se presentan seis tablas con otros resultados obtenidos. En cada una de las primeras

Más detalles

Seminario-Taller Ciencia de Datos con Python

Seminario-Taller Ciencia de Datos con Python Seminario-Taller Ciencia de Datos con Python Tutor: El seminario-taller será impartido por el Dr. Oldemar Rodriguez Rojas. El Dr. Rodríguez realizó sus estudios doctorales en la Universidad de París IX

Más detalles

Aprendizaje: Boosting y Adaboost

Aprendizaje: Boosting y Adaboost Técnicas de Inteligencia Artificial Aprendizaje: Boosting y Adaboost Boosting 1 Indice Combinando clasificadores débiles Clasificadores débiles La necesidad de combinar clasificadores Bagging El algoritmo

Más detalles

INTRODUCTION TO MACHINE LEARNING ISABELLE GUYON

INTRODUCTION TO MACHINE LEARNING ISABELLE GUYON INTRODUCTION TO MACHINE LEARNING ISABELLE GUYON 2008-02-31 Notas tomadas por: María Eugenia Rojas Qué es Machine Learning? El proceso de aprendizaje de maquina consiste en tener una gran base de datos

Más detalles

Índice general. Prefacio...5

Índice general. Prefacio...5 Índice general Prefacio...5 Capítulo 1 Introducción...13 1.1 Introducción...13 1.2 Los datos...19 1.3 Etapas en los procesos de big data...20 1.4 Minería de datos...21 1.5 Estructura de un proyecto de

Más detalles

Técnicas del aprendizaje automático para la asistencia en la toma de decisiones

Técnicas del aprendizaje automático para la asistencia en la toma de decisiones Técnicas del aprendizaje automático para la asistencia en la toma de decisiones Cèsar Ferri Ramírez Departament de Sistemes Informàtics i Computació Universitat Politècnica de València, Valencia, Spain

Más detalles

Tema 5: Evaluación de Modelos de Clasificación Supervisada p. 1/2

Tema 5: Evaluación de Modelos de Clasificación Supervisada p. 1/2 Tema 5: Evaluación de odelos de lasificación Supervisada Pedro Larrañaga, Iñaki Inza, Abdelmalik oujahid Departamento de iencias de la omputación e Inteligencia Artificial Universidad del País Vasco http://www.sc.ehu.es/isg/

Más detalles

Buenas prácticas para la implementación de herramientas de Ciencia de Datos Leonardo Alfonso Ramos Corona Facultad de Geografía, UAEM.

Buenas prácticas para la implementación de herramientas de Ciencia de Datos Leonardo Alfonso Ramos Corona Facultad de Geografía, UAEM. Buenas prácticas para la implementación de herramientas de Ciencia de Datos Leonardo Alfonso Ramos Corona Facultad de Geografía, UAEM. Qué es la ciencia de datos? Es muy difícil encontrar una definición

Más detalles

Aprendizaje Automatizado

Aprendizaje Automatizado Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto

Más detalles

EVALUACIÓN EN APRENDIZAJE. Eduardo Morales y Jesús González

EVALUACIÓN EN APRENDIZAJE. Eduardo Morales y Jesús González EVALUACIÓN EN APRENDIZAJE Eduardo Morales y Jesús González Significancia Estadística 2 En estadística, se dice que un resultado es estadísticamente significante, cuando no es posible que se presente por

Más detalles

CRITERIOS DE SELECCIÓN DE MODELOS

CRITERIOS DE SELECCIÓN DE MODELOS Inteligencia artificial y reconocimiento de patrones CRITERIOS DE SELECCIÓN DE MODELOS 1 Criterios para elegir un modelo Dos decisiones fundamentales: El tipo de modelo (árboles de decisión, redes neuronales,

Más detalles

Methods of Classification in Mining of Meteorological Data

Methods of Classification in Mining of Meteorological Data MÉTODOS DE CLASIFICACIÓN EN MINERÍA DE DATOS METEOROLÓGICOS Methods of Classification in Mining of Meteorological Data 1 Silvia Haro Rivera*, 1 Lourdes Zúñiga Lema, 2 Antonio Meneses Freire, 1 Luis Vera

Más detalles

Métodos para Determinar el Atributo Distinguido en Multiredes Bayesianas

Métodos para Determinar el Atributo Distinguido en Multiredes Bayesianas Métodos para Determinar el Atributo Distinguido en Multiredes Bayesianas Andrés Cano Utrera Fco. Javier García Castellano Andrés R. Masegosa Arredondo Serafín Moral Callejón Uncertainty Treatment in Artificial

Más detalles

Machine Learning Bases

Machine Learning Bases Machine Learning Bases Programa de Estudio Machine Learning Bases Si te interesa convertirte en un experto en Inteligencia Artificial, en este curso se detallarán los conocimientos imprescindibles para

Más detalles

Desarrollo y optimización de un sistema de estimación del nivel UPDRS de un paciente de Parkinson a partir de grabaciones del habla

Desarrollo y optimización de un sistema de estimación del nivel UPDRS de un paciente de Parkinson a partir de grabaciones del habla Desarrollo y optimización de un sistema de estimación del nivel UPDRS de un paciente de Parkinson a partir de grabaciones del habla Recio Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación

Más detalles

Técnicas Multivariadas Avanzadas

Técnicas Multivariadas Avanzadas Métodos de remuestreo Universidad Nacional Agraria La Molina 2014-2 Error de entrenamiento y prueba Estimación del error de predicción Los métodos de remuestreo constituyen una herramienta importante e

Más detalles

Tema 15: Combinación de clasificadores

Tema 15: Combinación de clasificadores Tema 15: Combinación de clasificadores p. 1/21 Tema 15: Combinación de clasificadores Abdelmalik Moujahid, Iñaki Inza, Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial

Más detalles

Aprendizaje de intervalos para Redes Bayesianas de Nodos Temporales

Aprendizaje de intervalos para Redes Bayesianas de Nodos Temporales Aprendizaje de intervalos para Redes Bayesianas de Nodos Temporales Pablo F. Hernández Leal Instituto Nacional de Astrofísica, Óptica y Electrónica Coordinación de Ciencias Computacionales Resumen En este

Más detalles

Construcción y aplicación de modelos de

Construcción y aplicación de modelos de GoBack Construcción y aplicación de s de regresión logística Guillermo Ayala Gallego Universidad de Valencia 8 de marzo de 2009 1 / 15 selección del Un debe ser suficientemente complejo para que ajuste

Más detalles

Aux 7. Introducción a la Minería de Datos

Aux 7. Introducción a la Minería de Datos Aux 7. Introducción a la Minería de Datos Gastón L Huillier 1,2, Richard Weber 2 glhuilli@dcc.uchile.cl 1 Departamento de Ciencias de la Computación Universidad de Chile 2 Departamento de Ingeniería Industrial

Más detalles

Estudio de rampas de producción eólica.

Estudio de rampas de producción eólica. IIC 2012 7 de junio de 2013 Estudio de rampas de producción eólica. Índice Estado del arte. Definición de rampa. Modelos propuestos. Primeros resultados. Problema a resolver. Metodología de evaluación.

Más detalles

Posibles trabajos HIA

Posibles trabajos HIA Posibles trabajos HIA Posibles trabajos Comparar otras herramientas de Minería de Datos con Weka Estudiar la influencia del ruido en bagging y boosting Estudiar la influencia del parámetro de poda en J48

Más detalles

Técnicas de aprendizaje automático en el análisis de datos de DP. Dr. Carlos Fernández Lozano Juan de la Cierva-Formación

Técnicas de aprendizaje automático en el análisis de datos de DP. Dr. Carlos Fernández Lozano Juan de la Cierva-Formación Técnicas de aprendizaje automático en el análisis de datos de DP Dr. Carlos Fernández Lozano Juan de la Cierva-Formación carlos.fernandez@udc.es Índice Acerca de mí Big data? Medicina de precisión? Integración

Más detalles

Introducción al Procesamiento del Habla

Introducción al Procesamiento del Habla Escuela de Verano RIO 2016 Departamento de Computación, FCEFQyN Universidad Nacional de Río Cuarto Introducción al Procesamiento del Habla Prof. Agustín Gravano Departamento de Computación, FCEyN Universidad

Más detalles

Taller #3. Carlos Reveco Cinthya Vergara

Taller #3. Carlos Reveco Cinthya Vergara Taller #3 Carlos Reveco creveco@dcc.uchile.cl Cinthya Vergara cvergarasilv@ing.uchile.cl 1 Taller#3 - Uso de RapidMiner 5.0 Limpieza y selección de datos Data Cleansing: Eliminación de valores nulos o

Más detalles

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

IAAE - Inteligencia Artificial Aplicada a la Ingeniería Unidad responsable: Unidad que imparte: Curso: Titulación: Créditos ECTS: 2017 295 - EEBE - Escuela de Ingeniería de Barcelona Este 723 - CS - Departamento de Ciencias de la Computación GRADO EN INGENIERÍA

Más detalles

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

IAAE - Inteligencia Artificial Aplicada a la Ingeniería Unidad responsable: Unidad que imparte: Curso: Titulación: Créditos ECTS: 2017 295 - EEBE - Escuela de Ingeniería de Barcelona Este 723 - CS - Departamento de Ciencias de la Computación GRADO EN INGENIERÍA

Más detalles

LA MINERÍA DE DATOS APLICADA A LA BÚSQUEDA DE PATRONES DE SUPERVIVIENCIA EN LA NEOPLASIA MALIGNA DE TRÁQUEA, BRONQUIOS Y PULMÓN

LA MINERÍA DE DATOS APLICADA A LA BÚSQUEDA DE PATRONES DE SUPERVIVIENCIA EN LA NEOPLASIA MALIGNA DE TRÁQUEA, BRONQUIOS Y PULMÓN LA MINERÍA DE DATOS APLICADA A LA BÚSQUEDA DE PATRONES DE SUPERVIVIENCIA EN LA NEOPLASIA MALIGNA DE TRÁQUEA, BRONQUIOS Y PULMÓN Miguel Ángel Negrín; Christian González; Jaime Pinilla; Francisco-José Vázquez-Polo

Más detalles

Introducción. Qué es Machine Learning?

Introducción. Qué es Machine Learning? Introducción Qué es Machine Learning? Introducción Hay problemas en Informática que se pueden definir concretamente y son simples de convertir en un algoritmo Ejemplo: Ordenar alfabéticamente una lista,

Más detalles

Pangea. Sistema de recomendación de viajes. Speaker: Andrés Pipicello. Lucas Bernardi, Martín Chaia, Bruno Cuervo Parrino. Demo

Pangea. Sistema de recomendación de viajes. Speaker: Andrés Pipicello. Lucas Bernardi, Martín Chaia, Bruno Cuervo Parrino. Demo Pangea Sistema de recomendación de viajes Speaker: Andrés Pipicello Lucas Bernardi, Martín Chaia, Bruno Cuervo Parrino Demo Research (Despegar.com) Pangea Demo 1 / 18 1 Qué es Pangea? 2 Cómo funciona Pangea?

Más detalles

Predicción basada en vecinos

Predicción basada en vecinos Predicción basada en vecinos Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Contenido Introducción Esquema de predicción directa Predicción basada

Más detalles

Julio Deride Silva. 4 de junio de 2010

Julio Deride Silva. 4 de junio de 2010 Curvas ROC y Regresión Lineal Julio Deride Silva Área de Matemática Facultad de Ciencias Químicas y Farmcéuticas Universidad de Chile 4 de junio de 2010 Tabla de Contenidos Curvas ROC y Regresión Lineal

Más detalles

Javier Roca Pardiñas Prof. Titular de Universidade Dpto. Estatística e I.O. Universidade de Vigo

Javier Roca Pardiñas Prof. Titular de Universidade Dpto. Estatística e I.O. Universidade de Vigo Javier Roca Pardiñas Prof. Titular de Universidade Dpto. Estatística e I.O. Universidade de Vigo 30/10/2013 Modelos Logísticos de Regresión de Respuesta Binaria Índice 1. Planteamiento de modelo 2. Estimación

Más detalles

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

IAAE - Inteligencia Artificial Aplicada a la Ingeniería Unidad responsable: Unidad que imparte: Curso: Titulación: Créditos ECTS: 2017 295 - EEBE - Escuela de Ingeniería de Barcelona Este 723 - CS - Departamento de Ciencias de la Computación GRADO EN INGENIERÍA

Más detalles

Inteligencia de Negocio Curso

Inteligencia de Negocio Curso Inteligencia de Negocio Curso 2017-2018 La asignatura Inteligencia de Negocio se centrará el estudio y diseño de técnicas de extracción de conocimiento utilizadas en el área de Business Analytics/ciencia

Más detalles

Técnicas Multivariadas Avanzadas

Técnicas Multivariadas Avanzadas Métodos basados en árboles Universidad Nacional Agraria La Molina 2014-2 Introducción Introducción Se describen métodos basados en árboles para regresión y clasicación. Estos métodos requieren estraticar

Más detalles

Curso: R for Data Mining. Análisis de datos, segmentación y técnicas de predicción con R

Curso: R for Data Mining. Análisis de datos, segmentación y técnicas de predicción con R 1 Curso: R for Data Mining Análisis de datos, segmentación y técnicas de predicción con R 2 Presentación R es el lenguaje de programación estadístico por excelencia. Se destaca por que es una las herramientas

Más detalles

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) Curso Académico: 2017-2018 Programa: Centro: Universidad: Máster Universitario en Ingeniería Informática Universidad Autónoma de

Más detalles

Random Subspace Method. Índice. 1. Random Subspace Method. 1. Introducción. 2. Objetivo. 3. Implementación. 4. Evaluación. 5.

Random Subspace Method. Índice. 1. Random Subspace Method. 1. Introducción. 2. Objetivo. 3. Implementación. 4. Evaluación. 5. The Random Subspace Method for Constructing Decision Forests (IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 20, NO. 8, AUGUST 1998) Iñigo Barandiaran 1 Índice 1. Random Subspace

Más detalles

Jone Echazarra Tecanalia. Más allá del ojo humano: detección precoz del mildiu

Jone Echazarra Tecanalia. Más allá del ojo humano: detección precoz del mildiu Jone Echazarra Tecanalia Más allá del ojo humano: detección precoz del mildiu INDICE 1) Grupo de computer vision Tecnalia, antecedentes, experiencia previa 2) Breve descripción de las tecnologías que se

Más detalles

Aux 6. Introducción a la Minería de Datos

Aux 6. Introducción a la Minería de Datos Aux 6. Introducción a la Minería de Datos Gastón L Huillier 1,2, Richard Weber 2 glhuilli@dcc.uchile.cl 1 Departamento de Ciencias de la Computación Universidad de Chile 2 Departamento de Ingeniería Industrial

Más detalles

Validación Cruzada (cross-validation) y Remuestreo (bootstrapping)

Validación Cruzada (cross-validation) y Remuestreo (bootstrapping) Validación Cruzada (cross-validation) y Remuestreo (bootstrapping) Padres de cross-validation y el bootstrapping Bradley Efron y Rob Tibshirani Bradley Efron Rob Tibshirani Enfoque: tabla de aprendizaje

Más detalles

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: clasificación CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja

Más detalles

Análisis y consideraciones sobre la implementación del Registro estadístico de territorio.

Análisis y consideraciones sobre la implementación del Registro estadístico de territorio. Análisis y consideraciones sobre la implementación del Registro estadístico de territorio. D. Ibáñez Vidal dibanez@idescat.cat E. Suñé Luís esl@idescat.cat SIG libre 2018 12/06/2018 Sistema de producción

Más detalles

Métodos de Inteligencia Artificial

Métodos de Inteligencia Artificial Métodos de Inteligencia Artificial L. Enrique Sucar (INAOE) esucar@inaoep.mx ccc.inaoep.mx/esucar Tecnologías de Información UPAEP Agentes que Aprenden: Clasificador Bayesiano Clasificación Clasificador

Más detalles

Réplica del III taller sobre modelización de nichos ecológicos de GBIF

Réplica del III taller sobre modelización de nichos ecológicos de GBIF Réplica del III taller sobre modelización de nichos ecológicos de GBIF Madrid, España. 14-16 marzo 2007 Francisco Javier Bonet García, 2007 Contenidos Ejemplo de una forma sencilla de evaluar modelos Tipos

Más detalles

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA Ricardo Aler Mur Aprendizaje de distancias Kilian Q. Weinberger, Lawrence K. Saul: Distance Metric Learning for Large Margin

Más detalles

NEWTON TREES. Árboles de Estimación Estocástica de Probabilidades:

NEWTON TREES. Árboles de Estimación Estocástica de Probabilidades: Tesis de Máster en Ingeniería del Software, Métodos Formales y Sistemas de Información Árboles de Estimación Estocástica de Probabilidades: NEWTON TREES Autor: Fernando Martínez Plumed 1 Directores: Cèsar

Más detalles

Estadística con R. Clasificadores

Estadística con R. Clasificadores Estadística con R Clasificadores Análisis discriminante lineal (estadístico) Árbol de decisión (aprendizaje automático) Máquina soporte vector (aprendizaje automático) Análisis discriminante lineal (AD)

Más detalles

2. Formas cuadráticas. Expresiones diagonales. Clasificación respecto a su signo.

2. Formas cuadráticas. Expresiones diagonales. Clasificación respecto a su signo. 2. Formas cuadráticas. Expresiones diagonales. Clasificación respecto a su signo. 2.1 Formas cuadráticas. Expresión matricial y analítica. Expresiones diagonales. Definición 2.1 (Expresión matricial) Una

Más detalles

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES 1 APRENDIZAJE PROBABILÍSTICO NAIVE BAYES Bases de Datos Masivas 9 de Noviembre de 2016 2 Razonamiento Probabilístico Es una herramienta de aprendizaje estadístico. Se trata de razonar en un contexto incierto;

Más detalles

[20380] Visió per Computador Prueba 2 (2013) Teoria (10p) (una pregunta test fallada descuenta 1/4 de pregunta acertada)

[20380] Visió per Computador Prueba 2 (2013) Teoria (10p) (una pregunta test fallada descuenta 1/4 de pregunta acertada) 102784 [20380] Visió per Computador Prueba 2 (2013) Teoria (10p) (una pregunta test fallada descuenta 1/4 de pregunta acertada) 1. En cuál de estas posibles aplicaciones podríamos utilizar una característica

Más detalles

Inteligencia Artificial: Su uso para la investigación

Inteligencia Artificial: Su uso para la investigación Inteligencia Artificial: Su uso para la investigación Dra. Helena Montserrat Gómez Adorno Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas helena.adorno@iimas.unam.mx 1 Introducción

Más detalles

Máquinas de vectores soporte con R

Máquinas de vectores soporte con R Máquinas de vectores soporte con R Datos Cargamos la librería en la que se encuentran las funciones que vamos a utilizar y el fichero con los datos necesarios: library(mass) library(e1071) load(url('http://www.uam.es/joser.berrendero/datos/practica-svm-io.rdata'))

Más detalles

Ciencia de Datos con Python

Ciencia de Datos con Python Ciencia de Datos con Python Tutor: El curso será impartido por el Dr. Oldemar Rodriguez Rojas. El Dr Rodríguez realizó sus estudios doctorales en la Universidad de París IX Dauphine, Francia y un Posdoctorado

Más detalles

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR Tareas de la minería de datos: clasificación PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja o asocia datos

Más detalles

Random Forests. Teoría y ejemplos. Romain Gouron. Conferencia 9, GLAM, Doble titulo Ecole Centrale de Nantes (Francia)

Random Forests. Teoría y ejemplos. Romain Gouron. Conferencia 9, GLAM, Doble titulo Ecole Centrale de Nantes (Francia) Teoría y ejemplos 1 1 Departamiento de Ingenería Matemática Doble titulo Ecole Centrale de Nantes (Francia) Conferencia 9, GLAM, 2016 Outline 1 Árboles de decisión Construcción 2 3 Rotation forest Gradient

Más detalles

Uso de Algoritmos de Machine Learning en la Construcción de Mapas de Pobreza: Venezuela Omar Zambrano

Uso de Algoritmos de Machine Learning en la Construcción de Mapas de Pobreza: Venezuela Omar Zambrano Uso de Algoritmos de Machine Learning en la Construcción de Mapas de Pobreza: Venezuela 2012-2016 Omar Zambrano Taller regional sobre desagregación de estadísticas sociales mediante metodologías de estimación

Más detalles

Inteligencia de Negocio Curso

Inteligencia de Negocio Curso Inteligencia de Negocio Curso 2018-2019 La asignatura Inteligencia de Negocio se centrará el estudio y diseño de técnicas de extracción de conocimiento utilizadas en el área de Business Analytics/ciencia

Más detalles