ANÁLISIS DE DATOS. Jesús García Herrero

Documentos relacionados
Reconocimiento de Patrones

CRITERIOS DE SELECCIÓN DE MODELOS

Análisis de Datos. Validación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

CURSO: ANALISIS ESTADISTICO DE RIESGOS

Aprendizaje Automatizado

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

INDICE. Prólogo a la Segunda Edición

PROBLEMAS SOBRE V. ESTAD. BIDIMENSIONALES. PROFESOR: ANTONIO PIZARRO.

ENUNCIADO y SOLUCIONES. Problema 1

Tema: Análisis de valores faltantes con SPSS

ANÁLISIS DE REGRESIÓN

Análisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Medios de Transmisión Práctica Final Simulación de un Sistema de Transmisión Digital Banda Base

Posibles trabajos HIA

Universidad Nacional Abierta Estadística General (745) Vicerrectorado Académico Cód. Carrera: Área de Matemática Fecha:

PRUEBAS DE ACCESO A LA UNIVERSIDAD L.O.G.S.E

INCERTIDUMBRE DE LA MEDIDA

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

PRUEBAS DE ACCESO A LA UNIVERSIDAD MATERIAS DE MODALIDAD: FASES GENERAL Y ESPECÍFICA CURSO

Carrera: Ingeniería Civil CIM 0531

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Aprendizaje Supervisado K - Vecinos más cercanos Knn-Method

Prueba Integral Lapso /6

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

SEPTIEMBRE Opción A

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

UNIVERSIDAD DE ATACAMA

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

CORRELACIÓN Y REGRESIÓN. Juan José Hernández Ocaña

OPCIÓN A. A1. Se ha realizado un test de habilidad espacial a un grupo de niños y se han obtenido los resultados reflejados en la siguiente tabla:

Aprendizaje Automatizado. Árboles de Clasificación

Diplomado en Estadística e Investigación Científica

Carrera: Ingeniería Civil Participantes Comité de Evaluación Curricular de Institutos Tecnológicos

Métodos de Inteligencia Artificial

Lección 3. Análisis conjunto de dos variables

INGENIERÍA INFORMÁTICA DE GESTIÓN Junio 2005

Inducción de Árboles de Decisión ID3, C4.5

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

II. 2. Análisis manual de imágenes médicas: Análisis de la curva ROC (Receiver Operating Characteristic).

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

Tema 10: Introducción a los problemas de Asociación y Correlación

Tema 2. Regresión Lineal

GLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.

Aplicaciones de apoyo al diagnóstico médico. Identificación de objetos amigos y enemigos. Identificación de zonas afectadas por un desastre natural.

Apéndice A: Matrices de confusión y resultados de precisión, exhaustividad y medida F

Evaluación de Modelos (II) Carlos Hurtado L. Departamento de Ciencias de la Computación, U de Chile

Econometría II. Tema 1: Revisión del Modelo de Regresión Múltiple Ejercicios

LA ESTADÍSTICA APLICADA AL ANÁLISIS ECONÓMICO. Introducción 1

OPCIÓN A. x 2 2x si x < 1,

ESTADÍSTICA. Tema 4 Regresión lineal simple

ESTIMACION DEL TAMAÑO DE LA MUESTRA Y DE LA POTENCIA

Sesión 2: Teoría de Probabilidad

GENERACION DE NUMEROS ALEATORIOS Y VARIABLES ALEATORIAS

Syllabus. Curso:SEXTO. Materia:ESTUDIOS MATEMÁTICOS

PRUEBA DE BONDAD DE AJUSTE O PRUEBA CHI - CUADRADO

Escuela Nacional de Estadística e Informática ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

Grado en IIAA y Grado en IHJ Asignatura: Estadística Aplicada. Curso Examen de prácticas de FEBRERO 2013

UNIVERSIDADES PÚBLICAS DE LA COMUNIDAD DE MADRID PRUEBA DE ACCESO A LAS ENSEÑANZAS UNIVERSITARIAS OFICIALES DE GRADO

Censo Nacional de Población, Hogares y Viviendas 2010

Árboles de Decisión Árboles de Sintaxis

PRÁCTICA 6: CONTASTE DE HIPÓTESIS

Tema 4. Regresión lineal simple

4º ESO APLICADA ESTÁNDARES DE APRENDIZAJE EVALUABLES CRITERIOS DE EVALUACIÓN Y COMPETENCIAS CLAVE

Jesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL

12. (SEPTIEMBRE 2004) Una muestra aleatoria de 9 tarrinas de helado proporciona los siguientes pesos en gramos

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

ESTADÍSTICA Hoja 2

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.

I.T.Industrial Métodos Estadísticos ProblemasdeRepaso

Análisis descriptivo con SPSS. Favio Murillo García

EXAMEN DE ESTADÍSTICA Septiembre 2011

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8.

CDEE. Cuestiones 3er Ejercicio. 0 si x 1. k(x + 1) + x2 1. k(x + 1) x si x > 1

Teoría de la decisión

Tema 4: Probabilidad y Teoría de Muestras

Diplomado en Estadística Aplicada Coordinador Académico: Dr. Rubén Hernández Cid

PLANES CURRICULARES GRADO9º/ 01 PERIODO

UNIVERSIDAD AUTÓNOMA DE CHIAPAS FACULTAD DE INGENIERÍA CAMPUS I PROBABILIDAD Y ESTADISTICA

ARBOLES DE DECISION. Miguel Cárdenas-Montes. 1 Introducción. Objetivos: Entender como funcionan los algoritmos basados en árboles de decisión.

EJERCICIOS DE SELECTIVIDAD

Tema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 11 -

OPCIÓN A. La empresa A (x) tiene 30 trabajadores, la B (y) 20 trabajadores y la C (z) 13 trabajadores.

4.1 Análisis bivariado de asociaciones

Conceptos de Estadística

Object Recognition as Machine Translation: Learning a Lexicon for a Fixed Image Vocabulary

4. Regresión Lineal Simple

Qué es una regresión lineal?

7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL. Jorge Eduardo Ortiz Triviño

CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES

EJERCICIOS. Curso: Estadística. Profesores: Mauro Gutierrez Martinez Christiam Miguel Gonzales Chávez. Cecilia Milagros Rosas Meneses

UNIVERSIDAD AUTÓNOMA DE CHIAPAS FACULTAD DE INGENIERÍA CAMPUS I PROBABILIDAD Y ESTADÍSTICA

UNIVERSIDADES DE ANDALUCÍA PRUEBA DE ACCESO A LA UNIVERSIDAD OPCIÓN A

Sistemas de Reconocimiento de Patrones

Transcripción:

ANÁLISIS DE DATOS Jesús García Herrero

ANALISIS DE DATOS EJERCICIOS Una empresa de seguros de automóviles quiere utilizar los datos sobre sus clientes para obtener reglas útiles que permita clasificar nuevos clientes en dos categorías, alto riesgo (A) y bajo riesgo (B), disponiéndose únicamente de dos atributos: la edad y el sexo. A partir de datos de siniestralidad referidos a un periodo de tiempo determinado, se dispone de la siguiente información acerca de los atributos: Se ha estimado la distribución de probabilidad del atributo edad como una variable normal con los siguientes parámetros para cada clase: - clientes tipo A: edad media: 21 años, desviación estándar: 2 años - clientes tipo B: edad media: 45 años, desviación estándar: 6 años En cuanto al atributo sexo, se dispone de la siguiente tabla resumen con todos los clientes existentes Clase A (alto riesgo) B (bajo riesgo) Sexo Hombre 900 600 Mujer 300 900 Se pide: 1. Utilizando un clasificador de tipo bayesiano, con independencia entre atributos, determinar las reglas que permitan clasificar a un cliente nuevo en función de su sexo y edad. 2. Indicar las reglas para los casos de disponerse sólo de la edad y sólo del sexo del cliente 3. Determinar las nuevas reglas que se aplicarían en el primer caso (ambos atributos disponibles) si se considerara que es el doble de costoso clasificar incorrectamente a un cliente de tipo A como de tipo B que la situación de clasificar a uno de tipo B como de tipo A. Ejercicio 2 Una empresa de venta telefónica dispone de una muestra de datos acerca de 1000 familias, y de una herramienta de análisis de datos que predice si una familia responderá o no de forma positiva a la oferta de un producto determinado. Se dispone de un sencillo modelo bastante fiable del comportamiento de las familias, que estima que únicamente el 10% de las familias estarán interesadas en el producto, y que además ha permitido, mediante simulación, evaluar la capacidad de predicción de la herramienta. La evaluación proporciona la matriz de confusión, definida de la forma siguiente: Clase Sí No Clase Predicha Real Sí TP FN No FP TN Los valores de la matriz de confusión contienen el número de casos que aparecen en las posibles situaciones de: acierto en predicción positiva (TP), fallo en predicción positiva (FP), fallo en predicción negativa (FN), acierto en predicción negativa (TN). El algoritmo de clasificación dispone además de un parámetro de ajuste, p, que permite variar los costes relativos de los dos tipos de error, FN y FP. Esto ha permitido llevar a cabo 5 simulaciones sobre los datos de las 1000 familias con diferentes valores de este parámetro, llegando a los resultados que se indican a continuación:

Sí 40 60 No 160 740 p=1 Sí 80 20 No 320 580 p=2 Sí 90 10 No 510 390 p=3 Sí 95 5 No 705 195 p=4 Sí 100 0 No 900 0 p=5

Se pide: 1. Representar la gráfica con el factor de elevado (lift chart) en la que figure el número de familias que compran el producto frente al porcentaje de familias que es seleccionado para llamarlas realizar la oferta. Comentar como varían los dos tipos de error de clasificación a lo largo de la coordenada horizontal y superponer a esta gráfica los valores esperados en el caso de que la selección fuese aleatoria en lugar de utilizar la herramienta de análisis de datos. 2. Representar la ganancia de clasificación, definida como el cociente entre los valores de familias que compran el producto al utilizar la herramienta y al hacer selección aleatoria, para cada uno de los porcentajes de familias a los que se les hace la oferta. Determinar en qué situación se optimiza esta ganancia. 3. Representar en una gráfica, para cada valor de porcentaje de familias enviadas, la tasa de error global de clasificación de la herramienta, y el extremo superior del intervalo de confianza al 95%. Para ello puede suponerse que el error cometido al estimar una probabilidad con un valor P con N datos puede aproximarse como una variable estadística normal de media nula y varianza P(1-P)/N, y sabiendo que en una variable normal estandarizada z 2.5% =1.96 4. Suponiendo que el coste de llamada es de 0.2 euros y que cada producto vendido supone un ingreso de 5 euros, representar el beneficio en función del porcentaje de familias llamadas y determinar a cuántas habría que llamar para maximizar el beneficio.

Ejercicio 3 Dada la hipotética muestra de datos de entrenamiento siguiente: Atributos: PATAS: {NINGUNA, DOS, MAYOR_QUE_DOS} ACUÁTICO: {SI, NO} PLUMAS: {SI, NO} Datos: CLASE: {Ave, Pulpo, Humano, Pez} PATAS ACUATICO PLUMAS CLASE DOS NO SÍ Ave MAYOR_QUE_DOS SI NO Pulpo DOS NO NO Humano NINGUNA SÍ NO Pez 1. Realizar un seguimiento detallado del algoritmo ID3 para construir el árbol de decisión para clasificar el animal según los tres atributos considerados. 2. Realizar un seguimiento detallado de un algoritmo de aprendizaje de reglas en escalada (de tipo PRISM ), con criterios de preferencia de precisión y cobertura. 3. Cómo puede mejorarse ID3 para tratar con atributos con múltiples valores, valores continuos y sobreajuste? 4. Cómo se puede evitar el sobreajuste en un sistema de aprendizaje de reglas? Ejercicio 4 Se tiene una situación con datos numéricos de dos atributos continuos, x e y, y con dos clases posibles, A y B. Se sabe que los datos proceden de distribuciones estadísticas con las siguientes características y parámetros: Probabilidades de clase: p(a)=0.6, p(b)=0.4 A 0 0, 5 2 SA 2 5 1 1 x f ((x, y) A) exp x y S 1 A 2 SA 2 y Clase B: distribución uniforme sobre el atributo x en el intervalo [-1,1] e independiente del atributo y 1/ 2, x 1,1 f ((x, y) B) 0, en el resto Clase A: normal bivariada de parámetros t 1. Diseñar el clasificador óptimo con un criterio bayesiano que a partir de un dato (x1,y1) determine la clase con mínimo error medio. 2. Modificar el clasificador anterior para que el criterio sea minimizar el coste medio si se penaliza el doble el error de clasificar un dato de la clase B como de la clase A que clasificar un dato de la clase A como de la clase B. 3. Si en lugar de conocer los parámetros de las distribuciones se dispusiera de una muestra representativa y un algoritmo de entrenamiento de tipo Bayes ingenuo con modelo de distribuciones normal, en qué cambiarían los clasificadores anteriores?

4. Cuál sería el criterio de clasificación con datos incompletos (sólo se dispone de x, de y o de ninguno)? Ejercicio 5 Dada la siguiente muestra de entrenamiento de datos con dos atributos numéricos (x e y), perteneciente a tres clases posibles (representadas con cuadrados, círculos y triángulos), dibujar y razonar las fronteras de decisión si se utilizan los siguientes clasificadores clasificador de vecino más próximo (IB1) clasificación mediante regresión lineal (multiclase e interclase) C4.5 (sin poda del árbol) clasificador bayesiano ( Bayes Ingenuo ) 2 1 0 0 1 2 3-1

Ejercicio 6 Una empresa de seguros de automóviles quiere utilizar los datos sobre sus clientes para obtener reglas útiles que permita clasificar nuevos clientes en dos categorías, alto riesgo (A) y bajo riesgo (B), disponiéndose únicamente de dos atributos: la edad y el sexo. A partir de datos de siniestralidad referidos a un periodo de tiempo determinado, se dispone de la siguiente información acerca de los atributos: Se ha estimado la distribución de probabilidad del atributo edad como una variable normal con los siguientes parámetros para cada clase: - clientes tipo A: edad media: 21 años, desviación estándar: 2 años - clientes tipo B: edad media: 45 años, desviación estándar: 6 años En cuanto al atributo sexo, se dispone de la siguiente tabla resumen con todos los clientes existentes Clase A (alto riesgo) B (bajo riesgo) Sexo Hombre 900 600 Mujer 300 900 Se pide: 4. Utilizando un clasificador de tipo bayesiano, con independencia entre atributos, determinar las reglas que permitan clasificar a un cliente nuevo en función de su sexo y edad. 5. Indicar las reglas para los casos de disponerse sólo de la edad y sólo del sexo del cliente 6. Determinar las nuevas reglas que se aplicarían en el primer caso (ambos atributos disponibles) si se considerara que es el doble de costoso clasificar incorrectamente a un cliente de tipo A como de tipo B que la situación de clasificar a uno de tipo B como de tipo A.