MINERÍA DE DATOS TÉCNICAS PREDICTIVAS DE MODELIZACIÓN TÉCNICAS DE MINERÍA DE DATOS TÉCNICAS DE MINERÍA DE DATOS TÉCNICAS DE MINERÍA DE DATOS

Tamaño: px
Comenzar la demostración a partir de la página:

Download "MINERÍA DE DATOS TÉCNICAS PREDICTIVAS DE MODELIZACIÓN TÉCNICAS DE MINERÍA DE DATOS TÉCNICAS DE MINERÍA DE DATOS TÉCNICAS DE MINERÍA DE DATOS"

Transcripción

1 MINERÍA DE DATOS TÉCNICAS PREDICTIVAS DE TÉCNICAS DE MINERÍA DE DATOS TÉCNICAS DE MINERÍA DE DATOS..... MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 1 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 2 TÉCNICAS DE MINERÍA DE DATOS LA FASE DE TÉCNICAS DE MINERÍA DE DATOS PROPIAMENTE DICHAS ENGLOBA: TÉCNICAS PREDICTIVAS ENFOCADAS A LA Y CLASIFICACIÓN AD HOC. TÉCNICAS DESCRIPTIVAS ENFOCADAS GENERALMENTE A LA CLASIFICACIÓN POST HOC Y OTRO TIPO DE TÉCNICAS VARIADAS. TÉCNICAS DE MINERÍA DE DATOS TÉCNICAS PREDICTIVAS: ESPECIFICAN EL MODELO PARA LOS DATOS EN BASE A UN CONOCIMIENTO TEÓRICO PREVIO. EL MODELO SUPUESTO DEBE CONTRASTARSE DESPUÉS DEL PROCESO DE MINERÍA DE DATOS ANTES DE ACEPTARLO COMO VÁLIDO. INCLUYEN TODOS LOS TIPOS DE: REGRESIÓN. SERIES TEMPORALES. ANÁLISIS DE LA VARIANZA Y COVARIANZA. ANÁLISIS. ÁRBOLES DE DECISIÓN. REDES NEURONALES. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 3 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 4 TÉCNICAS DE MINERÍA DE DATOS TÉCNICAS PREDICTIVAS: LOS ÁRBOLES DE DECISIÓN, LAS REDES NEURONALES Y EL ANÁLISIS SON A SU VEZ TÉCNICAS DE CLASIFICACIÓN: PUEDEN EXTRAER PERFILES DE COMPORTAMIENTO O CLASES, SIENDO EL OBJETIVO CONSTRUIR UN MODELO QUE PERMITA CLASIFICAR CUALQUIER NUEVO DATO. LOS ÁRBOLES DE DECISIÓN PERMITEN CLASIFICAR LOS DATOS EN GRUPOS BASADOS EN LOS VALORES DE LAS VARIABLES: EL MECANISMO CONSISTE EN ELEGIR UN ATRIBUTO COMO RAÍZ Y DESARROLLAR EL ÁRBOL SEGÚN LAS VARIABLES MÁS SIGNIFICATIVAS. TÉCNICAS DE MINERÍA DE DATOS EJEMPLOS PREDICTIVOS: INTERPOLACIÓN: PREDICCIÓN SECUENCIAL: 1, 2, 3, 5, 7, 11, 13, 17, 19,...?. APRENDIZAJE SUPERVISADO: ?. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 5 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 6

2 TÉCNICAS DE MINERÍA DE DATOS TÉCNICAS DESCRIPTIVAS: NO SE ASIGNA NINGÚN PAPEL PREDETERMINADO A LAS VARIABLES. NO SE SUPONE LA EXISTENCIA DE VARIABLES DEPENDIENTES NI INDEPENDIENTES Y TAMPOCO SE SUPONE LA EXISTENCIA DE UN MODELO PREVIO PARA LOS DATOS. LOS MODELOS SE CREAN AUTOMÁTICAMENTE PARTIENDO DEL RECONOCIMIENTO DE PATRONES. INCLUYEN: CLUSTERING Y SEGMENTACIÓN (QUE TAMBIÉN SON TÉCNICAS DE CLASIFICACIÓN EN CIERTO MODO). ASOCIACIÓN Y DEPENDENCIA. ANÁLISIS EXPLORATORIO DE DATOS. REDUCCIÓN DE LA DIMENSIÓN FACTORIAL, COMPONENTES PRINCIPALES, CORRESPONDENCIAS, ETC. TÉCNICAS DE MINERÍA DE DATOS EJEMPLOS DESCRIPTIVOS: SEGMENTACIÓN (APRENDIZAJE NO SUPERVISADO): CUÁNTOS GRUPOS HAY?. QUÉ GRUPOS FORMO?. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 7 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 8 TÉCNICAS DE MINERÍA DE DATOS TÉCNICAS DE MINERÍA DE DATOS Técnicas de minería Predictivas Descriptivas Modelización Clasificación ad hoc Clasificación post hoc Asociación Dependencia Reducción de la dimensión Regresión Modelos de elección discreta Análisis de la varianza Análisis canónico Redes Neuronales Discriminante Árboles de decisión Clustering Segmentación LAS TÉCNICAS DE CLASIFICACIÓN PUEDEN PERTENECER: AL GRUPO DE TÉCNICAS PREDICTIVAS:, ÁRBOLES DE DECISIÓN Y REDES NEURONALES. AL GRUPO DE TÉCNICAS DESCRIPTIVAS: CLUSTERING Y SEGMENTACIÓN. LAS TÉCNICAS DE CLASIFICACIÓN PREDICTIVAS SUELEN DENOMINARSE TÉCNICAS DE CLASIFICACIÓN AD HOC: CLASIFICAN INDIVIDUOS U OBSERVACIONES DENTRO DE GRUPOS PREVIAMENTE DEFINIDOS. LAS TÉCNICAS DE CLASIFICACIÓN DESCRIPTIVAS SE DENOMINAN TÉCNICAS DE CLASIFICACIÓN POST HOC: REALIZAN CLASIFICACIÓN SIN ESPECIFICACIÓN PREVIA DE LOS GRUPOS. LAS REDES NEURONALES PUEDEN UTILIZARSE TANTO PARA LA COMO PARA LA CLASIFICACIÓN. Análisis exploratorio MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 9 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 10 REVISIÓN DE CONCEPTOS PREVIOS VARIANZA SI SE TIENE UN CONJUNTO DE DATOS DE UNA MISMA VARIABLE, LA VARIANZA SE CALCULA DE LA SIGUIENTE FORMA: : CADA DATO. n: N DE ELEMENTOS. : MEDIA ARITMÉTICA DE LOS DATOS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 11 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 12

3 REVISIÓN DE CONCEPTOS PREVIOS COVARIANZA PARA HACER EL ESTUDIO CONJUNTO DE LAS VARIABLES CUANTITATIVAS X E Y, SE SUPONE QUE SE DISPONE DE UNA MUESTRA DE n PARES DE OBSERVACIONES DE X E Y: REVISIÓN DE CONCEPTOS PREVIOS MODELO DE REGRESIÓN LINEAL LA RECTA DE REGRESIÓN DE Y SOBRE X ES LA RECTA y = a + bx QUE MINIMIZA EL ERROR CUADRÁTICO MEDIO (E.C.M.): LA COVARIANZA MUESTRAL ENTRE LAS OBSERVACIONES DE X E Y SE DEFINE COMO: EL COEFICIENTE DE CORRELACIÓN LINEAL ENTRE X E Y SE DEFINE COMO: MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 13 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 14 REVISIÓN DE CONCEPTOS PREVIOS COEFICIENTE DE CORRELACIÓN PARCIAL ES LA RELACIÓN ENTRE DOS VARIABLES CUANDO SE HA ELIMINADO DE CADA UNA DE ELLAS EL EFECTO QUE SOBRE ELLAS TIENE UNA TERCERA VARIABLE: X, Y SON LAS VARIABLES OBJETO DEL ESTUDIO. Z ES LA VARIABLE DE CONTROL. CONSISTE EN ESTUDIAR LAS CORRELACIONES Y COMBINARLAS: TÉCNICAS PARA LA LA CLASIFICACIÓN DE LAS TÉCNICAS DISCRIMINA ENTRE LA EXISTENCIA O NO DE VARIABLES EXPLICATIVAS Y EXPLICADAS. TÉCNICAS PREDICTIVAS O MÉTODOS EXPLICATIVOS: EXISTE UNA DEPENDENCIA ENTRE LAS VARIABLES EXPLICADAS Y SUS VARIABLES EXPLICATIVAS, QUE PUEDA PLASMARSE EN UN MODELO. ESTAS TÉCNICAS DE ANÁLISIS DE LA DEPENDENCIA: PUEDEN CLASIFICARSE EN FUNCIÓN DE LA NATURALEZA MÉTRICA O NO MÉTRICA DE LAS VARIABLES INDEPENDIENTES Y DEPENDIENTES. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 15 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 16 Métricas VARIABLE DEPENDIENTE Simple Regresión lineal múltiple Métrica Múltiple Análisis canónico No métrica VARIABLES INDEPENDIENTES Análisis Discriminante Modelos de elección discreta ANOVA ANCOVA Regresión lineal con variables ficticias No métricas VARIABLE DEPENDIENTE Simple Métrica Múltiple No métrica MANOVA MANCOVA Modelos de elección discreta con variables ficticias EL ANÁLISIS DE REGRESIÓN MÚLTIPLE: ES UTILIZADO PARA ANALIZAR LA RELACIÓN ENTRE: UNA VARIABLE DEPENDIENTE (O ENDÓGENA) MÉTRICA. VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) TAMBIÉN MÉTRICAS. EL OBJETIVO ESENCIAL ES UTILIZAR LAS VARIABLES INDEPENDIENTES, CUYOS VALORES SON CONOCIDOS, PARA PREDECIR LA ÚNICA VARIABLE CRITERIO (DEPENDIENTE) SELECCIONADA POR EL INVESTIGADOR. LA EXPRESIÓN ES LA SIGUIENTE: y = F(x 1, x 2,, x n ) DONDE INICIALMENTE, TANTO LA VARIABLE DEPENDIENTE y COMO LAS INDEPENDIENTES x i SON MÉTRICAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 17 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 18

4 TAMBIÉN SE PUEDE TRABAJAR CON VARIABLES INDEPENDIENTES NO MÉTRICAS SI SE EMPLEAN VARIABLES FICTICIAS PARA SU TRANSFORMACIÓN EN MÉTRICAS: MODELOS DE REGRESIÓN CON VARIABLES FICTICIAS. EL ANÁLISIS CANÓNICO O ANÁLISIS DE LA CORRELACIÓN CANÓNICA: ES UNA TÉCNICA PARA ANALIZAR LA RELACIÓN ENTRE MÚLTIPLES VARIABLES DEPENDIENTES (O ENDÓGENAS) MÉTRICAS Y VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) TAMBIÉN MÉTRICAS. EL OBJETIVO ESENCIAL ES UTILIZAR LAS VARIABLES INDEPENDIENTES, CUYOS VALORES SON CONOCIDOS, PARA PREDECIR LAS VARIABLES CRITERIO (DEPENDIENTES). LA EXPRESIÓN ES LA SIGUIENTE: G(y 1, y 2,, y n ) = F(x 1, x 2,, x n ) DONDE INICIALMENTE, TANTO LAS VARIABLES DEPENDIENTES y i COMO LAS INDEPENDIENTES x i SON MÉTRICAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 19 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 20 ES UNA AMPLIACIÓN DEL AL CASO DE VARIAS VARIABLES DEPENDIENTES. TAMBIÉN PUEDE EXTENDERSE AL CASO DE VARIABLES DEPENDIENTES NO MÉTRICAS Y AL CASO DE VARIABLES INDEPENDIENTES NO MÉTRICAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 21 EL ANÁLISIS : SE USA PARA ANALIZAR LA RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE (O ENDÓGENA) NO MÉTRICA (CATEGÓRICA) Y VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) MÉTRICAS. EL OBJETIVO ES UTILIZAR LOS VALORES CONOCIDOS DE LAS VARIABLES INDEPENDIENTES PARA PREDECIR CON QUÉ CATEGORÍA DE LA VARIABLE DEPENDIENTE SE CORRESPONDEN. SE PUEDE PREDECIR EN QUÉ CATEGORÍA DE RIESGO CREDITICIO SE ENCUENTRA UNA PERSONA, EL ÉXITO DE UN PRODUCTO EN EL MERCADO, ETC. LA EXPRESIÓN ES: y = F(x 1, x 2,, x n ) DONDE y (DEPENDIENTE) ES NO MÉTRICA Y LAS VARIABLES INDEPENDIENTES SON MÉTRICAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 22 ES UN CASO PARTICULAR DEL ANÁLISIS DE REGRESIÓN MÚLTIPLE. ES UNA TÉCNICA DE CLASIFICACIÓN QUE PERMITE: AGRUPAR A LOS ELEMENTOS DE UNA MUESTRA EN DOS O MÁS CATEGORÍAS DIFERENTES, PREDEFINIDAS EN UNA VARIABLE DEPENDIENTE NO MÉTRICA, EN FUNCIÓN DE UNA SERIE DE VARIABLES INDEPENDIENTES MÉTRICAS COMBINADAS LINEALMENTE. PARA VALORES DADOS DE LAS VARIABLES INDEPENDIENTES SE DEBE PREDECIR LA PROBABILIDAD DE PERTENENCIA A UNA CATEGORÍA O CLASE DE LA VARIABLE DEPENDIENTE: EJEMPLO: SEGÚN ALGUNAS VARIABLES MEDIDAS EN EL INDIVIDUO, PREDECIR LA PROBABILIDAD DE QUE: UN INDIVIDUO COMPRE UN PRODUCTO. UN INDIVIDUO DEVUELVA UN CRÉDITO. : TIENEN LA MISMA NATURALEZA QUE EL MODELO. SE PREDICE LA PROBABILIDAD DE PERTENENCIA A UNA CATEGORÍA (CLASE) PARA VALORES DADOS DE LAS VARIABLES DEPENDIENTES. PREDICEN DIRECTAMENTE LA PROBABILIDAD DE OCURRENCIA DE UN SUCESO QUE VIENE DEFINIDO POR LOS VALORES DE LAS VARIABLES INDEPENDIENTES. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 23 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 24

5 UN CASO PARTICULAR DEL ES EL MODELO LINEAL DE PROBABILIDAD: P i = F(x i,β) + u i SI F ES LA FUNCIÓN DE DISTRIBUCIÓN DE UNA VARIABLE ALEATORIA, ENTONCES P VARÍA ENTRE 0 Y 1. SI F ES LA FUNCIÓN LOGÍSTICA SE TIENE EL MODELO LOGIT O REGRESIÓN LOGÍSTICA: SI F ES LA FUNCIÓN DE DISTRIBUCIÓN DE UNA NORMAL UNITARIA SE TIENE EL MODELO PROBIT: EL ANÁLISIS DE LA VARIANZA SIMPLE SE UTILIZA PARA ANALIZAR LA RELACIÓN ENTRE: UNA VARIABLE DEPENDIENTE (O ENDÓGENA) MÉTRICA Y VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) NO MÉTRICAS. EL OBJETIVO ES DETERMINAR SI DIVERSAS MUESTRAS PROCEDEN DE POBLACIONES CON IGUAL MEDIA. LOS VALORES NO MÉTRICOS DE LAS VARIABLES INDEPENDIENTES DETERMINARÁN UNA SERIE DE GRUPOS EN LA VARIABLE DEPENDIENTE. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 25 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 26 EL MODELO ANOVA MIDE LA SIGNIFICACIÓN ESTADÍSTICA DE LAS DIFERENCIAS ENTRE LAS MEDIAS DE LOS GRUPOS DETERMINADOS EN LA VARIABLE DEPENDIENTE POR LOS VALORES DE LAS VARIABLES INDEPENDIENTES: y = F(x 1, x 2,, x n ) DONDE LA VARIABLE DEPENDIENTE y ES MÉTRICA Y LAS VARIABLES INDEPENDIENTES SON NO MÉTRICAS. SE TRATA POR TANTO DE OTRO CASO PARTICULAR DEL. EL ANÁLISIS DE LA COVARIANZA SIMPLE ES UNA TÉCNICA UTILIZADA PARA ANALIZAR LA RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE (O ENDÓGENA) MÉTRICA Y VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS), PARTE DE LAS CUALES SON NO MÉTRICAS, SIENDO LA OTRA PARTE MÉTRICAS (COVARIABLES): y = F(x 1, x 2,, x n ) DONDE LA VARIABLE DEPENDIENTE y ES MÉTRICA Y LAS VARIABLES INDEPENDIENTES SON ALGUNAS MÉTRICAS Y OTRAS NO MÉTRICAS. ES OTRO CASO PARTICULAR DEL MODELO DE REGRESIÓN MÚLTIPLE. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 27 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 28 EL ANÁLISIS DE LA VARIANZA MÚLTIPLE ES UNA TÉCNICA UTILIZADA PARA ANALIZAR LA RELACIÓN ENTRE: VARIAS VARIABLES DEPENDIENTES (O ENDÓGENAS) MÉTRICAS Y VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) NO MÉTRICAS. EL OBJETIVO ES CONTRASTAR SI LOS VALORES NO MÉTRICOS DE LAS VARIABLES INDEPENDIENTES DETERMINARÁN LA IGUALDAD DE VECTORES DE MEDIAS DE UNA SERIE DE GRUPOS DETERMINADOS POR ELLOS EN LAS VARIABLES DEPENDIENTES. EL MODELO MANOVA MIDE LA SIGNIFICACIÓN ESTADÍSTICA DE LAS DIFERENCIAS ENTRE LOS VECTORES DE MEDIAS DE LOS GRUPOS DETERMINADOS EN LAS VARIABLES DEPENDIENTES POR LOS VALORES DE LAS VARIABLES INDEPENDIENTES. LA EXPRESIÓN ES: G(y 1, y 2,, y m ) = F(x 1, x 2,, x n ) DONDE LAS VARIABLES DEPENDIENTES SON MÉTRICAS Y LAS VARIABLES INDEPENDIENTES SON NO MÉTRICAS. ES OTRO CASO PARTICULAR DE LA REGRESIÓN MÚLTIPLE. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 29 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 30

6 EL ANÁLISIS DE LA COVARIANZA MÚLTIPLE SE USA PARA ANALIZAR LA RELACIÓN ENTRE: VARIAS VARIABLES DEPENDIENTES (O ENDÓGENAS) MÉTRICAS Y VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) MEZCLA DE VARIABLES MÉTRICAS Y NO MÉTRICAS. LA EXPRESIÓN ES: G(y 1, y 2,, y m ) = F(x 1, x 2,, x n ) DONDE LAS VARIABLES DEPENDIENTES SON MÉTRICAS Y LAS VARIABLES INDEPENDIENTES SON UNA PARTE MÉTRICAS Y OTRA PARTE NO MÉTRICAS. EN EL ANÁLISIS DE LA COVARIANZA (SIMPLE Y MÚLTIPLE): LAS VARIABLES MÉTRICAS INDEPENDIENTES (COVARIABLES) TIENEN COMO OBJETIVO ELIMINAR DETERMINADOS EFECTOS QUE PUEDAN SESGAR LOS RESULTADOS INCREMENTANDO LA VARIANZA DENTRO DE LOS GRUPOS: ELIMINAR, MEDIANTE UNA REGRESIÓN LINEAL, LA VARIACIÓN EXPERIMENTADA POR LAS VARIABLES DEPENDIENTES PRODUCIDA POR LA COVARIABLE O COVARIABLES DE EFECTOS INDESEADOS. HACER UN ANÁLISIS ANOVA O MANOVA SOBRE LAS VARIABLES DEPENDIENTES AJUSTADAS (RESIDUOS DE LA REGRESIÓN ANTERIOR). MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 31 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 32 LA REGRESIÓN MÚLTIPLE ADMITE LA POSIBILIDAD DE TRABAJAR CON VARIABLES INDEPENDIENTES NO MÉTRICAS SI SE EMPLEAN VARIABLES FICTICIAS PARA SU TRANSFORMACIÓN EN MÉTRICAS: A CADA CLASE DE LA VARIABLE NO MÉTRICA SE LE ASIGNA UN VALOR NUMÉRICO. EL CON VARIABLES FICTICIAS: ES SIMILAR AL ANÁLISIS DE LA REGRESIÓN MÚLTIPLE. LA DIFERENCIA ES QUE LAS VARIABLES INDEPENDIENTES PUEDEN SER TAMBIÉN NO MÉTRICAS. SE USA PARA ANALIZAR LA RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE (O ENDÓGENA) MÉTRICA Y VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) MÉTRICAS, NO MÉTRICAS O MEZCLA DE AMBAS. EL OBJETIVO ES UTILIZAR LAS VARIABLES INDEPENDIENTES, CUYOS VALORES SON CONOCIDOS, PARA PREDECIR LA ÚNICA VARIABLE CRITERIO (DEPENDIENTE). LA EXPRESIÓN ES: y = F(x 1, x 2,, x n ) MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 33 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 34 MÉTODOS DEL ANÁLISIS MULTIVARIANTE DE LA DEPENDENCIA, SEGÚN LA NATURALEZA DE SUS VARIABLES DEPENDIENTES E INDEPENDIENTES: TÉCNICA VARIABLES DEPENDIENTES ANOVA Y MANOVA Métrica (métricas) No métricas VARIABLES INDEPENDIENTES ANCOVA Y MANCOVA Métrica (métricas) Métricas y no métricas REGRESIÓN MÚLTIPLE Métrica Métricas REGRESIÓN MÚLTIPLE Métrica Métricas y no métricas (VARIABLES FICTICIAS) CORRELACIÓN CANÓNICA Métricas y no métricas Métricas y no métricas ELECCIÓN DISCRETA No métrica Métricas ELECCIÓN DISCRETA (VARIABLES FICTICIAS) No métrica Métricas y no métricas MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 35 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 36

7 LA REGRESIÓN MÚLTIPLE TIENE COMO OBJETIVO ANALIZAR UN MODELO QUE PRETENDE EXPLICAR EL COMPORTAMIENTO DE UNA VARIABLE (ENDÓGENA, EXPLICADA O DEPENDIENTE), Y, UTILIZANDO UN CONJUNTO DE VARIABLES EXPLICATIVAS (EXÓGENAS O INDEPENDIENTES), X 1, X 2,, X K. EL MODELO LINEAL (MODELO ECONOMÉTRICO) VIENE DADO POR: Y = b 0 +b 1 X 1 + b 2 X b k X k + u LOS COEFICIENTES (PARÁMETROS) b 1, b 2,, b k DENOTAN LA MAGNITUD DEL EFECTO QUE LAS VARIABLES EXPLICATIVAS (EXÓGENAS O INDEPENDIENTES) X 1, X 2,, X K TIENEN SOBRE LA VARIABLE EXPLICADA (ENDÓGENA O DEPENDIENTE) Y. EL COEFICIENTE b 0 SE DENOMINA TÉRMINO CONSTANTE (O INDEPENDIENTE) DEL MODELO. EL TÉRMINO u SE DENOMINA TÉRMINO DE ERROR DEL MODELO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 37 SI SE DISPONE DE UN CONJUNTO DE T OBSERVACIONES PARA C/U DE LAS VARIABLES ENDÓGENA Y EXÓGENAS, EL MODELO SE ESCRIBE DE LA FORMA: Y t = b 0 +b 1 X 1t + b 2 X 2t + + b k X kt + u t t=1,2,3,,t LA APARICIÓN (NO NECESARIA) DE UN TÉRMINO INDEPENDIENTE EN EL MODELO PUEDE INTERPRETARSE COMO LA PRESENCIA DE UNA PRIMERA VARIABLE X 0 CUYO VALOR SEA SIEMPRE 1. PROBLEMA FUNDAMENTAL: SUPONIENDO QUE LA RELACIÓN ENTRE LA VARIABLE Y Y EL CONJUNTO DE VARIABLES X 1, X 2,, X K ES COMO SE HA DESCRITO EN EL MODELO, Y QUE SE DISPONE DE UN CONJUNTO DE T OBSERVACIONES PARA C/U DE LAS VARIABLES, LA ENDÓGENA Y LAS EXÓGENAS, CÓMO PUEDEN ASIGNARSE VALORES NUMÉRICOS A LOS PARÁMETROS b 0, b 1, b 2,, b k, BASÁNDONOS EN LA INFORMACIÓN MUESTRAL?: ESTOS VALORES SE LLAMARÁN ESTIMACIONES DE LOS PARÁMETROS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 38 UNA VEZ ENCONTRADAS LAS ESTIMACIONES DE LOS PARÁMETROS DEL MODELO: SE PODRÁ HACER PREDICCIONES ACERCA DEL COMPORTAMIENTO FUTURO DE LA VARIABLE Y. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 39 EL MODELO LINEAL SE FORMULA BAJO LAS SIGUIENTES HIPÓTESIS: LAS VARIABLES,,,, SON DETERMINISTAS (NO SON VARIABLES ALEATORIAS), YA QUE SU VALOR ES UN VALOR CONSTANTE PROVENIENTE DE UNA MUESTRA TOMADA. LA VARIABLE u (TÉRMINO DE ERROR) ES UNA VARIABLE ALEATORIA CON ESPERANZA NULA Y MATRIZ DE COVARIANZAS CONSTANTE Y DIAGONAL (MATRIZ ESCALAR): PARA TODO t, LA VARIABLE u t, TIENE MEDIA CERO Y VARIANZA σ NO DEPENDIENTE DE t, Y ADEMÁS Cov(, )=0 PARA TODO i Y PARA TODO j DISTINTOS ENTRE SÍ: EL HECHO DE QUE LA VARIANZA DE SEA CONSTANTE PARA TODO t (QUE NO DEPENDA DE t), SE DENOMINA HIPÓTESIS DE HOMOSCEDASTICIDAD. EL HECHO DE QUE Cov(, )=0 PARA TODO i DISTINTO DE j SE DENOMINA HIPÓTESIS DE NO AUTOCORRELACIÓN. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 40 LA VARIABLE Y ES ALEATORIA, YA QUE DEPENDE DE LA VARIABLE ALEATORIA u. SE SUPONE LA AUSENCIA DE ERRORES DE ESPECIFICACIÓN: SE SUPONE QUE TODAS LAS VARIABLES X QUE SON RELEVANTES PARA LA EXPLICACIÓN DE LA VARIABLE Y, ESTÁN INCLUIDAS EN LA DEFINICIÓN DEL MODELO LINEAL. LAS VARIABLES X 1, X 2,, X K, SON LINEALMENTE INDEPENDIENTES: NO EXISTE RELACIÓN LINEAL EXACTA ENTRE ELLAS: HIPÓTESIS DE INDEPENDENCIA. CUANDO NO SE CUMPLE EL MODELO PRESENTA MULTICOLINEALIDAD. A VECES SE CONSIDERA LA HIPÓTESIS DE NORMALIDAD DE LOS RESIDUOS: LAS VARIABLES u t, SON NORMALES PARA TODO t. ESTIMACIÓN DEL MODELO LINEAL DE REGRESIÓN MÚLTIPLE SE SUPONE QUE SE QUIERE AJUSTAR EL MODELO DE REGRESIÓN LINEAL MÚLTIPLE: Y = b 0 +b 1 X 1 + b 2 X b k X k + u SE DISPONE DE UN CONJUNTO DE T OBSERVACIONES PARA CADA UNA DE LAS VARIABLES ENDÓGENA Y EXÓGENAS. EL MODELO ES: Y t = b 0 +b 1 X 1t + b 2 X 2t + + b k X kt + u t t=1,2,3,,t LA APARICIÓN (NO NECESARIA) DE UN TÉRMINO INDEPENDIENTE EN EL MODELO PUEDE INTERPRETARSE COMO LA PRESENCIA DE UNA PRIMERA VARIABLE X 0 CUYO VALOR SEA SIEMPRE 1. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 41 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 42

8 ESTIMACIÓN DEL MODELO LINEAL DE REGRESIÓN MÚLTIPLE EL CRITERIO DE MÍNIMOS CUADRADOS CONSIDERA QUE LA FUNCIÓN QUE MEJOR SE AJUSTA A LOS DATOS ES LA QUE MINIMIZA LA VARIANZA DEL ERROR e, LO QUE ES EQUIVALENTE A MINIMIZAR: S(b 0, b 1, b 2,, b k ) = = DERIVANDO RESPECTO DE LOS PARÁMETROS b 0, b 1,, b k, E IGUALANDO A CERO SE TIENE: ESTIMACIÓN DEL MODELO LINEAL DE REGRESIÓN MÚLTIPLE ESTAS ECUACIONES FORMAN UN SISTEMA DENOMINADO SISTEMA DE ECUACIONES NORMALES, QUE PUEDE RESOLVERSE PARA b 0, b 1,, b k MEDIANTE CUALQUIER MÉTODO APROPIADO PARA RESOLVER SISTEMAS DE ECUACIONES LINEALES. DE ESTA FORMA SE OBTIENE LA ESTIMACIÓN DEL MODELO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 43 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 44 PREDICCIONES UNA DE LAS FINALIDADES DEL ANÁLISIS DE LOS MODELOS ECONOMÉTRICOS ES HACER PREDICCIONES PARA LA VARIABLE DEPENDIENTE. SI SE ESTIMA EL MODELO Y=XB Y SE OBTIENE EL MODELO ESTIMADO =X: SE TIENE QUE = ES UN ESTIMADOR LINEAL INSESGADO ÓPTIMO DEL PRONÓSTICO DE, PARA UN VALOR DADO DE. SE PUEDE PREDECIR: LA MEDIA E( ). EL VALOR PUNTUAL. PREDICCIONES LOS ERRORES DE PREDICCIÓN VENDRÁN CUANTIFICADOS POR LAS VARIANZAS DE LOS PREDICTORES: VARIANZA PARA LA PREDICCIÓN EN MEDIA:. INTERVALO DE CONFIANZA PARA LA PREDICCIÓN EN MEDIA AL NIVEL: ± (/2) : (/2) ES EL VALOR DE LA t DE STUDENT CON T- k-1 GRADOS DE LIBERTAD EN EL PUNTO(/2). MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 45 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 46 PREDICCIONES VARIANZA PARA LA PREDICCIÓN PUNTUAL: ( 1). INTERVALO DE CONFIANZA PARA LA PREDICCIÓN PUNTUAL: ± (/2) 1 : (/2) ES EL VALOR DE LA t DE STUDENT CON T- k-1 GRADOS DE LIBERTAD EN EL PUNTO(/2). MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 47 ANÁLISIS DE RESIDUOS UNA VEZ CONSTRUIDO EL MODELO DE REGRESIÓN: CONTRASTAR ENTRE OTRAS LAS HIPÓTESIS DE: LINEALIDAD. NORMALIDAD. HOMOSCEDASTICIDAD. NO AUTOCORRELACIÓN. INDEPENDENCIA. LOS RESIDUOS VAN A PRESENTAR UNA PRIMERA INFORMACIÓN SOBRE ESTAS HIPÓTESIS. SI EL HISTOGRAMA DE FRECUENCIAS DE LOS RESIDUOS NO SE AJUSTA AL DE UNA NORMAL, PUEDEN EXISTIR VALORES ATÍPICOS: ELIMINANDO LOS PARES ( ) QUE PRODUCEN LOS VALORES ATÍPICOS, SE PUEDE CONSEGUIR NORMALIDAD EN LOS RESIDUOS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 48

9 ANÁLISIS DE RESIDUOS SI SE GRAFICAN LOS VALORES DE T CONTRA LOS VALORES DE Y SE DETECTA UNA TENDENCIA CRECIENTE O DECRECIENTE EN EL GRAFO: PUEDE EXISTIR AUTOCORRELACIÓN O CORRELACIÓN SERIAL. SI SE GRAFICAN LOS VALORES DE CONTRA LOS VALORES DE Y SE DETECTA UNA TENDENCIA DE CUALQUIER TIPO EN EL GRAFO: PUEDE EXISTIR AUTOCORRELACIÓN: HABRÁ CORRELACIÓN ENTRE LOS RESIDUOS. PUEDE HABER HETEROSCEDASTICIDAD O FALTA DE LINEALIDAD. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 49 ANÁLISIS DE RESIDUOS SI SE GRAFICAN LOS VALORES DE CONTRA LOS DE Y SE DETECTA UNA TENDENCIA DE CUALQUIER TIPO EN EL GRAFO, PUEDE EXISTIR HETEROSCEDASTICIDAD. SI SE GRAFICAN LOS VALORES DE CONTRA LOS DE Y SE DETECTA UNA TENDENCIA CRECIENTE O DECRECIENTE EN EL GRAFO, PUEDE EXISTIR AUTOCORRELACIÓN: LOS RESIDUOS NO ESTARÁN INCORRELACIONADOS CON LAS VARIABLES EXPLICATIVAS. TAMBIÉN PUEDE HABER HETEROSCEDASTICIDAD O FALTA DE LINEALIDAD. SI SE GRAFICAN LOS VALORES DE CONTRA LOS VALORES DE Y SE DETECTA CUALQUIER TENDENCIA EN EL GRAFO: PUEDE EXISTIR HETEROSCEDASTICIDAD O FALTA DE LINEALIDAD: HABRÁ RELACIÓN ENTRE LA VARIANZA DEL TÉRMINO DEL ERROR Y LAS VARIABLES EXPLICATIVAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 50 ANÁLISIS DE RESIDUOS UN CONTRASTE MUY IMPORTANTE PARA DETECTAR LA AUTOCORRELACIÓN ES EL CONTRASTE DE DURBIN-WATSON: D = ( ) PERMITE ADOPTAR LA SIGUIENTE REGLA: SI D=0 HAY AUTOCORRELACIÓN PERFECTA POSITIVA. SI D SE APROXIMA A 2 NO HAY AUTOCORRELACIÓN. SI D SE APROXIMA A 4 HAY AUTOCORRELACIÓN PERFECTA NEGATIVA. D SE ENCUENTRA TABULADO Y SEGÚN LA FRANJA EN LA QUE CAIGA SU VALOR, SE ACEPTA O RECHAZA LA HIPÓTESIS DE AUTOCORRELACIÓN. TÉCNICAS DE SELECCIÓN EN EL MODELO DE REGRESIÓN EXISTEN CRITERIOS QUE PERMITEN ELEGIR EL MEJOR MODELO PARA UNAS VARIABLES Y UN CONJUNTO DE DATOS DADOS. CRITERIO DE REGRESIÓN HACIA ADELANTE: VA INCLUYENDO VARIABLES EN EL MODELO HASTA OBTENER EL AJUSTE IDEAL. CRITERIO DE REGRESIÓN HACIA ATRÁS: EMPIEZA INCLUYENDO TODAS LAS VARIABLES EN EL MODELO Y VA ELIMINANDO LAS ADECUADAS HASTA OBTENER UN AJUSTE ÓPTIMO LIBRE DE PROBLEMAS. CRITERIO DE SELECCIÓN PASO A PASO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 51 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 52 TÉCNICAS DE SELECCIÓN EN EL MODELO DE REGRESIÓN LOS ESTADÍSTICOS AIC DE AKALKE Y SC DE SCHWARZ PERMITEN SELECCIONAR EL MODELO AJUSTADO CON MEJOR CAPACIDAD EXPLICATIVA: AQUEL QUE PRESENTA MENOR VALOR PARA ESTOS ESTADÍSTICOS. AIC = - () SC = - () l =- (()+ ) K ES EL NÚMERO DE VARIABLES INDEPENDIENTES DEL MODELO (SIN INCLUIR LA CONSTANTE). T ES EL TAMAÑO MUESTRAL O NÚMERO DE OBSERVACIONES DE QUE SE DISPONE PARA LA ESTIMACIÓN DEL MODELO. e ES EL ERROR DEL MODELO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 53 TÉCNICAS DE SELECCIÓN EN EL MODELO DE REGRESIÓN ES POSIBLE SELECCIONAR MODELOS LINEALES AJUSTADOS DE ACUERDO A SU CAPACIDAD PREDICTIVA. SE DISPONE, ENTRO OTROS, DE LOS SIGUIENTES ESTADÍSTICOS (SIENDO n EL HORIZONTE DE PREDICCIÓN: LÍMITE PRÁCTICO Y VÁLIDO PARA LA PREDICCIÓN): RAÍZ DEL ERROR CUADRÁTICO MEDIO (ROOT MEAN SQUARED ERROR): RECM = º ( ) ERROR ABSOLUTO MEDIO (MEAN ABSOLUTE ERROR): EAM = º PROPORCIÓN DEL SESGO (BIAS PROPORTION): ( ) = ( ) / º MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 54

10 TÉCNICAS DE SELECCIÓN EN EL MODELO DE REGRESIÓN PROPORCIÓN DE LA VARIANZA (VARIANCE PROPORTION): ( PV = ) ( ) / º PROPORCIÓN DE LA COVARIANZA (COVARIANCE PROPORTION): = () º ( ) / MIENTRAS MÁS PRÓXIMOS ESTÉN A CERO LOS VALORES DE LOS DOS PRIMEROS ESTADÍSTICOS: MEJOR SERÁ LA CAPACIDAD PREDICTIVA DEL MODELO. LAS TRES PROPORCIONES VARÍAN ENTRE 0 Y 1: ES CONVENIENTE QUE SEAN PEQUEÑAS. EJEMPLO DE MLG MULTIVARIANTE MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 55 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 56 EJEMPLO DE MLG MULTIVARIANTE EJEMPLO DE MLG MULTIVARIANTE MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 57 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 58 EJEMPLO DE MLG MULTIVARIANTE EJEMPLO DE MLG MULTIVARIANTE RESULTADOS COMPLETOS MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 59 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 60

11 LA EXPRESIÓN DEL MODELO DE ANÁLISIS DE LA REGRESIÓN MÚLTIPLE ES: y =(,,, ). LA REGRESIÓN MÚLTIPLE ADMITE LA POSIBILIDAD DE TRABAJAR CON VARIABLES DEPENDIENTES DISCRETAS EN VEZ DE CONTINUAS PARA PERMITIR LA DE FENÓMENOS DISCRETOS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 61 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 62 : LA VARIABLE DEPENDIENTE ES UNA VARIABLE DISCRETA QUE REFLEJA DECISIONES INDIVIDUALES EN LAS QUE EL CONJUNTO DE ELECCIÓN ESTÁ FORMADO POR ALTERNATIVAS SEPARADAS Y MUTUAMENTE EXCLUYENTES. LOS EN LOS QUE EL CONJUNTO DE ELECCIÓN TIENE SÓLO DOS ALTERNATIVAS POSIBLES SE LLAMAN MODELOS DE ELECCIÓN BINARIA. CUANDO EL CONJUNTO DE ELECCIÓN TIENE VARIOS VALORES DISCRETOS SE TIENEN LOS MODELOS DE ELECCIÓN MÚLTIPLE O MODELOS MULTINOMIALES. LOS SE DENOMINAN MODELOS DE DATOS DE RECUENTO CUANDO LOS VALORES DE LA VARIABLE DEPENDIENTE DISCRETA SON NÚMEROS QUE NO REFLEJAN CATEGORÍAS. EN CASO DE QUE LOS VALORES NUMÉRICOS DE LA VARIABLE DEPENDIENTE DISCRETA REFLEJAN CATEGORÍAS LOS MODELOS SE DENOMINAN MODELO DE ELECCIÓN DISCRETA CATEGÓRICOS: SE CLASIFICAN EN: CATEGÓRICOS ORDENADOS: LOS VALORES NUMÉRICOS NO TIENEN SIGNIFICADO CUANTITATIVO Y REFLEJAN UN ORDEN DE CATEGORÍAS. CATEGÓRICOS NO ORDENADOS: LOS VALORES NUMÉRICOS REFLEJAN ÚNICAMENTE CATEGORÍAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 63 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 64 BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA SE CONSIDERARÁN EL MODELO LINEAL DE PROBABILIDAD, EL MODELO LOGIT Y EL MODELO PROBIT. SE PARTE DEL MODELO DE REGRESIÓN LINEAL HABITUAL: Y= UNA DE CUYAS HIPÓTESIS ES: E(,,, ) = 0 ESTO PERMITE ESCRIBIR EL MODELO COMO: E(,, ) = PARA LOS BINARIA: Y ES UNA VARIABLE ALEATORIA DE BERNOUILLI DE PARÁMETRO p, POR LO TANTO: BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA SE TIENE EL MODELO LINEAL DE PROBABILIDAD: POR EJEMPLO, MIDE LA VARIACIÓN EN LA PROBABILIDAD DE "ÉXITO" (Y = 1) ANTE UNA VARIACIÓN UNITARIA EN, (CON TODO LO DEMÁS CONSTANTE). COMO Y ES UNA VARIABLE ALEATORIA DE BERNOUILLI: V(,, ) = P(=1,, )(1 - P(=1,, )) SE TIENE ENTONCES: Y = + u u = Y - V() = V( )=(,, ) V( ) = (1- ) PARA CADA OBSERVACIÓN. E(,, ) = P(=1,, ) = MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 65 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 66

12 BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA SE TIENE UN MODELO CON HETEROSCEDASTICIDAD: PORQUE LA VARIANZA DEL ERROR NO ES CONSTANTE. PARA CADA VALOR DE,, LA VARIANZA DEL ERROR TIENE UN VALOR DIFERENTE: V(u) NO CONSTANTE. Y ES UNA VARIABLE DE BERNOUILLI: NO SE CUMPLE LA HIPÓTESIS DE NORMALIDAD. HAY QUE ESTIMAR ESTOS MODELOS POR UN MÉTODO ALTERNATIVO A MÍNIMOS CUADRADOS ORDINARIOS: EJ.: ESTIMADORES MÁXIMO VEROSÍMILES O MÍNIMOS CUADRADOS GENERALIZADOS. BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA REALIZADA LA ESTIMACIÓN DEL MODELO LINEAL DE PROBABILIDAD SE TIENE: = = SE PUEDE INTERPRETAR COMO UNA ESTIMACIÓN DE LA PROBABILIDAD DE "ÉXITO" (DE QUE Y = 1). EN ALGUNAS APLICACIONES TIENE SENTIDO INTERPRETAR COMO LA PROBABILIDAD DE ÉXITO CUANDO TODAS LAS VALEN 0. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 67 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 68 BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA ES POSIBLE CONSIDERAR LOS MODELOS LOGIT (MODELO DE REGRESIÓN LOGÍSTICA) Y PROBIT COMO MODELOS DE RESPUESTA BINARIA: P( = 1,,, ) = G( ) PARA EVITAR LOS PROBLEMAS DEL MODELO LINEAL DE PROBABILIDAD: SE ESPECIFICAN COMO Y = G(X). DONDE G ES UNA FUNCIÓN QUE TOMA VALORES ESTRICTAMENTE ENTRE 0 y 1 (0<G(Z)<1) PARA TODOS LOS NÚMEROS REALES z. BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA SEGÚN LAS DIFERENTES DEFINICIONES DE G SE TIENEN LOS DISTINTOS MODELOS DE ELECCIÓN BINARIA: SI G(z) = SE TIENE EL MODELO LOGIT: = G(z) = G( ) = SI G(z) = Φ(z) = () SE TIENE EL MODELO PROBIT: Φ(z) = NORMAL (0,1). ES LA FUNCIÓN DE DENSIDAD DE LA = G(z) = G( ) = MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 69 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 70 BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA LOS MODELOS PROBIT Y LOGIT SON MODELOS NO LINEALES: NO SE PUEDE ESTIMAR POR MCO (MÍNIMOS CUADRADOS ORDINARIOS). SE TENDRÁ QUE EMPLEAR MÉTODOS DE MÁXIMA VEROSIMILITUD. BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA SI SE TIENEN n OBSERVACIONES DE UNA MUESTRA ALEATORIA QUE SIGUEN EL MODELO: P(Y=1 X) = G( ) PARA OBTENER EL ESTIMADOR DE MÁXIMA VEROSIMILITUD (MV), CONDICIONADO A LAS VARIABLES EXPLICATIVAS, ES NECESARIA LA FUNCIÓN DE VEROSIMILITUD: L() = (1 )= ( ) (1( )) =( =1,, ) = G( ) = ( ) MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 71 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 72

13 BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA EL ESTIMADOR DE MV DE ES EL QUE MAXIMIZA EL LOGARITMO DE LA FUNCIÓN DE VEROSIMILITUD: l() = ln L() = (1 ) (1 ) QUE SERÁ UN ESTIMADOR CONSISTENTE, ASINTÓTICAMENTE NORMAL Y ASINTÓTICAMENTE EFICIENTE. LAS CONDICIONES DE PRIMER ORDEN SERÁN: S( ) = () = = 0 ( ) ( ) g(.) ES LA FUNCIÓN DE DENSIDAD DE LA NORMAL O LA LOGÍSTICA (DERIVADA DE LA FUNCIÓN DE DISTRIBUCIÓN). BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA LA NO LINEALIDAD DEL PROBLEMA HACE QUE PARA OBTENER EL ESTIMADOR MV DESE NECESITE: APLICAR UN ALGORITMO ITERATIVO. OBTENER EL ESTIMADOR POR MÉTODOS NUMÉRICOS ITERATIVOS. MEDIANTE EL ALGORITMO SCORING SE TIENE: = + ( ) ( ) LA MATRIZ DE COVARIANZAS ASINTÓTICA DE SE ESTIMA COMO: Aar = ( ) = ( ) MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 73 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 74 MODELOS DE ELECCIÓN MÚLTIPLE: MODELO LOGIT MULTINOMIAL CUANDO EL CONJUNTO DE ELECCIÓN TIENE VARIOS VALORES DISCRETOS SE TIENEN LOS MODELOS DE ELECCIÓN MÚLTIPLE O MODELOS MULTINOMIALES. EL MODELO LOGIT MULTINOMIAL ES UNA EXTENSIÓN DEL MODELO BINARIO PARA EL CASO EN EL QUE LA RESPUESTA, DESORDENADA, TIENE MÁS DE 2 POSIBILIDADES. SEA (, ) UNA MUESTRA ALEATORIA DE LA POBLACIÓN (i = 1,...,n). INTERESA SABER CÓMO AFECTAN LOS CAMBIOS EN LOS ELEMENTOS DE X A LAS PROBABILIDADES DE RESPUESTA: (Y = j,,, ) =(Y = j ) j = 1,,J MODELOS DE ELECCIÓN MÚLTIPLE: MODELO LOGIT MULTINOMIAL LAS PROBABILIDADES DE RESPUESTA SON: (Y = j ) = (Y = j ) = (Y = 0 ) = () () () () () = (,) j = 1,,J = () j = 1,,J = () SI J = 1 SE TIENE EL CASO BINARIO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 75 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 76 MODELOS DE ELECCIÓN MÚLTIPLE: MODELO LOGIT MULTINOMIAL EL MODELO SE ESTIMA POR MÁXIMA VEROSIMILITUD. EL LOGARITMO DE LA FUNCIÓN DE VEROSIMILITUD CONDICIONAL VIENE DADO POR: () = 1 = log (,) MODELO LINEAL GENERAL DE REGRESIÓN MÚLTIPLE (GLM) EL MODELO GLM ES EL MODELO MÁS GENERAL POSIBLE DE REGRESIÓN LINEAL. INCLUYE: EL MODELO DE REGRESIÓN LINEAL MÚLTIPLE CON VARIABLES CUANTITATIVAS. LOS MODELOS DE REGRESIÓN MÚLTIPLE CON VARIABLES CUALITATIVAS Y CUANTITATIVAS A LA VEZ. INCLUIRÁ TODOS LOS MODELOS DEL ANÁLISIS DE LA VARIANZA Y DE LA COVARIANZA. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 77 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 78

14 EJEMPLO DE MODELO LOGIT MULTINOMIAL EJEMPLO DE MODELO LOGIT MULTINOMIAL MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 79 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 80 EJEMPLO DE MODELO LOGIT MULTINOMIAL EJEMPLO DE MODELO LOGIT MULTINOMIAL MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 81 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 82 EJEMPLO DE MODELO LOGIT MULTINOMIAL EJEMPLO DE MODELO LOGIT MULTINOMIAL RESULTADOS COMPLETOS MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 83 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 84

15 EJEMPLO DE MODELO PROBIT EJEMPLO DE MODELO PROBIT MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 85 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 86 EJEMPLO DE MODELO PROBIT EJEMPLO DE MODELO PROBIT RESULTADOS COMPLETOS MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 87 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 88 ES ÚTIL CUANDO SE DESEA CONSTRUIR UN MODELO PREDICTIVO PARA PRONOSTICAR EL GRUPO AL QUE PERTENECE UNA OBSERVACIÓN A PARTIR DE DETERMINADAS CARACTERÍSTICAS OBSERVADAS QUE DELIMITAN SU PERFIL. PERMITE ASIGNAR O CLASIFICAR NUEVOS INDIVIDUOS U OBSERVACIONES DENTRO DE GRUPOS PREVIAMENTE DEFINIDOS: POR ELLO ES UNA TÉCNICA DE CLASIFICACIÓN AD HOC. SE LO CONOCE COMO ANÁLISIS DE LA CLASIFICACIÓN: SU OBJETIVO FUNDAMENTAL ES: PRODUCIR UNA REGLA O UN ESQUEMA DE CLASIFICACIÓN. DEBE PREDECIR LA POBLACIÓN A LA QUE ES MÁS PROBABLE QUE TENGA QUE PERTENECER UNA NUEVA OBSERVACIÓN O INDIVIDUO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 89 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 90

16 EL MODELO PREDICTIVO DEFINE LA RELACIÓN ENTRE: UNA VARIABLE DEPENDIENTE (O ENDÓGENA) NO MÉTRICA (CATEGÓRICA), Y. VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) MÉTRICAS. LA EXPRESIÓN ES: y = F(,,, ). LAS CATEGORÍAS DE LA VARIABLE DEPENDIENTE DEFINEN LOS POSIBLES GRUPOS DE PERTENENCIA DE LAS OBSERVACIONES O INDIVIDUOS. LAS VARIABLES INDEPENDIENTES DEFINEN EL PERFIL CONOCIDO DE CADA OBSERVACIÓN. EL OBJETIVO ESENCIAL: ES UTILIZAR LOS VALORES CONOCIDOS DE LAS VARIABLES INDEPENDIENTES MEDIDAS SOBRE UN INDIVIDUO U OBSERVACIÓN (PERFIL). PARA PREDECIR CON QUÉ CATEGORÍA DE LA VARIABLE DEPENDIENTE SE CORRESPONDEN PARA CLASIFICAR AL INDIVIDUO EN LA CATEGORÍA ADECUADA. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 91 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 92 LAS DOS GRANDES FINALIDADES SON: LA DESCRIPCIÓN DE DIFERENCIAS ENTRE GRUPOS, Y. LA PREDICCIÓN DE PERTENENCIA A GRUPOS. LA INTERPRETACIÓN DE LAS DIFERENCIAS ENTRE LOS GRUPOS RESPONDE AL OBJETIVO DE DETERMINAR: EN QUÉ MEDIDA UN CONJUNTO DE CARACTERÍSTICAS OBSERVADAS EN LOS INDIVIDUOS PERMITE EXTRAER DIMENSIONES QUE DIFERENCIAN A LOS GRUPOS. CUÁLES DE ESTAS CARACTERÍSTICAS SON LAS QUE EN MAYOR MEDIDA CONTRIBUYEN A TALES DIMENSIONES, ES DECIR, CUÁLES PRESENTAN EL MAYOR PODER DE DISCRIMINACIÓN. LAS CARACTERÍSTICAS USADAS PARA DIFERENCIAR ENTRE LOS GRUPOS RECIBEN EL NOMBRE DE VARIABLES S. AL ANÁLISIS PARA VALORAR EL GRADO EN QUE LAS VARIABLES INDEPENDIENTES CONTRIBUYEN A LA DIFERENCIACIÓN ENTRE LOS GRUPOS SE LE DENOMINA ANÁLISIS DESCRIPTIVO. LA PREDICCIÓN DE PERTENENCIA A LOS GRUPOS REQUIERE UNA O MÁS ECUACIONES MATEMÁTICAS, DENOMINADAS FUNCIONES S: DEBEN PERMITIR LA CLASIFICACIÓN DE NUEVOS CASOS A PARTIR DE LA INFORMACIÓN QUE POSEEMOS SOBRE ELLOS. COMBINAN UNA SERIE DE CARACTERÍSTICAS O VARIABLES DE TAL MODO QUE SU APLICACIÓN A UN CASO NOS PERMITE IDENTIFICAR EL GRUPO AL QUE MÁS SE PARECE: EN ESTE SENTIDO SE PUEDE HABLAR DEL CARÁCTER PREDICTIVO DEL ANÁLISIS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 93 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 94 HIPÓTESIS EN EL MODELO EL MODELO DEL ANÁLISIS REQUIERE DE UNA COMPROBACIÓN DE DETERMINADOS SUPUESTOS. LA APLICACIÓN DEL ANÁLISIS REQUIERE QUE SE CUENTE CON: UN CONJUNTO DE VARIABLES S (CARACTERÍSTICAS CONOCIDAS DE LOS INDIVIDUOS). UNA VARIABLE NOMINAL QUE DEFINE DOS O MÁS GRUPOS (CADA MODALIDAD DE LA VARIABLE NOMINAL SE CORRESPONDE CON UN GRUPO DIFERENTE). LOS DATOS DEBEN CORRESPONDER A INDIVIDUOS O CASOS CLASIFICADOS EN DOS O MÁS GRUPOS MUTUAMENTE EXCLUYENTES: CADA CASO CORRESPONDE A UN GRUPO Y SÓLO A UNO. HIPÓTESIS EN EL MODELO LAS VARIABLES S HAN DE ESTAR MEDIDAS EN UNA ESCALA DE INTERVALO O DE RAZÓN: PERMITIRÍA EL CÁLCULO DE MEDIAS Y VARIANZAS Y LA UTILIZACIÓN DE ÉSTAS EN ECUACIONES MATEMÁTICAS. TEÓRICAMENTE, NO EXISTEN LÍMITES PARA EL NÚMERO DE VARIABLES S: SALVO LA RESTRICCIÓN DE QUE NO DEBE SER NUNCA SUPERIOR AL NÚMERO DE CASOS EN EL GRUPO MÁS PEQUEÑO. ES CONVENIENTE CONTAR AL MENOS CON 20 SUJETOS POR CADA VARIABLE SI QUEREMOS QUE LAS INTERPRETACIONES Y CONCLUSIONES OBTENIDAS SEAN CORRECTAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 95 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 96

17 HIPÓTESIS EN EL MODELO LA APLICACIÓN DEL ANÁLISIS SE APOYA EN UNA SERIE DE SUPUESTOS BÁSICOS: NORMALIDAD MULTIVARIANTE. HOMOGENEIDAD DE MATRICES DE VARIANZA-COVARIANZA (HOMOSCEDASTICIDAD). LINEALIDAD Y AUSENCIA DE MULTICOLINEALIDAD. ESTIMACIÓN DEL MODELO UNA VEZ COMPROBADO EL CUMPLIMIENTO DE LOS SUPUESTOS SUBYACENTES AL MODELO MATEMÁTICO, SE PERSIGUE: OBTENER UNA SERIE DE FUNCIONES LINEALES A PARTIR DE LAS VARIABLES INDEPENDIENTES QUE PERMITAN: INTERPRETAR LAS DIFERENCIAS ENTRE LOS GRUPOS. CLASIFICAR A LOS INDIVIDUOS EN ALGUNA DE LAS SUBPOBLACIONES DEFINIDAS POR LA VARIABLE DEPENDIENTE. ESTAS FUNCIONES LINEALES: SE DENOMINAN FUNCIONES S. SON COMBINACIONES LINEALES DE LAS VARIABLES S. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 97 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 98 ESTIMACIÓN DEL MODELO CON G GRUPOS (G > 2) EN ANÁLISIS MÚLTIPLE, EL NÚMERO MÁXIMO DE FUNCIONES O EJES S QUE SE PUEDEN OBTENER VIENE DADO POR: min (G-1, k). PUEDEN OBTENERSE HASTA G-1 EJES S: SI EL NÚMERO DE VARIABLES EXPLICATIVAS k ES MAYOR O IGUAL QUE G-l: SUELE SER SIEMPRE CIERTO. EN LAS APLICACIONES PRÁCTICAS EL NÚMERO DE VARIABLES EXPLICATIVAS SUELE SER GRANDE. ESTIMACIÓN DEL MODELO LA INTERPRETACIÓN DE LA FUNCIÓN PODRÁ HACERSE ATENDIENDO A: LAS POSICIONES RELATIVAS QUE DETERMINA PARA LOS CASOS. LOS CENTROIDES DE CADA GRUPO. LA RELACIÓN ENTRE LAS VARIABLES Y LA FUNCIÓN: ESTABLECER LA CONTRIBUCIÓN DE LAS DISTINTAS VARIABLES A LA DISCRIMINACIÓN. PARA EXAMINAR LA POSICIÓN RELATIVA QUE OCUPAN LOS CASOS Y LOS CENTROIDES DE ACUERDO CON LA FUNCIÓN O FUNCIONES OBTENIDAS: RECURRIR A LAS PUNTUACIONES S: VALORES DE LA FUNCIÓN PARA CASOS ESPECÍFICOS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 99 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 100 ESTIMACIÓN DEL MODELO C/U DE LAS FUNCIONES S: REPRESENTA UN EJE EN EL ESPACIO. PERMITE DETERMINAR LA POSICIÓN DE CUALQUIER CASO A LO LARGO DE ESE EJE. TOMANDO LA FUNCIÓN CORRESPONDIENTE A UN EJE CUALQUIERA, EL VALOR DE LA PUNTUACIÓN ALCANZADA POR UN CASO m, PERTENECIENTE AL GRUPO k: SE OBTIENE AL SUSTITUIR EN LA ECUACIÓN LOS VALORES X POR LAS PUNTUACIONES OBSERVADAS PARA ESE CASO EN CADA UNA DE LAS VARIABLES: = MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 101 ESTIMACIÓN DEL MODELO SI SE CALCULAN LAS PUNTUACIONES S SOBRE LOS DIFERENTES EJES, SE PUEDE LOCALIZAR EN EL ESPACIO LA POSICIÓN DE CUALQUIER INDIVIDUO. C/ COEFICIENTE NO ESTANDARIZADO, REPRESENTA EL CAMBIO PRODUCIDO SOBRE LA POSICIÓN DE UN CASO SI EN LA VARIABLE LA PUNTUACIÓN OBSERVADA AUMENTARA EN UNA UNIDAD. PARA ESTUDIAR LOS GRUPOS ES INTERESANTE LA POSICIÓN DE LOS CENTROIDES DE CADA GRUPO. LA PUNTUACIÓN DE UN CENTROIDE SE DETERMINARÁ SUSTITUYENDO LAS VARIABLES DE LA ECUACIÓN POR LOS VALORES MEDIOS QUE ALCANZAN ESAS VARIABLES EN EL GRUPO. LAS COORDENADAS DE LOS CENTROIDES DE DIFERENTES GRUPOS DETERMINAN POSICIÓN DE C/U DE ELLOS EN EL ESPACIO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 102

18 CLASIFICACIÓN MEDIANTE EL MODELO LAS FUNCIONES S SE UTILIZAN PARA PRONOSTICAR EL GRUPO AL QUE QUEDARÁ ADSCRITO UN NUEVO CASO NO CONTEMPLADO AL EXTRAER LAS FUNCIONES. LA CLASIFICACIÓN DE UN SUJETO PODRÍA HACERSE: A PARTIR DE SUS VALORES EN LAS VARIABLES S. EN LAS FUNCIONES S. LA CLASIFICACIÓN A PARTIR DE LAS FUNCIONES S ES MÁS CÓMODA Y SUELE LLEVAR A MEJORES RESULTADOS EN LA MAYORÍA DE LOS CASOS. LOS PROCEDIMIENTOS PARA LA CLASIFICACIÓN SE BASAN EN LA COMPARACIÓN DE UN CASO CON LOS CENTROIDES DE GRUPO, A FIN DE VER A CUÁL DE ELLOS RESULTA MÁS PRÓXIMO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 103 CLASIFICACIÓN MEDIANTE EL MODELO UNO DE LOS PROCEDIMIENTOS PARA ASIGNAR UN CASO A UNO DE LOS GRUPOS SE BASA EN LAS DENOMINADAS FUNCIONES DE CLASIFICACIÓN POR GRUPOS. EXAMINANDO LAS PUNTUACIONES OBTENIDAS POR UN CASO EN C/U DE LAS FUNCIONES DE CLASIFICACIÓN: SE PUEDE ESTABLECER A QUÉ GRUPO HA DE SER ASIGNADO. EL CASO SERÁ ASIGNADO A AQUEL GRUPO EN EL QUE SE OBTIENE LA PUNTUACIÓN MÁS ALTA. OTRO PROCEDIMIENTO SE BASA EN EL CÁLCULO DE LA DISTANCIA DEL CASO A LOS CENTROIDES DE CADA UNO DE LOS GRUPOS O FUNCIONES DE DISTANCIA GENERALIZADA: EL CASO SERÍA ADSCRITO A AQUEL GRUPO CON CUYO CENTROIDE EXISTE UNA MENOR DISTANCIA. LA DISTANCIA DE MAHALANOBIS ES UNA MEDIDA ADECUADA PARA VALORAR LA PROXIMIDAD ENTRE CASOS Y CENTROIDES. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 104 CLASIFICACIÓN MEDIANTE EL MODELO OTRO PROCEDIMIENTO PARA ASIGNAR UN CASO A UNO DE LOS GRUPOS ES UTILIZAR LAS PROBABILIDADES DE PERTENENCIA AL GRUPO. UN CASO SE CLASIFICA EN EL GRUPO AL QUE SU PERTENENCIA RESULTA MÁS PROBABLE. EL CÁLCULO ASUME QUE TODOS LOS GRUPOS TIENEN UN TAMAÑO SIMILAR: NO SE TIENE EN CUENTA QUE A PRIORI ES POSIBLE ANTICIPAR UNA MAYOR PROBABILIDAD DE PERTENENCIA A UN DETERMINADO GRUPO CUANDO EN LA POBLACIÓN EL PORCENTAJE DE SUJETOS QUE PERTENECE A CADA GRUPO ES MUY DIFERENTE. CLASIFICACIÓN MEDIANTE EL MODELO INCORPORANDO LAS PROBABILIDADES A PRIORI SE CONSIGUE: MEJORAR LA PREDICCIÓN FINAL. REDUCIR LOS ERRORES DE CLASIFICACIÓN. LA REGLA DE BAYES SERÍA ÚTIL PARA: CALCULAR LA PROBABILIDAD A POSTERIORI DE PERTENENCIA DEL CASO A UN GRUPO. CONOCIDA LA PROBABILIDAD A PRIORI PARA EL MISMO. UN CASO SERÁ CLASIFICADO EN EL GRUPO EN EL QUE SU PERTENENCIA CUENTA CON UNA MAYOR PROBABILIDAD A POSTERIORI. RESULTA INTERESANTE CONOCER PARA CADA INDIVIDUO: LA MÁXIMA PROBABILIDAD. LAS PROBABILIDADES DE PERTENECER A OTROS GRUPOS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 105 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 106 CLASIFICACIÓN MEDIANTE EL MODELO UN PROCEDIMIENTO MUY ÚTIL ES EL MAPA TERRITORIAL: SITUAR EN EL EJE HORIZONTAL Y EN EL VERTICAL DOS FUNCIONES S (O VARIABLES S). SEPARAR EN EL PLANO RESULTANTE, POR MEDIO DE LÍNEAS LAS ZONAS O TERRITORIOS QUE OCUPARÍAN LOS SUJETOS CLASIFICADOS EN CADA GRUPO. CUANDO EL NÚMERO DE FUNCIONES ES MAYOR QUE DOS: REPRESENTAR SÓLO LAS DOS PRIMERAS, QUE SON LAS QUE EN MAYOR MEDIDA CONTRIBUYEN A LA SEPARACIÓN DE LOS GRUPOS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 107 CLASIFICACIÓN MEDIANTE EL MODELO PARA VALORAR LA BONDAD DE LA CLASIFICACIÓN REALIZADA: SE APLICA EL PROCEDIMIENTO A LOS CASOS PARA LOS QUE SE CONOCE SU GRUPO DE ADSCRIPCIÓN. SE COMPRUEBA SI COINCIDEN EL GRUPO PREDICHO Y EL GRUPO OBSERVADO. EL PORCENTAJE DE CASOS CORRECTAMENTE CLASIFICADOS INDICARÍA LA CORRECCIÓN DEL PROCEDIMIENTO. LA MATRIZ DE CLASIFICACIÓN, TAMBIÉN DENOMINADA MATRIZ DE CONFUSIÓN, PERMITE PRESENTAR PARA LOS CASOS OBSERVADOS EN UN GRUPO: CUÁNTOS DE ELLOS SE ESPERABAN EN ESE GRUPO. CUÁNTOS EN LOS RESTANTES. RESULTA FÁCIL CONSTATAR QUÉ TIPO DE ERRORES DE CLASIFICACIÓN SE PRODUCEN. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 108

19 CLASIFICACIÓN MEDIANTE EL MODELO EN LA MATRIZ DE CLASIFICACIÓN CADA VALOR REPRESENTA EL NÚMERO DE CASOS DEL GRUPO i QUE TRAS APLICAR LAS REGLAS DE CLASIFICACIÓN SON ADSCRITOS AL GRUPO j. LOS VALORES SITUADOS EN LA DIAGONAL DESCENDENTE CONSTITUYEN EL NÚMERO DE CASOS QUE HAN SIDO CORRECTAMENTE CLASIFICADOS. ESQUEMA GENERAL DE LA TÉCNICA DEL ANÁLISIS DISCRIMANTE MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 109 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 110 OBJETIVOS DE LA INVESTIGACIÓN Clasificación de observaciones en grupos Predicción de pertenencia de individuos a grupos Examen de las diferencias entre grupos Identificación de dimensiones DISEÑO DE LA INVESTIGACIÓN Selección de variable dependiente e independientes Tamaño muestral, muestra de análisis y reserva EJEMPLO DE ANÁLISIS ASUNCIONES Normalidad de variables independientes y linealidad de relaciones Ausencia de multicolinealidad entre variables independientes Matrices de igual dispersión para poblaciones de grupos MÉTODO Estimación de funciones discriminantes (simultánea o paso a paso) Significación estadística de las funciones discriminantes Significación de la precisión de la predicción FUNCIONES S Cuántas funciones se interpretan? Una sola Dos o más Evaluación función Pesos, cargas, centroides VALI DACIÓN RESULTADOS Muestras partidas o validación cruzada Diferencias de grupos perfiladas MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 111 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 112 EJEMPLO DE ANÁLISIS EJEMPLO DE ANÁLISIS MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 113 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 114

20 EJEMPLO DE ANÁLISIS EJEMPLO DE ANÁLISIS RESULTADOS COMPLETOS MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 115 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE 116

MINERÍA DE DATOS TÉCNICAS PREDICTIVAS DE MODELIZACIÓN

MINERÍA DE DATOS TÉCNICAS PREDICTIVAS DE MODELIZACIÓN MINERÍA DE DATOS TÉCNICAS PREDICTIVAS DE MODELIZACIÓN TÉCNICAS DE MINERÍA DE DATOS. TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN. MODELO DE REGRESIÓN MÚLTIPLE. MODELOS DE ELECCIÓN DISCRETA. CLASIFICACIÓN

Más detalles

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r) Correlación El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r) El coeficiente de correlación lineal de Pearson (r) permite medir el grado de asociación entre

Más detalles

Guía docente 2007/2008

Guía docente 2007/2008 Guía docente 2007/2008 Plan 247 Lic.Investigación y Tec.Mercado Asignatura 43579 METODOS CUANTITATIVOS PARA LA INVESTIGACION DE MERCADOS Grupo 1 Presentación Métodos y técnicas cuantitativas de investigación

Más detalles

T2. El modelo lineal simple

T2. El modelo lineal simple T2. El modelo lineal simple Ana J. López y Rigoberto Pérez Dpto Economía Aplicada. Universidad de Oviedo Curso 2010-2011 Curso 2010-2011 1 / 40 Índice 1 Planteamiento e hipótesis básicas 2 Estimación de

Más detalles

INDICE Capitulo 1. Entorno de Trabajo e SPSS Capitulo 2. Operadores y Funciones. Aplicaciones

INDICE Capitulo 1. Entorno de Trabajo e SPSS Capitulo 2. Operadores y Funciones. Aplicaciones INDICE Introducción XV Capitulo 1. Entorno de Trabajo e SPSS 1 Introducción y manejo de datos en SPSS 1 Lectura e importación de datos SPSS 6 Importación de datos de hoja de cálculo 8 Importación de archivos

Más detalles

ANÁLISIS DE REGRESIÓN

ANÁLISIS DE REGRESIÓN ANÁLISIS DE REGRESIÓN INTRODUCCIÓN Francis Galtón DEFINICIÓN Análisis de Regresión Es una técnica estadística que se usa para investigar y modelar la relación entre variables. Respuesta Independiente Y

Más detalles

Lección 3. Análisis conjunto de dos variables

Lección 3. Análisis conjunto de dos variables Lección 3. Análisis conjunto de dos variables Estadística Descriptiva Parcialmente financiado a través del PIE13-04 (UMA) GARCÍA TEMA 3. ANÁLII CONJUNTO DE DO VARIABLE 3.1 COVARIANZA COEFICIENTE DE CORRELACIÓN

Más detalles

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10 Estadística II Tema 4. Regresión lineal simple Curso 009/10 Tema 4. Regresión lineal simple Contenidos El objeto del análisis de regresión La especificación de un modelo de regresión lineal simple Estimadores

Más detalles

TODO ECONOMETRIA TEMA 1: MODELO BASICO DE REGRESIÓN LINEAL MULTIPLE (MBRL)

TODO ECONOMETRIA TEMA 1: MODELO BASICO DE REGRESIÓN LINEAL MULTIPLE (MBRL) TODO ECONOMETRIA TEMA 1: MODELO BASICO DE REGRESIÓN LINEAL MULTIPLE (MBRL) NOTA IMPORTANTE - Estas notas son complementarias a las notas de clase del primer semestre correspondientes a los temas de Regresión

Más detalles

Introducción a la Econometría

Introducción a la Econometría 1Econometría Introducción a la Econometría -Que es la econometría - Por que una disciplina aparte? -Metodología de la econometría Planeamiento de la teoría o hipótesis Especificación del modelo matemático

Más detalles

Tema 4. Regresión lineal simple

Tema 4. Regresión lineal simple Tema 4. Regresión lineal simple Contenidos El objeto del análisis de regresión La especificación de un modelo de regresión lineal simple Estimadores de mínimos cuadrados: construcción y propiedades Inferencias

Más detalles

TEMA I CONTEXTUALIZACIÓN Y REVISIÓN GENERAL DE LAS TÉCNICAS MULTIVARIANTES

TEMA I CONTEXTUALIZACIÓN Y REVISIÓN GENERAL DE LAS TÉCNICAS MULTIVARIANTES TEMA I CONTEXTUALIZACIÓN Y REVISIÓN GENERAL DE LAS TÉCNICAS MULTIVARIANTES LECTURA OBLIGATORIA Algunas cuestiones previas. En Rial, A. y Varela, J. (2008). Estadística Práctica para la Investigación en

Más detalles

Capítulo 8. Análisis Discriminante

Capítulo 8. Análisis Discriminante Capítulo 8 Análisis Discriminante Técnica de clasificación donde el objetivo es obtener una función capaz de clasificar a un nuevo individuo a partir del conocimiento de los valores de ciertas variables

Más detalles

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows. TEMA 12 REGRESIÓN LINEAL Mediante la regresión lineal se busca hallar la línea recta que mejor explica la relación entre unas variables independientes o variables de exposición y una variable dependiente

Más detalles

Análisis de Correlación Canónica y Análisis discriminante

Análisis de Correlación Canónica y Análisis discriminante Análisis de Correlación Canónica y Análisis discriminante Análisis de Regresión Múltiple TÉCNICAS DE DEPENDENCIA Variable/s Dependiente/s Variable/s Independiente/s Técnica 1 Nivel de medición Continuo

Más detalles

Generalmente, el objetivo de cualquier estudio de econometría es la. búsqueda de relaciones matemáticas que permitan explicar el comportamiento

Generalmente, el objetivo de cualquier estudio de econometría es la. búsqueda de relaciones matemáticas que permitan explicar el comportamiento 5. METODOLOGÍA ECONOMÉTRICA. Generalmente, el objetivo de cualquier estudio de econometría es la búsqueda de relaciones matemáticas que permitan explicar el comportamiento de una variable económica a partir

Más detalles

ANÁLISIS DISCRIMINANTE

ANÁLISIS DISCRIMINANTE DEFINICIÓN: Cómo técnica de análisis de dependencia: Pone en marcha un modelo de causalidad en el que la variable endógena es una variable NO MÉTRICA y las independientes métricas. Cómo técnica de análisis

Más detalles

Qué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y)

Qué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y) Gráfico de dispersión Qué es? Primer paso Representación en un sistema de coordenadas cartesianas de los datos numéricos Cada punto muestra el valor de cada pareja de datos (X e Y) Gráfico de dispersión

Más detalles

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE Jorge Fallas jfallas56@gmail.com 2010 1 Temario Introducción: correlación y regresión Supuestos del análisis Variación total de Y y variación explicada por

Más detalles

Diplomado en Econometría Coordinadora académica: M.F. Esperanza Sainz López

Diplomado en Econometría Coordinadora académica: M.F. Esperanza Sainz López Diplomado en Econometría Coordinadora académica: M.F. Esperanza Sainz López Brindar al alumno los conocimientos de los métodos econométricos fundamentales y de los conceptos estadísticos que éstos requieren,

Más detalles

Contenido. vii. Prólogo... i Presentación... iii Grupo de trabajo...v. 1. Introducción y conceptos preliminares...1

Contenido. vii. Prólogo... i Presentación... iii Grupo de trabajo...v. 1. Introducción y conceptos preliminares...1 Contenido Prólogo... i Presentación... iii Grupo de trabajo...v 1. Introducción y conceptos preliminares...1 2. Tipos de modelos estadísticos lineales...19 Caso 2.1...20 Caso 2.2...26 Caso 2.3...30 3.

Más detalles

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 4)

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 4) OBJETIVOS DE APRENDIZAJE: TEMA Nº ANÁLISIS CONJUNTO DE DOS VARIABLES Distinguir entre variables cualitativas y cuantitativas, y saber elegir los métodos en cada caso. Conocer métodos gráficos y cuantitativos

Más detalles

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL OBJETIVO Analizar las Diferentes formas de Describir la Relación entre dos variables numéricas Trazar un diagrama de dispersión

Más detalles

Tema 3: Análisis de datos bivariantes

Tema 3: Análisis de datos bivariantes Tema 3: Análisis de datos bivariantes 1 Contenidos 3.1 Tablas de doble entrada. Datos bivariantes. Estructura de la tabla de doble entrada. Distribuciones de frecuencias marginales. Distribución conjunta

Más detalles

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición... Contenidos 1 Introducción al paquete estadístico S-PLUS 19 1.1 Introducción a S-PLUS............................ 21 1.1.1 Cómo entrar, salir y consultar la ayuda en S-PLUS........ 21 1.2 Conjuntos de datos..............................

Más detalles

Nota de los autores... vi

Nota de los autores... vi ÍNDICE Nota de los autores... vi 1 Qué es la estadística?... 1 1.1 Introducción... 2 1.2 Por qué se debe estudiar estadística?... 2 1.3 Qué se entiende por estadística?... 4 1.4 Tipos de estadística...

Más detalles

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso ESTADISTICA II INGENIERIA INFORMATICA, 3 ER Curso 22 - Diciembre - 2.006 Primera Parte - Test Apellidos y Nombre:... D.N.I. :... Nota : En la realización de este examen sólo esta permitido utilizar calculadoras

Más detalles

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN CURSO DE BIOESTADÍSTICA BÁSICA Y SPSS ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN Amaia Bilbao González Unidad de Investigación Hospital Universitario Basurto (OSI Bilbao-Basurto)

Más detalles

TEMA 3.- EL ANALISIS ESTADISTICO DE LA INFORMACION (MODELIZACION) DIFERENTES TIPOS DE PROCEDIMIENTOS ESTADISTICOS

TEMA 3.- EL ANALISIS ESTADISTICO DE LA INFORMACION (MODELIZACION) DIFERENTES TIPOS DE PROCEDIMIENTOS ESTADISTICOS TEMA 3.- EL ANALISIS ESTADISTICO DE LA INFORMACION (MODELIZACION) PROCEDIMIENTOS ESTADISTICOS CONSTRUCCION DE MODELOS DIFERENTES TIPOS DE PROCEDIMIENTOS ESTADISTICOS Cada procedimiento es aplicable a un

Más detalles

TÉCNICAS ESTADÍSTICAS PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE

TÉCNICAS ESTADÍSTICAS PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE TEMA 8 TÉCNICAS ESTADÍSTICAS PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE 8.1.La inferencia estadística: del análisis univariante al análisis multivariante. 8.2.La reducción de la dimensionalidad: el análisis

Más detalles

Diplomado en Econometría Coordinadora académica: M.F. Esperanza Sainz López

Diplomado en Econometría Coordinadora académica: M.F. Esperanza Sainz López Diplomado en Econometría Coordinadora académica: M.F. Esperanza Sainz López Brindar al alumno los conocimientos de los métodos econométricos fundamentales y de los conceptos estadísticos que éstos requieren,

Más detalles

El Modelo de Regresión Lineal

El Modelo de Regresión Lineal ECONOMETRÍA I El Modelo de Regresión Lineal Dante A. Urbina CONTENIDOS 1. Regresión Lineal Simple 2. Regresión Lineal Múltiple 3. Multicolinealidad 4. Heterocedasticidad 5. Autocorrelación 6. Variables

Más detalles

Universidad Autónoma de Sinaloa

Universidad Autónoma de Sinaloa Séptima Edición del Diplomado en Estadística Mc. José V. Jiménez Ramírez Director de la Escuela de Ciencias Fisico-Matemáticas Tel. : 7 16 11 54 vidaljr@uas.uasnet.mx Dr. René Castro Montoya Coordinador

Más detalles

Guía de taller de Economía Cuantitativa V. Profesor: ALBERTO REYES DE LA ROSA.

Guía de taller de Economía Cuantitativa V. Profesor: ALBERTO REYES DE LA ROSA. Guía de taller de Economía Cuantitativa V. Profesor: ALBERTO REYES DE LA ROSA. Debe ser resuelta a mano, citar bibliografía (no usar internet). Términos clave 1. Ceteris Paribus 2. Grado de libertad 3.

Más detalles

DISEÑOS EXPERIMENTALES DE DOS GRUPOS Y MULTIGRUPO

DISEÑOS EXPERIMENTALES DE DOS GRUPOS Y MULTIGRUPO TEMA II ESQUEMA GENERAL Diseño experimental de dos grupos: definición y clasificación Formatos del diseño y prueba de hipótesis Diseño experimental multigrupo: definición Formato del diseño multigrupo

Más detalles

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE ESCUELA UNIVERSITARIA DE ENFERMERIA DE TERUEL 1 er CURSO DE GRADO DE ENFERMERIA Estadística en Ciencias de la Salud 7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE PROFESOR Dr. Santiago

Más detalles

UNIVERSIDAD DE ANTIOQUIA FACULTAD NACIONAL DE SALUD PÚBLICA Héctor Abad Gómez. Facultad Nacional de Salud Pública Héctor Abad Gómez

UNIVERSIDAD DE ANTIOQUIA FACULTAD NACIONAL DE SALUD PÚBLICA Héctor Abad Gómez. Facultad Nacional de Salud Pública Héctor Abad Gómez UNIVERSIDAD DE ANTIOQUIA FACULTAD NACIONAL DE SALUD PÚBLICA Héctor Abad Gómez Facultad Nacional de Salud Pública Héctor Abad Gómez La Regresión es una técnica estadística utilizadas para estimar (interpolar)

Más detalles

1. Conceptos de Regresión y Correlación. 2. Variables aleatorias bidimensionales. 3. Ajuste de una recta a una nube de puntos

1. Conceptos de Regresión y Correlación. 2. Variables aleatorias bidimensionales. 3. Ajuste de una recta a una nube de puntos TEMA 10 (curso anterior): REGRESIÓN Y CORRELACIÓN 1 Conceptos de Regresión y Correlación 2 Variables aleatorias bidimensionales 3 Ajuste de una recta a una nube de puntos 4 El modelo de la correlación

Más detalles

Lucila Finkel Temario

Lucila Finkel Temario Lucila Finkel Temario 1. Introducción: el análisis exploratorio de los datos. 2. Tablas de contingencia y asociación entre variables. 3. Correlación bivariada. 4. Contrastes sobre medias. 5. Regresión

Más detalles

GEOESTADÍSTICA APLICADA

GEOESTADÍSTICA APLICADA UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO GEOESTADÍSTICA APLICADA Tema: Análisis Exploratorio de Datos Instructores: Dr. Martín A. Díaz Viera (mdiazv@imp.mx) Dr. Ricardo Casar González (rcasar@imp.mx) 2009

Más detalles

CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES

CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES TUTORÍA DE INTRODUCCIÓN A LA ESTADÍSTICA (º A.D.E.) CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES 1º) Qué ocurre cuando r = 1: a) Los valores teóricos no

Más detalles

Estadística II. Laura M. Castro Souto

Estadística II. Laura M. Castro Souto Estadística II Laura M. Castro Souto Segundo Cuatrimestre Curso 2000/2001 Modelos de Regresión Diferencias con el Diseño de Experimentos Los modelos de regresión estudian relaciones numéricas entre variables

Más detalles

EXAMEN FINAL DE ECONOMETRÍA SOLUCIONES Conteste cada pregunta en un cuadernillo diferente en dos horas y media

EXAMEN FINAL DE ECONOMETRÍA SOLUCIONES Conteste cada pregunta en un cuadernillo diferente en dos horas y media EXAMEN FINAL DE ECONOMETRÍA SOLUCIONES Conteste cada pregunta en un cuadernillo diferente en dos horas y media 1. Sean (Y; X; W ) tres variables aleatorias relacionadas por el siguiente modelo de regresión

Más detalles

Part I. Descripción estadística de dos variables. Estadística I. Mario Francisco. Variable. bidimensional. Distribuciones de frecuencias

Part I. Descripción estadística de dos variables. Estadística I. Mario Francisco. Variable. bidimensional. Distribuciones de frecuencias Part I Descripción de dos variables Introducción Si para un mismo individuo observamos simultáneamente k obtendremos como resultado una variable k-dimensional. Nos ocuparemos del estudio de las variables

Más detalles

T3. El modelo lineal básico

T3. El modelo lineal básico T3. El modelo lineal básico Ana J. López y Rigoberto Pérez Dpto Economía Aplicada. Universidad de Oviedo Curso 2010-2011 Curso 2010-2011 1 / 41 Índice 1 Regresión lineal múltiple Planteamiento Hipótesis

Más detalles

ESTADÍSTICA E INTRODUCCIÓN A LA ECONOMETRÍA

ESTADÍSTICA E INTRODUCCIÓN A LA ECONOMETRÍA GUÍA DOCENTE 2012-2013 ESTADÍSTICA E INTRODUCCIÓN A LA ECONOMETRÍA 1. Denominación de la asignatura: ESTADÍSTICA E INTRODUCCIÓN A LA ECONOMETRÍA Titulación GRADO EN FINANZAS Y CONTABILIDAD Código 5592

Más detalles

Análisis de regresión y correlación lineal

Análisis de regresión y correlación lineal Análisis de regresión y correlación lineal En las unidades anteriores hemos aplicado metodologías estadísticas para analizar la información de una variable desde una o más muestras utilizando las herramientas

Más detalles

El análisis de correspondencias. Ana María López Jiménez Dept. Psicología Experimental (USE)

El análisis de correspondencias. Ana María López Jiménez Dept. Psicología Experimental (USE) El análisis de correspondencias Ana María López Jiménez Dept. Psicología Experimental (USE) 4. El análisis de correspondencias 4.. Introducción 4.2. Tabla de correspondencias 4.3. Dependencia e independencia

Más detalles

CURSO ECONOMETRÍA BÁSICA MULTISOFTWARE

CURSO ECONOMETRÍA BÁSICA MULTISOFTWARE CURSO ECONOMETRÍA BÁSICA MULTISOFTWARE El objetivo de este curso es la presentación de las técnicas econométricas básicas, tanto clásicas como modernas, y su tratamiento con las herramientas más adecuadas

Más detalles

Método de cuadrados mínimos

Método de cuadrados mínimos REGRESIÓN LINEAL Gran parte del pronóstico estadístico del tiempo está basado en el procedimiento conocido como regresión lineal. Regresión lineal simple (RLS) Describe la relación lineal entre dos variables,

Más detalles

TEMA N 1.- ANÁLISIS DE REGRESIÓN Y MÉTODO DE MÍNIMOS CUADRADOS

TEMA N 1.- ANÁLISIS DE REGRESIÓN Y MÉTODO DE MÍNIMOS CUADRADOS UNIVERSIDAD DE ORIENTE NÚCLEO DE ANZOÁTEGUI EXTENSIÓN REGIÓN CENTRO-SUR ANACO, ESTADO ANZOÁTEGUI Asignatura: Estadística II Docente: Ing. Jesús Alonso Campos TEMA N 1.- ANÁLISIS DE REGRESIÓN Y MÉTODO DE

Más detalles

7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL. Jorge Eduardo Ortiz Triviño

7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL. Jorge Eduardo Ortiz Triviño 7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL Jorge Eduardo Ortiz Triviño jeortizt@unal.edu.co http:/www.docentes.unal.edu.co/jeortizt/ Introducción Los datos frecuentemente son dados para valores

Más detalles

con los supuestos clásicos, uno de ellos es que ninguna de las variables X 1, X 2,, X K es

con los supuestos clásicos, uno de ellos es que ninguna de las variables X 1, X 2,, X K es TEMA 2: EXTENSIONES DEL MODELO DE REGRESIÓN LINEAL MÚLTIPLE: MULTICOLINEALIDAD Y TRANSFORMACIONES LINEALES. Wooldridge: Capítulos 6 (apartado 6.1) y 7 Gujarati: Capítulos 9 (apartado 9.8), 10 y 12 1. MULTICOLINEALIDAD

Más detalles

Introducción a la Estadística Aplicada en la Química

Introducción a la Estadística Aplicada en la Química Detalle de los Cursos de Postgrado y Especialización en Estadística propuestos para 2015 1/5 Introducción a la Estadística Aplicada en la Química FECHAS: 20/04 al 24/04 de 2015 HORARIO: Diario de 10:00

Más detalles

Ajustando Curva SnapStat

Ajustando Curva SnapStat STATGRAPHICS Rev. 9/14/26 Ajustando Curva SnapStat Resumen El procedimiento Ajustando Curva SnapStat crea un resumen de una pagina que describe la relación entre un solo factor cuantitativo X y una variable

Más detalles

ÍNDICE. Capítulo 1. Técnicas de segmentación. Conceptos y clasificación... 1

ÍNDICE. Capítulo 1. Técnicas de segmentación. Conceptos y clasificación... 1 ÍNDICE Capítulo 1. Técnicas de segmentación. Conceptos y clasificación... 1 Conceptos básicos... 1 Clasificación de las técnicas de segmentación... 1 Técnicas predictivas y descriptivas... 1 Técnicas Ad-Hoc

Más detalles

INDICE. Prólogo a la Segunda Edición

INDICE. Prólogo a la Segunda Edición INDICE Prólogo a la Segunda Edición XV Prefacio XVI Capitulo 1. Análisis de datos de Negocios 1 1.1. Definición de estadística de negocios 1 1.2. Estadística descriptiva r inferencia estadística 1 1.3.

Más detalles

CURSO ECONOMETRÍA AVANZADA MULTISOFTWARE

CURSO ECONOMETRÍA AVANZADA MULTISOFTWARE CURSO ECONOMETRÍA AVANZADA MULTISOFTWARE El objetivo de este curso es la presentación de las TÉCNICAS ECONOMÉTRICAS AVANZADAS, tanto clásicas como modernas, y su tratamiento con las herramientas más adecuadas

Más detalles

INDICE. 81 Operadores lógicos Funciones exponenciales y logarítmicas Funciones trigonométricas

INDICE. 81 Operadores lógicos Funciones exponenciales y logarítmicas Funciones trigonométricas INDICE Introducción XV Capitulo 1. Instalación y primeros pasos en SPSS 10 Instalación de SPSS 10 1 Comenzando con SPSS 10 8 El trabajo de trabajo de SPSS 10 9 Opciones de a barra de menú principal 10

Más detalles

La econometría : una mirada de pájaro

La econometría : una mirada de pájaro La econometría : una mirada de pájaro Contenido Objetivo Definición de Econometría Modelos determinista y estocástico Metodología de la econometría Propiedades de un modelo econométrico Supuestos de un

Más detalles

Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez.

Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez. Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez. Econometría Regresión Múltiple: Municipio Ocupados Población Analfabeta Mayor de 10 años Total de Viviendas Bejuma 18.874 1.835

Más detalles

NOMBRE: I. TEST (debe marcar sólo un resultado como válido en cada pregunta)

NOMBRE: I. TEST (debe marcar sólo un resultado como válido en cada pregunta) ECONOMETRÍA I Examen DADE 20 de enero de 2005 NOMBRE: I. TEST (debe marcar sólo un resultado como válido en cada pregunta) 1. El contraste del predictor Sirve para determinar si las predicciones del modelo

Más detalles

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos Metodología de la Investigación en Fisioterapia Miguel González Velasco Departamento de Matemáticas. Universidad de Extremadura M.

Más detalles

RESUMEN PROGRAMACIÓN ESTADÍSTICA I. 3. Diseñar tablas estadísticas para coleccionar y ordenar datos.

RESUMEN PROGRAMACIÓN ESTADÍSTICA I. 3. Diseñar tablas estadísticas para coleccionar y ordenar datos. RESUMEN PROGRAMACIÓN ESTADÍSTICA I OBJETIVOS 1. Conocer los principales conceptos usados en Estadística: población, muestra e individuo. 2. Diferenciar los tres tipos de variables estadísticas: cualitativas,

Más detalles

4.1 Análisis bivariado de asociaciones

4.1 Análisis bivariado de asociaciones 4.1 Análisis bivariado de asociaciones Los gerentes posiblemente estén interesados en el grado de asociación entre dos variables Las técnicas estadísticas adecuadas para realizar este tipo de análisis

Más detalles

TEMA 4 Modelo de regresión múltiple

TEMA 4 Modelo de regresión múltiple TEMA 4 Modelo de regresión múltiple José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Análisis de Datos - Grado en Biología Estructura de este tema Modelo de regresión múltiple.

Más detalles

Modelo de regresión múltiple: estimación, inferencia y predicción Concepto de econometría...

Modelo de regresión múltiple: estimación, inferencia y predicción Concepto de econometría... Capítulo1 Capítulo Modelo de regresión múltiple: estimación, inferencia y predicción... 1.1 Conceptos: Los datos en econometría """"""""""""""""""""'" 1.1.1 Concepto de econometría... 1.1. Estructuras

Más detalles

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA MODELO DE REGRESIÓN LOGÍSTICA Introducción A grandes rasgos, el objetivo de la regresión logística se puede describir de la siguiente forma: Supongamos que los individuos de una población pueden clasificarse

Más detalles

Econometría II Grado en finanzas y contabilidad

Econometría II Grado en finanzas y contabilidad Econometría II Grado en finanzas y contabilidad Variables aleatorias y procesos estocásticos. La FAC y el correlograma Profesora: Dolores García Martos E-mail:mdgmarto@est-econ.uc3m.es Este documento es

Más detalles

TM 4. PROBLEMAS FRECUENTES PROVOCADOS POR LOS DATOS ECONOMICOS. 1. MULTICOLINEALIDAD: CONCEPTO Y TIPOS.

TM 4. PROBLEMAS FRECUENTES PROVOCADOS POR LOS DATOS ECONOMICOS. 1. MULTICOLINEALIDAD: CONCEPTO Y TIPOS. TM 4. PROBLEMAS FRECUENTES PROVOCADOS POR LOS DATOS ECONOMICOS. 1. MULTICOLINEALIDAD: CONCEPTO Y TIPOS.. CÓMO DETECTAR Y MEDIR EL GRADO DE MULTICOLINEALIDAD. 3. SOLUCIONES: CÓMO AFRONTAR EL PROBLEMA EN

Más detalles

(3620) ECONOMETRÍA (3620)

(3620) ECONOMETRÍA (3620) Programa de la asignatura Curso: 2013 / 2014 (3620) ECONOMETRÍA (3620) PROFESORADO Profesor/es: MARIA ISABEL LANDALUCE CALVO - correo-e: iland@ubu.es FICHA TÉCNICA Titulación: LICENCIATURA EN ADMINISTRACIÓN

Más detalles

REGRESIÓN LINEAL SIMPLE

REGRESIÓN LINEAL SIMPLE REGRESIÓN LINEAL SIMPLE 1. El problema de la regresión lineal simple. Método de mínimos cuadrados 3. Coeficiente de regresión 4. Coeficiente de correlación lineal 5. El contraste de regresión 6. Inferencias

Más detalles

Econometría III Examen. 29 de Marzo de 2012

Econometría III Examen. 29 de Marzo de 2012 Econometría III Examen. 29 de Marzo de 2012 El examen consta de 20 preguntas de respuesta múltiple. El tiempo máximo es 1:10 minutos. nota: no se pueden hacer preguntas durante el examen a no ser que sean

Más detalles

Prácticas Tema 4: Modelo con variables cualitativas

Prácticas Tema 4: Modelo con variables cualitativas Prácticas Tema 4: Modelo con variables cualitativas Ana J. López y Rigoberto Pérez Departamento de Economía Aplicada. Universidad de Oviedo PRACTICA 4.1- Se dispone de información sobre 16 familias sobre

Más detalles

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA www.jmontenegro.wordpress.com UNI ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA PROF. JOHNNY MONTENEGRO MOLINA Objetivos Desarrollar el concepto de estimación de parámetros Explicar qué es una

Más detalles

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows. TEMA 13 REGRESIÓN LOGÍSTICA Es un tipo de análisis de regresión en el que la variable dependiente no es continua, sino dicotómica, mientras que las variables independientes pueden ser cuantitativas o cualitativas.

Más detalles

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia Estudio de Caso: Estudio Morfología Coeficiente de Correlación Considere el archivo Estudio Morfología.sav.

Más detalles

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Regresión múltiple. Demostraciones. Elisa Mª Molanes López Regresión múltiple Demostraciones Elisa Mª Molanes López El modelo de regresión múltiple El modelo que se plantea en regresión múltiple es el siguiente: y i = β 0 + β 1 x 1i + β 2 x 2i +...+ β k x ki +

Más detalles

Regresión Lineal Simple y Múltiple Regresión Logística

Regresión Lineal Simple y Múltiple Regresión Logística Regresión Lineal Simple y Múltiple Regresión Logística Miguel González Velasco Departamento de Matemáticas. Universidad de Extremadura MUI en Ciencias de la Salud MUI en Ciencias de la Salud (UEx) Regresión

Más detalles

Fundamentos del Análisis Econométrico. Dante A. Urbina

Fundamentos del Análisis Econométrico. Dante A. Urbina Fundamentos del Análisis Econométrico Dante A. Urbina Qué es la Econometría? Etimológicamente Econometría significa medición de la economía. En ese contexto, la Econometría es la aplicación de métodos

Más detalles

Modelación estadística: La regresión lineal simple

Modelación estadística: La regresión lineal simple Modelación estadística: La regresión lineal simple Gabriel Cavada Ch. 1 1 División de Bioestadística, Escuela de Salud Pública, Universidad de Chile. Statistical modeling: Simple linear regression Cuando

Más detalles

ÍNDICE PRESENTACIÓN 1 I. INTRODUCCIÓN A LA ECONOMETRÍA... 4 CURRICULUM I.1. 4 Definición... I.2

ÍNDICE PRESENTACIÓN 1 I. INTRODUCCIÓN A LA ECONOMETRÍA... 4 CURRICULUM I.1. 4 Definición... I.2 ÍNDICE Pags. PRESENTACIÓN 1 I. INTRODUCCIÓN A LA ECONOMETRÍA... 4 CURRICULUM I.1 4 Definición... I.2 4 Propósito... 1.3 Evolución y Perspectivas de la Econometría... 4 1.4 Los Modelos Macroeconómicos más

Más detalles

INDICE 1. Introducción 2. Recopilación de Datos Caso de estudia A 3. Descripción y Resumen de Datos 4. Presentación de Datos

INDICE 1. Introducción 2. Recopilación de Datos Caso de estudia A 3. Descripción y Resumen de Datos 4. Presentación de Datos INDICE Prefacio VII 1. Introducción 1 1.1. Qué es la estadística moderna? 1 1.2. El crecimiento y desarrollo de la estadística moderna 1 1.3. Estudios enumerativos en comparación con estudios analíticos

Más detalles

Examen de Introducción a la Econometría

Examen de Introducción a la Econometría NOMBRE GRUPO MODELO 1 DNI: Firma: Examen de Introducción a la Econometría 18 de junio de 2009 Sólo una respuesta es válida. Debe justificar la respuesta de cada pregunta en el espacio que se le proporciona.

Más detalles

BLOQUE III. ANÁLISIS MULTIVARIANTE

BLOQUE III. ANÁLISIS MULTIVARIANTE BLOQUE III. ANÁLISIS MULTIVARIANTE CAPÍTULO 7 Teoría sobre análisis multivariante. El análisis multivariante engloba un grupo de técnicas o métodos estadísticos cuya finalidad es analizar simultáneamente

Más detalles

Estadística aplicada al medio ambiente

Estadística aplicada al medio ambiente Estadística aplicada al medio ambiente III. Regresión lineal 3 o de CC. AA. Departamento de Matemáticas Universidad Autónoma de Madrid 2011/12 Planteamiento Modelo Estimación de parámetros Intervalos de

Más detalles

ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 11) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía

ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 11) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 11) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía Novedades en el Plan de Trabajo Desviación típica sesgada

Más detalles

Part VII. Estadística I. Mario Francisco. Introducción a la inferencia. Estimación puntual. Propiedades deseables de los estimadores

Part VII. Estadística I. Mario Francisco. Introducción a la inferencia. Estimación puntual. Propiedades deseables de los estimadores Part VII La inferencia puede definirse como el conjunto de métodos mediante cuales podemos extraer información sobre distintas características de interés de cierta distribución de probabilidad de la cual

Más detalles

Representaciones gráficas de las distribuciones bidimensionales de frecuencias... 74

Representaciones gráficas de las distribuciones bidimensionales de frecuencias... 74 Índice 1. Introducción al R 15 1.1. Introducción............................. 15 1.2. El editor de objetos R....................... 18 1.3. Datos en R............................. 19 1.3.1. Vectores...........................

Más detalles

2. ESTADÍSTICA DESCRIPTIVA 15 Estadística descriptiva.. Variables aleatorias Descripción de variables cuantitativas

2. ESTADÍSTICA DESCRIPTIVA 15 Estadística descriptiva.. Variables aleatorias Descripción de variables cuantitativas " INDICE PRÓLOGO... XXIII PREFACIO GUÍA DE LECTURA XXV XXIX 1. INTRODUCCIÓN A LA ESTADÍSTICA 1 1.1. Estadística 1 1.2. Historia 3 1.3. Población y muestra 4 1.4. Estadística aplicada 7 1.5. Aplicaciones

Más detalles

ASIGNATURA: ESTADISTICA II (II-055) Ing. César Torrez https://torrezcesar.wordpress.com

ASIGNATURA: ESTADISTICA II (II-055) Ing. César Torrez https://torrezcesar.wordpress.com ASIGNATURA: ESTADISTICA II (II-055) Ing. César Torrez torrezcat@gmail.com https://torrezcesar.wordpress.com 0416-2299743 Programa de Estadística II UNIDAD IV: REGRESIÓN Y CORRELACIÓN MÚLTIPLE LINEAL TANTO

Más detalles

ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA

ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA ANALISIS DE CLUSTER EN SPSS Opción: Analizar Clasificar ANALISIS DE CLUSTER EN SPSS Tres posibles OPCIONES 1.- Cluster en dos etapas 2.- K-means 3.- Jerárquicos

Más detalles

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica INDICE 1. Qué es la Estadística? 1 Introducción 2 Qué significa estadística? 2 Por qué se estudia la estadística? 4 Tipos de estadística 5 Estadística descriptiva 5 Estadística inferencial 6 Tipos de variables

Más detalles

Econometría dinámica y financiera

Econometría dinámica y financiera Econometría dinámica y financiera Introducción a la econometría financiera. Modelos ARCH Profesora: Dolores García Martos E-mail:mdgmarto@est-econ.uc3m.es Introducción Los modelos que hemos visto son lineales

Más detalles

SPSS Aplicación práctica: Base de datos del HATCO

SPSS Aplicación práctica: Base de datos del HATCO Aplicación práctica: Base de datos del HATCO Datos: observaciones de variables obtenidos desde encuentas a clientes de un distribuidor industrial. Variables de interés en la aplicación: Percepciones de

Más detalles

Econometría 1. Karoll GOMEZ Segundo semestre 2017

Econometría 1. Karoll GOMEZ   Segundo semestre 2017 Econometría 1 Karoll GOMEZ kgomezp@unal.edu.co http://karollgomez.wordpress.com Segundo semestre 2017 II. El modelo de regresión lineal Esperanza condicional I Ejemplo: La distribución de los salarios

Más detalles

Modelado y simulación en Ingeniería Química. Manuel Rodríguez

Modelado y simulación en Ingeniería Química. Manuel Rodríguez ÍNDICE Modelos de caja gris Calibración de modelos Estimación de parámetros Análisis de la estimación Regresión no lineal 1. Modelos de caja gris Son modelos de un sistema (o proceso), donde: Desarrollados

Más detalles

ESTADISTICA AVANZADA MODULO I

ESTADISTICA AVANZADA MODULO I ESTADISTICA AVANZADA MODULO I Análisis de Regresión Modelo Supuestos Multiple 20.0 25.0 30.0 35.0 40.0 45.0 50.0 55.0 60.0 65.0 70.0 75.0 80.0 85.0 Consumo Energetico Gráfico de Dispersión 110.000 105.000

Más detalles