Regresión Lineal Simple

Documentos relacionados
Viernes 7 de octubre de 2005 Mate 3026 Estadística con Programación Prof. José N. Díaz Caraballo

Teoría de la decisión

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

Regresión Lineal. Dra. Noemí L. Ruiz Limardo 2008 Derechos Reservados, Rev 2010

Tercera práctica de REGRESIÓN.

Método de cuadrados mínimos

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Tema 1.- Correlación Lineal

4.1 Análisis bivariado de asociaciones

CORRELACIÓN Y REGRESIÓN. Raúl David Katz

Capítulo 5. Los números reales y sus representaciones Pearson Education, Inc. Diapositiva 5-1-1

ESTADÍSTICA DESCRIPTIVA

Estadística Descriptiva Métodos descriptivos visuales y medidas resumen

La producción de acero en Monterrey N.L. (México) en millones de toneladas, durante el año de 1992 a partir del mes de enero se muestra en la tabla:

Productos notables. Se les llama productos notables (también productos especiales) precisamente porque son muy utilizados en los ejercicios.

ADMINISTRACION DE OPERACIONES

Regresión con variables independientes cualitativas

ACTIVIDAD 2: La distribución Normal

Variables estadísticas bidimensionales: problemas resueltos

Estadística Descriptiva

Aplicación: cálculo de áreas XII APLICACIÓN: CÁLCULO DE ÁREAS

ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES ESTADÍSTICA ESPACIAL

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

Análisis de Componentes de la Varianza

Tema 2. Descripción Conjunta de Varias Variables

CM2 ENRICH CREUS CARNICERO Nivel 2

Estadísticos Descriptivos

Tema 2. Regresión Lineal

CORRELACIÓN Y REGRESIÓN. Juan José Hernández Ocaña

Modelo Econométrico sobre el Turismo

un conjunto cuyos elementos denominaremos vectores y denotaremos por es un espacio vectorial si verifica las siguientes propiedades:

Expliquemos con exactitud qué queremos decir con valores máximos y mínimos.

SOLUCIÓN A LOS EJERCICIOS DEL SPSS Bivariante

Técnicas de Investigación Social

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

Exactitud y Linearidad del Calibrador

Curso de Estadística Aplicada a las Ciencias Sociales

Medidas de tendencia central

1.- DATOS DE LA ASIGNATURA. Diseño Asistido por Computadora. Nombre de la asignatura: Ingeniería Industrial. Carrera: Clave de la asignatura: OPN-1307

Lección 12: Sistemas de ecuaciones lineales

UNIDAD 4: FUNCIONES POLINOMIALES Y RACIONALES

Función cuadrática. Ecuación de segundo grado completa

Límites Difíciles Paso a Paso

Nuestro primer ejemplo nos dice: Escribe la ecuación de una línea que es perpendicular a la grafica de Y= ½x + 4 y pasa por los puntos (0,-1).

Base y Dimensión de un Espacio Vectorial

REGRESIÓN LINEAL SIMPLE, COEFICIENTE DE DETERMINACIÓN Y CORRELACIONES (EJERCICIOS RESUELTOS)

Estadísticas Elemental Tema 3: Describir la relación entre dos variables: Correlación y regresión 3.1-1

Universidad Nacional de Colombia Departamento de Matemáticas Álgebra Lineal - Grupo 5 Resumen Unidad n 3

Práctica 5 MÉTODOS DESCRIPTIVOS PARA DETERMINAR LA NORMALIDAD

GRUPO A GRUPO B Total = 225 Total = 250. Medidas de tendencia central.

CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA BIVARIADA

El ejemplo: Una encuesta de opinión

1. Cómo introducir datos en SPSS/PC? - Recordatorio

ESTADÍSTICA. Tema 4 Regresión lineal simple

Factorización ecuación identidad condicional término coeficiente monomio binomio trinomio polinomio grado ax3

SESIÓN N 07 III UNIDAD RELACIONES Y FUNCIONES

Materia: Matemática de Octavo Tema: Función afín

Bioestadística. Tema 3: Estadística descriptiva bivariante y regresión lineal. Relaciones entre variables y regresión

Distribuciones bidimensionales. Regresión.

Tema 7: Geometría Analítica. Rectas.

Repaso Estadística Descriptiva

Curso de Estadística Básica

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

PARÁBOLA IX.

Materia: Matemática de Octavo Tema: Conjunto Q (Números Racionales)

Una función de la forma donde a 1 siendo "a" la base y "X" el exponente

Diplomatura en Ciencias Empresariales X Y

La representación gráfica de una función cuadrática es una parábola.

DISTRIBUCIÓN NORMAL CAPÍTULO 16

Práctica 5 ANÁLISIS DE UNA MUESTRA INTERVALOS DE CONFIANZA CONTRASTE DE HIPÓTESIS

Una función f, definida en un intervalo dterminado, es creciente en este intervalo, si para todo x

Marzo 2012

Función lineal Ecuación de la recta


Programación NO Lineal (PNL) Optimización sin restricciones

Ecuaciones Lineales en Dos Variables

Matemáticas I Grado de Administración y Dirección de Empresas Examen de Febrero Curso 2011/ ?

FRACCIONES EQUIVALENTES 3.1.1

Fabio Prieto Ingreso 2003

Se desea estudiar el comportamiento de una función a medida independiente x se aproxima a un valor específico.

Materia: Matemática de Tercer Año Tema: Pendiente

UNIDAD 10: ECUACIONES DE SEGUNDO GRADO.

Práctica 9 REGRESION LINEAL Y CORRELACIÓN

SESIÓN PRÁCTICA 7: REGRESION LINEAL SIMPLE PROBABILIDAD Y ESTADÍSTICA. PROF. Esther González Sánchez. Departamento de Informática y Sistemas

SUPERFICIES CUÁDRICAS

Sistemas de ecuaciones lineales dependientes de un parámetro

Relación entre la altura y la distancia del suelo al ombligo

Los estadísticos descriptivos clásicos (Robustez)

Lección 11: Ecuaciones lineales con dos incógnitas

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

Regresión en Cadena. StatFolio de Ejemplo: ridge reg.sgp

Colegio Universitario Boston

MÉTODO DE TRABAJO DE ANÁLISIS HERRAMIENTA DIAGRAMAS DE DISPERSIÓN 3.6 MÉTODOS DE TRABAJO 0/7 MIGUEL MARTÍNEZ VIGIL CARMEN HERNÁNDEZ CORRAL

Doc. Juan Morales Romero

El Análisis de Correspondencias tiene dos objetivos básicos:

Estadística aplicada a la comunicación

LA ECUACIÓN CUADRÁTICA

Profesorado de Nivel Medio y Superior en Biología Matemática - 1º Cuatrimestre Año 2013 FUNCIÓN CUADRÁTICA

CONCAVIDAD. Supongamos que tenemos la siguiente información, referente a una curva derivable: Cómo la graficaríamos?

Transcripción:

Residuos, Residuos studentizados y valores DFFIT Su uso en Regresión Lineal Simple y Múltiple. Florentino Menéndez Junio 2 - Cátedra de Mitología de la Investigación IIII Departamento de Sociología - Universidad de la República Regresión Lineal Simple El estudio de residuos es una herramienta formidable en el estudio de las regresiones lineales. Nos sirve para saber si se están cumpliendo las premisas de linealidad de las relaciones, homocedasticidad y normalidad de los residuos. Los residuos studentizados y los valores DFFIT nos ayudan a encontrar casos desviantes y puntos influyentes. Es más fácil de comprender su lógica en el caso de las regresiones lineales simples. Por ello, se comenzaremos viendo su aplicación a éstas. Definición de residuo En el contexto de la regresión lineal, llamamos residuos a las diferencias entre los valores de la variable dependiente observados y los valores que predecimos a partir de nuestra recta de regresión. 19 Rsq =,73 8 22 En el diagrama de dispersión mostrado han sido identificados dos casos, el 19 y el. El caso tiene un pequeño residuo negativo: su valor en y observado es menor que el valor en y predicho, y la diferencia entre uno y otro no es muy grande en valor absoluto. El caso 19 tiene un residuo positivo: el valor observado es mayor que el predicho.

Gráfica de residuos contra variable independiente. Los residuos pueden ser graficados contra distintas variables. Es muy habitual hacerlo contra las variables independientes. Veamos como luce el gráfico correspondiente a los mismos datos. 6 4 19 2-2 Residuos -4-6 Rsq =, 8 22 Este gráfico tiene esencialmente la misma información que el scatterplot de x contra y, sólo que la información aparece en una escala mayor, es más fácilmente visible. Nótese que el residuo del caso sigue siendo negativo, el del caso 19 positivo, y que la magnitud absoluta del caso 19 es mayor que la del, tal como se podía observar en el primer scatterplot.

Qué debemos buscar en los scatterplots de residuos? Una de las cosas que buscamos es detectar si existe curvilinealidad en las relaciones. Si el diagrama xy luce como el de abajo, 8 6 11 13 15 17 el diagrama de residuos lucirá así: 6 4 2-2 Residuos -4-6 11 13 15 17 La curvilinealidad que advertíamos en el primer diagrama de x contra y, la vemos también en el ploteo de residuos. Lo que más nos importa retener de aquí: El scatterplot de residuos nos permite detectar curvilinealidad.

La investigación de heterocedasticidad. 8 7 6 5 4 Rsq =,4327 11 13 15 17 Notesé que la dispersión de los valores de y aumentan conforme aumenta x. Aquí hay heterocedasticidad. No hay igualdad de varianza para todos los puntos de x. Veamos ahora el mismo caso en un gráfico de residuos contra x. - Residuos - - 11 13 15 17 Se ve de forma magnificada el mismo fenómeno de heterocedasticidad. Lo que nos importa de aquí es: El scatterplot de residuos nos permite detectar heterocedasticidad.

La normalidad de los residuos Uno de los supuestos del modelo generalmente aceptado es que los errores o residuos, se distribuyen alrededor de la recta de regresión, en forma normal, con una media de cero. Para verificar ese supuesto de normalidad, podemos recurrir a alguno de los varios gráficos que nos ofrece el SPSS: el histograma, el diagrama de tallos y hojas o un Q-Q plot. Aquí mostraremos solamente uno del ellos: el histograma. Primero veremos el gráfico xy, y luego mostraremos el histograma de sus residuos. 8 6 4 2 11 13 15 17 Std. Dev = 2, Mean =, N = 8, -3,75-2,75-1,75 -,75,25 1,25 2,25 3,25 4,25 5,25 Unstandardized Residual El histograma con los residuos tiene un aspecto general normal. Por supuesto no reproduce exactamente la curva normal, pero podemos atribuir esas desviaciones, con

razonabilidad, al número no demasiado grande de residuos: 8. Si la muestra fuera mayor, tendríamos derecho a esperar mejor ajuste. De la última parte se debe recordar que: Un histograma de residuos nos permite estudiar su normalidad. Residuos studentizados Los residuos studentizados procuran dar una respuesta a la pregunta qué observaciones están muy alejadas del valor previsto? En qué valores es probable que esté teniendo casos desviados o medidas erróneas? Estos residuos son estandarizados de una manera singular: cada residuo i-ésimo es dividido por la desviación estándar de todos los residuos salvo el i-ésimo. Studentizacion es una vieja palabra que significa estandarización. Es una forma de estandarizar no muy lejana al cálculo de los valores z. En la estandarización z, a cada valor se le resta la media y se divide por una única desviación estándar del conjunto de residuos. En la studentización de los residuos no es necesario restar la media, ya que la media de los residuos es cero. Se divide por una desviación estándar distinta para cada elemento. La desviación utilizada, se calcula utilizando todos los residuos, salvo el que está siendo considerado. El elemento con número de identificación 1 está muy alejado de la recta de regresión 5 1 4 5 Rsq =,6321 22 en comparación con los demás. El segundo elemento más alejado con residuo positivo es el identificado como 5. Por tanto es de esperar que tengan valores más altos que el resto en su residuo studentizado. Veamos la salida ordenada de mayor a menor, del SPSS.

Case Summaries IDENT Residuos studentizados 1 8,36871 5 2,1955 5 1,989 24 1,7659 17 1,6238 3 1,41111 1,4458 153 1,38442 82 1,33519 4 1,29569 Tal como lo esperábamos, el elemento identificado como 1 tiene un residuo studentizado que se separa notablemente del resto. El elemento número 5, tiene un residuo de 2,2. Es un residuo alto pero no muy alejado del pelotón. En resumen: Los residuos studentizados nos permiten localizar los outliers de la relación.

Valores DFFIT DFFITs quiere decir difference between fitted values. Estos valores nos ayudan a detectar los puntos influyentes en una regresión. Influyente 4 5 Véase en la gráfica de arriba el punto influyente. Ese punto atrae fuertemente hacia sí la recta de regresión. Si ese punto no estuviera, la recta sería mucho más empinada. En el gráfico que sigue haremos notar que tanto se desvía la línea de regresión por la presencia de dicho punto. 6 5 67 4 67 Pred. con infl. 4 67 5 Pred. sin influy En la gráfica de arriba se plotean:

los valores observados dibujados como pequeños triángulos que apuntan hacia abajo; los valores predichos según la recta de predicción trazada con todos los puntos (marcados con un signo +), los valores predichos según la recta de regresión trazada sin el punto influyente (marcados con el signo X). Véase la gran distancia entre las distintas predicciones generadas para el punto influyente, esto es, para el punto aquí identificado como número 67. La distancia entre ambos valores predichos es el DFFIT para el caso 67. En nuestro caso particular, el valor predicho por la recta de regresión calculada con todos los puntos para el x1 del valor influyente, es de 28.56. El previsto por la recta de regresión excluido el punto influyente, para el mismo x1, es de 5.71. Por tanto, el valor DFFIT para dicho punto es de 28,56-5.71= -22. Para hallar los puntos influyentes, localizamos los valores de mayor valor absoluto entre los DDFIT. 5 4 -,3-2,3-4,3-6,3-8,3 -,3 -,3 -,3 -,3 -,3 -,3-22,3 Std. Dev = 2,71 Mean = -,3 N = 67, DFFIT En el histograma se advierte claramente el carácter de outlier del valor DFFIT= 22. No hay ninguno que ni se le acerque en su grado de influencia. No olvidar que los puntos influyentes deben ser analizados con mucho cuidado. Un solo caso, o unos pocos, pueden llevarnos a sacar conclusiones apresuradas sobre el universo. Lo más básico a recordar es: Los valores DFFIT nos permiten detectar fácilmente los puntos influyentes.

Análisis de residuos, residuos studentizados y DFFITs en la regresión lineal múltiple Habiendo explicado el uso de las herramientas diagnósticas, podremos rápidamente comprender cómo se chequean ordenadamente los supuestos de la regresión lineal múltiple. Seguiremos a David Moore y George McCabe (). Refiriéndose a la etapa final del análisis de regresión lineal múltiple, ellos dicen: debemos siempre examinar los residuos como una ayuda para determinar si el modelo de regresión múltiple es apropiado a los datos. Como hay varias variables explicativas, debermos correr varios gráficos de residuos; es usual graficar los residuos contra los valores predichos de y, y también contra cada una de las variables explicativas. Siguiendo su criterio, correremos entonces los siguientes gráficos: Residuos contra x1 Residuos contra x2 Residuos contra xn Residuos contra y predicha. Prosiguen Moore y McCabe: Busque outliers, observaciones influyentes, evidencia de una relación curva (en oposición a lineal), y todo aquello que sea inusual Para ello haremos: Residuos studentizados Valores DFFITs Los outliers de la relación los podemos encontrar como valores elevados dentro de los residuos studentizados. (También podríamos buscarlos como outliers dentro del grupo de residuos: en realidad los residuos studentizados mayores de 3, o menores de 3. señalan los outliers ese puede ser un buen punto de corte, aunque podría tomarse otro). Los valores influyentes serán detectados con ayuda de los valores DFFITs. Un caso para ser fuertemente influyente, debe tener un valor apartado del común, ya sea positivo o negativo. La búsqueda de evidencia de relaciones curvas se hará mediante el análisis de las gráficas de residuos. Nubes de puntos de claro contenido curvilíneo nos exigirán que modifiquemos nuestro modelo.

Moore y McCabe dicen finalmente: Si las desviaciones en el modelo están normalmente distribuidas, los residuos deberán estar normalmente distribuidos. Para ello graficaremos: Histograma con los residuos, para chequear su normalidad. También son aptos para chequear normalidad un Q-Q plot o un diagrama de tallos y hojas, pero por simplicidad proseguiremos con el histograma. Si hemos dado los pasos arriba indicados, hemos hecho un buen chequeo de la adecuación del modelo de regresión lineal múltiple a sus premisas básicas. En resumen: Remate la adecuación de sus variables a un modelo de regresión lineal múltiple efectuando: Residuos contra x1 Residuos contra x2 Residuos contra xn Residuos contra y predicha. Residuos studentizados Valores DFFITs Histograma de residuos. Si no se advierten anormalidades severas, sus variables pueden ser modeladas con una regresión lineal múltiple. Bibliografía citada: Moore, D. y G. McCabe () Introduction to the Practice of Statistics, 3ra. Edición, New ork, W. H. Freeman and Company: 724.