SESIÓN PRÁCTICA 7: REGRESION LINEAL SIMPLE PROBABILIDAD Y ESTADÍSTICA. PROF. Esther González Sánchez. Departamento de Informática y Sistemas

Documentos relacionados
REGRESIÓN LINEAL CON SPSS

Práctica 1: Introducción a SPSS 1

5 Relaciones entre variables.

Distribuciones bidimensionales. Regresión.

SOLUCIÓN A LOS EJERCICIOS DEL SPSS Bivariante

GRÁFICOS GRÁFICOS EN SPSS. Bakieva, M., González Such, J., Jornet, J., Terol, L.

CALIDAD 1 JOSÉ MANUEL DOMENECH ROLDÁN PROFESOR DE ENSEÑANZA SECUNDARIA

Índice de contenidos. Primera parte Introducción al SPSS. 1. Estructura del SPSS

TRABAJO PRÁCTICO ESTADISTICA APLICADA (746)

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Inferencia estadística III. Análisis de Correlación. La inferencia estadística también se puede aplicar para:

Laboratorio 2: Análisis de datos bivariantes

4,2 + 0,67 Y c) R 2 = 0, En la estimación de un modelo de regresión lineal se ha obtenido:

CORRELACIÓN Y REGRESIÓN LINEAL

Práctica 2 Estadística Descriptiva

UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA VICERRECTORADO ACADÉMICO COORDINACION DE PRE-GRADO PROYECTO DE CARRERA DE INGENIERIA INDUSTRIAL

1. Cómo introducir datos en SPSS/PC? - Recordatorio

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

Capítulo 2. Cómo utilizar la ayuda

Matemáticas. Bioestadística. Correlación y Regresión Lineales

FUNDAMENTOS METODOLÓGICOS EN PSICOLOGÍA ANÁLISIS BÁSICOS CON SPSS

CORRELACION Y REGRESION

TEMA N 2 RECTAS EN EL PLANO

Ejemplo Traza la gráfica de los puntos: ( 5, 4), (3, 2), ( 2, 0), ( 1, 3), (0, 4) y (5, 1) en el plano cartesiano.

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

El uso de la Técnica de Regresión Lineal Múltiple para la evaluación de la dotación de personal en el I.N.S.S.

Caso 314: Cálculo de velocidades iniciales en Cinética. Discriminación entre modelos, cálculo de pendientes y asíntotas (F.J.

Segunda práctica de REGRESIÓN.

SESIÓN PRÁCTICA 3: TRANSFORMACIONES DE DATOS PROBABILIDAD Y ESTADÍSTICA. PROF. Esther González Sánchez. Departamento de Informática y Sistemas

Bioestadística. En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de relación entre si.

U ED Tudela Introducción al Análisis de Datos - Tema 5

La Estadística Médica. Descripción General de la Bioestadística. Esquema de la presentación. La Bioestadística. Ejemplos de fuentes de Incertidumbre

1. Mínimos Cuadrados.

Capitulo. Describir la relación entre dos variables Pearson Prentice Hall. All rights reserved

TALLER DE INTRODUCCIÓN A LOS NEGOCIOS

Lección 10: Representación gráfica de algunas expresiones algebraicas

Prueba de Evaluación Continua Grupo A 26-XI-14

Distribuciones Bidimensionales.

3. Resolver triángulos rectángulos utilizando las definiciones de las razones trigonométricas.

Relación entre variables: causalidad, correlación y regresión

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

Una población es el conjunto de todos los elementos a los que se somete a un estudio estadístico.

DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II

ESTADÍSTICA INFERENCIAL

Regresión lineal múltiple

TEMA N 1.- ANÁLISIS DE REGRESIÓN Y MÉTODO DE MÍNIMOS CUADRADOS

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Errores frecuentes en la interpretación del coeficiente de determinación lineal

INTRODUCCIÓN AL ANÁLISIS DE DATOS FEBRERO Código asignatura: EXAMEN MODELO B DURACION: 2 HORAS

UNIVERSIDAD DE CIENCIAS EMPRESARIALES Y SOCIALES Facultad de Psicología y Ciencias Sociales. Licenciatura en Sociología. ESTADÍSTICA II (Plan 2008)

Tema Correlación. Correlación. Introducción

CUADERNO DE EJERCICIOS

Coeficiente de correlación semiparcial

Debemos obtener las medidas estadísticas más comunes.

El ejemplo: Una encuesta de opinión

Análisis de fiabilidad. García-Bellido, R.; González Such, J. y Jornet Meliá, J.M.

Lección 3. Análisis conjunto de dos variables

Contenidos mínimos 4B ESO. 1. Contenidos. Bloque I: Aritmética y álgebra.

Comparación de Líneas de Regresión

1. Distribución Normal estándar

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

Medidas de asociación

Tema 9: Estadística descriptiva

Nociones de Estadística Descriptiva. Medidas de tendencia central y de variabilidad

Este programa estadístico está organizado en dos bloques: el editor de datos y el visor de resultados.

FÍSICA Y QUÍMICA 4º ESO. OBJETIVOS, CONTENIDOS Y CRITERIOS DE EVALUACIÓN. 1ª Evaluación

Estadística. Tema: Población bivariante Regresión lineal y correlación. A. Mora Regresión lineal y correlación 1

2. SISTEMAS DE ECUACIONES LINEALES. Introducción

Correlaciones y Análisis de Regresión

Qué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y)

PROBABILIDAD Y ESTADÍSTICA. Sesión 5 (En esta sesión abracamos hasta tema 5.8)

DaVinciTEXTIL. Codificación de artículos

U ED Tudela Introducción al Análisis de Datos - Tema 4

ÍNDICE CAPITULO UNO CAPITULO DOS. Pág.

Bioestadística. Tema 3: Estadística descriptiva bivariante y regresión lineal. Relaciones entre variables y regresión

Cálculo científico y técnico con HP49g/49g+/48gII/50g Módulo 3: Aplicaciones Tema 3.2 Determinación aproximada de extremos: Método de Newton-Raphson

ESTADÍSTICA 3º CC. AMBIENTALES PRÁCTICA 1: Introducción al SPSS

Doc. Juan Morales Romero

Introducción a la estadística básica, el diseño de experimentos y la regresión

Julia García Salinero. Departamento de Investigación FUDEN. Introducción

Análisis de regresión y correlación lineal

Estadística descriptiva bivariante y regresión lineal.

Fecha de realización:... Fecha de entrega:... Comisión:... Apellidos Nombres:...

ANÁLISIS DE REGRESIÓN N LINEAL

Funciones de varias variables.

PRÁCTICA: ESTADÍSTICA DESCRIPTIVA CON SPSS 1

Estadística para el análisis de los Mercados S3_A1.1_LECV1. Estadística Descriptiva Bivariada

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 4)

ASIGNATURA: ESTADISTICA II (II-055) Ing. César Torrez

Cómo introducir funciones en Geogebra y desplazarte por ellas para explorar sus propiedades.

Curso de Álgebra Lineal

Explorando la ecuación de la recta pendiente intercepto

Teoría 3_10 Gráficos!

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

FUNCIONES CUADRÁTICAS. PARÁBOLAS

CORRELACIÓN Y REGRESIÓN. Juan José Hernández Ocaña

TEMA 2: DISTRIBUCIONES BIDIMENSIONALES

Estadística Inferencial

RELACIÓN DE EJERCICIOS DE REPASO DE MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I

ESTADÍSTICA APLICADA. PRÁCTICAS CON SPSS. TEMA 2

Transcripción:

SESIÓN PRÁCTICA 7: REGRESION LINEAL SIMPLE PROBABILIDAD Y ESTADÍSTICA PROF. Esther González Sánchez Departamento de Informática y Sistemas Facultad de Informática Universidad de Las Palmas de Gran Canaria Curso 2008-2009

Tema 7. Análisis de Regresión Lineal Simple El análisis de regresión lineal es una técnica estadística que se utiliza para estudiar la relación entre variables. Suele emplearse para pronosticar valores en una variable criterio (Y) desde las puntuaciones en una variable predictora (X). En la asignatura solamente hemos estudiado la regresión lineal con una sola variable predictora (regresión simple) sin embargo, la regresión también puede efectuarse a partir de 2 o más variables predictoras (X 1, X 2, etc.). A medida que vayamos entrando en las opciones del SPSS para regresión simple, veremos de forma intuitiva cómo se procede para la regresión con más de un predictor (regresión múltiple). Diagrama de dispersión La primera aproximación a la relación entre dos variables (X e Y) puede hacerse a partir de un diagrama de dispersión. Para realizar el diagrama de dispersión se selecciona el menú Gráficos de la barra de menús del Editor de datos y se elige el procedimiento Dispersión. El cuadro de diálogo correspondiente es el siguiente: Variable criterio: eje de ordenadas Variable predictora: eje de abcisas Pulsar para definir los ejes del diagrama Con esta definición se obtiene el siguiente diagrama de dispersión simple en el visor de resultados: Su forma indica que los puntos en el diagrama no están perfectamente alineados pero se acercan a una hipotética línea recta. 1

Ecuación de regresión Podrían trazarse diferentes rectas para realizar pronósticos de una variable a partir de la otra (por ejemplo de Y a partir de X en una regresión de Y sobre X). Las rectas de regresión tienen una fórmula muy simple: El objetivo es encontrar aquella recta que minimice la distancia entre lo encontrado (Y) y lo pronosticado (Y ). Es decir, que minimice la expresión: Para ello calculamos los coeficientes del modelo mediante: Veamos cómo se procede en el SPSS para calcular dichos coeficientes, obtener la recta de regresión y valorar la bondad del modelo. Se selecciona el menú Analizar -> Regresión -> Lineal: El cuadro de diálogo correspondiente al procedimiento Regresión lineal aparece en la figura. Como en otros cuadros de diálogo del SPSS, lo primero es seleccionar las variables. En este caso hay que distinguir entre Dependiente e Independiente (o independientes si se trata de una regresión múltiple). Como siempre, las variables se trasladan mediante el botón. 2

Dentro de este menú hay otras opciones. Por el momento, la que nos interesa es la que se encuentra en el botón Estadísticos, cuyo cuadro de diálogo aparece en la figura siguiente. Desde aquí podemos solicitar que se ofrezcan las estimaciones de la pendiente y el origen de la recta de regresión (según el criterio de mínimos cuadrados), la matriz de covarianzas para las variables, el ajuste del modelo (coeficiente de Pearson al cuadrado o coeficiente de determinación) y los estadísticos descriptivos (media y varianza): Otra opción relevante del menú regresión lineal es la de Guardar (ver figura) 1. Desde su correspondiente cuadro de diálogo es posible indicar que se guarden los valores pronosticados por el modelo (las Y i ) y los residuos (las Y i Y i ) en el editor de datos: Seleccionar si se desea guardar los valores pronosticados por el modelo (Y i ) para cada sujeto Seleccionar si se desea guardar lo no explicado por el modelo (las Y i - Y i ) los residuos para cada uno de los sujetos. Como se observa, el SPSS ofrece muchas tablas de datos como resultado de la regresión. 1 No vamos a entrar en las restantes opciones del menú Regresión lineal porque la mayoría requieren conocimientos de estadística inferencial, que el alumno aún no posee. 3

Por el momento solamente nos fijaremos en dos: La primera se refiere a los coeficientes del modelo y la segunda a su bondad. En cuanto a la primera, se toman los coeficientes no estandarizados. En este caso el mejor modelo para pronosticar Y i a partir de X i es: Y i = 1,25 + 0,25 X i 4

Bondad de ajuste del modelo Además de la fórmula de la recta de regresión, resulta necesario disponer de información sobre el grado en que el modelo se ajusta a los datos observados (nube de puntos). Una primera aproximación es la interpretación gráfica del problema. Para elaborar la gráfica del ajuste de la recta a los datos observados se pulsa el menú Gráficos -> Interactivos -> Diagramas de dispersión. Lo primero es definir la variable del criterio (en el eje de ordenadas) y la variable predictora (en el eje de abcisas) desde la solapa Asignar variables. A continuación se selecciona el método regresión desde la solapa Ajuste. El cuadro de diálogo desde el que se hacen estas selecciones tiene el siguiente aspecto: El gráfico obtenido es el siguiente: Como se observa, los puntos se alejan bastante de la recta, luego el ajuste es pobre. Además de la interpretación gráfica del problema, la forma de cuantificar la bondad del modelo es mediante el coeficiente de determinación, r 2 XY. Se trata de una medida estandarizada que toma valores entre 0 y 1 y cuya interpretación es muy sencilla: representa la proporción de varianza explicada de la variable del criterio a partir de la 5

predictora. En nuestro ejemplo, r 2 XY = 0,286 por lo que el modelo no es adecuado para hacer pronósticos de Y a partir de X. La bondad del modelo también puede valorarse a partir del análisis de los errores en los pronósticos, frecuentemente llamados residuos (Y i - Y i ). Nótese que ejecutando las órdenes indicadas en el anterior apartado han resultado dos nuevas variables en el editor de datos (la variable pre_1 que se corresponde con las Y i y lleva la etiqueta Unstandardized predicted value y la variable res_1 que se refiere a las Y i - Y i y lleva la etiqueta Unstandardized residual ). Teniendo los datos para Y i, Y i e (Y i - Y i ) podemos evaluar la bondad del modelo a partir de la descomposición de la varianza del criterio (S 2 Y = S 2 Y + S 2 Y-Y ). Para ello entramos en el menú Analizar -> Estadísticos descriptivos -> Descriptivos e indicamos en el cuadro de diálogo que se calcule la varianza para estas tres variables (Y, pre_1 y res_1). Los resultados obtenidos en el visor son los siguientes: Como se comprueba, la varianza del criterio (S 2 Y = 2,917) se descompone en la varianza de los pronósticos (S 2 Y = 0,833) y la de los errores (S 2 Y-Y = 2,083). Veamos ahora un ejemplo a partir de los datos de las prácticas. Supóngase que queremos predecir la variable peso a partir de la variable estatura. Para ello construimos la recta de regresión peso i = A + B estatura i. La definición del modelo en el SPSS es la siguiente: Los resultados obtenidos para el modelo planteado son los siguientes (sólo se muestran las tablas necesarias para la interpretación): 6

El modelo resultante es: peso i = -88,036 + 87,287 estatura i. Como se observa, el coeficiente de determinación (R al cuadrado) es 0,621 por lo que el modelo es moderadamente adecuado para explicar la relación entre la variable estatura y la variable peso. Es decir, la variable estatura tiene una capacidad predictiva moderada para explicar la variable del criterio. El gráfico obtenido definiendo las opciones del diagrama de dispersión interactivo es el siguiente: 7

PRACTICAS DE PROBABILIDAD Y ESTADISTICA (SESION 7) 1. Cargar el fichero de datos practica.sav. 2. Se desea predecir las horas que los alumnos estudian a diario (h_estudi) a partir de una de las siguientes variables: edad, estatura, peso y horas dormidas. Seleccionar la variable más apropiada como predictora, justificando la decisión. 3. Representar gráficamente la relación entre la variable predictora escogida y el criterio. 4. Obtener la ecuación de regresión correspondiente. 5. Descomponer la varianza del criterio para el modelo anterior e interpretar la bondad del modelo. 6. Cuál es la proporción de varianza explicada de la variable del criterio a partir de la predictora? 7. Si un sujeto obtiene una puntuación de 6 en la variable predictora, Cuál es su puntuación pronosticada en horas de estudio a diario?. 8