CONTRASTES EN ASOCIACIÓN Y PREDICCIÓN

Documentos relacionados
Respuestas CONTRASTES EN ASOCIACIÓN Y PREDICCIÓN

INFERENCIA CON RECUENTOS

CONTRASTES PARAMÉTRICOS

CONTRASTES NO PARAMÉTRICOS

TABLAS DE CONTINGENCIA

INFERENCIA PARÁMETRICA: RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Lucila Finkel Temario

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

Ejercicio obligatorio seminario 9. Estadística

CORRELACION Y REGRESION

AYUDA SPSS. TABLA DE CONTINGENCIA y PRUEBA CHI CUADRADO

Prueba Ji-cuadrado de Homogeneidad cuando tengo los datos tabulados (en tablas resumidos ya):

Análisis de varianza de medidas repetidas

CONTRASTES DE HIPÓTESES

PRÁCTICA 3. REGRESIÓN LINEAL SIMPLE CON SPSS Ajuste de un modelo de regresión lineal simple Porcentaje de variabilidad explicado

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

ESTADÍSTICA. Tema 4 Regresión lineal simple

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

Tema: Medidas de Asociación con SPSS

Una vez realizados estos procesos conviene verificar que han aparecido las dos nuevas variables (columnas) en el archivo de datos.

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

Estadísticos Aplicados en el SPSS 2008

Practica 1. Análisis de Tablas de Contingencia

El análisis de correspondencias. Ana María López Jiménez Dept. Psicología Experimental (USE)

Métodos de Investigación en Psicología (11) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

EXAMEN Prof. J. Calventus S., 19 julio de 2013

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

Estadísticos para una muestra. Desviación Error típ. de Prueba para una muestra

DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II

DISTRIBUCIONES BIDIMENSIONALES

Pruebas estadís,cas para evaluar relaciones

Comparación de dos grupos independientes Solución no paramétrica. En capítulo 12: Métodos no paramétricos

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Limitaciones de la prueba (las mismas que para la prueba de Independencia):

13A. RELACIÓN ENTRE DOS VARIABLES CUANTITATIVAS PRUEBAS ESTADÍSTICAS DE CONFORMIDAD

TEMA 4 FASE ESTADÍSTICO-ANALÍTICA: RECURSOS PARA EL ANÁLISIS DE DATOS

PRÁCTICA: ESTADÍSTICA DESCRIPTIVA CON SPSS 1

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

1. Realice la prueba de homogeneidad de variancias e interprete los resultados.

Dr. Abner A. Fonseca Livias

En las tablas 2x2 se emplea la prueba Ji-cuadrado Corrección de Yates siempre.

Pasos. i Aplicar la prueba X 2 para determinar la significación estadística de las proporciones entre ambas variables (no son iguales)

Prueba Ji-cuadrado de Independencia cuando solo tengo datos en tabla (datos tabulados):

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

Tema 3: Análisis de datos bivariantes

Introducción IMADIL /17/2014. Tema 3. Características estadísticas fundamentales (Tercera parte)

DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II

TEMA 9 EL ANÁLISIS BÁSICO DE LA INFORMACIÓN EN LA INVESTIGACION DE MERCADOS

DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II

SPSS Aplicación práctica: Base de datos del HATCO

Distribuciones Bidimensionales.

ENCUESTA CUATRIENAL DE ESTRUCTURA SALARIAL 2014

4. Obtén las siguientes tablas de doble entrada para las variables Dispersión y Formación:

TEMA 10 COMPARAR MEDIAS

DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II

GUÍA 5 : EFECTO DEL ESTRÉS EN EL PESO DE RECIÉN NACIDOS

Universidad Nacional Abierta Estadística Aplicada (Cód. 746) Vicerrectorado Académico Cód. Carrera: Área de Matemática Fecha:

ANÁLISIS DE REGRESIÓN

báscula 1 báscula 2 Podemos comprobar que en ambos casos el p valor > 0,05, lo cual implica la normalidad de las muestras.

Objetivo: Proponer modelos para analizar la influencia

SOLUCIÓN PRÁCTICA 3 de SPSS ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL

Inferencia en tablas de contingencia

CONTRASTES PARAMÉTRICOS

PRÁCTICA 2: LA RECTA DE REGRESIÓN

Distribución bidimensional. Marginales. Correlación lineal. Rectas de regresión.

Seminario 10: Correlación

Soluciones al examen de Estadística Aplicada a las Ciencias Sociales Junio 2008 Primera semana

Práctica 5 ANÁLISIS DE UNA MUESTRA INTERVALOS DE CONFIANZA CONTRASTE DE HIPÓTESIS

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

Qué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y)

Estado civil Frecuencia observada Casado 50 Soltero 30 Viudo 15 Divorciado 5 Total 100

TEMA 2 Diseño de experimentos: modelos con varios factores

TALLER DE INTRODUCCIÓN A LOS NEGOCIOS

DISTRIBUCIONES UNIDIMENSIONALES:

ESTADÍSTICA BIVARIADA

Regresión: implica la obtención de una ecuación mediante la que podamos estimar el valor medio de una variable.

Soluciones a los nuevos ejercicios propuestos

PRUEBA CHI-CUADRADO. Para realizar un contraste Chi-cuadrado la secuencia es:

NORMAS El examen consta de dos partes: Diez Cuestiones: (tiempo: 60 minutos)

ANÁLISIS CUANTITATIVO DE DATOS EN CIENCIAS SOCIALES CON EL SPSS (I) Correlaciones bivariadas y parciales

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

Estadística II Curso 2011/12

ANÁLISIS ESTADÍSTICO CORRELACIÓN LINEAL

A: Broca B: velocidad A B AB Vibración Totales 1/ ,2 18,9 12,9 14,4 64,4 = (1) 1/ ,2 24,0 22,4 22,5 96,1 = a

peso edad grasas Regresión lineal simple Los datos

Al nivel de confianza del 95%, las puntuaciones típicas son: 2- La hipótesis alternativa es; A) ; B) ; C).

Estadística Descriptiva Bivariante e Intervalos de Confianza

CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA BIVARIADA

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 4)

Laboratorio de Estadística Con Manejo en SPSS.

DISTRIBUCION DE FRECUENCIAS BIDIMENSIONALES RELACION DE DOS CARACTERES Relación entre variables cualitativas

Unidad Temática 3: Estadística Analítica. Unidad 9 Regresión Lineal Simple Tema 15

Nota de los autores... vi

TEMA 4 Modelo de regresión múltiple

9.- Análisis estadísticos con R Commander

REGRESIÓN LINEAL SIMPLE

PRUEBA DE HIPÓTESIS BENJAMIN MAMANI CONDORI

7. De acuerdo con la gráfica siguiente, el contraste estadístico es:

Transcripción:

CONTRASTES EN ASOCIACIÓN Y PREDICCIÓN

Contenidos Correlación 75 La correlación lineal de Pearson 78 Correlaciones ordinales 91 Regresión 94 Pruebas de hipótesis para la regresión 95 Análisis de regresión en el SPSS 96 El error de la predicción 98 Asociación entre datos categóricos 106 Ejemplo 107 Las mujeres primero 108 Comparando proporciones o porcentajes directamente 114 Asociación para variables categóricas en el SPSS 117 Pedro Valero Mora-valerop@uv.es 74

Correlación CORRELACIÓN Hasta ahora hemos visto técnicas en las que la variable independiente era categórica y la variable dependiente podía ser numérica (pruebas paramétricas) o ordinal (pruebas no paramétricas) - Eso lleva a un resultado del tipo los que están esa categoría tienen una media más alta/baja que los que están en esta otra categoría Por ejemplo, los licenciados tienen unos ingresos mayores que los que tienen estudios elementales Las técnicas basadas en correlación utilizan variables que son de tipo numérico o ordinal - Las técnicas de tipo numérico permiten ver si hay relaciones lineales, de modo que aumentos en una variable están asociados con aumentos en la otra variable - En las técnicas para variables ordinales lo que vemos es si un aumento en una variable está asociado con el aumento en la otra variable de una manera ordinal Esto puede ser más apropiado cuando las relaciones son obviamente no lineales Pedro Valero Mora-valerop@uv.es 75

Correlación Veamos este ejemplo de la relación entre el número de pacientes por médico (PeoplePhy) frente a expectativa de vida. - Diríamos que a menos médicos menos expectativa de vida, no? pero la relación es un poco más complicada - A la izquierda valores originales, a la derecha los valores después de transformar en rangos LifeExpec 50 60 70 80 LifeExpec 0 10 20 30 40 0 10000 20000 30000 40000 PeoplePhy 0 10 20 30 40 PeoplePhy Pedro Valero Mora-valerop@uv.es 76

Correlación Veremos dos tipos de correlaciones: - La correlación lineal de Pearson, apropiada para relaciones lineales y con variables numéricas - La correlación ordinal de Spearman, apropiada para relaciones no lineales y con variables ordinales Pedro Valero Mora-valerop@uv.es 77

Correlación/La correlación lineal de Pearson La correlación lineal de Pearson La fórmula del cálculo de la correlación lineal de Pearson pertenece a la primera parte de Estadística 1 - Recordar que el resultado de esa fórmula está entre -1 y 1 y que valores cercanos a 0 significan ausencia de correlación Cuando se explica este tema en la primera parte, suele ser habitual que haya muchas dudas sobre cómo de grande tiene que ser una correlación para poder decir que hay correlación - La respuesta a eso suele ser un poco vaga - Aquí veremos un método para poder decir que la correlación es diferente de cero, lo cual es equivalente a decir que hay correlación - La fórmula para el estadístico de contraste es esta: r t n 2 = --- e r Pedro Valero Mora-valerop@uv.es 78

Correlación/La correlación lineal de Pearson - En esa fórmula nos falta saber e r que es el error típico de la correlación. Se calcula mediante: e 1 r 2 r = ------------- n 2 El valor de t n 2 se puede comparar con los valores de la distribución t o si se hace el cálculo con el ordenador se puede mirar si la significación es inferior a 0,05 (como siempre) Pedro Valero Mora-valerop@uv.es 79

Contenidos 80 La hipótesis nula El procedimiento anterior tiene como hipótesis: - Hipótesis nula: La correlación es igual a 0 - Hipótesis alternativa: La correlación es diferente de 0 (puede ser mayor o menor) La fórmula anterior se puede adaptar para probar la hipótesis de que la correlación es diferente de un valor concreto pero ese caso no se usa mucho Contrastes en Asociación y Predicción Correlación/La correlación lineal de Pearson/La hipótesis nula

Contenidos 81 Ejemplo: La personalidad y el rendimiento Uno de los esquemas de trabajo más habituales entre los psicólogos está basado en hacer algún tipo de diagnóstico utilizando cuestionarios psicológicos para así predecir el funcionamiento en un puesto de trabajo, actividad, estudios, etc. - Que un cuestionario psicológico está relacionado con una actividad concreta a menudo no está demostrado con certeza Los estudios de ese cuestionario pueden haberse aplicado a cosas parecidas pero no exactamente a lo que nosotros necesitamos o de la forma en la que nosotros la aplicamos - Es conveniente siempre que sea posible estudiar el funcionamiento de los cuestionarios cuando los estamos utilizando habitualmente En los datos sobre satisfacción del cuerpo tenemos un ejemplo de estas características - 200 niños han rellenado un cuestionario sobre satisfacción corporal, capacidad para soportar esfuerzos (endurance selfefficacy), han hecho una prueba física (number of laps on pacer) y se les ha evaluado la masa corporal Supongamos que como parte de un proceso de selección para formar deportistas, se utilizan todas esas pruebas (el año que viene veréis en psicometría que esto se llama comprobar la validez de las pruebas) Contrastes en Asociación y Predicción Correlación/La correlación lineal de Pearson/Ejemplo: La personalidad y el rendimiento

Contenidos 82 Correlaciones en el SPSS El cuadro de diálogo es este. Se encuentra en Analizar>Correlaciones>Correlaciones bivariadas Contrastes en Asociación y Predicción Correlación/La correlación lineal de Pearson/Correlaciones en el SPSS

Contenidos 83 El resultado es el siguiente Correlaciones Total Body Total Endurance Body Mass Index Number of Laps on PACER Satisfaction Score Self-Efficacy Score Body Mass Index Correlación de Pearson 1 -.458 ** -.472 ** -.356 ** Sig. (bilateral).000.000.000 N 200 200 200 200 Number of Laps on PACER Correlación de Pearson -.458 ** 1.313 **.583 ** Sig. (bilateral).000.000.000 N 200 200 200 200 Total Body Satisfaction Correlación de Pearson -.472 **.313 ** 1.457 ** Score Sig. (bilateral).000.000.000 N 200 200 200 200 Total Endurance Correlación de Pearson -.356 **.583 **.457 ** 1 Self-Efficacy Score Sig. (bilateral).000.000.000 N 200 200 200 200 **. La correlación es significativa en el nivel 0,01 (2 colas). - Vemos que los resultados se organizan en una tabla de filas y columnas, con el valor correspondiente en el cruce de éstas - Para cada cruce está la correlación, la significación y el número de casos (cuando hay valores perdidos en alguna variable, el número de casos variará según la combinación) - En este caso todas las correlaciones son significativas El índice de masa corporal correlaciona con el número de vueltas negativamente (a más masa menos vueltas) La autoeficacia correlaciona positivamente con las vueltas y también la satisfacción con el cuerpo Contrastes en Asociación y Predicción Correlación/La correlación lineal de Pearson/Correlaciones en el SPSS

Contenidos 84 - En general, las tres variables que podríamos usar para predecir el número de vueltas (masa corporal, satisfacción con el cuerpo y autoeficacia) correlacionan pero la que más parece ser la autoeficacia Un psicólogo en esa situación tendría justificación para utilizar el cuestionario sobre autoeficacia para seleccionar buenos candidatos para tener un buen rendimiento deportivo No obstante, es necesario evaluar si las relaciones son lineales antes de dar por definitivo un resultado. Esto lo realizaremos a continuación. Contrastes en Asociación y Predicción Correlación/La correlación lineal de Pearson/Correlaciones en el SPSS

Contenidos 85 Evaluar la linealidad de la relación En el SPSS tenemos que ir a Gráficos>Cuadros de diálogo antiguos>diagramas de dispersión/puntos En la ventana que aparece tenemos Dispersión simple para obtener el siguiente cuadro de diálogo Contrastes en Asociación y Predicción Correlación/La correlación lineal de Pearson/Evaluar la linealidad de la relación

Contenidos 86 El resultado del cuadro de diálogo anterior se muestra a continuación - Vemos que la relación es bastante lineal en general así que podemos estar tranquilos con respecto a nuestras conclusiones Number of Laps on PACER 100 80 60 40 20 0 0 10 20 30 Total Endurance Self-Efficacy Score 40 Contrastes en Asociación y Predicción Correlación/La correlación lineal de Pearson/Evaluar la linealidad de la relación

Contenidos 87 En el gráfico anterior vemos dos variables pero en nuestro ejemplo tenemos más de dos variables - Para ver todas las combinaciones podríamos repetir el gráfico varias veces o usar una matriz de diagramas de dispersión Hacemos lo mismo que para el diagrama de dispersión pero elegimos Dispersión matricial Contrastes en Asociación y Predicción Correlación/La correlación lineal de Pearson/Evaluar la linealidad de la relación

Contenidos 88 - Eso produce el siguiente cuadro de diálogo En donde pone variables de la matriz elegimos todas las variables Contrastes en Asociación y Predicción Correlación/La correlación lineal de Pearson/Evaluar la linealidad de la relación

Contenidos 89 - El resultado es el siguiente Total Endurance Self-Efficacy Score Total Body Satisfaction Score Number of Laps on PACER Body Mass Index Body Mass Index Number of Laps on PACER Total Body Satisfaction Score Total Endurance Self-Efficacy Score Este gráfico permite ver todas las combinaciones de variables y ver si hay algún caso sospechoso. Por ejemplo, BMI y PACER no parecen muy lineales así que haremos un gráfico para esas dos Contrastes en Asociación y Predicción Correlación/La correlación lineal de Pearson/Evaluar la linealidad de la relación

Contenidos 90 - El resultado muestra la curvilinealidad con claridad 100 80 Number of Laps on PACER 60 40 20 0 10.00 20.00 30.00 Body Mass Index A partir de un cierto momento hay un efecto suelo y aunque el BMI sea peor el número de vueltas sigue en los mismos valores aproximadamente En este caso sería interesante ver las correlaciones ordinales 40.00 50.00 Contrastes en Asociación y Predicción Correlación/La correlación lineal de Pearson/Evaluar la linealidad de la relación

Correlación/Correlaciones ordinales Correlaciones ordinales Hemos visto que resulta interesante calcular correlaciones ordinales por dos razones: - Cuando las variables no están relacionadas linealmente - Cuando las variables son propiamente ordinales SPSS calcula dos tipos de correlaciones ordinales, Spearman y Kendall. - Nosotros utilizaremos Spearman ya que es más sencilla de entender Spearman no es más que aplicar la fórmula de la correlación de Pearson a los rangos de las variables Eso permite que aunque haya relaciones curvilíneas, la correlación funcione correctamente Pedro Valero Mora-valerop@uv.es 91

Correlación/Correlaciones ordinales Para calcular en el SPSS es lo mismo que la correlación de Pearson pero elegimos Spearman en el cuadro de diálogo - También pueden pedirse varios coeficientes de correlación a la vez e imprime varias tablas Pedro Valero Mora-valerop@uv.es 92

Correlación/Correlaciones ordinales El resultado se muestra a continuación (arriba es Spearman, abajo Pearson) Body Mass Index Number of Laps on PACER Total Body Satisfaction Score Total Endurance Self-Efficacy Score Body Mass Index Coeficiente de correlación 1.000 -.486 ** -.423 ** -.324 ** Sig. (bilateral)..000.000.000 N 200 200 200 200 Number of Laps on PACER Coeficiente de correlación -.486 ** 1.000.312 **.609 ** Sig. (bilateral).000..000.000 N 200 200 200 200 Total Body Satisfaction Score Coeficiente de correlación -.423 **.312 ** 1.000.438 ** Sig. (bilateral).000.000..000 N 200 200 200 200 Total Endurance Self-Efficacy Score Coeficiente de correlación -.324 **.609 **.438 ** 1.000 Sig. (bilateral).000.000.000. N 200 200 200 200 Correlaciones Body Mass Index Number of Laps on PACER Total Body Satisfaction Score Total Endurance Self-Efficacy Score Body Mass Index Correlación de Pearson 1 -.458 ** -.472 ** -.356 ** Sig. (bilateral).000.000.000 N 200 200 200 200 Number of Laps on PACER Correlación de Pearson -.458 ** 1.313 **.583 ** Sig. (bilateral).000.000.000 N 200 200 200 200 Total Body Satisfaction Score Correlación de Pearson -.472 **.313 ** 1.457 ** Sig. (bilateral).000.000.000 N 200 200 200 200 Total Endurance Self-Efficacy Score Correlación de Pearson -.356 **.583 **.457 ** 1 Sig. (bilateral).000.000.000 N 200 200 200 200 **. La correlación es significativa en el nivel 0,01 (2 colas). - Los resultados son bastante similares así que podríamos usar Pearson con tranquilidad Pedro Valero Mora-valerop@uv.es 93

Regresión REGRESIÓN El análisis de regresión nos permite dar un pequeño paso adicional al de la correlación Además de ver si dos cosas están relacionadas, nos permite calcular qué valor podemos esperar en una variable dado el valor que tenemos en otra variable En nuestro ejemplo del rendimiento en una prueba física, podemos calcular cuántas vueltas dará un niño/a dada su puntuación en BMI o en los resultados de los tests acerca de aguante En realidad, estos cálculos ya se vieron en la primera parte del curso, lo que añadiremos es la posibilidad de calcular pruebas de hipótesis o intervalos de confianza En concreto veremos: - Pruebas de hipótesis para la pendiente de la regresión - Intervalos de confianza para las puntuaciones predichas Pedro Valero Mora-valerop@uv.es 94

Regresión/Pruebas de hipótesis para la regresión Pruebas de hipótesis para la regresión Ya vimos que la correlación entre el aguante y el número de vueltas era estadísticamente significativa (superior a 0) - Si lo que nos interesa es predecir el número de vueltas a partir del aguante podemos calcular una línea recta como la mostrada en el gráfico - Ahora bien, cómo de buena es la predicción realizada con esa línea? R 2 Number of Laps on PACER 20 El valor de mostrado en la parte superior es un indicador de ajuste de la recta Valores cercanos a 1 indican buen 0 ajuste, a 0 malo (los valores negativos no son posibles) 0 10 20 - Ahora veremos como hacer una prueba de hipótesis de la pendiente de la recta 100 80 60 40 R 2 Lineal = 0,339 Total Endurance Self-Efficacy Score 30 40 Pedro Valero Mora-valerop@uv.es 95

Regresión/Análisis de regresión en el SPSS Análisis de regresión en el SPSS Para calcular un análisis de Regresión vamos a Analizar>Regresión>Lineales y tenemos este cuadro de diálogo - La variable a predecir hay que ponerla en dependientes - La variable que predice hay que ponerla en independientes Pedro Valero Mora-valerop@uv.es 96

Regresión/Análisis de regresión en el SPSS El resultado es el siguiente (valores importantes en negrita) Resumen del modelo R cuadrado Error estándar de la Modelo R R cuadrado ajustado estimación 1,583 a,339 x,336 13,329 a. Predictores: (Constante), Total Endurance Self-Efficacy Score Suma de ANOVA a Modelo cuadrados gl cuadrática F Sig. 1 Regresión 18070,116 1 18070,116 101,712,000 b Residuo 35176,759 198 177,660 Total 53246,875 199 a. Variable dependiente: Number of Laps on PACER b. Predictores: (Constante), Total Endurance Self-Efficacy Score Coeficientes a Coeficientes no estandarizados estandarizados Modelo B Error estándar Beta t Sig. 1 (Constante) 6,527 2,791 2,338,020 Total Endurance Self-Efficacy Score 1,181 y,117,583 10,085,000 z a. Variable dependiente: Number of Laps on PACER - x Este es el valor de que se interpreta como hemos dicho. Es el cuadrado de R y éste a su vez es igual a la correlación sin signo - y En la segunda parte tenemos una prueba de hipótesis pero cuando usamos regresión simple (como es el caso) es redundante con el valor que usaremos así que se puede ignorar - z Este valor es la pendiente de la recta que dividido por el error típico nos permite calcular la significación. Esto nos permite saber si la pendiente es diferente de cero R 2 Pedro Valero Mora-valerop@uv.es 97 Media Coeficientes

Regresión/El error de la predicción El error de la predicción El interés de calcular una recta de regresión es poder predecir el valor de los sujetos en una variable dado el valor de otra variable - En el ejemplo de las vueltas, el interés es predecir cuántas vueltas dará un niño partiendo de su puntuación en los tests de aguante, o su masa corporal, etc. El problema de esa predicción es que está sujeta a un cierto error y por tanto debemos de ser conscientes de que no deben tomarse de una manera literal Hay dos posibles valores a predecir: - El valor medio de los sujetos en la variable predicha dado un valor en la predictora Por ejemplo, número de vueltas medio que darán los niños con BMI=22 - El valor individual de un sujeto Cada uno de estos valores no deben tomarse como valores ciertos sino que están dentro de un intervalo Es importante tener conciencia de los intervalos de confianza para los valores predichos Pedro Valero Mora-valerop@uv.es 98

Regresión/El error de la predicción Los errores de predicción se ven mejor en el diagrama de dispersión - La línea central es el número de vueltas que predecimos para un niño con un cierto nivel de aguante - Las líneas exteriores corresponden con el intervalo al 95% de las puntuaciones individuales - La líneas interiores son el intervalo al 95% de la media de las puntuaciones individuales Supongamos el gráfico anterior fue calculado el año pasado y que este año tenemos que elegir los 6 mejores niños para una competición sabiendo solamente los resultados del test de aguante Number of Laps on PACER 100 80 60 40 20 0 Total Endurance Self-Efficacy Score (de acuerdo, este ejemplo es un poco artificial pero pensar en identificar presos que no reincidirán o alumnos que tendrán éxito en sus estudios) Pedro Valero Mora-valerop@uv.es 99 0 10 20 30 40 R R

Regresión/El error de la predicción Si elegimos los niños con más puntuación en aguante tendríamos que: - Con una confianza del 95%, la media de esos niños estaría dentro de las dos líneas interiores - El 95% de los niños estaría entre las líneas exteriores Preguntas y respuestas Tenemos garantizado tener a los mejores niños siguiendo este procedimiento? La respuesta es NO. Si miramos en el gráfico podemos ver que hay niños que lo hacen muy bien a pesar de no tener la puntuación más alta en aguante Entonces, sirve este procedimiento para algo? La respuesta es SI. Con este procedimiento tenemos a los niños que van a tener una puntuación media más alta. La media de los niños será la que corresponde con la línea central para un valor de aguante? Estará cerca pero el intervalo de confianza del 95% significa que tenemos una confianza del 95% que la media estará entre las dos líneas interiores en sucesivas muestras tomadas de esa población Veo que el niño que mejor lo hizo está fuera del intervalo de confianza para las puntuaciones individuales, es eso posible? Claro. Pedro Valero Mora-valerop@uv.es 100

Contenidos 101 Intervalos de confianza en el SPSS Para conseguir el gráfico con los intervalos de confianza en el SPSS hay que hacer un diagrama de dispersión tal y como vimos previamente - En Gráficos/Cuadros de diálogo Antiguos/Diagramas de dispersión y ahí se elige Simple - Aparece este cuadro de diálogo Se pone la variable dependiente (la que se quiere predecir) en el eje Y y la variable independiente (la predicha) en el eje X Contrastes en Asociación y Predicción Regresión/El error de la predicción/intervalos de confianza en el SPSS

Contenidos 102 En el gráfico que aparece se hace doble click para modificarlo y aparece la ventana siguiente - Hay que hacer click en el icono que está arriba del gráfico Contrastes en Asociación y Predicción Regresión/El error de la predicción/intervalos de confianza en el SPSS

Contenidos 103 Eso produce el cuadro de dialogo siguiente - En él hay que elegir lineal y luego intervalos de confianza bien para la media o para los individuos Conseguir que aparezcan los dos no es fácil ya que cuando se pone uno se quita el otro pero en los ejercicios se pedirá o uno o el otro Contrastes en Asociación y Predicción Regresión/El error de la predicción/intervalos de confianza en el SPSS

Contenidos 104 Obteniendo las puntuaciones - En el cuadro de diálogo de regresión elegimos el botón Guardar - En el cuadro de diálogo que aparece elegimos: Valores pronosticados>no standarizados son las puntuaciones predichas Intervalos de predicción>media e individuos Contrastes en Asociación y Predicción Regresión/El error de la predicción/intervalos de confianza en el SPSS

Contenidos 105 El resultado aparece en la hoja de datos del SPSS - Los valores están ordenados de mayor a menor y sólo se muestra una parte Vemos por ejemplo que un niño con un aguante de 36 tiene una puntuación predicha (PRE_1) en número de vueltas de 49 y que el intervalo para la media iría de (LMCI_1) 45,39 a (UMCI_1) 52,67 El intervalo de confianza para las puntuaciones individuales iría de (LICI_1) 22,5 a (UICI_1) 75,57 Contrastes en Asociación y Predicción Regresión/El error de la predicción/intervalos de confianza en el SPSS

Asociación entre datos categóricos ASOCIACIÓN ENTRE DATOS CATEGÓRICOS Este apartado introduce la correlación para variables que no son numéricas ni ordinales, sino categóricas - Una variable categórica tiene valores que simplemente son distintos unos de otros pero que no tienen un orden o una magnitud mayor unos que otros - Tener en cuenta que hay ciertas variables ordinales que podemos elegir tratarlas como categóricas Por ejemplo, el nivel socioeconómico (alto, medio, bajo) puede tratarse como una variable categórica pero también como una variable ordinal - En ocasiones las variables numéricas son tratadas como categóricas Por ejemplo, a partir de unos tests de inteligencia puede distinguirse entre nivel alto, medio y bajo usando ciertos valores como punto de corte El objetivo de estas técnicas es ver si existe una asociación entre las categorías de una variable y las categorías de otra variable - Qué significa asociación entre categorías es un poco difícil de definir en abstracto pero con ejemplos es más sencillo Pedro Valero Mora-valerop@uv.es 106

Asociación entre datos categóricos/ejemplo Ejemplo Utilizaremos como ejemplo los datos del hundimiento del Titanic acerca del número de sujetos que sobrevivieron o no en función del tipo de billete que tenían (primera, segunda, tercera o tripulación), su género (hombre, mujer) y su edad (adulto, niño) - El hundimiento del Titanic tuvo un gran impacto en el desarrollo de medidas de seguridad marítima y es un buen ejemplo de las consecuencias que los acontecimientos trágicos tienen sobre la sociedad - Uno de los aspectos curiosos (que está reflejado en la película) es que posiblemente podría haberse salvado más gente pero en la urgencia del momento se discriminó a ciertas categorías de viajeros, los cuales no subieron en las lanchas de salvamento, que a veces quedaron medio vacías El análisis de los datos permitirá confirmar esa discriminación Los datos están en el archivo Titanic.sav Pedro Valero Mora-valerop@uv.es 107

Asociación entre datos categóricos/las mujeres primero Las mujeres primero La tabla de abajo muestra el género y la supervivencia en el Titanic Gender_*Survive_ tabulación cruzada Recuento Survive_ Died Lived Total Gender_ Fema 126 344 470 Male 1364 367 1731 Total 1490 711 2201 - Fijaros en que he puesto la variable independiente (género) en las filas y la dependiente (supervivencia) en las columnas Poner las variables siempre de esa manera hace mucho más fácil la interpretación de los resultados Esta tabla nos ofrece un recuento pero que es difícil de valorar a simple vista salvo en casos muy claros. Calcular porcentajes por fila en este caso ayuda. Gender_*Survive_ tabulación cruzada % dentro de Gender_ Survive_ Died Lived Total Gender_ Fema 26.8% 73.2% 100.0% Male 78.8% 21.2% 100.0% Total 67.7% 32.3% 100.0% - Fijaros que las sumas a lo largo de la fila dan 100% pero no a lo largo de las columnas Vemos que un 73% de las mujeres sobrevivieron y sólo un 21% de los hombres Pedro Valero Mora-valerop@uv.es 108

Asociación entre datos categóricos/las mujeres primero Otra forma de valorar el resultado anterior es calcular el valor predicho para cada celda bajo el supuesto de independencia para las casillas - Ese valor no es más que el total de fila por el total de columna dividido por el gran total Gender_*Survive_ tabulación cruzada Recuento esperado Survive_ Died Lived Total Gender_ Fema 318.2 151.8 470.0 Male 1171.8 559.2 1731.0 Total 1490.0 711.0 2201.0 - Ese es el valor esperado dada la cantidad de muertos y de hombres y mujeres. Si el resultado hubiera sido ese, la tabla de porcentajes de antes hubiera sido Gender_*Survive_ tabulación cruzada % dentro de Gender_ Survive_ Died Lived Total Gender_ Fema 67.7% 32.3% 100.0% Male 67.7% 32.3% 100.0% Total 67.7% 32.3% 100.0% Es decir, tendríamos el mismo número de muertos para hombres que para mujeres Pedro Valero Mora-valerop@uv.es 109

Asociación entre datos categóricos/las mujeres primero Si cogemos la tabla de esperadas y le restamos a cada celda el número de personas que fallecieron tenemos los residuales o diferencias Gender_*Survive_ tabulación cruzada Residuo Survive_ Died Lived Gender_ Fema -192.2 192.2 Male 192.2-192.2 Esto se interpreta como que murieron 192 mujeres menos de lo que tocaba y 192 más hombres Puesto que había más hombres que mujeres en el barco, la importancia relativa del residuo no es la misma para hombres que para mujeres. Dividiendo por la raíz cuadrada del valor esperado tenemos una medida del efecto relativo Gender_*Survive_ tabulación cruzada Residuo estándar Survive_ Died Lived Gender_ Fema -10.8 15.6 Male 5.6-8.1 Pedro Valero Mora-valerop@uv.es 110

Asociación entre datos categóricos/las mujeres primero Elevando al cuadrado cada celda y sumando tenemos el valor de que podemos comparar con una distribución de probabilidad para evaluar su significación. - En el SPSS eso aparece de la siguiente manera: Pruebas de chi-cuadrado Sig. asintótica Significación exacta (2 Significación Valor gl (2 caras) caras) exacta (1 cara) Chi-cuadrado de Pearson 456.874 a 1.000 Corrección de continuidad b 454.500 1.000 Razón de verosimilitud 434.469 1.000 Prueba exacta de Fisher.000.000 Asociación lineal por lineal 456.667 1.000 N de casos válidos 2201 a. 0 casillas (0.0%) han esperado un recuento menor que 5. El recuento mínimo esperado es 151.83. b. Sólo se ha calculado para una tabla 2x2 - Como siempre, el SPSS ofrece más de lo que le pedimos. Tenemos que mirar la línea que pone Chi-cuadrado de Pearson En el nivel de significación vemos si podemos rechazar la hipótesis nula de no asociación entre las variables Si rechazamos la hipótesis nula es que hay asociación, lo que significa que algunas de las casillas difieren de sus valores esperados 2 Pedro Valero Mora-valerop@uv.es 111

Asociación entre datos categóricos/las mujeres primero Cómo podemos valorar qué casillas difieren de sus valores esperados? Utilizando la tabla de residuos estandarizados podemos evaluar si están por encima o por debajo de 1.96 ya que estos residuales siguen la distribución normal Gender_*Survive_ tabulación cruzada Residuo estándar Survive_ Died Lived Gender_ Fema -10.8 15.6 Male 5.6-8.1 - En este caso, todos los residuales están por encima o por debajo de 1,96 por lo que todas las casillas están por encima de ese límite Pedro Valero Mora-valerop@uv.es 112

Contenidos 113 La fórmula Los cálculos anteriores se pueden resumir en una fórmula 2 O E 2 = -------------------- E - En donde O son las puntuaciones observadas por celda, y E son las esperadas Para calcular las esperadas hacemos E kj = n k n --------- j N n k En donde es el número total de casos en la fila de una casilla, es el número total de casos en la columna de una casilla y N es el total de casos en la tabla Para saber la significación comparamos 2 con los valores de la tabla con k 1 j 1 grados de libertad (en este caso 2 1 2 1 = 1) - Si el valor que hemos calculado es mayor que el de la tabla, se rechaza la hipótesis nula (o si usamos el ordenador y la significación es menor que 0.05 se rechaza la hipótesis nula) de no asociación n j Contrastes en Asociación y Predicción Asociación entre datos categóricos/las mujeres primero/la fórmula

Asociación entre datos categóricos/comparando proporciones o porcentajes directamente Comparando proporciones o porcentajes directamente En ocasiones lo que queremos es comparar dos proporciones directamente - Usaremos el ejemplo del titanic pero esta vez compararemos el efecto de la clase del billete: Survive_*Class_ tabulación cruzada Recuento Class_ 1st 2nd 3rd Cre Total Survive_ Died 122 167 528 673 1490 Lived 203 118 178 212 711 Total 325 285 706 885 2201 Lo que nos interesa es ver el efecto de la clase social sobre la supervivencia. Si calculamos porcentajes ese efecto es más claro Survive_*Class_ tabulación cruzada % dentro de Class_ Class_ 1st 2nd 3rd Cre Total Survive_ Died 37.5% 58.6% 74.8% 76.0% 67.7% Lived 62.5% 41.4% 25.2% 24.0% 32.3% Total 100.0% 100.0% 100.0% 100.0% 100.0% - Vemos que en primera murieron el 37,5%, en segunda el 58,6%, etc. La impresión inicial es que los que viajaban en primera tuvieron ventaja sobre los de segunda, y estos sobre tercera y la tripulación Por otro lado, los que viajaban en tercera y la tripulación en cambio tienen valore similares Pedro Valero Mora-valerop@uv.es 114

Asociación entre datos categóricos/comparando proporciones o porcentajes directamente No obstante, esa es una impresión superficial, para decir si hay diferencias hace falta calcular una prueba de hipótesis de diferencias de proporciones (observar que usaremos proporciones en lugar de porcentajes para el cálculo) - La fórmula general es más o menos la de siempre: z = p 1 p ---------------- 2 ET - Para calcular el error típico hacemos lo siguiente: ET = pˆ qˆ ----- n 1 pˆ qˆ + ----- n 2 - En donde pˆ = n ik + n ------------------ ij + n k n j - y qˆ = 1 pˆ Pedro Valero Mora-valerop@uv.es 115

Asociación entre datos categóricos/comparando proporciones o porcentajes directamente Ejemplo: - Hay diferencia en supervivencia entre primera y segunda? 122 + 167 pˆ = ----------------------- 0.41; qˆ = 1 0.41 = 0.59 325 + 385 ET 0.41 0.59 0.41 0.59 = -------------------------- + -------------------------- = 0.037 325 385 z = 0.586 -------------------------------- 0.375 = 5.7 0.037 - La respuesta es que sí, ya que 5.7 es mayor que 1.96, el valor de z para una significación del 0.05 Pedro Valero Mora-valerop@uv.es 116

Asociación entre datos categóricos/asociación para variables categóricas en el SPSS Asociación para variables categóricas en el SPSS El comando que usaremos está en Analizar>Estadísticos Descriptivos>Tablas Cruzadas y produce el siguiente cuadro de diálogo - Hay que fijarse si tenemos una variable dependiente y una independiente y recordar donde las ponemos, si en filas o en columnas Pedro Valero Mora-valerop@uv.es 117

Asociación entre datos categóricos/asociación para variables categóricas en el SPSS - Luego hay que seleccionar Estadísticos para elegir Chi cuadrado - Y Casillas para elegir porc. por fila o por columna (si la variable dependiente está en columnas hay que elegir por filas y si está en filas hay que elegir por columna). También podéis elegir residuales estandarizados. Pedro Valero Mora-valerop@uv.es 118

Asociación entre datos categóricos/asociación para variables categóricas en el SPSS Con las opciones anteriores obtendréis el siguiente resultado Survive_*Class_ tabulación cruzada % dentro de Class_ Class_ 1st 2nd 3rd Cre Total Survive_ Died 37.5% 58.6% 74.8% 76.0% 67.7% Lived 62.5% 41.4% 25.2% 24.0% 32.3% Total 100.0% 100.0% 100.0% 100.0% 100.0% Pruebas de chi-cuadrado Sig. asintótica Valor gl (2 caras) Chi-cuadrado de Pearson 190.401 a 3.000 Razón de verosimilitud 180.901 3.000 Asociación lineal por lineal 162.042 1.000 N de casos válidos 2201 a. 0 casillas (0.0%) han esperado un recuento menor que 5. El recuento mínimo esperado es 92.06. - Para interpretar la tabla de porcentajes hay que fijarse en qué parte suma 100% (en este caso las columnas) y empezar a leer a través de los valores correspondientes. Así: Decir que el 37.5% de los que viajaban en primera murieron es correcto - Decir que el 37.5% de los que murieron viajaban en primera NO ES CORRECTO. Fijaros en los porcentajes calculados por fila (de los que murieron, un 8.2% viajaba en primera) Survive_*Class_ tabulación cruzada % dentro de Survive_ Class_ 1st 2nd 3rd Cre Total Survive_ Died 8.2% 11.2% 35.4% 45.2% 100.0% Lived 28.6% 16.6% 25.0% 29.8% 100.0% Total 14.8% 12.9% 32.1% 40.2% 100.0% Pedro Valero Mora-valerop@uv.es 119

Asociación entre datos categóricos/asociación para variables categóricas en el SPSS Para hacer comparaciones de proporciones hay que poner la variable dependiente en filas y la independiente en columnas y entonces elegir comparar las proporciones de columna El resultado se muestra a continuación Survive_*Class_ tabulación cruzada % dentro de Class_ Class_ 1st 2nd 3rd Cre Total Survive_ Died 37.5% a 58.6% b 74.8% c 76.0% c 67.7% Lived 62.5% a 41.4% b 25.2% c 24.0% c 32.3% Total 100.0% 100.0% 100.0% 100.0% 100.0% Cada letra del subíndice denota un subconjunto de Class_ categorías cuyas proporciones de columna no difieren de forma significativa entre sí en el nivel.05. - Los subíndices indica la significación, si dos columnas tienen la misma letra es que las diferencias no son significativas (3ª y tripulación por ejemplo), si son diferentes es que las diferencias son significativas Pedro Valero Mora-valerop@uv.es 120