Lucila Finkel Temario

Documentos relacionados
Tema: Medidas de Asociación con SPSS

GUÍA 5 : EFECTO DEL ESTRÉS EN EL PESO DE RECIÉN NACIDOS

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

Análisis de datos cualitativos

ÍNDICE INTRODUCCIÓN... 21

Capítulo 8. Análisis Discriminante

Método de cuadrados mínimos

ANÁLISIS CUANTITATIVO DE DATOS EN CIENCIAS SOCIALES CON EL SPSS (I) Tablas de contingencia y pruebas de asociación

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

ESTADÍSTICA. Tema 4 Regresión lineal simple

INTRODUCCIÓN AL ANÁLISIS DE DATOS

Tema 2. Descripción Conjunta de Varias Variables

INDICE. Prólogo a la Segunda Edición

DISTRIBUCIONES BIDIMENSIONALES

4.1 Análisis bivariado de asociaciones

Estadísticos Aplicados en el SPSS 2008

a. Poisson: los totales marginales y el total muestral varían libremente.

Estadísticos Descriptivos

Análisis estadístico básico (I) Magdalena Cladera Munar Departament d Economia Aplicada Universitat de les Illes Balears

CAPITULO ANÁLISIS ESTADÍSTICO MULTIVARIADO /1/ /2/ En el presente capítulo se realiza el análisis estadístico multivariado de los

Pruebas de Hipótesis-ANOVA. Curso de Seminario de Tesis Profesor QF Jose Avila Parco Año 2016

INDICE 1. Introducción 2. Recopilación de Datos Caso de estudia A 3. Descripción y Resumen de Datos 4. Presentación de Datos

Estadística aplicada a la comunicación

Diagramas de Dispersión simples

Repaso Estadística Descriptiva

CLASE 10: RESUMEN DEL CURSO

Selección de fuentes de datos y calidad de datos

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Tipo de punta (factor) (bloques)

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Regresión Lineal. Dra. Noemí L. Ruiz Limardo 2008 Derechos Reservados, Rev 2010

ÍNDICE CAPÍTULO 1. INTRODUCCIÓN

SOLUCIÓN A LOS EJERCICIOS DEL SPSS Bivariante

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

478 Índice alfabético

CORRELACIÓN Y REGRESIÓN. Juan José Hernández Ocaña

CURSO-TALLER DE ANÁLISIS ESTADÍSTICO BÁSICO CON EXCEL Y SPSS Instructor: Mario Alberto Barajas Malacara

ESTADÍSTICA DESCRIPTIVA CON SPSS

Teoría de la decisión

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

Capítulo 12. Análisis de variables categóricas: El procedimiento Tablas de contingencia. Tablas de contingencia

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS FACULTAD DE INGENIERÍA PROYECTO CURRICULAR DE INGENIERÍA DE SISTEMAS

Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION.

Y accedemos al cuadro de diálogo Descriptivos

CORRELACIÓN Y REGRESIÓN. Raúl David Katz

3. Correlación. Introducción. Diagrama de dispersión

Una primera mediada podría ser la diferencia de porcentajes Para Sánchez Carrión, J. (1995) es la mejor de todos ellas.

Construcción de Gráficas en forma manual y con programados

Tema 1.- Correlación Lineal

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

4. Regresión Lineal Simple

Regresión y Correlación

ESTADÍSTICA, SISTEMAS DE INFORMACIÓN Y NUEVAS TECONOLOGÍAS Código de la Asignatura Créditos

ESTADISTICA INFERENCIAL

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

5. Regresión Lineal Múltiple

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

Análisis Probit. StatFolio de Ejemplo: probit.sgp

CM0244. Suficientable

1º CURSO BIOESTADÍSTICA

Carrera: EMM Participantes Representante de las academias de ingeniería Electromecánica de los Institutos Tecnológicos.

Análisis de datos en los estudios epidemiológicos III Correlación y regresión

Estadísticas Elemental Tema 3: Describir la relación entre dos variables: Correlación y regresión 3.1-1

Regresión con variables independientes cualitativas

Unidad IV: Distribuciones muestrales

PROBABILIDAD Y ESTADÍSTICA

ESTADISTICA DESCRIPTIVA Y PROBABILIDAD

PRUEBAS DE BONDAD DE AJUSTE y DE INDEPENDENCIA

ESTADÍSTICA DESCRIPTIVA CON STATA JUAN FRANCISCO ISLAS AGUIRRE FORTINO VELA PEÓN UAM-X

CONTENIDO. Prólogo a la 3. a edición en español ampliada... Prólogo...

TABLAS DE CONTINGENCIA (CROSS-TAB): BUSCANDO RELACIONES DE DEPENDENCIA ENTRE VARIABLES CATEGÓRICAS 1

El ejemplo: Una encuesta de opinión

Estadística Inferencial. Estadística Descriptiva

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO. Facultad de Medicina Veterinaria y Zootecnia. Licenciatura en Medicina Veterinaria y Zootecnia

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

Jesús Eduardo Pulido Guatire, marzo Diagrama de Dispersión y Correlación Lineal Simple

AYUDA SPSS CHI CUADRADO NOTAS METODOLÓGICAS

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

UNIVERSIDAD NACIONAL FEDERICO VILLARREAL FACULTAD DE INGENIERIA INDUSTRIAL Y DE SISTEMAS ESCUELA PROFESIONAL DE INGENIERIA AGROINDUSTRIAL

1. Cómo introducir datos en SPSS/PC? - Recordatorio

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES CUAUTITLÁN PLAN DE ESTUDIOS DE LA LICENCIATURA EN QUÍMICA INDUSTRIAL

Técnicas de Investigación Social

Estadística Asistencial I. Prof. Rafael Rey

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

Variables estadísticas bidimensionales

Curso de Estadística no-paramétrica

Práctica 9 REGRESION LINEAL Y CORRELACIÓN

ESTADÍSTICA. Individuo. Es cada uno de los elementos que forman la población o muestra.

PATRONES DE DISTRIBUCIÓN ESPACIAL

MANUAL SIMPLIFICADO DE ESTADÍSTICA APLICADA VIA SPSS

Doc. Juan Morales Romero

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA DE ICA

Curso 2016/17 Grados en Biología y Biología Sanitaria Departamento de Física y Matemáticas Marcos Marvá Ruiz ESTADÍSTICA

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3

Medidas de dispersión

ESTADÍSTICA DESCRIPTIVA CON STATA JUAN FRANCISCO ISLAS AGUIRRE FORTINO VELA PEÓN UAM-X

Transcripción:

Lucila Finkel Temario 1. Introducción: el análisis exploratorio de los datos. 2. Tablas de contingencia y asociación entre variables. 3. Correlación bivariada. 4. Contrastes sobre medias. 5. Regresión lineal simple.

El análisis exploratorio de los datos 50% casos centrales Diagrama de caja de Tukey Casos extremos (alejados más de 3 longitudes de caja del P75) Casos atípicos (alejados más de 1,5 longitudes de caja del P75) Valor máximo P 75 P 25 Mediana Valor mínimo El análisis exploratorio de los datos Tallo Hojas Diagrama de tallo y hojas Ancho tallo: se multiplica el tallo por 1 Cada hoja es un caso

El análisis exploratorio de los datos Histograma Tablas de contingencia y asociación entre variables La relación entre dos variables se caracteriza por: La existencia o ausencia de asociación. Existe asociación cuando la distribución de una variable difiere entre las categorías de una segunda variable. El grado o la fuerza de una asociación. La dirección de la asociación (positiva o negativa). La naturaleza de la asociación o la forma con la que se distribuyen los datos de una tabla (lineal, curvilínea..)

Tablas de contingencia y asociación entre variables (Variable dependiente) Frec. reunión profesores Total Tabla de contingencia Frec. reunión profesores * Sexo Nunca A veces Casi siempre Siempre Recuento % de Frec. reunión profesores % de Sexo Recuento % de Frec. reunión profesores % de Sexo Recuento % de Frec. reunión profesores % de Sexo Recuento % de Frec. reunión profesores % de Sexo Recuento % de Frec. reunión profesores % de Sexo Sexo Hombre Mujer Total 35 8 43 81,4% 18,6% 100,0% 17,7% 2,8% 8,9% 68 43 111 61,3% 38,7% 100,0% 34,3% 15,1% 23,0% 51 59 110 46,4% 53,6% 100,0% 25,8% 20,7% 22,8% 44 175 219 20,1% 79,9% 100,0% 22,2% 61,4% 45,3% 198 285 483 41,0% 59,0% 100,0% 100,0% 100,0% 100,0% (Variable independiente) (porcentajes de columna) Tablas de contingencia y asociación entre variables Frecuencias que se obtendrían si no hubiera asociación entre las dos variables (Hipótesis nula) Marginal de fila por marginal de columna dividido por N: (43 x 198 ) / 483 Diferencia entre el recuento o frecuencia observada y la frecuencia esperada

Tablas de contingencia y asociación entre variables Grados de libertad: (nº filas -1) x (nº columnas -1) (para N grandes y modelos log-lineales) (cuando las dos variables son cuantitativas) Para tablas de 2 x 2 se utiliza la prueba exacta de Fisher (cuando en una celda la frecuencia esperada < 5). Para muestras pequeñas, se recomienda el Chi-cuadrado de Pearson Razón de verosimilitud Asociación lineal por lineal N de casos válidos Pruebas de chi-cuadrado Sig. asintótica Valor gl (bilateral) 88,735 a 3,000 92,667 3,000 87,394 1,000 483 a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 17,63. Chi-cuadrado corregido de Yates. Nivel de significación < 0,05, se rechaza la H 0 de no asociación entre las variables. El valor de Chi cuadrado se obtiene aplicando la siguiente fórmula: 2 Frec. observada Frec. esperada Frec. esperada 2 Tablas de contingencia y asociación entre variables Para 3 grados de libertad y un nivel de significación de 0,05 (nivel de confianza del 0,95), la chi cuadrado teórica adopta un valor de 7,72.

DISTRIBUCIÓN DE PROBABILIDAD BAJO LA CURVA NORMAL 68,2 % Unidades estandarizadas de desviación típica 95,44 % 99,73% 95% Z=1,96 99% Z=2,57 Tablas de contingencia y asociación entre variables Prueba de chi cuadrado: Se plantean las dos hipótesis: H 0 (nula): no hay asociación entre las variables y H 1 (alternativa): las dos variables están asociadas. Se localiza el valor de chi cuadrado en la tabla de contingencia. Se identifica el chi cuadrado teórico, que depende de los grados de libertad y el nivel de significación adoptado. Se formula el criterio de decisión para la prueba de hipótesis: cuando x 2 >x 2 t se rechaza la H 0 yseaceptalah 1 ó, cuando ns < 0,05 ó 0,01, se rechaza la H 0 : existe asociación entre las variables. En nuestro ejemplo: x 2 >x 2 t (88,73 > 7,72): se rechaza la H 0 : el sexo y la frecuencia de reunión con los profesores están asociados. ns < 0,05 (0,00 < 0,05): se rechaza la H 0 : existe asociación entre las dos variables.

Tablas de contingencia y asociación entre variables MEDIDAS DE ASOCIACION PARA VARIABLES NOMINALES (BASADAS EN CHI-CUADRADO) Phi No está acotado superiormente. Vale cero cuando la hipótesis nula es cierta y varía entre 0 y 1 sólo en tablas cuadradas. 2 2 n C V de Cramer Es el coeficiente mejor normalizado, siempre varía entre 0 y 1. m es el número menor entre (filas - 1) y (columnas - 1). Coeficiente de Contingencia C No sobrepasa la unidad y aunque la asociación sea perfecta, no llega nunca a 1. En tablas cuadradas, valor máximo: 2x2 = 0,707 / 4x4=0,87. V 2 2 2 n 2 2 m 2 nm n Tablas de contingencia y asociación entre variables MEDIDAS DE ASOCIACION PARA VARIABLES NOMINALES (BASADAS EN CHI-CUADRADO) Medidas simétricas Nominal por nominal Phi V de Cramer Coeficiente de contingencia N de casos válidos a. Asumiendo la hipótesis alternativa. Sig. Valor aproximada,429,000,429,000,394,000 483 b. Empleando el error típico asintótico basado en la hipótesis nula. < 0,05, el estadístico es significativo (entre 0 y 1)

Tablas de contingencia y asociación entre variables MEDIDAS DE ASOCIACION PARA VARIABLES NOMINALES (BASADAS EN LA REDUCCION PROPORCIONAL DEL ERROR) Nominal por nominal (entre 0 y 1) Lambda Tau de Goodman y Kruskal a. Asumiendo la hipótesis alternativa. Medidas direccionales Simétrica Frec. reunión profesores dependiente Sexo dependiente Frec. reunión profesores dependiente Sexo dependiente b. Empleando el error típico asintótico basado en la hipótesis nula. c. Basado en la aproximación chi-cuadrado. Error típ. Sig. Valor asint. a T aproximada b aproximada,165,040 3,848,000,091,038 2,280,023,263,054 4,269,000,076,016,000 c,184,033,000 c Lambda y Tau de Goodman y Kruskal son medidas basadas en la Reducción Proporcional del Error (RPE): permiten predecir la reducción que se produce en el error de predicción del valor de un individuo en una variable cuando se conoce su valor en otra distinta. Varían entre 0 y 1 y son medidas simétricas, porque permiten distinguir entre la variable dependiente y la variable independiente. < 0,05 Tablas de contingencia y asociación entre variables MEDIDAS DE ASOCIACION PARA VARIABLES ORDINALES Gamma tiene un recorrido entre -1 y 1. < 0,01

Correlación bivariada de Pearson (PARA VARIABLES DE INTERVALO) < 0,01 < 0,05 Contraste sobre medias COMPARAR MEDIAS (de una variable cuantitativa dependiente para las distintas categorías de otra variable cualitativa independiente)

Contraste sobre medias PRUEBA T PARA MUESTRAS INDEPENDIENTES Para contrastar hipótesis referidas a la diferencia entre dos medias independientes. En un primer paso se contrasta la igualdad de las varianzas de las dos muestras (Prueba de Levene). H 0 : las medias de las dos muestras (hombres y mujeres) son iguales. H 1 : las medias difieren estadísticamente entre sí. Contraste sobre medias PRUEBA T PARA MUESTRAS INDEPENDIENTES 1 er paso: como es < 0,05 se rechaza la H 0 de igualdad de varianzas de las horas diarias entre hombres y mujeres 2º paso: como es < 0,05 se rechaza la H 0 de igualdad de horas diarias y se concluye que hay una diferencia estadísticamente significa entre las hs. de los dos sexos

Contraste sobre medias ANALISIS DE VARIANZA DE UN FACTOR Para comparar varios grupos de una variable cualitativa (variable independiente o factor) en una variable cuantitativa (variable dependiente). Se trata de una generalización de la prueba T para dos muestras independientes. H 0 : las medias de la variable dependiente (horas diarias de trabajo doméstico) en cada nivel de la independiente (clase social) son iguales. Es > 0,05, por lo que se acepta la H 0 de igualdad de horas diarias de trabajo doméstico en las distintas clases sociales Regresión lineal El investigador suele tener razones teóricas o prácticas para creer que determinada variable es dependiente de una o más variables distintas. Si hay suficientes observaciones empíricas sobre estas variables, el análisis de regresión es un método apropiado para describir la estructura, fuerza y sentido exacto de esta asociación. El modelo de regresión permite diferenciar variables explicativas o independientes X (cuantitativas o variables dummy) y variables a explicar o dependientes Y (también cuantitativas). Una pregunta importante que se plantea en el análisis de regresión es la siguiente: Qué porcentaje de la variación total en Y se debe a la variación en X? Cuánto de la variación de Y no explica X? El estadístico que mide esta proporción o porcentaje se denomina coeficiente de determinación (R 2 ). Si por ejemplo, al hacer los cálculos respectivos se obtiene un valor de 0.846, esto significa que el modelo explica el 84.6% de la variación de la variable dependiente.

Regresión lineal El objetivo de la técnica de regresión es establecer la relación estadística que existe entre la variable dependiente (Y) y una o más variables independientes (X 1,X 2, X n ). Para poder realizar esto, se postula una relación funcional entre las variables. Debido a su simplicidad analítica, la forma que más se utiliza en la práctica es la relación lineal y el ajuste de mínimos cuadrados de cualquier punto a la recta de regresión. El investigador suele tener razones teóricas o prácticas para creer que determinada variable es dependiente de una o más variables distintas. Y a b X b X b X e 1 1 2 2... k k donde: Y: variable dependiente. Función lineal aditiva de múltiples variables. X i : variables independientes. a: constante o coeficiente estimado de corte con el eje Y. b i : pendientes parciales estimadas. e: término de error. Ejemplo de regresión lineal simple

Ejemplo de regresión lineal simple Coeficiente de correlación Coeficiente de Determinación R 2 : La tasa de natalidad explica el 74% de la varianza de la esperanza de vida femenina Desviación típica de los residuos (entre puntuaciones de VD y sus estimaciones) El modelo de regresión es significativo, ambas variables están linealmente relacionadas ECUACIÓN DE REGRESIÓN: Y = a + bx Esp. vida = 89,26-0,737 * tasa natalidad Para calcular intervalos de confianza de los coeficientes. Ejemplo de regresión lineal múltiple

Ejemplo de regresión lineal múltiple Coeficiente de correlación múltiple (entre todas las variables independientes y la dependiente) Coeficiente de Determinación R 2 : La tasa de natalidad, la mortalidad infantil y la tasa de alfabetización ahora explican el 93% de la varianza de la esperanza de vida femenina Coeficientes de regresión estandarizados: (permiten comparar el efecto o el peso de las distintas variables independientes sobre la dependiente) ECUACIÓN DE REGRESIÓN: Y = a + b 1 X 1 + b 2 X 2 + b 3 X 3 Esp. vida = 86,46-0,12 * tasa natalidad -0.03 * alfabetización 0.25 * mortalidad infantil Bibliografía recomendada Capítulo 11 del manual del SPSS: Análisis exploratorio: el procedimiento Explorar Capítulo 12 del manual del SPSS: Análisis de variables categóricas: el procedimiento Tablas de Contingencia Capítulo 17 del manual del SPSS: Análisis de correlación lineal: los procedimientos Correlaciones bivariadas y Correlaciones parciales Escobar, M. (1999): Análisis Gráfico/Exploratorio. Madrid: Editorial La Muralla - Hespérides. Pardo Merino, A. y Ruiz Díaz, M. A. (2002): SPSS 11. Guía para el Análisis de Datos. Mc Graw Hill, Madrid Pérez, C. (2001): Técnicas Estadísticas con SPSS. Prentice Hall, Madrid. Sánchez Carrión, J.J. (1999): Manual de Análisis Estadístico de los Datos. Alianza Editorial, Madrid.

Bibliografía complementaria Aguilera del Pino, A. (2001): Tablas de Contingencia Bidimensionales. La Muralla D. L., Madrid Filgueira, E. (2001): Introducción al Análisis Estadístico de los Datos con SPSS. Alianza Editorial, Madrid. Sánchez Carrión, J. J. (1989): Análisis de Tablas de Contingencia. Madrid: Centro de Investigaciones Sociológicas. Visauta Vinacua, B. (2002): Análisis Estadístico con SPSS para Windows. Estadística Básica (vol. I). Madrid: McGraw Hill. Visauta Vinacua, B. (1998): Análisis Estadístico con SPSS para Windows. Estadística Multivariante (vol. II). Madrid: McGraw Hill.