I1.1 Introducción n a la correlación

Documentos relacionados
Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

Técnicas de Investigación Social

Tema 10: Introducción a los problemas de Asociación y Correlación

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

3. RELACION ENTRE DOS CONJUNTOS DE DATOS.

Lección 3. Análisis conjunto de dos variables

TEMA 2: DISTRIBUCIONES BIDIMENSIONALES

Introducción IMADIL /17/2014. Tema 3. Características estadísticas fundamentales (Tercera parte)

Módulo de Estadística

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

Tema 3: Análisis de datos bivariantes

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Técnicas de Inferencia Estadística II. Tema 6. Contrastes de independencia

Tema 4. Regresión lineal simple

Estadística descriptiva bivariante y regresión lineal.

Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION.

Tema 8: Regresión y Correlación

1 JESTADIS\REGRES.DOC

Bioestadística. Tema 3: Estadística descriptiva bivariante y regresión lineal. Relaciones entre variables y regresión

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

Definición de Correlación

Matemáticas. Bioestadística. Correlación y Regresión Lineales

Teoría de la decisión

CORRELACION Y REGRESION

Estadística aplicada a la comunicación

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Tema 3. Relación entre dos variables cuantitativas

ESTADÍSTICA. Tema 4 Regresión lineal simple

ANÁLISIS DE REGRESIÓN N LINEAL

Tema 2: Análisis de datos bivariantes

Análisis de datos en los estudios epidemiológicos III Correlación y regresión

Tema 9: Estadística en dos variables (bidimensional)

Métodos de Investigación en Psicología (11) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

Tema 1.- Correlación Lineal

Estadística de dos variables

Tema 2: Análisis de datos bivariantes

REGRESIÓN LINEAL SIMPLE

Unidad Temática 3: Estadística Analítica. Unidad 9 Correlación y Regresión Lineal Simple

ANÁLISIS ESTADÍSTICO CORRELACIÓN LINEAL

ANÁLISIS CUANTITATIVO DE DATOS EN CIENCIAS SOCIALES CON EL SPSS (I) Correlaciones bivariadas y parciales

Distribuciones bidimensionales. Correlación.

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

TEMA 4 CUESTIONARIO DE AUTOEVALUACIÓN

Estadística Descriptiva II: Relación entre variables

Jesús Eduardo Pulido Guatire, marzo Diagrama de Dispersión y Correlación Lineal Simple

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

ANÁLISIS DE DATOS. L.A. y M.C.E. Emma Linda Diez Knoth

3. Correlación. Introducción. Diagrama de dispersión

ANÁLISIS DE REGRESIÓN

ESTADÍSTICA BIDIMENSIONAL

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

Regresión: implica la obtención de una ecuación mediante la que podamos estimar el valor medio de una variable.

Variables estadísticas bidimensionales

CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES

PRÁCTICA 3. REGRESIÓN LINEAL SIMPLE CON SPSS Ajuste de un modelo de regresión lineal simple Porcentaje de variabilidad explicado

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

Repaso Estadística Descriptiva

PROBABILIDAD Y ESTADÍSTICA. Sesión 4 4. REGRESIÓN Y CORRELACIÓN SIMPLE

Método de cuadrados mínimos

Bioestadística. En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de relación entre si.

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Elaboró: Luis Casas Vilchis

Estadística para el análisis de los Mercados S3_A1.1_LECV1. Estadística Descriptiva Bivariada

Capitulo. Describir la relación entre dos variables Pearson Prentice Hall. All rights reserved

CORRELACIÓN Y REGRESIÓN. Juan José Hernández Ocaña

PRUEBA DE HIPÓTESIS BENJAMIN MAMANI CONDORI

ESTIMACION DEL TAMAÑO DE LA MUESTRA Y DE LA POTENCIA

Estadísticas Elemental Tema 3: Describir la relación entre dos variables: Correlación y regresión 3.1-1

Universidad de Salamanca - Escuela de Educación y Turismo

TEMA 3 REGRESIÓN Y CORRELACIÓN

TEMA 14 ESTADÍSTICA. Cuantitativa: si puede medirse y expresarse con números (es una variable), por ejemplo la talla de calzado.

4.1 Análisis bivariado de asociaciones

SESIÓN PRÁCTICA 7: REGRESION LINEAL SIMPLE PROBABILIDAD Y ESTADÍSTICA. PROF. Esther González Sánchez. Departamento de Informática y Sistemas

2. ESTADÍSTICAS BIDIMENSIONALES

2.3.1 Métodos cuantitativos para los pronósticos. MÉTODOS CUANTITATIVOS

Dos variables x e y están relacionadas funcionalmente cuando conocida la primera se puede saber con exactitud el valor de la segunda.

IMADIL /10/2014

Análisis descriptivo con SPSS. Favio Murillo García

9.- Análisis estadísticos con R Commander

ANALISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

Esquema (1) Análisis de la Varianza y de la Covarianza. ANOVA y ANCOVA. ANOVA y ANCOVA 1. Análisis de la Varianza de 1 Factor

TEMA 4 Modelo de regresión múltiple

Lucila Finkel Temario

BIOSESTADÍSTICA AMIGABLE

Unidad IV Introducción a la Regresión y Correlación

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

Regresión y Correlación

Tema 2 Estadística Descriptiva

La línea recta: Serie1

Relación funcional Dos variables x e y están relacionadas funcionalmente cuando conocida la primera se

Introducción a la Estadística Aplicada en la Química

El Análisis de Correspondencias tiene dos objetivos básicos:

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

CORRELACION Y REGRESIÓN LINEAL

Tema 8. Análisis de dos variables Ejercicios resueltos 1

Transcripción:

3 3 SESIÓN N CURSO DE ESTADÍSTICA STICA AVANZADA I. Introducción n a la correlación. Diagramas de dispersión.3 Coeficientes de correlación.4 Errores de interpretación 3 LA SESIÓN N N LINEAL SIMPLE. Introducción n a la regresión. Modelo de regresión.3 Errores comunes de la regresión SESIÓN En la mayor parte de los diseños de investigación se trata de descubrir relaciones entre diferentes variables POR Un estudio que encuentra concentraciones superiores de anticuerpos entre los sujetos que recibieron las mayores dosis de una vacuna CONCLUSIÓN: VARIABLES: Concentración de anticuerpos y vacuna RELACIÓN: A mayor dosis de vacuna, mayor concentración de anticuerpos Esta intervención probablemente resulta positiva para la prevención

LA LA En el ejemplo anterior, estamos suponiendo que se valora si una variable con varias categorías tiene relación con otra variable cuantitativa Vacunados con altas dosis/vacunados con Concentración de anticuerpos bajas dosis/no vacunados DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOS Cuando se realiza un diseño experimental con datos pareados tiene sentido: PERO y si queremos relacionar los pesos de unos niños recién nacidos con los pesos de sus madres? En este caso tenemos dos variables cuantitativas El estudio de la relación entre las respuestas a los dos tratamientos La comparación de las medias de las respuestas a los dos tratamientos Estos dos análisis estudian aspectos totalmente diferentes de las relaciones entre las variables LA LA DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOS DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOS Experimento con 8 ratas para comparar dos somníferos diferentes T y T Experimento con 8 ratas para comparar dos somníferos diferentes T y T Los dos somníferos han sido aplicados en un orden al azar, pero se han aplicado a las 8 ratas los dos somníferos. Queremos contestar a las siguientes preguntas: a Existe una relación entre los efectos de los somníferos T y T? Los dos somníferos han sido aplicados en un orden al azar, pero se han aplicado a las 8 ratas los dos somníferos. Queremos contestar a las siguientes preguntas: a Existe una relación entre los efectos de los somníferos T y T? Implica un estudio de relación entre las variables: b Cuál de los dos es más eficaz? b X Minutos de sueño bajo el somnífero T Cuál de los dos es más eficaz? Y Minutos de sueño bajo el somnífero T

LA LA DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOS DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOS Experimento con 8 ratas para comparar dos somníferos diferentes T y T Experimento con 8 ratas para comparar dos somníferos diferentes T y T Los dos somníferos han sido aplicados en un orden al azar, pero se han aplicado a las 8 ratas los dos somníferos. Queremos contestar a las siguientes preguntas: a Existe una relación entre los efectos de los somníferos T y T? b Se trata de una relación entre dos Cuál de los dos variables es más cuantitativas eficaz? Aplicaremos la prueba de independencia Los dos somníferos han sido aplicados en un orden al azar, pero se han aplicado a las 8 ratas los dos somníferos. Queremos contestar a las siguientes preguntas: a Existe una relación Implica entre el estudio los efectos de la de relación los somníferos entre T y T? la variable tipo de tratamiento (X e Y) y la variable tiempo de sueño b Cuál de los dos es más eficaz? LA LA DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOS Experimento con 8 ratas para comparar dos somníferos diferentes T y T Los dos somníferos han sido aplicados en un orden al azar, pero se han aplicado a las 8 ratas los dos somníferos. Queremos contestar a las siguientes preguntas: Si trabajamos con dos variables cuantitativas caben dos posibilidades: Transformar una de las variables en policotómica o en ordinal (categorizar) mediante la subdivisión en intervalos y aplicar así el análisis de la varianza (ANOVA) a Se trata de una relación Aplicaremos la prueba Existe una entre relación un carácter entre los cualitativo efectos de los somníferos de comparación T y T? de dos (X e Y) y uno cuantitativo medias en grupos de (tiempo) datos pareados b Cuál de los dos es más eficaz? Aplicar las técnicas de correlación o regresión 3

LA LA Si trabajamos con dos variables cuantitativas posibilidades: caben dos Si trabajamos con dos variables cuantitativas posibilidades: caben dos Transformar una de las variables en policotómica o en ordinal (categorizar) mediante la subdivisión en intervalos y aplicar así el análisis de la varianza (ANOVA) Transformar una de las variables en policotómica o en ordinal (categorizar) mediante la subdivisión en intervalos y aplicar así el análisis de la varianza (ANOVA) PROBLEMA!: Aplicar las técnicas de correlación Perderemos o regresión información al tratar como si fueran iguales a todos los sujetos clasificados dentro de una categoría cuando realmente puede existir una amplia variabilidad POR : PERO Aplicar las técnicas Para estudiar de correlación relación o regresiónde esa manera entre la edad y el perímetro trataremos igual a de la cintura, podría una persona de 90 agrupar la edad en <45 y años que a una de >=45 45 LA LA Si trabajamos con dos variables cuantitativas posibilidades: caben dos Si trabajamos con dos variables cuantitativas posibilidades: caben dos Transformar una de las variables en policotómica o en ordinal (categorizar) mediante la subdivisión en intervalos y aplicar así el análisis de la varianza (ANOVA) Transformar una de las variables en policotómica o en ordinal (categorizar) mediante la subdivisión en intervalos y aplicar así el análisis de la varianza (ANOVA) Aplicar las técnicas de correlación o regresión Aplicar las técnicas de correlación o regresión VENTAJA: Aportan respuestas más precisas Pueden parecer métodos similares, pero se trata de dos procedimientos distintos tanto conceptualmente como en sus aplicaciones prácticas 4

LA LA Vamos a desarrollar pruebas estadísticas para estudiar si existe relación o dependencia entre dos caracteres cuantitativos, basadas en el cálculo de un índice R Cuál es la diferencia fundamental entre la prueba de independencia basada en la χ y la de la R? La finalidad de la correlación es Examinar la dirección n y la fuerza de la asociación n entre dos variables cuantitativas La mayor potencia de la prueba basada en la R, puesto que las variables estudiadas, por ser cuantitativas, contienen mayor información que las cualitativas IMPORTANTE! Es la prueba más potente que existe de relación entre dos variables Lo que nos permite Conocer la intensidad de la relación Saber si, al aumentar el valor de una variable, aumenta o disminuye el valor de la otra variable LA LA Porcentaje de adultos de cada uno de los 5 países miembros de la UE que consideran que el precio que tienen los alimentos les influye a la hora de elegirlos En cada país existirán dos variables: Influencia del precio (según n la encuesta) Queremos ver si esta percepción tiene relación con el precio que de hecho tienen realmente los alimentos en cada uno de los 5 países Precio real La primera aproximación para valorar la asociación entre las dos variables suele ser hacer un diagrama de dispersión Con la nube de puntos podemos apreciar si existe una tendencia entre las variables 5

LA LA Además de la prueba de independencia tendremos dos tipos de problemas: Problemas de correlación Problemas de regresión LA LA Además de la prueba de independencia tendremos dos tipos de problemas: Además de la prueba de independencia tendremos dos tipos de problemas: Problemas de correlación Problemas de correlación Problemas de relación entre dos variables aleatorias En este caso R es una estimación del llamado Problemas de coeficiente regresión de correlación entre las dos variables El coeficiente de correlación, además de servir para estudiar la independencia entre las dos variables, mide la intensidad de dicha relación Los problemas de correlación, por ser problemas de relación entre dos variables aleatorias, no permiten dar interpretaciones causales Problemas de regresión Cuando las dos variables aleatorias siguen una distribución normal se demuestra que las líneas que mejor describen la relación entre ellas son las rectas de regresión 6

LA LA Además de la prueba de independencia tendremos dos tipos de problemas: Cuando una de las variables es aleatoria y la otra controlada. Problemas de correlación Es especialmente importante la recta de regresión que permite predecir el valor más probable de la variable aleatoria en función de cada uno de los distintos valores que puede tomar la variable controlada Problemas de regresión LA LA COEFICIENTE DE CONDICIONES DE APLICACIÓN N DE LA Si se desea medir o cuantificar el grado de asociación entre dos variables se debe calcular un coeficiente de correlación Variables cuantitativas Ambas variables examinadas han de ser cuantitativas Hay dos coeficientes de correlación que se usan frecuentemente: El coeficiente de correlación n de Pearson (paramétrico) Para las variables ordinales se puede usar el coeficiente de Spearman Variables normales Requisito sólo para el coeficiente de Pearson, pero no para el de Spearman El coeficiente de correlación n de Spearman (no paramétrico trico) Variables independientes Sólo puede haber una observación de cada variable para cada individuo 7

LA LA N DEL COEFICIENTE DE N DEL COEFICIENTE DE Si X e Y son dos variables aleatorias independientes entre sí Por tanto si el coeficiente de correlación es distinto de cero R xy =0 Las variables aleatorias son dependientes Supongamos que las variables siguen una distribución normal Entonces nos interesa contrastar la siguiente hipótesis: H0: ρ xy =0 H0: Independencia de X e Y H: ρ xy 0 H: Dependencia de X e Y Valores usuales de significación: α = 0.0, 0.05, 0. LA 3 ICÁLCULO DEL DIAGRAMA DE N CON EL SPSS DEFINICIÓN Gráfico en el que una de las variables (Xi( Xi) ) se coloca en el eje de abcisas,, la otra (Yi( Yi) ) en el de ordenadas y los pares (xi,yi( xi,yi) ) se representan como una nube de puntos La forma de la nube de puntos nos informa sobre el tipo de relación existente entre las variables Un diagrama de dispersión es la forma más m s directa e intuitiva de formarnos una primera impresión sobre el tipo de relación existente entre dos variables 8

3 ICÁLCULO DEL DIAGRAMA DE N CON EL SPSS 3 IREPRESENTACI REPRESENTACIÓN N DE DIAGRAMA DE N CON EL SPSS $5.000 $00.000 Salario actual $75.000 $50.000 $5.000 $0 $0 $0.000 $40.000 Salario inicial $60.000 $80.000 LA LA Además un diagrama de dispersión también puede utilizarse como una forma de cuantificar el grado de relación n lineal existente entre dos variables PARA ELLO Basta con observar el grado en el que la nube de puntos se ajusta a una línea recta SIN EMBARGO Utilizar un diagrama de dispersión como una forma de cuantificar la relación entre dos variables no es tan útil como puede parecer en un principio 9

LA LA POR QUÉ? Esto es debido a que la relación entre dos variables no siempre es perfecta o nula Normalmente ni lo uno ni lo otro Hay nubes de puntos a las que es posible ajustar una línea recta mejor de lo que es posible hacerlo a otras LA LA El ajuste de una recta a una nube de puntos no parece una cuestión de todo o nada, sino más bien de grado Definimos los dos coeficientes siguientes: Se necesita algún índice numérico capaz de cuantificar ese grado de ajuste Coeficiente de correlación n múltiplem Estos índices numéricos se denominan coeficientes de correlación Coeficiente de correlación n parcial 0

LA LA Definimos los dos coeficientes siguientes: Definimos los dos coeficientes siguientes: Coeficiente de correlación n múltiplem Indica la relación entre una de las variables y el conjunto de las restantes variables. Coeficiente Indica de correlación relación múltiple directa entre dos de las variables, es decir, la correlación entre dos de las variables eliminando el efecto de las restantes variables S: Coeficiente de correlación parcial Coeficiente de Pearson Coeficiente de Spearman Coeficiente de correlación n parcial LA LA COEFICIENTE DE N DE PEARSON Es el más utilizado COEFICIENTE DE N DE PEARSON Puede tomar valores entre - y + Mide la intensidad de la relación entre dos variables cuantitativas Es un método paramétrico (utiliza para su cálculo la media, la varianza, etc..) por ello requiere criterios de normalidad para las variables analizadas Se conoce simplemente con el nombre de coeficiente de correlación, sin más apellidos + 0 - Relación perfecta en sentido positivo Cuanto más cercanos a 0 sean los valores significará una relación más débil o incluso ausencia de relación Relación perfecta en sentido negativo

LA LA COEFICIENTE DE N DE PEARSON Según su valor la relación entre las variables será: Perfecta Excelente 0,9 Buena 0,8 0,5 Regular Mala POR Hay una correlación perfecta (R=+) entre el peso medido en libras y el peso medido en kilos COEFICIENTE DE N DE PEARSON En relación con la recta de regresión, su valor será mayor cuanto mayor sea la concentración de los puntos alrededor de la línea recta: + 0 - Los puntos forman una línea recta perfecta creciente Cuanto más cercanos a 0 sean los valores significará una mayor dispersión de los puntos en el gráfico Los puntos forman una línea recta perfecta decreciente LA LA COEFICIENTE DE N DE PEARSON Es una medida abstracta que no posee unidades, es adimensional Se cumplen las siguientes propiedades: R=0 No existe correlación R>0 R<0 Al aumentar una de las variables aumenta la otra Al aumentar una de las variables disminuye la otra COEFICIENTE DE N DE PEARSON La expresión matemática para el coeficiente de Pearson parece compleja pero esconde un planteamiento sencillo R estará próximo a (en valor absoluto) cuando las dos variables x e y estén intensamente relacionadas, es decir, cuando varíen casi enteramente al unísono A este concepto de variación al unísono se le llama covarianza Se entiende con facilidad si nos fijamos en que la relacionar una variable consigo misma obtenemos el grado máximo de asociación

LA LA SALIDA DEL COEFICIENTE DE PEARSON SPSS Meses desde el contrato Salario inicial Salario actual ** La correlación es significativa al nivel 0,0 (bilateral). Correlaciones Meses desde el contrato Salario inicial Salario actual Correlación de Pearson -,00,084 Sig. (bilateral),668,067 N 474 474 474 Correlación de Pearson -,00,880(**) Sig. (bilateral),668,000 N 474 474 474 Correlación de Pearson,084,880(**) Sig. (bilateral),067,000 N 474 474 474 COEFICIENTE DE N DE SPEARMAN Es un estimador no paramétrico que se utiliza en aquellos casos donde las variables examinadas no cumplen necesariamente criterios de normalidad Como sucede con otros métodos no paramétricos se basa en la sustitución de los valores originales por sus números de orden o rangos LA LA COEFICIENTE DE N DE SPEARMAN COEFICIENTE DE N DE SPEARMAN Diferencia con el coeficiente de Pearson El Coeficiente de Spearman no estima específicamente una asociación lineal entre las variables, sino sólo una asociación n en general VENTAJAS Es un método no paramétrico y permite la construcción de intervalos de confianza Estima el grado de asociación de cualquier tipo, sin exigir que tenga que ser lineal En vista de que no todas las relaciones que se encuentran son lineales, el Coeficiente de Spearman debería usarse más Además, no requiere supuestos previos sobre la distribución de los datos Existe otro coeficiente de correlación no paramétrico menos usado que el de Spearman, que se llama tau de Kendall Está especialmente indicado con variables ordinales, pero siempre se puede usar también el de Spearman 3

LA LA COEFICIENTE DE N PARCIAL Permiten estudiar la relación existente entre dos variables controlando el posible efecto de una o más variables extrañas POR SIN EMBARGO POR TANTO Sabemos que la correlación entre inteligencia y rendimiento escolar es alta y positiva Si controlamos el efecto de una tercera variable (número de horas de estudio) la correlación entre inteligencia y rendimiento desciende La relación entre inteligencia y rendimiento está condicionada por la variable número de horas de estudio La correlación se aplica con el objetivo de medir el grado de asociación entre dos variables cuantitativas OJO! En ningún momento se habla de que una de ellas sea la causa y la otra el efecto No es relevante el eje que ocupa cada variable y son intercambiables mutuamente SON SIMÉTRICAS LA LA En la correlación no se distingue la variable dependiente de la independiente Puede presentarse un factor no considerado que aclare nuestros hallazgos La correlación de x con respecto a y es la misma que la correlación de y con respecto a x En ocasiones pueden aparecer asociaciones fortuitas POR!! Puede aparecer una alta correlación negativa entre el índice de natalidad nacional y la producción anual de acero Se trataría de una tercera variable en juego a la que se llama factor de confusión POR Puede aparecer una correlación inversa entre la ingesta dietética total (calorías consumidas) y el peso corporal Cómo puede ser que los individuos que más calorías consumen estén más delgados? 4

LA LA Puede presentarse un factor no considerado que aclare nuestros hallazgos Puede presentarse un factor no considerado que aclare nuestros hallazgos Se trataría de una tercera variable en juego a la que se llama factor de confusión Se trataría de una tercera variable en juego a la que se llama factor de confusión POR Puede aparecer una correlación inversa entre la ingesta dietética total (calorías consumidas) y el peso corporal POR Puede aparecer una correlación inversa entre la ingesta dietética total (calorías consumidas) y el peso corporal Cómo puede La explicación ser que los proviene individuos de que considerar más una calorías consumen tercera variable estén más en juego: delgados? nivel de ejercicio físico mantenido en el tiempo libre Cómo puede La explicación ser que Quienes los proviene individuos más de calorías que considerar más consumen una tercera son los que calorías consumen variable en estén más juego: más ejercicio el delgados? nivel físico ejercicio realizan físico mantenido en el tiempo libre LA LA No basta que un coeficiente de correlación sea de gran magnitud para considerar que la asociación entre dos variables sea causal sino que hay que mantener una cierta prudencia y pensar en terceras variables que puedan explicar la asociación encontrada EN RESUMEN Los coeficientes de correlación miden la asociación entre dos variables, pero no se debe confundir una asociación n estadística stica con una relación n causa-efecto A veces se usa la correlación equivocadamente para estimar en qué grado dos sistemas de medida de una misma variable concuerdan POR Qué concordancia existe entre el peso que un individuo declara que tiene y el que realmente aparece en la báscula cuando se le pesa? Los coeficientes de correlación estiman la asociación, pero no la concordancia Si todos se quitasen sistemáticamente, digamos el 0% de su peso, la correlación sería perfecta pero la concordancia entre los dos pesos sería a muy mala 5

LA LA Para estimar cuál es el grado de concordancia entre dos observaciones que pretenden medir lo mismo En el ejemplo que veíamos al principio de los precios de los productos en distintos países.. existen otros métodos específicos distintos de la correlación OJO! Existe el peligro tanto con la correlación, como con otros procedimientos, de que las observaciones o puntos que se estudien sean sólo una fracción sesgada 3 SESIÓN N N LINEAL SIMPLE. Introducción n a la regresión. Modelo de regresión.3 Errores comunes de la regresión SESIÓN 3. INTRODUCCIÓN A. MODELO DE.4 ERRORES COMUNES LA DE LA RECORDATORIO PARA QUÉ SIRVE EL ANOVA? variable independiente Para comprobar si una variable con más de dos categorías ( factores ) tiene relación con una segunda variable que es cuantitativa variable dependiente A esta segunda variable que supone la respuesta al factor se le llama variable dependiente Pretendemos demostrar que depende de la otra variable (factor) El factor es, por lo tanto, la variable independiente 6

3. INTRODUCCIÓN A. MODELO DE.4 ERRORES COMUNES LA DE LA RECORDATORIO Hay dos problemas que no se pueden solucionar con el análisis de la varianza: El ANOVA se queda corto Indica si hay o LA no una asociación Cuánto aumenta la estadística entre dos variables, variable dependiente por VIENE A RESOLVER pero no define exactamente cuál cada unidad de aumento es la ESTOS magnitud de esa DOS relación PROBLEMAS de la independiente? Hay factores que tienen tantas categorías que realmente se parecen más a una variable cuantitativa, o puede que nos interese usar como variable independiente una variable que es cuantitativa 3. INTRODUCCIÓN A. MODELO DE.4 ERRORES COMUNES LA DE LA Como hemos visto, la correlación sirve para medir la fuerza con que están asociadas dos variable cuantitativas COEFICIENTE DE Esa fuerza se expresa con un número La regresión sirve para detallar más Está dirigida a describir de una manera más completa cómo es la relación n entre ambas variables de tal manera que se puede predecir (con un cierto margen de error) cuál va a ser el valor de una variable una vez que se sabe el valor de la otra 3. INTRODUCCIÓN A. MODELO DE LA Si la asociación entre ambas variables es débil Pero cuando la asociación es fuerte.4 ERRORES COMUNES DE LA Esta predicción puede ser bastante imprecisa La regresión nos ofrece un modelo estadístico que puede alcanzar finalidades predictivas 3. INTRODUCCIÓN A. MODELO DE LA La correlación supone que ninguna están fuera del control del investigador.4 ERRORES COMUNES DE LA variable indepediente o predictora La regresión supone que hay una variable fija, controlada por el investigador y otra variable que no está controlada variable de respuesta o depediente ninguna variabe es fija, las dos 7

3. INTRODUCCIÓN A. MODELO DE.4 ERRORES COMUNES LA DE LA La regresión en su forma más sencilla se llama regresión lineal simple Técnica estadística stica que analiza la relación entre dos variables cuantitativas, tratando de verificar si dicha relación n es lineal Sin embargo, a diferencia de lo que ocurría con la correlación, ahora no se puede considerar que ambas variables tengan un papel simétrico 3. INTRODUCCIÓN A. MODELO DE.4 ERRORES COMUNES LA DE LA En la regresión, cada una de las dos variables desempeña una función diferente y en consecuencia tienen una consideración distinta: variable respuesta A la variable respuesta se le llama variable dependiente y ocupa el eje de ordenadas (eje vertical o de la y ) A la variable predictora o variable predictora causa se le denomina variable independiente y ocupa el eje de Suele ser un factor previamente abcisas (eje horizontal) determinado o una característica más fácil de medir que la que se pretende explicar a partir de ella 3. INTRODUCCIÓN A. MODELO DE LA ALGUNAS ACLARACIONES.4 ERRORES COMUNES DE LA La correlación y la regresión tienen distintas finalidades Es bastante raro que esté indicado aplicar simultáneamente ambas técnicas para alcanzar los objetivos de un determinado análisis estadístico Con frecuencia se confunden ambas técnicas y se piensa que son una sola 3. INTRODUCCIÓN A. MODELO DE LA OBJETIVO DE LA OBJETIVO DE LA.4 ERRORES COMUNES DE LA Medir el grado o fuerza de la asociación entre dos variables cuantitativas A través del coeficiente de correlación No estima la bondad del ajuste de unos datos a un modelo Buscar la línea que mejor se ajusta a los puntos 8

3. INTRODUCCIÓN A. MODELO DE LA y = a + b*x constante llamada ordenada en el origen (en nuestro caso: cuánto mediría un recién nacido).4 ERRORES COMUNES DE LA El ejemplo más intuitivo es cómo se relacionan la talla y la edad Por cada incremento de edad (por lo menos hasta los 5 años) se produce un incremento de altura. Es decir pendiente: incremento de y por cada unidad de incremento de x (en nuestro caso: cuántos centímetros crece un niño al año) 3. INTRODUCCIÓN A. MODELO DE LA.4 ERRORES COMUNES DE LA Sin embargo, a pesar de ser este un modelo de fácil comprensión, tiene errores Nunca será posible hacer predicciones perfectas de la estatura que tendrá un niño una vez que se conoce su edad Aunque la edad tiene un efecto importante sobre la estatura, este efecto está afectado por un cierto grado de variabilidad aleatoria 3. INTRODUCCIÓN A. MODELO DE LA y = a + b*x + e e.4 ERRORES COMUNES DE LA Las observaciones de dos variables no suelen trazar una línea recta perfecta sino que existe un cierto grado de dispersión entorno a una imaginaria línea recta que los atravesaría por el centro error residual: expresa el desajuste de los datos respecto al modelo lineal es una cantidad variable de un sujeto a otro y puede ser positiva o negativa equivale a lo que habría que añadir o quitar a la predicción que hace el modelo para que coincida exactamente con lo observado en cada sujeto 9