DOCUMENTO 5 ANÁLISIS DE CORRELACIÓN Cuando se estudian en forma conjunta dos características (variables estadísticas) de una muestra, se dice que estamos analizando una variables estadística bidimensional. La correlación es el grado de relación que existe entre ambas características, y la regresión es la forma de expresar matemáticamente dicha relación (dado dos variables, la correlación nos va a permitir hacer estimaciones del valor de una de ellas conociendo el valor de la otra variables, tal y como veremos). Los diagramas de dispersión son muy útiles para estudiar correlación entre dos variables, entendiéndose por tal, a los planos cartesianos en los que se marcan los puntos correspondientes a los pares ordenados (X,Y) de los valores de las variables. Podemos clasificar la correlación de varias maneras: a) Según la relación entre variables: podemos obtener una correlación lineal, representada con mediante una línea recta; o una correlación no lineal, representada mediante una línea curva. b) Según el número de variables: podemos tener una correlación simple, dónde la variable dependiente actúa sobre la variable independiente; una correlación múltiple, donde la variable dependiente actúa sobre varias variables independientes; o una correlación parcial, donde la relación que existe entre una variable dependiente y una independiente es de tal forma que los demás factores permanecen constantes. c) Según el valor cuantitativo: podemos tener una correlación perfecta, donde el valor del coeficiente de correlación es 1; una correlación imperfecta, donde el coeficiente de correlación es menor a 1; o una correlación nula, donde el coeficiente de correlación es 0, no existiendo por tanto, correlación entre ambas variables. d) Según el signo: podemos tener una correlación positiva, cuando al aumentar o disminuir el valor de una de las variables, aumenta o disminuye también el valor correspondiente de la otra variable; o correlación negativa, cuando al aumentar o disminuir el valor de una variable disminuye o aumenta el valor de correspondiente de la otra variable. Los coeficientes de correlación son medidas que indican la situación relativa de los mismos sucesos respecto a las dos variables, es decir, son la expresión numérica que nos indica el grado de relación existente entre las dos variables y en qué medida se relacionan. Son números que varían entre los límites +1 y -1. Su magnitud indica el grado de asociación entre las variables; el
valor r = 0 indica que no existe relación entre las variables. Por el contrario, los valores +1 o -1 son indicadores de una correlación perfecta positiva (al crecer o decrecer X, crece o decrece Y) o negativa (al crecer o decrecer X, decrece o crece Y). Anteriormente, de izquierda a derecha puede observarse tres tipos de correlación: a) Donde r=0, es decir, no existe relación alguna entre las variables X e Y. b) Donde r= 0,8; es decir, existe una tendencia clara. Puede observarse como la nube de puntos representada sigue una relación directamente proporcional (conforme aumenta la variable X también lo hace Y). c) Donde r=1, es decir, todos los puntos representados tocan la recta. Se trata de una correlación perfecta. En estas dos últimas gráficas puede observarse, de izquierda a derecha, una correlación perfecta, cuyo r= -1 (el signo nos indica que las variables son inversamente proporcionales, es decir, cuando aumenta el valor X disminuye Y) y una correlación donde r= -0,8; dónde el signo nos indica que es inversamente proporcional y el valor 0,8; que no se trata de una correlación perfecta, aunque sí fuertemente relacionadas. Para interpretar el coeficiente de correlación podemos utilizar la siguiente escala:
VALOR DE r SIGNIFICADO -1 Correlación negativa perfecta -0,9 a -0,99 Correlación negativa muy alta -0,7 a -0,89 Correlación negativa alta -0,4 a 0,69 Correlación negativa moderada -0,2 a -0,39 Correlación negativa baja -0,01 a -0,19 Correlación negativa muy baja 0 Correlación nula 0,01 a 0,19 Correlación positiva muy baja 0,2 a 0,39 Correlación positiva baja 0,4 a 0,69 Correlación positiva moderada 0,7 a 0,89 Correlación positiva alta 0,9 a 0,99 Correlación muy positiva muy alta 1 Correlación positiva perfecta COEFICIENTE DE CORRELACION DE KARL PEARSON También se le conoce como el coeficiente de correlación producto-momento. Para datos no agrupados, que será nuestro caso, se calcula aplicando la siguiente ecuación: siendo r el coeficiente de correlación de Karl Pearson. Veamos un ejemplo ilustrativo de cómo calcular dicho coeficiente de correlación. Para ello, tenemos dos variables, X e Y, que nos mide la temperatura en una misma ciudad dos días diferentes, tal y como sigue: X 18 17 15 16 14 12 9 15 16 14 16 18 SX =180 Y 13 15 14 13 9 10 8 13 12 13 10 8 SY= 138 Para comenzar debemos calcular la media aritmética tal y como sigue:
Posteriormente, completamos la tabla que sigue: Finalizamos con la aplicación de la fórmula propuesta con anterioridad: Se puede observar que existe una correlación positiva moderada. Todo este cálculo se hace mucho más fácil con una hoja de cálculo, donde nos bastaría con introducir en dos columnas diferentes los valores que queremos comparar y aplicar la fórmula Coeficiente de correlación, tal y como se observa a continuación:
Una vez introducido los valores en ambas columnas e insertado el coeficiente de correlación, el programa nos pedirá que indiquemos las celdas que corresponden a cada variable, tal y como se observa en el siguiente esquema. (COEF. DE.CORREL (A2:A13;B2:B13): esto nos indica que vamos a relacionar los valores comprendidos entre las celdas A2 y A13 con aquellos comprendidos entre B2 y B13. Puede observarse, que el valor calculado con la hoja de cálculo es idéntico al calculado anteriormente de manera manual.
Podríamos finalizar el análisis de los datos anteriores, realizando un diagrama de dispersión, para lo cual, volvemos a seleccionar los datos anteriores e insertamos gráfica de dispersión, tal y como se observa a continuación: Una vez realizado, obtendremos algo parecido a lo siguiente: 16 14 12 10 8 6 Series1 4 2 0 0 5 10 15 20 Nótese que la nube de puntos no sigue un patrón, al menos, claro de tendencia. Este hecho quedaba previamente patente, ya que ambas variables tenían un coeficiente de correlación moderado, con un valor r de 0,415.
a) Durante el mes de Enero Las cuatro sesiones del mes de Enero la dedicamos a calcular si existe correlación entre el tamaño de los huevos y los días necesarios de incubación; realización de la gráfica de la temperatura de incubación en el laboratorio (con su media incluida) y las tasas de eclosión, mortalidad infantil y lo que nosotros hemos denominado tasa de demora. Todo se realiza con una hoja de cálculo. Durante la primera y segunda sesión, se realiza una introducción teórico-práctica sobre el cálculo de la correlación entre dos variables, tal y como se observa en el documento 5. Una vez leído y explicado dicho documento, se realizan las siguientes actividades: 1.- En qué se diferencia la correlación de la regresión? 2.- Qué tipos de correlación existen según su signo? En qué se diferencian? 3.- Observa las siguientes variables y calcula en cada caso: coeficiente de correlación (con hoja de cálculo y manual ) y diagrama de dispersión. Comenta los resultados. X 8 16 20 23 42 54 67 70 80 Y 1 2,3 4 4,1 6 8 9,1 11 13 X 5 3 8 19 22 31 14 2 1 Y 2 34 5 6 22 1 65 7 9 4.- Analiza la correlación y la regresión para las variables: longitud del huevo y días de incubación. (SE COMENTAN LOS RESULTADOS POSTERIORMENTE) a) Calcula el coeficiente de correlación con una hoja de cálculos. b) Qué tipo de correlación se establece? b) Se observa esa tendencia en la gráfica de dispersión?
c) Coloca en la gráfica anterior la línea de tendencia, así como su ecuación. COMENTARIO ACTIVIDAD 4 Para calcular la correlación entre la longitud del huevo y los días de incubación se deben colocar las dos variables en dos columnas diferentes y buscar la fórmula coeficiente de correlación, tras lo cual, seleccionamos los valores implicados y observamos el resultado obtenido, tal y como sigue: Una vez calculado el coeficiente de correlación entre las dos variables anteriormente señaladas, pasamos a representar gráficamente los resultados obtenidos, para lo cual, pulsamos el botón insertar y posteriormente gráfica de dispersión, tal y como sigue:
Una vez insertada la gráfica, calculamos la línea de tendencia que nos relacionará ambas variables como sigue:
Durante la sesión tercera del mes, realizamos la curva de la temperatura existente en el laboratorio, para lo cual debemos anotar en una hoja de cálculo la temperatura medida y el día que corresponde en dos columnas distintas, para posteriormente, al igual que hemos hecho con la correlación, insertar una gráfica (dispersión con línea que nos una los puntos) que nos relacione día y temperatura. Tras darle el formato deseado se obtiene la siguiente gráfica: 29 27 Temperatura (ºC) 25 23 21 19 17 15 13-sep 03-oct 23-oct 12-nov 02-dic 22-dic 11-ene Finalizaremos el mes de Enero (cuarta sesión) calculando como sigue a continuación la tasa de eclosión y mortalidad infantil. La tasa de eclosión se calcula: El cálculo de la tasa de eclosión se postergó hasta el mes de Enero porque desconocíamos el tiempo necesario para el desarrollo embrionario del insecto. Entendemos por tanto, que aquellos huevos que no han eclosionado para estas fechas, ya no lo harán. La tasa de mortalidad infantil se calcula como sigue:
Al igual que la tasa de eclosión, la tasa de mortalidad infantil se calcula este mes porque la mayoría de los insectos eclosionados ya han alcanzado para esta fecha un estadio de preadulto o adulto, por lo que, no se pueden producir más muertes en estado de ninfa.