Tema 2: Análisis de datos bidimensionales

Transcripción

1 Tema : Análisis de datos bidimensionales Variables estadísticas bidimensionales Distribuciones de frecuencias asociadas Regresión y correlación En una población puede resultar interesante considerar simultáneamente dos variables estadísticas X e En este caso para cada individuo de la población se obtiene el par de valores ( x i, y j ) y se suele decir que estamos ante una estadística de dos dimensiones o que hay definida una variable estadística bidimensional Por ejemplo, se puede observar en una población de estudiantes su edad y la nota obtenida en una prueba, o sobre los empleados de una empresa el salario que perciben y la antigüedad en la empresa Cuando en una población se consideran conjuntamente dos variables estadísticas X e el objetivo que se pretende alcanzar es determinar si existe o no relación entre los valores ( x, ) i y j que presentan ambas variables en cada individuo A esta relación se le llama dependencia estadística y se caracteriza porque cada valor de X se puede presentar conjuntamente con varios valores de, y cada valor de se puede presentar conjuntamente con varios de X En la dependencia estadística se distingue entre: La dependencia estadística de sobre X que pone de manifiesto cómo se comporta para cada valor de X La dependencia estadística de X sobre que pone de manifiesto cómo se comporta X para cada valor de Ambos tipos de dependencia estadística admiten distintos grados de intensidad que van desde la independencia estadística (mínima intensidad) hasta la dependencia funcional (máxima intensidad), en la que para cada valor de una de las variables sólo existe un valor de la otra variable que se presenta conjuntamente con éste Variables estadísticas bidimensionales Distribuciones de frecuencias asociadas Variables estadísticas bidimensionales e considera una población de N individuos en la que se observan dos variables estadísticas X, que toma valores x, x, Lxk, e, que toma valores y, y, Ly p Al observar en cada uno de los N individuos el valor que presenta X y el valor que presenta, obtenemos N datos del tipo ( x i, y j ) e define la frecuencia absoluta conjunta de ( ) i y j población que presentan ( ) i y j De la definición se deduce que x,, que se nota n i j, como el número de individuos de la x, o el número de veces que aparece repetido el dato ( ) k N = i= p nij j= x i, y j

2 e define la frecuencia relativa conjunta de ( i y j ) la población que presentan ( x i, y j ) De la definición se deduce que x,, que se nota f i j, como la proporción de individuos de ni j k p k p n k p i j fi j = y se cumple que f i j = = ni j = N N N i= j= i= j= i= j= La tabla que presenta los valores de X e y sus frecuencias correspondientes se llama tabla de correlación o tabla de doble entrada y define la distribución de frecuencias conjunta de las dos variables u expresión general es: X/ y y y j y p x n n n j n p x n n n j n x i n i n i ij n p n i p n x k n k n k n k j k p N Ejemplo : En la tabla adjunta se presenta la información sobre el número de televisores (variable X ) y el número de DVDs (variable ) que ha vendido semanalmente una tienda de electrodomésticos desde que se inauguró X/ i sumamos todas las frecuencias absolutas conjuntas obtenemos el valor de N que, en este ejemplo, es el número de semanas que lleva la tienda abierta al público Para obtener este valor podemos sumar las frecuencias absolutas por filas o por columnas y obtenemos X/ Por tanto la tienda lleva 400 semanas abierta al público

3 El significado de la columna que hemos añadido es: En 0 semanas la tienda no ha vendido ningún televisor En 60 semanas la tienda ha vendido un televisor En 00 semanas la tienda ha vendido dos televisores En 80 semanas la tienda ha vendido tres televisores En 40 semanas la tienda ha vendido cuatro televisores La información del cuadro anterior define la distribución de frecuencias del número de televisores vendidos semanalmente (variable X ) en las 400 semanas, y la tabla estadística de la distribución de frecuencias es Nº de televisores nº de semanas Frecuencia relativa 0,3 0,5 0,5 0, 0, A esta distribución se la llama distribución marginal de X asociada a la distribución conjunta de las variables X e El significado de la fila que hemos añadido es: En 00 semanas la tienda no ha vendido ningún DVD En 60 semanas la tienda ha vendido un DVD En 0 semanas la tienda ha vendido dos DVDs En 80 semanas la tienda ha vendido tres DVDs En 40 semanas la tienda ha vendido cuatro DVDs La información del cuadro anterior define la distribución de frecuencias del número de DVDs vendidos semanalmente (variable ) en las 400 semanas, y la tabla estadística de la distribución de frecuencias es Nº de DVDs nº de semanas Frecuencia relativa 0,5 0,5 0,3 0, 0, A esta distribución se la llama distribución marginal de asociada a la distribución conjunta de las variables X e Habitualmente en la tabla de correlación se suele incluir la columna cuyos elementos son la suma de todas las frecuencias absolutas de cada fila, y la fila cuyos elementos son la suma de las frecuencias absolutas de cada columna Por tanto, la expresión general de la tabla estadística de la distribución conjunta de X e es: 3

4 X/ y y x n n n j x n n n j y j y p Total n p n p n n M M M M M M x i n i n i n ij n i p n i M x k n k n k n k j n k p n k Total n n n j n p N p n i = n ij = ni + ni + + nip j= k j = nij = n j + n j + K nkj i= k p k p N = nij = ni = n j i= j= i= j= n + Distribuciones de frecuencias asociadas Las distribuciones de frecuencias asociadas a la distribución conjunta de X e son las distribuciones marginales y las distribuciones condicionadas Distribuciones marginales Distribución marginal de X Como hemos visto en el ejemplo anterior, la distribución marginal de X estudia los N individuos de la población considerando sólo el valor que presentan de la variable X La tabla que define la distribución de frecuencias es: X x x L x i L x k Frecuencia absoluta n n L n i L n k N y la podemos localizar en la tabla de correlación si sólo nos fijamos en la primera y última columna La media de esta distribución se nota x, y la varianza se nota X Distribución marginal de Asimismo, la distribución marginal de estudia los N individuos de la población considerando sólo el valor que presentan de la variable La tabla que define la distribución de frecuencias es: y y L Frecuencia absoluta n n L j y j L y p n L n p N y la podemos localizar en la tabla de correlación si sólo nos fijamos en la primera y última fila La media de esta distribución se nota y, y la varianza se nota 4

5 Distribuciones condicionadas Distribuciones condicionadas de la variable X i en el ejemplo queremos estudiar el número de televisores que se han vendido en las semanas en las que se han vendido tres DVDs, podemos observar la tabla de doble entrada X/ Total Total i nos fijamos en la columna correspondiente al valor 3 de (columna amarilla), deducimos que hay 80 semanas en las que se han vendido tres DVDs y de ellas En 4 semanas la tienda no ha vendido ningún televisor En semanas la tienda ha vendido un televisor En 0 semanas la tienda ha vendido dos televisores En 6 semanas la tienda ha vendido tres televisores En 8 semanas la tienda ha vendido cuatro televisores La información del cuadro define la distribución de frecuencias del número de televisores vendidos semanalmente (variable X ) si en esa semana se han vendido tres DVDs (condición), y se le llama distribución de frecuencias de la variable X condicionada por el valor 3 de la variable La tabla estadística de la distribución de frecuencias es Nº de televisores / = nº de semanas Frecuencia relativa 0,3 0,5 0,5 0, 0, En esta distribución no se estudia lo ocurrido en las 400 semanas sino sólo en las 80 semanas que cumplen la condición que hemos impuesto Cómo presenta 5 valores se pueden definir 5 distribuciones condicionadas de X, imponiendo en cada una la condición de que tome cada uno de los valores En general, la distribución de frecuencias de la variable X condicionada por el valor y j de figura en la siguiente tabla: X = / y j x x x i x k Total Frecuencia absoluta n j n j n ij n k j n j 5

6 Distribuciones condicionadas de la variable i en el ejemplo queremos estudiar el número de DVDs que se han vendido en las semanas en las que se han vendido dos televisores, podemos observar la tabla de doble entrada X/ Total Total i nos fijamos en la fila correspondiente al valor de X (fila amarilla), deducimos que hay 00 semanas en las que se han vendido dos televisores y de ellas En 5 semanas la tienda no ha vendido ningún DVD En 5 semanas la tienda ha vendido un DVD En 30 semanas la tienda ha vendido dos DVDs En 0 semanas la tienda ha vendido tres DVDs En 0 semanas la tienda ha vendido cuatro DVDs La información del cuadro define la distribución de frecuencias del número de DVDs vendidos semanalmente (variable ) si en esa semana se han vendido dos televisores (condición), y se le llama distribución de frecuencias de la variable condicionada por el valor de la variable X La tabla estadística de la distribución de frecuencias es Nº de DVDs / X = nº de semanas Frecuencia relativa 0,5 0,5 0,3 0, 0, En esta distribución no se estudia lo ocurrido en las 400 semanas sino sólo en las 00 semanas que cumplen la condición que hemos impuesto Cómo X presenta 5 valores se pueden definir 5 distribuciones condicionadas de, imponiendo en cada una la condición de que X tome cada uno de los valores En general, la distribución de frecuencias de la variable condicionada por el valor x i de X figura en la siguiente tabla: X = / x i y y Frecuencia absoluta n i n i n ij y j y p Total n i p n i Ejercicio : Comprueba que en la distribución del ejemplo todas las distribuciones condicionadas de la variable X coinciden con la distribución marginal de X 6

7 Ejercicio ; Comprueba que en la distribución del ejemplo todas las distribuciones condicionadas de la variable coinciden con la distribución marginal de Ejercicio 3: Razona si las siguientes afirmaciones sobre los datos observados del ejemplo son ciertas o falsas: a) El 5% de las semanas se han vendido dos televisores y tres DVDs b) El 60% de las semanas se ha vendido más de un televisor c) El 49% de las semanas se han vendido como máximo dos televisores y no más de dos DVDs d) El 0% de las semanas se han vendido el mismo número de estos electrodomésticos e) El 60% de las semanas en las que se han vendido cuatro televisores se venden dos o más DVDs f) El 0% de las semanas se han vendido tres de estos electrodomésticos El estudio de las distribuciones marginales y condicionadas asociadas a una distribución de frecuencias bidimensional, permite analizar el tipo de relación que existe entre las dos variables i, como en la distribución de frecuencias del ejemplo, todas las distribuciones condicionadas coinciden con su correspondiente marginal se dice que las dos variables estadísticas son independientes Esto significa que el conocer el valor que toma una de las variables en un individuo de la población no aporta ninguna información sobre el valor que en ese individuo presenta la otra variable e define la independencia estadística de dos variables de la siguiente forma: Dos variables estadísticas X e son independientes si la frecuencia relativa conjunta es igual al producto de las frecuencias relativas marginales, es decir: ni j N n n j = i i, j fi j = fi f j i, j N N Esta condición es equivalente a la anteriormente expresada (todas las distribuciones condicionadas coinciden con su correspondiente marginal) i en las distribuciones de la variable condicionadas por cada uno de los valores de la variable X todos los individuos presentan un solo valor de la variable, se dice que la variable depende funcionalmente de la variable X Esto significa que si se conoce el valor que toma la variable X en un individuo de la población también se conoce el valor que toma la variable i en las distribuciones de la variable X condicionadas por cada uno de los valores de la variable todos los individuos presentan un solo valor de la variable, se dice que la variable X depende funcionalmente de la variable Esto significa que si se conoce el valor que toma la variable en un individuo de la población también se conoce el valor que toma la variable X 7

8 Ejemplo : En la tabla adjunta se presenta la información sobre el número semanal de televisores vendidos (variable X ) y el beneficio semanal, en cientos de euros, (variable ) de una tienda de electrodomésticos desde que se inauguró X/ n i n j En esta distribución de frecuencias bidimensional, podemos decir que la variable depende funcionalmente de la variable X ya que: En todas las semanas en las que se venden 0 televisores se obtiene un beneficio de 500 euros En todas las semanas en las que se venden televisor se obtiene un beneficio de 700 euros En todas las semanas en las que se venden televisores se obtiene un beneficio de 900 euros En todas las semanas en las que se venden 3 televisores se obtiene un beneficio de 000 euros En todas las semanas en las que se venden 4 televisores se obtiene un beneficio de 00 euros También podemos decir que la variable X depende funcionalmente de la variable ya que: Todas las semanas en las que se obtiene un beneficio de 500 euros se venden 0 televisores Todas las semanas en las que se obtiene un beneficio de 700 euros se vende televisor Todas las semanas en las que se obtiene un beneficio de 900 euros se venden televisores Todas las semanas en las que se obtiene un beneficio de 000 euros se venden 3 televisores Todas las semanas en las que se obtiene un beneficio de 00 euros se venden 4 televisores Por lo tanto se dice que hay una dependencia funcional recíproca entre las variables X e Ejemplo 3: En la tabla adjunta se presenta información sobre la antigüedad en años (variable X ) en el puesto de trabajo y la puntuación obtenida en un test de satisfacción con el trabajo (variable ) de los 00 empleados de una empresa X/ n i n j En esta distribución de frecuencias bidimensional, podemos decir que la variable depende funcionalmente de la variable X Pero la variable X no depende funcionalmente de la variable porque, por ejemplo, de los 50 empleados que obtienen 5 puntos en el test de satisfacción en el trabajo (variable ), 5 de ellos tienen año de antigüedad en el trabajo y el resto tienen 5 años de antigüedad en el trabajo (variable X ) 8

9 En la mayoría de los casos la relación entre las dos variables no responde a ninguna de estas situaciones ya que las distribuciones condicionadas de cada una de las dos familias ni son iguales, ni en ellas los individuos presentan un único valor de la variable Regresión y correlación Al iniciar este tema dijimos que: Cuando en una población se consideran conjuntamente dos variables estadísticas X e el objetivo que se pretende alcanzar es determinar si existe o no relación entre los valores que presentan ambas variables en cada individuo A esta relación se le llama dependencia estadística ( x i, y j ) y se caracteriza porque cada valor de X se puede presentar conjuntamente con varios valores de, y cada valor de se puede presentar conjuntamente con varios valores de X Hemos estudiado ya los dos casos límite: la independencia estadística y la dependencia funcional En el primer caso, conocer el valor que toma una de las variables en un individuo de la población no proporciona ninguna información sobre el valor que toma la otra variable En el segundo, conocer el valor que toma una de las variables en un individuo de la población determina el valor de la otra variable in embargo, lo que generalmente ocurre en la mayoría de las distribuciones es que el conocer el valor que toma una de las variables en un individuo de la población sólo proporciona alguna información sobre los posibles valores que puede presentar la otra variable La regresión consiste en determinar una función que exprese de forma más o menos aproximada la estructura que presenta la dependencia estadística de sobre X (cómo se comporta para cada valor de X ) ó la dependencia estadística de X sobre (cómo se comporta X para cada valor de ) Esta función nos permitirá predecir el valor que toma una de las variables cuando se conoce el valor que toma la otra variable en un individuo de la población También es importante estudiar la intensidad de la dependencia estadística que tiene como referencia la independencia estadística, mínima intensidad, y la dependencia funcional, máxima intensidad La correlación estudia cómo medir la intensidad de la dependencia estadística Diagrama de dispersión o nube de puntos Para estudiar la dependencia estadística entre dos variables resulta útil construir y analizar el diagrama de dispersión o nube de puntos que es un gráfico que representa los valores de ambas variables que se presentan conjuntamente en los individuos de la población Diagrama de dispersión de la distribución del ejemplo nº de DVDs nº de televisores 9

10 El diagrama de dispersión proporciona en muchas ocasiones, una idea aproximada del tipo de relación que puede existir entre las variables e incluso de la intensidad de esa dependencia Analizamos estas cuestiones con el siguiente ejemplo Ejemplo 4: Una cadena de hoteles rurales observó en cada uno de sus establecimientos, durante cuatro fines de semana, el número de personas alojadas (variable X ) y el número de menús servidos en su comedor (variable ) Las tablas adjuntas muestran la información obtenida en cada fin de semana y los gráficos sus correspondientes diagramas de dispersión X/ n i X/ n i n j Tabla n j Tabla X/ n i X/ n i n j Tabla 3 n j Tabla 4 nº de menús nº personas alojadas nº de menús nº personas alojadas Gráfico Gráfico nº de menús nº de menús nº personas alojadas Gráfico 3 nº personas alojadas Gráfico 4 0

11 i analizamos los cuatro diagramas de dispersión, vemos que: Los cuatro nos indican que la relación entre las variables es de tipo lineal Además la relación es directa o positiva porque a medida que los valores de una de las variables aumentan también lo hacen los de la otra variable El gráfico presenta una dependencia funcional lineal entre las variables, porque cada valor de una de las variables se presenta conjuntamente con un solo valor de la otra variable y además todos los puntos de la nube están situados sobre la recta y = x + 5 Los gráficos y 4 son iguales, pero las tablas de correlación correspondientes no son iguales y podríamos afirmar que la intensidad de la relación es mayor en la primera de ellas La intensidad de la relación de las variables en el gráfico 3 es la menor de todas Es conveniente por tanto definir una medida cuantitativa que resuma la información del diagrama de dispersión Covarianza y coeficiente de correlación lineal e considera una población de N individuos en la que se observan dos variables estadísticas X e e define la covarianza de las variables estadísticas X e, que se nota X, como X k p p fij i j i= j= i= j= N k nij ( x x) ( y y) = ( x x) ( y y) = i j iendo x la media de la distribución marginal de X, yla media de la distribución marginal de y fijla frecuencia relativa del dato ( x i, y j ) i efectuamos los productos que aparecen en la definición anterior y descomponemos en sumatorias se obtiene la siguiente expresión para la covarianza, que se utiliza para su cálculo X k p nij i= j= N = xi y j x y De la definición se deduce que la covarianza puede tomar valores positivos, negativos y el cero Vamos a ver que la covarianza es una medida de la relación lineal entre dos variables que resume la información del diagrama de dispersión Para ello consideramos el siguiente gráfico (un diagrama de dispersión en el que sólo hemos dibujado cuatro puntos)

12 y y y 3 () (3) y 4 y () (4) x x x x3 x 4 Gráfico 5 i dibujamos en el diagrama de dispersión las rectas (), (), (3) y (4) x = x e y = y, éste queda dividido en cuatro regiones i consideramos el punto ( x ), vemos que ( x) ( y y) 0,y x > y como la frecuencia correspondiente es positiva, podemos afirmar que el sumando de la covarianza correspondiente a este dato es positivo Igual ocurre con todos los puntos del diagrama de dispersión que estén en la región () i consideramos el punto ( x ), vemos que ( x) ( y y) 0,y x < y como la frecuencia correspondiente es positiva, podemos afirmar que el sumando de la covarianza correspondiente a este dato es negativo Igual ocurre con todos los puntos del diagrama de dispersión que estén en la región () i consideramos el punto ( x ), vemos que ( x) ( y y) 0 3,y 3 x 3 3 > y como la frecuencia correspondiente es positiva, podemos afirmar que el sumando de la covarianza correspondiente a este dato es positivo Igual ocurre con todos los puntos del diagrama de dispersión que estén en la región (3) 4, y 4 x 4 4 < y como la frecuencia correspondiente es positiva, podemos afirmar que el sumando de la covarianza correspondiente a este dato es negativo Igual ocurre con todos los puntos del diagrama de dispersión que estén en la región (4) Por lo tanto: i consideramos el punto ( x ), vemos que ( x) ( y y) 0 i el diagrama de dispersión presenta una relación lineal y directa entre las variables, la covarianza debe ser positiva y grande pues habrá una mayoría de puntos en las regiones () y (3) i el diagrama de dispersión presenta una relación lineal e inversa entre las variables, la covarianza debe ser negativa y en valor absoluto grande pues habrá una mayoría de puntos en las regiones () y (4) i la relación entre las variables no es de tipo lineal (puntos distribuidos por las cuatro regiones) la covarianza puede tomar valores positivos, negativos o cero

13 Vemos algunos ejemplos Gráfico 6 Gráfico 7 Gráfico 8 Gráfico 9 Gráfico 0 Gráfico El gráfico 0 es el diagrama de dispersión de la distribución del ejemplo,, y anteriormente razonamos que las dos variables son independientes El gráfico nos permite decir que la satisfacción en el trabajo depende funcionalmente de la antigüedad en años 3

14 Podemos plantearnos la siguiente pregunta: i las variables estadísticas son independientes podemos afirmar siempre que la covarianza es cero? Vamos a demostrar que la respuesta a esta pregunta es I ni j n n j i las variables son independientes, entonces = i i, j N N N i sustituimos en la definición de la covarianza, obtenemos X k p = fij i= j= k n = i i i= N nij n n j ( x x) ( y y) = ( x x) ( y y) = i ( x x) ( y y) i p n j j j= N j k p i= j= N i= j= N ( x x) ( y y) = 0 si aplicamos la propiedad ) de la media i j k p N i j = in embargo dos variables estadísticas pueden tener covarianza cero y no ser independientes, como ocurre en el caso de las variables Antigüedad (años) y atisfacción con el trabajo, cuyo diagrama de dispersión (Gráfico ) nos permite decir que no son variables independientes De la definición de la covarianza se deduce que depende de las unidades de medida de las dos variables, por lo tanto no es fácil deducir de su valor la intensidad de la relación lineal entre las variables Por eso se define el coeficiente de correlación lineal, que se nota, r como r = X X siendo X la desviación típica de la distribución marginal de X y marginal de la desviación típica de la distribución De la definición se deduce que el coeficiente de correlación lineal no tiene unidades y que la covarianza y el coeficiente de correlación lineal tienen el mismo signo e puede demostrar que: El coeficiente de correlación lineal toma valores entre - y i existe una dependencia funcional lineal entre las variables (todos los puntos del diagrama de dispersión están alineados), el coeficiente de correlación lineal será igual a en valor absoluto (si la relación es directa su valor es y si la relación es inversa su valor es -) 3 i existe una relación de tipo lineal intensa entre las variables, el coeficiente de correlación lineal tomará valores próximos a (relación directa), ó a - (relación inversa) 4 i las variables son independientes el coeficiente de correlación lineal es cero Es importante notar que, como la covarianza, el coeficiente de correlación lineal mide relaciones de tipo lineal y que puede ser cero o tomar valores próximos a cero en distribuciones con una dependencia estadística intensa pero de tipo no lineal 4

15 En la tabla adjunta figuran el valor de la covarianza y del coeficiente de correlación lineal correspondientes a los diagramas de dispersión analizados anteriormente Gráfico Gráfico Gráfico 3 Gráfico 4 X =33,46 X =33, 46 X =33, 46 X =33, 46 r = r =0, 95 r =0, 7 r =0, 8 Gráfico 6 Gráfico 7 Gráfico 8 Gráfico 9 X =0,65 X =, 37 X = 58, 87 X = 8, 78 r =0,78 r =0, 05 r = 0, 95 r = 0, 4 i nos fijamos en los valores de los gráficos,, 3 y 4 se puede observar que mientras que la covarianza es la misma, los distintos valores del coeficiente de correlación sí están de acuerdo con el análisis efectuado en el ejemplo 4 También se puede observar el valor negativo de la covarianza y del coeficiente de correlación lineal en el gráfico 8 que presenta un diagrama de dispersión con una relación inversa de tipo lineal En el caso de los gráficos 7 y 9 el coeficiente de correlación está próximo a cero pero podemos observar la existencia de una dependencia de tipo no lineal entre las variables 3 Regresión lineal Dijimos anteriormente que: La regresión consiste en determinar una función que exprese de forma más o menos aproximada la estructura que presenta la dependencia estadística de sobre X (cómo se comporta para cada valor de X ) ó la dependencia estadística de X sobre (cómo se comporta X para cada valor de ) Esta función nos permitirá predecir el valor que toma una de las variables cuando se conoce el valor que toma la otra variable en un individuo de la población Vamos a estudiar el caso en el que el diagrama de dispersión nos indique la existencia de una relación de tipo lineal entre las variables La función que tenemos que determinar será lineal pero tenemos que especificar qué tipo de dependencia representa, si la de sobre X, o la de X sobre Estudiamos en primer lugar la regresión lineal de sobre X upongamos que hemos observado en cada uno de los N individuos de una población dos variables estadísticas X e y que su diagrama de dispersión corresponde al gráfico Analizando este gráfico podemos aceptar una relación de tipo lineal entre las variables Nuestro objetivo es determinar, de entre todas las funciones lineales, la que describa mejor el comportamiento de la variable para cada valor de la variable X 5

16 ŷ i y j eij = y j yˆ i y = a + bx x i X Gráfico i fijamos una función lineal nueva variable Ŷ, que toma valores Entonces a cada punto ( ) i y j y = a + bx( a y b son números reales), en realidad estamos definiendo una y ˆ i = a + bxi y cuya frecuencia es la frecuencia marginal de x i e ij = y j yˆ i = y j a + bxi, que es la diferencia entre x, se asocia un error ( ) el valor observado de y el calculado mediante la función lineal para x i Asociada a cada función lineal, se define la distancia de esta función a la nube de puntos, φ ( a,b), como la media de los errores al cuadrado k p k p k p ˆ φ a, b = fijeij = fij y j y = fij y j a + bxi i= j= i= j= i= j= ( ) ( ) [ ( )] La función lineal que mejor describe la nube de puntos será la que consiga que φ ( a,b) tome el menor valor posible, se le suele llamar recta de regresión o recta de mínimos cuadrados de sobre X y es la que describe la dependencia estadística de sobre X φ a,b es una función real de dos variables reales no negativa, los valores de a y b en los que esta Como ( ) función toma el valor mínimo deben cumplir la condición de que las derivadas parciales sean igual a cero i se calculan las derivadas parciales y se igualan a cero se obtiene un sistema de dos ecuaciones lineales, que se llaman ecuaciones normales, y que responde a la siguiente expresión y = a + bx k p k fij xi y j = ax + b fi xi i= j= i= La solución de este sistema es: X b = a = y X x X X y la ecuación de la recta de sobre X es: y y = X X ( x x) También se puede expresar como y y r = ( x x), ya que r = X X X 6

17 De la ecuación de la recta podemos deducir que: El signo de la pendiente es el de la covarianza y el del coeficiente de correlación lineal, por lo tanto si la covarianza es positiva o el coeficiente de correlación lineal es positivo, la recta tiene pendiente positiva (relación lineal directa) y si la covarianza es negativa o el coeficiente de correlación lineal es negativo, la recta tiene pendiente negativa (relación lineal inversa) i la covarianza es cero o el coeficiente de correlación lineal es cero la ecuación de la recta es y = y 3 La recta pasa por el punto ( x, y) La recta de regresión de sobre X, introduce dos nuevas variables Ŷ y E Las principales características figuran en la siguiente tabla Variable Valores Media Varianza Ŷ E Los que se obtienen sustituyendo en la recta de regresión los distintos valores de X Los errores e ij asociados a la recta de regresión y 0 E = i ˆ = r j fijeij = ( r ) E es la distancia de la recta de regresión a la nube de puntos y se le llama varianza residual porque es la varianza de la variable E Además, se puede demostrar que = ˆ + E La varianza residual se puede utilizar para medir la bondad del ajuste de la recta de regresión a los datos porque, i toma el valor cero, todos los errores son cero y eso significa que todos los puntos de la nube son puntos de la recta (máxima bondad del ajuste y máxima intensidad de la dependencia de sobre X ) Al aumentar el valor de la varianza residual, aumenta la distancia de la recta de regresión a la nube de puntos y eso significa que disminuye la bondad del ajuste y la intensidad de la dependencia de sobre X Para medir la bondad del ajuste de la recta de regresión o la intensidad de la dependencia lineal de sobre X, se utiliza el coeficiente de determinación, que se nota R, en vez de la varianza residual y que se define como R = ˆ = E = r El coeficiente de determinación no tiene unidades y toma valores entre cero y uno e puede interpretar como la proporción de la varianza de que se explica por la variable X mediante la recta de regresión de sobre X También se puede decir que es la proporción de la variabilidad de que se explica por la variable X mediante la recta de regresión de sobre X 7

18 Además i R = r = E = 0 eij = 0 i, j Todos los puntos de la nube son puntos de la recta de regresión de sobre X es función lineal de X (máxima bondad del ajuste y máxima intensidad de la relación lineal) i R = r = 0 La recta de regresión de sobre X es y = y No existe relación lineal de respecto de X (mínima bondad del ajuste) i el valor de R es un número próximo a la intensidad de la relación lineal de sobre X es grande y los puntos del diagrama de dispersión se encuentran situados a poca distancia de la recta de regresión Estudiamos ahora la regresión lineal de X sobre Nuestro objetivo ahora es determinar, de entre todas las funciones lineales, la que describa mejor el comportamiento de la variable X para cada valor de la variable La función que tenemos que determinar es del tipo x = a + b y, siendo a y b números reales Utilizando un razonamiento similar al efectuado para determinar la recta de regresión de sobre X, obtenemos que b = X a = x X y y la ecuación de la recta de regresión de X sobre es x x = X ( y y) quesepuedeexpresar x x = r X ( y y) De la ecuación de la recta podemos deducir que: El signo de la pendiente es el de la covarianza y el del coeficiente de correlación lineal, por lo tanto si la covarianza es positiva o el coeficiente de correlación lineal es positivo, la recta tiene pendiente positiva (relación lineal directa) y si la covarianza es negativa o el coeficiente de correlación lineal es negativo, la recta tiene pendiente negativa (relación lineal inversa) i la covarianza es cero o el coeficiente de correlación lineal es cero la ecuación de la recta es x = x x, y 3 La recta pasa por el punto ( ) También podemos definir, utilizando un razonamiento análogo al efectuado para la recta de regresión de sobre X, el coeficiente de determinación que mide la bondad del ajuste y por lo tanto la intensidad de la dependencia lineal de X sobre e demuestra que su valor es el mismo que el del coeficiente de determinación de la recta de regresión de sobre X, es decir R = r e puede interpretar como la proporción de la varianza de X que se explica por la variable mediante la recta de regresión de X sobre 8

19 Además i R = r = Todos los puntos de la nube son puntos de la recta de regresión de X sobre X es función lineal de (máxima bondad del ajuste y máxima intensidad de la relación lineal) i R = r = 0 La recta de regresión de X sobre es x = x No existe relación lineal de X respecto de (mínima bondad del ajuste) i el valor de R es un número próximo a la intensidad de la relación lineal de X sobre es grande y los puntos del diagrama de dispersión se encuentran situados a poca distancia de la recta de regresión de X sobre i determinamos las dos rectas de regresión y el coeficiente de determinación de la distribución correspondiente al gráfico 6, obtenemos: Gráfico 3 Gráfico 4 i determinamos las dos rectas de regresión y el coeficiente de determinación de la distribución correspondiente al gráfico 8, obtenemos: Gráfico 5 Gráfico 6 9

20 También se pueden representar las dos rectas sobre el mismo diagrama de dispersión Las tres situaciones posibles son: y r >0 y r <0 x X x X r =0 y x X i recordamos las ecuaciones de las dos rectas de regresión Recta de sobre X : y y = r ( x x) X r X Recta de X sobre : x x = r X ( y y) que se puede expresar y y = ( x x) Podemos razonar que: i res positivo, las dos rectas tienen pendiente positiva y se cortan en el punto ( y) i r = + las dos rectas coinciden x, i res negativo, las dos rectas tienen pendiente negativa y se cortan en el punto ( y) i r = las dos rectas coinciden i = 0 r las dos rectas son perpendiculares y se cortan en el punto ( y) x, x, El objetivo último de la regresión es la predicción o pronóstico del valor que toma una de las variables si se conoce el valor que toma la otra variable En el caso de regresión lineal, la predicción de si X = x0, se obtiene mediante la recta de regresión de sobre X, y su valor es yˆ y + X 0 = 0 X ( x x) 0

21 la predicción de X si = y 0, se obtiene mediante la recta de regresión de X sobre, y su valor es xˆ x X 0 = + ( y y) 0 La fiabilidad de la predicción será tanto mayor cuanto más próximo a sea el valor del coeficiente de determinación ya que, como dijimos, representa la proporción de la variabilidad de la variable ( X ) que queda explicada por la variable X ( ) mediante la recta de regresión de sobre X (de X sobre ) Además el valor para el que se efectúa la predicción debe estar incluido en el rango de los valores observados de la variable, ya que fuera de este rango no podemos asegurar que la función lineal ajustada siga representando la dependencia entre las variables Ejercicio 4: Una empresa quiere estudiar la influencia de las campañas publicitarias en sus cifras de ventas Para ello dispone del gasto destinado a publicidad y sus ventas, ambos en 0 4 euros, en los últimos 7 años Gasto publicidad ( X ),5,8,9 3, 3,5 3,6 3,4 Ventas ( ) Determinar si se puede utilizar un modelo lineal para predecir las ventas a partir del gasto en publicidad y, en caso afirmativo, determinar las ventas previstas para este año si se piensa invertir euros en publicidad olución Tenemos que estudiar si podemos aceptar que la relación de sobre X es lineal Para ello analizamos en primer lugar la nube de puntos Vemos que una recta puede describir aceptablemente los puntos observados Calculamos ahora el coeficiente de determinación pues es el que mide la bondad del ajuste Como R = r = X tenemos que determinar la covarianza y las varianzas de las dos variables X

22 Para calcular la covarianza utilizamos la expresión X k p nij i= j= N = xi y j x y que en este caso se traduce en X 7 = xi yi x y = xi yi x y 7 i= 7 i= 7 Los cálculos que necesitamos para determinar la covarianza y las varianzas figuran en la siguiente tabla 53,, ,5 7 X = xi yi x y = = = 6,05 7 i= ,88,8 6, X = = = 0,4 ; = = = 79, R = r = X = 0,96 X El valor obtenido para X X X R significa que el 9,6% de la varianza de se explica por la variable X mediante la recta de regresión de sobre X y por lo tanto podemos aceptar el modelo lineal para efectuar la predicción Para determinar la ecuación de la recta necesitamos el valor de las medias de ambas variables,8 634 x = = 3,43 ; y = = 33, ,05 La ecuación de la recta de sobre X es: y 33,486 = ( x 3,43) 0,4 Como el valor 3 está incluido en el rango de valores observados de X, podemos realizar la predicción del valor de Por tanto, si x = 3 ˆ 6,05 0,4 = publicidad euros se estima obtener unas ventas de 85303,8 euros, , ,8 68,8 7, , , , ,9 9,6 57 3, , , , , ,4, , , 68, entonces y = 33,486 + ( 3 3,43 ) 8, Es decir, si invierte en

23 4 Regresión no lineal En muchas ocasiones la nube de puntos no nos permite pensar que entre las variables X e exista una relación de tipo lineal, como son los casos de los gráficos 7 y 9 En ellos podemos observar que una parábola sería un modelo mejor para expresar la relación o dependencia estadística de sobre X e puede seguir un razonamiento análogo al efectuado para obtener la recta de regresión de sobre X, sustituyendo la función y = a + bx por y = a + bx + cx ( a, by c son números reales) Una vez obtenida la ecuación de la parábola de sobre X, se define el coeficiente de determinación, R, que, al igual que en el caso lineal, toma valores entre cero y uno y representa la proporción de la varianza de que explica la variable X mediante la parábola de regresión de sobre X También se puede utilizar esta parábola para efectuar la predicción del valor que toma si X = x0 de modo análogo al caso lineal La fiabilidad de la predicción será tanto mayor cuanto más próximo a sea el valor del coeficiente de determinación Además el valor para el que se efectúa la predicción debe estar incluido en el rango de los valores observados de la variable X, ya que fuera de este rango no podemos asegurar que la parábola ajustada siga representando la dependencia de sobre X En el gráfico 7 aparece la parábola ajustada a la distribución del gráfico 7 cuya covarianza es positiva En el gráfico 8 aparece la parábola ajustada a la distribución del gráfico 9 cuya covarianza es negativa Gráfico 7 Gráfico 8 También se pueden considerar otras funciones para expresar la dependencia estadística de sobre X, como por ejemplo: 3

24 Hipérbola equilátera, cuya expresión es y = a + b ( a y bson números reales) x b Función potencial, cuya expresión es y = a x ( a y bson números reales) x Función exponencial, cuya expresión es y = a b ( a y bson números reales) Ejercicio 5: i consideramos los datos del ejercicio 4 y la información que proporciona el gráfico 9 deberíamos considerar una parábola en vez de una función lineal para describir la dependencia de sobre X? Gráfico 9 4