Variables estadísticas bidimensionales BEITO J GOZÁLEZ RODRÍGUEZ (bjglez@ulles) DOMIGO HERÁDEZ ABREU (dhabreu@ulles) MATEO M JIMÉEZ PAIZ (mjimenez@ulles) M ISABEL MARRERO RODRÍGUEZ (imarrero@ulles) ALEJADRO SAABRIA GARCÍA (asgarcia@ulles) Departamento de Análisis Matemático Universidad de La Laguna Índice 1 Introducción 1 2 Ordenación de los datos 1 3 Medidas de centralización y dispersión marginales 4 4 Representación gráfica 5 5 Regresión y correlación 5 51 Regresión 5 52 Correlación 7 MATEMÁTICA APLICADA Y ESTADÍSTICA OCW-ULL 2013
VARIABLES ESTADÍSTICAS BIDIMESIOALES 1/8 1 Introducción En el análisis estadístico es conveniente a veces contrastar los datos procedentes de dos caracteres estudiados sobre un mismo individuo En este sentido se plantea la consideración de variables estadísticas bidimensionales, así como la detección de posibles relaciones entre los dos caracteres investigados Definición 11 Una variable estadística bidimensional es el conjunto (X,Y ) de valores que pueden tomar dos caracteres diferentes X e Y medidos sobre cada uno de los individuos de una población o muestra Los caracteres X e Y se denominan caracteres o variables marginales y pueden ser ambos cuantitativos, ambos cualitativos o uno de cada tipo; a su vez, los caracteres cuantitativos puede ser variables estadísticas tanto discretas como continuas Ejemplo 12 La siguiente tabla muestra algunos ejemplos de variables bidimensionales: (X,Y ) X Y (sexo, color del pelo) cualitativo cualitativo (profesión, antigüedad en la empresa) cualitativo cuantitativo (peso, estatura) cuantitativo (ve continua) cuantitativo (ve continua) (número de hermanos, número de hijos) cuantitativo (ve discreta) cuantitativo (ve discreta) (temperatura, pulsaciones) cuantitativo (ve continua) cuantitativo (ve discreta) 2 Ordenación de los datos Centraremos nuestra atención en el estudio de variables bidimensionales cuyos caracteres marginales X e Y son ambos cuantitativos Cada uno de los valores correspondientes a la variable bidimensional (X,Y ) se representa mediante un par ordenado (x i,y j ), donde x i es el valor que mide el primer carácter e y j es el valor que mide el segundo carácter En consecuencia, las variables marginales X e Y toman los valores {x 1,x 2,,x m }, {y 1,y 2,,y r } para ciertos m, r, respectivamente, y la variable bidimensional (X,Y ) tomará los valores {(x i,y j )} 1 i m,1 j r Definición 21 El número de elementos que tienen el valor x i para el primer carácter y el valor y j para el segundo se denomina frecuencia absoluta del par (x i,y j ), y se denota n i j ; es decir, n i j es el número de veces MATEMÁTICA APLICADA Y ESTADÍSTICA OCW-ULL 2013
2/8 B GOZÁLEZ, D HERÁDEZ, M JIMÉEZ, I MARRERO, A SAABRIA que aparece repetido el par (x i,y j ) en las observaciones La frecuencia relativa del par (x i,y j ) es f i j = n i j, donde denota el número total de pares observados Adviértase que: m i=1 r j=1 n i j = m i=1 r j=1 f i j = 1 Definición 22 Se define la frecuencia (absoluta) marginal del valor x i como la suma de las frecuencias correspondientes a los pares (x i,y j ), para 1 j r: n xi = r j=1 Análogamente se define la frecuencia (absoluta) marginal del valor y j : n i j n y j = m i=1 n i j ótese que n xi (respectivamente, n y j ) representa el número de veces que aparece el valor x i (respectivamente, y j ) en el total de pares obtenidos Se verifica: m i=1 n x i = m i=1 r j=1 n i j = r j=1 n y j = r j=1 m i=1 n i j = A partir de las frecuencias absolutas marginales se obtienen las frecuencias relativas marginales Definición 23 Las frecuencias relativas marginales son los cocientes f xi = n x i, f y j = n y j Para ellas, se cumple: m i=1 f x i = 1 m i=1 n x i = 1 OCW-ULL 2013 MATEMÁTICA APLICADA Y ESTADÍSTICA
VARIABLES ESTADÍSTICAS BIDIMESIOALES 3/8 r j=1 f y j = 1 r j=1 n y j = 1 Todos estos datos se disponen en una tabla de doble entrada, como se indica a continuación: X Y y 1 y 2 y j y r n xi f xi x 1 n 11 n 12 n 1 j n 1r n x1 f x1 x 2 n 21 n 22 n 2 j n 2r n x2 f x2 x i n i1 n i2 n i j n ir n xi f xi x m n m1 n m2 n m j n mr n xm f xm n y j n y1 n y2 n y j n yr f y j f y1 f y2 f y j f yr 1 En el caso de que alguna de las variables marginales esté agrupada en intervalos de clase, serán éstos los que figuren en la cabecera de la fila o columna correspondiente; el recuento de frecuencias se hará por clases, y se incorporarán a la tabla las marcas de clase Ejemplo 24 Se ha elegido al azar en un colegio a 30 niños a los que se les ha tomado la edad en años y el peso en kilogramos, resultando la siguiente tabla: peso edad x i 9 10 11 12 n xi f xi [20, 25) 225 1 1 1/30 = 003 [25, 30) 275 2 1 1 4 4/30 = 013 [30, 35) 325 1 3 4 2 10 10/30 = 030 [35, 40) 375 2 3 5 10 10/30 = 030 [40, 45) 425 1 4 5 5/30 = 017 n y j 4 6 9 11 30 f y j 4/30 = 013 6/30 = 020 9/30 = 030 11/30 = 037 1 MATEMÁTICA APLICADA Y ESTADÍSTICA OCW-ULL 2013
4/8 B GOZÁLEZ, D HERÁDEZ, M JIMÉEZ, I MARRERO, A SAABRIA Observación 25 A veces tenemos una tabla de la forma x i x 1 x 2 x n y i y 1 y 2 y n con x 1 < x 2 < < x i < < x n, y 1 < y 2 < < y j < < y n En tal caso la ordenación de los datos en una tabla de doble entrada no es significativa, ya que en el cuerpo central de la tabla resulta una matriz diagonal unitaria indicativa de que tanto las frecuencias absolutas de cada par (x i,y i ) como las marginales de x i e y i (1 i n) valen 1 3 Medidas de centralización y dispersión marginales Definición 31 Se llaman medidas de centralización y dispersión marginales las correspondientes a las variables marginales X e Y : x = m i=1 x in xi, y = r j=1 y jn y j ; σ 2 x = m i=1 (x i x) 2 n xi = m i=1 x2 i n x i x 2, σy 2 = r j=1 (y j y) 2 n y j = r j=1 y2 j n y j y 2 ; m i=1 σ x = (x i x) 2 n xi m i=1 = x2 i n x i x 2, r j=1 σ y = (y j y) 2 n y j r j=1 = y2 j n y j y 2 Se toman como x i (respectivamente, y j ) valores de la variable o marcas de clase, según proceda Ejemplo 32 Obtener las medidas de centralización y dispersión marginales para los datos del Ejemplo 24 RESOLUCIÓ Son las siguientes: x = (225 1) + (275 4) + (325 10) + (375 10) + (425 5) 30 34833, OCW-ULL 2013 MATEMÁTICA APLICADA Y ESTADÍSTICA
VARIABLES ESTADÍSTICAS BIDIMESIOALES 5/8 y = (9 4) + (10 6) + (11 9) + (12 11) 30 = 10900, σ 2 x = (2252 1) + (275 2 4) + (325 2 10) + (375 2 10) + (425 2 5) 30 26245, 34833 2 σ x 5123, σ 2 y = (92 4) + (10 2 6) + (11 2 9) + (12 2 11) 30 = 1090, 10900 2 σ y 1044 4 Representación gráfica Tienen especial interés los denominados diagramas de dispersión o nubes de puntos Si las variables marginales no están agrupadas en intervalos, se representa cada par (x i,y j ) en un diagrama cartesiano Si sólo una de ellas está agrupada se trabaja con sus marcas de clase, representando los pares resultantes mediante puntos del plano, como en el caso anterior Si ambas variables marginales están agrupadas dividimos el plano en casillas, dibujando dentro de cada una un número de puntos igual a la frecuencia absoluta correspondiente a sendos intervalos en la X y en la Y En un diagrama de dispersión no quedan reflejadas las veces que se repite un par o un intervalo; hemos de recurrir a un diagrama de barras en tres dimensiones, de las cuales dos son para la variable bidimensional y la tercera (altura) para las frecuencias Precisamente denominamos diagramas de frecuencias a las gráficas de este tipo En los diagramas de frecuencias en donde las dos variables están agrupadas en intervalos, la frecuencia es el volumen del paralelepípedo correspondiente En la sección de ejercicios resueltos pueden verse algunos ejemplos de diagramas de dispersión 5 Regresión y correlación 51 Regresión Al observar dos caracteres en un mismo individuo se plantea naturalmente la cuestión de determinar la existencia de algún tipo de dependencia entre ellos, y si es posible hallar una expresión matemática que las MATEMÁTICA APLICADA Y ESTADÍSTICA OCW-ULL 2013
6/8 B GOZÁLEZ, D HERÁDEZ, M JIMÉEZ, I MARRERO, A SAABRIA relacione El problema de la regresión consiste precisamente en intentar ajustar al diagrama de dispersión una curva de ecuación conocida (recta, exponencial, parábola, hipérbola, etc), sugerida por el propio diagrama, con el fin de poder efectuar una predicción del valor de una de las variables a partir de la otra Cuando la función que mejor se ajusta a la nube de puntos es una recta nos hallamos ante un problema de regresión lineal Definición 51 La recta de regresión de Y sobre X proporciona los valores aproximados de Y conocidos los de X, y tiene por ecuación r yx : y y = σ xy σx 2 (x x); La recta de regresión de X sobre Y proporciona los valores aproximados de X conocidos los de Y, y tiene por ecuación r xy : x x = σ xy σy 2 (y y) Aquí, σ xy = m i=1 r j=1 (x i x)(y j y)n i j = m i=1 r j=1 x iy j n i j x y es la covarianza de X e Y, mientras que x, y son las medias marginales y σ 2 x, σ 2 y las varianzas marginales de X e Y, respectivamente ótese que ambas rectas de regresión se cruzan en el punto (x,y), llamado centro de gravedad de la distribución Las pendientes de dichas rectas, β yx = σ xy σx 2, β xy = σ xy σy 2 son los coeficientes de regresión lineal de Y sobre X y de X sobre Y, respectivamente Observación 52 Hay que tener muy presente que: i) o toda nube de puntos se ajusta apropiadamente a un modelo de regresión lineal Los modelos lineales suponen una explicación simplificada y ágil de la realidad, y cuentan con un vasto respaldo teórico desde las matemáticas y la estadística; pero existe todo un abanico de técnicas de regresión (cuyo estudio excede el alcance de este curso), que emplean modelos basados en cualquier clase de función matemática, y que pueden ser más adecuados para el análisis del problema particular considerado ii) Un conjunto de datos proporciona una prueba de linealidad solamente sobre aquellos valores de las variables marginales cubiertos por el conjunto de datos; para valores fuera de éstos, no hay evidencia de linealidad Es, por tanto, inadecuado utilizar una recta de regresión estimada para predecir los OCW-ULL 2013 MATEMÁTICA APLICADA Y ESTADÍSTICA
VARIABLES ESTADÍSTICAS BIDIMESIOALES 7/8 valores de una de las variables marginales correspondientes a valores de la otra variable que están fuera del rango cubierto por los datos Ejemplo 53 Hallar las rectas de regresión correspondientes a las variables del Ejemplo 24 RESOLUCIÓ os apoyaremos en los resultados del Ejemplo 32 En primer lugar, obtenemos la covarianza y los coeficientes de regresión lineal: σ xy = 1 {225 (9 1) 30 + 275 [(9 2) + (10 1) + (11 1)] + 325 [(9 1) + (10 3) + (11 4) + (12 2)] + 375 [(10 2) + (11 3) + (12 5)] +425 [(11 1) + (12 4)]} (34833 10900) 3570, β yx = σ xy σ 2 x β xy = σ xy σ 2 y = 3570 26245 0136, = 3570 1090 3275 Por tanto, las rectas de regresión son: r yx : y = 10900 + 0136(x 34833), r xy : x = 34833 + 3275(y 10900) 52 Correlación La correlación estudia el tipo de dependencia que existe entre las variables marginales de una variable bidimensional (X,Y ), intentando cuantificarla mediante los llamados coeficientes de correlación Definición 54 El coeficiente de correlación lineal o de Pearson es la media geométrica de los coeficientes de regresión lineal: σxy ρ = β yx β xy = σx 2 σxy σy 2 = σ xy σ x σ y MATEMÁTICA APLICADA Y ESTADÍSTICA OCW-ULL 2013
8/8 B GOZÁLEZ, D HERÁDEZ, M JIMÉEZ, I MARRERO, A SAABRIA ótese que el signo de este coeficiente es el mismo que el de los coeficientes de regresión lineal, y se corresponde con el signo de la covarianza Se demuestra que ρ 1 El coeficiente de correlación lineal proporciona la siguiente información sobre las rectas de regresión y el grado de dependencia entre ambas variables i) Si ρ = 0, entonces σ xy = 0 Por tanto, las rectas de regresión son y = y y x = x, perpendiculares ente sí Las variables X e Y se dicen linealmente incorreladas, esto es, no están vinculadas por una dependencia lineal ii) Si ρ = 1, se comprueba sin dificultad que las dos rectas de regresión coinciden y tienen pendiente positiva, de modo que una de ellas crece si, y sólo si, crece la otra En este caso decimos que X e Y presentan una correlación positiva perfecta iii) Si ρ = 1, entonces ambas rectas coinciden y tienen pendiente negativa, de modo que una de las variables crece si, y sólo si, la otra decrece Se dice que X e Y presentan correlación negativa perfecta iv) Si 0 < ρ < 1, las variables están tanto más correladas cuanto más próximo sea ρ a 1 De forma orientativa, podemos adoptar la siguiente escala: 0 < ρ < 02: correlación mala 02 ρ < 05: correlación regular 05 ρ < 08: correlación buena 08 ρ < 1: correlación muy buena Ejemplo 55 Calcular y discutir el coeficiente de correlación lineal para las variables del Ejemplo 24 RESOLUCIÓ El coeficiente de correlación lineal es ρ = σ xy 3570 = σ x σ y 5123 1044 067, lo que indica una correlación positiva buena (05 < ρ 067 < 08) entre ambas variables OCW-ULL 2013 MATEMÁTICA APLICADA Y ESTADÍSTICA