Variables estadísticas bidimensionales

Documentos relacionados
Variables estadísticas bidimensionales: problemas resueltos

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

Teoría de la decisión

Regresión y Correlación

CORRELACIÓN Y REGRESIÓN. Raúl David Katz

Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION.

Relación entre la altura y la distancia del suelo al ombligo

Matemáticas. Selectividad ESTADISTICA COU

Tema 2. Descripción Conjunta de Varias Variables

ESTADÍSTICA. Individuo. Es cada uno de los elementos que forman la población o muestra.

Calculamos la covarianza. (La covarianza indica el sentido de la correlación entre las variables):

Técnicas de Investigación Social

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

Estadística aplicada a la comunicación

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

Tema 2: Estadística Descriptiva Bivariante.

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

Tema 3. Relación entre dos variables cuantitativas

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

Diplomatura en Ciencias Empresariales X Y

Jesús Eduardo Pulido Guatire, marzo Diagrama de Dispersión y Correlación Lineal Simple

Funciones de varias variables: problemas resueltos

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Repaso Estadística Descriptiva

ADMINISTRACION DE OPERACIONES

UNIDAD 6. Estadística

Tema Contenido Contenidos Mínimos

Tema 1.- Correlación Lineal

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

4.1 Análisis bivariado de asociaciones

PROGRAMA DE REFUERZO 3º Evaluación

Variable Estadística Bidimensional

Funciones de varias variables: problemas propuestos

Fundamentos de Estadística descriptiva

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

Estadís5ca. María Dolores Frías Domínguez Jesús Fernández Fernández Carmen María Sordo. Tema 2. Modelos de regresión

FUNCIONES y = f(x) ESO3

Estadística Inferencial. Estadística Descriptiva

2º ESO UNIDAD 14 ESTADÍSTICA Y PROBABILIDAD

2.- Tablas de frecuencias

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

Medidas de dispersión

MATEMÁTICAS APLICADAS A LAS C.C. SOCIALES

Estadísticas Elemental Tema 3: Describir la relación entre dos variables: Correlación y regresión 3.1-1

Tema 8. Análisis de dos variables Ejercicios resueltos 1

Un estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.

DISTRIBUCIONES BIDIMENSIONALES

TEMA 3: DISTRIBUCIONES BIDIMENSIONALES. CORRELACIÓN Y REGRESIÓN.

La desviación típica y otras medidas de dispersión

4. Regresión Lineal Simple

INSTITUCION EDUCATIVA LA PRESENTACION NOMBRE ALUMNA:

EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I.

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA

Teoría de errores. Departamento de Análisis Matemático Universidad de La Laguna

Derivadas e integrales

UN PROBLEMA DE OPTIMIZACIÓN CON CABRI: LA REGRESIÓN LINEAL.

ESTADISTICA Y PROBABILIDAD ESTADÍSTICA

El ejemplo: Una encuesta de opinión

SESIÓN 14 DERIVADAS SUCESIVAS DE UNA FUNCION, DE MÁXIMOS Y MÍNIMOS Y LA CONCAVIDAD DE UNA CURVA APLICANDO EL CRITERIO DE LA SEGUNDA DERIVADA

Capítulo 8. Análisis Discriminante

Estadística descriptiva: problemas resueltos

Una población es el conjunto de todos los elementos a los que se somete a un estudio estadístico.

UNIDAD 3. La derivada. Objetivos. Al terminar la unidad, el alumno:

Estadística descriptiva

TEMA 8. GEOMETRÍA ANALÍTICA.

Ecuaciones diferenciales ordinarias de primer orden: problemas resueltos

Análisis de datos en los estudios epidemiológicos III Correlación y regresión

REGRESIÓN LINEAL SIMPLE, COEFICIENTE DE DETERMINACIÓN Y CORRELACIONES (EJERCICIOS RESUELTOS)

Conceptos básicos de la estadística

Apuntes y ejercicios de Estadística para 2º E.S.O

GRUPO A GRUPO B Total = 225 Total = 250. Medidas de tendencia central.

1 ÁLGEBRA DE MATRICES

Medidas de centralización

Un segundo ohmímetro mide la misma resistencia y obtiene los siguientes resultados: R B1 = ( 98 ± 7 ) Ω R B2 = ( 100 ± 7 ) Ω R B3 = ( 103 ± 7 ) Ω

Estadística. Análisis de datos.

1 SISTEMAS DE ECUACIONES LINEALES. MÉTODO DE GAUSS

Medidas de tendencia central y dispersión

En la notación C(3) se indica el valor de la cuenta para 3 kilowatts-hora: C(3) = 60 (3) = 1.253

SESIÓN N 07 III UNIDAD RELACIONES Y FUNCIONES

Tema 11: Integral definida. Aplicaciones al cálculo de áreas

SOLUCIÓN A LOS EJERCICIOS DEL SPSS Bivariante

Método de cuadrados mínimos

Una ecuación puede tener ninguna, una o varias soluciones. Por ejemplo: 5x 9 = 1 es una ecuación con una incógnita con una solución, x = 2

Medidas descriptivas I. Medidas de tendencia central A. La moda

(Se corresponde con el tema 14 del libro de Oxford de 4ºESO Opc. B)

Regresión Lineal. Dra. Noemí L. Ruiz Limardo 2008 Derechos Reservados, Rev 2010

ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES ESTADÍSTICA ESPACIAL

CORPORACION UNIFICADA NACIONAL DE EDUCACION SUPERIOR CUN DEPARTAMENTO DE CIENCIAS BASICAS: MATEMATICAS

5. Regresión Lineal Múltiple

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

DETERMINACIÓN DE LA CONSTANTE UNIVERSAL DE LOS GASES

ESTADÍSTICA SEMANA 3

PRUEBA DE ACCESO (LOGSE) UNIVERSIDAD DE VALENCIA JUNIO (RESUELTOS por Antonio Menguiano)

ECUACIÓN DE LA RECTA

II. ORGANIZACIÓN N Y PRESENTACIÓN N DE DATOS

CORRELACIÓN Y REGRESIÓN. Juan José Hernández Ocaña

EJERCICIOS RESUELTOS TEMA 1.

ESTADÍSTICA CON EXCEL

Tema 6. Variables aleatorias continuas

Transcripción:

Variables estadísticas bidimensionales BEITO J GOZÁLEZ RODRÍGUEZ (bjglez@ulles) DOMIGO HERÁDEZ ABREU (dhabreu@ulles) MATEO M JIMÉEZ PAIZ (mjimenez@ulles) M ISABEL MARRERO RODRÍGUEZ (imarrero@ulles) ALEJADRO SAABRIA GARCÍA (asgarcia@ulles) Departamento de Análisis Matemático Universidad de La Laguna Índice 1 Introducción 1 2 Ordenación de los datos 1 3 Medidas de centralización y dispersión marginales 4 4 Representación gráfica 5 5 Regresión y correlación 5 51 Regresión 5 52 Correlación 7 MATEMÁTICA APLICADA Y ESTADÍSTICA OCW-ULL 2013

VARIABLES ESTADÍSTICAS BIDIMESIOALES 1/8 1 Introducción En el análisis estadístico es conveniente a veces contrastar los datos procedentes de dos caracteres estudiados sobre un mismo individuo En este sentido se plantea la consideración de variables estadísticas bidimensionales, así como la detección de posibles relaciones entre los dos caracteres investigados Definición 11 Una variable estadística bidimensional es el conjunto (X,Y ) de valores que pueden tomar dos caracteres diferentes X e Y medidos sobre cada uno de los individuos de una población o muestra Los caracteres X e Y se denominan caracteres o variables marginales y pueden ser ambos cuantitativos, ambos cualitativos o uno de cada tipo; a su vez, los caracteres cuantitativos puede ser variables estadísticas tanto discretas como continuas Ejemplo 12 La siguiente tabla muestra algunos ejemplos de variables bidimensionales: (X,Y ) X Y (sexo, color del pelo) cualitativo cualitativo (profesión, antigüedad en la empresa) cualitativo cuantitativo (peso, estatura) cuantitativo (ve continua) cuantitativo (ve continua) (número de hermanos, número de hijos) cuantitativo (ve discreta) cuantitativo (ve discreta) (temperatura, pulsaciones) cuantitativo (ve continua) cuantitativo (ve discreta) 2 Ordenación de los datos Centraremos nuestra atención en el estudio de variables bidimensionales cuyos caracteres marginales X e Y son ambos cuantitativos Cada uno de los valores correspondientes a la variable bidimensional (X,Y ) se representa mediante un par ordenado (x i,y j ), donde x i es el valor que mide el primer carácter e y j es el valor que mide el segundo carácter En consecuencia, las variables marginales X e Y toman los valores {x 1,x 2,,x m }, {y 1,y 2,,y r } para ciertos m, r, respectivamente, y la variable bidimensional (X,Y ) tomará los valores {(x i,y j )} 1 i m,1 j r Definición 21 El número de elementos que tienen el valor x i para el primer carácter y el valor y j para el segundo se denomina frecuencia absoluta del par (x i,y j ), y se denota n i j ; es decir, n i j es el número de veces MATEMÁTICA APLICADA Y ESTADÍSTICA OCW-ULL 2013

2/8 B GOZÁLEZ, D HERÁDEZ, M JIMÉEZ, I MARRERO, A SAABRIA que aparece repetido el par (x i,y j ) en las observaciones La frecuencia relativa del par (x i,y j ) es f i j = n i j, donde denota el número total de pares observados Adviértase que: m i=1 r j=1 n i j = m i=1 r j=1 f i j = 1 Definición 22 Se define la frecuencia (absoluta) marginal del valor x i como la suma de las frecuencias correspondientes a los pares (x i,y j ), para 1 j r: n xi = r j=1 Análogamente se define la frecuencia (absoluta) marginal del valor y j : n i j n y j = m i=1 n i j ótese que n xi (respectivamente, n y j ) representa el número de veces que aparece el valor x i (respectivamente, y j ) en el total de pares obtenidos Se verifica: m i=1 n x i = m i=1 r j=1 n i j = r j=1 n y j = r j=1 m i=1 n i j = A partir de las frecuencias absolutas marginales se obtienen las frecuencias relativas marginales Definición 23 Las frecuencias relativas marginales son los cocientes f xi = n x i, f y j = n y j Para ellas, se cumple: m i=1 f x i = 1 m i=1 n x i = 1 OCW-ULL 2013 MATEMÁTICA APLICADA Y ESTADÍSTICA

VARIABLES ESTADÍSTICAS BIDIMESIOALES 3/8 r j=1 f y j = 1 r j=1 n y j = 1 Todos estos datos se disponen en una tabla de doble entrada, como se indica a continuación: X Y y 1 y 2 y j y r n xi f xi x 1 n 11 n 12 n 1 j n 1r n x1 f x1 x 2 n 21 n 22 n 2 j n 2r n x2 f x2 x i n i1 n i2 n i j n ir n xi f xi x m n m1 n m2 n m j n mr n xm f xm n y j n y1 n y2 n y j n yr f y j f y1 f y2 f y j f yr 1 En el caso de que alguna de las variables marginales esté agrupada en intervalos de clase, serán éstos los que figuren en la cabecera de la fila o columna correspondiente; el recuento de frecuencias se hará por clases, y se incorporarán a la tabla las marcas de clase Ejemplo 24 Se ha elegido al azar en un colegio a 30 niños a los que se les ha tomado la edad en años y el peso en kilogramos, resultando la siguiente tabla: peso edad x i 9 10 11 12 n xi f xi [20, 25) 225 1 1 1/30 = 003 [25, 30) 275 2 1 1 4 4/30 = 013 [30, 35) 325 1 3 4 2 10 10/30 = 030 [35, 40) 375 2 3 5 10 10/30 = 030 [40, 45) 425 1 4 5 5/30 = 017 n y j 4 6 9 11 30 f y j 4/30 = 013 6/30 = 020 9/30 = 030 11/30 = 037 1 MATEMÁTICA APLICADA Y ESTADÍSTICA OCW-ULL 2013

4/8 B GOZÁLEZ, D HERÁDEZ, M JIMÉEZ, I MARRERO, A SAABRIA Observación 25 A veces tenemos una tabla de la forma x i x 1 x 2 x n y i y 1 y 2 y n con x 1 < x 2 < < x i < < x n, y 1 < y 2 < < y j < < y n En tal caso la ordenación de los datos en una tabla de doble entrada no es significativa, ya que en el cuerpo central de la tabla resulta una matriz diagonal unitaria indicativa de que tanto las frecuencias absolutas de cada par (x i,y i ) como las marginales de x i e y i (1 i n) valen 1 3 Medidas de centralización y dispersión marginales Definición 31 Se llaman medidas de centralización y dispersión marginales las correspondientes a las variables marginales X e Y : x = m i=1 x in xi, y = r j=1 y jn y j ; σ 2 x = m i=1 (x i x) 2 n xi = m i=1 x2 i n x i x 2, σy 2 = r j=1 (y j y) 2 n y j = r j=1 y2 j n y j y 2 ; m i=1 σ x = (x i x) 2 n xi m i=1 = x2 i n x i x 2, r j=1 σ y = (y j y) 2 n y j r j=1 = y2 j n y j y 2 Se toman como x i (respectivamente, y j ) valores de la variable o marcas de clase, según proceda Ejemplo 32 Obtener las medidas de centralización y dispersión marginales para los datos del Ejemplo 24 RESOLUCIÓ Son las siguientes: x = (225 1) + (275 4) + (325 10) + (375 10) + (425 5) 30 34833, OCW-ULL 2013 MATEMÁTICA APLICADA Y ESTADÍSTICA

VARIABLES ESTADÍSTICAS BIDIMESIOALES 5/8 y = (9 4) + (10 6) + (11 9) + (12 11) 30 = 10900, σ 2 x = (2252 1) + (275 2 4) + (325 2 10) + (375 2 10) + (425 2 5) 30 26245, 34833 2 σ x 5123, σ 2 y = (92 4) + (10 2 6) + (11 2 9) + (12 2 11) 30 = 1090, 10900 2 σ y 1044 4 Representación gráfica Tienen especial interés los denominados diagramas de dispersión o nubes de puntos Si las variables marginales no están agrupadas en intervalos, se representa cada par (x i,y j ) en un diagrama cartesiano Si sólo una de ellas está agrupada se trabaja con sus marcas de clase, representando los pares resultantes mediante puntos del plano, como en el caso anterior Si ambas variables marginales están agrupadas dividimos el plano en casillas, dibujando dentro de cada una un número de puntos igual a la frecuencia absoluta correspondiente a sendos intervalos en la X y en la Y En un diagrama de dispersión no quedan reflejadas las veces que se repite un par o un intervalo; hemos de recurrir a un diagrama de barras en tres dimensiones, de las cuales dos son para la variable bidimensional y la tercera (altura) para las frecuencias Precisamente denominamos diagramas de frecuencias a las gráficas de este tipo En los diagramas de frecuencias en donde las dos variables están agrupadas en intervalos, la frecuencia es el volumen del paralelepípedo correspondiente En la sección de ejercicios resueltos pueden verse algunos ejemplos de diagramas de dispersión 5 Regresión y correlación 51 Regresión Al observar dos caracteres en un mismo individuo se plantea naturalmente la cuestión de determinar la existencia de algún tipo de dependencia entre ellos, y si es posible hallar una expresión matemática que las MATEMÁTICA APLICADA Y ESTADÍSTICA OCW-ULL 2013

6/8 B GOZÁLEZ, D HERÁDEZ, M JIMÉEZ, I MARRERO, A SAABRIA relacione El problema de la regresión consiste precisamente en intentar ajustar al diagrama de dispersión una curva de ecuación conocida (recta, exponencial, parábola, hipérbola, etc), sugerida por el propio diagrama, con el fin de poder efectuar una predicción del valor de una de las variables a partir de la otra Cuando la función que mejor se ajusta a la nube de puntos es una recta nos hallamos ante un problema de regresión lineal Definición 51 La recta de regresión de Y sobre X proporciona los valores aproximados de Y conocidos los de X, y tiene por ecuación r yx : y y = σ xy σx 2 (x x); La recta de regresión de X sobre Y proporciona los valores aproximados de X conocidos los de Y, y tiene por ecuación r xy : x x = σ xy σy 2 (y y) Aquí, σ xy = m i=1 r j=1 (x i x)(y j y)n i j = m i=1 r j=1 x iy j n i j x y es la covarianza de X e Y, mientras que x, y son las medias marginales y σ 2 x, σ 2 y las varianzas marginales de X e Y, respectivamente ótese que ambas rectas de regresión se cruzan en el punto (x,y), llamado centro de gravedad de la distribución Las pendientes de dichas rectas, β yx = σ xy σx 2, β xy = σ xy σy 2 son los coeficientes de regresión lineal de Y sobre X y de X sobre Y, respectivamente Observación 52 Hay que tener muy presente que: i) o toda nube de puntos se ajusta apropiadamente a un modelo de regresión lineal Los modelos lineales suponen una explicación simplificada y ágil de la realidad, y cuentan con un vasto respaldo teórico desde las matemáticas y la estadística; pero existe todo un abanico de técnicas de regresión (cuyo estudio excede el alcance de este curso), que emplean modelos basados en cualquier clase de función matemática, y que pueden ser más adecuados para el análisis del problema particular considerado ii) Un conjunto de datos proporciona una prueba de linealidad solamente sobre aquellos valores de las variables marginales cubiertos por el conjunto de datos; para valores fuera de éstos, no hay evidencia de linealidad Es, por tanto, inadecuado utilizar una recta de regresión estimada para predecir los OCW-ULL 2013 MATEMÁTICA APLICADA Y ESTADÍSTICA

VARIABLES ESTADÍSTICAS BIDIMESIOALES 7/8 valores de una de las variables marginales correspondientes a valores de la otra variable que están fuera del rango cubierto por los datos Ejemplo 53 Hallar las rectas de regresión correspondientes a las variables del Ejemplo 24 RESOLUCIÓ os apoyaremos en los resultados del Ejemplo 32 En primer lugar, obtenemos la covarianza y los coeficientes de regresión lineal: σ xy = 1 {225 (9 1) 30 + 275 [(9 2) + (10 1) + (11 1)] + 325 [(9 1) + (10 3) + (11 4) + (12 2)] + 375 [(10 2) + (11 3) + (12 5)] +425 [(11 1) + (12 4)]} (34833 10900) 3570, β yx = σ xy σ 2 x β xy = σ xy σ 2 y = 3570 26245 0136, = 3570 1090 3275 Por tanto, las rectas de regresión son: r yx : y = 10900 + 0136(x 34833), r xy : x = 34833 + 3275(y 10900) 52 Correlación La correlación estudia el tipo de dependencia que existe entre las variables marginales de una variable bidimensional (X,Y ), intentando cuantificarla mediante los llamados coeficientes de correlación Definición 54 El coeficiente de correlación lineal o de Pearson es la media geométrica de los coeficientes de regresión lineal: σxy ρ = β yx β xy = σx 2 σxy σy 2 = σ xy σ x σ y MATEMÁTICA APLICADA Y ESTADÍSTICA OCW-ULL 2013

8/8 B GOZÁLEZ, D HERÁDEZ, M JIMÉEZ, I MARRERO, A SAABRIA ótese que el signo de este coeficiente es el mismo que el de los coeficientes de regresión lineal, y se corresponde con el signo de la covarianza Se demuestra que ρ 1 El coeficiente de correlación lineal proporciona la siguiente información sobre las rectas de regresión y el grado de dependencia entre ambas variables i) Si ρ = 0, entonces σ xy = 0 Por tanto, las rectas de regresión son y = y y x = x, perpendiculares ente sí Las variables X e Y se dicen linealmente incorreladas, esto es, no están vinculadas por una dependencia lineal ii) Si ρ = 1, se comprueba sin dificultad que las dos rectas de regresión coinciden y tienen pendiente positiva, de modo que una de ellas crece si, y sólo si, crece la otra En este caso decimos que X e Y presentan una correlación positiva perfecta iii) Si ρ = 1, entonces ambas rectas coinciden y tienen pendiente negativa, de modo que una de las variables crece si, y sólo si, la otra decrece Se dice que X e Y presentan correlación negativa perfecta iv) Si 0 < ρ < 1, las variables están tanto más correladas cuanto más próximo sea ρ a 1 De forma orientativa, podemos adoptar la siguiente escala: 0 < ρ < 02: correlación mala 02 ρ < 05: correlación regular 05 ρ < 08: correlación buena 08 ρ < 1: correlación muy buena Ejemplo 55 Calcular y discutir el coeficiente de correlación lineal para las variables del Ejemplo 24 RESOLUCIÓ El coeficiente de correlación lineal es ρ = σ xy 3570 = σ x σ y 5123 1044 067, lo que indica una correlación positiva buena (05 < ρ 067 < 08) entre ambas variables OCW-ULL 2013 MATEMÁTICA APLICADA Y ESTADÍSTICA