Estadística de dos variables

Documentos relacionados
Teoría de la decisión

Tema Contenido Contenidos Mínimos

Tema 3. Relación entre dos variables cuantitativas

Regresión y Correlación

Diplomatura en Ciencias Empresariales X Y

EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I.

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

CORRELACIÓN Y REGRESIÓN. Raúl David Katz

Distribuciones bidimensionales. Regresión.

Tema 2. Descripción Conjunta de Varias Variables

Matemáticas. Selectividad ESTADISTICA COU

Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION.

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

Jesús Eduardo Pulido Guatire, marzo Diagrama de Dispersión y Correlación Lineal Simple

Variables estadísticas bidimensionales: problemas resueltos

Si se pueden obtener las imágenes de x por simple sustitución.

Tema 8. Análisis de dos variables Ejercicios resueltos 1

3. ANÁLISIS DE DATOS DE PRECIPITACIÓN.

Variables estadísticas bidimensionales

MATEMÁTICA - TERCERO - REVISIÓN INTEGRADORA. 1) Determinar k y h para que las rectas kx+2y-h=0, 4x+ky-2=0, se corten en un punto.

INSTITUCIÓN EDUCATIVA GABRIEL TRUJILLO CORREGIMIENTO DE CAIMALITO, PEREIRA

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

Funciones 1. D = Dom ( f ) = x R / f(x) R. Recuerda como determinabas los dominios de algunas funciones: x x

Derivadas e integrales

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

12 Funciones de proporcionalidad

Estadística aplicada a la comunicación

Números reales. Valor absoluto. Desigualdades. Distancias entre la recta real. Intervalos y entornos.

Tema 11: Integral definida. Aplicaciones al cálculo de áreas

MATEMÁTICAS APLICADAS A LAS C.C. SOCIALES

No es otra cosa, que la representación de los resultados de una función sobre el plano carteciano.

Límites y continuidad de funciones reales de variable real

Medidas de centralización

Tema 1.- Correlación Lineal

Estadística Inferencial. Estadística Descriptiva

CBC. Matemática (51) universoexacto.com 1

La representación gráfica de una función cuadrática es una parábola.

MATEMÁTICAS 2º DE ESO

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

DEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

Dos matrices son iguales cuando tienen la misma dimensión y los elementos que ocupan el mismo lugar en ambas son iguales

Ax + By + C = 0. Que también puede escribirse como. ax + by + c = 0 y que se conoce como: la ecuación general de la línea recta

Medidas de Tendencia Central

Algebra lineal y conjuntos convexos

INTERVALOS Y SEMIRRECTAS.

1. Los pesos (en Kgs.) de los niños recién nacidos en una clínica maternal durante el último año han sido:

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

Colegio Universitario Boston

La recta en el plano.

En la notación C(3) se indica el valor de la cuenta para 3 kilowatts-hora: C(3) = 60 (3) = 1.253

7.FUNCIÓN REAL DE VARIABLE REAL

18 Experimentos aleatorios. Sucesos y espacio muestral. Frecuencia y probabilidad de un suceso.

Pruebas de Acceso a las Universidades de Castilla y León

El análisis cartesiano (René Descartes ) descubrió que las ecuaciones pueden tener una representación gráfica.

Calculamos la covarianza. (La covarianza indica el sentido de la correlación entre las variables):

4. ANÁLISIS DE FUNCIONES DE UNA VARIABLE

La variable independiente x es aquella cuyo valor se fija previamente. La variable dependiente y es aquella cuyo valor se deduce a partir de x.

FUNCIONES y = f(x) ESO3

Unidad V. 5.1 Recta tangente y recta normal a una curva en un punto. Curvas ortogonales.

Funciones y sus gráficas

Interpretación geométrica de la derivada

CENTRO REGIONAL UNIVERSITARIO BARILOCHE TALLER DE MATEMATICA INGRESO 2016 LIC. ENFERMERÍA PRACTICO UNIDAD 3

Álgebra y Trigonometría Clase 2 Ecuaciones, desigualdades y Funciones

Guía 3 Del estudiante Modalidad a distancia. Modulo CÁLCULO UNIVARIADO INGENIERÍA DE SISTEMAS II SEMESTRE

Repaso Estadística Descriptiva

Análisis de datos en los estudios epidemiológicos III Correlación y regresión

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA

«La derivada de una función en un punto representa geométricamente la pendiente de la recta tangente a la función en dicho punto»

PAU Madrid. Matemáticas II. Año Examen modelo. Opción A. Ejercicio 1. Valor: 2 puntos.

UNIDAD 7: PROGRESIONES OBJETIVOS

Profesorado de Nivel Medio y Superior en Biología Matemática - 1º Cuatrimestre Año 2013 FUNCIÓN CUADRÁTICA

Ecuaciones Lineales en Dos Variables

Matemáticas Avanzadas I

ESTADÍSTICA CON EXCEL

Funciones Lineales en una Variable Real

MATEMÁTICAS APLICADAS A LAS CC. SOCIALES I. Examen de la tercera evaluación. Nombre y apellidos Fecha: 10 de junio de 2010

Departamento de Matemáticas. 1º BACHILLERATO Ciencias y Tecnología CONVOCATORIA EXTRAORDINARIA DE SEPTIEMBRE 2014

PROBLEMAS RESUELTOS SELECTIVIDAD ANDALUCÍA MATEMÁTICAS II TEMA 5: INTEGRALES

5 Continuidad y derivabilidad de funciones reales de varias variables reales.

2.2 Rectas en el plano

Esta expresión polinómica puede expresarse como una expresión matricial de la forma; a 11 a 12 a 1n x 1 x 2 q(x 1, x 2,, x n ) = (x 1, x 2,, x n )

DE LA GRÁFICA A LA EXPRESIÓN ALGEBRAICA

1. Dado el siguiente volumen de ventas de una empresa y su gasto en I+D en miles. Prediga las ventas de este empresario para un gasto en I+D de 7.

Método de cuadrados mínimos

Un estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.

Ministerio de Educación Pública Dirección de Gestión y Evaluación de la Calidad Departamento de Evaluación Académica y Certificación.

Bloque 1. Contenidos comunes. (Total: 3 sesiones)

Medidas de dispersión

El Análisis de Correspondencias tiene dos objetivos básicos:

5 Relaciones entre variables.

Problemas de Selectividad de Matemáticas II Comunidad de Madrid (Resueltos) Isaac Musat Hervás

1 SISTEMAS DE ECUACIONES LINEALES Y MATRICES

CONTENIDOS MÍNIMOS SEPTIEMBRE. DEPARTAMENTO DE MATEMÁTICAS

Aplicaciones de la integral definida al cálculo de áreas

2.- Tablas de frecuencias

Inecuaciones: Actividades de recuperación.

Colegio Portocarrero. Curso Departamento de matemáticas. Análisis. (Límites/Asíntotas/Continuidad/Derivadas/Aplicaciones de las derivadas)

Estadística. Análisis de datos.

UNIDAD II. VARIACION DIRECTAMENTE PROPORCIONAL Y FUNCIONES LINEALES

Transcripción:

Versión: Estadística de dos variables 19 de septiembre de 013 1 Introducción En el Tema 1 se consideran las variables estadísticas unidimensionales, es decir, cada individuo de la muestra se describe de acuerdo a una única característica Sin embargo, en muchos procesos de la vida se hace necesario estudiar simultáneamente varias características Cuando para cada individuo se analizan dos características al mismo tiempo, se habla de estadística bidimensional, o estadística de dos variables Por ejemplo, pulso y temperatura de los enfermos en un hospital, el peso y la altura de un mismo individuo, producción y venta de una fábrica, etc El objetivo de este tema es mostrar algunos resultados sobre el estudio de la relación entre dos características dadas en el mismo problema y cómo diagnosticar posibles valores esperados Vamos a denotar por (X, Y ) la variable bidimensional a analizar, donde las variables X e Y son las variables unidimensionales correspondientes a la primera y segunda característica, respectivamente, medidas para cada individuo Consideramos una muestra de N individuos, que clasificamos atendiendo a dos caracteres X e Y, que presentan, respectivamente, las modalidades x 1, x,, x p e y 1, y,, y q Frecuencia absoluta, n ij, es el número de individuos que presenta la modalidad x i de X y la modalidad y j de Y, es decir la frecuencia absoluta del par (x i, y j ) Frecuencia relativa, f ij, del par (x i, y j ) viene definida por f ij = n ij N Ejemplo 1 Distribución de frecuencias absolutas del color de ojos (X) de 100 personas y de sus madres (Y) X\Y Claros Oscuros Claros 8 Oscuros 0 37 Es claro que la suma de las frecuencias absolutas de las dos modalidades es: 8 + + 0 + 37 = 100, que es el número total de personas 1

Estadística de dos variables Ejemplo Distribución de frecuencias relativas de asistencia mensual al cine (X) y al teatro (Y) de una muestra de 00 estudiantes universitarios: X\Y 0 1 1 01 00 0 019 00 00 3 010 00 00 00 007 001 No es difícil comprobar que la suma de las frecuencias relativas de todas las modalidades es igual a 1 Ejemplo 3 Distribución de frecuencias relativas del volumen de ventas (X) y el número de trabajadores para un grupo de 100 empresas pequeñas y medianas X\Y 1-9 0 7 7 99 1 100 8/100 7/100 1/100 0 101 00 10/100 /100 /100 /100 01 300 /100 10/100 8/100 9/100 PROPIEDADES DE LAS FRECUENCIAS q n ij = N La suma de las frecuencias absolutas extendida a todos los pares de j=1 modalidades es igual al número de individuos de la población q f ij = 1 j=1 La suma de las frecuencias relativas extendida a todos los pares de modalidades es igual a uno Tablas estadísticas de doble entrada La tabla que describe los individuos, atendiendo a sus dos caracteres, es una tabla de doble entrada En la primera columna se colocan las modalidades x 1, x,, x p de X y en la primera fila las modalidades y 1, y,, y q de Y La intersección de la fila donde se encuentra x i con la columna donde se encuentra y j corresponde a la frecuencia absoluta n ij (ver la Tabla 1) El número de veces que aparece la modalidad x i de la variable X, con independencia de la variable Y, es la frecuencia absoluta marginal de X, n i, que es igual al la suma de las frecuencias que aparecen en la i-ésima fila de la Tabla 1: n i = q n ij = n i1 + n i + + n ij + + n iq j=1 Análogamente se define frecuencia absoluta marginal de Y, n j Para cada j, los valores de n j se obtienen de sumar las frecuencias absolutas de cada una de las columnas de la tabla y se sitúan en una fila marginal en la parte inferior de la tabla (véase la Tabla 1) n j = n ij = n 1j + n j + + n ij + + n pj Dpto EDAN - Univ de Sevilla

Estadística de dos variables 3 Tabla 1 Tabla de doble entrada de frecuencias absolutas X \ Y y 1 y j y q Total (X) q x 1 n 11 n 1j n 1q n 1 = q x i n i1 n ij n iq n i = x p n p1 n pj n pq n p = Total (Y) n 1 = n i1 n j = n ij n q = n iq j=1 j=1 q j=1 N n 1j n ij n pj Ejemplo Completamos la tabla del Ejemplo 1 que describe el color de ojos (X) de 100 personas y de sus madres (Y), con las frecuencias marginales: X\Y Claros Oscuros Total (X) Claros 8 8+=3 Oscuros 0 37 0+37=7 Total (Y) 8+0=8 +37= 100 Se observa que las distribuciones marginales son distribuciones estadísticas unidimensionales Para estas distribuciones marginales pueden obtenerse las medias, varianzas y desviaciones típicas marginales de X e Y Ejemplo Estudiamos el número de toneladas de sandías y de melones producidos en 0 granjas Sean X el número de toneladas de sandias e Y el número de toneladas de melones La tabla de doble entrada es la que sigue: X\Y 0 1 3 Total 0 0 3 1 0 0 10 1 3 0 9 0 0 3 0 0 0 0 0 1 13 3 1 0 0 1 0 8 0 0 0 1 0 0 3 0 0 0 1 0 0 0 1 Total 10 10 1 0 En la tabla de doble entrada se puede calcular, por ejemplo, la media y la varianza marginales: (1) x = 1 N s X = 1 N x i n i = 0 10 + 1 + 13 + 3 8 + 3 + 1 0 = 1 x i n i x = 0 10 + 1 + 13 + 3 8 + 3 + 1 0 1 Dpto EDAN - Univ de Sevilla

Estadística de dos variables La mayoría de las medidas características estudiadas en el caso unidimensional pueden extenderse al caso bidimensional Se pueden definir las medias, varianzas y desviaciones típicas de X e Y, pero en la práctica vamos a simplificar los cálculos pues toda tabla de doble entrada se puede escribir como una tabla simple Veámoslo con la tabla del Ejemplo Ejemplo Consideramos la tabla del Ejemplo Se observa que los elementos de la tabla y sus frecuencias absolutas son: (x 1, y 1 ) = (0, 0) con n 11 =, (x 1, y ) = (0, 1) con n 1 = 0, (x 1, y 3 ) = (0, ) con n 13 =, (x 1, y ) = (0, 3) con n 1 = 3, etc Podemos reorganizar la tabla de doble entrada en una tabla simple (donde ignoramos los pares (x i, y j ) con las frecuencias absolutas n ij = 0): x i 0 0 0 0 1 1 1 3 3 3 3 y i 0 3 0 1 3 0 1 3 n i 3 1 3 9 3 1 1 1 1 1 En lo que sigue del tema, vamos a considerar muestras de N observaciones del tipo (x 1, y 1 ), (x, y ),, (x K, y K ) con frecuencias absolutas n 1, n,, n K de una variable bidimensional (X, Y ) 3 Representación gráfica La forma más usual de representar gráficamente distribuciones bidimensionales es el diagrama de dispersión o nube de puntos Consiste en representar en un eje de coordenadas los pares de observaciones (x i, y i ), situando en el eje de abscisas los valores de la variable X y en el eje de ordenadas los valores de la variable Y La nube de puntos así dibujada refleja la posible relación entre las variables A mayor relación entre las variables más estrecha y alargada será la nube Ejemplo 7 Con frecuencia se obtienen datos bidimensionales cuando se usan dos técnicas distintas para medir la misma cantidad Por ejemplo, la concentración de hidrógeno determinada con un método de cromatografía de gases (X), y la concentración determinada con un nuevo método de sensor (Y) viene dada en la tabla siguiente: X 7 70 70 78 9 100 11 118 1 17 10 10 10 0 1 Y 38 3 7 8 79 93 10 117 11 17 11 13 139 1 170 19 El diagrama de dispersión correspondiente a los datos de esta tabla se presenta en la figura de la derecha Y=Concentración de hidrógeno (método de sensor) Diagrama de dispersión 180 10 10 10 100 80 0 0 0 0 80 100 10 10 10 180 X=Concentración de hidrógeno (método de cromatografiía de gases) Dpto EDAN - Univ de Sevilla

Estadística de dos variables Covarianza Se trata de un indicador del grado de relación entre las variables X e Y Covarianza Sea (X, Y ) una variable bidimesional que toma valores (x 1, y 1 ), (x, y ),, (x K, y K ) con frecuencias absolutas n 1, n, n K Se llama covarianza a la media aritmética de los productos de las desviaciones de cada variable respecto a su media aritmética, se denota por s XY : s XY = 1 N K (x i x)(y i y)n i = 1 N K x i y i n i x y () Curvas de regresión En el estudio de variables bidimensionales tiene mucho interés buscar posibles relaciones entre las variables Por ejemplo, si X representa las mediciones del peso e Y la altura de un número determinado de personas, interesa saber la dependencia que existe entre ambas mediciones En el lenguaje matemático, se trata de encontrar una función que se «ajuste» lo más posible a una nube de puntos con el objetivo de describir y explicar el fenómeno que representa En otras palabras, dada una nube de puntos (x 1, y 1 ), (x, y ),, (x N, y N ), buscamos una función y = f(x) cuya gráfica se adapta lo más posible a dichos puntos, de manera que conocido el valor de una de las variables podamos obtener un valor (en general) aproximado de la otra mediante esta curva Este procedimiento se conoce como ajuste de datos o regresión 1 Dependiendo del tipo de la función que se busca, existen distintos tipos de ajuste: ajuste por polinomios (véase el Ejemplo 8), exponencial, logarítmico, etc Ejemplo 8 Se considera la siguiente tabla de datos: X 09 3 8 9 Y 09 1 9 3 En la figura se muestran distintos tipos de ajustes por funciones polinómicas: por una recta (n = 1), una parábola (n = 3), un polinomio de grado 3 (n = 3) y un polinómio de grado (n = ), este último es el polinomio de interpolación que pasa exactamente por los datos de la tabla 7 3 1 n = 1 0 0 8 10 7 3 1 n = 3 0 0 8 10 7 3 1 n = 0 0 8 10 10 8 n = 0 0 8 10 1 El término «regresión», que hoy usamos con un sentido de «relación» entre variables, tiene su origen en un estudio que publicó Francis Galton en 188, en que, analizando la estatura media de los padres y la estatura media de los hijos, llegó a la conclusión de que hay una tendencia a aproximarse (regresar) a la estatura media de la población Dpto EDAN - Univ de Sevilla

Estadística de dos variables 1 Recta de regresión La más sencilla de las relaciones entre las variable X e Y es la dependencia lineal donde se supone que la relación entre dos variables X e Y viene dada por la ecuación y = mx + b El caso particular de ajuste por polinomios cuando el grado del polinomio es 1 se conoce como la recta de regresión En otras palabras, la recta de regresión es la recta que más se aproxima a los puntos representativos de las observaciones (X, Y ) Los coeficientes m y b de la recta se calculan de modo que sean mínimas las distancias, en cierto sentido, de la recta a la nube de puntos Según se consideren las distancias en vertical (como en la figura de la derecha) o en horizontal, se obtienen, respectivamente, las rectas de regresión de Y sobre X y de X sobre Y Recta de regresión de Y sobre X y = y + s XY s X (x x) (3) Recta de regresión de X sobre Y x = x + s XY s Y (y y) () Ejemplo 9 Las calificaciones en Matemáticas (X) y Química (Y ) de alumnos de Farmacia son: X 8 8 7 8 7 7 8 7 8 8 Y 3 7 Mediante la recta de regresión de Y sobre X, queremos determinar la nota que tendrá un alumno en Química que tiene un 8 en Matemáticas Usando la ecuación (3), sabemos que la recta de regresión de Y sobre X viene dada por: y = y + s XY s (x x) X Como las frecuencias absolutas de todas las variables son iguales a 1, calculamos las medias, varianzas y covarianza: x = 1 x i = 7, y = 1 y i = s X = 1 (x i x) = 093, s XY = 1 x i y i x y = 03 Sustituyendo los coeficientes encontrados obtenemos 8 la siguiente ecuación de la recta de regresión: y = + 03 (x 7) y = 07x + 101 093 Dicha recta representa una relación lineal entre los datos X e Y Usando la ecuación de la recta, podemos determinar la nota «más esperada» en Química para un alumno con un 8 en Matemáticas: y = 07 8 + 101 = 7 Calificaciones de Química 7 3 7 7 8 8 9 Calificaciones de Matemáticas Dpto EDAN - Univ de Sevilla

Estadística de dos variables 7 Correlación lineal La correlación es la teoría que analiza el grado de intensidad de la relación entre las dos variables Por ejemplo, la recta de regresión ajustada a una nube de puntos trata de promediar o representar matemáticamente los valores observados empíricamente Es claro que este procedimiento debe ir acompañado de un coeficiente que mida su grado de representatividad, es decir valore hasta qué punto es bueno dicho ajuste Coeficiente de correlación lineal de Pearson es el cociente entre la covarianza y el producto de desviaciones típicas r = s XY s X s Y () Coeficiente de correlación lineal de Pearson proporciona una medida del grado de aproximación de la recta de regresión a la nube de puntos PROPIEDADES DEL COEFICIENTE DE CORRELACIÓN 1 r 1 r toma valores entre 1 y 1 1 < r < 0 Se dice que la correlación es negativa, es decir la curva de regresión es decreciente Cuanto más se acerca r a 1 mejor se ajusta la recta de regresión a los datos (se dice que hay mayor intensidad de correlación) 0 < r < 1 Se dice que la correlación es positiva, es decir la curva de regresión es creciente Cuanto más se acerca r a 1 mejor se ajusta la recta de regresión a los datos (se dice que hay mayor intensidad de correlación) r = ±1 Se dice que la correlación es perfecta o del tipo funcional, es decir la nube de puntos está situada, toda ella, sobre la recta de regresión, con pendiente positiva para r = 1 (curva recta) y pendiente negativa r = 1 (recta decreciente) r = 0 No existe dependencia lineal entre las variable, pudiendo darse una dependencia no lineal, o bien puede ocurrir que las variables sena independientes Ejemplo 10 Consideramos la recta de regresión que ajusta los datos del Ejemplo 9 Vamos a calcular el coeficiente de correlación lineal: Sabemos que s XY = 03, s X = 1 Luego, s Y = 1 r = s XY s X s Y (x i x) = 093, s X = 093 = 09 y calculamos (y i y) = 1 s Y = 1 = 109 r = 03 09 109 = 0017 Se trata de una correlación positiva y r está alejado de 1, por tanto la perdición realizada no es muy fiable Dpto EDAN - Univ de Sevilla

Estadística de dos variables 8 3 Otras curvas de regresión En muchas ocasiones hace falta usar funciones distintas a las polinómicas para ajustar datos Desde el punto de vista teórico se puede utilizar cualquier función para modelar datos dentro de un rango establecido Las que se utilizan habitualmente son: potencia (y = bx m ), exponencial (y = be mx ), logarítmica (y = m ln(x) + b) e inversa (y = 1/(mx + b)) Para calcular dichas curvas, la idea es transformarlas en una recta, respetando la forma y = mx + b Ejemplo 11 El ingreso de ventas, en billones de dólares, de una determinada marca de ordenadores viene dada por la siguiente tabla, donde x representa años medidos desde el año 000: x 0 7 y 3 11 Obtener la curva exponencial de regresión que mejor se ajuste a los datos anteriores Solución: Buscamos la función exponencial de la forma y = be mx Tomando logaritmos, obtenemos: ln(y) = m x + ln(b), es decir en la función exponencial hay una relación lineal entre ln(y) y x Ajustamos por una recta los datos x y z = ln(y): Calculamos la recta de regresión: x 0 7 z = ln(y) 1098 1383 3979 3189 x = 1 x i = 3, z = 1 s X = 1 (x i x) = 87, s XZ = 1 Sustituyendo los coeficientes encontrados en la ecuación (3) de la recta de regresión: 30 z i = 0 x i z i x z = 1 datos a ajustar ajuste por funcion exponencial z = 0+ 1 (x 3) = 0+030(x 3) 87 z = 030x + 0987 Es decir, hemos encontrado m = 030 y log(b) = 0987, de donde b = e 0987 = 770 Por tanto, la función de ajuste exponencial es de la forma: 0 10 y = b e mx = 770 e 030 x 0 0 1 3 7 Dpto EDAN - Univ de Sevilla

Índice de Tema Estadística de dos variables 1 1 Introducción 1 Tablas estadísticas de doble entrada 3 Representación gráfica Covarianza Curvas de regresión 1 Recta de regresión Correlación lineal 7 3 Otras curvas de regresión 8 9