X Y

Documentos relacionados
TEMA 4 CUESTIONARIO DE AUTOEVALUACIÓN

Tema 2: Análisis de datos bivariantes

Distribuciones Bidimensionales.

Tema 3: Análisis de datos bivariantes

Variable Estadística Bidimensional

Estadística descriptiva bidimensional

Tema 2: Estadística Descriptiva Bivariante.

Estadística de dos variables

1, 2, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 2, 1, 1, 4, 1

Tema 10: Introducción a los problemas de Asociación y Correlación

TEMA 14 ESTADÍSTICA. Cuantitativa: si puede medirse y expresarse con números (es una variable), por ejemplo la talla de calzado.

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

Cuaderno de actividades 1º

ESTADÍSTICA Hoja 2

Estadística para el análisis de los Mercados S3_A1.1_LECV1. Estadística Descriptiva Bivariada

Tema 9: Estadística en dos variables (bidimensional)

Tema 2: Análisis de datos bidimensionales

ESTADÍSTICA DESCRIPTIVA PARA EL TURISMO

Definición de Correlación

Estadística Descriptiva

Tema 2: Estadística Bivariante Unidad 1: Correlación y Regresión

Variables estadísticas bidimensionales: problemas resueltos

Tema 8: Distribuciones Unidimensionales y Distribuciones Bidimensionales. Consideraciones iniciales:

Tema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1

Variables estadísticas bidimensionales

Lección 3. Análisis conjunto de dos variables

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

Tema 3. Relación entre dos variables cuantitativas

TEMA 2: DISTRIBUCIONES BIDIMENSIONALES

Medidas de asociación lineal y el modelo lineal con dos variables

Regresión y Correlación

CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES

Tema 8: Regresión y Correlación

Método de cuadrados mínimos

ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL. 30/09/2004 Proyecto MaMaEuSch 1

Regresión: implica la obtención de una ecuación mediante la que podamos estimar el valor medio de una variable.

Técnicas de Inferencia Estadística II. Tema 6. Contrastes de independencia

2. ESTADÍSTICAS BIDIMENSIONALES

2 Resolución de algunos ejemplos y ejercicios del tema 2.

ESTADÍSTICA. DISTRIBUCIÓN BIDIMENSIONAL

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

El ejemplo: Una encuesta de opinión

TEMA 3 REGRESIÓN Y CORRELACIÓN

Diplomatura en Ciencias Empresariales X Y

1 Números reales. Funciones y continuidad.

Relación funcional Dos variables x e y están relacionadas funcionalmente cuando conocida la primera se

El análisis de correspondencias. Ana María López Jiménez Dept. Psicología Experimental (USE)

Variables aleatorias bidimensionales discretas

Tema 4. Regresión lineal simple

Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION.

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Curso de nivelación Estadística y Matemática

Análisis de Correspondencias Simple

Coeficiente de Correlación

1 JESTADIS\REGRES.DOC

5 Relaciones entre variables.

Tema 8. Análisis de dos variables Ejercicios resueltos 1

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

Estadística Descriptiva Bidimensional

TEMA 1: ESTADISTICA DESCRIPTIVA

ESTADÍSTICA. Individuo. Es cada uno de los elementos que forman la población o muestra.

ESTADÍSTICA BIDIMENSIONAL

Prácticas Tema 2: El modelo lineal simple

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

Módulo de Estadística

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Matemáticas. Selectividad ESTADISTICA COU

ANALISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

REGRESIÓN LINEAL SIMPLE

Bioestadística. Tema 3: Estadística descriptiva bivariante y regresión lineal. Relaciones entre variables y regresión

Práctica 5. Modelos empíricos a partir de datos experimentales

Fundamentos de Estadística descriptiva

Estadís5ca. María Dolores Frías Domínguez Jesús Fernández Fernández Carmen María Sordo. Tema 2. Modelos de regresión

Estadística descriptiva bivariante y regresión lineal.

Introducción al Tema 3. Tema 3. Correlación y regresión Covarianza y correlación. Propiedades y relación con el diagrama de dispersión. Regresión.

CLASES DE ESTADÍSTICA II ESPERANZA ABSOLUTA

Estadística aplicada a la comunicación

Análisis de datos en los estudios epidemiológicos III Correlación y regresión

Funciones reales de variable real.

CORRELACIÓN Y REGRESIÓN. Raúl David Katz

PROBLEMAS SOBRE V. ESTAD. BIDIMENSIONALES. PROFESOR: ANTONIO PIZARRO.

CAPÍTULO 11 ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL

UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE CIENCIAS NATURALES Y MUSEO CÁTEDRA DE ESTADÍSTICA CLASE ESPECIAL. Tema:

MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I Y II CONTENIDOS BACHILLERATO

Vectores Aleatorios. Vectores Aleatorios. Vectores Discretos. Vectores Aleatorios Continuos

TEMA 5: Especificación y Predicción en el MRL

Julio Deride Silva. 4 de junio de 2010

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

Tema 2 Datos multivariantes

Los estimadores mínimo cuadráticos bajo los supuestos clásicos

Cálculo de Probabilidades II Preguntas Tema 2

Transcripción:

Capítulo 2 Distribuciones bivariantes Hasta ahora hemos estudiado herramientas que nos permiten describir las características de un único carácter Sin embargo, en muchos casos prácticos, es necesario estudiar conjuntamente dos o más caracteres, así como la relación que hay entre ellos De ahora en adelante supondremos que sobre cada individuo se miden u observan dos caracteres X e Y, o equivalentemente, que sobre cada individuo se observa el carácter bidimensional (X, Y ) Cada observación vendrá dada por un par (x i, y i ), 1 i n, y por tanto ahora los datos observados serán los n pares (x 1, y 1 ), (x 2, y 2 ),, (x n, y n ) Denotaremos por x 1,, x k a las k modalidades distintas observadas del carácter X; y por y 1,, y p a las p modalidades distintas observadas del carácter Y En general k y p no tienen porqué coincidir Ejemplo 21 A cada uno de 10 alumnos se le ha observado X = número de asignaturas aprobadas en el primer cuatrimestre e Y = número de asignaturas aprobadas en el segundo cuatrimestre, obteniendo los siguientes resultados: X 3 2 4 2 1 2 5 2 3 2 Y 2 5 4 3 3 4 4 3 2 3 Si X e Y son ambas variables, entonces a la representación de los n pares observados en un sistema de ejes se le denomina nube de puntos 21 Tablas de doble entrada Distribución conjunta y distribuciones marginales La frecuencia (absoluta) conjunta del par (x i, y j ), que denotaremos n ij, es el número de veces que se observa dicho par Se tiene que n ij = n 19

20 Apuntes de Estadística aplicada al turismo La frecuencia relativa conjunta del par (x i, y j ), que denotaremos f ij, es la proporción de veces que se observa dicho par, es decir, Se tiene que f ij = n ij, 1 i k, 1 j p n f ij = 1 La frecuencia (absoluta) marginal de x i, que denotaremos n i, es el número de veces que X presenta dicha modalidad Se tiene que n i = n ij, 1 i k, n i = n La frecuencia relativa marginal de x i, que denotaremos f i, es la proporción de veces que X presenta dicha modalidad Se tiene que f i = n i n = f ij, 1 i k, f i = 1 La frecuencia (absoluta) marginal de y j, que denotaremos n j, es el número de veces que Y presenta dicha modalidad Se tiene que n j = n ij, 1 j p, n j = n La frecuencia relativa marginal de y j, que denotaremos f j, es la proporción de veces que Y presenta dicha modalidad Se tiene que f j = n j n = f ij, 1 j p, f j = 1 Estas frecuencias se representan en una tabla llamada tabla de frecuencias conjuntas o tabla de doble entrada como sigue Distribución conjunta de (X, Y ) X\Y y 1 y 2 y p x 1 n 11 n 12 n 1p n 1 x 2 n 21 n 22 n 2p n 2 x k n k1 n k2 n kp n k n 1 n 2 n p n

Tema 2 21 Nótese que las frecuencias marginales son las frecuencias de cada carácter, sin tener en cuenta el otro: Distribución marginal de X Distribución marginal de Y X n i f i x 1 n 1 f 1 x 2 n 2 f 2 x k n k f k n 1 Y n j f j y 1 n 1 f 1 y 2 n 2 f 2 y p n p f p n 1 Son distribuciones de un carácter, y por tanto tiene sentido, para cada una de ellas, calcular las medidas estudiadas anteriormente Así, si X e Y son variables hablaremos de la media marginal de la variable X, x, la varianza marginal de la variable X, SX 2, la media marginal de la variable Y, y, y la varianza marginal de la variable Y, S 2 Y Ejemplo 22 La tabla de frecuencias conjuntas con los datos del ejemplo 21 es X\Y 2 3 4 5 1 0 1 0 0 1 2 0 3 1 1 5 3 2 0 0 0 2 4 0 0 1 0 1 5 0 0 1 0 1 2 4 3 1 10 22 Distribuciones condicionadas De los n individuos en el estudio hay n j con Y = y j Podemos estar interesados en estudiar el carácter X en este subconjunto de los datos originales A la distribución de frecuencias del carácter X en este subconjunto, denido por aquellos individuos con Y = y j, se le denomina distribución de X condicionada a Y = y j En esta distribución X presenta las modalidades x 1, x 2,, x k con frecuencias (absolutas) condicionadas y frecuencias relativas condicionadas n i/y =yj = n ij, 1 i k, Se tiene que f i/y =yj n i/y =yj = n j, = n ij n j, 1 i k f i/y =yj = 1

22 Apuntes de Estadística aplicada al turismo Distribución de X condicionada a Y = y j, X/Y = y j X/Y = y j n i/y =yj f i/y =yj x 1 n 1j n 1j /n j x 2 n 2j n 2j /n j x k n kj n kj /n j n j 1 Ejemplo 23 Con los datos del ejemplo 21, la distribución de frecuencias de X condicionada a Y = 3 es X/Y = 3 n i/y =3 f i/y =3 1 1 1/4 2 3 3/4 3 0 0 4 0 0 5 0 0 4 1 Existen p distribuciones condicionadas del carácter X correspondinetes a las distintas modalidades de Y : X/Y = y 1, X/Y = y 2,, X/Y = y p Análogamente podemos considerar la distribución de Y condicionada a X = x i, que presenta las modalidades y 1, y 2,, y p con frecuencias (absolutas) condicionadas y frecuencias relativas condicionadas n j/x=xi = n ij, 1 j p, vericando que f j/x=xi = n ij n i, 1 j p, n j/x=xi = n i, f j/x=xi = 1 Distribución de Y condicionada a X = x i, Y/X = x i Y/X = x i n j/x=xi f j/x=xi y 1 n i1 n i1 /n i y 2 n i2 n i2 /n i y p n ip n ip /n i n i 1

Tema 2 23 Existen k distribuciones condicionadas del carácter Y correspondientes a las distintas modalidades de X: Y/X = x 1, Y/X = x 2,, Y/X = x k Las distribuciones condicionadas son distribuciones de un carácter (en un subconjunto de los datos originales), y por tanto tiene sentido, para cada una de ellas, calcular las medidas estudiadas en el tema anterior Así, si X es una variable, hablaremos de la media condicional de la variable X dado que Y = y j, x Y =yj, la varianza condicional de la variable X dado que Y = y j, SX 2 Y =yj Análogamente, si Y es una variable hablaremos de la media condicional de la variable Y dado que X = x i, y X=xi y la varianza condicional de la variable Y dado que X = x i, SY 2 X=xi 23 Covarianza La covarianza es una medida de dependencia de las dos variables: si la covarianza es positiva, la relación entre X e Y es directa, es decir, cuando X crece, Y también tiende a crecer, y viceversa Si la covarianza es negativa, la relación es inversa, o sea, cuando X crece, Y tiende a decrecer, y viceversa Si S XY = 0, se dice que las variables X e Y son incorreladas La covarianza entre X e Y se dene como S XY = 1 n n (x i x)(y i y) = 1 n (x i x)(y j y)n ij y una forma alternativa para el cálculo de la covarianza computacionalmente más eciente es S XY = 1 n n x i y i x y = 1 n x i y j n ij x y Otra forma de denotar la covarianza entre dos variables es Cov(X, Y ) 24 Regresión lineal Dados un conjunto de n individuos sobre los que se les han observado dos variables, X e Y, obteniéndose los pares (x 1, y 1 ), (x 2, y 2 ),, (x n, y n ), su representación gráca con frecuencia es del tipo: Y X Nube de puntos

24 Apuntes de Estadística aplicada al turismo En este punto nos planteamos sustituir la nube de puntos por una línea que, sin que pase por todos ellos, se adpate lo mejor posible a la nube de puntos: Y X Ahora bien, no solo es importante dibujar una recta que pase por la nube de puntos, sino que tiene que ser representativa de la misma, por ejemplo consideremos las siguientes nubes de puntos: Y X Y X (a) (b) Es claro que en el caso (a) la línea dibujada representa mejor (es un mejor resumen de la nube de puntos que en el caso (b) El criterio que emplearemos para encontrar la mejor función es el de mínimos cuadrados, en el sentido de que los cuadrados de las distancias entre las puntos de la nube y la recta sean los mínimos posible Es decir, supongamos que la expresión de la recta es y = a+bx si llamamos yi = a + bx i al valor correspondiente al dato x i sobre la recta, comparamos el valor yi con el verdadero y i y consideramos la diferencia e i = y i y i = y i a bx i, i = 1, 2,, n, (21) A estas diferencias se les denomina residuos Grácamente: r Y/X (x i, yi ) e i (x i, y i ) La técnica de mínimos cuadrados trata de obtener los valores de a y b de forma que se haga mínima la suma de los valores e 2 i La expresión nal para la recta de regresión de Y sobre X (porque Y se expresa como una función de X), es la siguiente:

Tema 2 25 Recta de regresión de Y sobre X r Y/X : y = a + bx a = ȳ b x, b = S XY S 2 X Otra forma de expresar la recta de regresión de Y sobre X, r Y/X, es y ȳ = S XY S 2 X (x x) También puede calcularse la recta de regresión de X sobre Y, cambiando los papeles de las variables Recta de regresión de X sobre Y r X/Y : x = a + b y a = x b ȳ, b = S XY S 2 Y A b se le denomina coeciente de regresión de X sobre Y Otra forma de expresar la recta de regresión de X sobre Y, r X/Y, es x x = S XY S 2 Y (y ȳ) Ejemplo 24 Un informático tiene 10 ordenadores para arreglar El primer paso rutinario que realiza es pasarle dos antivirus Sean X =número de virus diferentes detectados por el primer antivirus" Y =número de virus diferentes detectados por el segundo antivirus" X 3 2 4 2 1 2 5 2 3 2 Y 2 5 4 3 3 4 4 3 2 3 Para calcular la recta de regresión de Y sobre X, necesitamos saber ȳ = 33 x = 26 S 2 X = 124 S XY = 012 así, tenemos o equivalentemente r Y X : y 33 = 012 (x 26) 124 r Y X : y = 304838 + 009677x

26 Apuntes de Estadística aplicada al turismo Para medir el grado de representación de la recta de regresión sobre la nube de puntos, se dene el coeciente de correlación lineal o de Pearson como r XY = S XY S X S Y Este coeciente cumple que 1 r XY 1, por lo tanto 0 r 2 XY 1 y si r XY = 0 S XY = 0 X e Y están incorreladas, no existe dependencia lineal entre X e Y Además cuanto mayor se acerque el valor de r 1 XY a 1 mejor será el ajuste de la recta a la nube de puntos Ejemplo 25 Con los datos del ejemplo 24, para obtener el coeciente de correlación lineal necesitamos además conocer SY 2 = 081, entonces r XY = S XY S X S Y = 012 124 081 = 01197 lo que nos viene a indicar que el ajuste lineal es poco adecuado Cualquier predicción que se realice mediante la recta de regresión será muy poco able