Estadística Descriptiva



Documentos relacionados
Medidas de Tendencia Central

ESTADÍSTICA DESCRIPTIVA: UNA VARIABLE Julián de la Horra Departamento de Matemáticas U.A.M.

Análisis de datos en los estudios epidemiológicos II

Ejemplos y ejercicios de. Análisis Exploratorio de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

MEDIDAS DE RESUMEN. Jorge Galbiati Riesco

5. Aproximación de funciones: polinomios de Taylor y teorema de Taylor.

REVISIÓN DE ALGUNOS INDICADORES PARA MEDIR LA DESIGUALDAD XAVIER MANCERO CEPAL

ESTADÍSTICA BÁSICA. Discretas. Función de masa de probabilidad: P(X=x i ) Sólo se toma un conjunto finito valores {x 1, x 2,...}

DISTRIBUCION DE FRECUENCIA (DATOS AGRUPADOS)

TEMA 1. ESTADÍSTICA DESCRIPTIVA

1 Sucesiones. Ejemplos. a n = n a n = n! a n = n n. a n = p n. a n = 2n3 + n n a n = ln(n)

Estimación puntual y por intervalos de confianza

Fórmula de Taylor. Si f es continua en [a,x] y derivable en (a,x), existe c (a,x) tal que f(x) f(a) f '(c) = f(x) = f(a) + f '(c)(x a)

SELECTIVIDAD ANDALUCÍA MATEMÁTICAS CCSS SOBRANTES 2008 (MODELO 5)

Trata de describir y analizar algunos caracteres de los individuos de un grupo dado, sin extraer conclusiones para un grupo mayor.

2. LEYES FINANCIERAS.

Tema 9. Inferencia Estadística. Intervalos de confianza.

Modelos lineales en Biología, 5ª Curso de Ciencias Biológicas Clase 28/10/04. Estimación y estimadores: Distribuciones asociadas al muestreo

Sucesiones numéricas.

Tema 6. Sucesiones y Series. Teorema de Taylor

Soluciones Hoja de Ejercicios 2. Econometría I

IES Fco Ayala de Granada Sobrantes de 2008 (Modelo 3 Junio) Solución Germán-Jesús Rubio Luna 12 2 = , es decir

PRUEBAS DE ACCESO A LA UNIVERSIDAD L.O.G.S.E

1.1. Campos Vectoriales.

Propuesta A. { (x + 1) 4. Se considera la función f(x) =

Capítulo 2. Operadores

Solución del examen de Investigación Operativa de Sistemas de septiembre de 2004

OPCIÓN A EJERCICIO 1_A

APUNTES DE MATEMÁTICAS

TEMA 2.- MODELOS DE PROGRAMACION LINEAL. SOLUCION GRAFICA. En los problemas de Programación Lineal nos encontraremos con:

1. Lección 11 - Operaciones Financieras a largo plazo - Préstamos (Continuación)

Gradiente, divergencia y rotacional

Métodos Estadísticos de la Ingeniería Tema 9: Inferencia Estadística, Estimación de Parámetros Grupo B

Medidas de Tendencia Central

OPCIÓN A EJERCICIO 1_A Sean las matrices A =

Señales y sistemas discretos (1) Transformada Z. Definiciones

Transformada Z. Transformada Z. Señales y sistemas discretos (1) Señales y sistemas discretos (2)

MC Fco. Javier Robles Mendoza Primavera 2009

ESTADÍSTICA. Al preguntar a 20 individuos por el número de personas que viven en su casa, hemos obtenido las siguientes respuestas:

IES Fco Ayala de Granada Sobrantes de 2011 (Modelo 1) Enunciado Germán-Jesús Rubio Luna

ESTADISTICA UNIDIMENSIONAL

MEDIDAS DE TENDENCIA CENTRAL CON EXCEL

MARTINGALAS Rosario Romera Febrero 2009

Otras medidas descriptivas usuales

ELEMENTOS DE ÁLGEBRA MATRICIAL

UNIVERSIDAD DE ATACAMA

SOLUCIONES DE LOS PROBLEMAS DE LA OME 49ª. 1. Sean a, b y n enteros positivos tales que a b y ab 1 n. Prueba que

Estimación puntual y por intervalos

INFERENCIA ESTADÍSTICA: ESTIMACIÓN DE UNA PROPORCIÓN

IES Fco Ayala de Granada Sobrantes 2014 (Modelo 2 ) Soluciones Germán-Jesús Rubio Luna

Progresiones. Objetivos. Antes de empezar. 1.Sucesiones.. pág. 74 Definición. Regla de formación Término general

TEMA 3.- OPERACIÓN FINANCIERA

Estadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL

IES Fco Ayala de Granada Sobrantes de 2006 (Modelo 2 Septiembre) Solución Germán-Jesús Rubio Luna

16 Distribución Muestral de la Proporción

Transformaciones Lineales

Correo electrónico:

Matemáticas I - 1 o BACHILLERATO Binomio de Newton

TEMA 28: Estudio global de funciones. Aplicaciones a la representación gráfica de funciones.

CONCEPTOS BÁSICOS DE PRESTAMOS.

Socioestadística I Análisis estadístico en Sociología

Guía 1 Matemática: Estadística NM 4

INTERVALOS DE CONFIANZA Y TAMAÑO MUESTRAL. 1. Una muestra aleatoria de 9 tarrinas de helado proporciona los siguientes pesos en gramos

Parámetros y estadísticos

TEMA 1. ESTADÍSTICA DESCRIPTIVA

CURSO CONVOCATORIA:

ESTADÍSTICA UNIDIMENSIONAL

Muestreo. Tipos de muestreo. Inferencia Introducción

Estadística Descriptiva

Calculamos los vértices del recinto convexo, resolviendo las ecuaciones las rectas de dos en dos.

Variables aleatorias. Distribución binomial y normal

CLAVES DE CORRECCIÓN GUÍA DE EJERCITACIÓN FACTORES Y PRODUCTOS PREGUNTA ALTERNATIVA Nivel

Ejercicio 1. Sea el recinto limitado por las siguientes inecuaciones: y + 2x 2; 2y 3x 3; 3y x 6.

PROBLEMAS RESUELTOS SELECTIVIDAD ANDALUCÍA 2014 MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES TEMA 6: TEORÍA DE MUESTRAS

Estimación puntual y por Intervalos de Confianza

MATEMÁTICA. Unidad 3 Utilicemos funciones Reales de variable Real. Utilicemos medidas de tendencia central. Trabajemos con medidas de posición

INFERENCIA ESTADÍSTICA: ESTIMACIÓN DE UNA PROPORCIÓN

TEMA 5 ESTADÍSTICA. 3. Cómo debe de ser una muestra para ser correcta?

MATEMÁTICAS 1214, PARCIAL 3 PROBLEMAS PARA PRACTICAR SOLUCIONES. 1. Para cada sucesión infinita abajo, determine si converge o no a un valor finito.

Cuadro II.1 Valores absolutos de peso (kg) de niños y niñas < 5 años de Costa Rica, pc3. pc

Figura 1. Se dice que un subespacio vectorial F de E es A-invariante si los vectores u de F siguen estando en F al transformarse por A, esto es,

ANÁLISIS DESCRIPTIVO CON SPSS

Tema 3. Polinomios y otras expresiones algebraicas (Estos conceptos están extraídos del libro Matemáticas 1 de Bachillerato.

PRUEBAS DE ACCESO A LA UNIVERSIDAD L.O.G.S.E

Preguntas más Frecuentes: Tema 2

8 Funciones, límites y continuidad

X X. ... n. Medidas de tendencia Central Estadígrafos de tendencia central.

Clase 2: Estadística

= Adj(A ) = 0 1-2/8 3/ /8 3/8 1-2/8 3/

Análisis en el Dominio de la Frecuencia. Análisis en el Dominio de la Frecuencia. Sistemas de Control. Análisis en el Dominio de la Frecuencia

BIOESTADISTICA ( ) Estudios de prevalencia (transversales) 1) Características del diseño en un estudio de prevalencia, o transversal.

UNIDAD Nº 2. Leyes financieras: Interés simple. Interés compuesto. Descuento.

PRUEBAS DE ACCESO A LA UNIVERSIDAD FASE ESPECÍFICA: MATERIAS DE MODALIDAD

Transcripción:

Igacio Cascos Ferádez Dpto. Estadística e I.O. Uiversidad Pública de Navarra Estadística Descriptiva Estadística ITT Soido e Image curso 2004-2005 1. Defiicioes fudametales La Estadística Descriptiva se ocupa de la descripció de datos experimetales, más específicamete de la recopilació, orgaizació y aálisis de datos sobre algua característica de ciertos idividuos perteecietes a la població o uiverso. Defiició 1 (Població, tamaño). Llamamos població a u cojuto bie defiido sobre el que se observa o puede observarse ua cierta característica. Puede ser fiita o ifiita. El tamaño de la població es el úmero de idividuos que tiee, su cardial, lo deotamos por N. Si la població es muy grade se hace muy costoso y e alguos casos imposible cosiderar cada idividuo y se realiza ua selecció deomiada muestra. Defiició 2 (Idividuo). Llamamos idividuo a cada uo de los elemetos de la població. Defiició 3 (Muestra, tamaño). Ua muestra es u cojuto de idividuos de la població que refleja las características de ésta lo mejor posible. Si las características queda bie reflejadas, se dice que la muestra es represetativa. El tamaño de ua muestra es el úmero de idividuos que tiee, lo deotamos por. Si muestra y població coicide, se dice que se dispoe de u ceso. Defiició 4 (Variable, dato). Ua variable (X) es u símbolo que represeta ua característica a estudiar e la població. Llamamos dato (x) al valor (umérico o o) que la variable toma sobre u idividuo cocreto de la muestra. 1

Tipos de variables Cuatitativa: toma valores e u cojuto prefijado de valores uméricos, se puede medir. Discreta: el cojuto es fiito o umerable (Ej. úmero de hijos de ua familia). Cotiua: el cojuto es ifiito o umerable, cotiee algú itervalo (Ej. duració de algua compoete e u sistema). Cualitativa: toma valores que se correspode co cualidades o cuatificables de los idividuos, o se puede medir (Ej. color). Dicotómicas: sólo puede tomar dos valores, (SI/NO); (0,1). 2. Represetacioes tabulares, frecuecias Ua vez obteida ua muestra de cualquier població y observados los valores que toma la variable e los idividuos de la muestra, estos valores se suele ordear. Si la variable es cuatitativa la ordeació será de meor a mayor. Dada ua variable X, cosideramos ua muestra de tamaño que toma k valores distitos, x 1,..., x k (si la variable es cuatitativa x 1 < x 2 <... < x k ). La frecuecia absoluta de u valor x i es el úmero de veces que dicho valor aparece e la muestra. Se represeta por i y cumple i = 1 + 2 +... + k = La frecuecia relativa de u valor x i es el cociete de la frecuecia absoluta de x i ( i ) etre el tamaño de la muestra (), se represeta por f i f i = i, se cumple f i = 1. Si trabajamos co variables cuatitativas, como hemos ordeado los valores de la muestra de meor a mayor, podemos defiir las frecuecias acumuladas. 2

La frecuecia absoluta acumulada del valor i-ésimo es la suma de las frecuecias absolutas hasta dicho valor, se deota por N i N i = 1 + 2 +... + i La frecuecia relativa acumulada del valor i-ésimo es la suma de las frecuecias relativas hasta dicho valor, se deota por F i F i = f 1 + f 2 +... + f i, F i = N i Ua tabla de frecuecias tiee la siguiete estructura. x i i f i N i F i Podríamos hablar tambié de la frecuecia de u cierto valor detro de ua població (siempre que ésta fuera fiita), bastaría co tomar como muestra u ceso. Lo mismo ocurre para todas las medidas que describiremos más adelate (de tedecia cetral, posició, dispersió y forma), e pricipio os referiremos a medidas sobre ua muestra, e otro caso (si fuera relativas a la població) lo explicitaríamos. 3. Datos agrupados A veces se hace ecesario trabajar co datos agrupados (el por qué y cómo fuero brevemete explicados e clase). Defiimos etoces como clase a cada uo de los itervalos e que se agrupa los datos. Las frecuecias hará ahora referecia al úmero de datos que hay e cada itervalo. Deotaremos la i-ésima clase como [L i, L i ]. Si sucede que L i = L i 1, las clases será de la forma (L i, L i ], de tal modo que la itersecció de dos clases distitas sea el vacío. Dada la i-ésima clase, L i será su límite iferior y L i su límite superior. La marca de clase será el puto medio del itervalo, m i = (L i + L i )/2 y la amplitud el tamaño del itervalo, c i = L i L i. Ua tabla de frecuecias tedrá ahora la siguiete estructura. 3

(L i, L i ] i f i N i F i 4. Medidas de posició 4.1. Medidas de tedecia cetral Los promedios o medidas de tedecia cetral so valores típicos o represetativos de u cojuto de datos. Pretede resumir todos los datos e u úico valor. Defiimos tres medidas de tedecia cetral, media, mediaa y moda. 4.1.1. Media, (x) Se calcula para variables cuatitativas y se trata del cetro geométrico o de gravedad de uestros datos, x = 1x 1 + 2 x 2 +... + k x k = x i f i Si se trata de ua media poblacioal, es decir, estamos cosiderado todos los idividuos de la població, suele deotarse por µ. Propiedades. 1. k (x i x) i = 0 2. la media es el puto para el que la distacia cuadrática media a los valores de la muestra es míima, es decir, para cualquier a R (x i x) 2 i (x i a) 2 i Obsérvese que e el cómputo de la media se utiliza todos los valores, por tato si hay valores aómalos (extremos) ifluirá fuertemete e ella. Si los datos está agrupados, para hallar la media tomamos la marca de las clases, x = 1m 1 + 2 m 2 +... + k m k 4 = m i f i

4.1.2. Mediaa, (Me) Se calcula para variables cuatitativas, es u úmero tal que al meos el 50 % de los datos es meor o igual que la mediaa y al meos el 50 % mayor o igual. Si hay más de ua mediaa tomamos el puto medio etre la mediaa mayor y la más pequeña, que será los datos que aparece e la muestra y sirve como mediaas. Para calcularla, recurrimos a la columa de las frecuecias relativas acumuladas y buscamos el primer valor F i 0 5, es decir aquel para el que F i 0 5 y F i 1 < 0 5. Si F i > 0 5, etoces Me = x i, si F i = 0 5, etoces Me = (x i + x i+1 )/2. Propiedad. La mediaa es el puto para el que la distacia euclídea media a los valores de la muestra es míima, es decir, para cualquier a R x i Me i x i a i Sólo tiee e cueta la posició de los valores e la muestra y por lo tato tiee mucho mejor comportamieto que la media cuado hay observacioes aómalas. 4.1.3. Moda, (Moda) Es el valor co mayor frecuecia. Si hay más de ua, la variable se dice multimodal y puede calcularse para cualquier tipo de variable. Si los datos está agrupados hablamos de clase modal y será aquella para la que el cociete frecuecia relativa dividido etre amplitud (f i /c i ) es mayor. 4.1.4. Media armóica, (x H ) x H = k i/x i 4.1.5. Media geométrica, (x G ) x G = x 1 1 x 2 2... x k k 5

4.1.6. Media recortada al 5 %, (x R ) x R = 1 [ (F k1 0 05)x k1 + (0 95 F k2 1)x k2 + 0 9 co k 1 y k 2 satisfaciedo, 2 1 i=k 1 +1 f i x i ] 4.2. Cuatiles F k1 1 < 0 05 F k1 ; F k2 1 0 95 < F k2 Se calcula para variables cuatitativas y al igual que la mediaa sólo tiee e cueta la posició de los valores e la muestra. Casos particulares de cuatiles so los cuartiles, los percetiles y los deciles (estos últimos divide la muestra ordeada e 10 partes). 4.2.1. Cuartiles Divide la muestra ordeada e 4 partes. Q 1, primer cuartil, al meos el 25 % de los datos so meores o iguales que él y al meos el 75 % de los datos so mayores o iguales que él. Q 2, segudo cuartil, es la mediaa, Q 2 = Me. Q 3, tercer cuartil, al meos el 75 % de los datos so meores o iguales que él y al meos el 25 % de los datos so mayores o iguales que él. Q 4, cuarto cuartil, es el mayor valor que se alcaza e la muestra. 4.2.2. Percetiles Divide la muestra ordeada e 100 partes. Dado α N tal que 1 α 99, el α-ésimo percetil, P α es u valor tal que al meos el α % de los datos so meores o iguales que él y al meos el (100 α) % de los datos so mayores o iguales que él. A partir de las defiicioes de los cuartiles y percetiles, es claro que Q 1 = P 25 y Q 3 = P 75. 6

Para calcular el percetil P α, buscamos e la columa de las frecuecias relativas acumuladas el primer valor mayor o igual que α/100, es decir, buscamos F i α/100 tal que F i 1 < α/100. Si F i > α/100, etoces P α = x i, si F i = α/100, etoces P α = (α/100)x i + (1 α/100)x i+1. 5. Medidas de dispersió Sólo tiee setido para variables cuatitativas y las defiimos para variables o agrupadas. 5.1. Recorrido o rago Diferecia etre el mayor y meor valor de ua muestra, x k x 1. 5.2. Rago semiitecuartícilo y amplitud itercuartil El rago semiitercuartílico es la mitad de la diferecia etre el tercer y primer cuartil, Q = (Q 3 Q 1 )/2. La amplitud itercuartil es el doble del valor aterior, 2Q = (Q 3 Q 1 ). 5.3. Desviació típica, (s) Cuatifica el error que cometemos si represetamos ua muestra úicamete por su media. s = k (x i x) 2 f i La desviació típica poblacioal suele deotarse por σ. 5.4. Variaza muestral, (s 2 ) s 2 = (x i x) 2 f i La variaza poblacioal suele deotarse por σ 2. 7

Propiedad. s 2 = x 2 i f i (x) 2 5.5. Cuasivariaza muestral, (s 2 ) s 2 = k (x i x) 2 i 1 = 1 s2 5.6. Desviació media respecto de la mediaa DM = k x i Me i 5.7. Coeficiete de variació, (CV ) CV = s x 100 La medidas de dispersió ateriores depede de las uidades de medida, el coeficiete de variació es, e cambio, ua medida de dispersió relativa (adimesioal). Tambié existe las llamadas medidas de forma que os idica uméricamete cómo está distribuidos los datos e ua muestra. 6. Medidas de forma 6.1. Asimetría El coeficiete de asimetría de ua variable mide el grado de asimetría de la distribució de sus datos e toro a su media. Es adimesioal y se defie como sigue: k As = i(x i x) 3 /. s 3 8

Las colas de ua variable está costituidas por los valores alejados de la media (valores extremos). Ua variable es asimétrica si su cola a u lado más larga que su cola al otro y simétrica si ambas colas so igual de largas. si As > 0 la distribució será asimétrica a la derecha. La cola a la derecha es más larga que la cola a la izquierda. si As = 0 la distribució será simétrica. Ambas colas so igual de largas si As < 0 la distribució será asimétrica a la izquierda. La cola a la izquierda es más larga que la cola a la derecha. 6.2. Aputamieto o curtosis El coeficiete de aputamieto o curtosis de ua variable sirve para medir el grado de cocetració de los valores que toma e toro a su media. Se elige como referecia ua variable co distribució ormal, de tal modo que para ella el coeficiete de aputamieto es 0. Ap = k i(x i x) 4 / s 4 3. Segú su aputamieto, ua variable puede ser: Leptocúrtica, si Ap > 0, es decir, es más aputada que la ormal. Los valores que toma la variable está muy cocetrados e toro a su media y hay pocos valores extremos. Mesocúrtica, si Ap = 0, es decir, es ta aputada como la ormal. Platicúrtica, si Ap < 0, es decir, es meos aputada que la ormal. Hay muchos valores extremos, las colas de la variable so muy pesadas. 7. Represetacioes gráficas 7.1. Diagrama de barras E el eje OX represetamos los valores de las variables y levatamos u trazo o barra de logitud igual a la frecuecia relativa (o absoluta). 9

7.2. Pictogramas Figuras cuya área es la frecuecia (o u valor proporcioal) del valor que represeta. 7.3. Diagrama de sectores Se divide u círculo e sectores cada uo de ellos proporcioal a la frecuecia relativa de u valor. 7.4. Histograma Es la represetació más frecuete co datos agrupados. Está formado por u cojuto de rectágulos tales que: 1. Sus bases coicide co el itervalo que represeta y cuyos valores aparece e el eje OX. 2. El área de cada rectágulo debe ser igual a la frecuecia relativa del itervalo. Su altura será por tato f i /c i y la suma de las áreas de todos los rectágulos la uidad. 7.5. Polígoo de frecuecias (poligoal de frecuecias) Se obtiee uiedo los putos medios de los extremos superiores de los rectágulos que forma el histograma, es decir los putos (m i, f i /c i ). E los extremos, uimos (m 1, f 1 /c 1 ) co (L 1, 0) y (m k, f k /c k ) co (L k, 0). 7.6. Diagrama de tallos y hojas Procedimieto semigráfico para el que se prepara los datos resumiédolos e dos o tres cifras (expresádolos e las uidades adecuadas). A cotiuació se dispoe e ua tabla de dos columas del siguiete modo: 1. Si los datos so de dos dígitos, a la izquierda (e el tallo) aparece la cifra de las deceas, a la derecha separadas por ua líea aparece las hojas y se escribe todas seguidas. 2. Si hay tres dígitos el tallo está formado por los dos primeros. 10

Ejemplo. Dada la muestra {114, 125, 114, 124, 152, 134}, dibuja su diagrama 10 11 4 4 12 4 5 de tallos y hojas., las hojas so las uidades 13 4 14 15 2 Observació. Se trata de u histograma co amplitud de las clases costate y girado 90 0. 7.7. Diagrama de cajas Paralelo a u eje umerado dibujamos u segmeto co extremos e los valores meor y mayor que aparece e la muestra y que marcamos co dos bigotes. Dibujamos además ua caja co extremos e el primer y tercer cuartil y marcamos e ella la mediaa. Observació. E los diagramas de cajas que os ofrece ciertos paquetes estadísticos aparece reflejados los valores atípicos y casos extremos fuera del segmeto. 8. Estadística descriptiva bidimesioal Estudiamos simultáeamete dos variables del idividuo. Defiició 5. Ua variable bidimesioal (X, Y ) es u símbolo que represeta dos características de los idividuos de la població. Dada ua variable bidimesioal (X, Y ), cosideramos ua muestra de tamaño e la que X toma k valores distitos, x 1,..., x k, si la variable es cuatitativa x 1 < x 2 <... < x k e Y toma l valores distitos, y 1,..., y l, si la variable es cuatitativa y 1 < y 2 <... < y l. Obteemos, por tato, observacioes del tipo (x i, y j ). La frecuecia absoluta de u valor (x i, y j ) es el úmero de veces que dicho valor aparece e la muestra. Se represeta por ij, se cumple l ij =. j=1 11

La frecuecia relativa de u valor (x i, y j ) es el cociete de la frecuecia absoluta de (x i, y j ), ij etre el tamaño de la muestra, se represeta por f ij f ij = i se cumple 8.1. Distribucioes margiales l f ij = 1. Nos idica el comportamieto aislado de cada ua de las variables X e Y que da lugar a ua variable bidimesioal. Frecuecia absoluta margial de x i, i = i1 + i2 + + il = l j=1 ij. Frecuecia relativa margial de x i, f i = i /. Frecuecia absoluta margial de y j, j = 1j + 2j + + kj = k ij. Frecuecia relativa margial de y j, f j = j /. Podemos calcular las medidas de tedecia cetral o dispersió y realizar cualquier tipo de represetació gráfica de las margiales. Ua tabla de doble etrada de ua variable bidimesioal sigue la estructura que se preseta a cotiuació, e la que tiee cabida las frecuecias margiales (represetadas e la última fila y última columa). Puede ser de frecuecias absolutas o relativas. j=1 X\Y y 1 y 2... y l i x 1 11 12... 1l 1 x 2 21 22... 2l 2........ x k k1 k2... kl k j 1 2... l 12

8.2. Distribucioes codicioadas So distribucioes fijada ua codició. Dicha codició puede ser sobre la misma variable o la otra. La frecuecia absoluta de x i dada cierta codició será el úmero de observacioes e la muestra que cumple la codició y para las que la variable X toma el valor x i. La frecuecia relativa de x i dada cierta codició será la frecuecia absoluta de x i dada la codició dividida etre el úmero total de observacioes de la muestra que cumple la codició. Podemos hablar de la distribució de X codicioada a que Y toma el valor y j, X Y =yj y será la distribució de todas las observacioes co valor y j e Y. Su distribució de frecuecias absolutas ( i j ) será la columa j- ésima de la tabla de doble etrada, las frecuecias relativas vedrá dadas por f i j = ij / j Podemos hablar de medidas de tedecia cetral o dispersió para distribucioes margiales. 8.3. Idepedecia estadística El iterés del estudio cojuto de dos variables como variable aleatoria bidimesioal es sacar coclusioes sobre la posible relació de depedecia etre ellas. Dos variables so estadísticamete idepedietes cuado o existe relació algua etre ellas. Defiició 6. Dos variables X e Y se dice idepedietes si las distribucioes de X codicioadas a cualquier valor de Y so iguales, es decir, i1 = i2 =... il para todo i = 1,..., k 1 2 l o equivaletemete f i 1 = f i 2 =... = f i l para todo i = 1,..., k Se puede demostrar que la relació aterior es equivalete a ij = i j para todo i, j. Es decir, las variables X e Y so estadísticamete idepedietes si la frecuecia relativa cojuta de cada par de valores es igual al producto de las frecuecias relativas margiales (f ij = f i f j para todo i, j). 13

Cometario. El valor esperado de la casilla (i, j) si las variables fuese idepedietes se obtiee utilizado la fórmula f i f j 8.4. Regresió lieal (método de míimos cuadrados), correlació E este apartado cosideraremos que las variables co las que trabajamos so cuatitativas. 8.4.1. Nube de putos o diagrama de dispersió El procedimieto gráfico habitual para represetar ua variable bidimesioal es ua ube de putos o diagrama de dispersió e la que cada valor (x i, y j ) que aparece e la muestra se represeta por u úico puto de abscisa x i y ordeada y j. E dicha ube de putos podemos apreciar la relació etre las variables. 8.4.2. Covariaza, (s XY ) Defiimos la covariaza de ua variable bidimesioal (X, Y ) como: k l j=1 s XY = (x i x)(y j y) ij. Propiedad. s XY = k l j=1 x iy j ij x y. Si la covariaza es positiva (s XY > 0), existirá tedecia a que las mayores observacioes de ua de las variables se correspoda co las mayores observacioes de la otra. Si la covariaza es egativa (s XY < 0), existirá tedecia a que las mayores observacioes de ua de las variables se correspoda co las meores de la otra. Si la covariaza es cero (s XY variables. = 0), o existe relació lieal etre las Si X e Y so idepedietes, etoces su covariaza será cero, s XY = 0, el resultado recíproco o es cierto. 14

8.4.3. Regresió lieal, míimos cuadrados La regresió cosiste e modelizar la relació de depedecia etre las variables y predecir los valores de ua de ellas (variable depediete) e fució de los valores de la otra (variable idepediete o explicativa). La maera de coseguir este objetivo es ajustar ua ecuació dada a la ube de putos, e uestro caso como la regresió es lieal, la ecuació será la de ua recta. Sea X la variable idepediete e Y la variable depediete, plateamos la ecuació de ua recta ŷ = a + bx para estimar Y a partir de X. Buscamos los valores a, b para los que la suma del error cuadrático es más pequeña, es decir, dada la fució F (a, b) = l ( yj (a + bx i ) ) 2 ij j=1 queremos hallar los valores de a y b para los que F (a, b) es más pequeña. Dichos valores so b = s XY s 2 X, a = y s XY s 2 X A b le llamamos coeficiete de regresió lieal de Y sobre X. Co a y b obteemos la recta de regresió de Y sobre X, que expresada e su ecuació puto-pediete resulta ser ŷ y = s XY s 2 X (x x), es decir, la pediete de la recta de regresió de Y sobre X es el coeficiete de regresió lieal de Y sobre X y pasa por el puto que tiee por abscisa la media de X y por ordeada la media de Y, (x, y). La recta de regresió de X sobre Y se calcula de modo aálogo a la de Y sobre X. x. 15

8.4.4. Correlació lieal El coeficiete de correlació lieal de Pearso se defie como y toma valores etre 1 y 1. r = ρ XY = s XY s X s Y Si r = 1 decimos que hay correlació positiva perfecta. Si r = 1 decimos que hay correlació egativa perfecta. Si r < 0 hay correlació lieal egativa, ambas rectas de regresió so decrecietes. Si r > 0 hay correlació lieal positiva, ambas rectas de regresió so crecietes. Si r = 0 las variables so icorreladas o liealmete idepedietes. El coeficiete de determiació lieal o de bodad de ajuste es el cuadrado del coeficiete de correlació, r 2, está e el itervalo [0, 1] y cuato mayor sea, mejor será el ajuste. 16