REVISION DE CONCEPTOS BÁSICOS Objetivos Introducir, de manera muy general, algunos de los conceptos matemáticos y estadísticos que se utilizan en el análisis de regresión. La revisión no es rigurosa y no se dan pruebas debido a que existen diversos textos que hacen muy bien ese trabajo. La revisión se basa en el apéndice A de Gujarati y Porter (2010).
A.1 OPERADORES DE SUMATORIA Y DE PRODUCTO La letra mayúscula griega (sigma) se utiliza para indicar la sumatoria. n i= 1 X = X + X +... X i 1 2 Algunas de las propiedades más importantes del operador de sumatoria son n i) ii) n K = nk donde K es una constante. i= 1 n n KX i = K Xi donde K es una constante. i= 1 i= 1 iii) T T (a + bx t) = Ta + b Xt, donde a y b son constantes y donde se hace t=1 t=1 uso de las propiedades (i) y (ii) anteriores. iv) n n n (Xi ± Y i) = X i ± Yi i=1 i=1 i=1
El operador de sumatoria también puede ampliarse a sumas múltiples. Así,, el operador de doble sumatoria, es definido como n m n X = ( X + X +... + X ) ij i1 i2 im i= 1 j= 1 i= 1 = ( X + X +... + X ) + ( X + X +... + X ) + 11 21 n1 12 22 n2... + ( X + X +... + X ) n1 n2 nm
Algunas de las propiedades de son: i) n m m n X ij = X ij i = 1 j = 1 j = 1 i = 1, es decir, el orden en el cual se realice la doble sumatoria es intercambiable. ii) iii) iv) n m n m X = X Y ij ij ij i = 1 j = 1 i = 1 j = 1 n m n m n m ( X + Y ) = X + Y ij ij ij ij i = 1 j = 1 i = 1 j = 1 i = 1 j = 1 n 2 n n 1 n 2 X i = X i + 2 X i X j i= 1 i = 1 i = 1 j = 1+ 1
El operador de producto se define como n i= 1 X = X X... X i 1 2 n A.2 CÁLCULO DIFERENCIAL (se vio en el propedéutico). A.3 ALGEBRA MATRICIAL (más adelante)
A.4 ESTADÍSTICA Rama de las matemáticas encargada de la recolección, sistematización, síntesis, análisis e interpretación de datos. Clasificación por sus funciones: estadística descriptiva y estadística inferencial. La estadística descriptiva reúne al conjunto de procedimientos que tienen por objeto resumir, mediante tablas, gráficos y/o medidas(indicadores), a un conjunto de datos (sean de la población o muestrales). Es la primera etapa a desarrollar en un análisis de datos. La estadística inferencial es la encargada de elaborar estimaciones y afirmaciones sobre el valor de un parámetro a partir de la información contendida en una muestra procedente de dicha población.
Tipos de inferencia a) según la característica a estimar paramétrica: busca estimar el parámetro desconocido de una distribución poblacional cuya forma funcional es conocida. no paramétrica: estima sin conocimiento de la distribución de probabilidad que género los datos muestrales.
b) según el tamaño de la muestra exacta: cuando el tamaño de la muestra es finito. asintótica: cuando el tamaño de la muestra es infinito. c) según la finalidad última puntual: estima un solo valor para la característica poblacional. intervalo: estima un rango de valores donde puede encontrarse la característica poblacional.
Conceptos básicos Población. Muestra. Parámetro Estadísticos (muestrales) Variable
Clasificación de variables 1. Nivel de medición. 2. Escala de medición. 3. Grado de abstracción. 4. Papel en la investigación.
Escala de medición Una variable puede ser medida en cuatro diferentes escalas: Razón: cumple con las propiedades: 1. la razón de dos variables; 2. la distancia entre dos variables; y 3. ordenamiento de las variables Intervalo: no satisface la primera de las propiedades. Ordinal: solo cumple con la tercera propiedad. Nominal: no cumple ninguna propiedad.
Nivel de abstracción - Abstractas o conceptuales - Intermedias - Empíricas Papel en la investigación - Dependiente - Independiente
A.5 PROBABILIDAD Medida de la incertidumbre en la ocurrencia de un suceso o evento. Enfoques 1. Clásico 2. Frecuentista 3. Subjetiva p( A ) = p( A ) = Casos favorables Total de resultados posibles Casos favorables Total de veces que se llevo a cabo el experimento 4. Axiomática i) p( A) 0 ii) 0 p( A) 1 ii) p( A i ) = 1 i
Conceptos básicos Se denomina como el espacio muestral al conjunto de todos los resultados posibles de un experimento aleatorio. Cada miembro del espacio muestral se denomina un punto muestral. Un evento es un subconjunto del espacio muestral. Se dice que los eventos son mutuamente excluyentes si la ocurrencia de uno impide la ocurrencia de otro. Se dice que los eventos son exhaustivos (colectivamente) si todos los resultados posibles de un experimento se agotan.
A.6 PROBABILIDAD CONDICIONAL E INDEPENDENCIA DE EVENTOS Tabla de contingencia: es un cuadro de doble entrada, donde en cada casilla figurará el número de casos o individuos que poseen un nivel de una de las características analizadas y otro nivel del otro factor analizado. Ejemplo Sea A= hombre, B= fumador B B Total A 38 50 A 30 50 Total 100
Tabla de probabilidades B B Total A 0.38 0.12 0.50 A 0.20 0.30 0.50 Total 0.58 0.42 1.00 p(a)=probabilidad total, marginal o incondicional de A. p(b)=probabilidad total, marginal o incondicional de B. p(a B)=probabilidad conjunta de A y B. p(a\b)=probabilidad de A dado B=probabilidad condicional A dado B. p(b\a)=probabilidad de B dado A=probabilidad condicional B dado A. p(a\b)= p(a B) p(b)
Se elige de manera aleatoria a un individuo, Cuál es la probabilidad de fumar dado que es hombre? p(a B) 0.38 p(b\a)= = = 0.6552 p(a) 0.58 Independencia de eventos Dos eventos se dicen independientes si y solo si (ssi) Alternativamente p(a B)=p(A) p(b) p(a) p(b) p(a\b)= = p( A) p(b)
Teorema de Bayes Es un procedimiento para calcular probabilidades condicionales a partir de información limitada. p(a \B)= i p(a i ) p(b\a i ) p(a ) p(b\a ) i= 1 i i
A.7 VARIABLES ALEATORIAS Una variable aleatoria (v.a.) es una variable cuyo valor está determinado por el resultado de un experimento al azar. Se denotan por letras mayúsculas, mientras que sus valores por letras minúsculas. Una v.a. discreta solo toma valores enteros. Una v.a. continua toma cualquier valor dentro de un intervalo dado.
A.8 FUNCIÓN DE DENSIDAD DE PROBABILIDAD (FDP) 1 Para una v.a. discreta Sea X una v.a. discreta que toma valores x 1, x 2,..., x n diferentes. A la función f(x) = p( X = x ) para i = 1,2,..., n 0 i para x x i se denomina la función de densidad de probabilidad discreta (FDP) de X, donde p(x=x i ) significa la probabilidad de que la v.a. discreta X tome el valor de x i. 1 También denominada, en el idioma inglés como PDF (Probability Density Function).
Ejemplo En un lanzamiento de dos dados, si la v.a. X se define como la suma de los números que aparecen en los dos dados. La v.a. puede tomar uno de 11 valores. La FDP de esta v.a. se muestra a continuación. f(x) Figura 1. Función de densidad de la v.a. la suma de los números que aparecen en los dos dados
Para una v.a. continua Sea X una v.a. continua. Se dice que f(x) es la FDP de X si se satisfacen las siguientes condiciones: Figura 2. FDP para una v.a. continua 1) f(x) > 0 2) f(x) dx=1 b 3) f(x) dx=p(a x b) a Geométricamente, se tiene la figura 2. Nótese que para una v.a. continua, en contraste con una v.a. discreta, la probabilidad de que X tome un valor específico es cero; la probabilidad para tal variable puede medirse solamente sobre un rango o intervalo dado, tal como (a, b) que aparece en la figura 2.
A.8.1 Funciones de densidad de probabilidad conjunta, marginal, condicional e independencia Para una v.a. discreta Sean X y Y dos v.a. discretas. La función de densidad de probabilidad conjunta discreta, f(x,y), muestra la probabilidad de que X tome el valor de x y Y tome el valor de y de forma conjunta. f(x.y) = f(x,y)=p(x=x Y=y) =0 cuando X y Y y En relación con f(x,y), f(x) y f(y) se denominan funciones de densidad de probabilidad individuales o marginales. Estas FDP marginales se obtienen de la siguiente manera:
= FDP marginal de X f ( x) f ( x, y) y = FDP marginal de Y f ( y) f ( x, y) x Con frecuencia resulta de interés estudiar el comportamiento de una variable condicional a los valores de otra u otras variables. Esto puede hacerse considerando la FDP condicional. La función f(x\y)= p(x=x\y=y) se conoce como la FDP condicional de X; ésta da la probabilidad de que X tome el valor de x dado que Y ha asumido el valor y. En forma similar, f(y\x)= p(y=y\x=x) lo cual da la FDP condicional de Y. Las FDP condicionales pueden obtenerse de la siguiente manera: f ( x \ y) = f ( x, y) f ( y) y f ( y \ x) = f ( x, y) f ( x)
Dos v.a. X y Y son independientes si y solo si (ssi) f ( x, y) = f ( x) f ( y) Para una v.a. continua La FDP f(x, y) de dos variables continuas X y Y es tal que f(x,y) 0 - - d b c a f(x,y)dxdy=1 f(x,y)dxdy=p(a x b, c y d )
A.9 Características de las distribuciones de probabilidad Una distribución de probabilidad a menudo puede resumirse en términos de algunas de sus características, conocidas como los momentos de la distribución. Dos de los momentos más ampliamente utilizados son la media, o valor esperado y la varianza. Valor esperado: Denotado por E(X)=µ, se define como: Discretas Continuas E(X) = x xf(x) E(X) = - xf(x)dx
A.9.1 Propiedades del operador esperanza matemática Sea c una constante y X e Y v.a. Entonces 1. E [ c] = c 2. E [ cx ] = ce [ X ] 3. E [ X ± Y ] = E [ X ] ± E [ Y ] 4. Si X y Y son independientes Sin embargo, observe que [ ] [ ] E X E X Y E Y 5. Si X es una v.a. con FDP f(x). y si g(x) es cualquier función de X, entonces [ ] = y E g( x) g( x) f ( x) x [ ] E [ XY ] = E [ X ] E [ Y ] E g( x) xf(x)dx = -
Varianza: Sea X es una v.a. y E(X)=µ. La distribución o dispersión de los valores de X alrededor del valor esperado puede ser medida por la varianza, la cual se define como: V(X)=Var(X) = σ = E(X - µ ) 2 2 x La raíz cuadrada positiva de, es decir, está definida como la x x desviación estándar de X. La varianza o la desviación estándar da una indicación de qué tan cercanos o dispersos están los valores individuales de X con respecto al valor de su media. Observe que σ 2 2 2 2 V(X)= E(x - µ ) = E( x ) 2 µ E( x) + µ 2 2 = E( x ) µ La varianza definida anteriormente se calcula de la siguiente forma: σ
V(X) = Discretas x 2 (x- µ ) f(x) V(X) = - Continuas 2 (x- µ ) f(x)dx A.9.2 Propiedades de la varianza Sea c una constante y X e Y v.a. Entonces 1. V(c) = 0 2. 2 V(cX) =c V(X) 3. Si X y Y son independientes V(X+Y) =V(X)+V(Y) V(X-Y) =V(X)-V(Y) pero si X e Y no son independientes V(X+Y) =V(X)+V(Y)+2Cov(X,Y) V(X-Y) =V(X)+V(Y)-2Cov(X,Y)
Covarianza Establece como dos variables están relacionadas entre sí. La formulación clásica se simboliza por la letra griega sigma (Σ xy ) cuando ha sido calculada en la población. Si se obtiene sobre una muestra, se designa por la letra "Sxy". Tambien resulta factible referirse a ella como Cov(X,Y). La varianza de una variable es la covarianza de dicha variable con ella misma, es decir, Cov(X,X)=Var(X). La covarianza se calcula de la siguiente manera: si Ay y son variables aleatorias discretas y cov(x, Y) = f_(x - /ij(y - Ht )f\x,y)dx dy = r.rmxyf(x,y)dxdy-ni nt si X y Y son variables aleatorias continuas. A.9.3 Propiedades de la covarianza 1. Cov(X,Y)=0 siempre y cuando X y Y son independientes. 2. Cov(a+bX, c+dy)= bd cov(x, Y) donde a, b,c y d son constantes.
A.10 Coeficiente de correlación El coeficiente de correlación (poblacional) ρ (rho) está definido como Cov(X,Y) Cov(X,Y) ρ = = Var(X) Var(Y) σx σ y Mide el grado de asociación lineal entre dos variables y se encuentra entre -1 y + 1, donde -1 indica una perfecta asociación negativa y + 1 indica una perfecta asociación positiva.
A.11 Esperanza condicional Sea f(x,y) la FDP conjunta de las variables aleatorias X y Y. La esperanza condicional de X, dada Y= y, se define como E(X Y = y) = x f(x Y = y) E(X Y = y) = x - x f(x Y = y)dx si X es discreta si X es continua donde E(X Y = y) significa la esperanza condicional de X dado Y = y, y donde f(x Y = y) es la FDP condicional de X. La esperanza condicional de Y, E(Y X = x), está definida en forma similar.
A.12 Momentos superiores de las distribuciones de probabilidad Si bien la media, la varianza y la covarianza son las medidas resumen más frecuentemente utilizadas de las FDP univariadas y multivariadas, en ocasiones se requiere considerar momentos de orden mayor de las FDP, tales como los momentos tercero y cuarto. Los momentos tercero y cuarto de una FDP univariada f(x) alrededor del valor de su media (µ) se definen como: Tercer momento: Cuarto momento: 3 E(X - µ ) 4 E(X - µ ) En general, el momento r-ésimo alrededor de la media se define como: r-ésimo momento: r E(X - µ )
El tercero y cuarto momentos de una distribución se utilizan a menudo para estudiar la "forma de una distribución de probabilidad. En particular, su asimetría, A (es decir, falta de simetría) y su apuntamiento o curtosis C
A.13 DISTRIBUCIONES DE PROBABILIDAD TEÓRICAS IMPORTANTES Distribución normal La más conocida de todas las distribuciones de probabilidad teóricas. Su forma de campana es familiar a cualquiera que tenga un mínimo conocimiento estadístico. Se dice que una v.a. continua X está normalmente distribuida si su FDP tiene la siguiente forma: 1 1 ( x µ ) f ( x) = exp 2 σ 2π 2 σ 2
Propiedades - Simétrica alrededor de la media. - Aprox. 68% del área bajo la curva se encuentra entre µ ± σ 95% del área bajo la curva se encuentra entre µ ± 2σ Regla 99% del área bajo la curva se encuentra entre µ ± 3σ empírica - Depende de los parámetros µ y σ 2. - Si µ=0 y σ 2 =1 se a una FDP de la variable normal estandarizada, denominada por Z, que por convención, se denota como Z~N(0,1), normal estandarizada. 2 2 - Sea X 1 ~ N( µ 1, σ1 ) y X 2 ~ N( µ 2, σ 2 ) y supóngase que son independientes. Considérese ahora la combinación lineal Y = ax 1 + bx 2
donde a y b son constantes. Entonces, Y ~ N[(a µ, + b µ ), (a σ + b σ )] 2 2 2 2 1 2 l 2 Una combinación lineal de variables normalmente distribuidas es normalmente distribuida (puede generalizarse fa una combinación lineal de más de dos variables normalmente distribuidas).
Distribución χ 2 (ji-cuadrada) Sean Z 1, Z 2,,Z k variables normales estandarizadas independientes, se dice que la cantidad Z k = i= 1 Z 2 i sigue la distribución χ 2 con k grados de libertad (g. de l.), donde el término significa el número de cantidades independientes en la suma anterior.
Propiedades de la distribución χ 2 - Es una distribución asimétrica; el grado del asimetría depende de los g. de l. (cuando los g. de l. son comparativamente pocos, la distribución está altamente sesgada hacia la derecha; pero, a medida que el número de g de l. aumenta, la distribución se hace cada vez más simétrica). - La media de la distribución jicuadrada es k y su varianza es 2k, donde k son los g. de l. - Si Z 1 y Z 2 son dos variables jicuadrada independientes con k 1 y k 2 g. de I., entonces la suma Z 1 + Z 2 es también una variable ji-cuadrada con g. de I. = k 1 + k 2.
Distribución t de Student Si Z 1, es una variable normal estandar [es decir, Z 1 ~N(0, 1)], y otra variable Z 2 sigue la distribución ji-cuadrada con k g. de l. y está distribuida independientemente de Z 1, entonces la variable definida como t = Z 2 1 ( Z / k) sigue la distribución t de Student con k g. de l.
Propiedades de la distribución t de Student - Es simétrica, pero es más plana que la normal. Sin embargo, a medida que aumentan los g de I, la distribución t se aproxima a la distribución normal. - La media de la distribución t es cero y su varianza es k / (k-2).
Distribución F Si Z 1 y Z 2 son variables ji-cuadrada distribuidas en forma independiente con k 1, y k 2 g. de l., respectivamente, la variable F = Z Z / k / k 1 1 2 2 sigue la distribución F (de Fisher) con k 1 y k 2 g de l. F k, k Se denota por, donde los subíndices indican los g. de l. asociados 1 2 al numerador y al denominador.
Propiedades de la distribución F Sesgada hacia la derecha pero a medida que k 1 y k 2 aumentan, la distribución F se acerca a la distribución normal. El valor de la media de una variable con distribución F es: k 2 /(k 2-2), el cual está definido para k 2 > 2.
A.14 Estimación