Repaso de estadística básica Juan D. Barón Santiago de Chile, 8 de abril de 2013 1
I. CONCEPTOS ESTADÍSTICOS BÁSICOS 2
Las decisiones se toman bajo incertidumbre Las decisiones se basan en información incompleta (ej. no sabemos la efectividad de nuevos programas) Cuando se discute un programa, siempre se usan afirmaciones que dan cierta sensación de certeza (ej. el programa reducirá la inasistencia escolar) Al momento de esas afirmaciones, era imposible saber si eran ciertas (El lenguaje es importante: Es probable que el programa reduzca la inasistencia escolar) Muchas disciplinan usan la estadística para tomar decisiones 3
Muestreo Queremos conocer las características de una población, pero existen restricciones de recursos y/o tiempo en la recolección de datos Población Conjunto completo de todos los objetos que interesan a un investigador Muestra Subconjunto observado de valores de la población de interés Ejemplos Los votantes de un país Las mujeres entre 15 y 49 años Los niños que asisten a la escuela 4
Obtención de una muestra En este curso verán varias formas de seleccionar una muestra En el muestreo aleatorio simple cada elemento de la población se elije estrictamente al azar (aleatoriamente) La muestra resultante se llama: muestra aleatoria 5
Estadística descriptiva e inferencial Estadística descriptiva Métodos gráficos y numéricos usados para resumir, y procesar datos para convertirlos en información Estadística Inferencial Constituye la base para hacer predicciones, previsiones y estimaciones para transformar la información en conocimiento Ej: Estimaciones, pruebas de hipótesis, análisis de relaciones entre variables 6
Medidas de tendencia central A menudo queremos saber si los datos están centrados o agrupados entorno a algún valor Para ello podemos usar diferentes medidas de tendencia central: Media (Media aritmética): suma de todos los valores dividida por el número de observaciones Moda Mediana 7
Medidas de dispersión o variabilidad La media por sí sola no es una descripción completa o suficiente de los datos. En general, es de interés que tanta dispersión existe en los datos Para ello existen diferentes medidas: Varianza y desviación típica Rango Inter-cuartil Coeficiente de variación 8
Varianza Varianza poblacional: Varianza muestral: Estas medidas promedian la distancia total entre cada observación y la media. El cuadrado asegura que las distancias positivas no se cancelen con las negativas, y que toda la información sea usada en el cálculo 9
Desviación típica o estándar Desviación estándar poblacional: Desviación estándar muestral: La desviación típica no es más que la raíz cuadrada de la varianza A diferencia de la varianza, la desviación típica esta expresada en las mismas unidades en que están los datos 10
Medida de relación (lineal) entre variables: coeficiente de correlación El coeficiente correlación (r) es una medida de la relación (lineal), o asociación, que existe entre dos variables Se calcula como el cociente entre la covarianza entre las dos variables y el producto de las desviaciones estándar de cada una de ellas (poblacional y muestral) El coeficiente de correlación toma valores: Entre -1 y 1 Cercanos a 1 si la relación es positiva 11 Cercanos a -1 si la relación es negativa
Diferente correlaciones 12
Algunos tipos de variables Variables ficticias (dummy): variables que toman solamente dos valores. En general indican alguna características del individuo (ej. 0 para hombres; 1 para mujeres) Variables Continuas: Variables que pueden tomar cualquier valor en un rango determinado Variables categóricas: Variable cuyos valores indican una categoría (1=casado; 2=soltero; 3=divorciado) 13
Variables aleatorias Variable aleatoria: Variable cuyo valor es incierto. Función de densidad de probabilidad (fdp): (Discreta) Función que proporciona la probabilidad de que la variable aleatoria tome cada valor (Continua) El área bajo la fdp proporciona la probabilidad de diferentes sucesos.
Probabilidad EJEMPLO DE DISTRIBUCIÓN DE PROBABILIDAD: X ES LA SUMA DE DOS DADOS 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 2 3 4 5 6 7 8 9 10 11 12 X La distribución se muestra gráficamente. En este ejemplo ésta es simétrica, el valor más alto que X toma es 7, y se reduce a cualquiera de los dos lados. 14
Variables aleatorias continuas Cómo luce la distribución Normal y t? normal distribution t-distribution Tenga en cuenta que en la medida en que la muestra es mas grande (>100) la distribución de probabilidad normal es una buena aproximación a la distribución t de Student
Estimador y estimación Un estimador de un parámetro poblacional es una variable aleatoria que depende de la información de la muestra Vimos el estimador de la media, la varianza, y del coeficiente de correlación poblacional Si aplicamos estos estimadores (fórmulas) a diferentes muestras de la misma población, obtendremos diversas estimaciones Dichas estimaciones son aproximaciones a esos parámetro desconocidos de la población 17
Error estándar vs. Desviación estándar La desviación estándar es una medida de la dispersión de los datos alrededor de la media en una muestra. El error estándar describe qué tan preciso es el estimador de la media poblacional. Veremos algunos resultados de Stata que muestran estas diferencias. 18
Intervalos de confianza Un estimador de un intervalo de confianza de un parámetro poblacional es una regla (basada en información muestral) para hallar un intervalo que es probable que incluya ese parámetro. Si se hacen repetidos muestreos de una población y se calculan intervalos, a largo plazo el 95% de los intervalos contendrá el verdadero valor desconocido del parámetro 19
Intervalo de confianza de media poblacional (varianza no conocida) 20
Intervalos de confianza Los intervalos de confianza son calculados fácilmente en Stata u otros programas Usualmente son presentados en gráficos: 21
II. PRUEBAS DE HIPOTESIS 22
Prueba de hipótesis Para realizar pruebas de hipótesis necesitamos Hipótesis nula en términos de parámetro poblacional (Ho) Una hipótesis alternativa (Ha) Un nivel de significancia de la prueba (α=5%) Un estadístico calculado a partir de la información en la muestra (estadístico t) Conocer la distribución muestral para el estimador (valor crítico) Una regla de decisión (En general, si el valor absoluto del estadístico es mayor que el del valor crítico, entonces rechace Ho en favor de Ha.) 23
El valor p La gran mayoría de programas estadísticos arrojan un valor-p que nos sirve para hacer una prueba de hipótesis bastante rápido El valor p es el nivel de significancia más bajo al que puede rechazarse la hipótesis nula. El valor p toma valores entre 0 y 1 Si: valor p < nivel de signif. (5%) => Rechaza Ho Lleva a las mismas conclusiones que hacer las pruebas comparando estadístico con valor critico en tablas 24
Prueba de la diferencia de medias Queremos evaluar si los resultados promedio de hombres y mujeres en una prueba académica son los mismos (Ho). ttest write, by(female) unequal Two-sample t test with unequal variances ------------------------------------------------------------------------------ Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- male 91 50.12088 1.080274 10.30516 47.97473 52.26703 female 109 54.99083.7790686 8.133715 53.44658 56.53507 ---------+-------------------------------------------------------------------- combined 200 52.775.6702372 9.478586 51.45332 54.09668 ---------+-------------------------------------------------------------------- diff -4.869947 1.331894-7.499159-2.240734 ------------------------------------------------------------------------------ diff = mean(male) - mean(female) t = -3.6564 Ho: diff = 0 Satterthwaite's degrees of freedom = 169.707 Ha: diff < 0 Ha: diff!= 0 Ha: diff > 0 Pr(T < t) = 0.0002 Pr( T > t ) = 0.0003 Pr(T > t) = 0.9998 25
III. REGRESION SIMPLE 26
Terminología y β + β 0 x + = 1 u x y y vienen de dos poblaciones y queremos explicar y en términos de x (ejemplos) En el modelo de regresión lineal simple, donde y = β 0 + β 1 x + u, nos referimos a y como Variable Dependiente, Variable de lado izquierdo, Variable Explicada, o Regresando 27
Terminología (cont.) y β + β 0 x + = 1 En el modelo de regresión lineal simple y en x, nos referimos a x como Variable Independiente, Variable del lado derecho, Variable Explicativa, Regresora, Covariable, o Variables de Control u 28
Terminología (cont.) y β + β 0 x + = 1 En el modelo de regresión lineal simple y en x, nos referimos a u como Término de error Representa TODOS aquellos factores, aparte de x que afectan a y. u = unobserved ( no observado ) u 29
30 Recuerde: esta línea (FRP) no la conocemos, ni la conoceremos jamás
Terminología (cont.) y β + β 0 x + En el modelo de regresión lineal simple y en x, nos referimos a los parámetros como: β 0 = 1 : el intercepto β 1 : coeficiente de pendiente Si otros factores en u se mantienen constantes, entonces x tiene un efecto lineal en y: y = β1 x u Pregunta: Si x aumenta en una unidad, ceteris paribus, en cuánto aumenta y? 31
Supuestos sobre el modelo Será que el modelo de regresión simple nos permite llegar a conclusiones ceteris paribus sobre el efecto de x en y? β 1 Vimos que sí mide el efecto de x en y, manteniendo todos los otros factores (en u) constantes. Pero, cómo podemos aprender sobre el efecto de x en y, manteniendo otros factores constantes, cuando no conocemos los otros factores? Solo podemos obtener estimadores confiables de β 0 y β 1 (de una muestra aleatoria) cuando hacemos un supuesto bastante fuerte que restringe la relación entre u y las variables explicatorias, x.
33 El estimador MCO de la pendiente ( )( ) ( ) ( ) 0 vez que toda ˆ 1 2 1 2 1 1 > = = = = n i i n i i n i i i x x x x y y x x β
El estimador MCO de la pendiente La pendiente estimada es la covarianza muestral entre x y y dividida por la varianza muestral de x Si x y y están correlacionadas positivamente, la pendiente será positiva Si x y y están correlacionadas negativamente, la pendiente será negativa Solo necesitamos que x varíe en la muestra 34
Más sobre MCO Intutivamente, MCO ajusta una línea a través de los datos muestrales de modo que la suma de los residuos al cuadrado sea la mínima posible, de ahí el término mínimos cuadrados 35
Bondad de ajuste del modelo (R2) Cómo saber qué tan bueno es el ajuste entre la línea de regresión y los datos de la muestra? Podemos calcular la proporción de la suma total de cuadrados (STC) que es explicada por el modelo, llamada R-cuadrado de la regresión R 2 = SEC/STC = 1 SRC/STC El R2 nos dice la fracción de la variación muestral de y que es explicada por x. (Toma valores entre 0 y 1) 36
INTERPRETACION DE UNA ECUACION DE REGRESION SALARIO POR HOJA DE TRABAJO 0 100 200 300 0 5 10 15 20 ESCOLARIDAD EN AÑOS Esta gráfica para Colombia, usa información para 696 personas entre 25 y 60 años de la Encuesta de Hogares, año 1977. En el eje vertical esta el salario por hora y en el eje horizontal esta el numero de años de escolaridad. 1
INTERPRETACION DE UNA ECUACION DE REGRESION 0 100 200 300 Salario = 4.12 + 3. 26S 0 5 10 15 20 ESCOLARIDAD EN AÑOS SALARIO POR HOJA DE TRABAJO Fitted values Y para Colombia esta es la gráfica. Para Colombia b1= 4.12, b2=3.26 1
INTERPRETACION DE UNA ECUACION DE REGRESION. regress hwage s Source SS df MS Number of obs = 696 -------------+------------------------------ F( 1, 694) = 178.80 Model 140010.958 1 140010.958 Prob > F = 0.0000 Residual 543447.818 694 783.06602 R-squared = 0.2049 -------------+------------------------------ Adj R-squared = 0.2037 Total 683458.776 695 983.393922 Root MSE = 27.983 ------------------------------------------------------------------------------ hwage Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- s 3.263788.2440844 13.37 0.000 2.784555 3.74302 _cons 4.117141 2.006894 2.05 0.041.1768284 8.057453 ------------------------------------------------------------------------------ Estos son los resultados! Cuál es la interpretación de cada coeficiente?
Evaluando hipótesis: La prueba de significancia Asuma que la ecuación de regresión está dada por y = α + βx + u t para t=1,2,...,t Los pasos para hacer la prueba de significancia: 1. Estime α, β y SE( α ), SE( β ) de la manera usual t t 2. Calcule el estadístico t. Este esta dado por la fórmula β β * test statistic = SE( β ) donde β * es el valor de β bajo la hipótesis nula
La prueba de significancia (cont.) 3. Necesitaremos una distribución tabulada con la cual podamos comparar el t-estadístico estimado. Se puede mostrar que los estadísticos calculados de esta forma siguen una distribución t Student con T-2 grados de libertad. 4. Necesitaremos seleccionar un nivel de significancia, denotado α. A este también se le conoce como el tamaño de la prueba y determina la región donde rechazaremos o no rechazaremos la hipótesis nula que estamos evaluando. Usualmente se usa un nivel de significancia de 5%. Explicación intuitiva: Solo esperaremos un resultado tan extremo como este o más extremo en 5% de las veces como consecuencia de la aleatoriedad de la muestra. También es común usar niveles de significancia de 10% y 1%, aunque 5% es el más usado.
Encontrando la región de rechazo en la prueba de significancia 5. Dado el nivel de significancia, podemos determinar la región de rechazo y de no-rechazo. Para un test a dos colas: f(x) 2.5% rejection region 95% non-rejection i 2.5% rejection region
La prueba de significancia: Interpretación 6. Use la tabla de la distribución para obtener un valor crítico con el que compararemos el estadístico t. 7. Finalmente, haga la prueba. Si el estadístico de la prueba cae en la región de rechazo, rechace la hipótesis nula (H 0 ), en otro caos NO SE RECHAZA H 0. Lenguaje: Se habla de rechazar y no rechazar una hipótesis, NO se habla de aceptar una hipótesis.
IV. REGRESION MULTIVARIADA 44
Similitudes con Regresión Simple y = β 0 + β 1 x 1 + β 2 x 2 +... β k x k + u β 0 es el intercepto β 1 a β k se conocen como parámetros de pendiente u es el término de error Supuestos fuertes se necesitan para una interpretación causal entre la variable y y las variables independientes (x). 45
Ejemplo salario = β + β educ + β 0 1 2exper + Estamos interesados en el efecto de la educación en el salario (es decir beta1), pero manteniendo constantes otros factores que afectan el salario. Interpretación de beta2? En regresión simple, la experiencia está en el error, y debemos asumir que la experiencia no tiene ninguna relación con la educación (supuesto de media condicional cero). Increíble y afecta la interpretación causal del modelo. Dado que la educación aparece explícitamente en la ecuación, podemos medir el efecto de la educación en los salarios manteniendo la experiencia constante. Aquí también necesitamos supuestos sobre la relación del error con las variables educación y experiencia. u 46
Regresionon multivariada (salida de Stata). reg SALARIO EDUC EXP Source SS df MS Number of obs = 540 -------------+------------------------------ F( 2, 537) = 67.54 Model 22513.6473 2 11256.8237 Prob > F = 0.0000 Residual 89496.5838 537 166.660305 R-squared = 0.2010 -------------+------------------------------ Adj R-squared = 0.1980 Total 112010.231 539 207.811189 Root MSE = 12.91 ------------------------------------------------------------------------------ SALARIO Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- EDUC 2.678125.2336497 11.46 0.000 2.219146 3.137105 EXP.5624326.1285136 4.38 0.000.3099816.8148837 _cons -26.48501 4.27251-6.20 0.000-34.87789-18.09213 ------------------------------------------------------------------------------ SALARIO ˆ = 26.49 + 2.68EDUC + 0. 56EXP 1
Repaso de estadística básica Juan D. Barón Santiago de Chile, 8 de abril de 2013 48