Repaso de estadística básica. Juan D. Barón Santiago de Chile, 8 de abril de 2013

Documentos relacionados
ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Muestreo e inferencia

Teorema Central del Límite (1)

Tercera práctica de REGRESIÓN.

Medidas de dispersión

ESTADÍSTICA. Tema 4 Regresión lineal simple

Tema 5. Contraste de hipótesis (I)

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

Fase 2. Estudio de mercado: ESTADÍSTICA

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

Estadística y sus aplicaciones en Ciencias Sociales 7. El modelo de regresión simple. Facultad de Ciencias Sociales - UdelaR

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Tema 4 Variables Aleatorias

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

Pruebas de Hipótesis-ANOVA. Curso de Seminario de Tesis Profesor QF Jose Avila Parco Año 2016

INFERENCIA ESTADISTICA

UNIDAD 6. Estadística

Contrastes de hipótesis paramétricos

Contraste de hipótesis Tema Pasos del contraste de hipótesis. 1.1 Hipótesis estadísticas: nula y alternativa. 1.3 Estadístico de contraste

ESTADÍSTICA DESCRIPTIVA

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

MEDIDAS DE TENDENCIA CENTRAL

ANALISIS DE FRECUENCIA EN HIDROLOGIA JULIAN DAVID ROJO HERNANDEZ

Estadística Inferencial. Estadística Descriptiva

478 Índice alfabético

Tema 2. Descripción Conjunta de Varias Variables

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

DEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM

Tabla de Test de Hipótesis ( Caso: Una muestra ) A. Test para µ con σ 2 conocida: Suponga que X 1, X 2,, X n, es una m.a.(n) desde N( µ, σ 2 )

Curso de Estadística Básica

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Estadística Avanzada y Análisis de Datos

Variables aleatorias

CAPÍTULO 4 TÉCNICA PERT

TEMA 3: Contrastes de Hipótesis en el MRL

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2012

Distribución Chi (o Ji) cuadrada (χ( 2 )

LAB 13 - Análisis de Covarianza - CLAVE

Universitat Pompeu Fabra Licenciatura de ADE y Economía Econometría I / 10143) Profesor: Javier Coronado Examen Final Diciembre 2011

para una muestra Ref: Apuntes de Estadística, Mtra Leticia de la Torre Instituto Tecnológico de Chiuhuahua

Tema 5: Introducción a la inferencia estadística

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

Estadística Descriptiva. SESIÓN 11 Medidas de dispersión

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

MÓDULO 1: GESTIÓN DE CARTERAS

Conceptos Básicos de Inferencia

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO. Facultad de Medicina Veterinaria y Zootecnia. Licenciatura en Medicina Veterinaria y Zootecnia

LOS ESTADÍGRAFOS BÁSICOS Y SU INTERPRETACIÓN, M TENDENCIA CENTRAL

UNIDAD 4: MEDIDAS DESCRIPTIVAS: Medidas de dispersión

MEDIDAS ESTADÍSTICAS Medidas de Tendencia Central y de Variabilidad

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

Multicolinealidad. Universidad de Granada. RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17

18 Experimentos aleatorios. Sucesos y espacio muestral. Frecuencia y probabilidad de un suceso.

Funciones de Regresión No Lineales (SW Cap. 6)

Tema 4: Probabilidad y Teoría de Muestras

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

Variable Aleatoria Continua. Principales Distribuciones

MÓDULO III. MEDIDAS DE TENDENCIA CENTRAL, DISPERSIÓN Y ASIMETRÍA

Cointegración El caso bivariado

b) dado que es en valor absoluto será el área entre -1,071 y 1,071 luego el resultado será F(1,071)-(1-F(1,071)=0,85-(1-0,85)=0,7

Estadística. Análisis de datos.

Ejercicios T2 y T3.- DISTRIBUCIONES MUESTRALES Y ESTIMACIÓN PUNTUAL

Otra característica poblacional de interés es la varianza de la población, 2, y su raíz cuadrada, la desviación estándar de la población,. La varianza

ESTADÍSTICA SEMANA 3

Estructura de este tema. Tema 3 Contrastes de hipótesis. Ejemplo

Tema 1.- Correlación Lineal

Dispone de 1 hora para resolver las siguientes cuestiones planteadas.

UNIVERSIDAD INTERAMERICANA DE PUERTO RICO RECINTO DE ARECIBO CENTRO DE SERVICIOS DE APOYO AL ESTUDIANTE

Tema 5. Muestreo y distribuciones muestrales

Curso de Estadística Aplicada a las Ciencias Sociales. Tema 12. Contraste de hipótesis. Introducción. Introducción

Métodos de Investigación en Psicología (10) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

2.- Tablas de frecuencias

Pruebas de Hipótesis Multiples

A qué nos referimos con medidas de dispersión?

Facultad de Ciencias Sociales - Universidad de la República

Precio de la gasolina regular (colones por litro, promedio anual)

Tema 6. Estadística Descriptiva e Introducción a la Inferencia Estadística

OTRAS HERRAMIETAS ESTADISTICAS UTILES. Dra. ALBA CECILIA GARZON

Curva de Lorenz e Indice de Gini Curva de Lorenz

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

MATEMÁTICAS APLICADAS A LAS CC. SOCIALES I. Examen de la tercera evaluación. Nombre y apellidos Fecha: 10 de junio de 2010

Matemáticas 2.º Bachillerato. Intervalos de confianza. Contraste de hipótesis

Programa. Asignatura: Estadística Aplicada. año de la Carrera de Contador Público

REGRESIÓN LINEAL SIMPLE, COEFICIENTE DE DETERMINACIÓN Y CORRELACIONES (EJERCICIOS RESUELTOS)

Contenido. 2 Probabilidad 9. Prefacio. 1 Introducci6n a la estadfstica y al an;!llisis de datos

El Modelo de Regresión Simple

ÍNDICE INTRODUCCIÓN... 21

Teorema de Bayes. mientras que B tiene una tasa de defectos del 4%.

Análisis de datos Categóricos

Exactitud y Linearidad del Calibrador

Regresión con variables independientes cualitativas

Repaso de conceptos de álgebra lineal

ANALISIS E INTERPRETACION DE DATOS SOBRE PERMANENCIA Y GASTOS DE LOS ALUMNOS EN LA UNIVERSIDAD NACIONAL DE INGENIERIA

Transcripción:

Repaso de estadística básica Juan D. Barón Santiago de Chile, 8 de abril de 2013 1

I. CONCEPTOS ESTADÍSTICOS BÁSICOS 2

Las decisiones se toman bajo incertidumbre Las decisiones se basan en información incompleta (ej. no sabemos la efectividad de nuevos programas) Cuando se discute un programa, siempre se usan afirmaciones que dan cierta sensación de certeza (ej. el programa reducirá la inasistencia escolar) Al momento de esas afirmaciones, era imposible saber si eran ciertas (El lenguaje es importante: Es probable que el programa reduzca la inasistencia escolar) Muchas disciplinan usan la estadística para tomar decisiones 3

Muestreo Queremos conocer las características de una población, pero existen restricciones de recursos y/o tiempo en la recolección de datos Población Conjunto completo de todos los objetos que interesan a un investigador Muestra Subconjunto observado de valores de la población de interés Ejemplos Los votantes de un país Las mujeres entre 15 y 49 años Los niños que asisten a la escuela 4

Obtención de una muestra En este curso verán varias formas de seleccionar una muestra En el muestreo aleatorio simple cada elemento de la población se elije estrictamente al azar (aleatoriamente) La muestra resultante se llama: muestra aleatoria 5

Estadística descriptiva e inferencial Estadística descriptiva Métodos gráficos y numéricos usados para resumir, y procesar datos para convertirlos en información Estadística Inferencial Constituye la base para hacer predicciones, previsiones y estimaciones para transformar la información en conocimiento Ej: Estimaciones, pruebas de hipótesis, análisis de relaciones entre variables 6

Medidas de tendencia central A menudo queremos saber si los datos están centrados o agrupados entorno a algún valor Para ello podemos usar diferentes medidas de tendencia central: Media (Media aritmética): suma de todos los valores dividida por el número de observaciones Moda Mediana 7

Medidas de dispersión o variabilidad La media por sí sola no es una descripción completa o suficiente de los datos. En general, es de interés que tanta dispersión existe en los datos Para ello existen diferentes medidas: Varianza y desviación típica Rango Inter-cuartil Coeficiente de variación 8

Varianza Varianza poblacional: Varianza muestral: Estas medidas promedian la distancia total entre cada observación y la media. El cuadrado asegura que las distancias positivas no se cancelen con las negativas, y que toda la información sea usada en el cálculo 9

Desviación típica o estándar Desviación estándar poblacional: Desviación estándar muestral: La desviación típica no es más que la raíz cuadrada de la varianza A diferencia de la varianza, la desviación típica esta expresada en las mismas unidades en que están los datos 10

Medida de relación (lineal) entre variables: coeficiente de correlación El coeficiente correlación (r) es una medida de la relación (lineal), o asociación, que existe entre dos variables Se calcula como el cociente entre la covarianza entre las dos variables y el producto de las desviaciones estándar de cada una de ellas (poblacional y muestral) El coeficiente de correlación toma valores: Entre -1 y 1 Cercanos a 1 si la relación es positiva 11 Cercanos a -1 si la relación es negativa

Diferente correlaciones 12

Algunos tipos de variables Variables ficticias (dummy): variables que toman solamente dos valores. En general indican alguna características del individuo (ej. 0 para hombres; 1 para mujeres) Variables Continuas: Variables que pueden tomar cualquier valor en un rango determinado Variables categóricas: Variable cuyos valores indican una categoría (1=casado; 2=soltero; 3=divorciado) 13

Variables aleatorias Variable aleatoria: Variable cuyo valor es incierto. Función de densidad de probabilidad (fdp): (Discreta) Función que proporciona la probabilidad de que la variable aleatoria tome cada valor (Continua) El área bajo la fdp proporciona la probabilidad de diferentes sucesos.

Probabilidad EJEMPLO DE DISTRIBUCIÓN DE PROBABILIDAD: X ES LA SUMA DE DOS DADOS 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 2 3 4 5 6 7 8 9 10 11 12 X La distribución se muestra gráficamente. En este ejemplo ésta es simétrica, el valor más alto que X toma es 7, y se reduce a cualquiera de los dos lados. 14

Variables aleatorias continuas Cómo luce la distribución Normal y t? normal distribution t-distribution Tenga en cuenta que en la medida en que la muestra es mas grande (>100) la distribución de probabilidad normal es una buena aproximación a la distribución t de Student

Estimador y estimación Un estimador de un parámetro poblacional es una variable aleatoria que depende de la información de la muestra Vimos el estimador de la media, la varianza, y del coeficiente de correlación poblacional Si aplicamos estos estimadores (fórmulas) a diferentes muestras de la misma población, obtendremos diversas estimaciones Dichas estimaciones son aproximaciones a esos parámetro desconocidos de la población 17

Error estándar vs. Desviación estándar La desviación estándar es una medida de la dispersión de los datos alrededor de la media en una muestra. El error estándar describe qué tan preciso es el estimador de la media poblacional. Veremos algunos resultados de Stata que muestran estas diferencias. 18

Intervalos de confianza Un estimador de un intervalo de confianza de un parámetro poblacional es una regla (basada en información muestral) para hallar un intervalo que es probable que incluya ese parámetro. Si se hacen repetidos muestreos de una población y se calculan intervalos, a largo plazo el 95% de los intervalos contendrá el verdadero valor desconocido del parámetro 19

Intervalo de confianza de media poblacional (varianza no conocida) 20

Intervalos de confianza Los intervalos de confianza son calculados fácilmente en Stata u otros programas Usualmente son presentados en gráficos: 21

II. PRUEBAS DE HIPOTESIS 22

Prueba de hipótesis Para realizar pruebas de hipótesis necesitamos Hipótesis nula en términos de parámetro poblacional (Ho) Una hipótesis alternativa (Ha) Un nivel de significancia de la prueba (α=5%) Un estadístico calculado a partir de la información en la muestra (estadístico t) Conocer la distribución muestral para el estimador (valor crítico) Una regla de decisión (En general, si el valor absoluto del estadístico es mayor que el del valor crítico, entonces rechace Ho en favor de Ha.) 23

El valor p La gran mayoría de programas estadísticos arrojan un valor-p que nos sirve para hacer una prueba de hipótesis bastante rápido El valor p es el nivel de significancia más bajo al que puede rechazarse la hipótesis nula. El valor p toma valores entre 0 y 1 Si: valor p < nivel de signif. (5%) => Rechaza Ho Lleva a las mismas conclusiones que hacer las pruebas comparando estadístico con valor critico en tablas 24

Prueba de la diferencia de medias Queremos evaluar si los resultados promedio de hombres y mujeres en una prueba académica son los mismos (Ho). ttest write, by(female) unequal Two-sample t test with unequal variances ------------------------------------------------------------------------------ Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- male 91 50.12088 1.080274 10.30516 47.97473 52.26703 female 109 54.99083.7790686 8.133715 53.44658 56.53507 ---------+-------------------------------------------------------------------- combined 200 52.775.6702372 9.478586 51.45332 54.09668 ---------+-------------------------------------------------------------------- diff -4.869947 1.331894-7.499159-2.240734 ------------------------------------------------------------------------------ diff = mean(male) - mean(female) t = -3.6564 Ho: diff = 0 Satterthwaite's degrees of freedom = 169.707 Ha: diff < 0 Ha: diff!= 0 Ha: diff > 0 Pr(T < t) = 0.0002 Pr( T > t ) = 0.0003 Pr(T > t) = 0.9998 25

III. REGRESION SIMPLE 26

Terminología y β + β 0 x + = 1 u x y y vienen de dos poblaciones y queremos explicar y en términos de x (ejemplos) En el modelo de regresión lineal simple, donde y = β 0 + β 1 x + u, nos referimos a y como Variable Dependiente, Variable de lado izquierdo, Variable Explicada, o Regresando 27

Terminología (cont.) y β + β 0 x + = 1 En el modelo de regresión lineal simple y en x, nos referimos a x como Variable Independiente, Variable del lado derecho, Variable Explicativa, Regresora, Covariable, o Variables de Control u 28

Terminología (cont.) y β + β 0 x + = 1 En el modelo de regresión lineal simple y en x, nos referimos a u como Término de error Representa TODOS aquellos factores, aparte de x que afectan a y. u = unobserved ( no observado ) u 29

30 Recuerde: esta línea (FRP) no la conocemos, ni la conoceremos jamás

Terminología (cont.) y β + β 0 x + En el modelo de regresión lineal simple y en x, nos referimos a los parámetros como: β 0 = 1 : el intercepto β 1 : coeficiente de pendiente Si otros factores en u se mantienen constantes, entonces x tiene un efecto lineal en y: y = β1 x u Pregunta: Si x aumenta en una unidad, ceteris paribus, en cuánto aumenta y? 31

Supuestos sobre el modelo Será que el modelo de regresión simple nos permite llegar a conclusiones ceteris paribus sobre el efecto de x en y? β 1 Vimos que sí mide el efecto de x en y, manteniendo todos los otros factores (en u) constantes. Pero, cómo podemos aprender sobre el efecto de x en y, manteniendo otros factores constantes, cuando no conocemos los otros factores? Solo podemos obtener estimadores confiables de β 0 y β 1 (de una muestra aleatoria) cuando hacemos un supuesto bastante fuerte que restringe la relación entre u y las variables explicatorias, x.

33 El estimador MCO de la pendiente ( )( ) ( ) ( ) 0 vez que toda ˆ 1 2 1 2 1 1 > = = = = n i i n i i n i i i x x x x y y x x β

El estimador MCO de la pendiente La pendiente estimada es la covarianza muestral entre x y y dividida por la varianza muestral de x Si x y y están correlacionadas positivamente, la pendiente será positiva Si x y y están correlacionadas negativamente, la pendiente será negativa Solo necesitamos que x varíe en la muestra 34

Más sobre MCO Intutivamente, MCO ajusta una línea a través de los datos muestrales de modo que la suma de los residuos al cuadrado sea la mínima posible, de ahí el término mínimos cuadrados 35

Bondad de ajuste del modelo (R2) Cómo saber qué tan bueno es el ajuste entre la línea de regresión y los datos de la muestra? Podemos calcular la proporción de la suma total de cuadrados (STC) que es explicada por el modelo, llamada R-cuadrado de la regresión R 2 = SEC/STC = 1 SRC/STC El R2 nos dice la fracción de la variación muestral de y que es explicada por x. (Toma valores entre 0 y 1) 36

INTERPRETACION DE UNA ECUACION DE REGRESION SALARIO POR HOJA DE TRABAJO 0 100 200 300 0 5 10 15 20 ESCOLARIDAD EN AÑOS Esta gráfica para Colombia, usa información para 696 personas entre 25 y 60 años de la Encuesta de Hogares, año 1977. En el eje vertical esta el salario por hora y en el eje horizontal esta el numero de años de escolaridad. 1

INTERPRETACION DE UNA ECUACION DE REGRESION 0 100 200 300 Salario = 4.12 + 3. 26S 0 5 10 15 20 ESCOLARIDAD EN AÑOS SALARIO POR HOJA DE TRABAJO Fitted values Y para Colombia esta es la gráfica. Para Colombia b1= 4.12, b2=3.26 1

INTERPRETACION DE UNA ECUACION DE REGRESION. regress hwage s Source SS df MS Number of obs = 696 -------------+------------------------------ F( 1, 694) = 178.80 Model 140010.958 1 140010.958 Prob > F = 0.0000 Residual 543447.818 694 783.06602 R-squared = 0.2049 -------------+------------------------------ Adj R-squared = 0.2037 Total 683458.776 695 983.393922 Root MSE = 27.983 ------------------------------------------------------------------------------ hwage Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- s 3.263788.2440844 13.37 0.000 2.784555 3.74302 _cons 4.117141 2.006894 2.05 0.041.1768284 8.057453 ------------------------------------------------------------------------------ Estos son los resultados! Cuál es la interpretación de cada coeficiente?

Evaluando hipótesis: La prueba de significancia Asuma que la ecuación de regresión está dada por y = α + βx + u t para t=1,2,...,t Los pasos para hacer la prueba de significancia: 1. Estime α, β y SE( α ), SE( β ) de la manera usual t t 2. Calcule el estadístico t. Este esta dado por la fórmula β β * test statistic = SE( β ) donde β * es el valor de β bajo la hipótesis nula

La prueba de significancia (cont.) 3. Necesitaremos una distribución tabulada con la cual podamos comparar el t-estadístico estimado. Se puede mostrar que los estadísticos calculados de esta forma siguen una distribución t Student con T-2 grados de libertad. 4. Necesitaremos seleccionar un nivel de significancia, denotado α. A este también se le conoce como el tamaño de la prueba y determina la región donde rechazaremos o no rechazaremos la hipótesis nula que estamos evaluando. Usualmente se usa un nivel de significancia de 5%. Explicación intuitiva: Solo esperaremos un resultado tan extremo como este o más extremo en 5% de las veces como consecuencia de la aleatoriedad de la muestra. También es común usar niveles de significancia de 10% y 1%, aunque 5% es el más usado.

Encontrando la región de rechazo en la prueba de significancia 5. Dado el nivel de significancia, podemos determinar la región de rechazo y de no-rechazo. Para un test a dos colas: f(x) 2.5% rejection region 95% non-rejection i 2.5% rejection region

La prueba de significancia: Interpretación 6. Use la tabla de la distribución para obtener un valor crítico con el que compararemos el estadístico t. 7. Finalmente, haga la prueba. Si el estadístico de la prueba cae en la región de rechazo, rechace la hipótesis nula (H 0 ), en otro caos NO SE RECHAZA H 0. Lenguaje: Se habla de rechazar y no rechazar una hipótesis, NO se habla de aceptar una hipótesis.

IV. REGRESION MULTIVARIADA 44

Similitudes con Regresión Simple y = β 0 + β 1 x 1 + β 2 x 2 +... β k x k + u β 0 es el intercepto β 1 a β k se conocen como parámetros de pendiente u es el término de error Supuestos fuertes se necesitan para una interpretación causal entre la variable y y las variables independientes (x). 45

Ejemplo salario = β + β educ + β 0 1 2exper + Estamos interesados en el efecto de la educación en el salario (es decir beta1), pero manteniendo constantes otros factores que afectan el salario. Interpretación de beta2? En regresión simple, la experiencia está en el error, y debemos asumir que la experiencia no tiene ninguna relación con la educación (supuesto de media condicional cero). Increíble y afecta la interpretación causal del modelo. Dado que la educación aparece explícitamente en la ecuación, podemos medir el efecto de la educación en los salarios manteniendo la experiencia constante. Aquí también necesitamos supuestos sobre la relación del error con las variables educación y experiencia. u 46

Regresionon multivariada (salida de Stata). reg SALARIO EDUC EXP Source SS df MS Number of obs = 540 -------------+------------------------------ F( 2, 537) = 67.54 Model 22513.6473 2 11256.8237 Prob > F = 0.0000 Residual 89496.5838 537 166.660305 R-squared = 0.2010 -------------+------------------------------ Adj R-squared = 0.1980 Total 112010.231 539 207.811189 Root MSE = 12.91 ------------------------------------------------------------------------------ SALARIO Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- EDUC 2.678125.2336497 11.46 0.000 2.219146 3.137105 EXP.5624326.1285136 4.38 0.000.3099816.8148837 _cons -26.48501 4.27251-6.20 0.000-34.87789-18.09213 ------------------------------------------------------------------------------ SALARIO ˆ = 26.49 + 2.68EDUC + 0. 56EXP 1

Repaso de estadística básica Juan D. Barón Santiago de Chile, 8 de abril de 2013 48