1. VALORES FALTANTES 2. MECANISMOS DE PÉRDIDA

Documentos relacionados
Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Teorema Central del Límite (1)

Conceptos Básicos de Inferencia

INFERENCIA ESTADISTICA

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Matemáticas 2.º Bachillerato. Intervalos de confianza. Contraste de hipótesis

ESTADÍSTICA. Tema 4 Regresión lineal simple

Análisis de datos Categóricos

Otra característica poblacional de interés es la varianza de la población, 2, y su raíz cuadrada, la desviación estándar de la población,. La varianza

Diseño de Bloques al azar. Diseño de experimentos p. 1/25

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Tema 5. Contraste de hipótesis (I)

Ing. Eduardo Cruz Romero w w w. tics-tlapa. c o m

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

Estadística Espacial en Ecología del Paisaje

CAPÍTULO 4 TÉCNICA PERT

Tema 6. Estadística Descriptiva e Introducción a la Inferencia Estadística

Contenido. 2 Probabilidad 9. Prefacio. 1 Introducci6n a la estadfstica y al an;!llisis de datos

478 Índice alfabético

ESTADÍSTICA DESCRIPTIVA

Marco de referencia. a) Es útil saber si la estrategia de tratamiento sin un. biológico (menos costosa), tiene mejor o igual eficacia

PROGRAMA ACADEMICO Ingeniería Industrial

Control Estadístico de Procesos (SPC) para NO estadísticos.

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Exactitud y Linearidad del Calibrador

4. NÚMEROS PSEUDOALEATORIOS.

Robusticidad de los Diseños D-óptimos a la Elección. de los Valores Locales para el Modelo Logístico

LECTURA 01: LA DISTRIBUCIÓN NORMAL GENERAL. LA DISTRIBUCIÓN NORMAL ESTÁNDAR (PARTE I). TEMA 1: LA DISTRIBUCION NORMAL GENERAL.

ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M.

6. Estimación, DISTRIBUCIONES MUESTREO, Y PRUEBA DE

Muestreo e inferencia

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

6. ESTIMACIÓN DE PARÁMETROS

EJERCICIOS DE ESTADÍSTICA:

Análisis de datos del Aguacate Hass (presentación caja 10 kilogramos)

MEDIDAS DE TENDENCIA CENTRAL

A. J. Pacheco H. Capa. Corporación Centro Nacional de Control de Energía - CENACE Escuela Politécnica Nacional

A. Menéndez Taller CES 15_ Confiabilidad. 15. Confiabilidad

ANALISIS DE FRECUENCIA EN HIDROLOGIA JULIAN DAVID ROJO HERNANDEZ

TRATAMIENTO DE BASES DE DATOS CON INFORMACIÓN FALTANTE SEGÚN ANÁLISIS DE LAS PÉRDIDAS CON SPSS

Técnicas Cuantitativas para el Management y los Negocios I

Estadística y sus aplicaciones en Ciencias Sociales 7. El modelo de regresión simple. Facultad de Ciencias Sociales - UdelaR

En escenarios de incertidumbre: Medir para tomar decisiones.

Fase 2. Estudio de mercado: ESTADÍSTICA

Tema 4: Probabilidad y Teoría de Muestras

Los Métodos de Valoración Indirecta (Costo De Viaje)

Probabilidad II Algunas distribuciones notables. Antonio Cuevas Departamento de Matemáticas Universidad Autónoma de Madrid

Variables aleatorias

EJERCICIOS RESUELTOS DE ESTADÍSTICA II

Teléfono:

Econometría de series de tiempo aplicada a macroeconomía y finanzas

Tercera práctica de REGRESIÓN.

DISTRIBUCIÓN N BINOMIAL

Teoría de la decisión Estadística

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

Intervalos de confianza

Programa. Asignatura: Estadística Aplicada. año de la Carrera de Contador Público

CDEE. Cuestiones 3er Ejercicio. 0 si x 1. k(x + 1) + x2 1. k(x + 1) x si x > 1

Facultad de Ciencias Sociales - Universidad de la República

Estadística Avanzada y Análisis de Datos

OTRAS HERRAMIETAS ESTADISTICAS UTILES. Dra. ALBA CECILIA GARZON

CAPÍTULO I. INTRODUCCIÓN. Cuando se requiere obtener información de una población, y se desean obtener los mejores

UTILIZACIÓN DE LA CAPACIDAD INSTALADA EN LA INDUSTRIA MANUFACTURERA - SEGUNDO TRIMESTRE DE

Tema 5 Algunas distribuciones importantes

Intervalos de Confianza basados en una muestra. Instituto de Cálculo

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

Algunas Distribuciones Continuas de Probabilidad. UCR ECCI CI-1352 Probabilidad y Estadística Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Muestreo. Tipos de muestreo. Álvaro José Flórez. Febrero - Junio Facultad de Ingenierías. 1 Escuela de Ingeniería Industrial y Estadística

Tablas de frecuencias con datos agrupados

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

para una muestra Ref: Apuntes de Estadística, Mtra Leticia de la Torre Instituto Tecnológico de Chiuhuahua

Selección de fuentes de datos y calidad de datos

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Tema 5: Introducción a la inferencia estadística

Estadística Descriptiva. SESIÓN 11 Medidas de dispersión

proporciones y para la Estadística II Equipo Docente: Iris Gallardo Andrés Antivilo Francisco Marro

Objetivos. Epígrafes 3-1. Francisco José García Álvarez

Repaso de conceptos de álgebra lineal

Mediciones II. Todas las mediciones tienen asociada una incertidumbre que puede deberse a los siguientes factores:

Tema 2. Introducción a la Estadística Bayesiana

1. Practica con la siguiente hoja. Las celdas que contienen las fórmulas son de color rojo. Deberás realizar las indicaciones que se adjuntan:

VARIABLES ALEATORIAS DISCRETAS

Departamento de Métodos Cuantitativos para la Economía y la Empresa

Ejercicios T2 y T3.- DISTRIBUCIONES MUESTRALES Y ESTIMACIÓN PUNTUAL

Distribuciones de probabilidad discretas

Modelos de PERT/CPM: Probabilístico

Contraste de hipótesis Tema Pasos del contraste de hipótesis. 1.1 Hipótesis estadísticas: nula y alternativa. 1.3 Estadístico de contraste

ESTADISTICA APLICADA: PROGRAMA

Estimación con PROBE II

Teoría de errores -Hitogramas

Tema. Introducción Pearson Prentice Hall. All rights reserved

Pronósticos Automáticos

11 preguntas para ayudarte a entender un estudio de Casos y Controles

Viernes 7 de octubre de 2005 Mate 3026 Estadística con Programación Prof. José N. Díaz Caraballo

Generación de Variables Aleatorias. UCR ECCI CI-1453 Investigación de Operaciones Prof. M.Sc. Kryscia Daviana Ramírez Benavides

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

Transcripción:

1. VALORES FALTANTES Los valores faltantes son observaciones que en un se tenía la intención de hacerlas, pero por distintas razones no se obtuvieron. Puede ser que no se encuentre a un encuestado, entonces se pierde a toda una unidad, o puede que un individuo no responda todas las preguntas, o que en un estudio longitudinal un individuo no llegue hasta al final. Hacer el análisis estadístico y hacer como si no faltaran observaciones lleva a errores en la inferencia. Al realizar el muestreo resultarán dos cosas, la selección de las unidades y un mecanismo de pérdida de las observaciones. Para hacer una inferencia válida tendremos que tomar en cuenta el mecanismo de pérdida de las observaciones. El proceso de muestreo se conoce, pero el mecanismo de pérdida de observaciones es desconocido. La pérdida de información puede afectar las propiedades de los estimadores (sesgos), así como la potencia de pruebas y longitudes de los intervalos de confianza. Algo que va a determinar la gravedad de los efectos en la inferencia es la forma en que probabilidad de que la observación sea faltante dependa de otras variables (observadas o no) y en el valor mismo de la observación. Se necesitará hacer suposiciones adicionales que permitan inferir con la información observada (incompleta), estas suposiciones son en términos de la relación de la selección de valores faltantes y los valores que hubieran tomado y del comportamiento de los datos no-observados.el determinar si estas suposiciones son plausibles, no puede hacerse en función de los datos que se tienen. (contraejemplo: En regresión si se puede checar la homoscedasticidad a partir de los residuales). Es muy conveniente hacer un análisis de sensibilidad para explorar que pasa si se cambian las suposiciones. 2. MECANISMOS DE PÉRDIDA Notación Denotando a Y como la información con intención de ser recoletada. Y = {Y o, Y m }. Donde Y o es la información observada y Y m la información perdida. El indicador de información perdida R se define como { 1 si Yij no se observa M = [M ij ] = 0 si Y ij sí se observa M está en relación a Y. La validez del análisis dependerá del mecanismo de pérdida, que a su vez está definido por P (M y o, y m ) 1

2.1. Observaciones Perdidas Completamente al Azar (MCAR) Cuando la probabilidad de perdida no depende de lo observado ni de lo no observado P (M y o, y m ) = P r(m) En este caso puede hacerse la inferencia como si no hubiese faltantes. Ejemplo una muestra de laboratorio accidentalmente se cae y rompe. Algunas pareden MCAR pero analizándolas bien podrían no serlo. En un estudio longitudinal alguien no prosigue pues tiene un accidente de çaida bajo el autobús, si el estudio fuera de avance en aprendizaje de un idioma parece que no continuar en el estudio no tiene nada que ver con la variable de aprendizaje, pero si se trata de un estudio psiquiátrico sobre depresión, podría ser que el sujeto no esté respondiendo al tratamiento, entonces la no respuesta (accidente) si tiene que ver con la variable respuesta. Un cuestionario no es respondido pues es robado en la oficina de correos, esto No es aleatorio, pues probablemente esté relacionado con la variable zona donde la oficina está localizada. 2.2. Observaciones Perdidas al Azar (MAR) En este caso el mecanismo de pérdida no depende de la información perdida. P (M y o, y m ) = P (M y o ). Ejemplo Se tiene la presión arterial de todos los individuos y se registra el peso sólamente a aquelos que tienen presión alta. Por ejemplo: variables unidad 1 2 3 4 5 6 1 1 3 4.3 3.5 1 4.46 2 1 3? 3.5?? Las unidades 1 y 2 tienen los mismos valores observados, dados estos valores observados, bajo MAR, las variables 3,5 y 6 de 2 tienen la misma distribución que las variables 3,5 y 6 de la unidad 1. Un caso especial de MAR, es la respuesta uniforme dentro de clases. Por ejemplo si en un estudio se buscan datos de ingreso y categoría de pago de impuestos. Es común que los que ganen más se nieguen a revelar su ingreso. Promediar los datos completos nos llevaría a subestimar el ingreso. Ahora que si se registra la categoría de pago de impuestos de todos los individuos, la no respuesta acerca del ingreso es aleatoria dentro de cada categoría, así que el mecanismo de pérdida depende 2

de la categoría de pago de impuestos, y la pérdida del dato de ingreso NO depende de valor del ingreso mismo. En este caso, para estimar convendría primero calcular el promedio por categoría de impuestos, dado que dentro de cada categoría la pérdida es aleatoria, el promedio es un estimador válido y luego para estimar el ingreso medio de toda la población, se combinan estos estimadores en un promedio ponderando de manera proporcional al tamaño de las categorías de impuestos. 2.3. Observaciones NO Perdidas al Azar (MNAR) Se dice que el mecanismo de pérdida NO es ignorable si los valores perdidos dependen de los valores no observados. P (M y o, y m ) = P r(m y m ). Ejemplo Se tiene la presión arterial de todos los individuos y se registra el peso sólamente a aquellos que sobrepeso. Y para hacer inferencia válida debe hacerse usando Y y modelar de algún modo a M. 3. Reporte de valores faltantes Porcentaje de valores faltantes por renglón Porcentaje de valores faltantes por columna Porcentaje de valores faltantes total Hacer comparaciones a través de tablas, por ejemplo si el porcentaje de faltantes es el mismo en hombres que en mujeres, es el mismo por grupos de edad o por estrato socioeconómico, etc. Hay algún patrón sistemático en los casos completos y los casos incompletos Este tipo de reportes ayuda en ocasiones a detectar si existen ciertas razones que ayuden a predecir si habrá o no un faltante. Por ejemplo los que pertenecen a un programa de ayuda del gobierno tienden a no contestar acerca de su ingreso por temor a que los saquen del programa. 4. Tratamiento de valores faltantes 1. Delete cases Deshacerse de los casos con algún valor faltante. Si no se trata de un MCAR este método causa sesgo. Causa también pérdida de potencia de las pruebas. A veces se tira demasiada información. 2. Imputar 3

5. Métodos de imputación Sencilla media El valor faltante se rellena con la media de los casos completos. (Genera sesgo en cualquiera de los tres tipos de valores faltantes) hot deck El valor faltante se rellena con los valores de otro caso similar, pero que no pertenece a la muestra, por lo que se debe tener un montoncito de información reservado por si acaso hay valores faltantes en la muestra. (Genera sesgo en cualquiera de los tres tipos de valores faltantes) modelo predicción Se rellena con la predicción de algún modelo por ejemplo uno de regresión lineal, que toma en cuenta las variables observadas. (resulta insesgada bajo MCAR y MAR, pero potencialmente sesgada bajo NMAR) 1. Se rellena con la predicción de la media de un modelo de regresión, por ejemplo ingreso i = ˆα + ˆβ i edad i 2. Se rellena con la predicción de una observación cualquiera del modelo de regresión, por ejemplo ingreso i = ˆα + ˆβ i edad i + e i, con e i es una observación de una normal N(0, σ). 3. En los casos NMAR se puede modelar la función de distribución conjunta de M y Y F MY (M ij, Y ij ). Este modelo no es tan sencillo y se utiliza el método iterativo de Esperanza y Maximización EM. O se puede usar un modelo de patrones: se clasifican a los casos según sus valores faltantes u sus valores observados y se hace un modelo en cada grupo para hacer el rellenado grupo por grupo. (Método EM:Suponiendo que los datos Y, tienen por ejemplo una distribución NMV (µ, Σ), con la información completa estimo µ y Σ, uso el modelo de predicción para rellenar los datos, mismos que se utilizan para re-estimar a µ y Σ, y de nuevo cambio el rellenado con las estimaciones nuevas y así sucesivamente.) Ver artículo Schafer y Graham 2002. Missing Data: Our View of the State of the Art, en Psycological Methods vol 7, 2, 147-177. 6. Imputación Múltiple En este caso se generan varios conjuntos de datos rellenados, usando algún método de imputación simple, digamos que se tienen ahora D conjuntos. Para cada conjunto se estima el parámetro de interés digamos γ, se tienen entonces ˆγ 1,..., ˆγ D, cada uno con error estándar U i con i = 1,..., D. Y el estimador que se usa es γ = γ i /D 4

cuya incertidumbre o varianza es T D = ŪD + (1 + 1/D)B D con y B D = Ū D = U i /D (Promedio de varianzas) (ˆγ i γ) 2 /(D 1) (Varianza entre imputaciones) 5