ANÁLISIS DE DATOS CON STATA (Manejo de base de datos) Fortino Vela Peón Agosto, 2011

Documentos relacionados
ANÁLISIS DE DATOS CON STATA (Manejo de base de datos) Fortino Vela Peón Agosto, 2011

Sesión 5 Introducción a Stata IV

PRESENTACIÓN DE LA ENCUESTA NACIONAL DE OCUPACIÓN Y EMPLEO (ENOE)

Módulo de Condiciones Socioeconómicas

ANÁLISIS DE REGRESIÓN. Caso 1. Pegado de bases para un conjunto de datos rectangulares de igual tamaño

Estudio Nacional de Salud y Envejecimiento en México. ENASEM 2012 Descripción de los Archivos de Datos. Versión 1. Septiembre 2013

CONSULTAS MULTITABLAS

Medición n de la migración n internacional mexicana a partir de la ENOE

INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA

NOTA: Análisis de la evolución de la información de los ingresos laborales en la Encuesta Nacional de Ocupación y Empleo (ENOE)

Observatorio Social Universidad Alberto Hurtado

Econometría 1. Karoll GOMEZ Segundo semestre 2017

Universidad Surcolombiana Facultad de Economía y Administración Programa de Economía Syllabus: Econometría Profesor: Oscar Hernán Cerquera Losada

Maribel Martínez y Ginés Ciudad-Real Fichas para mejorar la atención MATRIZ DE LETRAS

Unidad 2. Bases de Datos Relacionales

Introducción al Stata

Microsoft Project 2013

Trabajar con formatos que contienen campos tipo tabla

ÍNDICE. Introducción... Capítulo 1. Características, instalación, inicio y entorno de trabajo... 1

Informática I ACI-191. Taller de Informática

Procedimiento para realizar los reportes de ausencia de operaciones sospechosas y transacciones en efectivo

MIGRACIÓN N INTERNACIONAL A PARTIR DE LA INFORMACIÓN N DE LA ENOE

Una base de datos de Access puede estar conformada por varios objetos, los más comunes son los siguientes:

PRUEBAS INFORMALES DE NORMALIDAD PARA UN CONJUNTO UNIVARIADO DE MEDICIONES.

Diseña y Administra Bases de Datos Guía de Estudio

Presentación. INEGI. ENOE. Catálogo de Codificación de Carreras

Bases Numéricas. Por ejemplo: El valor en combinación de los símbolos 234 es determinado por la suma de los valores correspondientes a cada posición:

Ministerio de Educación. Base de datos en la Enseñanza. Open Office. Módulo 4: Tareas básicas con las consultas

Access CURSO ACCESS BÁSICO 2003 UNIDAD 2 UNIDAD 2 Creación de una base de datos

Introducción Base de datos Tabla Tipos de campos Clave principal Índice Administrador de base de datos Relaciones entre tablas Consulta Formulario

INTRODUCCIÓN Y CONCEPTO

Estructuras de datos

Econometría III (20853) Profesores Grupos 1 y 2: Clases magistrales: Sergi Jiménez Lunes y martes, de a h, aula 40.S02

Funciones en Excel (I)

UNIX. Curso de Modelado Molecular I INTRODUCCIÓN

Encuesta intercensal 2015

Iniciar una combinación de correspondencia

MATERIAL INTRODUCTORIO ORACLE 11G

MICROSOFT OFFICE EXCEL

Las consultas de referencias cruzadas

Create Database BD_Empleado. Use BD_Empleado

GLOSARIO DE TÉRMINOS

Hoja electrónica Microsoft Excel

Capítulo 4. Tablas. Continuar

Te permite la elaboración de libros de trabajo con el fin de organizar datos, información, listas, listados de costos, etc.

PLAUSIBILIDAD DE UTILIZAR LA ENOE Y LA ENIGH COMO

Práctica 6: Consultas

CAPÍTULO 2 PLANTEAMIENTO MATEMÁTICO DEL PROBLEMA

EJERCICIOS LOCALES DE GOBIERNO ABIERTO

Profesor(a): Ing. Miriam Cerón Brito

Sesión 8 Procesando la Encuesta de Demografía y Salud (ENDS) Colombia 2010

Introducción a Stata STATA

Análisis de datos estadísticos con STATA 13

16/02/2010 ANÁLISIS DE MICRODATOS CON STATA. Objetivos. Metodología de trabajo

INDICE CARTAS DESCRIPTIVAS S3

MANEJO DE DATOS CON STATA

UNIVERSIDAD TECNOLOGICA DE PEREIRA PROGRAMA DE TECNOLOGIA ELECTRICA

Tipos de datos para Campos

UNIVERSIDAD ALONSO DE OJEDA FACULTAD DE INGENIERÍA BASE DE DATOS I. Profesora: Dennís Chirinos

Manejo de datos SPSS CAMERINA LAURA RAMIREZ GALLEGOS

criterios de consulta

Encuesta de Turismo de Residentes (ETR/FAMILITUR) Enlace entre FAMILITUR y ETR

1. Lenguaje de Definición de Datos. 2. Lenguaje de Manipulación de. Datos. M. C. Gustavo Alfonso Gutiérrez Carreón

SESIÓN PRÁCTICA 3: TRANSFORMACIONES DE DATOS PROBABILIDAD Y ESTADÍSTICA. PROF. Esther González Sánchez. Departamento de Informática y Sistemas

Procedimiento para identificar las preguntas de los cuestionarios de contexto en las bases de datos PISA 2015

Práctica 2: CONSULTAS

2da Unidad: Base de Datos

SISTEMA DE INFORMACIÓN ESTADISTICO DE LAS TECNOLOGIAS DE LA INFORMACIÓN Y LA COMUNICACIÓN. GUIA PARA LA UTILIZACIÓN DEL SISTEMA.

Usando los operadores SET (Conjunto)

Programa: Maestría En Ciencia Política Unidad de Aprendizaje: Métodos Estadísticos y Técnicas de Coyuntura II

Tema 10: Estructuras de control de entrada y salida

ESTUDIO LONGITUDINAL SOCIAL DE CHILE (ELSOC) PRIMERA OLA (2016) Utilización de la Base de Datos

PARTE I Desarrollen las siguientes cuestiones (concepto, ejemplos, etc):

Modelamiento y Diseño de Base de Datos

Consolidación de datos en un libro de trabajo

MICROSOFT WORD INTRODUCCIÓN

a11 a12 a13 columna a

INSTITUCION EDUCATIVA COLEGIO TOLEDO PLATA PLAN DE ÁREA DE TECNOLOGIA E INFORMATICA GRADO 9º

ENCUESTA DE CONDICIONES DE VIDA EN NAVARRA (SITUACIÓN ECONÓMICA)

UNIDAD 8. LAS CONSULTAS DE RESUMEN

Curso 1º SMR Módulo: AO Actividades 3 (2) Bases de datos:creamos Foreing Keys en BASE

LENGUAJE DE MANIPULACIÓN DE DATOS (DML) CONSULTA DE DATOS

Temario: Curso de Stata Capacitación

ÍNDICE INTRODUCCIÓN...17

Manual de Sentencias Básicas en SQL

1. DML. Las consultas multitabla

HOJAS DE CÁLCULO (4º ESO)

TEMARIO CURSO ACCESS 2010

MANUAL DE ABONOS Y MULTIFACTURACION

Los datos fiscales de la MCVL: algunas ideas para su explotación

Contenido 1. DIAGRAMA DE PROCESO CONFECCION DEL CARTEL VERIFICACION DE CARTEL (APROBACIÓN) PUBLICACIÓN DE CARTEL...

Modificación de Tablas. Miguel Angel Garduño Cordova Isaac Méndez Hernández

INFORMÁTICA MÉDICA. Profesor: MsC. Liz Armenteros Chávez

33.- BARRA DENTRO DE EXCEL QUE DESPLIEGA LA REFERENCIA DE CELDA Y LOS CONTENIDOS DE LAS CELDAS ACTIVAS

TRABAJO DE SUPERACION AREA DE TECNOLOGIA E INFORMATICA

Población ocupada por rama de actividad económica (Número de personas)

Planilla de cálculos Conceptos básicos. Microsoft Excel

UF5- Base de dades (Open Base) 34R/1I/1P-212

UNIVERSIDAD DON BOSCO FACULTAD DE ESTUDIOS TECNOLÓGICOS ESCUELA DE COMPUTACIÓN

Transcripción:

ANÁLISIS DE DATOS CON STATA (Manejo de base de datos) Fortino Vela Peón fvela@correo.xoc.uam.mx Agosto, 2011

Introducción Las bases de datos económicos pueden ser de diversos tipos: 1. Corte transversal(cross section). 2. Series de Tiempo(time series) 3. Combinación de cortes transversales (pooling cross section) 4. Datos panel(panel data) Las características particulares de cada tipo de datos deben ser consideradas a fin sacar provecho del análisis que se realizara de estos datos.

Corte transversal Una base de datos de corte transversal consiste en una muestra de individuos, hogares, empresas, ciudades, estados, países u otras unidades, tomada en algún punto dado en el tiempo (Wooldrige, 2010: 5). Una de sus características más importantes radica que, en muchas ocasiones, se obtienen de un proceso de muestreo aleatorio. Constituye el tipo de datos con el que se inicia el estudio del análisis econométrico. F. VELA

Fuente: Tomado de Wooldridge, 2010: 7. F. VELA

Series de tiempo Una base de datos de series de tiempo consiste de las observaciones de una o varias variables a lo largo del tiempo (Wooldrige, 2010: 8). Una de sus características más importantes radica que, rara vez, puede suponerse que las observaciones sean independientes del tiempo. Constituye el tipo de datos más común en la economía y su estudio es más complejo. F. VELA

Fuente: Tomado de Wooldridge, 2010: 9. F. VELA

Combinación de cortes transversales Al resultado de combinar diferentes cortes transversales se le da el nombre de una base de datos pooling. Permite ampliar el tamaño de la muestra. Constituye el tipo de datos que permite analizar los efectos de los cambios en políticas públicas al observar las diferencias que presentan las variables en el tiempo. F. VELA

Datos panel Un conjunto de datos de panel (o longitudinal) consiste en una serie de tiempo por cada unidad de una base de datos de corte transversal (Wooldrige, 2010: 10). F. VELA Su característica que los distingue de las combinaciones de cortes transversales, es que durante un intervalo de tiempo se siguen a las mismas unidades de observación de un corte transversal.

Fuente: Tomado de Wooldridge, 2010: 9. F. VELA

Las bases de datos Las bases de datos se han constituido en una de las herramientas más ampliamente difundidas en la actual sociedad de la información en todos los campos del conocimiento. Dada la variedad de tópicos en diferentes niveles de análisis- que se captan en una base de datos está puede estar conformada por un conjunto de archivos en los que se distribuye la información obtenida de acuerdo con los temas considerados.

Combinando bases de datos 1/ Existen cuatro comandos (métodos) para combinar bases de datos: 1. Añadiendo(appending). 2. Combinando(merging) 3. Juntando(joining) 4. Cruzando(crossing) La versión 11 introduce una nueva sintaxis para el comando merge. 1/ Para estas notas es necesario obtener los archivos de datos dmus1 y dmus2 de net from http://www.stata-press.com/data/dmus, en la forma net get dmus1 y net get dmus2. De igual manera, se requiere obtener de net from http://www.statapress.com/data/kk2, los archivos net get data y net get kksoep.

Los comandos más utilizados son append y merge. Para nuestros fines, inicialmente podemos considerar a una base de datos (archivo) como un arreglo rectangular entre observaciones (renglones) y variables (columnas). append añade observaciones (renglones) a una base de datos. merge se agregan variables (columnas) a una base de datos.

Bases de datos en diferentes situaciones Caso 1: añadir observaciones archivo 1 archivo 2 id var1 id var1 Caso 3: seguir observaciones y combinar variables archivo 5 archivo 6 id var1 id var2 1 6 1 1 2 7 2 9 3 8 3 10 4 9 4 5 5 10 5 3 Caso 2: combinar variables archivo 3 archivo 4 id var1 id var2 1 1 Caso 4: agregar obs. y añadir var. diferentes niveles archivo 7 archivo 8 (individuos) (hogares) id var1 id var2 1 1 2 2 1 2 3 3 1 3 4 4 2 4 5 5 2 5

Merge: one-to-one-match merging El procedimiento match-merge combina dos bases de datos (archivos) empleando una o más variables clave para integrar a las observaciones entre las dos bases (Mitchell, 2010:189). La(s) variable(s) clave identifica(n) a cada observación en cada base de datos. Las ilustraciones siguientes emplean bases de datos pequeñas pero el funcionamiento es similar con bases de datos de mayor tamaño.

Considere moms1.dta y dads1.dta. use moms1 list use dads1 list use moms1 merge 1:1 famid using dads1 list variable clave Nota: Recuerde obtener los archivos de datos dmus1 y dmus2 de: net from http://www.stata-press.com/data/dmus net get dmus1 net get dmus2

+----------------------------+ famid mage mrace mhs ---------------------------- 1. 1 33 2 1 2. 2 28 1 1 3. 3 24 2 1 4. 4 21 1 0 +----------------------------+ use moms1 list +----------------------------+ famid dage drace dhs ---------------------------- 1. 1 21 1 0 2. 2 25 1 1 3. 3 31 2 1 4. 4 25 2 1 +----------------------------+ use dads1 list Result # of obs. ----------------------------------------- not matched 0 matched 4 (_merge==3) ----------------------------------------- merge 1:1 famid using dads1 +---------------------------------------------------------------+ famid mage mrace mhs dage drace dhs _merge --------------------------------------------------------------- 1. 1 33 2 1 21 1 0 matched (3) 2. 2 28 1 1 25 1 1 matched (3) 3. 3 24 2 1 31 2 1 matched (3) 4. 4 21 1 0 25 2 1 matched (3) +---------------------------------------------------------------+ list

El listado denominado Result confirma que, al utilizar el comando merge, cada observación de moms1.dta fue integrado a dads1.dta. Result # of obs. ----------------------------------------- not matched 0 matched 4 (_merge==3) ----------------------------------------- Con list podemos apreciar que la variable clave famid (identificador del hogar) ha permitido combinar a las variables de los dos archivos: dmoms1.dta y dads1.dta. +---------------------------------------------------------------+ famid mage mrace mhs dage drace dhs _merge --------------------------------------------------------------- 1. 1 33 2 1 21 1 0 matched (3) 2. 2 28 1 1 25 1 1 matched (3) 3. 3 24 2 1 31 2 1 matched (3) 4. 4 21 1 0 25 2 1 matched (3) +---------------------------------------------------------------+

En el lenguaje del comando merge de Stata, moms1.dta es la master dataset, dads1.dta es la using dataset y famid es la key variable. Qué si algunas observaciones no empatan en los archivos? Veamos un segundo ejemplo.

Considere moms2.dta y dads2.dta. use moms2 list use dads2 list use moms2 merge 1:1 famid using dads2 list +---------------------------------------+ famid mage mrace mhs fr_moms2 --------------------------------------- 1. 1 33 2 1 1 2. 3 24 2 1 1 3. 4 21 1 0 1 4. 5 39 2 0 1 +---------------------------------------+ +---------------------------------------+ famid dage drace dhs fr_dads2 --------------------------------------- 1. 1 21 1 0 1 2. 2 25 1 1 1 3. 4 25 2 1 1 +---------------------------------------+

Result # of obs. ----------------------------------------- not matched 3 from master 2 (_merge==1) from using 1 (_merge==2) matched 2 (_merge==3) ----------------------------------------- +-----------------------------------------------------------------------------------------+ famid mage mrace mhs fr_moms2 dage drace dhs fr_dads2 _merge ----------------------------------------------------------------------------------------- 1. 1 33 2 1 1 21 1 0 1 matched (3) 2. 3 24 2 1 1.... master only (1) 3. 4 21 1 0 1 25 2 1 1 matched (3) 4. 5 39 2 0 1.... master only (1) 5. 2.... 25 1 1 1 using only (2) +-----------------------------------------------------------------------------------------+ El comando merge resume la forma en que se realizo el empate de las observaciones. Se puede observar que las familias 3 y 5 tienen datos para moms2.dta pero no para dads2.dta.

Merging: one-to-many match merging El procedimiento 1:1 merge combino uno a uno las observaciones de dos bases de datos (archivos) empleando una variable clave. En contraste cuando se combinan madres e hijos es claro que una madre puede tener más de un hijo lo que da origen al procedimiento denominado one-to-many (uno a muchos). moms1.dta es 1 base de datos mientras que kids1.dta es una base de datos m.

Considere moms1.dta y kids1.dta. use moms1 list use kids1 list +----------------------------+ famid mage mrace mhs ---------------------------- 1. 1 33 2 1 2. 2 28 1 1 3. 3 24 2 1 4. 4 21 1 0 +----------------------------+ +-----------------------------+ famid kidid kage kfem ----------------------------- 1. 3 1 4 1 2. 3 2 7 0 3. 2 1 8 0 4. 2 2 3 1 5. 4 1 1 0 ----------------------------- 6. 4 2 3 0 7. 4 3 7 0 8. 1 1 3 1 +-----------------------------+

La variable clave es famid. Se puede observar que la madre de la familia 1 solo tiene un hijo pero la de la familia 4 tiene 3 hijos. +-----------------------------+ famid kidid kage kfem ----------------------------- 1. 3 1 4 1 2. 3 2 7 0 3. 2 1 8 0 4. 2 2 3 1 5. 4 1 1 0 ----------------------------- 6. 4 2 3 0 7. 4 3 7 0 8. 1 1 3 1 +-----------------------------+ Se busca combinar las dos bases de datos (las variables de manera que corresponda a la misma familia)

Siguiendo con la sintaxis se tiene use moms1 merge 1:m famid using kids1 Result # of obs. ----------------------------------------- not matched 0 matched 8 (_merge==3) ----------------------------------------- Se señala que todas las observaciones fueron empatadas (match). Es posible ordenar la base de datos resultante considerando las variables famid y kidid.

Siguiendo con la sintaxis sort famid kidid list, sepby(famid) +----------------------------------------------------------------+ famid mage mrace mhs kidid kage kfem _merge ---------------------------------------------------------------- 1. 1 33 2 1 1 3 1 matched (3) ---------------------------------------------------------------- 2. 2 28 1 1 1 8 0 matched (3) 3. 2 28 1 1 2 3 1 matched (3) ---------------------------------------------------------------- 4. 3 24 2 1 1 4 1 matched (3) 5. 3 24 2 1 2 7 0 matched (3) ---------------------------------------------------------------- 6. 4 21 1 0 1 1 0 matched (3) 7. 4 21 1 0 2 3 0 matched (3) 8. 4 21 1 0 3 7 0 matched (3) +----------------------------------------------------------------+ De esta manera, por ejemplo, se puede apreciar que la madre de la familia 4 tiene tres hijos donde su información se despliega en tres ocasiones.

Qué sucede si los archivos no empatan perfectamente? Veamos este caso: use moms2 list use kids2 list +---------------------------------------+ famid mage mrace mhs fr_moms2 --------------------------------------- 1. 1 33 2 1 1 2. 3 24 2 1 1 3. 4 21 1 0 1 4. 5 39 2 0 1 +---------------------------------------+ +-----------------------------+ famid kidid kage kfem ----------------------------- 1. 2 2 3 1 2. 2 1 8 0 3. 3 2 7 0 4. 3 1 4 1 5. 4 2 3 0 ----------------------------- 6. 4 3 7 0 7. 4 1 1 0 +-----------------------------+

Siguiendo con la sintaxis use moms2 merge 1:m famid using kids2 list Result # of obs. ----------------------------------------- not matched 4 from master 2 (_merge==1) from using 2 (_merge==2) matched 5 (_merge==3) ----------------------------------------- Los resultados señalan que 5 observaciones fueron empatadas y 4 no lo fueron. Entre las no empatadas 2 provienen del master dataset y las otras 2 del using dataset.

La base de datos combinada se puede ordenar de acuerdo a famid y kidid. sort famid kidid list, sepby(famid) F. VELA +-------------------------------------------------------------------------------+ famid mage mrace mhs fr_moms2 kidid kage kfem _merge ------------------------------------------------------------------------------- 1. 1 33 2 1 1... master only (1) ------------------------------------------------------------------------------- 2. 2.... 1 8 0 using only (2) 3. 2.... 2 3 1 using only (2) ------------------------------------------------------------------------------- 4. 3 24 2 1 1 1 4 1 matched (3) 5. 3 24 2 1 1 2 7 0 matched (3) ------------------------------------------------------------------------------- 6. 4 21 1 0 1 1 1 0 matched (3) 7. 4 21 1 0 1 2 3 0 matched (3) 8. 4 21 1 0 1 3 7 0 matched (3) ------------------------------------------------------------------------------- 9. 5 39 2 0 1... master only (1) +-------------------------------------------------------------------------------+

Merging: many-to-one match merging El procedimiento ilustrado anteriormente para el comando merge fue 1:m (one-to-many), pero Stata permite también combinar m:1 (manyto-one), en el cual el master dataset puede tener múltiples observaciones que empatar al using dataset en el cual la(s) variable(s) clave(s) identifican de manera única a cada observación. En concreto, para el ejemplo anterior, más que combinar a las madres con los hijos, es posible combinar a los hijos con las madres. F. VELA

La sintaxis sería entonces use kids1 merge m:1 famid using moms1 Result # of obs. ----------------------------------------- not matched 0 matched 8 (_merge==3) ----------------------------------------- Como se muestra a continuación, las variables del archivo kids1.dta aparecen antes que las del archivo moms1.dta debido a que kids1.dta hace el papel de master dataset y moms1.dta el de using dataset.

Ordenando nuevamente por famid y kidid se tiene sort famid kidid list, sepby(famid) F. VELA +----------------------------------------------------------------+ famid kidid kage kfem mage mrace mhs _merge ---------------------------------------------------------------- 1. 1 1 3 1 33 2 1 matched (3) ---------------------------------------------------------------- 2. 2 1 8 0 28 1 1 matched (3) 3. 2 2 3 1 28 1 1 matched (3) ---------------------------------------------------------------- 4. 3 1 4 1 24 2 1 matched (3) 5. 3 2 7 0 24 2 1 matched (3) ---------------------------------------------------------------- 6. 4 1 1 0 21 1 0 matched (3) 7. 4 2 3 0 21 1 0 matched (3) 8. 4 3 7 0 21 1 0 matched (3) +----------------------------------------------------------------+

Hacia donde vamos? F. VELA

ENOE Para algunas instituciones generadoras de información, una base de datos es un conjunto de tablas con información de diferente tipo, las cuales se relacionan entre sí mediante campos de identificación que les son comunes y que sirven para poder vincularlas (INEGI, 2007:1). Una tabla almacena datos de un tema en particular, en registros (filas) y campos (columnas).

La conformación de la base de datos de la Encuesta Nacional de Ocupación y Empleo (ENOE) lo hace de la siguiente manera: 1. Tabla de vivienda VIV 2. Tabla de hogares HOG 3. Tabla de Sociodemográfico SDEM 4. Tabla de cuestionario de ocupación y empleo I COE1 5. Tabla de cuestionario de ocupación y empleo II COE2

El nombre de las tablas de datos se hace añadiendo a las iniciales la letra T y un número a tres dígitos, el cual indica el trimestre y año de la información en cuestión. Así, por ejemplo, los nombres asignados para las cinco tablas que conforman la base de datos de la ENOE para el primer trimestre de 2005 son: 1. VIVT105.DBF 2. HOGT105.DBF 3. SDEMT105.DBF 4. COE1T105.DBF 5. COE2T105.DBF

Cada tabla de ENOE contiene un número determinado de registros (entiéndase como registro, a cada renglón que existe en la tabla). La siguiente imagen representa la relación que existe entre las tablas y sus registros

Se interpreta; para cada vivienda existe uno o más hogares, para cada hogar existe uno o más residentes con sus características sociodemográficas, para cada residente con edad de 12 años cumplidos o más existe un cuestionario de ocupación y empleo. http://www.inegi.org.mx/sistemas/microdatos 2/encuestas.aspx?c=14439&s=est

Terminología de una base de datos Tabla Es la estructura básica de almacenamiento de una base de datos, consiste en una o más columnas y cero o más filas. Fila Es la combinación de los valores de las columnas en una tabla; una fila es comúnmente llamada registro. Columna Representa un tipo de datos en una tabla. Esta es descrita con un nombre y contiene información de un tamaño y tipo específico. También conocida como variable.

Campo El campo puede contener información. Si no hay información en el campo, se dice que tiene un valor nulo (NULL). Llave primaria (campo llave) Identificador de la tabla que permite, mantener una relación de pertenencia de información, además de ser indispensable para poder relacionar dos o más tablas si fuera necesario, cuando la unidad de análisis sean solo los hogares y/o las viviendas.