Big data: desafios y oportunidades para la economia y las ciencias sociales

Documentos relacionados
Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas

Big Data: Desafíos y Perspectivas para Datos Sociales

Big Data: Desafíos y Perspectivas para las Ciencias Sociales

Regularizacion y eleccion de modelos

Machine Learning El fin de la programación?

CART s. Walter Sosa-Escudero. Universisad de San Andres y CONICET

I Inferencia Causal. Lima, 2009

Licenciatura en Economía UC3M Econometría III, 2005/06 ECONOMETRÍA III. Licenciatura en Economía Universidad Carlos III de Madrid

Regularización. agosto 2017

FIDMAG informa DIAGNÓSTICO AUTOMATIZADO DE LAS PSICOSIS MEDIANTE IMAGEN CEREBRAL

Métodos de Pareo FN1. Fernanda Ruiz Nuñez Noviembre, 2006 Buenos Aires

Inferencia causal con métodos cualitativos Escuela de Invierno en Métodos y Análisis de Datos UCU-DCSP Julio 2017

Métodos de Regresión en Minería de Datos

APE - Aprendizaje Estadístico

I Inferencia Causal. Claudio Ferraz Managua, 3 Marzo 2008

Complementación y ampliación de la currícula de la Maestría 2017 Maestría en Generación y Análisis de Información Estadística

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN APRENDIZAJE DE MÁQUINA

LAS CONTRIBUCIONES DEL PREMIO NOBEL ANGUS DEATON

Análisis de Datos para la Industria y los Servicios

Overfit, cross validation y bootstrap

APA - Aprendizaje Automático

Inferencia Causal. Sebastian Galiani. Noviembre 2006

Universidad Surcolombiana Facultad de Economía y Administración Programa de Economía Syllabus: Econometría Profesor: Oscar Hernán Cerquera Losada

Econometría I. Rómulo A. Chumacero * Primer Semestre del Descripción del Curso

Guía Docente Estadística FICHA IDENTIFICATIVA RESUMEN. Datos de la Asignatura Código Créditos ECTS 6.0 Curso académico

FORMATO MODALIDAD PRESENCIAL UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ECONOMÍA. Plan de estudios

ESTADÍSTICA BAYESIANA Y TEORÍA DE DECISIONES

Análisis de clusters para la medición de inflación por clases sociales: Argentina

Curso: MODELOS ECONOMÉTRICOS ESPACIALES DE CORTE TRANSVERSAL Y DATOS DE PANEL

Métodos Predictivos en Minería de Datos

Unidad V: Estadística aplicada

APA - Aprendizaje Automático

Universidad Autónoma del Estado de México. La minería de datos en el proceso de KDD ( Knowledge Discovery and Data Mining)

Microeconometría. Karoll GOMEZ Segundo semestre 2017

Planificaciones Probabilidad y Estadística B. Docente responsable: GRYNBERG SEBASTIAN PABLO. 1 de 6

Planificaciones Probabilidad y Estadística B. Docente responsable: GRYNBERG SEBASTIAN PABLO. 1 de 6

DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS

José Hernández Orallo Mª. José Ramírez Quintana

Inferencia Estadística

Conjuntos de Clasificadores (Ensemble Learning)

IIC Sistemas Recomendadores

Profesores: Dra. Atocha Aliseda, Dr. Alfonso Arroyo, Dr. Vincenzo Politi

Estadísticamente. El desafío de enseñar a razonar en términos estadísticos. Walter Sosa Escudero UdeSA/ CONICET

Dr. Fidel Ulín Montejo Act. José Manuel Robledo Garduño Fecha de elaboración: Agosto de 2004 Fecha de última actualización: Julio de 2010

TEMA 2: EL PROCESO DE MUESTREO

Introducción a las Técnicas de Investigación por Encuestas Maestría en Gobierno Facultad de Ciencias Sociales UBA, Julio, 2018

Big Data en Ciencias de la Salud. Aplicaciones de Big Data en el campo de la medicina. Daniel Álvarez González

FUNDAMENTOS Y APLICACIONES DE APRENDIZAJE AUTOMÁTICO

Métodos Descriptivos en Minería de Datos

MD - Minería de Datos

Universidad Autónoma de Sinaloa

ANÁLISIS DE DATOS ESPACIALES Y SUS APLICACIONES

MD - Minería de Datos

MI4040 Análisis Estadístico y Geoestadístico de Datos Nombre en Inglés

PROFESIONALES [PRESENCIAL]

Asignaturas antecedentes y subsecuentes Probabilidad y Estadística Matemática

Curso de nivelación Estadística y Matemática

Mediciones Indirectas

OBJETIVOS CONTENIDOS. 2. Adquirir dominio en temas claves del diseño experimental, especialmente aquellos relacionados con aleatorización y balance.

ºBONDAD DE LOS ESTIMADORES JACKNIFE PARA DISTINTOS TIPOS DE POBLACIÓN

UNIVERSIDAD AUTÓNOMA CHAPINGO DIVISIÓN DE CIENCIAS FORESTALES CARRERA DE: Licenciatura en Estadística PROGRAMA DE LA ASIGNATURA DE MUESTREO I

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES ACATLÁN HORAS SEMANA

TENDENCIAS GLOBALES EN GESTIÓN DE PORTAFOLIO

CURRICULUM VITAE. Licenciado en Economía por la Universidad Carlos III de Madrid el 10/11/1995

ESTADÍSTICA E INTRODUCCIÓN A LA ECONOMETRÍA

Curso: 2º Créditos ECTS: 6 Tipo de asignatura: Obligatoria Tipo de formación: Teórico-Práctica

ECONOMIA INTERNACIONAL AVANZADA: PRIMERA PARTE. Andrés F. Arias Universidad de Los Andes Semestre I 2004

DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA UNIVERSIDAD DE VALLADOLID

Sesión 2: Teoría de Probabilidad

Cuadrados Mínimos. Diego Luna. May 8, Laboratorio 1 Cuadrados Mínimos May 8, / 22

Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas

Cuantitativos para el Analisis Distributivo

BANCO CENTRAL DE RESERVA DEL PERÚ

Estadística y Derecho: Conceptos y Oportunidades

PROGRAMA OFICIAL DE POSTGRADO EN ESTADÍSTICA E INVESTIGACIÓN OPERATIVA

donde ε es la variable aleatoria de media 0 y f(x) es una relación que tiene la siguiente expresión:

Introducción Aprendizaje de Máquina. Gerardo Gutiérrez Gutiérrez Alexis Rodríguez Gutiérrez

Referencias bibliográficas

FACULTAD LATINOAMERICANA DE CIENCIAS SOCIALES FLACSO SEDE ECUADOR. Maestría en Política Comparada

Econometría. Programa de la Asignatura. Facultad de Ciencias Económicas y Empresariales. Dr. Emilio Díaz Calleja. Universidad de Sevilla

PRECISIÓN DE SISTEMAS DE MEDICIÓN DESTRUCTIVOS CON MEDICIONES SIMULTÁNEAS.

PROGRAMA DE CURSO. Código Nombre ESTADÍSTICA PARA LA ECONOMÍA Y GESTIÓN Nombre en Inglés Statistics for Economics and Management Unidades

Profesores: Dra. Atocha Aliseda, Dr. Alfonso Arroyo Santos.

Programa Educativo: Licenciatura en PROGRAMA DE ESTUDIO

Discontinuidad (RD) Christel Vermeersch. Noviembre 2006

N T E N.. IDO. CAPíTULO 3 TABLAS Y GRÁFICAS: UNA IMAGEN DICE MÁS QUE MIL PALABRAS 78. CAPíTULO I LA IMAGINACiÓN ESTADíSTICA

ECONOMETRÍA II: ECONOMETRÍA DE SERIES TEMPORALES. Raices unitarias

Métodos de estimación para el Conteo Rápido.

DETERMINACIÓN DE ESTADÍGRAFOS DE POSICIÓN Y DISPERSIÓN POR LA METODOLOGÍA BOOTSTRAP EN PARCELAS PERMANENTES DE MUESTREO

Programa Oficial de Asignatura. Ficha Técnica. Presentación. Competencias y/o resultados del aprendizaje. Econometría

5. Tipo de créditos SCT 6. Número de créditos SCT - Chile 5 SCT 7. Objetivo general del curso

FACULTAD DE CIENCIAS ADMINISTRATIVAS Y ECONÓMICAS DEPARTAMENTO DE ECONOMÍA

GUÍA DOCENTE CURSO FICHA TÉCNICA DE LA ASIGNATURA. Datos de la asignatura Nombre. Estadística II Código

Transcripción:

Big data: desafios y oportunidades para la economia y las ciencias sociales Walter Sosa Escudero Universidad de San Andrés y CONICET wsosa@udesa.edu.ar @wsosaescudero waltersosa.weebly.com

Pobreza en Rwanda (predecir)

Precios en Argentina (medir)

Impuesto a las ventas en EEUU (efecto causal)

Small vs. Big data Small data (estadistica clasica) Extraer lo maximo de pocos datos Solucion: estructruar los datos (muestreo) Enfoque: muestreo complejo aproxima muestreo al azar (lento y caro, pero bueno). Big data Muchos datos (Volumen) Muchos datos no estructurados (Variedad) Muchos datos no estructurados e immediatos (Velocidad) Condicionalmente baratos.

Machine/statistical learning vs estadistica clasica Y = f(x) + u Estadistica clasica: Interes en f(.). Efecto causal Modelo: Teoria, experimento. Probabilidades (error estandar, tests) Bueno?: insesagdo, varianza minima, inferencia valida.

Y = f(x) + u Machine learning: Interes en Y : predecir, clasificar, medir. Modelo: modelo?. Lo aprendemos. Prediccion puntual (no inferencia). Bueno?: Performance predictiva fuera de la muestra.

Ejemplo: Ridge / LASSO λ = 0 de vuelta a MCO. λ 0 sesgado pero... L(β) = (y i x i β) 2 + λ β 2... siempre le puede ganar a MCO en terminos de prediccion. Sesgo: pecado mortal. ML: sesgo puede reducir la varianza dramaticamente. Puede lidiar con K > n (la regla mas que la excepcion en big data). Esto es ridge. LASSO reemplaza β 2 por β.

Evaluacion de modelos Etiqueta estadistica: ex-ante. Teoria, identificacion limpia (consistencia). Inferencia robusta. Machine learning: ex-post, iterativa. Cross validation. Machine learning construye el modelo mas que lo estima, en base a la performance predictiva fuera de la muestra. Adios al R 2 (y a MCO? Mmm...).

Desafios Dependencias (realmente tenemos big data?. Trump effect) Choice based sampling. Contrafactuales nunca se observan (podemos tener todos los datos?). Falacia de la correlacion. Transparencia / privacidad. Comunicabilidad. Caja negra (deep learning, forests, etc.) Consenso social/politico.

Oportunidades More data: Big data no es solo muchos sino mas datos (pocos o muchos). Identificar la complejidad/heterogeneidad. No linealidades. Maldicion de la dimensionalidad. Rapido (crucial para la politica). Google Flu Trends. Price scrapping. Oportunidad para diseñar experimentos. Complementa a las estadisticas oficiales (no reemplaza). Cobertura (Rwanda). Rural vs. urbano, etc..

Nexos

Nexos

Nexos

Referencias Survey I: Varian, H. R., 2014, Big data: New tricks for econometrics, Journal of Economic Perspectives, 28(2), 3-27. Survey II: Einav, L., and Levin, J., 2014, Economics in the age of big data. Science, 346(6210). Libro simple: James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013). An introduction to statistical learning. New York: Springer. Libro: Murphy, K., 2012, Machine Learning: a Probabilistic Perspective,, MIT Press, Cambridge. Predicciones: Blumenstock, J., Cadamuro, G., and On, R., 2015, Predicting poverty and wealth from mobile phone metadata. Science, 350(6264), 1073-1076.

Mediciones: Cavallo, A. and Rigobon, R. 2016, The Billion Prices Project: Using Online Prices for Measurement and Research, Journal of Economic Perspectives, Vol. 30, 2, pp.151-78. Causal: Athey, S., and G. Imbens (2015), Machine Learning Methods for Estimating Heterogeneous Causal Effects, NBER working paper. Politica: Kleinberg, J., Ludwig, J., Mullainathan, S., and Obermeyer, Z., 2015, Prediction policy problems. The American Economic Review, 105(5), 491-495. Econometria: Belloni, A., V. Chernozhukov, and C. Hansen, 2014, High-Dimensional Methods and Inference on Structural and Treatment Effects, Journal of Economic Perspectives, 28(2): 29-50. Proyecto: Statistical and machine learning for econometricians, Sosa Escudero, W. y Sarmiento, I. (2017).