Análisis de datos del Aguacate Hass (presentación caja 10 kilogramos)



Documentos relacionados
Análisis de datos del SNIIM correspondientes al Aguacate Hass (caja 10kg.)

peso edad grasas Regresión lineal simple Los datos

Ejemplo de Regresión Lineal Simple.

Práctica 3: Regresión simple con R

ARCH y GARCH. Series de tiempo. Miguel Ángel Chong R. 14 de mayo del 2013

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA

1.- Lo primero que debemos hacer es plantear como hasta ahora la hipótesis nula y la alternativa

ESTADÍSTICA II UNIDAD I: ESTIMACIÓN DE PARÁMETROS 3RA PARTE (CLASE 20/09)

Octava Entrega. 1 Modelos de función de transferencia o de regresión dinámica

Análisis de Series de Tiempo. Universidad Nacional Autónoma de México. M. en C. César Almenara Martínez. 10 de Noviembre de 2010.

CAPÍTULO 5. Proyecciones de las Fuentes de Empleo Características Generales del Modelo de Regresión Lineal Múltiple de las Fuentes

Séptima Entrega. New Workfile Daily (5 days week) 1:1:1991 a 2:16:1998. File Import Read Text Lotus Excel

EXAMEN DE ESTADÍSTICA Septiembre 2011

Distribución de frecuencia.

Guía breve de análisis de series temporales unidimensionales con Gretl

Estadística Industrial. Universidad Carlos III de Madrid Series temporales Práctica 5

Apuntes de Series Temporales

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Longitud = Calcular la media, la mediana, la moda y la desviación estándar de la muestra en Matlab.

DISTRIBUCION JI-CUADRADA (X 2 )

Predicción con modelos ARIMA

CALCULO DE MEDIDAS DE RESUMEN CON DATOS TABULADOS

ANALISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

Segunda práctica de REGRESIÓN.

Quinta Entrega. 3. Diagnosis: se comprueba que los residuos verifican la hipótesis de ruido blanco.

APÉNDICE A GRÁFICAS Y TABLAS EMPLEADAS PARA LA DETERMINACIÓN DE LOS MODELOS

Ejemplo de Regresión Lineal Simple

Matemáticas Aplicadas I: Ev2 Recuperación febrero 2018

Estimación. Diseño Estadístico y Herramientas para la Calidad. Estimación. Estimación. Inferencia Estadística

Tema 4. Regresión lineal simple

SERIE TEMPORAL TASA PASIVA REFERENCIAL ECUADOR MAT. GEOVANNY TOALOMBO Agosto 2006

TEMA 14: PARAMETROS ESTADÍSTICOS

Regresión y Correlación

5. DISEÑO FACTORIALES 2 k

Ejemplos de estudios de series de tiempo

Estadística. Generalmente se considera que las variables son obtenidas independientemente de la misma población. De esta forma: con

ACTIVIDAD 2: La distribución Normal

CUADERNILLO DE TRABAJO IV DE LA MATERIA DE PROBABILIDAD. CAPÍTULO V: INFERENCIA ESTADÍSTICA PARA UNA SOLA MUESTRA

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

Tema 5: Introducción a la inferencia estadística

REGRESIÓN Y ESTIMACIÓN TEMA 1: REGRESIÓN LINEAL SIMPLE

Explicación de la tarea 8 Felipe Guerra

Estadística Clase 3. Maestría en Finanzas Universidad del CEMA. Profesor: Alberto Landro Asistente: Julián R. Siri

Objetivo: Proponer modelos para analizar la influencia

Modelación estadística: La regresión lineal simple

Pronósticos Automáticos

UNIVERSIDAD DE ATACAMA

Pronóstico con Modelos ARIMA para los casos del Índice de Precios y Cotizaciones (IPC) y la Acción de América Móvil (AM)

DEPARTAMENTO DE MATEMÁTICAS Página 1

Estadística Clase 4. Maestría en Finanzas Universidad del CEMA. Profesor: Alberto Landro Asistente: Julián R. Siri

ACTIVIDAD 3: Intervalos de Confianza para 1 población

Nombre: 1 a Prueba Ev. Continua ( ) Estadística G2 (G.Ing. Salud)

D.2 ANÁLISIS ESTADÍSTICO DE LAS TEMPERATURAS DE VERANO

Solución Taller No. 5 Econometría II Prof. Bernal

Programa. Asignatura: Estadística Aplicada. año de la Carrera de Contador Público

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II

2. EL DISEÑO UNIFACTORIAL (COMPARACION DE TRATAMIENTOS)

Estadística I Examen extraordinario, 25 de Junio Grados en ADE, DER-ADE, ADE-INF, FICO, ECO, ECO-DER.

Intervalos de confianza con STATGRAPHICS

Regresión. Instituto Tecnológico de Ciudad Victoria Maestría en Ciencias en Biología Sesión de Cómputo. Modelo I

Ajustando Curva SnapStat

MATERIA: ESTADÍSTICA EJEMPLOS DE POSIBLES PREGUNTAS DE EXAMEN. a. Cuáles son las escalas en que pueden estar los datos en un análisis estadístico.

Análisis de Capabilidad (Porcentaje Defectuoso)

Estadística I Tema 5: Introducción a la inferencia estadística

Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez.

Taller I Econometría I

CASO 5-3 MILAN FOOD COOPERATIVE (B)

Qué es una regresión lineal?

AGRO Examen Parcial 2. Nombre:

Prueba de Evaluación Continua Grupo A 26-XI-14

CURSO: ECONOMETRÍA Y ANÁLISIS DE POLÍTICAS FISCALES INSTRUCTOR: HORACIO CATALÁN ALONSO. Especificación de los modelos VAR

EJERCICIOS DE ESTADÍSTICA CON GEOGEBRA. Autores:

Estadística II Examen Final 19/06/2015 Soluciones. Responda a las preguntas siguientes en los cuadernillos de la Universidad

TEMA 7. Estimación. Alicia Nieto Reyes BIOESTADÍSTICA. Alicia Nieto Reyes (BIOESTADÍSTICA) TEMA 7. Estimación 1 / 13

6. ESTIMACIÓN DE PARÁMETROS

INFERENCIA DE LA PROPORCIÓN

Universidad de Sonora Departamento de Matemáticas Área Económico Administrativa

4. MODELO DE REGRESIÓN LINEAL. En muchos problemas hay dos o más variables relacionadas, y el interés se centra en

Práctica de SIMULACIÓN

5. Caracterización Estadística de las Propiedades Petrofísicas

UNIVERSIDAD TECNICA PARTICULAR DE LOJA ESTADISTICA Y PROBABILIDAD ENSAYO N 8

TEMA 3: MUESTREO Y ESTIMACIÓN. Estimación de la Media

Cap. 7 : Pruebas de hipótesis

Regresión Lineal. Rodrigo A. Alfaro. Rodrigo A. Alfaro (BCCh) Regresión Lineal / 16

Pruebas de Hipótesis. Diseño Estadístico y Herramientas para la Calidad. Pruebas de Hipótesis. Hipótesis

Estadística I Solución Examen Final- 19 de junio de Nombre y Apellido:... Grupo:...

Predicción de Inventarios Series de Tiempo

Distribución Chi (o Ji) cuadrada (χ( 2 )

TODO ECONOMETRÍA. A continuación voy a realizar un primer gráfico para observar el comportamiento de mi serie.

Ejercicios T2 y T3.- DISTRIBUCIONES MUESTRALES Y ESTIMACIÓN PUNTUAL

ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES ESTADÍSTICA ESPACIAL

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Métodos Estadísticos Multivariados

Series de tiempo. Miguel Ángel Chong R. 2 de abril del 2013

INTRODUCCIÓN AL ANÁLISIS DE DATOS SEPTIEMBRE 2016 Código asignatura: EXAMEN TIPO TEST MODELO B DURACION: 2 HORAS

Transcripción:

Análisis de datos del Aguacate Hass (presentación caja 10 kilogramos) Alberto Contreras Cristán, Miguel Ángel Chong Rodríguez. Departamento de Probabilidad y Estadística Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas Universidad Nacional Autónoma de México Secretaría de Economía Sistema Nacional de Información e Integración de Mercados Dentro de los productos agropecuarios que la base de datos del SNIIM presenta, se pensó en estudiar el aguacate Hass debido que es un producto que está presente en los mercados nacionales durante todo el año. Primeramente se intentó trabajar con la presentación en cajas de 17 kilogramos, pero debido a que hubieron períodos de tiempo sin datos 1, se optó por trabajar con la presentación en cajas de 10 kilogramos, para la cual se tienen datos más completos. Para la presentación de 10 kilogramos, se tienen 10947 registros, los cuales podemos desagregar por origenes y destinos como vemos a continuación Cuadro 1: Origen - Destino Número de observaciones Origen - Destino Número de observaciones 9-120 4 16-101 2064 9-230 3 16-180 77 9-311 84 19-281 237 14-20 13 16-90 1637 14-60 20 16-191 933 14-63 933 16-281 786 14-80 5 16-320 143 16-33 539 18-33 4 16-50 1307 18-180 97 16-50 2051 Total 10937 Existen siete registros que no tienen fecha y por lo tanto no fueron considerados, estos registros son que están en los renglones 939, 1519, 2649, 4767, 6814 y 8566 de la base de datos. Además, sólo hay una observación 1 Los periodos de tiempo donde no se registraron precios fueron:11 julio al 26 de agosto del 2005, 20 al 24 de noviembre del 2006, 27 al 31 de agosto del 2007 y 17 de septiembre al 19 de octubre del 2007. 1

para los siguientes orígenes y destinos Cuadro 2: Origen - Destino Fecha 16-141 26/10/2007 16-270 29/05/2008 16-322 22/09/2000 y por tanto tampoco fueron considerados en el análisis. Con el fin de trabajar con la serie de datos de precio frecuente, calculamos (en caso de ser posible) el promedio de los precios frecuentes en cada día. Después con esta nueva serie de datos, calculamos el promedio semanal obteniendo los promedios semanales del precio frecuente, esta serie de tiempo se muestra en la figura 1. Precio promedio semanal Series 1 50 100 150 200 250 300 350 400 1996 1998 2000 2002 2004 2006 2008 Figura 1: Notemos que aunque en ocasiones no haya datos para calcular el promedio de los precios frecuentes en un día dado, en la mayoría de los casos si es posible calcular el promedio semanal. Aunque no es aparente en la figura 1, existen dos semanas en donde no hay datos para poder calcular el promedio semanal del precio frecuente. Estas semanas son del 3 al 7 de enero del 2000 y la del 24 al 28 de 2

septiembre del 2007. En la figura 1 podemos apreciar un comportamiento cíclico y con tendencia de los datos. Pese que es aparente que existe un patrón estacional, notemos que para los años 2002 y 2003 este patrón estacional es un poco diferente al que se tiene para los años 2004, 2005, 2006 y 2007. En estos últimos años el patrón estacional es más parecido. Por las razones anteriores decidimos usar los promedios semanales de los precios en el horizonte de tiempo que va de enero de 2004 hasta la semana del 17 al 21 de septiembre de 2007 (una semana antes del dato faltante), para plantear un primer modelo paramétrico. La finalidad de este modelo fue la de predecir (estimar) el dato faltante de la semana del 24 al 28 de septiembre. Además, para lograr una varianza homoscedástica de los datos se consideró transformarlos con el logaritmo en base 10, así entonces consideramos la siguiente serie de tiempo de logaritmos de promedios semanales de precios frecuentes Logaritmo de los datos 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2004 2005 2006 2007 Figura 2: El modelo propuesto para los logaritmos de los promedios semanales de los precios es un ARIMA estacional (SARIMA(p, d, q) (P, D, Q) s, véase Brockwell y Davis, 1990 y Shumway y Sto er, 2000). Como en nuestro caso el período de la serie corresponde a s = 52 semanas, para diagnosticar un modelo de esta naturaleza procedemos a calcular la primera diferencia de los logaritmos de los datos seguida de una diferencia a lag 52. 3

La Figura 3, presenta la sucesión de autocorrelación de la serie resultante. ACF 0.4 0.2 0.0 0.2 0.4 0.6 0.8 1.0 0 20 40 60 80 100 Lag Figura 3: ACF de (1 B)(1 B s )X Cuadro 3: ma1 ma2 ma3 ma4 ma5 ma6 ma7 sma1 Coeficiente estimado 0.068-0.0405-0.1335-0.0209-0.0222 0.0066-0.2391-0.9997 Desviación estándar -0.083-0.0836-0.0867-0.0848-0.087-0.0805-0.103-0.1888 De acuerdo a teoría del diagnóstico de modelos SARIMA, a la luz del correlograma, podemos proponer la estimación de un modelo SARIMA(0, 1, 7) (0, 1, 1) 52 para estos datos. Esta propuesta proviene de observar en la figura 3 que los coeficientes correspondientes a los lags 52 y 7 son significativos. Para la estimación vía máxima verosimilitud, se utilizaron librerías del paquete de usos estadisticos R (los programas se anexan en el apéndice). La tabla 3 muestra los valores de los coeficientes estimados del modelo. La figura 4, corresponde a un análisis de residuales del modelo. El panel superior izquierdo muestra la serie de tiempo de los residuales, no se observan patrones de heteroscedasticidad. El panel superior derecho muestra la sucesión de autocorrelación de los residuales, no hay evidencia de correlación en los residuales. Los paneles inferior izquierdo y derecho, corresponden a una gráfica en papel normal y un histograma de los residuales, no hay lejanía aparente de una distribución normal. 4

Series residuals residuals 0.06 0.00 0.04 ACF 0.2 0.2 0.6 1.0 2005.0 2006.0 2007.0 0 20 60 100 140 Lag Normal Q Q Plot Histogram of residuals Sample Quantiles 0.06 0.00 0.04 Frequency 0 10 20 30 40 50 2 1 0 1 2 0.06 0.02 0.02 0.06 Theoretical Quantiles residuals Figura 4: Análisis de residuales. De las gráficas anteriores podemos suponer que los residuales no estan correlacionados y siguen una distribución normal. Para verificar nuestro supuesto distribucional sobre los residuales, se aplicó la prueba de hipótesis no paramétrica de Anderson-Darling y al calcular el estadístico de prueba obtuvimos A = 0.4288247, y por otro lado el valor crítico con un nivel de significancia =0.05 es w =2.492. Como A<wconcluimos que no se rechaza la hipótesis de que los residuales provienen de una distribución normal. Entonces usando este modelo predecimos el valor de la semana faltante y nos dió 2.529263. En la escala original de los promedios semanales de precios frecuentes tenemos que esta predicción vale 338.2698 que es un valor verosímil puesto que el promedio de los precios de una semana antes del valor faltante y el de una semana despúes son 355 y 320 respectivamente. Una vez calculado el valor faltante, lo incluimos en la serie de datos y le vamos a buscar un modelo paramétrico a los datos completados en el horizonte de tiempo, enero del 2004 a julio del 2008. Con este modelo pronosticarémos los últimos cinco datos que sí los conocemos. Lo anterior es con el fin de ver que tan bueno es el modelo propuesto. Nuevamente a la serie de los logaritmos en base 10 de los promedios semanales se les aplicó una diferencia y después el operador (1 B 52 ). La figura 5 muestra la sucesión de autocorrelación de (1 B)(1 B 52 )X y nuevamente a la luz de esta ACF parecería que un modelo SARIMA(0, 1, 7) (0, 1, 1) 52 ajustaría bien los datos. Al estimar los coeficientes para dicho modelo tenemos que En la figura 6, muestra el análisis de residuales bajo este último modelo. El panel superior izquierdo muestra la serie de tiempo de los residuales, no se observan patrones de heteroscedasticidad. El panel superior derecho 5

ACF 0.2 0.0 0.2 0.4 0.6 0.8 1.0 0 20 40 60 80 100 Lag Figura 5: Cuadro 4: ma1 ma2 ma3 ma4 ma5 ma6 ma7 sma1 Coeficiente estimado -0.1388-0.0027-0.1056-0.1088-0.0687-0.0743-0.2387-0.9945 Desviación estándar 0.0766 0.078 0.0828 0.0896 0.0868 0.0814 0.0898 0.8459 muestra la sucesión de autocorrelación de los residuales, no hay evidencia de correlación en los residuales. Los paneles inferior izquierdo y derecho respectivamente, corresponden a una gráfica en papel normal y un histograma de los residuales, no hay lejanía aparente de una distribución normal. De manera análoga como se hizo antes, a los residuales de este modelo se les aplicó la prueba de hipótesis no paramétrica de Anderson-Darling y al calcular el estadístico de prueba obtuvimos A = 1.405488, y por otro lado el valor crítico con un nivel de significancia =0.05 es w =2.492. Como A<wconcluimos que no se rechaza la hipótesis de que los residuales procedan de una distribución normal. En la figura 7 se muestra con una línea continua la serie de tiempo con la cual ajustamos el modelo, con forma de círculos los pronósticos de las cinco semanas siguientes y en líneas punteadas las bandas de confianza para cada esitimación puntual. Las estimaciones puntuales se muestran en la tabla 5. De la tabla 5 notamos que en todos los casos el precio promedio semanal está contenido en el intervalo de confianza estimado, por lo que concluimos que el modelo propuesto ajusta razonablemente bien el comportamiento del precio promedio semanal. Por último diremos que para la serie de los promedios de los precios frecuentes en el horizonte de tiempo, 6

Series residuals residuals 0.05 0.00 0.05 ACF 0.0 0.4 0.8 2005.0 2006.5 2008.0 0 50 100 150 Lag Normal Q Q Plot Histogram of residuals Sample Quantiles 0.05 0.00 0.05 Frequency 0 10 30 50 3 2 1 0 1 2 3 Theoretical Quantiles 0.10 0.05 0.00 0.05 residuals Figura 6: Análisis de residuales 100 150 200 250 300 400 2004 2005 2006 2007 2008 Figura 7: enero del 2004 a agosto del 2008, en la cual existe un dato faltante en la semana del 24 al 28 de septiembre de 2007, se trató de estimar dicho valor faltante vía una descomposición clásica. Para lo anterior se estimó la tendencia y después la parte cíclica de la serie, pero notamos que bajo este método la estimación no era 7

Cuadro 5: Fecha Promedio real Estimación Promedio real-estimación límite inferior límite superior 7 al 11 de julo 303.43 278.9246 24.5054 244.4141 318.3078 14 al 18 de julo 302.3956 280.6856 21.71 235.7842 334.1377 21 al 25 de julo 295.59 301.3289-5.7389 244.7498 370.9875 27 al 31 de julo 296.03 317.8867-21.8567 252.4366 400.3062 4 y 5 de agosto 290.375 334.5574-44.1824 261.6643 427.7567 adecuada y por lo tanto se optó por estimar el valor faltante con un modelo paramétrico. Lo anterior no quiere decir que la conocida descomposición clásica no funcionaría con estos datos, sino que es necesario explorar diferentes formas de estimación de las componentes de tendencia y estacional para tal descomposición. REFERENCIAS Brockwell, P.J., and Davis, R.A. (1991). Series, Theory and Methods. Springer-Verlag. Shumway, R.H., and Sto er, D.S. (2000) Series Analysis and its Applications. Springer-Verlag. 8