La no normalidad de las perturbaciones

Documentos relacionados
Universidade de Vigo. Linealidad. El comportamiento esperado de la variable dependiente

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Intervalos de confianza con STATGRAPHICS

Diagnosis en el modelo de regresión lineal normal

Estadística. Generalmente se considera que las variables son obtenidas independientemente de la misma población. De esta forma: con

peso edad grasas Regresión lineal simple Los datos

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

Conceptos básicos de inferencia estadística (III): Inferencia no paramétrica: Contrastes de bondad de ajuste.

Universidade de Vigo. Heterocedasticidad. Estimadores, test y posibles soluciones factibles.

ANÁLISIS DE REGRESIÓN

Estimación de Parámetros.

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

REGRESIÓN LINEAL SIMPLE

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

478 Índice alfabético

Tema 10: Introducción a los problemas de Asociación y Correlación

Tema 4. Regresión lineal simple

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

Séptima Entrega. New Workfile Daily (5 days week) 1:1:1991 a 2:16:1998. File Import Read Text Lotus Excel

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis

TEMA 2 Diseño de experimentos: modelos con varios factores

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Tema 13: Contrastes No Paramétricos

Econometría de Económicas Ejercicios para el tema 2 y 3

Técnicas de Muestreo Métodos

El Modelo de Regresión Lineal

ESTADÍSTICA. Tema 4 Regresión lineal simple

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

Teorema Central del Límite (1)

Longitud = Calcular la media, la mediana, la moda y la desviación estándar de la muestra en Matlab.

Parte de las notas tomadas de: Prof. Edgar Acuña UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ

Preparación de los datos de entrada

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

INFERENCIA PARÁMETRICA: RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

CONTRASTES NO PARAMÉTRICOS: ALEATORIEDAD Y LOCALIZACIÓN

ESTADÍSTICA I Tema 2: Algunas ideas básicas sobre inferencia estadística. Muestreo aleatorio

Estadística para la Economía y la Gestión IN 3401 Clase 5

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Aplicación del Análisis de la Varianza para estudiar el tiempo de acceso en las aulas informáticas

INTRODUCCION AL ECONOMETRIC VIEWS. Aquí se introduce la frecuencia y las fechas de comienzo y final de los datos.

Lucila Finkel Temario

INTRODUCCIÓN A REGRESIÓN LINEAL. Simple y Múltiple

viii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos

Contrastes de hipótesis paramétricos

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

Estadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis. Facultad de Ciencias Sociales, UdelaR

Conceptos básicos de inferencia estadística (IV): Inferencia no paramétrica: Contrastes de aleatoriedad.

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA

INDICE. Prólogo a la Segunda Edición

ANALISIS ESTADISTICO MINISTERIO DE ECONOMIA Y FINANZAS

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

Ajuste de Regresión Lineal Simple

Selección de distribuciones de probabilidad

Tema 5: Regresión con datos de sección cruzada. Universidad Complutense de Madrid Marzo de 2012

Estimación por mínimos cuadrados generalizados

Conceptos del contraste de hipótesis

TEMA 4 Modelo de regresión múltiple

Ejemplos Resueltos Tema 4

Efecto de la cercanía a las estaciones de Subte y valor de la propiedad residencial en Buenos Aires

EXAMEN ECONOMETRÍA I GRUPO 53 - DADE 8 de septiembre de 2005 Prof. Rafael de Arce

Práctica 3: Regresión simple con R

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Grado en Finanzas y Contabilidad

ACTIVIDAD 2: La distribución Normal

Se quiere medir la dispersión de una muestra a través de su localización. En primer lugar, definimos una medida relacionada con la media.

Introducción a la Estadística Aplicada en la Química

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Selección de distribuciones de probabilidad

Estadística; 3º CC. AA. Examen final, 23 de enero de 2009

IMADIL /10/2014

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

CONTRASTE DE HIPÓTESIS

PROGRAMA DE CURSO. Horas de Trabajo Personal Horas de Cátedra. Básica. Resultados de Aprendizaje

Econometría Aplicada

T2. El modelo lineal simple

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

Podemos definir un contraste de hipótesis como un procedimiento que se basa en lo observado en las muestras y en la teoría de la probabilidad para

Juan Carlos Colonia INFERENCIA ESTADÍSTICA

Fundamentos para la inferencia. Unidad 3 Parte II Estadísca Prof. Tamara Burdisso

CALIFICACION: - P C: precio medio de los productos sustitutivos existentes en el mercado en euros.

Contrastes de hipótesis. 1: Ideas generales

Universidad Rafael Belloso Chacín (URBE) Cátedra: Fundamentos de Estadística y Simulación Básica Semestre Profesor: Jaime Soto

Part I. Variables aleatorias unidimensionales. Estadística I. Mario Francisco. Definición de variable aleatoria. Variables aleatorias discretas

CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Curs de Modelització Estadística Bàsica amb Deducer. Anabel Blasco Ana Vázquez Anna Espinal Llorenç Badiella Oliver Valero

Modelos autocorrelados: Un caso particular de los modelos de regresión lineal generalizado

Manual de bolsillo del MegaStat * * MegaStat es un complemento estadístico para el Excel elaborado por el profesor J. B. Orris de Butler University.

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

1) Características del diseño en un estudio de cohortes.

Errores de especificación. Series simuladas

PRUEBAS DE BONDAD DE AJUSTE

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

Variables Dependientes Limitadas

CONTRASTE DE HIPÓTESIS

Índice general. Pág. N. 1. Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN. Diseño. Población. Muestra. Individuo (Observación, Caso, Sujeto) Variables

Transcripción:

La no normalidad de las perturbaciones Normalidad Curva normal Area

Curva normal Cola de probabilidad Nivel de significación Area Valor crítico Valor muestral del estadístico

Introducción Concepto, efectos del fallo y propiedades

Normalidad Nos dice si los datos con los que trabajamos siguen leyes de distribución normales o no. Su comprobación es necesaria, para realizar los test de hipótesis exactos y los intervalos de confianza en el MRLC. El comportamiento normal se denomina así porque tiende a ponderar más los valores centrales y menos los extremos, además de ser simétrica. Caracterizada por media y varianza

Comportamiento normal Curva normal Simetría Mucha ponderación en valores centrales Varianza Area Poca ponderación en valores externos Media

Efectos de la no normalidad Si no se verifica la normalidad del modelo, entonces los estimadores MCO dejan de ser MV y por tanto pierden la eficiencia dentro de los estimadores insesgados, sin embargo siguen siendo ELIO. Mantienen la consistencia y la normalidad asintótica, pero también pierden la eficiencia asintótica. Los estimadores MV en general, verificarán mejores propiedades.

Causas de la no Normalidad 1. Existencia de valores atípicos 2. Distribuciones no normales Formas no simétricas, no están centradas en la media: Fallo de la simetría Fallo de la simetría Mayor masa probabilística en el centro que la normal Mayor masa en los extremos que la normal Fallo de la curtósis

Identificación de la Normalidad - Gráficos - Histogramas - Residuos - Gráfico de probabilidad - Test de hipótesis Pretenden comprobar la distribución normal de las perturbaciones a partir de alguna regla de decisión estadística. Bondad de ajuste, compara la distribución teórica con la empírica, pero se aplica a intervalos. Jarque-Bera, que estudia la simetría y curtósis de la densidad empírica.

Histograma Gráfico de residuos Gráfico de probabilidad Gráficos

Histogramas Representa el comportamiento de la función de densidad empírica, estimada a partir del porcentaje de valores por tamaño del intervalo. Teóricamente debería aproximarse a una distribución normal por lo que la forma que debería presentar sería simétrica y sin exceso de curtósis, por ese motivo algunos programas representan el histograma superpuesto por una curva normal. Eso no ocurre en SHAZAM.

Histograma de residuos

Grafico de residuos Representar los residuos respecto a alguna variable. Para detectar la normalidad sirve cualquiera y por consiguiente, normalmente se utilizan los valores predichos. Debería encontrarse el grafico de forma simétrica y mas concentrado en los valores cercanos al 0, y algo disperso en los valores alejados. Los valores muy alejados seguramente son atípicos.

Comportamiento de los residuos bajo normalidad 2.11 * Valores extraños al 95% de confianza * 1.27 * * Bandas al 95% de confianza R e s i d u o s * * * * *.42 * * * * * * * * * * * * * * * * *.30 * 1.35 * 2.40 3.45 4.50 * * * * * ** * -.42 ** *** * * * * 5.56 * * * * * * * * * * Valores predichos -1.27 Valores mas concentrados Valores mas dispersos

EXPECTE ED VALUE Gráficos de Probabilidad -1 2 1 0-2 -2-1 0 1 2 3 RESTUDEN Consiste en representar los residuos observados respecto a lo que se esperaría si siguieran una ley normal. El alejamiento de la diagonal, que seria cuando es una ley normal perfecta, indica las diferencias con la normalidad

Método de construcción (1) 1. Se calculan los residuos estudentizados o estandarizados. 2. Se ordenan de menor a mayor. De esta forma cada valor corresponderá al correspondiente cuantil de orden t/t. 3. Se calcula el valor crítico que corresponde en la N(0,1) a cada cuantil de orden t/t, se corrige tomando a t = φ t 3/ 8 1 T + 1/ 4

Método de construcción (2) 4. Se representan gráficamente los residuos estudentizados respecto a a t. Si hay normalidad debe ser una diagonal. 5. A modo de comprobación se construye el coeficiente de correlación al cuadrado que nos da idea de la normalidad aproximada del grado de ajuste a la normalidad.

Calculo del grafico de normalidad OLS Y X1 X2/RESID=E PREDICT=YE RSTAT NOANOVA HATDIAG=HT GEN1 N=$N GEN1 S2=$SIG2 GENR ESTAND=E/SQRT(S2*(1-HT)) SORT ESTAND/ DESC GENR T=TIME(0) GENR CT=(T-3/8)/(N+1/4) DISTRIB CT/INVERSE CRITICAL=AT GRAPH ESTAND AT

Grafico de normalidad Valor atípico

Ejemplos de Gráficos de probabilidad e interpretación (1) Gráfico de Probabilidad Gráfico de densidad Asimetría por la izquierda

Ejemplos de Gráficos de probabilidad e interpretación (2) Gráfico de Probab ilidad Gráfico d e D ensid ad Asimetría a la derecha

Ejemplos de Gráficos de probabilidad e interpretación (3) GráficodeProbabilidad Gráfico dedensidad Las colas de probabilidad son más "pesadas" de lo normal, curtósis baja

Ejemplos de Gráficos de probabilidad e interpretación (4) Gráfico de Probabilidad GráficodeDensidad Las colas de probabilidad son menos "pesadas" de lo normal, excesiva curtósis

Grafico de probabilidad Representa los valores estandarizados de la variable respecto a los valores teóricos de la normal. Debería mostrar una diagonal, es decir una línea recta de pendiente 1, puesto que indica que lo empírico coincide ocn lo esperado, o sea, la normal.

Grafico de probabilidad en residuos Valor esperado si fuera exactamente normal

Test de hipótesis Bondad de ajuste Jarque-Bera

Gráficos y test de hipótesis Los gráficos nos dan una idea de los posibles fallos, pero para contrastarlos debemos utilizar los test de hipótesis. Vamos a recordar algunas ideas de los test de hipótesis para contrastar suposiciones. Haremos uso de dos test: Haremos uso de dos test: Paramétrico: test de Jarque-Bera No paramétrico: Test de Bondad de ajuste.

Test de significación En todos los test de significación se tienen en cuenta los siguientes aspectos: 1. Definir modelo de análisis e indicar suposiciones del test 2. Definir hipótesis nula y alternativa 3. Fijar el nivel de significación 4. Estadístico de la prueba 5. Ley de distribución del estadístico 6. Regla de decisión

Test de significación para contrastar suposiciones del MRLN Cuando se quieren contrastar las suposiciones del MRLN, siempre se parte del modelo, con alguna generalización, es decir se suponen validas todas las suposiciones excepto la que se quiere contrastar. En el caso de la normalidad se suponen todas menos la En el caso de la normalidad se suponen todas menos la normalidad de las perturbaciones.

Modelo de contraste de normalidad Y ε = y E( ) = y ( β + βx +... + β X ) t t t X 0 1 1 1... t t k kt t Xkt Donde: ε son independientes e igualmente distribuidas y no dependen de las X (Independencia, homocedasticidad y exogeneidad), β son estables y estimables (Estabilidad e identificabilidad) X no están relacionadas entre sí y vienen dadas sin error (no colinealidad y mensurabilidad)

Resultados del modelo Esas suposiciones nos permiten: Estimar las perturbaciones a partir de los errores de MCO. Suponer que los residuos son aproximadamente independientes e igualmente distribuidos con leyes de media 0 y varianza constante, lo que nos permite comparar la distribución empírica con una normal teórica. Eso es el test de bondad de ajuste. Calcular el coeficiente de asimetría y curtósis de los residuos como si estos provinieran de la misma población. Eso en esencia es el test de Jarque-Bera.

Test de Jarque-Bera Contrastamos la asimetría y el exceso de curtósis, que bajo normalidad deberían de ser ambos 0. Analiza por consiguiente si la distribución falla en alguna de las características básicas de la normal, si es simétrica o si tiene diferente peso los valores centrales respecto a los extremos de la normal. Se suele hacer una comparación de cada uno de ellos independientemente y otro test conjunto.

Hipótesis del Test de simetría El test de simetría se realiza para contrastar: H 0 : γ 1 =0, lo que significa simetría exacta H 1 : γ 1 0, lo que significa que existe asimetría Donde γ = n 3 ε i= 1 1 3 σr La consecuencia es que si existe asimetría falla la normalidad i

Estadístico y decisión del Test de simetría. Contrastamos si existe simetría o no El estadístico γˆ 1 t 1 = 6 sigue una ley AN(0,1) bajo la hipótesis nula, es decir cuando se supone normalidad, siendo Se rechaza si tipificada t1 > λα / 2 = n e i= 1 ˆ1 γ 3 SR 3 i n donde λ α/2 es el valor crítico de la normal

Test de simetría Asimetría positiva casi nula: mediana menor que la media Forma teórica de la normal COEFFICIENT OF SKEWNESS = 0.2031 WITH STANDARD DEVIATION OF 0.3738 _gen1 t1=0.2031/0.3738 _distrib t1 NORMAL DISTRIBUTION - MEAN= 0.0000 VARIANCE= 1.0000 DATA Z PDF CDF 1-CDF T1 0.54334 0.34419 0.70655 0.29345 Forma teórica de la distribución empírica

Hipótesis del Test de curtósis El test de curtósis se realiza para contrastar: H 0 : γ 2 =0, lo que significa curtósis exacta H 1 : γ 2 0, lo que significa que existe curtósis Donde γ n 4 εi i= 1 2 = 3 4 σ La consecuencia es que si existe curtósis falla la normalidad R

Estadístico y decisión del Test de curtósis. Contrastamos si existe exceso de curtósis o no El estadístico γˆ 2 t 2 = 2 4 n sigue una ley AN(0,1) bajo la hipótesis nula, es decir cuando se supone normalidad, siendo Se rechaza si normal tipificada n 4 e ˆ = i 3 i= 1 γ 2 4 SR t2 > λα / 2 donde λ α/2 es el valor crítico de la

Test de curtósis Forma teórica de la normal COEFFICIENT OF EXCESS KURTOSIS = -0.8323 WITH STANDARD DEVIATION OF 0.7326 _gen1 t2=-0.8323/0.7326 _distrib t2 NORMAL DISTRIBUTION - MEAN= 0.0000 VARIANCE= 1.0000 DATA Z PDF CDF 1-CDF T2-1.1361 0.20924 0.12796 0.87204 Curtósis negativa casi nula : menos apuntamiento que la normal Forma teórica de la distribución empírica

Hipótesis del Test de Jarque-Bera El test de Jarque-Bera se realiza para contrastar: H 0 : γ 1 = γ 2 =0, lo que significa simetría y curtósis exactas H 1 : γ 1 0 ο γ 2 0 lo que significa que existe curtósis o asimetría Donde los coeficientes han sido calculados como en los test anteriores. La consecuencia es que si existe asimetría o curtósis falla la normalidad. Al contrastarlo conjuntamente exige un fallo mayor de alguna de ellas o de ambas para rechazarse.

Estadístico y decisión del Test de Jarque-Bera Contrastamos conjuntamente la asimetría y el exceso de curtósis El estadístico 2 2 ˆ ˆ 2 2 1 2 JB t1 t2 T γ γ = + = + 6 24 sigue una ley asintótica ji cuadrado con 2 grados de libertad bajo la hipótesis nula, puesto que ambos estadísticos t eran normales tipificadas. Se rechaza si donde χ 2,α es el valor JBcrítico > χ de una chi cuadrado con 2 grados e libertad 2, α

Test de Jarque Bera Asimetría negativa: positiva mediana casi nula: mayor mediana que menor la que media la media Forma teórica de la normal JARQUE-BERA NORMALITY TEST- CHI-SQUARE(2 DF)= 1.5400 P-VALUE= 0.463 Curtósis negativa : mas apuntamiento que la normal Forma teórica de la distribución empírica

Test de Bondad de ajuste Compara la distribución teórica con la empírica. Analiza las funciones de densidad, es decir hace uso de los histograma y la función de densidad gaussiana. Para ello hace uso de intervalos.

Test de bondad de ajuste (1) 1. Calcular los valores observados dentro de cada subconjunto Sj, j=1,...k., que denominaremos OBSj. 2. Calcular la probabilidad teórica de que la variable tome algún valor en el subconjunto Sj suponiendo una normal con los parámetros estimados por MV. Denominamos al valor esperado ESPj, que será igual al número total de valores por la probabilidad de que un valor pertenezca a ese subconjunto

Test de bondad de ajuste (2) 3. Calculamos una distancia de tipo ji cuadrado entre esos valores, que,como los observados siguen una B(n,p j ), cada término es aproximadamente N(0,1), pero no son independientes, ya que existen dos tipos de relaciones, debido al número de intervalos y a las estimaciones, en total, 3 restricciones, seguirá una ji cuadrado con k-3 grados de libertad. 4. Comparar el estadístico con el valor de las tablas y se rechaza si dicho valor es mayor, porque indica que se ajusta poco a la distribución normal.

Histograma teórico y empírico Diferencias positivas Función de distribución teórica Diferencias negativas Función de distribución empírica

Telas-normalidad COEFFICIENT OF SKEWNESS = 0.2031 WITH STANDARD DEVIATION OF 0.3738 COEFFICIENT OF EXCESS KURTOSIS = - 0.8323 WITH STANDARD DEVIATION OF 0.7326 JARQUE-BERA NORMALITY TEST- CHI-SQUARE(2 DF)= 1.5400 P-VALUE= 0.463 GOODNESS OF FIT TEST FOR NORMALITY OF RESIDUALS - 6 GROUPS OBSERVED 0.0 8.0 10.0 15.0 7.0 0.0 EXPECTED 0.9 5.4 13.7 13.7 5.4 0.9 CHI-SQUARE = 4.5934 WITH 1 DEGREES OF FREEDOM, P-VALUE= 0.032

Visión gráfica del test de bondad de ajuste Función de distribución teórica Valor observado= 0 Función de distribución empírica Estadístico X 2 =Suma=4,59 Valor esperado= 0,9 OBS-ESP= -0,9 (OBS-ESP) 2 /ESP= 1.11 (OBS-ESP) 2 /ESP= 2.27 (OBS-ESP) 2 /ESP= 0.47 (OBS-ESP) 2 /ESP=0.12 (OBS-ESP) 2 /ESP= 1.11 (OBS-ESP) 2 /ESP= 1

Tratamiento de la normalidad 1.Si la distribución es conocida, aunque no sea normal, se aplica estimación MV. 2.Si la distribución es desconocida, se puede utilizar: a. Transformaciones buscando normalidad. b. Regresión robusta. 3.Si la no normalidad es debida a valores atípicos a. Se utilizan variables ficticias. b. Se eliminan si hay suficientes datos.

Ejemplo: Fabricación de telas El coste de fabricación de algodón en una empresa de hilaturas depende de la cantidad de tejido producido y del precio de la mano de obra que trabaja subcontratada. los datos de los últimos 40 meses se recoge en la tabla siguiente. Interesa comprobar si el comportamiento de los costes de la fabricación entre unos años y otros es normal.

Telas-normalidad COEFFICIENT OF SKEWNESS = 0.2031 WITH STANDARD DEVIATION OF 0.3738 COEFFICIENT OF EXCESS KURTOSIS = - 0.8323 WITH STANDARD DEVIATION OF 0.7326 JARQUE-BERA NORMALITY TEST- CHI- SQUARE(2 DF)= 1.5400 P-VALUE= 0.463

Variables ficticias Definición Binomiales Multinomiales Regresión con variables ficticias Aplicación para solucionar la normalidad

Definición de Variables ficticias Son variables que caracterizan comportamientos cualitativos de forma que indican si una determinada observación verifica o no una propiedad prefijada También se les denomina variables indicador de la propiedad o característica Generalmente se definen como variables dicotómicas, pero también pueden definirse para variables multinomiales

Variables ficticias dicotómicas Supongamos que tenemos una variable cualitativa dicotómica C, es decir, que se verifica una determinada propiedad o no, que tienen una cualidad o no, etc..., por tanto únicamente puede tomar dos valores A y B. Se define la variable ficticia dicotómica como I A = 1 0 si si C C = = A B De esta forma se cuantifica el efecto de la variable dicotómica, vale 1 si la cualidad se verifica y 0 si no. 17/12/2007

Ejemplos En una encuesta responder si o no Ser valor atípico o no serlo Saber informática o no Tener un sexo u otro Ser conductor o no Ser directivo o no...

Variables ficticias multinomiales Supongamos que tenemos una variable cualitativa multinomial C, es decir, que puede tomar mas de dos valores C 1,..., C m Se define una variable ficticia dicotómica para cada uno de los posibles valores. I jt = 1 0 si si C t C t = c j c j J=1,...m

Ejemplo Supongamos que queremos estudiar la estacionalidad de las ventas de un producto. La variable estación toma cuatro valores: Primavera, verano, otoño e invierno. Definimos dichas opciones como: C 1 = Ventas de primavera C 2 = Ventas de verano C 3 = Ventas de otoño C 4 = Ventas de invierno Por lo tanto definiremos cuatro variables ficticias: Una hace relación a la primavera Otra al verano Otra al otoño Y la última, al invierno

Ejemplo (2) 1si ventas Primavera = C 0 si no 1si ventas C Verano = 2 0 si no 1si ventas Otoño = C 3 0 si no 1si ventas Invierno = C 0 si no 4 1

Variables ficticias multinomiales (2) Por consiguiente tendremos m variables ficticias, pero todas ellas van a verificar una restricción: la suma de todas las variables siempre vale 1, ya que siempre ocurre uno de los posibles casos. Por consiguiente una se puede poner en función del resto, lo que implica que bastaría definir m-1 variables

Variables ficticias multinomales (3) Por consiguiente tendríamos I jt = 1 0 si si C t C t = c j c j J=1,...m-1

Ejemplo (3) En el caso de las estaciones tendríamos sólo tres, pues el invierno sería 1 menos la suma de las otras tres. 1si ventas Primavera = C 0 si no 1si ventas Verano = C 2 0 si no 1si ventas Otoño = C 3 0 si no Invierno= 1-Primavera-Verano-Otoño 1

Variables ficticias en la regresión Al incluirlas en una regresión lo hacen como cualquier otra variable, con la diferencia de que el coeficiente nos mide el cambio que se produce por estar en esa categoría en vez de en otra Ejemplo considerar el coste de producir una pieza en dos sectores diferentes A y B

Coste de producción en dos sectores El hecho de incluir o no la variable ficticia cambia los parámetros de la regresión Sector A Sector B Regresión para cada sector Conjunta sin dividir en sectores Vamos a intentar formalizarlo

Ejemplos de regresión con variables dicotómicas El caso más habitual es cuando se responde a preguntas sobre gustos, actitudes, etc., únicamente de la forma si o no, sin respuestas intermedias. También se usa para medir efectos de cambios en el tiempo por legislaciones o efectos puntuales debidos a un sólo valor o a un conjunto de valores. Este será el caso que nos interese para resolver los problemas que se plantean con los valores atípicos, pero previamente veamos como se introducen estas variables en las ecuaciones de regresión y que efectos pueden producir.

Planteamiento de la regresión con variables dicotómicas Supongamos que tenemos una variable cualquiera C que únicamente puede tomar dos valores A y B de forma que ambos son excluyentes y exhaustivos. Entones la variable ficticia se define como 1 si C = A I = A 0 si C = B

Regresión con variables dicotómicas En el caso mas simple, se introduciría en el modelo de regresión como una variable cualquiera Modelo sin variable ficticia Modelo con variable ficticia y = β + βx + + β X + ε 0 1 1 L k k y = β + βx + + β X + αi + ε 0 1 1 L Efecto de la variable ficticia k k A

Interpretación Las pendientes se interpretan igual, pero ahora sería el efecto independientemente del sector La constante β 0 sería el coste fijo en el sector B La suma de β 0 y α sería el coste fijo en el sector A Por tanto α mide la diferencia entre los costes fijos.

Efecto de las variables dicotómicas en la regresión Partiendo del modelo sin variable ficticia se puede medir el impacto de esta sobre cada uno de los coeficientes de la regresión cuando se sospecha que cada uno de los grupos tiene una relación diferente totalmente. En ese caso se definen una serie de variables auxiliares que miden el impacto sobre la pendiente IX j Xj sit A = j = 1... k 0sit A Con esas variable el modelo quedaría: y = β + βx + L+ βx + 0 1 1 + α I + αix + L+ α IX + ε 0 A 1 1 k k k Efecto de la variable ficticia sobre la pendiente de X k

Interpretación Las pendientes se interpretan igual, pero ahora sería el efecto independientemente del sector La constante β 0 sería el efecto fijo en el sector B La suma de β 0 y α 0 sería el efecto fijo en el sector A Por tanto α0 mide la diferencia entre los efectos fijos Cada una de las pendientes β j sería el impacto de X j sobre Y en el sector B La suma de β j y α j nos mediría el impacto de X j sobre Y en el sector A Por tanto cada uno de los α j nos mide la diferencia entre los impactos en los sectores A y B.

Regresión en XUMA con variables ficticias _GENR T=TIME(0) _GENR D12=(T.EQ.12) _OLS Y X1 X2 D12/RESID=E INFLUENCE HATDIAG=HT REQUIRED MEMORY IS PAR= 3 CURRENT PAR= 2000 OLS ESTIMATION 20 OBSERVATIONS DEPENDENT VARIABLE= Y...NOTE..SAMPLE RANGE SET TO: 1, 20 R-SQUARE = 0.9855 R-SQUARE ADJUSTED = 0.9828 VARIANCE OF THE ESTIMATE-SIGMA**2 = 0.30698E-01 STANDARD ERROR OF THE ESTIMATE-SIGMA = 0.17521 SUM OF SQUARED ERRORS-SSE= 0.49117 MEAN OF DEPENDENT VARIABLE = 13.708 LOG OF THE LIKELIHOOD FUNCTION = 8.68826 VARIABLE ESTIMATED STANDARD T-RATIO PARTIAL STANDARDIZED ELASTICITY NAME COEFFICIENT ERROR 16 DF P-VALUE CORR. COEFFICIENT AT MEANS X1 0.48369 0.1711E-01 28.27 0.000 0.990 0.9224 0.2085 X2 0.57535E-01 0.1477E-01 3.896 0.001 0.698 0.1183 0.0285 D12 0.88083 0.1956 4.504 0.000 0.748 0.1476 0.0032 CONSTANT 10.415 0.1499 69.47 0.000 0.998 0.0000 0.7598

Efecto en la regresión en XUMA de la variable ficticia RESIDUAL RSTUDENT HT COVRAT DFFITS DFFIT 1-0.31969-2.0908 0.0779 0.5047-0.6077-0.27007E-01 2-0.10402-0.6500 0.1960 1.4407-0.3209-0.25351E-01 3 0.26206 1.7350 0.1635 0.7446 0.7671 0.51219E-01 4-0.27322E-01-0.1673 0.1835 1.5737-0.0793-0.61407E-02 5 0.26840 1.7640 0.1463 0.7134 0.7302 0.45991E-01 6-0.94858E-01-0.5485 0.0682 1.2832-0.1483-0.69375E-02 7 0.17410 1.0880 0.1563 1.1323 0.4683 0.32256E-01 8 0.88418E-01 0.5119 0.0729 1.3029 0.1435 0.69511E-02 9-0.16736-1.0261 0.1305 1.1350-0.3975-0.25115E-01 10-0.85826E-01-0.5376 0.2066 1.5117-0.2743-0.22345E-01 11 0.18209 1.1141 0.1167 1.0664 0.4050 0.24063E-01 12 0.64435E-14 0.0000 1.0000********* 106.9110 19.346 13 0.10515 0.7446 0.3683 1.7725 0.5686 0.61319E-01 14-0.23246-1.4430 0.0974 0.8528-0.4741-0.25090E-01 15-0.17150-1.0457 0.1187 1.1085-0.3837-0.23095E-01 16 0.12570 0.8123 0.2365 1.4273 0.4521 0.38932E-01 17-0.30907E-01-0.1989 0.2605 1.7322-0.1180-0.10887E-01 18-0.19273E-01-0.1146 0.1353 1.4918-0.0453-0.30148E-02 19-0.40684E-01-0.2437 0.1456 1.4915-0.1006-0.69358E-02 20 0.87971E-01 0.5228 0.1194 1.3676 0.1925 0.11927E-01 SUM-OF-SQUARED PREDICTION ERRORS SSPE,PRESS,CV= 374.93 SCHMIDT(1974) SUM OF SQUARES OF STANDARDIZED PREDICTION ERRORS= 0.56862 STONE(1974) CROSS-VALIDATION= 0.36193E-01 El valor atípico aparece ahora como muy influyente, pero no atípico

Grafico de probabilidad Ya no hay valores atípicos, es prácticamente normal