REVISION DE CONCEPTOS BÁSICOS Objetivos Introducir, de manera muy general, algunos de los conceptos matemáticos y estadísticos que se utilizan en el análisis de regresión. La revisión no es rigurosa y no se dan pruebas debido a que existen diversos textos que hacen muy bien ese trabajo. La revisión se basa en el apéndice A de Gujarati y Porter (2010).
INFERENCIA ESTADÍSTICA A.14 Estimación A menudo se conoce o se está dispuesto a suponer que una variable aleatoria X sigue una distribución de probabilidad particular pero no se conoce el valor del (los) parámetro(s) de la distribución. Para estimar las incógnitas, el procedimiento usual es suponer que se tiene una muestra aleatoria de tamaño n, de una distribución de probabilidad conocida, y utilizar a la información muestral para estimar los parámetros desconocidos. Esto se conoce como el problema de estimación. El problema de estimación puede dividirse en dos categorías: estimación puntual y estimación de intervalos.
A.14.1 Estimación puntual Sea X una v.a. con FDP f(x; θ ), donde θ es el parámetro de la distribución (se puede suponer que sólo hay un parámetro desconocido; pero el análisis puede generalizarse). Suponga que se conoce la forma funcional es decir, se conoce la FDP teórica, tal como la distribución t-pero no se conoce el valor de θ. Por consiguiente, se obtiene una muestra aleatoria de tamaño n para esta FDP conocida y luego se desarrolla una función de valores muéstrales, tal que ˆ θ = f ( X, X, X,..., X n ) 1 2 3 proporciona una estimación del verdadero θ.
ˆ θ se conoce como un estadístico o estimador y un valor numérico particular que tome el estimador se conoce como una estimación (obsérvese que ˆ θ puede ser tratada como una v. a. porque es una función de la información muestral). Un estimador es una regla o fórmula que indica la forma de encontrar el verdadero θ.
A.14.2 Estimación por intervalo En lugar de obtener solamente una estimación puntual de θ, se pueden obtener dos estimaciones de θ construyendo dos estimadores: ˆ θ 1 = f ( X1, X 2, X 3,..., X n ) y ˆ θ 2 = f ( X,,,..., ) 1 X 2 X 3 X n y se señala con alguna confianza (es decir, probabilidad) que el intervalo entre ˆ θ ˆ 1, y θ 2 incluye al verdadero θ. Por tanto, en la estimación por intervalo, en contraste con la estimación puntual, se proporciona un intervalo de posibles valores dentro de los cuales puede encontrarse el verdadero θ. El concepto clave implícito en la estimación de intervalos es la noción de muestreo, o de distribución de probabilidad, de un estimador.
Por ejemplo, si una variable X está normalmente distribuida, entonces la media muestral X también está normalmente distribuida con media µ (la verdadera media) y varianza donde n es el tamaño de la muestra. 2 σ n, En otras palabras, la distribución muestral (o de probabilidad), de un estimador X es. 2 X~ N( µ, σ ) n Como resultado, se construye el intervalo: X ± 2 y se dice que hay una probabilidad de aproximadamente 0.95, o 95%, de que intervalos como éste incluyan la verdadera media. σ n
En general, en la estimación de intervalos se construyen dos estimadores ˆ θ ˆ 1, y θ 2, ambos funciones de los valores muéstrales de X, de tal forma que p( ˆ θ < θ < ˆ θ ) = 1- α 1 2 Este intervalo se conoce como un intervalo de confianza de tamaño 1- α para θ, siendo 1- α el coeficiente de confianza (observe que a α se le conoce como nivel de significancia).
A.14.3 Métodos de estimación En términos generales, existen tres métodos de estimación de parámetros: 1) mínimos cuadrados ordinarios (MCO); 2) máxima verosimilitud (MV)y 3) método de los momentos (MEM), y su extensión el método generalizado de los momentos (MGM).
A.14.4 Propiedades de los estimadores Las propiedades estadísticas deseables de los estimadores se encuentran en dos categorías: propiedades de muestra pequeña o muestra finita y propiedades de muestra grande o asintóticas. En estos dos conjuntos de propiedades está implícita la noción de que un estimador tiene una distribución muestral o de probabilidad.
A.14.4.1 Propiedades de muestra pequeña 1. Insesgamiento. Se dice que un estimador ˆ θ es un estimador insesgado de θ si E( ˆ θ ) = θ. Por otra parte, se denomina sesgo(θ) a E( ˆ θ ) - θ 0. Figura 3. Estimadores sesgados e insesgados
2. Mínima varianza. Se dice que ˆ θ 1 es un estimador de mínima varianza de θ si V ( ˆ θ ) V ( ˆ θ ) 1 2 donde ˆ θ 2 es cualquier otro estimador de θ. Figura 4. Estimadores sesgados e insesgados
3. Eficiencia (relativa). Si ˆ θ 1 y ˆ θ 2 son dos estimadores insesgados de ˆ θ y la varianza de θ 1 es menor o igual que la varianza de θ 2, ˆ entonces θ 1 es un estimador insesgado de mínima varianza, o mejor insesgado o eficiente. Así, en la figura 4, de los dos estimadores insesgados ˆ θ ˆ 1, y θ 2, el mejor insesgado o eficiente es θ 1. ˆ ˆ Figura 4. Mejor estimadores insesgados
4. Linealidad. Se dice que un estimador ˆ θ es un estimador lineal de θ si es una función lineal de las observaciones muéstrales. Así, por ejemplo, la media muestral definida como n 1 1 X = X i = X1 + X 2 + + X n n i= 1 (... ) es un estimador lineal porque es una función lineal de los valores de X. n En términos generales, existen tres métodos de estimación de parámetros:
A.14.4.2 Propiedades de muestra grande Con frecuencia sucede que un estimador no satisface una o más de las propiedades estadísticas deseables en muestras pequeñas. Pero, a medida que el tamaño de la muestra aumenta indefinidamente, el estimador posee diversas propiedades estadísticas deseables. Estas propiedades se conocen como propiedades de muestra grande, o propiedades asintóticas.
1. Insesgamiento asintótico 2. Consistencia lim E( ˆ θ ) = θ n ( ˆ ) lim p θ θ < δ = 1 n p lim ˆ θ = θ n δ > 0 Figura 5. Consistencia de un estimador
3. Eficiencia asintótica. Sea ˆ θ un estimador de θ. La varianza de la distribución asintótica de ˆ θ se denomina varianza asintótica de ˆ θ. ˆ Si θ es consistente y su varianza asintótica es menor que la varianza asintótica de todos los demás estimadores consistentes de θ, ˆ θ es llamado asintóticamente eficiente. 4. Normalidad asintótica. Se dice que un estimador ˆ θ está normalmente distribuido asintóticamente si su distribución muestral tiende a aproximarse a la distribución normal a medida que el tamaño n de la muestra aumenta de manera indefinida
Reglas sobre límite de probabilidad i) Invarianza (propiedad de Slulsky). Si ˆ θ es un estimador consistente de ii) θ y si h( ˆ θ ) es cualquier función continua de ˆ plím h( ˆ θ ) h( θ ) Si b es una constante, entonces ˆ iii) Si θ ˆ 1 y 2 plím b =. = b. θ son estimadores consistentes, entonces θ, entonces plim ( ˆ θ ˆ ˆ ˆ 1 + θ2) = plim ( θ1)+ plim( θ2) plim ( ˆ θ ˆ ˆ ˆ 1 θ2) = plim ( θ1) plim( θ2) ˆ θ ˆ 1 plim ( θ1) plim ( ) = ˆ θ plim( ˆ θ ) 2 2
A.15 Contraste de hipótesis La estimación y la prueba de hipótesis constituyen ramas gemelas de la inferencia estadística clásica. El problema de prueba de hipótesis puede plantearse de la siguiente manera: supóngase que se tiene una v. a. X con una FDP conocida f(x; ) θ, donde θ es el parámetro de la distribución. Después de obtener una muestra aleatoria de tamaño n, se obtiene el estimador puntual ˆ θ. Puesto que el verdadero θ raramente se conoce, se plantea la pregunta: es "compatible" el ˆ θ con algún valor de θ? En otras palabras, puede nuestra muestra provenir de FDP f(x; θ )?
A.15 Elementos de un contraste de hipótesis: el enfoque clásico 1. Determinación de las hipótesis. En el lenguaje de pruebas de * hipótesis, θ = θ se denomina la hipótesis nula (sostenida) y generalmente se denota por H 0. La hipótesis nula se contrasta contra una hipótesis alterna, denotada por H 1. 2. Nivel de significancia. Cuando se lleva a cabo un contraste de hipótesis es posible que se cometan dos tipos de errores: i) se puede rechazar H o cuando ésta es, en realidad, cierta; éste se denomina un error tipo I; y ii) también es posible rechazar H 0 cuando, en realidad, es falsa; este error se llama error tipo II. Estado de la naturaleza H 0 es Decisión verdadera H 0 es falsa Rechazar Error tipo I No hay error No rechazar No hay error Error tipo II α=p(error tipo I) β=p(error tipo II)
Sería deseable minimizar los errores tipo I y tipo II. Pero, desafortunadamente, para cualquier tamaño de muestra dado, no es posible minimizar ambos errores de manera simultánea. 3. Estadístico de prueba. Indicador que reúne toda la información contenida en la muestra, y que sirve de evidencia para considerar si H 0 se rechaza o no. Su forma depende del θ sobre el cual se lleva a cabo el contraste, la distribución muestral de ese θ y, en ocasiones, el tamaño de la muestra n. 4. Regla de decisión (o determinación de la región de rechazo). Considerando la distribución de muestreo de ˆ θ es posible establecer una regla o formula que suele denominarse regla de decisión. Esta regla delimita la región(es) de aceptación y el (las) área(s) por fuera de la región de aceptación a las que se les denomina(n) región(es) crítica(s), o región(es) de rechazo de la hipótesis nula. Los límites inferior y superior de la región de aceptación (que la delimitan con las regiones de rechazo) se denominan valores críticos. La situación se ilustra geométricamente en la figura 6.
Figura 6. Intervalos de confianza y regla redecisión de un contrate de hipótesis 5. Decisión estadística e interpretación del resultado. Al comparar al estadístico de prueba (EP) con la regla de decisión se puede llegar a la decisión estadística: rechazar o no a H 0.
A.16 Elementos de un contraste de hipótesis: el enfoque basado en el valor p En lugar de preseleccionar a α en niveles arbitrarios, tales como 0.01, 0.05 o 0.10, se puede obtener el valor p (probabilidad), o nivel exacto de significancia de un estadístico de prueba. El valor p está definido como el más bajo nivel de significancia al cual puede rechazarse una hipótesis nula. Diversos paquetes estadísticos imprimen el valor p de los estadísticos de prueba estimados. Por consiguiente, se aconseja al lector dar el valor p siempre que sea posible.
A.17 Tamaño de la muestra y pruebas de hipótesis En datos provenientes de encuestas que comprenden cientos o miles de observaciones, la hipótesis nula se rechaza, al parecer con mayor frecuencia que en las muestras pequeñas. Deaton (2000) señala al respecto lo siguiente 1/ : That classical procedures can generate uncomfortable results as the simple size increases is something that is often expressed informally by practitioners, and the phenomenon has been given an excellent treatment by Leamer (1978, pp. 100-120), and it is on this discussion that following is based. The effect most noted by empirical researches is that null hypothesis seems to be more frequently rejected in large samples than in small. 1/ Deaton, Angus (2000). The analysis of household survey: A microeconomic approach to development policy, Johns Hopkins University Press, Baltimore, p. 130.
Nada incorrecto ocurre en el procedimiento de contraste de hipótesis, señala Deaton. Por el contrario 2/ : A medida que el tamaño de muestra aumenta, y siempre que se siga un procedimiento de estimación consistente, las estimaciones se aproximarán más a la verdad y están menos dispersos alrededor de ésta, de modo de que las discrepancias que no pueden detectarse en una muestra de tamaño pequeño provocan rechazo en muestras grandes. Las muestras de tamaño grande son como un poder mayor de resolución en un telescopio; las características que no son visibles a la distancia se vuelven cada vez más nítidas a medida que aumenta la amplificación. 1/ Citado en Gujarati y Porter (2010: 835).
A.17.1 Valores críticos Leamer-Schwarz Tomando en cuenta las ideas de Leamer y Scwartz, Deaton propone ajustar los valores críticos estándar de las pruebas F y χ2 como sigue: Rechace H 0 : - cuando F c > ln (n) χ 2 q > q ln (n) - cuando donde ln= logaritmo natural n= tamaño de la muestra q= # restricciones