Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos V - ESTIMACION PUNTUAL E INTERVALOS DE CONFIANZA. 5.1 Introducción

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos V - ESTIMACION PUNTUAL E INTERVALOS DE CONFIANZA. 5.1 Introducción"

Transcripción

1 V - ESTIMACION PUNTUAL E INTERVALOS DE CONFIANZA 5.1 Introducción En este capítulo nos ocuparemos de la estimación de caracteristicas de la población a partir de datos. Las caracteristicas poblacionales buscadas son cuantitativas, parámetros poblacionales. Dado un conjunto relevante de datos (una muestra) de una población, el problema es trabajar los mismos para arribar a un valor que, en algun sentido, se acerque los mas posible al valor poblacional desconocido que desamos estimar. El estadístico que calculamos es entonces llamado ESTIMADOR PUNTUAL. En realidad no esperamos, cuando utilizamos datos sujetos a aleatoriedad, encontrar un estimador puntual exactamente igual al parámetro poblacional, pero esperaríamos que este lo razonablemente cerca de forma tal que nuestro error de estimación, la diferencia entre el estimador y el valor del parámetros, sea pequeña. Empezaremos por definir que queremos decir por cerca del parámetro y a partir de alli establecer criterios bien definidos para la selección de estimadores puntuales. Este capítulo es acerca de la selección de estimadores puntuales en tanto que el capitulo siguiente concierne con la aplicación y evaluación de los mismos a partir de muestra el objeto de los intervalos de confianza. 1

2 Estimaciones simples de parámetros poblacionales serán: Si la media poblacional es desconocida, utilizaremos la media muestral como estimador puntual. Si la proporcion poblacional es desconocida, entonces utilizaremos las proporciones muestrales como estimadores puntuales. 5.2 Criterio de Estimacion Error al Cuadrado La medida básica que se utiliza para evaluar el desempeño de un estimado es la FUNCION DE PERDIDA, con un formato generalmente aceptado llamado PERDIDA DE LOS ERRORES AL CUADRADO. Este es un concepto muy simple y opera de la siguiente manera; si estamos interesados en un parámetro desconocido θ, y utilizamos un estimado t para estimarlo, entonces la diferencia de aproximación estara dada por (t - θ) e incurriremos en una penalidad de (t - θ) 2 como resultado de esta estimación. Si t es exactamente igual a θ no hay pérdida y es claramente lo mejor que podemos obtener; pero si t es diferente, incurrimos en una perdida que crece aceleradamente a medida que al diferencia se agranda. El objetivo obvio es acercarse lo mas posible a θ de manera tal de minimizar la pérdida. Este es un buen punto de partida para establecer criterios de estimación, pero como veremos, existen muchas dificultades asociadas al mismo. Para apreciar esto consideremos el problema de elegir entre dos estimadores t 1 y t 2 de θ. Los dos estimadores son funciones de los datos de la muestra y daran generalmente distintos valores no obstante estar basados en el mismo set de datos. Pero cual de los dos estara mas cerca de θ? Aplicando el concepto de perdida por errores al cuadrado, diremos que preferimos t 1 si 2

3 (t 1 - θ) 2 < (t 2 - θ) 2 pero ninguna de estas funciones son cantidades que son susceptibles de ser comparadas; son funciones del parámetro poblacional desconocido. Una visión simple de nuestro objetivo es que necesitamos asociar, de alguna manera, un número con cada t i de manera tal que uno seria considerado un mejor estimado que el otros si el número asociado fuese menor. Podemos avanzar un paso mas a los efectos de obtener un criterio manejable, haciendo uso de nuestro conocimiento de la distribución muestral de los datos. A traves de promediar la pérdida de los errores al cuadrado (calculando su valor esperado) sobre esta distribución muestral arribamos a un criterio mas manejable de comparación de estimadores, denominado el CRITERIO DE ERRORES AL CUADRADO, definido por: Error medio al cuadrado (MSE) de t = E{( t - θ) 2 } Ahora, preferiremos t 1 a t 2 si E{( t 1 - θ) 2 } < E{( t 2 - θ) 2 }, o equivalentemente MSE (t 1 ) < MSE (t 2 ) El Error medio al cuadrado es simplemente el promedio de pérdida; en un contexto mas general es conocida como la Función de riesgo. No estamos fuera del lio todavia! El MSE es todavia una funcion del parámetro θ, y no provee de una solución final para nuestro problema de estimación. Si por ejemplo, en el 3

4 contexto de la distribución binomial, utilizamos la proporcion muestral para calcular la proporcion poblaciónal p, entonces MSE es npq; no obstante n es conocido, el MSE no es un número sino una funcion del parámetro desconocido p. El siguiente gráfico muestra el problema de utilizar MSE como criterio de estimacion. Es una gráfica de t 1 y t 2 como funciones de θ. MSE t 1 t 2 θ Si el verdadero valor θ es bajo, claramente preferiremos t 1, mientras que si es alto, nos inclinaremos por t 2, el punto es que no conocemos θ. No obstante podemos tener una vaga idea de su ubicación, no es un método cuantitativo formal de determinación. Llegamos a un punto en el que no obstante MSE es un método claro y aceptado, no nos proporciona la solucion completa a nuestro problema. Por otro camino, podemos descomponer MSE en dos partes de la siguiente manera: esto surge de notar que el valor esperado del cuadrado de una variable aleatoria es igual a la suma de su varianza mas el cuadrado de su valor esperado. La variable aleatoria en este caso es (t- θ). 4

5 MSE = Var (t) + {E(t- θ)} 2 O equivalentemente, MSE = Varianza + (Sesgo) 2 El sesgo de un estimador es la diferencia entre la media (valor esperado) de la distribución muestral y el parámetro que se está estimando. Claramente, será provechoso tener un sesgo igual a Criterio de selección Estimadores insesgados Si t es un estimador de θ tal que E(t) = θ, entonces t es un ESTIMADOR INSESGADO de θ. Un enfoque generalmente aceptado al problema de estimación es el de restringir la atención a estimadores insesgados, y sujeto a esta propiedad, tratar de encontrar los estimadores con la menor varianza. Un estimador de estas características es considerado insesgado, y eficiente si su varianza es pequeña, por tener mayores probabilidades de encontrarse cerca del parámetro poblacional. No es difícil encontrar estimadores que satisfagan estos criterios, y en muchas circunstancias podemos construir y usar estimadores insesgados de mínima varianza. Ejemplo de estimadores insesgados son m para µ para datos de N {µ, σ 2 } 5

6 R/n para p en pruebas de Bernoulli con parámetro de éxito p s 2 para σ 2 para datos de N {µ, σ 2 } Para el calculo de s 2 se divide por (n-1) y no n, de manera tal que el estimador sea insesgado. Se debe mencionar que el hecho de obtener un estimador insesgado no implica que una transformación del mismo también lo será. Si t es insesgado para θ, t 2 lo sera para θ 2, esto puede ser apreciado inmediatamente en: E(t 2 ) = Var (t) + θ 2 > θ 2 Estimadores insesgado para funciones paramétricas pueden ser obtenidos a través de ajustes a un estimador obvio. Ejemplo : Supongamos que tenemos una muestra aleatoria de n elementos de una población con media µ y desviación estandar σ, y queremos encontrar un estimador insesgado para µ 2. Entonces intentaremos m 2, y veremos que E(m 2 ) = µ 2 + σ 2 /n, 6

7 Pero sabemos que E(s 2 ) = σ 2, de manera tal que combinando estas dos formulas podemos obtener m 2 s 2 /n como estimador insesgado de µ 2 Esto muestra un método rápido pero efectivo de obtener estimadores insesgados al elegir un estimador, calcular su sesgo y luego ajustar el estimador original de manera tal de remover el sesgo. La propiedad de ser insesgado es muy deseable en estimadores utilizados en encuestas, en donde la transparencia que implica el ser insesgado es considerada de extrema importancia. 5.4 Eficiencia Supongamos que tenemos dos estimadores insesgados del parámetro θ, t 1 y t 2, de forma tal que E(t 1 ) = E(t 2 ) = θ, entonces preferiremos 1 a 2 si Var (t 1 ) < Var(t 2 ) Cuando esto es así, decimos que t 1 es mas eficiente que t 2, y la eficiencia relativa de t 2 a t 1 es: 100 * Var(t 1 ) / Var(t 2 ) % 7

8 claramente, el mas eficiente es el mejor. 5.5 Consistencia Esta es una propiedad simple que básicamente nos dice que a medida que la muestra se agranda, el estimador converge al verdadero valor del parámetro desconocido. Definiciones mas formales y rigurosas pueden ser encontradas en libros de estadistica, pero puede ser mostrado que un estimador es consistente si las siguientes dos condiciones se cumplen: (i) (ii) El sesgo (si existe) tiende a cero a medida que la muestra se agranda. La varianza (y error estándar) tiende a cero a medida que la muestra se agranda. La mayoria de los estimadores comunes son consistentes, no obstante en tópicos como series de tiempo algunos estimadores no lo son. 5.6 Minimos Cuadrados y el teorema de Gauss Markov El método de minimos cuadrados es ampliamente utilizado para construir buenos estimadores en diversas disciplinas. Supongamos que tenemos un set de datos x 1, x 2,... x n de una población con media µ. 8

9 entonces si x 1, x 2,... x n son datos observados, {( x i µ ) 2 } es una funcion solamente de µ. Supongamos que ahora elegimos como estimador de µ el valor que hace mínima esa función, se puede ver en forma clara que se obtiene la media muestral como estimador. Este es un ejemplo simple del método cuantitativo de mínimos cuadrados. Puede ser mostrado que este método siempre proporciona los estimadores insesgados mas eficientes, conociéndose este resultado como el teorema de Gauss Markov. INTERVALOS DE CONFIANZA 5.7 Introducción Es usualmente fácil producir un estimador puntual del parámetro de una distribución poblaciónal. Por ejemplo, la media muestral es claramente un razonable estimador de la media poblacional, la varianza muestral estima la varianza poblacional, y así sucesivamente. Sin embargo estos valores citados fríamente no proporcionan una idea clara de la exactitud del valor citado. Una media muestral basada en 100 observaciones será 9

10 claramente mas confiable que una media muestral basada en solo 5. Hasta cierto punto podemos otorgar una idea de exactitud a nuestro estimador al citar el error estándar de manera que un error alto proporciona idea de mayor volatilidad; un mejor método de obtener un grado de exactitud es el método de los intervalos de confianza ie un intervalo en el cual uno espera se encuentre el verdadero valor del parámetro. Este método de expresar grado de exactitud es fácilmente entendible y no requiere de sofisticaciones estadísticas en su uso. Por ejemplo, supongamos que estimamos un parámetro a través del estimador puntual 3.7, y damos un intervalo de confianza de {3.5, 3.9}. Entonces estamos diciendo que, con evidencia en los datos, nuestra mejor elección del valor del parámetro es 3.7, y no obstante esperamos que se encuentra cercano al verdadero valor del parámetro, nos sorprendería si fuese igual. Pero si tenemos confianza que, cualquiera sea el valor del parámetro objetivo, tendra grandes probabilidades de estar en ese intervalo. Claramente un amplio intervalo de confianza muestra que nuestro estimado no es muy exacto debido a que no podemos estar muy seguros que se encuentre cerca del valor del parámetro; por otros lado, un intervalo de confianza estrecho nos dirá que nuestro estimador es bueno. El grado de confianza que tenemos en nuestro intervalo puede ser expresado numéricamente; la situación ideal es un intervalo corto con alto grado de confianza. Con estos puntos en mente, estos intervalos pueden ser computados a partir de los datos en el contexto de algunas situaciones básicas. El tópico de intervalos de confianza esta muy asociado a Tests de Significancia, materia del próximo capítulo. 5.8 Una formula general para estadísticos distribuidos normalmente Caso 1 Se conoce el Error estándar (Varianza) 10

11 Consideremos una situación en la que tenemos un estimador insesgado u para θ y supongamos que u sigue una distribución u ~ N (θ, SE 2 ) donde SE (el error estandar de u es conocido). Entonces estaremos mirando por una vía de cálculo de un par de valores de manera tal que exista una alta chance que θ esté entre los mismos. Ahora, sabemos que Z = (u - θ)/se se distribuye normal estándar, entonces se sigue de las tablas estadisticas que, P { < (u - θ)/se < } =.95 Redistribuyendo terminos en la igualdad: P { u *SE< θ < u *SE} =.95 entonces un intervalo de confianza del 95% para θ esta dado por u ± 1.96*SE [1] Este es un resultado muy simple pero a la vez muy importante; como veremos puede ser aplicado para obtener intervalos de confianza en diversas situaciones como la estimacion de la media, proporcion, diferencias de medias, coeficientes de regresion, coeficientes de series de tiempo, etc. 11

12 Lo hemos utilizado para derivar un intervalo de confianza de 95% debido a que es un intervalo generalmente aceptado. Puede ser facilmente visto, de la derivacion realizada, como otros coeficientes pueden ser utilizados; solamente requiere de escoger el valor adecuado de la tabla estadistica de la distribución normal estandar. Por ejemplo: Para una confianza de 95% utilizamos 1.96, para 90%, 1.645, y 99%, Esta limitado, a pesar de todo, por el hecho que conocemos la varianza poblacional; en la mayoría de los casos prácticos será necesario estimar el error estandar desde los propios datos, y ello motivará una pequeña modificación en la fórmula. Si el tamaño de la muestra es grande entonces la anterior formula puede ser utilizada con SE reemplazada por un estimador apropiado; esto es debido al hecho que podemos ignorar la variabilidad del estimador cuando el tamaño de la muestra es grande. Caso 2 Error Estandar desconocido Consideremos casos en los que el error estandar es estimado usando cálculos basados en la suma corregida de cuadrados. Sea ESE el estimador del error estándar, en donde ESE esta basado en ν grados de libertad. En lugar de considerar el hecho que (u - θ)/se es normal estándar, estamos forzados a reemplazar el parámetro desconocido SE por su estimador ESE, y en consecuencia analizamos la distribución de (u - θ)/ese. Desafortunadamente, este estadístico no sigue una distribución normal estándar debido a la variabilidad muestral de ESE, y esta volatilidad extra causará que (u - θ)/ese tenga una distribución mas dispersa. Esta distribución ha sido derivada, tabulada y es conocida como la distribución t de Student; posee una función de densidad mas bien complicada (en la que no profundizaremos) y tiene, como la distribución normal, una forma simétrica, 12

13 acampanada y con centro en cero; pero posee una forma funcional diferente de la disrtibución normal estandar, y es mas dispersa. Converge a la distribución normal a medida que los grados de libertad se incrementan (la muestra incrementa su tamaño) Distribución t de Student Esta distribución se obtiene de la estandarizacion de una variable normalmente distribuida utilizando un estimador independiente de su desviación estándar. Cuando la distribución subyacente es aproximadamente normal, puede ser demostrado que el criterio de independencia se obtiene para los estimadores m y s. La distribución t se modifica de acuerdo a los grados de libertad (ν) considerados. Siendo que cada valor de ν da lugar a una nueva distribución t, las tablas estadísticas tienen tabuladas no más que los porcentajes de ciertos valores clave. Entonces, en tablas estaditicas o softwares especializados, podemos encontrar valores de t ν de manera que: P { -t ν < (u - θ)/ese < + t ν } =.95, O reacomodando las variables dentro de las llaves, P { u -t ν *ESE < θ < u + t ν * ESE} =.95, Entonces un intervalo de confianza del 95% para θ esta dado por: u ± t ν * ESE [2] 13

14 pudiendo utilizarse este resultado general en muchas situacion de calculo de intervalo de confianza. Procedemos ahora a demostrar estas técnicas para situaciones básicas e importantes. 5.9 Intervalo de Confianza para la media (varianza conocida) Dado un set de datos independientes x 1, x 2,... x n, estimamos la media poblaciónal µ a través de la media muestral m, siendo la desviación estandar de m igual a σ/ n. De aquí que sustituyendo en [1], un intervalo de confianza de 95% para µ puede ser computado como m ± 1.96*σ/ n. Es inusual conocer σ, pero si n es grande, entonces esta fórmula puede ser utilizada con σ reemplazada por s, la desviación estándar muestral; esto es asi porque s es un muy buen estimador de σ debido al gran tamaño de la muestra y no existe necesidad de preocuparse por su volatilidad. Generalmente, la version a ojo m ± 1.96*σ/ n es utilizada. 14

15 5.10 Intervalo de Confianza para la media (varianza desconocida) En este caso aplicamos la formual general [2], con las sustituciones: m por u, s/ n por ESE, un intervalo de confianza para µ sera m t n-1 *s/ n < µ < m + t n-1 *s/ n donde el valor t es aquel que corta, digamos 2.5%, de la cola de la distribución t (para una confianza de 95%) Intervalos de Confianza para las Proporciones Sabemos que la varianza de la proporción muestral es igual a npq, donde p es la proporción, n el tamaño de la muestra y q = 1 p. Cuando construímos un intervalo de confianza para la proporción, no sabemos a priori la proporción poblacional, de manera tal que la varianza debe ser estimada; naturalmente reemplazamos p en esta varianza por la proporción muestral de manera de obtener nuestro desviación estándar estimada, SE = { (r/n) * (1- r/n)/n} y el intervalo de confianza para p es ahora r/n ± 1.96*SE 15

16 NOTA: no utilizamos la distribución t por dos razones, el error estandar no ha sido estimado en base a la suma corregida de cuadrados, y ademas el tamaño muestral debe ser grande para que la aproximación a la distribución normal sea válida Escogiendo el tamaño muestral La pregunta que tan grande debe ser la muestra? es común al muestrear datos. La respuesta yace en la calidad de inferencia que el encuestador u observador requiere de los datos. En el contexto de estimación esto puede ser considerado como el grado de precisión de la estimación. Si el observador requiere que debe haber una chance de 95% que el error de estimación no exceda d unidades, es equivalente a tener un intervalo de confianza de largo 2d. El intervalo de confianza de 95% esta basado en que el error de estimacion no exceda 2 (o mas exactamente 1.96) errores estándar. De alli tenemos 2*SE = d, y resolviendo esta simple ecuación nos proporciona el tamaño muestral buscado. Por ejemplo, para la estimación de la media poblaciónal el error estandar es σ/ n. Entonces tenemos d = 2 * σ/ n, o n = 4 * σ 2 /d 2, donde d es la tolerancia requerida y, si σ es desconocida, debe ser estimada en funcion a una muestra piloto. 16

17 5.13 La comparación de Proporciones El enfoque correcto para la comparación de proporciones de dos poblaciones es, naturalmente, a través de la comparación de la diferencia en sus proporciones muestrales. Para muestra grandes, este estadístico d = (r 1 /n 1 r 2 /n 2 ) tiene la siguiente distribución normal: d ~ N (p 1 p 2, p 1 q 1 /n 1 + p 2 q 2 /n 2 ), de donde el error estandar será igual a (p 1 q 1 /n 1 + p 2 q 2 /n 2 ) Esta distribución muestral es la base del siguiente intervalo de confianza y test; Intervalo de Confianza para la diferencia de proporciones Estimamos p 1 por r 1 /n 1, etc., de manera tal que un intervalo de confianza de 95% puede ser computado de la siguiente formula: u 1 u 2 ± 1.96 * {u 1 (1 - u 1 )/n 1 + u 2 (1 u 2 )/n 2 }, donde u 1 = r 1 /n 1 y u 2 = r 2 /n 2 17

18 5.14 Comparacion de dos medias poblacionales En esta sección estamos interesados principalmente en la diferencia entre dos medias poblacionales. Existen tres casos a ser analizados dependiendo en los tamaños de las muestras y en que medida los datos se matchean entre si o no. Caso 1 Datos no matcheados, - muestras grandes o varianzas conocidas Supongamos que tenemos muestras aleatorias de dos poblaciones con medias desconocidas y varianza conocidas. Para la población 1 media= µ 1 SD= σ 1 Tamaño muestral = n 1 media muestral= m 1 Para la población 2 media= µ 2 SD= σ 2 Tamaño muestral = n 2 media muestral= m 2 y deseamos estimar µ 1 - µ 2 Estimamos esto a través de un estimador insesgado que surge naturalmente m 1 - m 2 entonces 18

19 m 1 - m 2 ~ N (µ 1 - µ 2, σ 1 2 /n 1 + σ 2 2 /n 2 ) y el error estándar del estimador puntual es SE = (σ 1 2 /n 1 + σ 2 2 /n 2 ) Entonces m 1 - m 2 ± 1.96 * SE provee de un intervalo de confianza del 95%. Caso 2 Datos no matcheados tamaños muestrales pequeños Este es un caso difícil que debe ser analizado con cuidado. El rpblema es similar al visto en el caso 1 de manera tal que tenemos la siguiente distribución muestral m 1 - m 2 ~ N (µ 1 - µ 2, σ 1 2 /n 1 + σ 2 2 /n 2 ) como antes. Sin embargo, si procedemos a reemplazar las varianzas poblacionales por su correspondiente estimador muestral, entonces encontraremos dificultades porque el estadístico standarizado que obtenemos no sigue una distribución t y en consecuencia la teoria de intervalo de confianza no es de aplicación. Este dificil problema es conocido como el problema de Fisher Behrens, del que no nos ocuparemos aquí. En su lugar, si estamos en condiciones de hacer el supuesto que las poblaciones poseen la misma variabilidad, entonces es materia simple el computar el intervalo de confianza. Suponiendo σ 1 = σ 2 = σ, entonces el error estándar se transforma en σ (1/n 1 + 1/n 2 ), 19

20 que procedemos a estimar por s (1/n 1 + 1/n 2 ) en n 1 + n 2-2 grados de libertad., donde s 2 es computada a través de hacer un pool entre la suma corregida de cuadrados de ambas muestras, así s 2 = (SCC 1 + SCC 1 ) / (n 1 + n 2-2), o equivalentemente s 2 = {(n 1 1)s (n 2 1)s 2 2 }/ (n 1 + n 2-2) con n 1 + n 2-2 grados de libertad. Esta última formula muestra que s 2 es una función ponderada de las varianzas muestrales ponderada por los grado de libertad-. Caso 3 Datos matcheados muestras pequeñas Este es el caso mas fácil de analizar, debido a que se reduce únicamente al análisis de diferencias. Si, en cada par de datos, tomamos la diferencia de los mismos, tendremos d 1 = x 1 y 1, d 2 = x 2 y 2,...d n = x n y n, entonces m d = m x m y, entonces utilizamos los d s para computar un intervalo de confianza para µ d obteniendo el requerido intervalo de confianza para µ x - µ y. La técnica utilizada es la misma que la de las secciones 7.3 y

21 5.15 Intervalos de confianza para las varianzas En esta sección describimos técnicas para determinar intervalo de confianza para varianzas en lugar de medias; en este caso estamos interesados en evaluar la variabilidad de nuestra población y en comparar la variabilidad de dos poblaciones mas que la media de dos poblaciones. No obstante los estadísticos y las distribuciónes muestrales son diferentes, los conceptos esenciales subyacentes en los que estos métodos se basan son exactamente iguales. Una diferencia básica entre inferencias de varianza e inferencias de medias surge en las distribuciónes muestrales. Para las medias, estan son simétricas (normal, o t), mientras que para las varianzas las distribuciones (chi cuadrada, o F) no lo son. Varianzas muestrales son estimadores bastante menos confiables que medias muestrales, de manera que buenos estimadores son posibles únicamente si el tamaño muestral es razonablemente grande o los datos no poseen mucha volatilidad. También, se parte del supuesto que los datos se obtienen de una distribución normal y, a diferencia de la media muestral, la distribución de la varianza muestral no es robusta a desviaciones de este supuesto. Se debe tener cuidado en asegurarse que los datos se distribuyen aproximadamente en forma normal. Finalmente, debe ser notado que, no obstante la discusión de este capítulo apunta a varianza poblacionales, su aplicación se extiende a desviaciones estandar poblacionales, con la obvia precaución de tomar la raiz cuadrada positiva. Un intervalo de confianza para una varianza Tests e intervalos de confianza para varianzas poblaciónales estan basados en la distribución muestral de la varianza muestral. Esando esta distribución muestral estamos en condiciones de hacer una aformacion como:- 21

22 P(L < (n 1) s 2 / σ 2 < U) =.95, donde L corta a nivel inferior la distribución chi cuadrada (χ 2 ) a.025 (2.5%), y U corta a nivel superior la distribución chi cuadrada a.025 (2.5%). Algunas manipulaciones algebraicas de esta relación proporcionan la formula estandar para el intervalo de confianza de la varianza: Esta es (n- 1)s 2 / U a (n- 1) s 2 / L Comparación de varianza El enfoque correcto para al comparación de volatilidades de dos poblaciones normales es a traves del ratio de sus varianzas poblacionales. Este tipo de procedimiento de inferencia es particularmente importante, como procedimiento de test, en el contexto de regresion y analisis de varianza (ANOVA). El ratio de varianzas muestrales es el estadístico natural a considerar en este caso, y puede ser demostrado que la distribución muestral basica en las que se respaldan estas inferencias se encuentra bien tabulada y es conocida como la distribución F. En términos generales, posee la misma forma que la distribución χ 2 y es, de hecho, la distribución muestral de la función: F = { s 1 2 / s 2 2 } / {σ 1 2 / σ 2 2 } [3] Esta basada en dos tipos de grados de libertad, los grados de libertda del numerador y del denominador. Los superiores estan asociados con s 1, mientras que los inferiores estan asociados a s 2. Tanto las tablas como funciones especiales de softwares proporcionan probabilidades a partir de los parámetros de consideración. 22

23 Intervalo de Confianza para el ratio de varianzas. Sea L el valor que corta a nivel inferior la distribución F con una probabilidad de 2.5%, y sea U el valor que corta a nivel superior la distribución F con una probabilidad de 2.5%. Entonces p(l < F < U) =.95 y sustituyendo en la formual [3] y después de un pequeño manipuleo de la desigualdad, arribamos a la fórmula para un intervalo de confianza del 95% para el ratio de varianzas, σ 2 1 / σ 2 2 como { s 1 2 / s 2 2 } /U a {s 1 2 / s 2 2 } /L 23