Profesor: Carlos Valle Página:

Documentos relacionados
CONTRASTE DE HIPÓTESIS

CONTRASTE DE HIPÓTESIS

Tema 13: Contrastes No Paramétricos

Inferencia estadística: Prueba de Hipótesis. Jhon Jairo Padilla A., PhD.

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

Contraste de hipótesis paramétricas

Tema 9: Contraste de hipótesis.

Prof. Jose Jacobo Zubcoff Universidad de Alicante 1

Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste

Matemáticas aplicadas a las Ciencias Sociales II

Matemáticas aplicadas a las Ciencias Sociales II

Técnicas de Inferencia Estadística II. Tema 1. Contrastes de hipótesis

Tests de hipótesis. Técnicas de validación estadística Bondad de ajuste. Pruebas de bondad de ajuste. Procedimiento en una prueba de hipótesis

Aplicación de la distribución empírica: Tests de bondad de ajuste

Tema 7. Introducción Metodología del contraste de hipótesis Métodos no paramétricos

Prueba de Hipótesis. Bondad de Ajuste. Tuesday, August 5, 14

Teorema Central del Límite (1)

Inf In e f re r ncia est es adís t t adís ica: ic Prueba de Hipótesis Jhon Jairo Jair Pa P dilla a A., PhD. PhD

Estimación de Parámetros.

Estadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis. Facultad de Ciencias Sociales, UdelaR

Preparación de los datos de entrada

PRUEBAS DE BONDAD DE AJUSTE

Técnicas de Inferencia Estadística II. Tema 1. Introducción a los contrastes de

Técnicas de Inferencia Estadística II. Tema 1. Contrastes de hipótesis

INFERENCIA ESTADISTICA

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA

Contrastes basados en el estadístico Ji Cuadrado

BLOQUE III: INFERENCIA ESTADISTICA. X, variable aleatoria de interés sobre una determinada población

Selección de distribuciones de probabilidad

ESTIMACIONES INTERVALOS DE CONFIANZA CON VARIANZA DIFERENTE LI. MIGUEL CANO

Definición Una hipótesis es una afirmación acerca de un parámetro.

TEMA Nº 2 CONTRASTE DE HIPÓTESIS EN LOS DISEÑOS DE UNA MUESTRA

Estadística Inferencia Estadística

PRUEBAS DE BONDAD DE AJUSTE

Distribuciones de parámetros conocidos

ESTIMACIONES INTERVALOS DE CONFIANZA CON VARIANZA DIFERENTE LI. MIGUEL CANO

Conceptos básicos de inferencia estadística (III): Inferencia no paramétrica: Contrastes de bondad de ajuste.

Tabla de Test de Hipótesis ( Caso: Una muestra ) A. Test para µ con σ 2 conocida: Suponga que X 1, X 2,, X n, es una m.a.(n) desde N( µ, σ 2 )

PLAN DE TRABAJO 9 Período 3/09/07 al 28/09/07

Contrastes de hipótesis paramétricos

Validación de hipótesis de un proceso de Poisson no homogéneo

MODELOS DE SIMULACIÓN ESTADÍSTICOS CLASE 4: DISTRIBUCIÓN t, CHI-CUADRADA y EXPONENCIAL PROFESOR: OSCAR SAAVEDRA ANDRÉS DURANGO.

Podemos definir un contraste de hipótesis como un procedimiento que se basa en lo observado en las muestras y en la teoría de la probabilidad para

Estadísticas Pueden ser

PRUEBA DE BONDAD DE AJUSTE O PRUEBA CHI - CUADRADO

Diseño de experimentos - prueba de hipótesis.

Verificación de hipótesis paramétricas

Pruebas de bondad de ajuste

Contrastes de Hipótesis paramétricos y no-paramétricos.

Modelos de Pérdidas Agregadas No Vida

T4. Contrastes de bondad de ajuste de variables continuas

Estadística. Generalmente se considera que las variables son obtenidas independientemente de la misma población. De esta forma: con

Análisis Estadístico de Datos Climáticos. Pruebas de Hipótesis (Wilks, cap. 5)

Estadística. Para el caso de dos variables aleatorias X e Y, se puede mostrar que. Pero y son desconocidos. Entonces. covarianza muestral

Tema 5: Contraste de hipótesis

Tema 8. Contrastes no paramétricos. 8.1 Introducción

EXAMEN DE ESTADÍSTICA Septiembre 2011

EVALUACIÓN EN APRENDIZAJE. Eduardo Morales y Jesús González

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

viii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos

Tema 6: Contraste de hipótesis

Distribución Chi (o Ji) cuadrada (χ( 2 )

Explicación de la tarea 8 Felipe Guerra

Tema 5. Contraste de hipótesis (I)

UNIVERSIDAD DE ATACAMA

Tests de Hipótesis. Estadística (M)

Nota de los autores... vi

Contrastes de hipótesis. 1: Ideas generales

TEST DE RAZÓN DE VEROSIMILITUD GENERALIZADA

Selección de distribuciones de probabilidad

Algunas Distribuciones Continuas de Probabilidad. UCR ECCI CI-1352 Probabilidad y Estadística Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Prueba de Hipótesis. Una hipótesis estadística es un supuesto que se establece sobre las características de una distribución poblacional

Pruebas de Hipótesis

Tema 8: Contraste de hipótesis

Universidad Rafael Belloso Chacín (URBE) Cátedra: Fundamentos de Estadística y Simulación Básica Semestre Profesor: Jaime Soto

UNIVERSIDAD DE MANAGUA Al más alto nivel

7. Inferencia Estadística. Métodos Estadísticos para la Mejora de la Calidad 1

4. Prueba de Hipótesis

Determinación del tamaño de muestra (para una sola muestra)

Conceptos básicos de inferencia estadística (II): Contrastes de hipótesis (repaso)

Capítulo 5: Funciones de Variables Aleatorias y Generadora de Momentos Estadística Computacional I Semestre Funciones de Variables Aleatorias

Contraste de Hipótesis

Tests de Hipótesis. Estadística (M)

Hipótesis Alternativa H 1 : ϑ Θ 1

Inferencia Estadística. Estimación y Contrastes

Métodos Estadísticos de la Ingeniería Tema 11: Contrastes de Hipótesis Grupo B

UNIVERSIDAD DE MANAGUA

Pruebas de Hipótesis. Diseño Estadístico y Herramientas para la Calidad. Pruebas de Hipótesis. Hipótesis

Variables aleatorias

Estadística Inferencial

CONTRASTES NO PARAMÉTRICOS: ALEATORIEDAD Y LOCALIZACIÓN

Métodos de Investigación en Psicología (11) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

1) Características del diseño en un estudio de cohortes.

Conceptos del contraste de hipótesis

PRUEBA CHI-CUADRADO. Para realizar un contraste Chi-cuadrado la secuencia es:

UNIDAD 4. INFERENCIA ESTADÍSTICA. Prof. Eliana Guzmán U. Semestre A-2015

Transcripción:

Capítulo 8 Contraste de Hipótesis I Semestre 6 Profesor: Carlos Valle Página: www.inf.utfsm.cl/~cvalle e-mail: cvalle@inf.utfsm.cl Contraste de Hipótesis Contrastar una Hipótesis Estadísticamente es juzgar si cierta propiedad supuesta para una población es compatible con lo observado en una muestra de ella. Tipos de Hipótesis: Hipótesis Alternativas Hipótesis Anidadas Alternativas: : Hipótesis A v/s Hipótesis B, donde A y B no pueden cumplirse simultáneamente. Anidadas: : Hipótesis A y B, donde A es un caso especial de B.

Contraste de Hipótesis Hipótesis Simple: El parámetro tiene un único valor. Hipótesis Compuesta: El parámetro tiene varios valores. Hipótesis Nula: (H ) es la hipótesis que se contrasta. Esta hipótesis se mantendrá a no ser que los datos indiquen lo contrario. Esta hipótesis nunca se considera probada aunque puede ser rechazada por los datos. Hipótesis Alternativa: (H ) es la hipótesis contrapuesta a H. 3 Elementos de una Prueba de Hipótesis.- Hipótesis Nula (H ), Hipótesis Alternativa..- Estadística de Prueba (Discrepancia). 3.- Región de Rechazo (Región Crítica). 4.- Regla de Decisión. 4

Definiciones Básicas Prueba (Contraste) de Hipótesis Estadística: es una regla γ (Procedimiento) para decidir si rechazamos una hipótesis H. Estadística de Prueba: Es una función de la muestra. Interesa que contenga el máximo de información sobre H. Es en base a la información contenida en esta función que decidiremos respecto de la aceptación o rechazo de H. Región Crítica: Define los valores del estadístico de Prueba para los cuales se contradice H. 5 Definiciones Básicas Regla de Decisión: Procedimiento que acepta o rechaza H, dependiendo del valor del estadístico de Prueba. Nivel de Significación: Este valor α determina un valor crítico c : P(d>c H )=α. El procedimiento de selección de c a partir de α tiene varias críticas: El resultado del Test depende de la elección de α. Sólo el resultado del Test( A/R) no permite diferenciar el grado de evidencia que la muestra indica a favor o en contra de H. 6 3

Contraste de Hipótesis Consideremos H : θ Θ v/s H : θ Θ Sea Θ: Estado de Naturaleza Θ = Θ Θ χ: Espacio de Información χ = C C C Regla de Decisión: x C H es F x C C H es V Error tipo I: Rechazar H (cuando es verdadero) P(Error tipo I) = P θ ( C ) = α(θ), θ Θ Error tipo II: Aceptar H (cuando es falso) P(Error tipo II) = P θ (C C ) = β(θ), θ Θ Fijada la región crítica C podemos definir: π C : Θ [,], π C (θ) = P θ (C) Función Potencia 7 Contraste de Hipótesis H : θ = Θ v/s H : θ = Θ T (X ) c C Modelo H aceptado Θ C P( Error tipo I) = P ( T ( X ) C) = α, θ = Θ θ T (X ) Modelo H rechazado 8 4

Contraste de Hipótesis H : θ = Θ v/s H : θ = Θ c P( Error tipo II) = P ( T ( X ) C ) = β, θ = Θ T (X ) θ c C Modelo H aceptado Θ C T (X ) Modelo H rechazado 9 Contraste de Hipótesis Aumento del error tipo I: α > Disminución del error tipo II: β < H : θ Θ v/s H : θ Θ c C C = α θ θ P ( Error tipo I) P ( C θ ) = ( ), Θ c P( Error tipo II) = Pθ ( C ) = β ( θ ), θ Θ 5

Contraste de Hipótesis Disminución del error tipo I: α < Aumento del error tipo II: β > H : θ Θ v/s H : θ Θ c C C = α θ θ P ( Error tipo I) P ( C θ ) = ( ), Θ c P( Error tipo II) = Pθ ( C ) = β ( θ ), θ Θ Ejemplo Nº Una v.a. X tiene una ley de Probabilidades dada por: X 3 4 5 6 Bajo H p /6 /6 /6 /6 /6 /6 Bajo H p /5 /6 /5 /5 /6 /5 Regla: Se decide rechazar H si X = 3 ó 4 Determinar: α = Error tipo I ; β = Error tipo II y la Potencia del Test 6

Solución- Problema α = P Ho ( C ) = P Ho ({ 3, 4 }) = /6 = /3 β = P H ( C C ) = P H ({,, 5, 6 }) = - /5 = 3/5 π C (θ) = P θ (C) = - β = /5 3 Contraste de Hipótesis En la práctica interesa que α, β sean pequeños. Un método apropiado para construir una Prueba es:.- Fijar C : P θ ( C ) α dado el nivel de significación α. Sea ζ = {C : P θ ( C ) α}.- Elegir C : P θ ( C C ) = β sea mínimo para C ζ. Toda región C χ región crítica : P θ (C) α Θ y P θ (C) máxima θ Θ, se dice Región Crítica Óptima. si θ 4 7

H: θ = Θ v/s H: θ = Θ Fijar α c C c C C c C C Minimizar β C 5 Función de operación característica/potencia Función de operación característica (FOC): c L θ ) = P(aceptar H θ ) = P( T ( X ) C θ ), ϑ Θ ( Función de potencia: ϑ Θ π ( θ ) = P(rechazar H θ ) = P( T ( X ) C θ ) = L( ϑ) Observación: L( θ) = α si θ = Θ L( θ ) = β si θ = Θ 6 8

Propiedades de la FOC Si L( θ ) = P( T ( X ) C θ ) Propiedades: L(- )= L( )= dl/dθ< para todo θ (Luego L es una función estrictamente decreciente). L( θ ) = L(θ ) θ 7 Contraste de Hipótesis usando la FOC Consideremos H : θ Θ v/s H : θ Θ Sea T(x) un estimador de θ. Regla de Decisión: T(x) C H es F T(x) C C H es V Definir la FOC: c L( θ ) = P(aceptar H θ ) = P( T ( X ) C θ ) Encontrar estadístico de manera tal que la Distribución probabilidad no dependa de los parámetros del modelo( Cantidad Pivotal): c c L( θ ) = P( T ( X ) C θ ) = PW ( ( X, θ ) C θ ) ~ F 8 9

Contraste de Hipótesis usando la FOC Fijar nivel α del error tipo I, y encontrar la región crítica C: c PW ( ( X, θ ) C θ ) = α C Rechazar H o si T( X ) C 9 Test de Medias (Varianza σ conocida) Consideremos H : µ = µ v/s H : µ > µ Sea T ( X ) = X un estimador de µ. Regla de Decisión: T(x) C H es F T(x) C C H es V Definir la FOC: L( µ ) = P(aceptar H µ ) = P( X c) Encontrar estadístico de manera tal que la probabilidad no dependa de los parámetros del modelo: X µ X ~ N( µ, σ / n) W ( X, µ ) = ~ N(,) σ / n X µ c µ L( µ ) = P( X c) = P ~ N(,) / n / n σ σ

Test de Medias (Varianza σ conocida) Fijar nivel α del error tipo I, y encontrar la región crítica C: P W c µ c µ X, µ ) = Φ = α σ / n σ / n ( Rechazar H o si X C c µ = z c = µ + z σ / n σ C = µ + z α, n α α σ n Test de Medias (Varianza σ conocida) Caso : H : µ = µ v/s H : µ > µ L( µ ) = P(aceptar H µ ) = P( X µ c' ) = P( X c) Caso : H : µ = µ v/s H : µ < µ L( µ ) = P(aceptar H µ ) = P( µ X c' ) = P( X c) Caso 3: H : µ = µ v/s H : µ µ L( µ ) = P(aceptar H µ ) = P( X µ c') = P( c X c) ] c] C = [ c : + [ C = ] ; c ] [ + [ C = : ; 3 c

Ejemplo Problema 3 Una investigación conducida por el INE Instituto nacional de estadística establece que la tasa de desempleo en Chile es %. Se toma una muestra de 35 personas de la fuerza de trabajo de la V región, encontrando que 7 de ellas se encuentran sin empleo. Es ésta una fuerte evidencia para confirmar que la tasa de desempleo en la V región es más alta que la que figura en el INE? (Justifique todos sus supuestos) 3 Ejemplo H: p=, v/ H: p>, m.a. de tamaño n=35 de Número de personas sin empleo 7 Bajo H : Χ = ~ B n, p ~ N np ; np [ : + [ de tabla c,64 C = c = Bajo Z H α =,5 = : X i Χ np 7 3,5 3,5 X = 7 Q = =,48 5,6,366 np ( p ) ( ) ( ( p) ) ~ N X 35, = 35,,8 (, ) X 3,5 ~ 5,6 Q = N C Q No hay evidencia contra H con α =,5 (,) 4

Ejemplo No hay evidencia contra H con α =, 5 5 Test de Comparación de Medias Consideremos H : µ x = µ y v/s H : µ x -µ y > Sea X=x,...,x n y Y=y,...,y n y T ( X, Y ) = X Y un estimador de µ= µ x - µ y. Regla de Decisión: T(x) C H es F T(x) C C H es V Definir FOC: L( µ ) = P(aceptar H µ ) = P( X Y c) Encontrar estadístico de manera tal que la probabilidad no dependa de los parámetros del modelo: 6 3

Test de Comparación de Medias Z X ~ ~ N ( µ, σ ) ( µ, ) σ E[ X ] = µ Y N EY [ ] = µ " Var[ X ] = σ Var[ Y ] = σ Supuesto: Independencia Caso Normal: Estadística de Prueba X Y ( µ µ ) ~ N(,) X Y µ µ t σ σ + SP + n n n n = ( ) σ i conocidos = ~ tn + n σ i desconocidos pero iguales 7 Test de Comparación de Medias ( ) ( ) donde n S + n S S P = n + n Para el caso de σ i desconocidos y distintos no hay solución exacta. Región crítica C se modifica ' wt + wt S t = w = w + w n t = X n S n Y n S + n t = t α ( n ) = t ( n ) t α S w = n 8 4

Hipótesis µ = µ v / s µ = µ µ = µ v / s µ < µ µ > µ Estadística de Prueba X µ z = σ X µ t = S n n idem (σ conocido) (σ desconocido) σ = σ v / s σ = σ σ σ σ > σ σ < σ χ ( n ) S = χ n σ idem 9 Hipótesis µ = µ v / s µ µ con σ = σ desconocidas µ = v / s µ µ µ con σ σ desconocidas Estadística de Prueba ( X X ) ( µ µ ) S P P n + n nn S n S + n ( X X ) ( µ µ ) S t t n + n n + n σ = σ v / s σ σ S S F n (, n ) p = p v / s p = p X np np ( ) N, ( p ) 3 5

Problema N Un nuevo dispositivo de filtrado se instala en una planta química. Antes y después de su instalación una m.a. respectiva arrojó la siguiente información del porcentaje de impurezas: y S Antes =, 5 n = 8 = 7, Después y S n =, = 94, 73 = 9 3 Problema N El dispositivo de filtrado ha reducido el porcentaje de impurezas significativamente? Opción : (Lamentablemente no se conoce µ ) H : µ = µ v / s H : µ > µ Opción : H : µ = µ v / s H µ > µ El dispositivo de filtrado ha cambiado el porcentaje de impurezas significativamente? Opción 3: : H : µ = µ v / s H : µ µ 3 6

Solución Problema S P Si Bajo = σ σ = H ( n ) S + ( n ) n + n t t ( y y ) ( µ µ ) = tn + n n + n SP nn ( y y ), 5,, 3 = = = 48 7 9, 9, 49 7 =, n + n SP S P nn S 7,7 + 8 94,73 466,3 = = = 97,73 5 5 33 Opción : Solución Problema Nivel de significancia α=,5 t,95(5)gl =,753 Región crítica C = [,753 ; [ T =.48 C C Se acepta H Es decir, el dispositivo nuevo no reduce significativamente el porcentaje de impurezas. Opción 3: Nivel de significancia α=,5 t,975(5)gl =,3 Región crítica C = ] - ; -,3 ] [,3 ; [ t =.48 C C Se acepta H Es decir, el dispositivo nuevo no cambia significativamente el porcentaje de impurezas. 34 7

Solución Problema H Región crítica : σ = σ v / s H : σ σ S,7 F = = =,68 ~ F n, n S 94,73 F, 5 ( 7, 8) =, F, 975 ( 7, 8) = 4, 53 Bajo H : ( ) α =,5 4 C = ] ;,4 ] [ 4,53 ; [ F C C Se acepta H : σ = σ 35 Contraste Bondad de Ajuste Provienen las observacion iones de una distribución en particular? Luis Seccatore G 36 7-8

Datos Provienen de una Distribución Particular? Usualmente se supone que los datos se comportan como si proviniesen de una distribución particular.. Muchas Decisiones Estadísticas descansan en que las observaciones son de un formato específico (normal, lognormal, poisson, etc.) Por ejemplo: En aplicaciones de confiabilidad de sistemas computacionales, modelos de esperas, etc. En tal caso para modelar preciso los tiempos de sobrevivencia se requiere especificar correctamente la forma de la distribución.. Puede existir, también, razones históricas para suponer que la muestra proviene de una población particular; datos en el pasado pueden haberse ajustado consistentemente a una distribución conocida la teoría parece indicar que la población subyacente debiera ser de una determinada forma. 37 Contraste Bondad de Ajuste Propósito: Probar si los datos de la muestra se comportan como si proviniesen de una distribución específica. Contrastar Hipótesis H : Los datos provienen de la distribución especificada. ;(ג) P EXP(θ) H : Los datos no provienen de la distribución especificada. 38 9

Q-Q Plot & Probability Plot Propósito: Verificar si los Datos siguen o provienen de una Distribución Dada. Para cada valor pi, graficar Q x (p i ) contra Q t (p i ) para i =,,..., n, Q x (p i ): empírico 4, 3,5 3,,5,,5,,5, -,5 -, -,5 -, -,5,,5,,5, Q t (p i ): teórico 39 Hipótesis Simples vs. Compuestas. Hipótesis es simple, cuando se especifican los valores de los parámetros de la distribución en cuestión, antes de obtener la muestra. H : datos provienen de una distribución N(, ). Hipótesis es compuesta, cuando uno o más de los parámetros es desconocido. A menudo, éstos son estimados a partir de los datos de la muestra. H : Datos se distribuyen normalmente con parámetros desconocidos µ y σ. 4

Hipótesis Compuestas Las hipótesis compuestas son las más comunes porque ellas permiten decidir si una muestra proviene de una distribución de un determinado tipo a partir de las observaciones de una muestra. En esta situación, es de interés la forma de la distribución, independientemente de los valores de los parámetros. Desgraciadamente, las hipótesis compuestas son más difíciles de trabajar porque los valores críticos son complicados de calcular. 4 Contraste de Bondad de Ajuste Examinaremos varios Test para probar Bondad de Ajuste:. Chi-cuadrado para distribuciones continuas o discretas.. Kolmogorov-Smirnov para distribuciones continuas, basado en la función de distribución acumulada empírica de los datos. 3. Anderson-Darling para distribuciones continuas 4

Contraste Bondad de Ajuste Contraste Bondad de Ajuste Contraste de χ de K. Pearson Luis Seccatore G 43 7 - Bondad de Ajuste Chi-cuadrado. Una característica atractiva que puede ser aplicada a cualquier distribución de datos discretos o continuos para la cual es posible calcular la función de distribución acumulada. Consiste en comparar la distribución acumulada teórica y empírica. Se aplica a datos que previamente han sido comprimidos en una tabla de frecuencia o un histograma. 44

Bondad de Ajuste Chi-cuadrado 3. El número de observaciones en cada grupo o clase se compara con el número esperado de observaciones para ese grupo. El estadístico de prueba se calcula como un función de esa diferencia. 45 Bondad de Ajuste Chi-cuadrado 4. El estadístico de prueba depende de cómo se genera la tabla de frecuencia o el histograma. El número de clases o grupos y cómo se define la pertenencia a cada grupo afectará a la potencia del contraste o prueba 5. La potencia también será afectada por el tamaño de la muestra y forma de la distribución nula (hipotética) y la subyacente (real) de los datos. Se requiere un tamaño suficientemente grande con el propósito que la aproximación de chi-cuadrado sea válida. 46 3

Hipótesis Nula v/s Alternativa H : F (x) = F*(x) para toda x H : F (x) F*(x) para a lo menos una x donde F (x) es la verdadera, pero desconocida, distribución de x F*(x) es una distribución completamente especificada: la función de distribución acumulada hipotética H : H : datos provienen de una distribución especificada; la función de distribución de la v. a. observada es F*(x) datos no provienen de la distribución especificada; la función de distribución observada es diferente a F*(x) Contraste χ de Pearson. Especificar Distribución de H : F*(x) Ya sea especificando los parámetros antes de tomar la muestra.. Construir Histograma, tal que: K: número de clases; K 5. ( ) n : tamaño de la muestra: n 5 (- ) I i : intervalo de clase i u i : límite superior de I i O i l i : límite inferior de I i O i : frecuencia Observada de la i-ésima clase: O i 5 Σ n i= O i = n l i Clase i I i u i 4

Contraste χ de Pearson 3. Calcular la Frecuencia Esperada de cada Clase. F*(x) función distribución acumulada p i = {F*(u i ) F*(l i )}; probabilidad que el modelo, asigna a cada clase E i = p i * n frecuencia teórica esperada de la i-ésima celda si H es cierta 4. Calcular diferencias entre O i & E i para la clase i en Intervalo I i Al tomar muchas muestras, O i tendrá una distibución binomial con esperanza E i = n*p i & σ i = n * p i *(-p i ) Cuando n es grande y suponiendo p i pequeño, O i será aproximadamente Poisson con λ = np i E i = σ i = λ (O i - E i ) es la discrepancia entre lo observado y lo estimado Contraste χ de Pearson 5. Estadístico de Prueba Si λ > 5 utilizamos la aproximación de la poisson por la normal O i E i = O i E i σ i ~ N(, ) E i El estadístico de Prueba se define como χ (O i E i ) = Σ K i = E i ~ χ K - c K = número de celdas no vacías c = es el número de parámetros (incluyendo ubicación, escala y de forma) para la distribución + ; así para una distribución Weibull de 3 parámetros c = 4 5

Contraste χ de Pearson Distribución de χ si H es cierta H : datos provienen de una distribución dada H : NO α El estadístico de Prueba se define como Σ K i = χ (O i E i ) obs = E i Rechazar H si: χ α, K -c χ obs > χ α, K c- K = no. de celdas no vacías c = no. de parámetros de la distribución 5 Ejemplo 3 3 3 4 7 9 3 3 33 33 35 36 37 4 4 43 43 44 45 48 48 54 54 56 57 57 58 58 58 58 59 6 6 6 63 64 65 66 68 68 7 73 73 74 75 77 8 87 89 93 97 Tamaño 5 Media 55,4 Mediana 57,5 Moda 58, Variancia 36,8 Desv.Estándar 9,479 Mínimo 3, Máximo 97, Rango 74, Q(,5) 4, Q(,75) 68, R.Intercuatílico 8, Sesgo,5896 Achatamiento -,6557 9 8 7 6 5 4 3 Median = 57,5 5%-75% = (4, 68) Non-Outlier Range = (3, 97) 5 6

Análisis Exploratorio 9 8 7 9 8 7 X 6 5 4 3-3 4 5 6 i No of obs 8 6 4 8 6 4 9,5 39,5 59,5 79,5 99,5 X i - X Observed Value 6 5 4 3 3 4 5 6 7 8 9,,5,,5,5 X i,75,9,95,99 9 8 7 6 5 4 3 53 -,5 -, -,5 -, -,5,,5,,5,,5 Theoretical Quantile Ejemplo: Bondad Ajuste χ Ei Oi 8 6 4 8 6 4 No of obs 9,5 39,5 59,5 79,5 99,5 X x = 55,5 ^s = 9, ν = 4 ( + ) = < 9,5 9,5 39,5 39,5 59,5 59,5 79,5 79,5 99,5 >99,5,5,3 8,8 9,3 5,4 4,5 5,5 8 5 5 χ (,3) (8 9,3) (5 5,4) (5 5) = + + + =,3785,3 9,3 5,4 5 χ tabla, ν: ; α:,5 = 3,84 Decisión? 54 7

Ejemplo: Distribución Exponencial Ejemplo: La vida útil de 7 computadoras ha tenido la siguiente ג distribución exponencial con paramétro Años funcionamiento (;) (;) (;3) (3;4) Más de 4 Frecuencia 3 3 6 5 6 Vida útil media =,5*3/7+,5*3/7+..5*6/7=,6 55 Ejemplo: Distribución Exponencial Vida útil media =,5*3/7+,5*3/7+..5*6/7=,6 (ג) Exp - Exp(-,6) v/s H: F (x) =(ג) Exp H: F (x) = F()=,46; F()=,7; F(3)=,84; F(4)=,9 χ (3 3,) (3 7,5) (6 9,) (6 5,6) = + + = 3,3 3, 7,5 9, 5,6 χ tabla, ν= 3; α:,5 = 7,8 Decisión? 56 8

Ventajas & Desventajas test Chi- Ventajas: Es lo suficientemente flexible para permitir que ciertos parámetros sean calculados desde los datos; se extrae un grado de libertad por cada parámetro estimado. Es aplicable tanto a distribuciones discretas como continuas Limitaciones: Requiere que los datos sean agrupados creando un histograma; la definición de las clases o grupos es más bien arbitraria. Se obtienen valores diferentes para el estadístico de prueba. La distribución del estadístico de prueba se conoce sólo aproximadamente; la potencia del contraste es baja. Requiere muestras de tamaño razonablemente grandes 57 Reglas Prácticas. El contraste es sensible a la elección de las celdas No existe un método óptimo de selección del ancho de clase (ya que el ancho óptimo depende de la distribución). Las elecciones más razonables deberían producir resultados similares, pero no idénticos. Una regla práctica de ancho es,3 s, donde s es la desviación ^ ^. Las clases superior e inferior deberían estar a más menos, 6 *s ^ de la media muestral. 3. Frecuencia observada por celda Para que la aproximación sea válida, la frecuencia esperada por celda debe ser a lo menos 5 si alguna de la frecuencias es menor que 5 combinar celdas: 4. La prueba no es válida para muestras pequeñas; 9

Contraste de Bondad de Ajuste Kolmogorov- Smirnov ( Distribuciones Continuas) Test ( K-S) Luis Seccatore G 59 7 - Función de Distribución Empírica La función de distribución empírica acumulada (FE) se obtiene de la muestra de la siguiente manera: La muestra aleatoria de tamaño n X : {x, x, x 3,..., x n } es ordenada de menor a mayor x (), x (), x (3),..., x (n), entonces, FE se define como:,,8 FE( x (i) ) = n (i) / n,6 ó + valores idénticos donde n (i) es el número de puntos menores que X (i). FE(x),4, No hay valores observados en este tramo Es una función escalón que aumenta en /n en el punto donde X toma un valor., 3 4 5 6 7 8 9 x 6 3

Propósito del Test K-s Propósito: Probar si los datos de la muestra se comportan como si provinieran de una distribución dada F*(x) Se basa en la comparación de los valores función de distribución acumulada empírica FE(x) Contra la F*(x) de la distribución de la cual se supone provienen los datos observados,9,8,7,6,5,4,3,, -4, -3, -, -,,,, 3, 4, Test K- S: Hipótesis H : F (x) = F*(x) para toda x H : F (x) F*(x) para a lo menos una x donde F (x) es la verdadera, pero desconocida, distribución de x F*(x) es una distribución completamente especificada: la función de distribución acumulada hipotética H : H : datos provienen de una distribución especificada la función de distribución de la v.a. observada es F*(x) datos no provienen de la distribución especificada. la función de distribución observada es diferente a F*(x) 3

Contraste de Kolmogorov-Smirnov. Ordenar los valores muestrales de manera que x () x () x (3) x (n),9. Calcular la función de distribución acumulada empírica F n (x),8,7,6,5 FE(x) = x < x () i/n x (i) x < x (i+) x x (n),4,3,, 3. Calcular F (x), función de distribución acumulada, totalmente especificada; parámetros de ubicación, escala y forma NO pueden ser estimados de los datos -4, -3, -, -,,,, 3, 4, Test de Kolmogorov-Smirnov 4. Calcular la discrepancia máxima entre FE(x) & F*(x) D max = máx D n (x (i) ) = máx FE (x (i) ) F(x (i) ) donde D n (x (i) ) = máx { FE (x (i-) ) F*(x (i) ) ; FE (x (i) ) F*(x (i) ) } Dn(x i) Dn(x i) Rechazar H si: D máx > D tabla (α,n) 64 3

Valores Críticos. La hipótesis nula respecto a la forma de la distribución es rechazada si el estadístico de prueba, D máx, es mayor que el valor crítico obtenido de una tabla de K-S.La tabla de K-S es: exacta para n para contrastes de dos colas; para n > y para contrastes de una cola, la tabla provee una buena aproximación que son exactos en la mayoría de los casos. para n > 4 el contraste se basa en la distribución asintótica del estadístico de prueba y no es muy exacta para cuando n es muy grande 65 Ejemplo 4 Test K-S en U(,). Sea una muestra de tamaño n = :,6,53,3,477,7,58,39,48,554,38,,9,8,7,6,5,4,3, D =,9. Ho : F(x) = U(, ) Ha : F(x) U(, ) 3. Nivel Significancia, α =,5 4. FE(x) F*(x) = U(, ),,,,,,3,4,5,6,7,8,9, 5. Estadístico de Prueba D = máx FE(x (i) ) F*(x (i) ) 6. D tabla =,49 66 33

Ventajas: Tes K-S: Ventajas & Desventajas. El estadístico de prueba no depende de la distribución acumulativa que está siendo contrastada.. Es un contraste exacto si F*(x) es continua (no depende de un tamaño adecuado de la muestra para que la aproximación sea válida como el contraste chi-cuadrado) Desventajas:. Es aplicable sólo a distribuciones continuas.. Tiende a ser más sensible cerca del centro de la distribución que en sus extremos. 67 34