A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA

Documentos relacionados
A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

Técnicas de validación estadística Bondad de ajuste

Técnicas de validación estadística Bondad de ajuste

Técnicas Cuantitativas para el Management y los Negocios I

Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste

Teoría de la decisión Estadística

Test de Kolmogorov-Smirnov

Problemas resueltos. Tema 12. 2º La hipótesis alternativa será que la distribución no es uniforme.

ANÁLISIS CUANTITATIVO DE DATOS EN CIENCIAS SOCIALES CON EL SPSS (I) Tablas de contingencia y pruebas de asociación

Nivel socioeconómico medio. Nivel socioeconómico alto SI NO TOTAL

INTERVALO DE CONFIANZA PARA LA PROPORCIÓN

Estadística Avanzada y Análisis de Datos

DISTRIBUCIONES DE PROBABILIDAD (RESUMEN)

Validación de los métodos microbiológicos HERRAMIENTAS ESTADISTICAS. Bqca. QM Alicia I. Cuesta, Consultora Internacional de la FAO

Unidad Temática 5 Estimación de parámetros: medias, varianzas y proporciones

Análisis estadístico básico (I) Magdalena Cladera Munar Departament d Economia Aplicada Universitat de les Illes Balears

CONCEPTOS FUNDAMENTALES

Pruebas de Bondad de Ajuste

Estadística Inferencial. Sesión No. 8 Pruebas de hipótesis para varianza.

Diferencia de medias. Estadística II Equipo Docente: Iris Gallardo Andrés Antivilo Francisco Marro

7. Distribución normal

1) Características del diseño en un estudio de casos y controles.

D.2 ANÁLISIS ESTADÍSTICO DE LAS TEMPERATURAS DE VERANO

Tema 5: Principales Distribuciones de Probabilidad

Pruebas de bondad de ajuste

Econometria. 4. Modelo de Regresión Lineal Simple: Inferencia. Prof. Ma. Isabel Santana

Prueba de hipótesis. 1. Considerando lo anterior específica: a. La variable de estudio: b. La población: c. El parámetro. d. Estimador puntual:

Tema II. Las muestras y la teoría paramétrica

Intervalos para la diferencia de medias de dos poblaciones

6. ESTIMACIÓN DE PARÁMETROS

ESTADÍSTICA INFERENCIAL

PRUEBAS PARA DOS MUESTRAS RELACIONADAS

Tests de hipótesis. Técnicas de validación estadística Bondad de ajuste. Pruebas de bondad de ajuste. Procedimiento en una prueba de hipótesis

Validación de hipótesis de un proceso de Poisson no homogéneo

DISTRIBUCIÓN CHI-CUADRADO O JI-CUADRADO X 2 CONCEPTO BÁSICO Frecuencia: es el número de datos que caen en cada celda. Frecuencias Observadas (fo):

TEMA 4: CONTRASTES DE HIPÓTESIS. CONCEPTOS BÁSICOS

Estimación de Parámetros.

Distribución muestral de proporciones. Algunas secciones han sido tomadas de: Apuntes de Estadística Inferencial Instituto Tecnológico de Chiuhuahua

Intervalos de Confianza para dos muestras

Estadística II Tema 3. Comparación de dos poblaciones. Curso 2010/11

Estadística inferencial. Aplicación con el SPSS

Estadística Inferencial 3.7. Prueba de hipótesis para la varianza. σ gl = n -1. Es decir: Ho: σ 2 15 Ha: σ 2 > 15 (prueba de una cola)

TEMA 5 Inferencia no paramétrica. Guía docente:

Tema Correlación. Correlación. Introducción

Contrastes basados en el estadístico Ji Cuadrado

Problemas resueltos. Temas 10 y 11 11, 9, 12, 17, 8, 11, 9, 4, 5, 9, 14, 9, 17, 24, 19, 10, 17, 17, 8, 23, 8, 6, 14, 16, 6, 7, 15, 20, 14, 15.

PRUEBAS DE BONDAD DE AJUSTE y DE INDEPENDENCIA

11. PRUEBAS NO PARAMÉTRICAS

web:

9. EL VALOR-P. Para esta hipótesis alternativa, el valor-p es la probabilidad que queda a la derecha del valor Tobs. bajo la curva de densidad.

Folleto de Estadísticas. Teoría del 2do Parcial

Tema 11: Intervalos de confianza.

Dr. Abner A. Fonseca Livias

INFERENCIA PARÁMETRICA: RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS

DIPLOMADO EN RELACIONES LABORALES Estadística Asistida por Ordenador Curso

Muestreo y estimación: problemas resueltos

Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste

1 CÁLCULO DE PROBABILIDADES

Universidad de Managua

Nota de los autores... vi

Indicaciones para el lector... xv Prólogo... xvii

Estadística Inferencial. Sesión 5. Prueba de hipótesis

ÍNDICE CAPITULO UNO CAPITULO DOS. Pág.

PRUEBAS DE BONDAD DE AJUSTE

Distribuciones de probabilidad. El teorema central del límite

Julia García Salinero. Departamento de Investigación FUDEN. Introducción

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

Métodos Estadísticos de la Ingeniería Tema 10: Inferencia Estadística, Intervalos de Confianza Grupo B

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

3. Análisis univariable y bivariable

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA

PRUEBA DE BONDAD DE AJUSTE O PRUEBA CHI - CUADRADO

Técnicas Cuantitativas para el Management y los Negocios I

Muestreo y Distribuciones muestrales. 51 SOLUCIONES

PRUEBAS DE ACCESO A LA UNIVERSIDAD L.O.G.S.E

Prueba de Hipótesis. Bondad de Ajuste. Tuesday, August 5, 14

DISTRIBUCIONES BIDIMENSIONALES

TEMA II: DISTRIBUCIONES RELACIONADAS CON LA NORMAL

PATRONES DE DISTRIBUCIÓN ESPACIAL

LA DISTRIBUCIÓN NORMAL

EJERCICIOS RESUELTOS TEMA 7

En las tablas 2x2 se emplea la prueba Ji-cuadrado Corrección de Yates siempre.

MULTICOLINEALIDAD EN LAS REGRESORAS Y NORMALIDAD DEL TÉRMINO DE ERROR EN LOS MODELOS DE REGRESIÓN LINEAL

CÁLCULO DE SIGNIFICANCIA ESTADÍSTICA PARA RESULTADOS SIMCE

Tema 13: Contrastes No Paramétricos

Medidas de Dispersión

Conceptos básicos de inferencia estadística (III): Inferencia no paramétrica: Contrastes de bondad de ajuste.

FORMULARIO. Rango intercuartílico: Diferencia entre el tercer y primer cuartil

ESTADISTICA INFERENCIAL

Prueba Ji-cuadrado de Independencia cuando solo tengo datos en tabla (datos tabulados):

SnapStat: Análisis de Una Muestra

Tema 7. Introducción Metodología del contraste de hipótesis Métodos no paramétricos

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

Media de los números aleatorios entre cero y uno

DISTRIBUCIONES DE PROBABILIDAD

Probabilidades y la curva normal

4. Medidas de tendencia central

Transcripción:

A. PRUEBAS DE BONDAD DE AJUSTE: Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov para una muestra Lilliefords Kolmogorov-Smirnov para dos muestras B.TABLAS DE CONTINGENCIA Marta Alperin Prosora Adjunta de Estadística 014 alperin@fcnym.unlp.edu.ar http://www.fcnym.unlp.edu.ar/catedras/estadistica

A. PRUEBAS DE BONDAD DE AJUSTE: 1. Chi cuadrado Objetivo Inrir si la población muestreada, cuyos datos se clasifican en una escala nominal o son agrupados en intervalos, se ajusta a una cierta distribución teórica. Hipótesis Hipótesis nula: frecuencias observadas son iguales a las frecuencias esperadas. Hipótesis alternativa: frecuencias observadas son direntes a las frecuencias esperadas. H0: fo= H1: fo Prueba de hipótesis Estadístico de prueba La hipótesis nula se acepta c (, ) k n parámetros estimados k ( fo ) c i1 Tabla Chi cuadrado 1 fo: frecuencia observada : frecuencia esperada k: número de categorías Decisión estadística Cuando se acepta la hipótesis nula, se puede afirmar que la muestra es extraída de una población cuya distribución es la del modelo contrastado con una confianza α.

Número de parámetros estimados Modelo Binomial, se estima p Modelo Poisson, se estima λ Modelo Normal, se estima μ y σ Modelo Uniforme no se estima ningún parámetro Para evitar errores calcular las frecuencias esperadas con 4 decimales y con 3 decimales. Restricciones: Los datos deben ser frecuencias Las categorías deben ser mutuamente excluyentes El test da resultados falsos si se aplica a datos que son porcentajes o proporciones de ocurrencias de estas categorías mutuamente excluyentes. Las categorías no deben ser muchas. La frecuencia esperada en cada categoría debe ser al menos de 5 (cinco). Si esto no ocurre se deben combinar las frecuencias de dos o mas categorías hasta que la frecuencia esperada se >5.

Ejemplo DISTRIBUCIÓN POISSON DISTRIBUCIÓN AL AZAR DISTRIBUCIÓN REGULAR DISTRIBUCIÓN CONTAGIOSA s X 1 s X 1 s X 1

Ejemplo: Desde el verano de 1976 se realizaron trabajos de investigacion tendientes a estudiar los meteoritos en la Antártida. Se analizaron los meteoritos caídos en un área de 00 km. El área fue subdividida con una cuadricula de 1 km y se contó el número de meteoritos presentes en cada cuadricula. N meteoritos por cuadricula observada p (Poisson) esperada (pxn) Chi cuadrado 0 10 0,06 4,4 1 14 0,0847 16,9 0,115 9 0,1611 3, 16,7155 3 3 0,044 40,9 7,8340 4 65 0,1944 38,9 17,5118 5 74 0,1479 9,6 66,6000 6 5 0,0938 18,8 10,198 7 0 0,0509 10, 10,000 8 0 0,0406 8,1 8,1000 x e P( x) x! m X n m=n meteoritos=761 n=n cuadriculas=00 X 3,805 s =,17 ((10+14)-(4,4+16,9)) /(4,4+16,9)=0,115 Los meteoritos se distribuyen al azar? H 0 : fo= H 1 : fo =0,05 =8-1-1=6 χ (6; 0,05)=1,59 k ( fo ) c 137, 0 c i1 137,0>1,59; se rechaza H 0 Los meteoritos no se distribuyen al azar Los meteoritos están agrupados o se distribuyen unifomemente? s s H =0,05; /=0,05 0 : 1; H a : 1 s,17 X X 0,57 =n-1=00-1=199 X 3,805 s 1 t (199; 0,05) =-1,960 X t n S est 1 S est n 1,17 1 3,805 t 4,97 S est 0,100 00 1 0,1 00 1-1,960>-4,97; se rechaza H 0 La distribución de los meteoritos no es al azar. El signo de t, y el valor de la relación varianza-media permite afirmar que la distribucion es relativamente uniforme.

Ejemplo PRUEBA DE NORMALIDAD Para comercializar la merluza se necesita investigar si el largo del cuerpo se ajusta a un modelo normal. Se realiza un lanzamiento de red en la plataforma a la latitud de Mar del Plata y se recuperan 300 peces. Intervalo Marca de clase (x) Observada Intervalo Z sup Area normal p esperada P x n 35,5-40,5 38 7 Menos de 40,5-1,8 0,0359 10,77 40,5-45,5 43 54 40,5-45,5-0,8 0,1760 5,8 45,5-50,5 48 10 45,5-50,5 0, 0,3674 110, 50,5-55,5 53 84 50,5-55,5 1, 0,3056 91,68 55,5-60,5 58 31 55,5-60,5, 0,101 30,36 60,5-65,5 63 4 Más de 60,5 infinito 0,0139 4,17 X 49,5 S=5 N=300 Recordemos El área del intervalo (40,5-45,5) viene dada por: p((z Zsup.) - p((z Zinf.) Se desconocen y Se estiman con X y S siendo (Zsup.) = (45,5 49,5) / 5 = -0,8 (Zinf.) = (40,5 49,5) / 5 = -1,8 p(z -0,8) p(z -1,8) = 0,4641 0,881 = 0,1760 Z x i S X El Zsup. de un intervalo será el Zinf. del siguiente intervalo. El primer intervalo tiene siempre como Zinf. menos infinito (- ) El último como Zsup. más infinito (+ ). Para obtener las frecuencias esperadas, las áreas debajo de la curva normal se multiplican por el número total de observaciones (N).

H 0 : el largo de la merluza está normalmente distribuido. H 1 : el largo de la merluza no se distribuye normalmente H 0 : fo= H 1 : fo =0,05 k ( fo ) c i1 Intervalo Marca de clase (x) Observada Intervalo Z sup Area normal p esperada P x n 35,5-40,5 38 7 Menos de 40,5-1,8 0,0359 10,77 40,5-45,5 43 54 40,5-45,5-0,8 0,1760 5,8 45,5-50,5 48 10 45,5-50,5 0, 0,3674 110, 50,5-55,5 53 84 50,5-55,5 1, 0,3056 91,68 55,5-60,5 58 31 55,5-60,5, 0,101 30,36 60,5-65,5 63 4 Más de 60,5 infinito 0,0139 4,17 Si las son menores que 5 ; se deben sumar las de intervalos contiguos hasta que todos los intervalos tengan 5. c k i1 fo N c 7 54 10,7 5,8 k n parámetros = 5 - -1 =... 35 300 34,53 estimados 1,8645,86 < 5,99 Como el valor de c no supera el crítico de tabla al 5%, no se encuentran evidencias suficientes para rechazar la H 0 (;0,05) =5,99 Se puede afirmar, con un nivel de significación del 5%, que el largo de la merluza sigue una distribución normal.

A. PRUEBAS DE BONDAD DE AJUSTE:. Método G de Fisher G k i1 fo ln fo El estadístico G sigue la misma distribución que c No es tan sensible como la prueba de Chi las frecuencias esperadas bajas Ejemplo del largo de la merluza 7 5 4 G (7ln 54ln... 4ln 10,77 5,8 4,17 Grados de libertad 6-3 =3 (3; 0,05) = 7,81 3,06 3,06<7,81 Como el valor de G no supera el crítico de tabla al 5%, no se encuentran evidencias suficientes para rechazar la H 0 Se puede afirmar, con un nivel de significación del 5%, que el largo de la merluza sigue una distribución normal.

A. PRUEBAS DE BONDAD DE AJUSTE:. Método de Kolmogorov Smirnov para una muestra con datos agrupados d max O max E N Se necesita conocer la media y el desvío estándar poblacional. El valor critico se busca en la Tabla Kolmogorv-Smirnov. 4. Método de Lilliefords (1967) No es necesario conocer la media y el desvío estándar poblacional. Las estandarizaciones se calculan con los estimadores muestrales. El valor crítico se busca en la Tabla Lilliefords Intervalo Ejemplo del largo de la merluza Observada 181173,79 d 300 acumulada observada 7,1 300 0,04 esperada Direncia máxima max O: frecuencia acumulada observada max E: frecuencia acumulada esperada N: numero total de datos acumulada esperada 35,5-40,5 7 7 10,77 10,77 3,77 40,5-45,5 54 61 5,8 63,57,57 45,5-50,5 10 181 110, 173,79 7,1 50,5-55,5 84 65 91,68 65,47 0,47 55,5-60,5 31 96 30,36 89,83 6,17 60,5-65,5 4 300 4,17 300,00 0 Valor crítico al 5% d de Lillifords d 0,04<0,051 Como el valor de d no supera el d crítico de tabla al 5%, no se encuentran evidencias suficientes para rechazar la H 0. Se puede afirmar, con un nivel de significación del 5%, que el largo de la merluza sigue una distribución normal. 0,890 0,0514 300

A. PRUEBA DE Kolmogorov Smirnov para dos muestras Se usa para comparar dos distribuciones muestrales. Las variables pueden estar expresadas en cualquier escala: nominal, ordinal, de razón, continua o discreta. No se asume ningún tipo de distribución de la población de donde se extraen las muestras. Las hipótesis de la prueba son: H0: Las muestras provienen de poblaciones que tienen idéntica distribución. H1: Las muestras provienen de poblaciones que tienen distribuciones direntes. H0: faa = fab H1: fab faa Estadístico de prueba d max faa La hipótesis nula se rechaza cuando d D. fab Direncia máxima faa: máxima frecuencia relativa acumulada en A. fab: máxima frecuencia acumulada relativa en B. n A : N datos muestra A. n B : N datos muestra B. Valores críticos D = 0,05 = 0,01 1 cola 1, N 1,51 N na nb N' na nb colas 1,36 N 1,63 N

Ejemplo: Los procesos de desecación de suelos arcillosos son similares a los que forman la disyunción columnar de los basaltos y el número de lados de los barquillos de fango (F) y de las columnas de basalto (B) serán iguales pues la contracción por desecación o por enfriamiento es equidistante desde un punto y tiende a formar estructuras hexagonales. H 0 : Las dos muestras son tomadas de poblaciones con igual número de lados de los polígonos. H 1 : Las dos muestras son tomadas de poblaciones con dirente número de lados de los polígonos. H 0 : fab = faf H 1 : fab faf Nivel de significación, = 0,05 D (0,05) = 0,41 d max fab faf 0,1364 Suelo arcilloso Basalto X=N lados f(b) f(f) fr(b) fr(f) fa (B) fa (F) d 3 1 1 0.0303 0.078 0.0303 0.078 0.005 4 3 7 0.0909 0.1944 0.11 0. 0.1010 5 8 10 0.44 0.778 0.3636 0.5000 0.1364 6 15 8 0.4545 0. 0.818 0.7 0.0960 7 4 6 0.11 0.1667 0.9394 0.8889 0.0505 8 1 4 0.0303 0.1111 0.9697 1.0000 0.0303 9 0 0 0.0000 0.0000 0.9697 1.0000 0.0303 10 1 0 0.0303 0.0000 1.0000 1.0000 0.0000 n B = 33; n F = 36 Debido a que d < D (0,05) (0,1364 < 0,41), no existen evidencias para rechazar la hipótesis nula. Los procesos que originan las grietas de desecación y la disyunción columnar son similares.

B.TABLAS DE CONTINGENCIA Objetivo Inrir si en la población de la que es extraída la muestra, existe alguna relación entre las frecuencias de ocurrencia simultanea entre dos variables aleatorias. Las variables son atributos categóricos, codificados o en escalas nominales. Cada individuo se clasifica teniendo en cuenta simultáneamente las dos variables. Se registra la frecuencia de ocurrencia en cada individuo que forma parte de la muestra. Hipótesis Hipótesis nula: las variables son independientes. Hipótesis alternativa: las variables no son independientes. H 0 : fo= H 1 : fo V V1 1... n 1 x... m Tabla de contingencia Estadístico de prueba TF TC TT Prueba de hipótesis La hipótesis nula se rechaza c (, ) ( numero de filas 1)( numero de columnas 1) k ( fo ) c i1 fo: frecuencia observada en 1 celda : frecuencia esperada en 1 celda k: número de celdas de la tabla TF: total de fila TC: total de columna TT=N= N de datos Decisión estadística Cuando se acepta la hipótesis nula, se puede afirmar que la muestra es extraída de una población en donde las variables son independientes, con una confianza α.

Ejemplo: El objetivo del trabajo es investigar si en los humanos el color del pelo es independiente del sexo. H 0 : El color del pelo es independiente del sexo. H 1 : El color del pelo no es independiente del sexo. = 0,05 Sexo Color del pelo Negro Castaño Rubio Pelirrojo Total Fila Hombres 3 43 16 9 9,0000 36,0000 6,6667 8,3333 100 Mujeres 55 65 64 16 58,0000 7,0000 53,3333 16,6667 00 Total columna 87 108 80 5 300 Sexo Color del pelo Chi cuadrado Negro Castaño Rubio Pelirrojo Total Fila Hombres 0,3103 1,3611 4,667 0,0533 Mujeres 0,155 0,6806,1444 0,067 Total columna 8,987 c 6 ( fo i1 0,05;(41) (1) ) 7,81 8,987 H 0 : fo= H 1 : fo TF TC TT 00 80 MR) 300 ( 53,3333 8,987 > 7,81 El valor de c es menor al crítico de tabla. No se encuentran evidencias suficientes para aceptar la H 0 de independencia entre el color del pelo y el sexo trabajando con un nivel de significación de 5%.

CORRECCIÓN POR CONTINUIDAD Cuando los grados de libertad =1 y n<00, el estadístico de contraste de la prueba de hipótesis se debe corregir. La corrección por continuidad de Yates k ( fo 0,5) c i1

Ejemplo. El sentido de enroscamiento de los caparazones del foraminíro Globorotalia truncatulinoides, se usa para estimar la paleotemperatura del agua de mar. Las valvas dextrógiras ocurren en una relación 9:1 sobre las levógiras en aguas cálidas. El objetivo del estudio es determinar la paleotemperatura del agua en un nivel de un testigo recogido a la latitud de Buenos Aires en la plataforma. H 0 : Los datos provienen de una población con relación 9:1 de G. truncatulinoides dextrógiras-levógiras. H A : Los datos provienen de una población donde la relación G. truncatulinoides dextrógiras-levógiras no es 9:1. N = 100 valvas dextrógiras = (0,9) 100 = 90 valvas levógiras = (0,1) 100 = 10 Grados de libertad = k 1 = 1 = 1 Nivel de significación = 0,05 fo Dextrógiras 84 90 Levógiras 16 10 c = 3,84 k ( fo ) i1 (84 90) 90 (16 10) 10 0,4000 3,6000 4,000 Utilizando la corrección por continuidad de Yates se obtiene c k ( i1 fo 0,5) (84 90 0,5) 90 (16 10 0,5) 10 0,3361 3,050 3,3611 Si no se utiliza la corrección de Yates se rechaza la hipótesis nula dado que 4,00 > 3,84. Si se utiliza la corrección de Yates que no existen evidencias para rechazar la hipótesis nula puesto que 3,36 < 3,84. Se puede concluir que los ejemplares provienen de una población donde la relación de G. truncatulinoides dextrógiras-levógiras es 9:1 lo que indicaría que se trata de aguas cálidas.

GRACIAS