CONTRASTES NO PARAMÉTRICOS (I) Antonio Morillas

Documentos relacionados
CONTRASTES NO PARAMÉTRICOS: BONDAD DEL AJUSTE Y TABLAS DE CONTINGENCIA

VARIABLES ESTADÍSTICAS UNIDIMENSIONALES.

Modelos de Regresión análisis de regresión diagrama de dispersión coeficientes de regresión

Tema 2: Distribuciones bidimensionales

REGRESIÓN LINEAL SIMPLE

ESTADÍSTICA poblaciones

ANÁLISIS DE LA VARIANZA ANOVA COMPARACIONES MULTIPLES ENTRE MEDIAS MUESTRALES

V II Muestreo por Conglomerados

ANÁLISIS DE DATOS CUALITATIVOS. José Vicéns Otero Eva Medina Moral

Estadística Espacial. José Antonio Rivera Colmenero

6. ESTIMACIÓN PUNTUAL

MEDIA ARITMÉTICA. Normalmente se suele distinguir entre media aritmética simple y media aritmética ponderada.

TEMA 12 INFERENCIA ESTADÍSTICA. ESTIMACIÓN DE LA MEDIA 12.1 DISTRIBUCIÓN NORMAL. REPASO DE TÉCNICAS BÁSICAS

CÁLCULO Y COMENTARIOS SOBRE ALGUNAS MEDIDAS DESCRIPTIVAS. de una variable X, la denotaremos por x y la calcularemos mediante la fórmula:

MEDIDAS DE TENDENCIA CENTRAL

VARIABLE ALEATORIA Y FUNCIÓN DE DISTRIBUCIÓN

CURSO BÁSICO DE ESTADÍSTICA DESCRIPTIVA

3 = =. Pero si queremos calcular P (B) 2, ya que si A ocurrió, entonces en la urna

MATEMÁTICA MÓDULO 4 Eje temático: Estadística y Probabilidades

NOTAS SOBRE ESTADÍSTICA APLICADA A LA CALIDAD

Métodos Estadísticos Aplicados a la Ingeniería Examen Temas 1-4 Ingeniería Industrial (E.I.I.) 23/4/09

Aproximación a la distribución normal: el Teorema del Límite Central

INSTITUTO TECNOLÓGICO DE APIZACO PROBABILIDAD AXIOMAS Y TEOREMAS DE LA PROBABILIDAD.

-Métodos Estadísticos en Ciencias de la Vida

MODELOS DE REGRESIÓN LINEALES Y NO LINEALES: SU

Si los cerdos de otro granjero tienen los siguientes pesos: 165, 182, 185, 168, 170, 173, 180, 177. Entonces el diagrama de puntos está dado por:

Práctica 11. Calcula de manera simbólica la integral indefinida de una función. Ejemplo:

PROBANDO GENERADORES DE NUMEROS ALEATORIOS


CONTENIDO MEDIDAS DE POSICIÓN MEDIDAS DE DISPERSIÓN OTRAS MEDIDAS DESCRIPTIVAS INTRODUCCIÓN

IV. GRÁFICOS DE CONTROL POR ATRIBUTOS

RENTABILIDAD Y RIESGO DE CARTERAS Y ACTIVOS TEMA 3- I FUNTAMENTOS DE DIRECCIÓN FINANCIERA. Fundamentos de Dirección Financiera Tema 3- Parte I 1

TEMA 4: VALORACIÓN DE RENTAS

ESTADÍSTICA DESCRIPTIVA

Simulación de sistemas discretos

4. SEGUNDO MÓDULO. 4.1 Resumen de Datos

Curso de Estadística Unidad de Medidas Descriptivas. Lección 3: Medidas de Tendencia Central para Datos Agrupados por Clases

INTRODUCCIÓN AL CONCEPTO DE VALOR ESPERADO O ESPERANZA MATEMÁTICA DE UNA VARIABLE ALEATORIA

MUESTREO EN POBLACIONES FINITAS. Antonio Morillas 1

ESTADÍSTICA DESCRIPTIVA

LÍNEA DE REGRESIÓN MÍNIMO CUADRÁTICA BASADA EN ERRORES RELATIVOS

V Muestreo Estratificado

III. GRÁFICOS DE CONTROL POR VARIABLES (1)

Una Propuesta de Presentación del Tema de Correlación Simple

NOCIONES BÁSICAS DE ESTADÍSTICA UTILIZADAS EN EDUCACIÓN

Soluciones de los ejercicios de Selectividad sobre Inferencia Estadística de Matemáticas Aplicadas a las Ciencias Sociales II

Cálculo y EstadísTICa. Primer Semestre.

Estadística descriptiva

Introducción a la simulación de sistemas discretos

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN. Maestría en Administración. Formulario e Interpretaciones

CAPÍTULO 3 METODOLOGÍA. El objetivo del capítulo 3 es conocer la metodología, por lo cual nos apoyaremos en el

de los vectores libres del plano. Recordemos que la operación de sumar vectores verificaba las siguientes propiedades: se cumple que u + v = v + u

2 - TEORIA DE ERRORES : Calibraciones

Guía práctica para la realización de medidas y el cálculo de errores

Serie de Gradiente (Geométrico y Aritmético) y su Relación con el Presente.

5.3 Estadísticas de una distribución frecuencial

CURSO DE ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS CON LA HOJA DE CÁLCULO EXCEL

Análisis estadístico de datos muestrales

LOS NÚMEROS COMPLEJOS

MÉTODOS ESTADÍSTICOS PARA EL CONTROL DE CALIDAD

CENTRO DE MASA centro de masas centro de masas

LECCIONES DE ESTADÍSTICA

Los principales métodos para la selección y valoración de inversiones se agrupan en dos modalidades: métodos estáticos y métodos dinámicos

7.1. Muestreo aleatorio simple. 7.2 Muestreo aleatorio estratificado. 7.3 Muestreo aleatorio de conglomerados. 7.4 Estimación del tamaño poblacional.

Capítulo V Análisis de regresión y correlación

PRÁCTICA 13: PRUEBA DE HIPÓTESIS DE BONDAD DE AJUSTE E INDEPENDENCIA

(Feb03-1ª Sem) Problema (4 puntos). Se dispone de un semiconductor tipo P paralepipédico, cuya distribución de impurezas es

Control estadístico de procesos. Control de procesos. Definición de proceso bajo control estadístico. Causas de la variabilidad en un proceso

TEMA 3.- OPERACIONES DE AMORTIZACION : PRESTAMOS A INTERES VARIABLE 3.1.-CLASIFICACIÓN DE LOS PRÉSTAMOS A INTERÉS VARIABLE :

PARTE 2 - ESTADISTICA. Parte 2 Estadística Descriptiva Introducción

I n t r o d u c i ó n A l a E s t a d í s t i c a 1

Figura 1

TEMA 2: LOS NÚMEROS COMPLEJOS

ESTADÍSTICA DESCRIPTIVA Métodos Estadísticos Aplicados a las Auditorías Sociolaborales

INTRODUCCIÓN A LA ESTADÍSTICA DESCRIPTIVA PARA ECONOMISTAS

5- VARIABLES ALEATORIAS BIDIMENSIONALES

Formulación precisa de la(s) pregunta(s) de investigación. Planeación: Comunicación usuario/estadístico

Guía para la Presentación de Resultados en Laboratorios Docentes

12º seminario AEDEMO sobre Audiencia de Televisión Palma de Mallorca, Febrero de 1996

( ) = 0 entonces ˆ i i. xy x Y Y xy Y x ˆ. β = = β =.(1) Propiedades Estadísticas de los estimadores MICO. Linealidad.

INTRODUCCIÓN AL ANÁLISIS DE ENCUESTAS COMPLEJAS 1

C URVA DE L ORENZ C OEFICIENTE DE D ESIGUALDAD DE G INI

Matemáticas 1 1 EJERCICIOS RESUELTOS: Números Complejos. Elena Álvarez Sáiz. Dpto. Matemática Aplicada y C. Computación. Universidad de Cantabria

Algunas Recomendaciones para la Enseñanza de la Estadística Descriptiva o Análisis de Datos

Análisis de Regresión y Correlación. Material Preparado por Olga Susana Filippini y Hugo Delfino 1

PROBABILIDAD Y ESTADÍSTICA APLICADA

GUÍA PRÁCTICA PARA LA VALIDACIÓN, EL CONTROL DE CALIDAD Y LA ESTIMACIÓN DE LA INCERTIDUMBRE DE UN MÉTODO DE ANÁLISIS ENOLÓGICO ALTERNATIVO

Nociones de Estadística

1 Ce.R.P. del Norte Rivera Julio de 2010 Departamento de Matemática Notas para el curso de Fundamentos de la Matemática

ESTADÍSTICA. Unidad didáctica ESTADÍSTICA: CONCEPTOS BÁSICOS Caracteres y variables estadísticos

TEXTO DE PROBLEMAS DE INFERENCIA ESTADÍSTICA

EVALUACION DEL AHUELLAMIENTO CON EQUIPO DE ALTO RENDIMIENTO

TEMA 11 OPERACIONES DE AMORTIZACION O PRESTAMO (II)

Actividad: Elabora un resumen de la información que se muestra a continuación y analiza los procedimientos que se muestran.

Santiago de la Fuente Fernández. Análisis de variables categóricas

Manual de Estadística

ESTADÍSTICA BAYESIANA

Ejercicios Resueltos de Estadística: Tema 2: Descripciones bivariantes y regresión

Este documento es de distribución gratuita y llega gracias a El mayor portal de recursos educativos a tu servicio!

CAPÍTULO 2 MODELO DE REGRESIÓN LOGÍSTICA

Transcripción:

CONTRASTES NO PARAMÉTRICOS (I) Atoo Morllas. Itroduccó. Cotrastes de ajuste. Cotraste χ. Cotraste de Kolmogorov-Smrov 3. Cotrastes específcos de ormaldad 3. Cotraste de ormaldad de Lllefors 3. Cotraste de ormaldad de Jarque y Bera (asmetría y curtoss) 3.3 Cotraste de ormaldad de Shapro y Wlks 4. Cotraste de depedeca (asocacó). Tablas de cotgeca 5. Cotraste de homogeedad

. Itroduccó E las leccoes precedetes se ha propuesto métodos para estmar parámetros de ua poblacó o cotrastar hpótess acerca de los msmos, tomado como base la formacó procedete de ua muestra. Se ha cosderado, para ello, que los datos obtedos e la msma se ha obtedo medate muestreo aleatoro smple, co lo que se da por asumdas certas hpótess. Etre otras, que procede de u modelo de poblacó perfectamete coocdo e su forma, auque o se tega otca acerca del valor de alguo o de todos sus parámetros. Por ejemplo, como se ha vsto e leccoes aterores, para verfcar s es sgfcatva la dfereca etre dos medas poblacoales, se utlza dos muestras, que se supoe depedetes, y se establece que la dfereca de las medas e el muestreo se dstrbuye ormalmete. Se ha vsto como, bajo estas codcoes, el estadístco muestral que debe ser utlzado para la verfcacó de tal hpótess sgue ua dstrbucó t. E cotraposcó a este tpo de métodos, que se suele coocer como paramétrcos, se utlza co bastate frecueca los métodos o paramétrcos, cuado alguas de estas hpótess puede ser puestas e cuestó. Como se comprobará más adelate, los correspodetes cotrastes o paramétrcos para la localzacó de dos poblacoes (Wlcoxo, por ejemplo) o hace uso de estos supuestos y propoe su partcular estadístco de cotraste, cuya dstrbucó se puede obteer depedetemete de la forma que pueda teer la poblacó (descoocda geeralmete), por lo que suele també llamarse métodos de lbre dstrbucó. Los cotrastes o paramétrcos so, frecuetemete, más potetes e caso de cumplmeto de las hpótess eucadas (especalmete, s o es certa la de ormaldad). Además, so los apropados para verfcar hpótess cuado los datos co los que se trabaja procede de característcas de poblacoes que sólo puede ser meddas a escala ordal e, cluso, omal. Esta es, quzás, la dfereca respecto a los paramétrcos que más les caracterza. Las hpótess más utlzadas e capítulos aterores, a la hora de estmar parámetros o cotrastar hpótess acerca de los msmos, ha sdo: las realzadas sobre el modelo de probabldad que sgue la poblacó de la cual procede los datos de la muestra

la permaeca de dcho modelo, tato e forma como e parámetros, durate la obtecó de la msma la depedeca de las observacoes muestrales. Los cotrastes o paramétrcos, por tato, va a cubrr este abaco de posbldades de cumplmeto de hpótess báscas. E especal, se ha vsto e leccoes aterores como tato la estmacó de parámetros como la verfcacó de hpótess descasaba e el supuesto de ormaldad. Sedo este, además, u modelo ta geeralzado, o es de extrañar que uo de los prmeros objetvos de los métodos o paramétrcos haya sdo el cotraste de ormaldad e la poblacó. No obstate, su aplcacó a cualquer otra hpótess sobre la forma de la dstrbucó de probabldad de la poblacó ha dado lugar a cotrastes de ajuste geeralzados, e los que se compara los datos obtedos e la muestra co los que cabría esperar que se obtuvera s la hpótess vertda sobre la poblacó fuese certa. E este msmo crtero, de comparacó etre frecuecas empírcas y valores esperados, auque co dferete fudameto teórco, se basa otra clase de cotrastes o paramétrcos, que aalza la formacó sumstrada por ua tabla de doble etrada, llamada tabla de cotgeca, e la que se valora s los datos recogdos e fla so cotgetes (depedetes) de los expresados por columa. A los prmeros, co los que comezaremos esta leccó, se les suele llamar cotrastes de bodad del ajuste. Detro de los segudos, se ecuetra los cotrastes de depedeca (asocacó) y de homogeedad. Además, posterormete, veremos alguos cotrastes de aleatoredad y de localzacó para ua y dos muestras.. Cotrastes de ajuste La estmacó por tervalos y el cotraste de hpótess, vstos e leccoes aterores, se basa e la utlzacó de u estmador adecuado del parámetro poblacoal y e la evaluacó de su precsó, que, a su vez, depede del modelo teórco que se supoe sgue la poblacó. U cotraste de ajuste tee como objeto comprobar s co base e la formacó sumstrada por la muestra se puede aceptar que la poblacó de orge sgue ua determada dstrbucó de probabldad. Trataremos e este epígrafe los dos más geerales, el basado e la χ y el de 3

Kolmogorov-Smrov, y dejaremos para después alguos otros que so más específcos de ormaldad... Cotraste χ Se trata de u cotraste de bodad del ajuste aplcable tato a varables cotuas, sempre agrupadas e tervalos, como dscretas. Es el cotraste más atguo y cosste e comparar las frecuecas observadas e la muestra para cada tervalo o clase del hstograma, co las que se obtedría segú el modelo teórco propuesto para ser cotrastado. Para ello, como se ha dcho, los datos de la muestra se agrupa e tervalos, be porque la varable es cotua o be porque, aú sedo dscreta, el tamaño de la muestra es grade, como requere el test. E su caso, el prmero y el últmo de los tervalos se dejará abertos, co objeto de abarcar todo el recorrdo de la varable. Itervalos Meos de L Frecuecas observadas Tabla..: Cotraste χ de Pearso Probabldad p /H 0 p Probabldad de P( ) P( ) = p Frecuecas esperadas e e = p Valor del estadístco ( -e ) / e ( -e ) / e L L p P( ) = p e = p ( -e ) / e L - L p P( ) = p e = p ( -e ) / e L k- y más k p P( k ) = p k k e k = p k ( k -e k ) / e k = p = χ obs. La hpótess de partda es que los datos x, x,., x de ua varable X, observados e ua muestra de tamaño, que ha de ser sufcetemete grade ( > 5), procede de ua característca de la poblacó que sgue u modelo probablístco determado. S, por ejemplo, H o : f(x) = f o (x), la probabldad de obteer ua observacó e el tervalo -ésmo, cuado la poblacó tee la fucó de desdad f o (x), vedría dada por la expresó L L p / H = f ( 0 x) dx 0 (e adelate, p ). El úmero,, de observacoes cotablzadas e la muestra para cada tervalo, so las frecuecas absolutas reflejadas e la seguda columa de la Tabla... S la hpótess ula plateada acerca del modelo poblacoal del que procede la muestra fuese certa, estas frecuecas observadas y los valores esperados de las msmas, segú dcho modelo, debería estar 4

sufcetemete próxmos. El problema radca, por tato, e ecotrar el estadístco adecuado para evaluar la dscrepaca etre valores observados y valores teórcos de las frecuecas. Veamos como se puede cosegur. S se supoe que la muestra se ha obtedo aleatoramete, de tal forma que sus observacoes, x, x,., x, pueda ser cosderadas varables aleatoras depedetes, la probabldad de obteer exactamete observacoes e el tervalo -ésmo se obtedría multplcado veces la de obteer ua observacó (p ). Por tato, como se recoge e la columa cuatro de la Tabla, se deduce que P( ) = p, para =,.,k, sería las probabldades de obteer exactamete,,., k observacoes e los correspodetes tervalos. E muestras sucesvas, el úmero de observacoes perteecetes a cada tervalo costtuye ua varable aleatora. El expermeto cosstete e obteer observacoes e la clase, observacoes e la clase,., y k observacoes e la clase k, sedo p, p,., p k las probabldades de cada uo de los k resultados posbles, sgue u modelo de probabldad multomal, que da la probabldad de obteer ua muestra co ua dstrbucó de frecuecas determada para las k categorías cotempladas. Es decr, la hpótess ula podría ser formulada como sgue: H 0 : p = p 0, =,,,k La dstrbucó margal del estadístco, úmero de observacoes (éxtos) obtedas e la clase -ésma al tomar ua muestra de tamaño (repetcó de pruebas depedetes, co probabldad costate de éxto gual a p ), sgue ua dstrbucó bomal de parámetros y p (recuérdese que las dstrbucoes margales de ua multomal so todas bomales): B(, p ) El valor esperado de, por tato, vedrá dado por E( ) = e =. p, tal como se refleja e la peúltma columa de la Tabla. Cosderado sufcetemete grade y p muy pequeño, lo que hará coveete que se defa u úmero mportate de tervalos, puede aproxmarse la dstrbucó de medate ua dstrbucó de Posso, P(λ =. p ), y a esta, a su vez, sempre 5

que, λ = E( ) =. p 5, es posble aproxmarle ua dstrbucó ormal, ya que, como se vo e su mometo : p p N(0,) S elevamos al cuadrado esta expresó, y sumamos para los k tervalos, se obtedría ua suma de k varables ormales tpfcadas elevadas al cuadrado que da como resultado ua dstrbucó χ, co tatos grados de lbertad como varables aleatoras depedetes tervee e la suma; es decr, k-, ya que, como es evdete, k = =, y basta co coocer las frecuecas de k- tervalos para determar la del restate. E deftva, el estadístco adecuado, s fuese certa la hpótess ula, para evaluar la sgfcacó estadístca de la dscrepaca será: ( e ) e k χ k =, co e = p La regó crítca para el cotraste (rechazo de la hpótess sobre el modelo propuesto) estará stuada e la cola de la derecha, para valores grades del estadístco, dcado que cuato mayor sea la dscrepaca etre y e, más razoes tedremos para rechazar H 0. Para valores pequeños de esta expresó, se coclurá que o hay evdeca estadístca sufcete para rechazar que la muestra provee del modelo eucado e la hpótess ula. 0 El procedmeto a segur para desarrollar el cotraste cocde co la tabla (excepto la columa 4):. Se comezará tabulado las observacoes de la muestra e clases o tervalos (k 5), que ha de ser exhaustvas (de aquí que a veces sea ecesaro trabajar co tervalos abertos) y mutuamete excluyetes. El úmero de clases, lógcamete, covee que sea lo mayor posble, y puede ver determado por la expereca o por vestgacoes aterores. Es precso, como se ha dcho aterormete, que el valor esperado de la frecueca, e, e todas las clases sea mayor o gual a 5. S este requsto o se cumple, es ecesaro agrupar las clases afectadas para cosegur que la aproxmacó sea válda. La accó cojuta de ambas codcoes, p pequeña y e 5, oblga a u tamaño muestral grade. 6

. Ua vez tabulada la muestra, se calcula la probabldad que el modelo propuesto otorga a cada uo de los tervalos (p 0 ), y, a partr de ella, se obtee los correspodetes valores esperados de las frecuecas absolutas (e =. p 0 ). 3. Por últmo, se efectúa los cálculos de la últma columa de la tabla, que arroja, como suma de la msma, el resultado del valor observado (χ obs.) para la varable χ que mde la dscrepaca. S este valor supera el puto crítco (percetl) determado por el vel de sgfcacó α e la dstrbucó, se rechazará que el modelo poblacoal es el propuesto e la hpótess ula. χ k Es coveete, e todo caso, valorar por separado la cotrbucó de cada tervalo a este resultado del cotraste, ya que es posble que el valor alto observado vega provocado por la magtud de la dfereca e u tervalo cocreto, que pueda ver producda por algú error e los datos. Además, el detalle de las dferecas e cada tervalo puede seros de utldad para platear u modelo alteratvo como hpótess ula. Normalmete, o se cooce la forma de la poblacó, pero e el cotraste se supoe que la hpótess ula es certa. No ocurre así co sus parámetros que o suele coocerse queda especfcados e dcha hpótess sobre la forma de la dstrbucó. E tal caso, o se podría calcular las frecuecas esperadas al o poder obteer las probabldades para cada tervalo y o sería posble aplcar el cotraste. S embargo, puede demostrarse que, sempre que estmemos por máxma verosmltud dchos parámetros a partr de los datos muestrales, el cotraste sgue sedo váldo s más que corregr los grados de lbertad, dsmuyédolos co el úmero de parámetros estmados. Es decr, s descoocemos r parámetros de la poblacó, y so estmados por máxma verosmltud, el estadístco adecuado será el sguete: k = ( p ) p χ k r Falmete, hay que subrayar el hecho de que el cotraste es astótco y, por tato, resulta muy sesble al tamaño de la muestra, hasta el puto de que, s o está muy be especfcada la hpótess ula, co gra proxmdad a la verdadera dstrbucó, es bastate seguro que la rechazaremos cuado sea muy grade. De 7

hecho, puede demostrarse que la poteca del cotraste tede a cuado tede a. Esta crcustaca del cotraste puede comprobarse fáclmete, s más que multplcar el tamaño muestral por ua costate, c>. E tal caso, se tee que el valor observado del cotraste para el uevo tamaño muestral, c., será: χ obs.( c. ) k ( c cp ) = cp = y se tederá a rechazar la hpótess ula co el aumeto del tamaño de la muestra. Covee teer presete al respecto la dfereca etre dscrepaca estadístca y dscrepaca real a la que hcmos alusó e los temas aterores. = c χ obs. 8

Cotraste de Kolmogorov-Smrov. Se ha vsto que para poder aplcar el cotraste χ a varables cotuas es precso agrupar los datos observados e tervalos. Por otro lado, dada la aproxmacó astótca que se hace a ua ormal, es requsto mprescdble que el tamaño muestral sea lo sufcetemete grade como para que, juto co la codcó de p pequeña se cumpla que. p 5, e todos y cada uo de los tervalos. Esto quere decr que ha de ser relatvamete grade y que sería ecesaro u úmero de clases de agrupameto mímamete razoable. Y esto, a su vez, como se acaba de cometar, hace que este cotraste astótco teda a rechazar la hpótess ula s su especfcacó o es muy buea. El cotraste que se expoe a cotuacó trata de solvetar estas lmtacoes, o sedo ecesaro, para su aplcacó, el agrupameto de las observacoes muestrales e clases, y se puede aplcar a muestras de pequeño tamaño. Eso sí, a dfereca del ateror, sólo es váldo para varables de tpo cotuo. Su método cosste e comparar la dstrbucó acumulada de frecuecas de la muestra, F (x), co la fucó de dstrbucó, o probabldad acumulada, que habría s fuera certo el modelo de la poblacó que se propoe como hpótess ula, F 0 (x). Es precso subrayar que esta hpótess debe estar perfectamete especfcada, o sólo e su forma so, també, e sus parámetros. De o ser así, la ecesara estmacó de los msmos a partr de la muestra, hace que teda a aceptarse sempre la hpótess propuesta. Este es, probablemete, el mayor coveete de este cotraste, que, por certo, també puede ser utlzado para detectar s hay evdeca empírca de que dos muestras observadas provee de ua msma poblacó. Obsevacoes Ordeadas x () x () x () x () x () Frecuecas absolutas acumuladas N N N N N Tabla Cotraste de Kolmogorov-Smrov Frecuecas Probabldad relatvas acumulada acumuladas segú F (x () )=N / F 0 (x () ) F (x () ) F (x () ) F (x () ) F (x () ) F 0 (x () ) F 0 (x () ) F 0 (x () ) F 0 (x () ) Dstaca desde F (x (-) ) D (x () ) D (x () ) D (x () ) D (x () ) D (x () ) Dstaca desde F (x () ) D (x () ) D (x () ) D (x () ) D (x () ) D (x () ) El proceso para llevar a cabo el cotraste puede esquematzarse como sgue (véase Tabla y Gráfco ): 9

. Se establece la hpótess ula, acerca de que la muestra observada provee de ua varable cotua, represetatva de ua característca de la poblacó, cuyo modelo de probabldad tee como fucó de dstrbucó a F 0 (x). Es decr, H 0 : F(x)= F 0 (x).. Se procede a la ordeacó, de meor a mayor, de los valores observados e la muestra: x () x ()., x (),., x (). 3. Se obtee la dstrbucó acumulada de frecuecas relatvas, F (x () ) (fucó de dstrbucó empírca de la muestra). 4. Se obtee la probabldad acumulada correspodete, segú el modelo propuesto, F 0 (x () ). 5. Para cada x (), se obtee la dscrepaca etre la dstrbucó empírca y la teórca. Al tratarse, la prmera de ellas, de u dagrama e escalera, la dstaca etre éste y la dstrbucó teórca puede medrse a partr de la ordeada F (x (-) ) o de la F (x () ) (véase Gráfco ). Puede observarse que, para medr tal dscrepaca e cada valor muestral, se dspoe de dos referecas (ordeadas de la dstrbucó empírca) o dstacas dsttas. E este ejemplo, la exstete etre la curva teórca y la frecueca acumulada hasta la observacó x (-), segmeto stuado por debajo de F 0 (x), dada por F (x (-) )- F 0 (x () ) = D (x () ), y la que hay etre la frecueca acumulada hasta x () y la fucó teórca, segmeto stuado por ecma de esta últma, dada por F (x () )- F 0 (x () ) = D (x () ). 6. Por últmo, de etre todas estas dstacas, se elge la mayor de ellas, como dcador de la máxma dscrepaca observada etre los datos muestrales y el modelo propuesto: D =max D (x () ) D (x () ), para =,,.,. Para cada muestra, D podrá tomar valores dsttos, y su dstrbucó de probabldad, que puede demostrarse es depedete del modelo propuesto e la hpótess ula, sólo depede del tamaño de la muestra. La dstrbucó de este estadístco muestral, cuado F 0 (x) es certa, está tabulada, por lo que fjado u vel de sgfcacó, α, s la dstaca observada, D obs., es mayor que la dada por la tabla, D, o se tedrá evdeca muestral sufcete para aceptar como váldo el modelo. 0

F(x())= F(x()) F0(x) F(x(-)) D(x) D(x) F0(x) F(x()) F(x()) x() x(). x(-) x() x() Gráfco : Cotraste de Kolmogorov-Smrov

3. Cotrastes específcos de ormaldad La dea de que la ormaldad es algo muy frecuete e el comportameto de ua poblacó, juto a su trascedeca para muchos desarrollos teórcos, hace que su cotraste tega gra terés. No es extraño, pues, que haya surgdo métodos destados específcamete a comprobar esta hpótess. Es evdete que el cotraste χ puede ser empleado para este f, pero sempre que se dspoga de ua muestra grade. Esto o es ecesaro para el cotraste que se acaba de ver, pero, s embargo, como se ha dcho, el cotraste de Kolmogorov-Smrov precsa de ua completa especfcacó de los parámetros poblacoales, pues, e caso cotraro, coduce a resultados muy coservadores. Vamos a ver, a cotuacó, ua sere de cotrastes, drgdos específcamete a probar la hpótess de ormaldad, por lo que suele llamarse geeralmete cotrastes de ormaldad. Hay que decr que o hay uo que sea preferble a los demás, ya que depede del tamaño de la muestra y de la verdadera forma de la dstrbucó de la poblacó. 3.. Cotraste de ormaldad de Lllefors Para el caso del cotraste de ormaldad, Lllefors tabuló de uevo el estadístco D, cuado µ y σ so estmados a partr de la muestra, medate x y sˆ, meda y cuasvaraza muestrales, respectvamete. El desarrollo del cotraste es exactamete gual que el ateror, auque la tabla utlzada para la obtecó de los valores crítcos de D es dferete. Hay que decr que su poteca para u tamaño muestral o muy grade es baja, llegádose a demostrar que se ecesta 00 observacoes para dstgur etre ua N(0,) de ua dstrbucó uforme etre -3 / y 3 /.

3. Cotraste de ormaldad de Jarque y Bera (asmetría y curtoss). Se trata de u cotraste específco de ormaldad, basado e el aálss de las meddas de forma de ua dstrbucó: la asmetría y la curtoss o aputameto. Se ecesta ua muestra grade y suele aplcarse cuado se sospecha que hay desvacoes de la ormaldad e certa dreccó. El estadístco muestral de asmetría es α = = ( x s x) 3 3, y s la hpótess de ormaldad es certa, se sabe que E(α )=0. Para muestras grades ( 50), se demuestra que α N(µ=0,σ 6/), lo que permte verfcar la cossteca de la hpótess de smetría co la evdeca que arroja los datos obtedos e la muestra. Por otro lado, el aputameto o curtoss e muestras de ( x x) = tamaño, vedrá dado por la expresó α = 4 s 4. Se puede comprobar, asmsmo, que este estadístco, para 00, sgue ua dstrbucó astótcamete ormal, co E(α )=3, el aputameto de ua curva ormal, y Var(α ) 4/. Es posble, por tato, verfcar hpótess acerca de s el aputameto e la poblacó es el de ua curva ormal. Falmete, s se comba ambos estadístcos, puesto que se trata de la suma de los cuadrados de dos varables ormales tpfcadas, se tee, como ya se sabe, que α α 0 3 ( α 3) + χ, o lo que es gual α χ 6 / 4 / 6 + 4. Valores de α y α próxmos a cero y a tres, respectvamete, haría que χ obs. fuese próxma a cero, lo que vtaría a aceptar la hpótess de ormaldad. Por el cotraro, valores altos del estadístco e la muestra observada, coducría a rechazar dcha hpótess, dada la falta de cossteca etre la observacó empírca y el modelo propuesto como hpótess ula. 3.3. Cotraste de ormaldad de Shapro y Wlks A dfereca de los dos aterores, es u cotraste adecuado para muestras pequeñas (<30). Se basa e el estudo del ajuste de los datos observados e la muestra a ua recta dbujada e papel probablístco ormal. S la hpótess ula, de ormaldad 3

e la poblacó, es certa, etoces se puede afrmar que los valores muestrales provee de ua dstrbucó N(µ,σ ), y sus correspodetes valores tpfcados y ordeados, sería ua muestra ordeada procedete de ua N(0,): x µ x() µ x( ) µ x( ) µ.. σ σ σ σ () El valor esperado del térmo que ocupa el lugar -ésmo (cuatl), e esta muestra de tamaño será x µ σ ( ) E = c( ),, por lo que, de ser certa la hpótess de ormaldad, los valores esperados e la muestra debería estar próxmos a la recta que se deduce de esta gualdad: E ( x( ) ) = µ + σ. c( ), Quere esto decr que, s represetamos gráfcamete la recta ateror (dagrama probablístco ormal), las observacoes muestrales debería stuarse juto a la msma, s realmete la hpótess ula es correcta. Como puede observarse, la ordeada e el orge vee estmada por µ y su pedete por σ. Este tpo de represetacó costtuye, por s msmo, u método gráfco de evaluacó de la ormaldad de los datos y suele llamarse dagramas o gráfcos Q-Q, e los que los cuatles de la muestra se represeta e relacó a sus valores esperados e ua dstrbucó ormal. Los valores observados, que suele ser prevamete estadarzados, auque o es mprescdble, se coloca e el eje de abscsas y los esperados, segú la dstrbucó ormal tpfcada, se toma e el eje de ordeadas. Este gráfco debería dar lugar a ua líea recta y estar compreddos e el tervalo (-3,+3), s los datos procede de ua poblacó dstrbuda ormalmete. Ua ube de putos próxma a ua líea recta, hará plausble la hpótess de ormaldad. Por el cotraro, cualquer desvacó de esta pauta de comportameto dcará ua desvacó de la hpótess de ormaldad. 3.5 3.5.5.5 RESIDUOS ESPERADOS.5 0.5-0.5 -.5 RESIDUOS ESPERADOS.5 0.5-0.5 -.5 -.5 -.5-3.5-3.5 -.5 -.5-0.5 0.5.5.5 3.5 RESIDUOS OBSERVADOS -3.5-3.5 -.5 -.5-0.5 0.5.5.5 3.5 RESIDUOS OBSERVADOS Gráfco 3.3.: Prueba de ormaldad El gráfco 3.3. recoge dos casos be dsttos sobre la hpótess de ormaldad de los resduos e u modelo estadístco. E el prmero de ellos, la hpótess es aceptable; e el 4

segudo, además de que puede observarse u comportameto o aleatoro de los resduos, su alejameto de la recta, dcaría ua desvacó de la ormaldad. El cotraste de Shapro-Wlk, trata de cuatfcar la bodad de tal ajuste utlzado el cuadrado del coefcete de correlacó leal (coefcete de determacó) etre x () y c (),. S la hpótess de ormaldad es certa, la correlacó debe ser muy fuerte. E caso cotraro, habría que rechazar tal hpótess. Dada la smetría de la ormal, los autores, para smplfcar el cálculo de r, cuya dstrbucó muestral llama ω, propoe la sguete forma para la msma: w q A = a( j), ( x( j+ ) x( j) ) =, co a( j), = q s j= s c j= ( j), c ( j), sedo q=/, s es par, y q=(-)/, s es mpar. Los valores de los a (j), y del estadístco w está tabulados. La hpótess de ormaldad será rechazada cuado el valor w obs., observado e la muestra, sea meor que el valor crítco dado e la tabla, puesto que o hemos de olvdar que se está mdedo la bodad del ajuste a la recta y o la dscrepaca co la hpótess ula de ormaldad. 5

4. Cotraste de depedeca (asocacó). Tablas de cotgeca Es relatvamete frecuete ecotrarse co formacó referda a la observacó de dos característcas de ua poblacó, e las que se establece modaldades o categorías, medate las cuales se clasfca los dvduos o elemetos que costtuye ua muestra de la msma. Este tpo de dstrbucó bdmesoal de frecuecas suele presetarse e forma de tabla de doble etrada, també llamada tabla de cotgeca. Estas tablas permte aalzar s exste asocacó o depedeca etre las frecuecas observadas por fla y columa y, e deftva, s las dos varables mersas e la clasfcacó so depedetes, aú s coocer cuales so sus correspodetes fucoes de probabldad. Nos ceñremos al estudo de tablas de cotgeca co sólo dos crteros (varables) de clasfcacó, tal y como la reflejada e la Tabla 4.. Categorías de la característca A Tabla 4. Categorías de la característca B j s Total j s. j s. j s. r r r rj rs r. Total...j.s Como se recordará, el cuerpo cetral de la tabla defe la dstrbucó cojuta de frecuecas de las característcas A y B, metras que la fla y columa de totales defe, respectvamete, sus correspodetes dstrbucoes margales. També se sabe que: r s j =. =. j = = j= = j= r s Supogamos que p j es la probabldad de que u sujeto extraído al azar de la poblacó perteezca a la categoría (,j) de la tabla ateror. Sea p. y p.j las probabldades margales de que se ecuetre e la categoría -ésma de A y e la categoría j-ésma de B, respectvamete. Sempre que ambas categorías sea depedetes, la probabldad cojuta ha de ser gual al producto de las margales. Por tato, s postulamos como hpótess a cotrastar la depedeca etre las dos varables, podremos escrbrla como sgue: H 0 : p j = p.. p.j, =,,.,r ; j=,,.,s 6

Por otro lado, aplcado el crtero del cotraste χ de bodad del ajuste, dscrepaca etre frecuecas observadas y frecuecas esperadas, para las r. s casllas de la tabla, se puede escrbr que: r s = j= ( j e e j j ) χ rs, co e j =.p j Pero, s la hpótess de depedeca es certa, se tee que p j = p.. p.j, por lo que la expresó ateror, para sufcetemete grade, queda como sgue: r s ( = j=.. j j p p p.. j ) p χ rs Para realzar el cotraste, por tato, es precso coocer las fucoes de probabldad de las varables A y B. S embargo, esto o es lo más frecuete, por lo que se habrá de estmar a partr de las observacoes muestrales. Se puede demostrar que los estmadores máxmo verosímles de p. y p.j so, respectvamete,. / y.j /, por lo que susttuyedo estas frecuecas relatvas, obtedas de la tabla, se matee la forma de la dstrbucó del estadístco, s be habrá que corregr los grados de lbertad, restado el úmero de parámetros estmados. Dado que Σ p. = Σ p.j =, habrá que estmar (r-) parámetros de la característca A y (s-) de la B. Por cosguete, cuado o se cooce las probabldades teórcas y se estma co las frecuecas relatvas de la muestra, habrá que restar (r-) + (s-) grados de lbertad a los (rs-) aterores, y el cotraste queda como sgue: r s j = j=.. j.. j χ ( r )( s ) S el valor muestral del estadístco es muy grade, cabe pesar que hay mucha dscrepaca etre las frecuecas de la dstrbucó cojuta y las obtedas a través del producto de las dstrbucoes margales, por lo que o hay evdeca de que las varables sea depedetes. Por el cotraro, valores pequeños querría decr que o hay evdeca empírca sufcete para rechazar la hpótess de depedeca. 7

5. Cotraste de homogeedad. E ocasoes ocurre que teemos a varas poblacoes clasfcadas de acuerdo co las categorías defdas para ua determada varable. La preguta que se sugere medatamete es s la proporcó de dvduos perteecetes a cada ua de las clases es la msma e todas las poblacoes. S, co la formacó sumstrada por las muestras obtedas, se puede aceptar que esto es así, dremos que las poblacoes so homogéeas co respecto a la varable de clasfcacó utlzada. Dcho de otra forma, s tomamos u determado úmero de muestras (realzamos u determado úmero de expermetos), podremos afrmar que hay evdeca estadístca de que todas las muestras provee de la msma poblacó (so resultados depedetes de u msmo expermeto aleatoro). Como puede comprobarse, coceptualmete es algo be dstto al cotraste de depedeca, auque, como se verá, su aplcacó se desarrolle e forma parecda (véase Tabla 5.). La hpótess a cotrastar será, ahora, s las poblacoes so homogéeas respecto a la varable o característca de clasfcacó. Categorías de la característca A Tabla 5. Muestras o expermetos j s Total j s. j s. j s. r r r rj rs r. Total...j.s Supogamos, por ejemplo, que se tee s muestras o expermetos (columas de la tabla) sobre la característca A, clasfcada e r categorías exhaustvas y mutuamete excluyetes (flas de la tabla), que represeta los resultados posbles del expermeto. Ahora, el valor de.j represeta el tamaño de la muestra j-ésma; el de., el úmero total de resultados favorables a la categoría -ésma obtedo e el cojuto de los s expermetos; y, falmete, j será el úmero de observacoes de la categoría -ésma obtedas e el expermeto j-ésmo. Cada muestra puede ser cosderada como u expermeto multomal, co r resultados posbles. La hpótess ula es que la probabldad de éxto (obteer ua observacó) para cada categoría es la msma e todas las muestras. Es decr, la dstrbucó de probabldad de la poblacó es sempre la msma; o camba muestra a muestra. Por tato, la formalzacó de esta hpótess se puede escrbr como sgue: 8

H 0 : p = p =. = p j =. = p s = p., =,,.,r El cotraste de esta hpótess compuesta o es ada fácl, pero puede demostrarse que la χ astótca (- log λ) que debe aproxmarse e el correspodete cotraste de la razó de verosmltudes, cocde co la del cotraste de depedeca. Por tato, basádoos e la dscrepaca etre las frecuecas observadas y las esperadas para cada categoría, segú la hpótess ula de homogeedad, podemos aplcar dcho cotraste. Como e el caso ateror, los estmadores máxmo verosímles de las probabldades de cada categoría, p., pude demostrarse que so las correspodetes frecuecas relatvas,./, co que se preseta e el cojuto de las s muestras (versoes depedetes del msmo expermeto, s la hpótess ula es certa). Por tato, el valor esperado para la frecueca de la categoría -ésma e la muestra j-ésma vedrá dado por la sguete expresó: e j = E( j ) =.j. (./). Y el estadístco adecuado para realzar el cotraste será: r s = j= ( j e e j j ) = r s j = j=.. j.. j χ ( r )( s ) Valores de este estadístco superores al puto crítco del cotraste, para el vel de sgfcacó dado, coducrá al rechazo de la hpótess de homogeedad: las muestras o provee de la msma poblacó (o so versoes depedetes de u msmo expermeto). 9