Cálculos con el programa R



Documentos relacionados
Qué valores deben considerarse normales en un análisis clínico? Qué factores deben tomarse en cuenta? Qué relación existe entre los valores de

ESTIMACIÓN. puntual y por intervalo

1 Ejemplo de análisis descriptivo de un conjunto de datos

Capítulo 7: Distribuciones muestrales

REPASO CONCEPTOS BÁSICOS DE ESTADÍSTICA. DISTRIBUCIÓN NORMAL.

Estimación de una probabilidad

ANÁLISIS DESCRIPTIVO CON SPSS

Problemas resueltos del Tema 3.

ESTADÍSTICA SEMANA 4

INFERENCIA ESTADÍSTICA. ESTIMACIÓN DE LA MEDIA

Tema 3: Variables aleatorias y vectores aleatorios bidimensionales

Parámetros y estadísticos

Estimación. Intervalos de Confianza para la Media y para las Proporciones

Ejercicio de estadística para 3º de la ESO

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Medidas de Tendencia Central y Dispersión

INFERENCIA ESTADÍSTICA. ESTIMACIÓN DE LA MEDIA

Solución ESTADÍSTICA. Prueba de evaluación contínua 2 - PEC2

Test de hipótesis. Si H0 es cierta el estadístico. sigue una distribución t de Student con n grados de libertad: s n

Clase 2: Estadística

Intervalo para la media (caso general)

Muestreo estadístico. Relación 2 Curso

1. MEDIDAS DE TENDENCIA CENTRAL

Tema 10. Estimación Puntual.

Covarianza y coeficiente de correlación

Capítulo 10. Análisis descriptivo: Los procedimientos Frecuencias y Descriptivos

TEMA 7: Análisis de la Capacidad del Proceso

Control Estadístico del Proceso. Ing. Claudia Salguero Ing. Alvaro Díaz

Indicaciones específicas para los análisis estadísticos.

Medidas de tendencia central o de posición: situación de los valores alrededor

1.1. Introducción y conceptos básicos

5. DISTRIBUCIONES DE PROBABILIDADES

1. a) Definimos X =número de personas con síntomas si examino sólo una persona, la cual sigue una distribución B(1, p), donde

Estadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL

1. Análisis de variables cuantitativas (2 a parte)

Fundamentos de Investigación de Operaciones Investigación de Operaciones 1

Estadística: conceptos básicos y definiciones.

Tema 2: Estimación puntual

Diagnosis y Crítica del modelo -Ajuste de distribuciones con Statgraphics-

LA DISTRIBUCIÓN NORMAL

Eduardo Kido 26-Mayo-2004 ANÁLISIS DE DATOS

PRUEBA DE KOLMOGOROV SMIRNOV (Contraste sobre la forma de la distribución) F(X) es la función de distribución que hipotetizamos.

Conceptos Fundamentales. Curso de Estadística TAE, 2005 J.J. Gómez-Cadenas

Calculadora de Tamaño muestral GRANMO

5.- ANÁLISIS DE RIESGO

Control Estadístico de Procesos

UNIVERSIDAD CARLOS III DE MADRID CURSO DE FORMACION ESTADISTICA CHEMO MANUAL DE STATGRAPHICS I. INTRODUCCIÓN Y MANEJO DE DATOS

Algunas Distribuciones de Probabilidad

ESTIMACION DE INTERVALOS DE CONFIANZA

TEMA 7 ANÁLISIS DE DATOS: INTRODUCCIÓN AL SPSS

SESIÓN PRÁCTICA DE BIOESTADÍSTICA: EVALUACIÓN DE CRITERIOS DIAGNÓSTICOS. DISCRIMINACIÓN.

Árbol de decisión. Proporciona un alto grado de comprensión del conocimiento utilizado en la toma de decisiones.

Modelos de Puntuación Puntaje de Originación

Semana de dieta (X) Peso en Kg (Y)

DISTRIBUCIÓN NORMAL CON EXCEL Y WINSTATS

Departamento de Salud Pública Facultad de Medicina UNAM

LEYES DE CONSERVACIÓN: ENERGÍA Y MOMENTO

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

INFERENCIA ESTADÍSTICA

Tema 3: Aplicaciones de la diagonalización

Generación de Números Pseudo-Aleatorios

Lección 24: Lenguaje algebraico y sustituciones

Información importante. 1. El potencial eléctrico. Preuniversitario Solidario Superficies equipotenciales.

Práctica 5. Contrastes paramétricos en una población

Medidas de la tendencia central y las gráficas de caja

Tema 5. Análisis de regresión (segunda parte) Estadística II, 2010/11

Master en Gestión de la Calidad

Tema 5: Introducción a la inferencia estadística

Gráficas de caja. El borde derecho de la caja es el tercer cuartil, Q 3, que es la mediana de los valores que están por encima de la mediana.

Tema 2 Estadística Descriptiva

ANÁLISIS DE DATOS NO NUMERICOS

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos V - ESTIMACION PUNTUAL E INTERVALOS DE CONFIANZA. 5.1 Introducción

Clase 2: Estadística

PROBABILIDADES Y ESTADÍSTICA (C) Práctica 2

APROXIMACIÓN DE LA DISTRIBUCIÓN BINOMIAL A LA NORMAL, LA CALCULADORA Y

DISTRIBUCIÓN BINOMIAL Y DISTRIBUCIÓN NORMAL

Análisis y cuantificación del Riesgo

MERCADOS FINANCIEROS: LOS FONDOS DE INVERSIÓN II

GRAFICOS DE CONTROL DATOS TIPO VARIABLES

Tests de hipótesis estadísticas

LA DISTRIBUCIÓN NORMAL, LA CALCULADORA Y LAS NUEVAS TECNOLOGÍAS Abel Martín ( * ) Rosana Álvarez García ( )

LECCION 1ª Introducción a la Estadística Descriptiva

Problemas de Probabilidad resueltos.

Análisis de componentes principales

1. Dominio, simetría, puntos de corte y periodicidad

Matrices equivalentes. El método de Gauss

Definición Dados dos números naturales m y n, una matriz de orden o dimensión m n es una tabla numérica rectangular con m filas y n columnas.

x y 8000 x + y a) La región factible asociada a las restricciones anteriores es la siguiente: Pedro Castro Ortega lasmatematicas.

Clase 5: Variables Aleatorias y Distribuciones de Probabilidad

1. Producto escalar, métrica y norma asociada

Subconjuntos destacados en la

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL

PROBABILIDADES Y ESTADÍSTICA (C) Práctica 2

Inferencia Estadística

TEMA 4: Variables binarias

Aula Banca Privada. La importancia de la diversificación

Estimación de la densidad

TEMA 5 VALIDEZ DE LA INVESTIGACIÓN (II): Validez de conclusión estadística

Transcripción:

Cálculos con el programa R

Introducir el concepto de distribución normal Aprender el uso del programa R para realizar cálculos con la distribución normal Probabilidad de intervalos Cálculo e interpretación de cuantiles Aplicaciones Criterios diagnóstico Intervalos de normalidad

En muchos casos, observamos resultados que presentan una distribución simétrica respecto de la media muestral.

Las medias muestrales se distribuyen simétricamente alrededor de la media poblacional, independientemente de la forma de la distribución de origen.

Las medias muestrales se distribuyen simétricamente alrededor de la media poblacional, independientemente de la forma de la distribución de origen.

Las medias muestrales se distribuyen simétricamente alrededor de la media poblacional, independientemente de la forma de la distribución de origen.

y La distribución normal es un modelo estadístico con dos parámetros: m que representa la esperanza (valor medio poblacional) y s que es la raíz cuadrada de la varianza (desviación estándar). Nos referiremos a una N(m,s). Gráficamente, en el caso N(10,2) seria 0.20 0.15 0.10 s=2 0.05 0.00 0 5 10 15 20 x m=10

y Efecto del valor de m 0.20 0.15 0.10 m es un parámetro de posición Corresponde a la esperanza de la distribución (valor medio poblacional) 0.05 0.00 0 5 10 15 20 seq(0, 20, 0.5)

y Efecto del valor de s (desviación estándar) 0.20 0.15 0.10 0.05 s es un parámetro de dispersión Un valor más alto indica una mayor dispersión en los posibles valores. s 2 corresponde a la varianza de la distribución 0.00 0 5 10 15 20 x

La función de distribución corresponde a la P(X x). Por ejemplo, para una N(10,2) la probabilidad P(X 12) es: > x <-12 > mu <-10 > sigma <-2 > pnorm(x,mu,sigma) [1] 0.8413447 P(X x)=1-p(x x) P(X =x)=0 P(X 12) P(X 12)

m=8 s=2 m=10 s=4 El valor que toma la función de distribución en un determinado punto depende de los parámetros. Por ejemplo, P(X 12) será distinta en función de los parámetros de la distribución de X. Veamos algunos ejemplo: 0.977 0.691 m=14 s=2 m=14 s=4 0.159 0.309

Se cumple que P(a X b)=p(x b)-p(x a) Supongamos una N(14.2, 3.2). Cuál es la probabilidad de observar resultados entre 13 i 15.2? P(13 X 15.2)=P(X 15.2)-P(X 13) > a <- 13 > b <- 15.2 > mu <- 14.2 > sigma <- 3.2 > res <- pnorm(b,mu,sigma)-pnorm(a,mu,sigma) > round(res,2) [1] 0.27

m=8 s=2 m=10 s=4 0.819 0.533 P( 6 X 12) m=14 s=2 m=14 s=4 0.159 0.286

Una observación de una medida que siga una distribución normal puede interpretarse como la suma de una constante y una distribución normal de esperanza 0, es decir: i N(0,2) N(10,2) Y N( m, s ) i N(0, s ) y i = m i Esperamos que un individuo tenga un valor de m. Sin embargo, al observar una muestra, los individuos se distribuyen alrededor de la media. m=10

Supongamos que una variable se distribuye según una N(12,2). Calculemos P(Y<14): Si desplazamos la distribución restando la media, tendremos una distribución Z=N(0,2). Calculemos P(Z<14-12)=P(Z<4) El resultado es equivalente!!

Podemos especificar el efecto de distintos factores y/o errores experimentales en un modelo y ijk ijk = m N( 0, s ) i j ijk y ijk ijk = m N( 0, s ) i j ij ijk y ijk ijk = m X N( 0, s ) i j j ijk y ijk ijk = m N(0, s ) i j ij ijk j N(0, s )

El cuantil x q corresponde al valor que cumple P(X x q )=q Supongamos que la concentración de un metabolito sigue una distribución N(100,12). Cuál seria el cuantil 95 de esta distribución? Es decir, por debajo de qué valor esperamos encontrar el 95% de los valores de una muestra? > q <- 0.95 > mu <- 100 > sigma <- 12 > round(qnorm(q,mu,sigma),1) [1] 119.7 0.95 0.05

Se conoce como intervalo de normalidad (o de referencia) (1-) a los puntos (a,b) que cumplen: P(X a)=/2 P(X b)=/2, es decir P(X b)=1-/2 En una distribución normal, corresponde al intervalo centrado en m que cumple P(a X b)=(1-) Por lo tanto a será el cuantil /2 y b el cuantil 1-/2 Interpretación Los resultados esperados para las observaciones de esta variable estarán entre a y b con probabilidad 1-

Consideremos una N(100,4) El intervalo de referencia que incluye un 95% de los valores esperados será: 1-=0.95, por lo tanto =0.05 y /2=0.025 Buscaremos el cuantil 0.025 y el cuantil 0.975 > mu <- 100 > sigma <- 4 > round(c(qnorm(0.025,mu,sigma),qnorm(0.975,mu,sigma)),2) [1] 92.16 107.84

Podemos introducir los cálculos necesarios en una función: Ref.Interval <- function(mu,sigma,prob) { alfa <- 1-prob round(c(qnorm(alfa/2,mu,sigma),qnorm(1-alfa/2,mu,sigma)),2) } Ahora podemos calcular cualquier intervalo de referencia > Ref.Interval(100,4,0.95) [1] 92.16 107.84 > Ref.Interval(100,4,0.90) [1] 93.42 106.58

El intervalo de normalidad para una N(100,4) era: > Ref.Interval(100,4,0.95) [1] 92.16 107.84 0.95 0.025 0.025 0.975

Se cumple que La N(0,1) se denomina normal estándar (o tipificada) Se cumple que (0,1) ), ( N X Z N X = s m s m = s m s m x Z P x X P N X ) ( ), ( 0.565) ( 2.3 54 55.3 55.3) ( (54,2.3) = = Z P Z P X P N X > pnorm(55.3,54,2.3) [1] 0.714037 > pnorm((55.3-54)/2.3,0,1) [1] 0.714037

Se cumple que s m s m s m q q q q q q q z x z x q z Z P q x Z P q x X P = = = = = ) ( ) ( > q <- 0.95 > mu <- 12 > sigma <- 1.5 > xq <- qnorm(q,mu,sigma) > zq <- qnorm(q,0,1) > c(xq,zq,mu+zq*sigma) [1] 14.467280 1.644854 14.467280

Como hemos visto, el intervalo de normalidad (1-) es: Si recordamos que P( x ) / 2 X x1 / 2 = (1 ) x q = m zqs Tenemos P ( m z 2 / 2s X m z1 / s ) = (1 ) Pero z = z / 2 1 / 2 Por lo tanto, el intervalo puede ponerse como m z 1 / 2s

Supongamos una N(12.1, 1.2). El intervalo de referencia al 95% es: > prob <- 0.95 > alfa <- 1-prob > mu <- 12.1 > sigma <- 1.2 > a <- qnorm(alfa/2,mu,sigma) > b <- qnorm(1-alfa/2,mu,sigma) > round(c(a,b),2) [1] 9.75 14.45 Podemos verificar que obtenemos el mismo resultado utilizando m z 1 / 2s > prob <- 0.95 > alfa <- 1-prob > mu <- 12.1 > sigma <- 1.2 > zq <- qnorm(1-alfa/2,0,1) > zq [1] 1.959964 > round(c(mu-zq*sigma,mu+zq*sigma),2) [1] 9.75 14.45

Si una determinada característica sigue una distribución normal de media m y desviación estándar s, entonces para un valor x el z-score se obtiene como (x-m)/s El z-score es un valor normalizado que transforma la distribución original a una con media 0 i desviación estándar 1. El percentil de un valor x en una variable con media m y d.e. s puede obtenerse calculando el percentil de su z-score en una normal de media 0 y d.e. 1.

Mediante el z-score podemos comparar la posición relativa de valores de varias variables. Supongamos que en una población, el peso de los hombres de una determinada edad tiene una media de 70 kg. con una d.e. de 6 kg. Supongamos que para la misma población, la altura se ditribuye con una media de 165 cm y una d.e. de 7 cm. Entonces, un hombre de esta edad que pese 80 kg. con una altura de 163 cm, está en el percentil 95 de peso y el percentil 39 de altura.

Supongamos que en un estudio se determina que la media de creatinina es de 0.92 mg/dl con una d.e. de 0.33 mg/dl El intervalo de referencia a partir de estos datos se calcula (asumiendo distribución normal) como: m 1. 96s El 95% de los individuos de la población tendrán valores entre 0.27 y 1.57 mg/dl de creatinina.

Supongamos que en una población de sujetos sanos la distribución de un metabolito es N(100,5). En una población patológica, el metabolito se encuentra alterado, presentando una distribución N(105,4). Establecimiento de criterios diagnóstico Encontrar un criterio diagnóstico que permita clasificar correctamente al 95% de las personas sanas. Encontrar un criterio diagnóstico que permita clasificar correctamente al 95% de las personas enfermas.

Esta situación puede representarse como: Sanos N(100,5) Enfermos N(105,4)

El criterio diagnóstico se establecerá al encontrar un punto x d apropiado para separar con un error mínimo a sanos y enfermos. Valores altos se asociaran a un diagnóstico (+) Valores bajos se asociaran a un diagnóstico (-) Sanos N(100,5) Enfermos N(110,4) (-) x d (+)

S E S E Especificidad P(-/S) Sensibilidad P(+/E) (-) x d (+) (-) x d (+)

Si m S < m E la sensibilidad corresponde a P( / E) = P( X E xd ) = 1 P( X E xd ) S E Por lo tanto, si queremos una sensibilidad, p.e., de 0.9 hemos de encontrar el cuantil 0.1 para los enfermos. > mus <- 100 > sigmas <- 5 > mum <- 110 > sigmam <- 4 > round(qnorm(0.1,mum,sigmam),2) [1] 104.87 Sensibilidad P(+/E) (-) x d (+)

Si m S < m E la especificidad corresponde a P( / S) = P( X S xd ) S E Por lo tanto, si queremos una especificidad, p.e., de 0.9 hemos de encontrar el cuantil 0.9 para los sanos. > mus <- 100 > sigmas <- 5 > mum <- 110 > sigmam <- 4 >r ound(qnorm(0.9,mus,sigmas),2) [1] 106.41 Especificidad P(-/S) (-) x d (+)

Si la medida que estamos analizando tiene una distribución normal N(m,s), entonces la media de n observaciones sigue una N(m,s/ n). Por ejemplo, si X es N(10,3) y tomamos muestra de tamaño 15, la media de dichas muestras seguirá una distribución N(10,3/ 15). Podemos comprobar este resultado mediante simulaciones. Generar muchas muestra de tamaño 15 de una N(10,3) y representar su comportamiento comparándolo con la distribución esperada N(10,3/ 15).

mu<-20 s<-2 curve(dnorm(x,mu,s),10,30, ylim=c(0,0.7)) n<-10 curve(dnorm(x,mu,s/n^0.5),0,40,add=t,col="blue") n<-5 curve(dnorm(x,mu,s/n^0.5),0,40,add=t,col="purple") n<-3 curve(dnorm(x,mu,s/n^0.5),0,40,add=t,col="magenta")

Función para obtener muestras de una N(m,s) y estudiar el comportamiento de la media de cada muestra mu <- 10 sigma <- 3 n <- 15 nsamples <- 500 res <- sapply(c(1:5000),f<-function(x) mean(rnorm(n,mu,sigma))) hist(res,probability=t) curve(dnorm(x,mu,sigma/sqrt(n)),6,14,col="red",add=t)

qqnorm(res) qqline(res)

Curva normal con la probabilidad P(a X b) sombreada Shadowed.Normal.Plot <- function(a, b, m=10, s=1, add = F, ymax=0.20) { curve(dnorm(x, mean = m, sd = s), m - 4 * s,m + 4 * s, add = add, xlab = "X", ylab = "f(x)",ylim=c(0,ymax)) xvals <- seq(a, b, length = 2000) dvals <- dnorm(xvals, m, s) polygon(c(xvals, rev(xvals)), c(rep(0, 2000), rev(dvals)), col = "gray") abline(h = 0) }