CONCEPTOS BÁSICOS DE INFERENCIA Ciencia encargada de suministrar diferentes técnicas y procedimientos que permitan recolectar, organizar, analizar e interpretar datos. La estadística es un método empleado en la toma de decisiones frente a la incertidumbre, partiendo de datos estadísticos y calculando riesgos (Yan Lun Chao) 1
CONCEPTO DE ESTADÍSTICA El estudio de la estadística se divide en dos categorías: 1. ESTADÍSTICA DESCRIPTIVA: Métodos para organizar, resumir y presentar datos de manera informativa. Su fin es únicamente exploratorio y se limita a describir lo observado en una población o muestra. TEORIA DE LA PROBABILIDAD. ESTADÍSTICA INFERENCIAL: Proceso inductivo que permite inferir a toda la población características observadas en una muestra. CONCEPTO DE ESTADÍSTICA ESTADÍSTICA DESCRIPTIVA: ESTADÍSTICA INFERENCIAL: Su objetivo es la exploración sin restricciones de los datos en busca de regularidades interesantes Las conclusiones solo se aplican a los individuos y a las circunstancias para los cuales se obtuvieron los datos. Las conclusiones son informales, se basan en lo que se observa en los datos. Complementarias Su objetivo es responder a preguntas concretas que se plantearon antes de la obtención de los datos. Las conclusiones se aplican a un grupo mas amplio de individuos o situaciones. Las conclusiones son formales y se hace explicito el grado de confianza que se tienen sobre ellas.
INFERENCIA ESTADÍSTICA Población (N) Conjunto de elementos de interés en un estudio. Muestra (n) Subconjuntos representativo de elementos obtenidos de la población de interés. 1. El numero de elementos puede ser finito o infinito.. No debe asociarse exclusivamente con población humana. Su razón de ser es que muchas veces resulta muy costoso o casi impracticable observar uno a uno los elementos de la población. INFERENCIA ESTADÍSTICA Parámetro Característica medible sobre la población. Estimador Característica medible sobre la muestra. Media Varianza ( µ ) ( σ ) ( ) Proporcion P Inferencia Promedio Varianza Proporcion ( X ) ( S ) ( p) Método que permite generalizar los resultados obtenidos en una muestra al general de la población, apoyándose en leyes de la probabilidad 3
INDIVIDUOS Y VARIABLES Individuo: Son los objetos descritos por un conjunto de datos. Los individuos pueden ser personas, pero también pueden ser animales o cosas. Variable: Es cualquier característica de interés de un individuo. Una variable puede tomar distintos valores para distintos individuos. (Edad, Estatura, Peso, etc.) TIPOS DE VARIABLES CUALITATIVAS o ATRIBUTOS CUANTITATIVAS o NUMERICAS ESCALAS DE MEDICIÓN TIPO ORDINAL NOMINAL CONTINUA DISCRETA ESCALAS DE MEDICIÓN INTERVALO RAZÓN 4
VARIABLES CUALITATIVAS - Si sus valores (modalidades) no se pueden asociar naturalmente a un número. -No se pueden hacer operaciones algebraicas con ellas. CUANTITATIVAS - Si sus valores son numéricos. - Tiene sentido hacer operaciones algebraicas con ellos. Discretas: Si toma valores enteros. Número de hijos, Número de carros. Continuas: Si entre dos valores, son posibles infinitos valores intermedios. Altura, Temperatura, Duración de una batería, Peso(kg). ESCALA DE MEDICIÓN CUALITATIVAS CUANTITATIVAS 1. Escala Nominal: No puede establecer un orden jerárquico entre las opciones de respuesta. Color de Ojos (Verde, Azul, Gris, Negro, Café).. Escala Ordinal: Existe un ordenamiento natural de las opciones de respuesta. Calificación de un servicio (Excelente, Bueno, Regular, Malo). 3. Escala de Intervalo: El valor 0 es un valor arbitrario, no implica la no presencia de una característica. Temperatura = 0ºC No hay temperatura? 4. Escala de Razón: El valor 0 refleja ausencia de la característica. Altura = 0 mts 5
ALGUNAS DISTRIBUCIONES CONTINUAS ESPECIALES EN INFERENCIA ESTADÍSTICA VARIABLES ALEATORIAS Y DISTRIBUCIONES CONTINUAS DE PROBABILIDAD Se dice que una variable aleatoria X es continua si sus valores consisten en uno o mas valores de la recta de los reales, es decir, cualquier numeroxentre un intervalo A y B es posible. Entonces una distribución de probabilidad o función de densidad de probabilidad (fdp) de X es una función f(x) tal que para dos números cualesquiera a y b con a b: b P( a X b) = f ( x) dx Es decir, la probabilidad de que X tome un valor en el intervalo [a,b] es el área entre este intervalo y bajo la grafica de la función de densidad. La grafica def(x) se llama curva de densidad. a 6
DISTRIBUCIONES CONTINUAS DE PROBABILIDAD Para que f(x) sea una función de densidad de probabilidad legitima, se deben satisfacer dos condiciones: 1. 0 f ( x) 1. f ( x) dx = area bajo la grafica completa de f(x) = 1 DISTRIBUCIONES CONTINUAS DE PROBABILIDAD Valor Esperado: El valor esperado o promedio de una variable aleatoria continua X con función de densidadf(x) es: Varianza: La varianza de una variable aleatoria continua X con función de densidadf(x) y valor promedioµes: La forma mas fácil para calcularσ es usar de nuevo una formula abreviada: donde: ( ) * ( ) µ X E X x f x dx = = σ µ µ ( ) ( ) ( ) X = V X = E X = x * f ( x) dx ( ) = E X x * f ( x) dx ( ) V ( X ) = E X µ x 7
DISTRIBUCIONES CONTINUAS DE PROBABILIDAD Ejercicio 1: Avance del tiempo en flujo de transito es el tiempo transcurrido entre el tiempo en que un automóvil termina de pasar un punto fijo y el instante en que el siguiente automóvil comienza a pasar ese punto. Sea X = avance entre dos automóviles consecutivos elegidos al azar (seg) en una autopista durante un periodo de flujo intenso. Suponga que la función de densidad de X es en esencia la indicada por: k x > 1 4 f ( x) = x 0 x 1 a. Determine el valor de k para el cual f(x) es una función de densidad legitima. 3 b. Obtenga el valor medio y la desviación estándar del avance. 1.5 ; 0.866 DISTRIBUCIONES CONTINUAS DE PROBABILIDAD La distribución de alguna variable aleatoria continua por lo general no se deduce mediante argumentos probabilísticos simples. En vez de eso, se debe hacer una elección juiciosa de la función de densidad con base en el conocimiento previo y datos disponibles. Por fortuna, hay algunas familias generales de fdp que se ajustan bien a una amplia variedad de situaciones experimentales. Algunas de estas distribuciones de probabilidad son la Uniforme, Exponencial y la Normal, pero aquí nos centraremos en la distribución Normal y las distribuciones que puedan generarse a partir de ella como son la t-student, Chi-Cuadrado y F de Snedecor. 8
DISTRIBUCIÓN NORMAL Descubierta y publicada por primera vez en 1733 por De Moivre, a la cual llegaron de manera independiente Gauss(1809) y Laplace (181) en relación a la distribución de los errores en observación astronómica y física respectivamente. Es una de las distribuciones teóricas mejor estudiadas y mas utilizadas en la practica por las diversas aplicaciones que se pueden modelar a través de ella. Se dice que una variable aleatoria X tiene una distribución Normal, si su función de densidad es: 1 x µ σ 1 f ( x) = e σ π σ > 0 ; < µ < < x < donde µ (media) y σ (desviación) son los parámetros de la distribución. DISTRIBUCIÓN NORMAL La distribución de probabilidad Normal es una distribución continua de probabilidad y tiene las siguientes propiedades: 1. La familia completa de distribuciones normales se diferencia por su media µ y desviación estándar σ.. El punto mas alto de la curva normal es la media, que también es la mediana y la moda de la distribución. 3. La media de la distribución puede ser cualquier valor numérico: negativo, cero, positivo. 4. La distribución normal es simétrica y su forma a la izquierda de la media es una imagen especular de la forma a la derecha de la media. 5. La desviación estándar (σ) determina el ancho de la curva. A valores mayores de σ se tienen curvas mas anchas y bajas, que muestran una mayor dispersión en los datos. 6. Las probabilidades para la variable aleatoria normal están dadas por áreas bajo la curva. El área total bajo la curva para la distribución de probabilidad normal es 1. 9
La media determina el valor central de la curva. A diferentes valores de µ se tienen curvas que se desplazan a la izquierda o a la derecha según la media. Si X ~ N ( µ ; σ ) entonces : E( X ) = µ, V ( X ) = σ Corolario: X µ Si X ~ N = σ ( µ ; σ ) entonces : Z = ~ N( µ = 0; σ 1) Donde Z es una variable aleatoria Normal Estándar. En consecuencia: ( µ = 5 ; σ = ) P( X < 6)? Si X ~ N = P X µ σ 6 5 ( X < 6 ) = P < = P( Z < 0.5) 10
La P(Z<0.5) se obtiene mediante su función de densidad: P P ( X < 6) = 6 0.5 ( Z < 0.5) = 1 e σ π 1 e σ π 1 x µ σ 1 Z dz dx El anterior valor se puede obtener por herramientas computacionales: R: pnorm(6,5,) = pnorm(0.5,0,1) = 0.6914 Excel: DISTR.NORM(6;5;;1) = DISTR.NORM.ESTAND(0.5) = 0.6914 O a través del uso de tablas para la distribución Normal Estándar donde aparece tabulado la probabilidad para distintos valores de Z. 11
EJEMPLO Una maquina despachadora de gaseosa esta ajustada para servir en promedio 00 mililitros (ml) por vaso. Si la cantidad de gaseosa se asemeja a una distribución normal con una desviación estándar de 15 ml, Cuál es la probabilidad de que un vaso contenga entre 190 y 10 ml? X= Cantidad de gaseosa despachada (ml) 1
EJEMPLO Distribución del llenado de las botellas : ( 190 < X < 00) ( µ = 00, σ 15) X ~ N = Probabilidad de que este entre 190 y 10: P 190 00 = P < 15 = P = P ( 0.66 < Z < 0.66) ( Z < 0.66) P( Z < 0.66) = 0.7454 0.546 = 0.4908 X µ 10 00 < σ 15 El 49.08% de los vasos tendrán llenados entre 190 y 10 ml. EJERCICIOS. Si Z es una variable aleatoria Normal Estándar, determine las siguientes probabilidades: a. P(z < 1.0) b. P(0 < z < 1.96) c. P(z -0.71) d. P(z 1.96) e. P(-1.57 z 0) 3. Determine el valor de Z en cada caso a. El área a la derecha de z 0 es 0.1314 b. El área a la izquierda de z 0 es 0.67 c. El área entre 0 y z 0 es 0.475 d. El área entre -1 y z 0 es 0.91 13
EJERCICIOS 4. Un remache para la industria de la construcción es fabricado para cumplir con una resistencia al esfuerzo cortante de 000 libras por pulgada cuadrada (psi). Tenemos la posibilidad de fabricarlos con una de dos maquinas disponibles. Las características de producción de cada una de las maquinas se presenta enseguida: Maquina 1: Produce con una resistencia media de 300 psi y una desviación estándar de 150 psi. Maquina : Produce una resistencia media de 100 psi y con una desviación estándar de 33.3 psi. Estime el porcentaje de remaches no conformes producidos en cada caso. Alguien esta recomendando producir los remaches con la maquina 1, pues la resistencia media es mayor que la maquina. Usted que opina? EJERCICIOS 5. La distribución de la resistencia que tienen los resistores eléctricos de cierto tipo es normal, 10% de los resistores tienen una resistencia mayor a 10.56 ohms y 5% una resistencia menor a 9.671 ohms. Cual es la media y la desviación de la distribución de resistencias? 10;0. 6. Una maquina expendedora de refrescos puede ajustarse para que despache en promedio µ onzas por vaso. Si el numero de onzas necesarias para llenar un vaso tiene una distribución normal con desviación estándar de 0.3 onzas, encuentre el valor de µ necesario para llenar un vaso de 8 onzas, de tal forma que solo se derrame el 1% del líquido. 7. La maquina descrita anteriormente tiene una desviación estándar de σ, la cual puede fijarse en ciertos niveles ajustándola cuidadosamente. Cuál es el máximo valor de σ que permite que la cantidad real despachada se encuentre a 0.5 onzas de la media con una probabilidad de por lo menos 0.95? 14