Selección de distribuciones de probabilidad

Documentos relacionados
478 Índice alfabético

Modelado de la aleatoriedad: Distribuciones

Análisis estadístico de datos simulados Estimadores puntuales

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Probabilidad II Algunas distribuciones notables. Antonio Cuevas Departamento de Matemáticas Universidad Autónoma de Madrid

Teorema Central del Límite (1)

INDICE. Prólogo a la Segunda Edición

INDICE Capítulo I: Conceptos Básicos Capitulo II: Estadística Descriptiva del Proceso

Algunas Distribuciones Continuas de Probabilidad. UCR ECCI CI-1352 Probabilidad y Estadística Prof. M.Sc. Kryscia Daviana Ramírez Benavides

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

8. Estimación puntual

Cálculo de Probabilidades II Preguntas Tema 1

Conceptos Básicos de Inferencia

ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M.

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES CUAUTITLÁN PLAN DE ESTUDIOS DE LA LICENCIATURA EN QUÍMICA INDUSTRIAL

Grupo 23 Semestre Segundo examen parcial

ÍNDICE CAPÍTULO 1. INTRODUCCIÓN

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

PROBABILIDAD Y ESTADÍSTICA

Teoría de la decisión

Técnicas Cuantitativas para el Management y los Negocios I

T1. Distribuciones de probabilidad discretas

Generación de variables aleatorias continuas Método de la transformada inversa

Tema 4: Probabilidad y Teoría de Muestras

Distribuciones de probabilidad

matemáticas como herramientas para solución de problemas en ingeniería. PS Probabilidad y Estadística Clave de la materia: Cuatrimestre: 4

CM0244. Suficientable

Gráficas de funciones de masa de probabilidad y de función de densidad de probabilidad de Distribuciones especiales. x n

INTERVALOS DE CONFIANZA Julián de la Horra Departamento de Matemáticas U.A.M.

Simulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12

Tema 5 Algunas distribuciones importantes

Tema 6. Estadística Descriptiva e Introducción a la Inferencia Estadística

Determinación del tamaño de muestra (para una sola muestra)

Repaso de conceptos de álgebra lineal

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Análisis de datos Categóricos

Indicaciones para el lector... xv Prólogo... xvii

Unidad Temática 3 UT3-1: Variable Aleatoria

III Verano de Probabilidad y Estadística Curso de Procesos de Poisson (Víctor Pérez Abreu) Lista de Ejercicios

Ejercicios de Estimación

Contenido. 2 Probabilidad 9. Prefacio. 1 Introducci6n a la estadfstica y al an;!llisis de datos

CONTENIDO. Prólogo a la 3. a edición en español ampliada... Prólogo...

INFERENCIA ESTADISTICA

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

ESTADÍSTICA. Tema 4 Regresión lineal simple

Tema 5. Contraste de hipótesis (I)

Carrera: Ingeniería Civil Participantes Comité de Evaluación Curricular de Institutos Tecnológicos

ANX-PR/CL/ GUÍA DE APRENDIZAJE. ASIGNATURA Estadistica. CURSO ACADÉMICO - SEMESTRE Primer semestre

Tabla de Test de Hipótesis ( Caso: Una muestra ) A. Test para µ con σ 2 conocida: Suponga que X 1, X 2,, X n, es una m.a.(n) desde N( µ, σ 2 )

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

Unidad IV: Distribuciones muestrales

Distribuciones de probabilidad más usuales

PROGRAMA ACADEMICO Ingeniería Industrial

Curso de nivelación Estadística y Matemática

Métodos Estadísticos Multivariados

Distribuciones de probabilidad con R Commander

Técnicas de validación estadística Bondad de ajuste

Contrastes de hipótesis paramétricos

Unidad 1: Espacio de Probabilidad

ANALISIS DE FRECUENCIA EN HIDROLOGIA JULIAN DAVID ROJO HERNANDEZ

Fase 2. Estudio de mercado: ESTADÍSTICA

Econometría II Grado en finanzas y contabilidad

Programa. Asignatura: Estadística Aplicada. año de la Carrera de Contador Público

Método de cuadrados mínimos

Carrera: EMM Participantes Representante de las academias de ingeniería Electromecánica de los Institutos Tecnológicos.

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

Procesos estocásticos. Definición

Discretas. Continuas

PONTIFICIA UNIVERSIDAD CATOLICA DEL ECUADOR FACULTAD DE INGENIERIA ESCUELA DE INGENIERIA DE SISTEMAS

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA DE ICA

Repaso Estadística Descriptiva

Variables aleatorias

Teléfono:

Distribución binomial

UNIVERSIDAD CENTROCCIDENTAL LISANDRO ALVARADO DECANATO DE INGENIERIA CIVIL ESTADISTICA. CARÁCTER: Obligatoria DENSIDAD HORARIA HT HP HS UCS THS/SEM

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011

Técnicas de validación estadística Bondad de ajuste

GRAFICOS DE CONTROL DATOS TIPO VARIABLES

Técnicas estadísticas más utilizadas en la investigación

UNIDAD 6. Estadística

Estadística y sus aplicaciones en Ciencias Sociales 2. Modelos de probabilidad

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

ESTADÍSTICA DESCRIPTIVA

Medidas de dispersión

TAMAÑO DE MUESTRA EN LA ESTIMACIÓN DE LA MEDIA DE UNA POBLACIÓN

Sistemas de ayuda a la decisión Modelización de la incertidumbre Tema 2. Incertidumbre y Probabilidad

CÁLCULO DE PROBABILIDADES

Econometría de series de tiempo aplicada a macroeconomía y finanzas

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Definición: Se llama variable aleatoria a toda función X que asigna a c/u de los elementos del espacio muestral S, un número Real X(s).

Prueba Integral Lapso /6

Distribuciones de probabilidad bidimensionales o conjuntas

Probabilidad y Estadística Descripción de Datos

Objetivos. Aprender a construir gráficos p y/o np. Aprender a construir gráficos c y u. Cuando usarlos. Epígrafes

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Tema 4. MODELOS DE DISTRIBUCIONES DISCRETOS.

EJERCICIOS RESUELTOS DE ESTADÍSTICA II

Estadística I PLAN DE DISCIPLINA

Transcripción:

Selección de distribuciones de probabilidad Patricia Kisbye FaMAF 6 de mayo, 2010

Análisis estadístico de datos simulados Los sistemas reales tienen fuentes de aleatoriedad: Tipo de sistema Fabricación Defensa Comunicaciones Transporte Fuente de aleatoriedad Tiempos de procesamiento Tiempos de falla Tiempos de reparación de máquinas Tiempos de arribo y carga útil de aviones o misiles. Errores de lanzamiento. Tiempos entre llegadas de mensajes. Longitudes de mensajes. Tiempo de embarque Tiempos entre arribos a un subte...

Simulación a partir de los datos Para simular un sistema real es necesario: Representar cada fuente de aleatoriedad de acuerdo a una distribución de probabilidad. Elegir adecuadamente la distribución, para no afectar los resultados de la simulación. Cómo elegir una distribución? Cómo simular un sistema a partir de un conjunto de observaciones? Utilizando los datos directamente. Realizando el muestreo a partir de la distribución empírica de los datos. Utilizando técnicas de inferencia estadística.

Elección de una distribución Utilizar los datos directamente: Sólo reproduce datos históricos. En general es una información insuficiente para realizar simulaciones. Es útil para comparar dos sistemas, para hacer una validación del modelo existente con el simulado. Distribución empírica: Reproduce datos intermedios (datos continuos). Es recomendable si no se pueden ajustar los datos a una distribución teórica.

Inferencia estadística Inferencia estadística vs. distribución empírica: Las distribuciones empíricas pueden tener irregularidades si hay pocos datos, una distribución teórica suaviza los datos. Puede obtenerse información aún fuera del rango de los datos observados. Puede ser necesario imponer un determinado tipo de distribución, por el tipo de modelo que se desea simular. No es necesario almacenar los datos observados ni las correspondientes probabilidades acumuladas. Es fácil modificar los parámetros. Puede no existir una distribución adecuada. Generación de valores extremos no deseados.

Distribuciones de probabilidad más utilizadas Continuas: Uniforme: Para cantidades que varían "aleatoriamente" entre valores a y b, y que no se conocen más datos. Exponencial: Tiempos entre llegadas de "clientes" a un sistema, y que ocurren a una tasa constante. Tiempos de falla de máquinas. Gamma, Weibull: Tiempo de servicio, tiempos de reparación. Normal: Errores. Sumas grandes Teorema central del límite. Otras: (Law & Kelton, cap. 6) Parámetros: de posición: (normal, uniforme) de escala: (normal, uniforme, exponencial, lognormal) de forma: (Gamma, Weibull, lognormal)

Distribución uniforme f (x) = 1 b a I (a,b)(x) a: posición, b a: escala. Rango: a < x < b. Media: a+b 2. Varianza: (b a)2 2.

Distribución Gamma(α, β) f (x) = β α x α 1 exp( x/β) Γ(α) α: forma, β: escala. Rango: x > 0. Media: αβ. Varianza: αβ 2. NOTACIÓN para β α = 1 Exponencial

Distribución Weibull (α, β) f (x) = αβ α x α 1 e (x/β)α α: forma, β: escala. Rango: x > 0. Media: β α Γ ( 1 α).

Distribución Normal(µ, σ 2 ) f (x) = 1 2πσ exp( (x µ) 2 /(2σ 2 )) µ: posición, σ: escala. Rango: R. Media: µ. Varianza: σ 2.

Distribución Lognormal(µ, σ 2 ) f (x) = 1 x 2πσ 2 e (log(x) µ)2 /(2σ 2 ) σ: forma, µ: escala. Rango: x > 0. Media: e µ+σ2 /2. Varianza: e 2µ+σ (e σ2 1).

Distribuciones de probabilidad más utilizadas Discretas: Bernoulli. Uniforme discreta. Geométrica: número de observaciones hasta detectar el primer error. Binomial negativa: número de observaciones hasta detectar el n-ésimo error. Poisson: Número de eventos en un intervalo de tiempo, si ocurren a tasa constante.

Distribución Binomial n = 5, p = 0.1 n = 5, p = 0.5 n = 5, p = 0.8

Distribución Geométrica p = 0.25 p = 0.5

Distribución Poisson

Distribución Poisson Corresponde a λ = 25.

Distribución empírica Datos continuos Datos observados: X 1, X 2,..., X n disponibles. Datos agrupados en un intervalo: histograma. Si los datos están disponibles, puede construirse una función de distribución lineal a trozos: Ordenando los datos de menor a mayor: X (1), X (2),..., X (n) Definiendo F (x) como: 0 x < X (1) i 1 F(x) = n 1 + x X (i) (n 1)(X (i+1) X (i) ) X (i) x < X (i+1) 1 i < n 1 X (n) x F (X (i) ) = (i 1)/(n 1) proporción de X j menores que X (i).

Si los datos están agrupados en intervalos: [a 0, a 1 ), [a 1, a 2 ),..., [a k 1, a k ) y cada intervalo [a j 1, a j ) contiene n j observaciones: n 1 + n 2 + + n k = n es razonable definir la distribución empírica como: G(a 0 ) = 0, G(a j ) = n 1 + n 2 + + n j n e interpolando linealmente estos puntos. G(a j ) = proporción de X j menores que a j.

Distribución empírica

Caso discreto Si los datos X 1, X 2,..., X n están disponibles se define la función de masa empírica: p(x) = #{i X i = x} n Si los datos están agrupados, se define la función de masa p(x) de modo que la suma en cada intervalo sea igual a la proporción de X i s en dicho intervalo. La definición de p(x) dentro del intervalo es esencialmente arbitraria.

Técnicas de prueba de independencia Para ciertos tests, es necesario asumir independencia de los datos observados. Ejemplos de no independencia: Datos de temperaturas a lo largo de un día. Tiempos de demora en una cola de espera. Técnicas Gráficos de correlación: ρ j. Diagramas de dispersión (scattering): (X i, X i+1 ). Tests no paramétricos.

Inferencia estadística 1. Elegir una o más distribuciones apropiadas. 2. Estimación de parámetros de la distribución elegida. 3. Pruebas (tests) de bondad de ajuste. 4. Si es necesario, corregir la distribución adoptada. Elegir una distribución Conocer el origen de los datos. Estimar algunas medidas a partir de los datos: Media, mediana, máximo y mínimo, coeficiente de variación, desviación estándar, coeficiente de asimetría. Histograma. q-cuantiles, diagramas de caja (box-plots) Q Q plots y P P plots.

Medidas útiles Función Estimador Estima Min, Max X (1), X (n) rango Media µ X(n) { Tendencia central Mediana ˆm = X (n+1)/2 1 2 (X n/2 + X (n/2+1) ) Tendencia central. Varianza σ 2 S 2 (n) Variabilidad c.v.= σ µ τ ˆ cv(n) = ˆτ = S2 (n) X(n) Asimetría ν = E[(X µ)3 ] (σ 2 ) 3/2 ˆν(n) = S 2 (n) X(n) Variabilidad Variabilidad P i (X i X(n)) 3 /n [S 2 (n)] 3/2 Simetría

Estimación de parámetros Dada una muestra de n datos observados, se llama estimador ˆθ del parámetro θ a cualquier función de los datos observados. Propiedades de un buen estimador Insesgabilidad: se dice que el estimador es insesgado si E[ˆθ] = θ. Consistencia: si al aumentar la muestra, el estimador se aproxima al parámetro. Eficiencia: se calcula comparando su varianza con la de otro estimador. Suficiencia: utiliza toda la información obtenida de la muestra.

Estimador de máxima verosimilitud Supongamos que se tiene la hipótesis de una distribución discreta para los datos observados, y se desconoce un parámetro θ. Sea p θ (x) la probabilidad de masa para dicha distribución. Dado que se han observado datos X 1, X 2,..., X n, se define la función de máxima verosimilitud L(θ) como sigue: L(θ) = p θ (X 1 ) p θ (X 2 ) p θ (X n ). El estimador de máxima verosimilitud es el valor ˆθ que maximiza L(θ): L(ˆθ) L(θ), θ valor posible. Si la distribución supuesta es continua, y f θ (x) es la densidad para dicha distribución, se define: L(θ) = f θ (X 1 ) f θ (X 2 ) f θ (X n ).

Estimador de máxima verosimilitud El estimador de máxima verosimilitud tiene, en general, las siguientes propiedades: 1. Es único: L(ˆθ) > L(θ) para cualquier otro valor de θ. 2. La distribución asintótica de ˆθ tiene media θ. 3. Es invariante: φ = h(θ), entonces ˆφ = h(ˆθ). 4. Su distribución asintótica está normalmente distribuida. 5. Es fuertemente consistente: lim n ˆθ = θ.

Ejemplo Para la distribución exponencial, θ = β (β > 0) y f β (x) = 1 β e x/β para x 0. ( ) ( 1 L(β) = β e X 1/β 1 ( ) = β n exp 1 n X i β β e X 2/β i=1 ) ( ) 1 β e Xn/β ˆβ = 1 n n X i = X(n) = Media muestral. i=1

Ejemplo Para la distribución geométrica, θ = p (0 < p < 10) y p p (x) = p(1 p) x 1 para x = 1, 2,.... L(p) = p n (1 p) P n i=1 (X i 1) = ˆp = ( p 1 p ) n (1 p) P n i=1 X i ( 1 ) 1 Xi n

Estimadores de máxima verosimilitud: Distribuciones continuas: Uniforme: â = min{x i }, ˆb = max{x i }. Exponencial: ˆβ = X(n). Gamma, Weibull: ˆα y ˆβ se resuelven numéricamente. Normal: Lognormal: [ ] 1/2 n 1 ˆµ = X(n), ˆσ = n S2 (n). n i=1 ˆµ = log(x i) [ i=1, ˆσ = n(log(x i) ˆµ) 2 ] 1/2. n n

Estimadores de máxima verosimilitud Distribuciones discretas: Binomial (t, p): si t es conocido, ˆp = X(n)/t. Bernoulli: Caso binomial con t = 1 e igual p. Geométrica: ˆp = 1 X(n). Binomial negativa (s, p): número de ensayos hasta el s-ésimo éxito. Si s es conocido: ˆp = Poisson: ˆλ = X(n). s X(n).