Universidad Técnica Federico Santa María Departamento de Informática ILI-280 Capítulo 1: DEFINICIONES Y conceptos Estadística Computacional 1º Semestre 2003 Profesor :Héctor Allende Página : www.inf.utfsm.cl/~hallende e-mail : hallende@inf.utfsm.cl
CONCEPTOS Qué es es la la Estadística? POBLACION MUESTRA VARIABLES DATOS ESTADISTICA PARAMETRO EXPERIMENTO FORMA ( PATRON) 2
Qué es la estadística? Ciencia dedicada al estudio sistemático de los datos Transforma datos en información Contribuye a la generación de conocimiento Historia de la estadística : Como ciencia de Estado (2600 A.C.) Como cálculo de probabilidades (siglo XVIII) Papel de la estadística : Proporcionar métodos para evaluar y juzgar la teoría y la realidad Extraer la información contenida en los datos 3
USOS Ciencias naturales Ciencias económicas políticas y sociales Ciencias médicas Ciencias morales etc. ABUSOS Encuestas de opinión Índices económicos Pronósticos 4
La Estadística en la era de la Información Destrezas lectoras para la sociedad del Conocimiento EL PENSAMIENTO ESTADÍSTICO El pensamiento estadístico algún día será parte del ciudadano eficiente, y tan necesario como la habilidad para leer y escribir W. H. WELLS 5
2 Ejemplos de aplicaciones de Estadísticas PREGUNTA MODELO Cómo diseñar un sistema de mantenimiento Variables: - Número de fallas (x( 1 ) - Tiempo reparación (x( 2 ) Hipótesis: las fallas Se producen independientemente La probabilidad de no disminuye exponencialmente con el tiempo Hipótesis: tiempo reparación Depende de muchos pequeños factores Cómo aumentar el rendimiento de un proceso Variables: - Rendimiento en % (y)( - Temperatura x 1 - Concentración x 2 Hipótesis: El rendimiento aumenta en promedio linealmente con la temperatura y la concentración Para valores fijos de x 1 y x 2 el rendimiento varía aleatoriamente alrededor de su valor medio 6
RECOLECCIÓN DE INFORMACIÓN ESTIMACIÓN PARÁMETROS CONTRASTES DE SIMPLIFI- CACIÓN CRÍTICA DEL MODELO Muestreo de máquinas para estudiar sus fallas muy tiempo de reparación Estimar: λ, tasa media de fallas µ, tiempo medio de reparación σ, variabilidad en el tiempo de reparación Tienen todos los tipos de máquinas el mismo λ? Los tipos de fallas, el mismo µ y σ? Es cierta la independencia entre las fallas? Es la variancia de x 1 ^ x 2 en la muestra consistentes con las hipótesis? Diseño de un experimento que se varíen x 1 y x 2 y se mida y Estimar: El efecto de la temperatura (b) y el de la concentración (c) sobre el rendimiento Variabilidad experimental Es el efecto de la temperatura y concentración idéntico (b=c )? Es la relación entre y (x 1, x 2 ) lineal? Es la variabilidad de y para x 1, x 2 fijos, independ. de los valores concretos de x 1, x 2? 7
Problema real Formulación del problema Objetos y medios Modelos Estadísticos (Cálculo de probabilidades) Recolección de información (muestral( muestral) (Técnicas de muestreo ; diseño de experimentos) Depuración de los datos (Análisis de datos) Estimación de los parámetros (Teoría de la estimación)
Contrastes de Simplificación (Contrastes de hipótesis) Crítica y Diagnosis del Modelo (Análisis de datos) Nuevo Conocimiento Previsiones Decisiones
Ventajas Técnicas de Muestreo Costo reducido Mayor rapidez Mayor posibilidad (Sistemas complejos) APLICACIONES: Mercadotecnia Análisis de de Imágenes Modelos de de Simulación 10
Teoría de muestreo Población finita Población infinita Muestreo Probabilístico No Probabilístico Definición del conjunto de muestras Asignación de Probabilidad ( π i ) Selección ( π i ) Estimación 11
Medidas de Probabilidad Probabilidad una medida de de la la certidumbre La La confiabilidad de de una una Inferencia Aproximación frecuentista - A A Priori Pr Pr (Ai) (Ai) = n/n n/n n = número número de de todas todas las las posibles posibles formas formas en en que que A A i i puede puede ser ser observado observado N = número número total total de de posibles posibles resultados resultados Aproximación Subjectiva Una Una Opinión de de Experto 12
Definición: Población Conjunto de de elementos u objetos - que que obedecen a reglas de de pertenencia definidas por por el el observador - de de los los cuales se se desea conocer ciertos parámetros de de comportamiento y características ( formas) de de la la Población. Observación: Cada Cada sujeto o elemento de de la la Población. Cada Cada uno uno es es una una incognita en en el el sentido que que puede tener uno uno de de los los tantos valores posibles de de observar de de cierta característica. 13
Población La Población puede ser: Finita :: Si Si los los elementos son son finitos Infinita :: Si Si los los elementos son son denumerables o no no denumarables La Teoría de de Muestreo pretende desarrollar métodos para obtener un un conocimiento adecuado de de ciertas características de de una Población, mediante el el estudio de de un un número reducido de de elementos u objetos representativos de de dicha Población 14
Planes de Muestreo Muestreo Aleatorio Simple Muestreo Estratificado Aleatorio Muestreo Sistemático Muestreo por Conglomerado Muestreo Múltiple 15
Muestreo Experimento: Un Un proceso de de Observación Evento Simple: Un Un Resultado de de un un experimento que que no no puede ser ser descompuesto. Mutuamente Mutuamente Excluyente Excluyente,, Idéntica Idéntica Posibilidad Posibilidad Espacio Muestral: El El conjunto de de todos los los resultados posibles Evento A : El El conjunto de de todos los los eventos simples que que pertenecen al al resultado A A 16
Espacio Muestral Conjunto de de todos los los resultados u observaciones que se se pueden observar al al realizar un un experimento Puede ser : Discreto o Continuo Sea n :: Tamaño de de la la Muestra N :Tamaño de de la la Población {S {S i : i : i i = 1, 1, 2, 2,...... N } } todas las las muestras posibles S i se i se denomina el el Espacio Muestral o Universo. n 17
Clasificación de Métodos de Muestreo 1.- Por la la Forma de de Considerar un un Evento Sin Sin Reposición o Con Con Reposición 2.- Por la la Forma de de Tomar la la Muestra Juicio Aleatoria Simple Simple Sistemática Sistemática Estratificada Estratificada Conglomerados Conglomerados 3.- Por el el número de de Muestras Simple o Múltiple 18
Muestreo Aleatorio Conjunto de de observaciones tomadas de de una Población. Se dice que la la muestra es es aleatoria cuando la la manera de de selección de de cada muestra de de la la población tiene igual oportunidad de de ser seleccionada. El método de de selección es es decisivo en en las las conclusiones que se se pueden obtener de de la la muestra. 19
Tipos de Variables Tanto en en la la escala intervalar como como en en la la de de razón es es posible distinguir dos dos tipos tipos de de variables aleatorias: Variables Variables Discretas: Discretas: una una que que puede puede tomar tomar sus sus valores valores de de un un conjunto conjunto de de puntos puntos aislados aislados (subconjunto (subconjunto de de valores valores en en R) R) Variables Variables Continuas: Continuas: una una que que puede puede tomar tomar sus sus valores valores en en un un conjunto conjunto donde donde todos todos sus sus elementos elementos son son puntos puntos de de acumulación acumulación (un (un intervalo intervalo en en R). R). Siempre Siempre es es posible posible tratar tratar una una variable variable continua continua como como discreta discreta mediante mediante la la construcción construcción de de intervalos intervalos de de clase clase representando representando cada cada uno uno de de los los intervalos intervalos por por su su valor valor medio medio denominado denominado marca marca de de clase clase Variables Variables Categóricas Categóricas o Cualitativas Cualitativas Variables Variables Cuantitativas Cuantitativas 20
Estimación Parámetro: Medida para para describir alguna característica de de los los elementos de de una una Población, tal tal como como Valor Valor Esperado, Moda o Varianza poblacional. Estos guarismos son son valores verdaderos, pero pero deconocidos. Estadística ( Estadígrafo): Medida para para describir una una característica de de la la Muestra, tal tal como como Promedio, Varianza o Moda muestral. Estos valores son son calculados a partir de de la la Muestra, pero pero son son valores aproximados de de los los parámetros que que representan 21
Muestreo Aleatorio Simple: M.A.S. Es un un método de de selección de de n unidades sacadas de de N, N, de de tal tal manera que cada una de de las las muestras C(N,n) tiene la la misma probabilidad de de ser escogida. En la la prática un un m.a.s. es es sacado unidad por unidad: Las unidades de de la la población son son numerados del del 1 al al N. N. A A continuación son son seleccionados n números aleatorios entre 1 y N, N, ya ya sea sea de de tablas o de de una una urna urna como como en en la la lotería 22
Muestreo Estratificado Aleatorio Se Se emplea cuando la la población está está agrupada en en pocos estratos, cada cada uno uno de de ellos ellos con con muchos individuos. Consiste en en sacar un un m.a.s. de de cada cada uno uno de de los los estratos. Los Los Estratos, por por lo lo general, son son de de diferente tamaño; la la muestra, por por consiguiente, para para ser ser representativa debe debe contener elementos de de cada cada estrato en en forma proporcional a la la población. (Esto se se llama llama afijación proporcional, la la que que no no siempre resulta ser ser la la más más conveniente por por cuanto los los costos de de muestreo en en cada cada uno uno de de los los estratos pueden ser ser distintos). 23
Muestreo Sistemático Se Se utiliza cuando las las unidades de de la la población están, de de algún algún modo, totalmente ordenadas. Para Para seleccionar una una muestra se se aprovecha la la ordenación de de las las unidades. Para Para seleccionar una una muestra de de tamaño n Dividir Dividir la la población población en en n n subpoblaciones subpoblaciones de de tamaño tamaño K =(N/n) =(N/n) Toma Toma una una unidad unidad al al azar azar de de la la primera primera subpoblación subpoblación y de de ahí ahí en en adelante adelante cada cada k-ésima k-ésima unidad. unidad. Si Si n 1 es 1 es la la unidad seleccionada de de la la primera población, entonces las las siguientes observaciones serán n 2 =n 2 =n 1 +K, 1 +K, n 3 =n 3 =n 2 +K, 2 +K, n 4 =n 4 =n 2 +2K,... 2 24
Muestreo por Conglomerado Se emplea cuando la la población está dividida en en grupos pequeños. Consiste en en obtener una m.a.s. de de algunos grupos y luego censar cada uno de de estos. Hay dos razones para principales para la la extensa aplicación de de estos planes de de muestreo: falta de de una lista confiable de de elementos en en la la población y consideraciones del tipo económica. 25
Muestreo en dos Etapas (doble) La muestra se se toma en en dos pasos: En En el el primero se se selecciona la la muestra de de unidades primarias y En En la la segunda se se selecciona una una muestra de de elementos a partir de de cada cada unidad primaria escogida 26
Ejemplo En cada una de de las las situaciones planteadas diseñe un un plan de de muestreo apropiado: A) A) Un Un importador de de bombillas eléctricas, por por razones de de contrato de de seguro se se interesa en en determinar la la población de de bombillas quebradas en en una una partida de de 50.000 cajas cajas con con 144unidades cada cada una. una. B) B) El El INE INE para para efectos del del cálculo del del IPC, IPC, se se interesa en en conocer el el gasto mensual en en alimentación de de las las familias de de la la región metropolitana. 27
Ejemplo C) C) Para Para crear crear un un nueva nueva fundación fundación se se recabaron firmas firmas en en 45.000 45.000 hojas. hojas. Cada Cada hoja hoja tenía tenía un un espacío espacío suficiente para para 30 30 firmas, firmas, pero pero muchas muchas de de las las hojas hojas se se recabó recabó un un número número menor menor de de firmas, firmas, los los promotores de de la la nueva nueva fundación fundación se se interesan interesan por por conocer conocer el el número número total total de de firmas. firmas. D) D) El El SERVIU SERVIU Metropolitano se se interesa interesa en en conocer conocer el el número número total total de de pobladores, de de una una gran gran población población de de Santiago Santiago de de 3600 3600 viviendas. viviendas. Para Para tal tal efecto efecto sólo sólo dispone dispone de de un un archivo archivo ordenado ordenado por por numeración correlativa de de las las viviendas viviendas del del 1 al al 3600, 3600, de de donde donde es es posible posible obtener obtener el el número número de de personas personas que que habitan habitan en en cada cada vivienda. vivienda. 28
Soluciónes A) Muestreo por conglomerado. B) Muestreo estratificado. C) Muestreo aleatorio simple. D) Muestreo sistemático 29
Estáticos Dinámicos Extrapolativos y = µ + u (Primera parte) y = µ + φ y t-1 + u t (Quinta parte) Explicativos y = µ + β x + u (Tercera y cuarta parte) y = µ + β x + φ y t-1 + u t (Quinta parte) 30