REVISION DE CONCEPTOS BÁSICOS

Documentos relacionados
Requisitos Matemáticos. Clase 01. Profesor: Carlos R. Pitta. ICPM050, Econometría. Universidad Austral de Chile Escuela de Ingeniería Comercial

Variables aleatorias

DISTRIBUCIONES DE PROBABILIDAD

TEORÍA DE LA COMUNICACIÓN TEMA 2 RUIDO EN LOS SISTEMA DE COMUNICACIONES. Variable aleatoria (Real)

Estadística. Tema 3. Esperanzas Esperanza. Propiedades Varianza y covarianza. Correlación

Técnicas Cuantitativas para el Management y los Negocios I

Universidad Nacional de La Plata

478 Índice alfabético

Distribuciones multivariadas

Estadística Maestría en Finanzas Universidad del CEMA. Profesor: Alberto Landro Asistente: Julián R. Siri

Estadística Clase 2. Maestría en Finanzas Universidad del CEMA. Profesor: Alberto Landro Asistente: Julián R. Siri

Estadística Clase 2. Maestría en Finanzas Universidad del CEMA. Profesor: Alberto Landro Asistente: Julián R. Siri

Estadística Descriptiva y Probabilidad FORMULARIO

Folleto de Estadísticas. Teoría del 2do Parcial

viii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos

Cálculo de Probabilidades II Preguntas Tema 2

Probabilidad, Variable Aleatoria Pag 1 de 26 PROBABILIDAD

Unidad Temática 3: Probabilidad y Variables Aleatorias

Técnicas Cuantitativas para el Management y los Negocios I

Part I. Variables aleatorias unidimensionales. Estadística I. Mario Francisco. Definición de variable aleatoria. Variables aleatorias discretas

Introducción al Diseño de Experimentos.

Tema 4: Variables aleatorias multidimensionales

Estadistica II Tema 0. Repaso de conceptos básicos. Curso 2009/10

VARIABLES ALEATORIAS CONTINUAS

Distribución de probabilidad

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

Capítulo 5: Probabilidad e inferencia

Vectores Aleatorios. Vectores Aleatorios. Vectores Discretos. Vectores Aleatorios Continuos

Capítulo 2. Medidas Estadísticas Básicas Medidas estadísticas poblacionales

TEMA 3.- VECTORES ALEATORIOS.- CURSO

3. Variables aleatorias

UNIDAD 3 Características de variables aleatorias uni y bidimensionales

Estadísticas y distribuciones de muestreo

1. Conceptos de Regresión y Correlación. 2. Variables aleatorias bidimensionales. 3. Ajuste de una recta a una nube de puntos

Repaso de Teoría de la Probabilidad

Métodos Estadísticos de la Ingeniería Tema 7: Momentos de Variables Aleatorias Grupo B

Variables aleatorias bidimensionales discretas

Inferencia Estadística

Distribución conjunta de variables aleatorias

Estadística /Química 2004

Cátedra: Estadística Técnica Facultad de Ingeniería UNCuyo. Índice D. Fernández & M. Guitart TABLA DE CONTENIDOS

ESTADÍSTICA. Facultad Nacional de Ingeniería Oruro - Bolivia

Tema 4: Variables aleatorias multidimensionales

MATEMÁTICAS II PROBABILIDAD DISTRIBUCIÓN BINOMIAL DISTRIBUCIÓN NORMAL

Sesión 2: Teoría de Probabilidad

GEOESTADÍSTICA APLICADA

Distribuciones de probabilidad bidimensionales o conjuntas

Prof. Eliana Guzmán U. Semestre A-2015

INDICE. Prólogo a la Segunda Edición

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

1 Tema 4: Variable Aleatoria Bidimensional y n-dimensional

Sumario Prólogo Unidad didáctica 1. Introducción a la estadística. Conceptos preliminares Objetivos de la Unidad...

UNIDAD 4: DISTRIBUCIÓN DE PROBABILIDAD

Diseño de experimentos Hugo Alexer Pérez Vicente

Momentos de Funciones de Vectores Aleatorios

Nota de los autores... vi

Cálculo de Probabilidades II Preguntas Tema 1

PyE_ EF2_TIPO1_

INDICE 1. Introducción 2. Recopilación de Datos Caso de estudia A 3. Descripción y Resumen de Datos 4. Presentación de Datos

Tema 4: Variables Aleatorias

Regresión Lineal Simple y Múltiple Regresión Logística

Variables Aleatorias y Distribución de Probabilidades

ESTADISTICA INFERENCIAL DR. JORGE ACUÑA A.

Tema 3. Probabilidad y variables aleatorias

DISTRIBUCIONES MULTIDIMENSIONALES DE PROBABILIDAD

CAPÍTULO 5 DISTRIBUCIONES TEÓRICAS

RESUMEN CONTENIDOS TERCERA EVALUACIÓN PROBABILIDAD DISTRIBUCIÓN BINOMIAL DISTRIBUCIÓN NORMAL

Tarea 1. Conteste lo siguiente: a) Qué constituye la población? Todas las personas aseguradas por el IMSS. b) La población es finita o infinita?

Resumen de Probabilidad

ANALISIS DE FRECUENCIA EN HIDROLOGIA

Variables aleatorias: El caso continuo. Random variables: The continuous case. Rincón de la Bioestadística

Folleto de Estadísticas. Teoría del 1er Parcial

Sesión 2: Teoría de Probabilidad

ASIGNATURA: ESTADISTICA II (II-055) Ing. César Torrez

ÍNDICE CAPÍTULO 1. INTRODUCCIÓN

Cap. 3 : Variables aleatorias

Probabilidad y Estadística

Representaciones gráficas de las distribuciones bidimensionales de frecuencias... 74

Especialización en Métodos Estadísticos (EME) CURSO PROPEDÉUTICO ESTADÍSTICA BÁSICA

CENTRO UNIVERSITARIO UAEM ZUMPANGO INGENIERO EN COMPUTACIÓN MUESTRAS ALEATORIAS Y DISTRIBUCIONES DE MUESTREO

INDICE Capitulo uno Introducción y estadísticas descriptiva Capitulo dos Conceptos en probabilidad Capitulo tres

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

TEMA 3: Probabilidad. Modelos. Probabilidad

Transcripción:

REVISION DE CONCEPTOS BÁSICOS Objetivos Introducir, de manera muy general, algunos de los conceptos matemáticos y estadísticos que se utilizan en el análisis de regresión. La revisión no es rigurosa y no se dan pruebas debido a que existen diversos textos que hacen muy bien ese trabajo. La revisión se basa en el apéndice A de Gujarati y Porter (2010).

A.1 OPERADORES DE SUMATORIA Y DE PRODUCTO La letra mayúscula griega (sigma) se utiliza para indicar la sumatoria. n i= 1 X = X + X +... X i 1 2 Algunas de las propiedades más importantes del operador de sumatoria son n i) ii) n K = nk donde K es una constante. i= 1 n n KX i = K Xi donde K es una constante. i= 1 i= 1 iii) T T (a + bx t) = Ta + b Xt, donde a y b son constantes y donde se hace t=1 t=1 uso de las propiedades (i) y (ii) anteriores. iv) n n n (Xi ± Y i) = X i ± Yi i=1 i=1 i=1

El operador de sumatoria también puede ampliarse a sumas múltiples. Así,, el operador de doble sumatoria, es definido como n m n X = ( X + X +... + X ) ij i1 i2 im i= 1 j= 1 i= 1 = ( X + X +... + X ) + ( X + X +... + X ) + 11 21 n1 12 22 n2... + ( X + X +... + X ) n1 n2 nm

Algunas de las propiedades de son: i) n m m n X ij = X ij i = 1 j = 1 j = 1 i = 1, es decir, el orden en el cual se realice la doble sumatoria es intercambiable. ii) iii) iv) n m n m X = X Y ij ij ij i = 1 j = 1 i = 1 j = 1 n m n m n m ( X + Y ) = X + Y ij ij ij ij i = 1 j = 1 i = 1 j = 1 i = 1 j = 1 n 2 n n 1 n 2 X i = X i + 2 X i X j i= 1 i = 1 i = 1 j = 1+ 1

El operador de producto se define como n i= 1 X = X X... X i 1 2 n A.2 CÁLCULO DIFERENCIAL (se vio en el propedéutico). A.3 ALGEBRA MATRICIAL (más adelante)

A.4 ESTADÍSTICA Rama de las matemáticas encargada de la recolección, sistematización, síntesis, análisis e interpretación de datos. Clasificación por sus funciones: estadística descriptiva y estadística inferencial. La estadística descriptiva reúne al conjunto de procedimientos que tienen por objeto resumir, mediante tablas, gráficos y/o medidas(indicadores), a un conjunto de datos (sean de la población o muestrales). Es la primera etapa a desarrollar en un análisis de datos. La estadística inferencial es la encargada de elaborar estimaciones y afirmaciones sobre el valor de un parámetro a partir de la información contendida en una muestra procedente de dicha población.

Tipos de inferencia a) según la característica a estimar paramétrica: busca estimar el parámetro desconocido de una distribución poblacional cuya forma funcional es conocida. no paramétrica: estima sin conocimiento de la distribución de probabilidad que género los datos muestrales.

b) según el tamaño de la muestra exacta: cuando el tamaño de la muestra es finito. asintótica: cuando el tamaño de la muestra es infinito. c) según la finalidad última puntual: estima un solo valor para la característica poblacional. intervalo: estima un rango de valores donde puede encontrarse la característica poblacional.

Conceptos básicos Población. Muestra. Parámetro Estadísticos (muestrales) Variable

Clasificación de variables 1. Nivel de medición. 2. Escala de medición. 3. Grado de abstracción. 4. Papel en la investigación.

Escala de medición Una variable puede ser medida en cuatro diferentes escalas: Razón: cumple con las propiedades: 1. la razón de dos variables; 2. la distancia entre dos variables; y 3. ordenamiento de las variables Intervalo: no satisface la primera de las propiedades. Ordinal: solo cumple con la tercera propiedad. Nominal: no cumple ninguna propiedad.

Nivel de abstracción - Abstractas o conceptuales - Intermedias - Empíricas Papel en la investigación - Dependiente - Independiente

A.5 PROBABILIDAD Medida de la incertidumbre en la ocurrencia de un suceso o evento. Enfoques 1. Clásico 2. Frecuentista 3. Subjetiva p( A ) = p( A ) = Casos favorables Total de resultados posibles Casos favorables Total de veces que se llevo a cabo el experimento 4. Axiomática i) p( A) 0 ii) 0 p( A) 1 ii) p( A i ) = 1 i

Conceptos básicos Se denomina como el espacio muestral al conjunto de todos los resultados posibles de un experimento aleatorio. Cada miembro del espacio muestral se denomina un punto muestral. Un evento es un subconjunto del espacio muestral. Se dice que los eventos son mutuamente excluyentes si la ocurrencia de uno impide la ocurrencia de otro. Se dice que los eventos son exhaustivos (colectivamente) si todos los resultados posibles de un experimento se agotan.

A.6 PROBABILIDAD CONDICIONAL E INDEPENDENCIA DE EVENTOS Tabla de contingencia: es un cuadro de doble entrada, donde en cada casilla figurará el número de casos o individuos que poseen un nivel de una de las características analizadas y otro nivel del otro factor analizado. Ejemplo Sea A= hombre, B= fumador B B Total A 38 50 A 30 50 Total 100

Tabla de probabilidades B B Total A 0.38 0.12 0.50 A 0.20 0.30 0.50 Total 0.58 0.42 1.00 p(a)=probabilidad total, marginal o incondicional de A. p(b)=probabilidad total, marginal o incondicional de B. p(a B)=probabilidad conjunta de A y B. p(a\b)=probabilidad de A dado B=probabilidad condicional A dado B. p(b\a)=probabilidad de B dado A=probabilidad condicional B dado A. p(a\b)= p(a B) p(b)

Se elige de manera aleatoria a un individuo, Cuál es la probabilidad de fumar dado que es hombre? p(a B) 0.38 p(b\a)= = = 0.6552 p(a) 0.58 Independencia de eventos Dos eventos se dicen independientes si y solo si (ssi) Alternativamente p(a B)=p(A) p(b) p(a) p(b) p(a\b)= = p( A) p(b)

Teorema de Bayes Es un procedimiento para calcular probabilidades condicionales a partir de información limitada. p(a \B)= i p(a i ) p(b\a i ) p(a ) p(b\a ) i= 1 i i

A.7 VARIABLES ALEATORIAS Una variable aleatoria (v.a.) es una variable cuyo valor está determinado por el resultado de un experimento al azar. Se denotan por letras mayúsculas, mientras que sus valores por letras minúsculas. Una v.a. discreta solo toma valores enteros. Una v.a. continua toma cualquier valor dentro de un intervalo dado.

A.8 FUNCIÓN DE DENSIDAD DE PROBABILIDAD (FDP) 1 Para una v.a. discreta Sea X una v.a. discreta que toma valores x 1, x 2,..., x n diferentes. A la función f(x) = p( X = x ) para i = 1,2,..., n 0 i para x x i se denomina la función de densidad de probabilidad discreta (FDP) de X, donde p(x=x i ) significa la probabilidad de que la v.a. discreta X tome el valor de x i. 1 También denominada, en el idioma inglés como PDF (Probability Density Function).

Ejemplo En un lanzamiento de dos dados, si la v.a. X se define como la suma de los números que aparecen en los dos dados. La v.a. puede tomar uno de 11 valores. La FDP de esta v.a. se muestra a continuación. f(x) Figura 1. Función de densidad de la v.a. la suma de los números que aparecen en los dos dados

Para una v.a. continua Sea X una v.a. continua. Se dice que f(x) es la FDP de X si se satisfacen las siguientes condiciones: Figura 2. FDP para una v.a. continua 1) f(x) > 0 2) f(x) dx=1 b 3) f(x) dx=p(a x b) a Geométricamente, se tiene la figura 2. Nótese que para una v.a. continua, en contraste con una v.a. discreta, la probabilidad de que X tome un valor específico es cero; la probabilidad para tal variable puede medirse solamente sobre un rango o intervalo dado, tal como (a, b) que aparece en la figura 2.

A.8.1 Funciones de densidad de probabilidad conjunta, marginal, condicional e independencia Para una v.a. discreta Sean X y Y dos v.a. discretas. La función de densidad de probabilidad conjunta discreta, f(x,y), muestra la probabilidad de que X tome el valor de x y Y tome el valor de y de forma conjunta. f(x.y) = f(x,y)=p(x=x Y=y) =0 cuando X y Y y En relación con f(x,y), f(x) y f(y) se denominan funciones de densidad de probabilidad individuales o marginales. Estas FDP marginales se obtienen de la siguiente manera:

= FDP marginal de X f ( x) f ( x, y) y = FDP marginal de Y f ( y) f ( x, y) x Con frecuencia resulta de interés estudiar el comportamiento de una variable condicional a los valores de otra u otras variables. Esto puede hacerse considerando la FDP condicional. La función f(x\y)= p(x=x\y=y) se conoce como la FDP condicional de X; ésta da la probabilidad de que X tome el valor de x dado que Y ha asumido el valor y. En forma similar, f(y\x)= p(y=y\x=x) lo cual da la FDP condicional de Y. Las FDP condicionales pueden obtenerse de la siguiente manera: f ( x \ y) = f ( x, y) f ( y) y f ( y \ x) = f ( x, y) f ( x)

Dos v.a. X y Y son independientes si y solo si (ssi) f ( x, y) = f ( x) f ( y) Para una v.a. continua La FDP f(x, y) de dos variables continuas X y Y es tal que f(x,y) 0 - - d b c a f(x,y)dxdy=1 f(x,y)dxdy=p(a x b, c y d )

A.9 Características de las distribuciones de probabilidad Una distribución de probabilidad a menudo puede resumirse en términos de algunas de sus características, conocidas como los momentos de la distribución. Dos de los momentos más ampliamente utilizados son la media, o valor esperado y la varianza. Valor esperado: Denotado por E(X)=µ, se define como: Discretas Continuas E(X) = x xf(x) E(X) = - xf(x)dx

A.9.1 Propiedades del operador esperanza matemática Sea c una constante y X e Y v.a. Entonces 1. E [ c] = c 2. E [ cx ] = ce [ X ] 3. E [ X ± Y ] = E [ X ] ± E [ Y ] 4. Si X y Y son independientes Sin embargo, observe que [ ] [ ] E X E X Y E Y 5. Si X es una v.a. con FDP f(x). y si g(x) es cualquier función de X, entonces [ ] = y E g( x) g( x) f ( x) x [ ] E [ XY ] = E [ X ] E [ Y ] E g( x) xf(x)dx = -

Varianza: Sea X es una v.a. y E(X)=µ. La distribución o dispersión de los valores de X alrededor del valor esperado puede ser medida por la varianza, la cual se define como: V(X)=Var(X) = σ = E(X - µ ) 2 2 x La raíz cuadrada positiva de, es decir, está definida como la x x desviación estándar de X. La varianza o la desviación estándar da una indicación de qué tan cercanos o dispersos están los valores individuales de X con respecto al valor de su media. Observe que σ 2 2 2 2 V(X)= E(x - µ ) = E( x ) 2 µ E( x) + µ 2 2 = E( x ) µ La varianza definida anteriormente se calcula de la siguiente forma: σ

V(X) = Discretas x 2 (x- µ ) f(x) V(X) = - Continuas 2 (x- µ ) f(x)dx A.9.2 Propiedades de la varianza Sea c una constante y X e Y v.a. Entonces 1. V(c) = 0 2. 2 V(cX) =c V(X) 3. Si X y Y son independientes V(X+Y) =V(X)+V(Y) V(X-Y) =V(X)-V(Y) pero si X e Y no son independientes V(X+Y) =V(X)+V(Y)+2Cov(X,Y) V(X-Y) =V(X)+V(Y)-2Cov(X,Y)

Covarianza Establece como dos variables están relacionadas entre sí. La formulación clásica se simboliza por la letra griega sigma (Σ xy ) cuando ha sido calculada en la población. Si se obtiene sobre una muestra, se designa por la letra "Sxy". Tambien resulta factible referirse a ella como Cov(X,Y). La varianza de una variable es la covarianza de dicha variable con ella misma, es decir, Cov(X,X)=Var(X). La covarianza se calcula de la siguiente manera: si Ay y son variables aleatorias discretas y cov(x, Y) = f_(x - /ij(y - Ht )f\x,y)dx dy = r.rmxyf(x,y)dxdy-ni nt si X y Y son variables aleatorias continuas. A.9.3 Propiedades de la covarianza 1. Cov(X,Y)=0 siempre y cuando X y Y son independientes. 2. Cov(a+bX, c+dy)= bd cov(x, Y) donde a, b,c y d son constantes.

A.10 Coeficiente de correlación El coeficiente de correlación (poblacional) ρ (rho) está definido como Cov(X,Y) Cov(X,Y) ρ = = Var(X) Var(Y) σx σ y Mide el grado de asociación lineal entre dos variables y se encuentra entre -1 y + 1, donde -1 indica una perfecta asociación negativa y + 1 indica una perfecta asociación positiva.

A.11 Esperanza condicional Sea f(x,y) la FDP conjunta de las variables aleatorias X y Y. La esperanza condicional de X, dada Y= y, se define como E(X Y = y) = x f(x Y = y) E(X Y = y) = x - x f(x Y = y)dx si X es discreta si X es continua donde E(X Y = y) significa la esperanza condicional de X dado Y = y, y donde f(x Y = y) es la FDP condicional de X. La esperanza condicional de Y, E(Y X = x), está definida en forma similar.

A.12 Momentos superiores de las distribuciones de probabilidad Si bien la media, la varianza y la covarianza son las medidas resumen más frecuentemente utilizadas de las FDP univariadas y multivariadas, en ocasiones se requiere considerar momentos de orden mayor de las FDP, tales como los momentos tercero y cuarto. Los momentos tercero y cuarto de una FDP univariada f(x) alrededor del valor de su media (µ) se definen como: Tercer momento: Cuarto momento: 3 E(X - µ ) 4 E(X - µ ) En general, el momento r-ésimo alrededor de la media se define como: r-ésimo momento: r E(X - µ )

El tercero y cuarto momentos de una distribución se utilizan a menudo para estudiar la "forma de una distribución de probabilidad. En particular, su asimetría, A (es decir, falta de simetría) y su apuntamiento o curtosis C

A.13 DISTRIBUCIONES DE PROBABILIDAD TEÓRICAS IMPORTANTES Distribución normal La más conocida de todas las distribuciones de probabilidad teóricas. Su forma de campana es familiar a cualquiera que tenga un mínimo conocimiento estadístico. Se dice que una v.a. continua X está normalmente distribuida si su FDP tiene la siguiente forma: 1 1 ( x µ ) f ( x) = exp 2 σ 2π 2 σ 2

Propiedades - Simétrica alrededor de la media. - Aprox. 68% del área bajo la curva se encuentra entre µ ± σ 95% del área bajo la curva se encuentra entre µ ± 2σ Regla 99% del área bajo la curva se encuentra entre µ ± 3σ empírica - Depende de los parámetros µ y σ 2. - Si µ=0 y σ 2 =1 se a una FDP de la variable normal estandarizada, denominada por Z, que por convención, se denota como Z~N(0,1), normal estandarizada. 2 2 - Sea X 1 ~ N( µ 1, σ1 ) y X 2 ~ N( µ 2, σ 2 ) y supóngase que son independientes. Considérese ahora la combinación lineal Y = ax 1 + bx 2

donde a y b son constantes. Entonces, Y ~ N[(a µ, + b µ ), (a σ + b σ )] 2 2 2 2 1 2 l 2 Una combinación lineal de variables normalmente distribuidas es normalmente distribuida (puede generalizarse fa una combinación lineal de más de dos variables normalmente distribuidas).

Distribución χ 2 (ji-cuadrada) Sean Z 1, Z 2,,Z k variables normales estandarizadas independientes, se dice que la cantidad Z k = i= 1 Z 2 i sigue la distribución χ 2 con k grados de libertad (g. de l.), donde el término significa el número de cantidades independientes en la suma anterior.

Propiedades de la distribución χ 2 - Es una distribución asimétrica; el grado del asimetría depende de los g. de l. (cuando los g. de l. son comparativamente pocos, la distribución está altamente sesgada hacia la derecha; pero, a medida que el número de g de l. aumenta, la distribución se hace cada vez más simétrica). - La media de la distribución jicuadrada es k y su varianza es 2k, donde k son los g. de l. - Si Z 1 y Z 2 son dos variables jicuadrada independientes con k 1 y k 2 g. de I., entonces la suma Z 1 + Z 2 es también una variable ji-cuadrada con g. de I. = k 1 + k 2.

Distribución t de Student Si Z 1, es una variable normal estandar [es decir, Z 1 ~N(0, 1)], y otra variable Z 2 sigue la distribución ji-cuadrada con k g. de l. y está distribuida independientemente de Z 1, entonces la variable definida como t = Z 2 1 ( Z / k) sigue la distribución t de Student con k g. de l.

Propiedades de la distribución t de Student - Es simétrica, pero es más plana que la normal. Sin embargo, a medida que aumentan los g de I, la distribución t se aproxima a la distribución normal. - La media de la distribución t es cero y su varianza es k / (k-2).

Distribución F Si Z 1 y Z 2 son variables ji-cuadrada distribuidas en forma independiente con k 1, y k 2 g. de l., respectivamente, la variable F = Z Z / k / k 1 1 2 2 sigue la distribución F (de Fisher) con k 1 y k 2 g de l. F k, k Se denota por, donde los subíndices indican los g. de l. asociados 1 2 al numerador y al denominador.

Propiedades de la distribución F Sesgada hacia la derecha pero a medida que k 1 y k 2 aumentan, la distribución F se acerca a la distribución normal. El valor de la media de una variable con distribución F es: k 2 /(k 2-2), el cual está definido para k 2 > 2.

A.14 Estimación