ANÁLISIS DE REGRESIÓN



Documentos relacionados
ANÁLISIS DE REGRESIÓN. Departamento de Matemáticas Universidad de Puerto Rico Recinto Universitario de Mayagüez

Regresión - Correlación

Modelos de Regresión análisis de regresión diagrama de dispersión coeficientes de regresión

Regresión lineal simple

En esta sección estudiaremos el caso en que se usa un solo "Predictor" para predecir la variable de interés ( Y )

Análisis de Regresión

La inferencia estadística es primordialmente de naturaleza

REGRESIÓN LINEAL SIMPLE

5.3 Estadísticas de una distribución frecuencial

1. Introducción 1.1. Análisis de la Relación

-Métodos Estadísticos en Ciencias de la Vida

Introducción a la Inferencia Estadística. Dept. of Marine Science and Applied Biology Jose Jacobo Zubcoff

Análisis de Regresión y Correlación Lineal

Métodos indirectos de estimación: razón, regresión y diferencia

ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

Aproximación a la distribución normal: el Teorema del Límite Central

( ) = 0 entonces ˆ i i. xy x Y Y xy Y x ˆ. β = = β =.(1) Propiedades Estadísticas de los estimadores MICO. Linealidad.

Signif. codes: 0 *** ** 0.01 *

Estadística. Tema 6: Análisis de Regresión.. Estadística. UNITEC Tema 6: Análisis de Regresión Prof. L. Lugo

Aplicación de Boostrapping en Regresión I

TEMA 3. Medidas de variabilidad y asimetría. - X mín. X máx

Estadística Descriptiva

CONTRASTES NO PARAMÉTRICOS: BONDAD DEL AJUSTE Y TABLAS DE CONTINGENCIA

V II Muestreo por Conglomerados

GRADO EN PSICOLOGIA INTRODUCCIÓN AL ANÁLISIS DE DATOS Código Asignatura: FEBRERO 2010 EXAMEN MODELO A

ESTADÍSTICA poblaciones

Estadística. Tema 2: Medidas de Tendencia Central.. Estadística. UNITEC Tema 2: Medidas de Tendencia Central Prof. L. Lugo

Tema 2: El modelo básico de regresión lineal múltiple (I)

MEDIDAS DE TENDENCIA CENTRAL

Modelo Lineal Simple. Clase 02. Profesor: Carlos R. Pitta. ICPM050, Econometría. Universidad Austral de Chile Escuela de Ingeniería Comercial

Soluciones de los ejercicios de Selectividad sobre Inferencia Estadística de Matemáticas Aplicadas a las Ciencias Sociales II

Cálculo y EstadísTICa. Primer Semestre.

Nociones de Estadística

Tema 2: Distribuciones bidimensionales

Los Histogramas. Histograma simple

PARÁMETROS ESTADÍSTICOS ... N

SEMESTRE DURACIÓN MÁXIMA 2.5 HORAS DICIEMBRE 10 DE 2008 NOMBRE

MODELOS DE REGRESIÓN LINEALES Y NO LINEALES: SU

TRABAJO 2: Variables Estadísticas Bidimensionales (Tema 2).

02 ) 2 0 en el resto. Tiempo (meses) Ventilador adicional No No Si No Si Si Si Si No Si Tipo carcasa A C B A B A B C B C

ANÁLISIS DE LA VARIANZA ANOVA COMPARACIONES MULTIPLES ENTRE MEDIAS MUESTRALES

Medidas de Tendencia Central

Identificación de Valores Atípicos

Calificación= (0,4 x Aciertos) - (0,2 x Errores) No debe entregar los enunciados

VARIABLE ALEATORIA Y FUNCIÓN DE DISTRIBUCIÓN

1 DISTRIBUCIONES DE PROBABILIDAD DE VARIABLE DISCRETA. LA BINOMIAL

1 Estadística. Profesora María Durbán

UNIDAD 14.- Distribuciones bidimensionales. Correlación y regresión (tema 14 del libro)

(Véase el Ejercicio 13 Beneficio de los bancos )

PROBABILIDAD Y ESTADISTICA

C URVA DE L ORENZ C OEFICIENTE DE D ESIGUALDAD DE G INI

ANalysis Of VAriance ANOVA Análisis de la Varianza. Teresa Villagarcía

ERRORES EN LAS MEDIDAS (Conceptos elementales)

INGENIERÍA INDUSTRIAL DISEÑO EXPERIMENTAL LEOPOLDO VIVEROS ROSAS

Inferencia Estadística

Especialista en Estadística y Docencia Universitaria PRUEBAS DE NORMALIDAD MÉTODO DE KOLMOGOROV SMIRNOV

Estadística Descriptiva

MÉTODOS ESTADÍSTICOS PARA EL CONTROL DE CALIDAD

TEMA 14.- EL MODELO DE REGRESIÓN LINEAL SIMPLE

PRÁCTICA 13: PRUEBA DE HIPÓTESIS DE BONDAD DE AJUSTE E INDEPENDENCIA

I. ANÁLISIS DESCRIPTIVO DE UN CONJUNTO DE DATOS

3 Metodología de determinación del valor del agua cruda

PARTE SEGUNDA: INFERENCIA ESTADÍSTICA

Respuesta. Si 100 manzanas es una muestra suficientemente grande podemos ocupar el TCL. Por lo tanto:

DISTRIBUCIÓN DE LA MEDIA Y EL TEOREMA DEL LÍMITE CENTRAL

Análisis Numérico y Programación. Unidad III. -Interpolación mediante trazadores: Lineales, cuadráticos y cúbicos

CÁLCULO Y COMENTARIOS SOBRE ALGUNAS MEDIDAS DESCRIPTIVAS. de una variable X, la denotaremos por x y la calcularemos mediante la fórmula:

CURSO PROBABILIDAD Y ESTADISTICAS FMS175 PROFESOR RODOLFO TORO DEPARTAMENTO DE FISICA Y MATEMATICAS UNIVERSIDAD NACIONAL ANDRES BELLO

VARIABLES ESTADÍSTICAS UNIDIMENSIONALES.

Regresión Simple. Resumen. Ejemplo de StatFolio: simple reg.sgp

Transcripción:

ANÁLISIS DE REGRESIÓN Feradez Departameto de Matemátcas Uversdad de Puerto Rco Recto Uverstaro de Mayagüez

REGRESIÓN LINEAL SIMPLE Regresó: cojuto de téccas que so usadas para establecer ua relacó etre ua varable cuattatva llamada varable depedete y ua o más varables depedetes, llamadas predctoras. Estas debe ser por lo geeral cuattatvas, s embargo usar predctoras que so cualtatvas es permsble. Cuado hay solo ua predctora se llama regreso smple. Modelo de regresó. Ecuacó que represeta la relacó etre las varables. Cuado el modelo es leal se llama regreso leal Para estmar la ecuacó del modelo se debe teer ua muestra de etreameto. Aalss de Regreso Eero, 03

Ejemplo NACION %INMUNIZACION TASA_mor "Bolva" 77 8 "Brazl" 69 65 3 "Camboda" 3 84 4 "Caada" 85 8 5 "Cha" 94 43 6 "Czech_Republc" 99 7 "Egypt" 89 55 8 "Ethopa" 3 08 9 "Flad" 95 7 0 "Frace" 95 9 "Greece" 54 9 "Ida" 89 4 3 "Italy" 95 0 4 "Japa" 87 6 5 "Mexco" 9 33 6 "Polad" 98 6 7 "Russa_Federato" 73 3 8 "Seegal" 47 45 9 "Turkey" 76 87 0 "Uted_Kgdom" 90 9 Aalss de Regreso Eero, 03

Relaco de la tasa de mortaldad co el porcetaje de muzaco Ethopa Camboda Seegal Turkey Brazl Greece Russa_Federato Caada Japa Uted_Kgdom Bolva Ida Egypt Cha Mexco Flad Frace Italy Polad Czech_Republ 0 50 00 50 00 0 40 60 80 00 porcetaje de muzaco Aalss de Regreso Eero, 03 tasa de mortaldad

Ejemplo de ua lea de Regreso Relaco de la tasa de mortaldad co el porcetaje de muzaco Ethopa Camboda Seegal Turkey Brazl Greece Russa_Federato Caada Japa Uted_Kgdom Bolva Ida Egypt Cha Mexco y^ = 4.363 + -.35869x Flad Frace Italy Polad Czech_Republ tasa de mortaldad 0 50 00 50 00 0 40 60 80 00 porcetaje de muzaco Aalss de Regreso Eero, 03

..Usos del aálss de regresó a Predccó b Descrpcó c Cotrol d Seleccó de varables Aalss de Regreso Eero, 03

. El modelo de Regresó Leal smple Y = α + βx + ε Cosderado la muestra (X,Y para =, Y = α + βx + e Suposcoes del modelo: La varable predctora X es o aleatora Los errores e so varables aleatoras co meda 0 y varaza costate σ. Los errores y ( j=, so depedetes etre s e e j Aalss de Regreso Eero, 03

..Estmacó de la líea de regresó usado Mímos Cuadrados Se debe Mmzar Q( α,β = e = = ( y α βx Dervado parcalmete co respecto a α y β se obtee u par de ecuacoes ormales para el modelo, cuya soluco produce ˆβ x y = = = = = x ( x = = x y αˆ = y βx ˆ O equvaletemete Aalss de Regreso Eero, 03 βˆ = S S xy xx

.. Iterpretacó de los coefcetes de regresó estmados La pedete dca el cambo promedo e la varable de respuesta cuado la varable predctora aumeta e ua udad adcoal. β El tercepto α dca el valor promedo de la varable de respuesta cuado la varable predctora vale 0. S embargo carece de terpretacó práctca s es rrazoable cosderar que el rago de valores de x cluye a cero. Aalss de Regreso Eero, 03

..3 Propedades de los estmadores mímos cuadrátcos de regresó a β es u estmador segado de β. Es decr, E( β =β b α es u estmador segado de α. Es decr, E( α =α c La varaza de es y la de es σ ( + x Sxx β σ α Sxx Aalss de Regreso Eero, 03

..4 Dstrbucó de los estmadores mímos cuadrátcos Para efecto de hacer fereca e regresó, se requere asumr que los errores e, se dstrbuye e forma ormal e depedetemete co meda 0 y varaza costate σ. E cosecueca, també las y ' s se dstrbuye ormalmete co meda α + βx y varaza σ. Se puede establecer que: ˆ ~ N(, σ x β β ˆ α ~ N ( α,( + σ S xx S xx Aalss de Regreso Eero, 03

..5 Propedades de los resduales Los resduales so las desvacoes de los valores observados de la varables de respuesta co respecto a la líea de regresó. a La suma de los resduales es 0. Es decr, = r = 0 b = r x = 0 c = r y = 0 Aalss de Regreso Eero, 03

..7 Descomposcó de la suma de cuadrados total La desvaco de u valor observado de la varable de respuesta co respecto a su meda se puede escrbr como: ( y y = ( y y + ( y y = ( y y = ( y y = + = ( y y SST = SSE + SSR Se puede deducr que SSR = ˆβ = ( x x Aalss de Regreso Eero, 03

Se puede demostrar que: E( SSR = E( ˆ β S xx = σ + β S xx Las sumas de cuadrados so formas cuadrátcas del vector aleatoro Y y por lo tato se dstrbuye como ua J-cuadrado. Se puede establecer los sguetes resultados: SST (J-Cuadrado o cetral co - g.l ~ χ' ( σ SSE σ SSR σ χ ~ ( ~ χ ' ( Equvaletemete ( s σ (J-Cuadrado o cetral co g.l ~ χ ( Aalss de Regreso Eero, 03

Aalss de Regreso Eero, 03..6 Estmacó de la varaza del error U estmador sesgado de es: σ ( = = = = r y y s s es tambe llamado el cuadrado medo del error (MSE

..8 El Coefcete de Determacó R Es ua medda de la bodad de ajuste del modelo R = SSR SST * 00 % U modelo de regreso co mayor o gual a 75% se puede cosderar bastate aceptable. Nota: El valor de R es afectado por la preseca de valores aormales. R Aalss de Regreso Eero, 03

.3 Ifereca e Regreso Leal Smple Pruebas de hpótess e tervalos de cofaza acerca de los coefcetes de regresó del modelo de regresó poblacoal. Itervalos de cofaza para u valor predcho y para el valor medo de la varable de respuesta Aalss de Regreso Eero, 03

.3. Ifereca acerca de la pedete y el tercepto usado la prueba t. La pedete de regresó se dstrbuye como ua ormal co σ meda β y varaza Sxx U tervalo de cofaza del 00(-α% para la pedete poblacoal β es de la forma: s ( β t(, α /, β + t(, α / Sxx s Sxx Dode α represeta el vel de sgfcacó. Aalss de Regreso Eero, 03

Itervalo de cofaza para el tercepto α U tervalo de cofaza del 00(-α% para el tercepto α de la lea de regresó poblacoal es de la forma: ( α t x, α + Sxx (, α / s + t(, α / s + x Sxx Aalss de Regreso Eero, 03

Pruebas de hpótess para la pedete β (asumedo que su valor es β* Caso I Caso II Caso III Ho: β=β* Ho: β=β* Ho: β=β* Ha: β<β* Ha: β β* Ha: β>β* Prueba Estadístca t β β * s = ( Sxx Regla de Decsó Rechazar Ho, Rechazar Ho Rechazar Ho s tcal<-t(α,- s tcal >t(α/,- s tcal>t(α,- *U P-value cercao a cero sugere rechazar la hpótess ula. ~ t Aalss de Regreso Eero, 03

.3. El aálss de varaza para regresó leal smple El aálss de varaza para regresó cosste e descompoer la varacó total de la varable de respuesta e varas partes llamadas fuetes de varacó. La dvsó de la suma de cuadrados por sus grados de lbertad es llamada cuadrado medo. Así se tee tres cuadrados medos. Cuadrado Medo de Regresó=MSR=SSR/ Cuadrado Medo del Error= MSE=SSE/(- Cuadrado Medo del Total=MST=SST/(- Aalss de Regreso Eero, 03

Tabla de Aálss de Varaza Fuete de Varacó g.l. Sumas de Cuadrados Cuadrados Medos F Debdo a la Regreso SSR MSR=SSR/ MSR Error - SSE MSE=SSE/(- MSE Total - SST Se rechazaría la hpótess ula Ho:β=0 s el P-value de la prueba de F es meor de 0.05 Aalss de Regreso Eero, 03

Itervalo de cofaza para el valor medo de la varable de respuesta e Itervalo de Predccó Queremos predecr el valor medo de las Y para u valor x 0 de la varable predctora x. E( Y/ x = x0 =α + βx El estmador atural es Yˆ = α ˆ + βˆ x o o Como las Y s se dstrbuye ormalmete, etoces també Ŷ se dstrbuye ormalmete co o meda E(Y/X=xoy varaza gual a: 0 Var( Yˆ 0 = σ ( + ( x 0 x Sxx Aalss de Regreso Eero, 03

Itervalo de cofaza (cot U tervalo de cofaza del 00(- α% para el valor medo de las y s dado que x=x0 es de la forma: ˆ α ˆ βx Trabajado co la dfereca E se tee Luego el tervalo de predccó para u valor dvdual de Y dado x=x0 es de la forma ± t + 0 ( α /, Y ˆ 0 Y = ( 0 0 ˆ α s ˆ βx + ± t ( x 0 x Sxx Var( Y + 0 ( α /, 0 Y Yˆ 0 Yˆ s 0 + 0 = σ ( + + ( x0 x + Sxx ( x 0 x Sxx Aalss de Regreso Eero, 03

.4 El Coefcete de Correlacó Mde el grado de asocacó leal etre las varables X y Y y se defe como: ρ = a ρ b La meda codcoal de Y dado X es E( Y / X =α + βx, σ y dode: β = ρ y σ Cov( X, Y σ σ x y α = μ y βμ x c La varaza codcoal de las Y dado X, está dado por σ / σ ( ρ y x = y S etoces (perfecta relacó leal. σ y / x = ρ = ± 0 x Aalss de Regreso Eero, 03

Coefcete de correlacó muestral Cosderado ua muestra de pares (x,y Notar que: r = β r = Sxx Syy Sxy SxxSyy β Sxx r = = Syy SSR SST El cuadrado del coefcete de correlacó es gual al coefcete de determacó. Aalss de Regreso Eero, 03

.5 Aálss de resduales Los resduales, so estmacoes de los errores del modelo y srve para establecer s las suposcoes del modelo se cumple y para explorar el porqué de u mal ajuste del modelo. Podemos ver: S la dstrbucó de los errores es ormal y s outlers. S la varaza de los errores es costate y s se requere trasformacoes de las varables. S la relacó etre las varables es efectvamete leal o preseta algú tpo de curvatura S hay depedeca de los errores, especalmete e el caso de que la varable predctora sea tempo. Aalss de Regreso Eero, 03

Tpos de resduales Resdual Estadarzado, se dvde el resdual etre la desvacó estádar del error. Es decr, y y Resdual Estudetzado, se dvde el resdual etre su desvacó estádar estmada. Es decr, s s ( y y ( x x Sxx Aalss de Regreso Eero, 03

.5. Cotejado ormaldad de los errores y detectado outlers La ormaldad de los errores es u requsto dspesable para que tega valdez las pruebas estadístcas de t y F que se usa e regresó. La maera más fácl es usado gráfcas tales como: hstogramas, stem-ad-leaf o Boxplots. El plot de Normaldad, plotea los resduales versus los scores ormales ( valores que se esperaría s exstera ormaldad. Aalss de Regreso Eero, 03

.5. Cotejado que la varaza sea costate Se plotea los resduales estadarzados versus los valores ajustados o versus la varable predctora X. S los putos del plot cae e ua fraja horzotal alrededor de 0 etoces la varaza es costate. S los putos sgue algú patró etoces se dce que la varaza o es costate. Nota: Se debe teer cudado co la preseca de outlers. Aalss de Regreso Eero, 03

.5.3 Cotejado s los errores esta correlacoados. Cuado la varable predctora es tempo, puede ocurrr que los errores este correlacoados secuecalmete etre s. Prueba de Durb-Watso, mde el grado de correlacó de u error co el ateror y el posteror a él. Estadístco D ( e = = = e e D varía etre 0 y 4. S D esta cerca de 0 los errores está correlacoados postvamete. S D está cerca de 4 etoces la correlacó es egatva. La dstrbucó de D es smétrca co respecto a. Así que u valor de D cercao a dca que o hay correlacó de los errores. Aalss de Regreso Eero, 03