Análisis de Regresión

Documentos relacionados
Técnicas Cuantitativas para el Management y los Negocios

Análisis de Regresión y Correlación con MINITAB

Ejemplos del Suplemento 1 resueltos con Minitab

9. REGRESIÓN LINEAL. Dr. Edgar Acuña UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

CAPÍTULO 5: ANÁLISIS ESTADÍSTICOS DE LOS DATOS OBTENIDOS. El primer paso a efectuar fue la transformación de los datos obtenidos a la variable de

APÉNDICE B ANOVA para las salsas comerciales

ACTIVIDAD 5: Correlación y Regresión Lineal

Segunda práctica de REGRESIÓN.

Viernes 7 de octubre de 2005 Mate 3026 Estadística con Programación Prof. José N. Díaz Caraballo

Análisis de datos del Aguacate Hass (presentación caja 10 kilogramos)

Tercera práctica de REGRESIÓN.

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

ANEXO 8 Pronóstico de ventas. Para realizar los pronósticos de venta del nuevo punto de venta, se utilizó lo que se

Tema 1.- Correlación Lineal

Exactitud y Linearidad del Calibrador

10. DISEÑOS EXPERIMENTALES

SESIÓN PRÁCTICA 7: REGRESION LINEAL SIMPLE PROBABILIDAD Y ESTADÍSTICA. PROF. Esther González Sánchez. Departamento de Informática y Sistemas

REGRESIÓN LINEAL SIMPLE, COEFICIENTE DE DETERMINACIÓN Y CORRELACIONES (EJERCICIOS RESUELTOS)

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA ESCUELA DE CIENCIAS AGRICOLA, PECUARIAS Y DEL MEDIO AMBIENTE ECAPMA

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Marzo 2012

Lean Six Sigma UNA METODOLOGÍA CLAVE PARA LA COMPETITIVIDAD EMPRESARIAL. Ing. Adrián Gabriele Noviembre de 2013

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Tema 5. Análisis de regresión (segunda parte) Estadística II, 2010/11

DISEÑO DE EXPERIMENTOS (PARTE I) CURSO DE APLICACIÓN DE LOS MÉTODOS ESTADÍSTICOS A LA CALIDAD MÓDULO 9

Diplomatura en Ciencias Empresariales X Y

Measurement System Analysis 3rd. Editión. P. Reyes / Mayo 2003

Estadística II Tema 4. Regresión lineal simple. Curso 2010/11

Estadística Industrial. Universidad Carlos III de Madrid Series temporales Práctica 5

La representación gráfica de una función cuadrática es una parábola.

Mejoramiento de Procesos por medio de toma de decisiones basada en datos con MINITAB (Complemento)

Escuela Superior de Ingenieros de San Sebastián Universidad de Navarra GUÍA DE MINITAB 14

DIPLOMADO SIX SIGMA BLACK BELT

Explorando la ecuación de la recta pendiente intercepto

OPTIMIZACIÓN EXPERIMENTAL. Ing. José Luis Zamorano E.

MÓDULO 1: GESTIÓN DE CARTERAS

Laboratorio de Física para Ingeniería

1. Distribución Normal estándar

CAPÍTULO 10 DISEÑOS EXPERIMENTALES

PRÁCTICA No. 2 FORMA POLAR DE UN NUMERO COMPLEJO. Otra forma de expresar un número complejo es la forma polar o forma módulo-argumento,

Inecuaciones: Actividades de recuperación.

Esta expresión polinómica puede expresarse como una expresión matricial de la forma; a 11 a 12 a 1n x 1 x 2 q(x 1, x 2,, x n ) = (x 1, x 2,, x n )

MULTICOLINEALIDAD Y OBSERVACIONES ATÍPICAS

GIMNASIO VIRTUAL SAN FRANCISCO JAVIER Valores y Tecnología para la Formación Integral del Ser Humano UNIDAD I FUNCIONES

SUPERFICIES CUÁDRICAS

Profesorado de Nivel Medio y Superior en Biología Matemática - 1º Cuatrimestre Año 2013 FUNCIÓN CUADRÁTICA

En la notación C(3) se indica el valor de la cuenta para 3 kilowatts-hora: C(3) = 60 (3) = 1.253

FICHA DE REPASO: ESTADÍSTICA

DEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM

Regresión con variables independientes cualitativas

Regresión Polinomial. StatFolio de Ejemplo: polynomial reg.sgp

1.3.- V A L O R A B S O L U T O

Tema 2. Descripción Conjunta de Varias Variables

Curso: Especialista en Seis Sigma. Seis. Sigma. Ruimonte y Asociados Consultores

Funciones: Aspectos básicos

OPTIMIZACIÓN VECTORIAL

Función cuadrática. Ecuación de segundo grado completa

Se asignaron al azar ratas en condiciones similares a cuatro dietas (A D). Dos semanas después se midió el tiempo de coagulación.

v = V max[s] K m +[S]

Variables aleatorias

CONTINUIDAD DE FUNCIONES. SECCIONES A. Definición de función continua. B. Propiedades de las funciones continuas. C. Ejercicios propuestos.

EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I.

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

Introducción a Minitab 17

Kaizen Sigma Consulting. MINITAB Release 14 Software Estadístico CONTENIDO: PRESENTACION DE LOS PARTICIPANTES. Objetivo:

18 Experimentos aleatorios. Sucesos y espacio muestral. Frecuencia y probabilidad de un suceso.

Algebra lineal y conjuntos convexos

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Cálculo de la Tasa de Fisher

NOCIONES PRELIMINARES (*) 1

SERIES TEMPORALES. Autores: Manuel Terrádez Ángel A. Juan Series Temporales. Análisis de la tendencia

Multiple Linear Regression

T0. TRANSFORMADAS DE LAPLACE

Función lineal Ecuación de la recta

MATEMÁTICAS 2º DE ESO

Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION.

UNIDAD 6. Estadística

LEAN SIX SIGMA YELLOW BELT

Matemáticas Avanzadas I

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

TRABAJO PRÁCTICO ESTADISTICA APLICADA (746)

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Planeación de la Recolección de Datos. Planeacion de Recoleccion de Datos

LA ECUACIÓN CUADRÁTICA

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Teorema Central del Límite (1)

II. ANÁLISIS DE SISTEMAS DE MEDICIÓN

ESTADÍSTICA. Tema 4 Regresión lineal simple

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

Estadística descriptiva y métodos diagnósticos

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

Gráfico de Dispersión de Notas en la Prueba 1 versus Notas en la Prueba Final Acumulativa de un curso de 25 alumnos de Estadística en la UTAL

Curso de Inducción de Matemáticas

CENTRO REGIONAL UNIVERSITARIO BARILOCHE TALLER DE MATEMATICA INGRESO 2016 LIC. ENFERMERÍA PRACTICO UNIDAD 3

Estadística Inferencial. Estadística Descriptiva

Diseño de Experimentos para la Evaluación de un Algoritmo Genético de Programación de Producción

USO HERRAMIENTAS EXCEL PARA LA PREDICCION

Pruebas de Hipótesis Multiples

Transcripción:

Análisis de Regresión Diplomado en Lean Six Sigma

Objetivo 1.Identificar problemas que incluyan una Y continua y una X continua 2. Entender la diferencia entre regresión lineal y no lineal 3. Ajustar modelos utilizando la técnica de mínimos cuadrados. 4. Entender el significado de R y R 2. 5. Entender y desarrollar análisis de residuales.

Matriz de selección de herramientas Factor (X) VARIABLE ATRIBUTO Respuesta (Y) VARIABLE ANÁLISIS DE REGRESIÓN ANOVA, PRUEBA T, ALTERNATIVAS NO PARAMÉTRICAS ATRIBUTO REGRESIÓN LOGÍSTICA CHI CUADRADA, PRUEBAS DE PROPORCIONES Esta es nuestra área de interés

Al trabajar con datos variables (continuos), es de interés cuantificar la relación (si existe) entre ellas. La ventaja de utilizar datos continuos para el análisis, es la posibilidad de definir un modelo matemático adecuado. Esto se hace mediante técnicas de estimación mediante mínimos cuadrados, mejor conocido como análisis de regresión. De nuevo, todo se trata de relaciones!!!

Las técnicas de regresión nos permite predecir valores de cierta variable Y (variable dependiente), la cual se sospecha tiene relación con otra variable X (independiente). La intención es cuantificar la relación: Y = F(x) la cual es la ecuación de regresión que cuantifica la relación entre ambas variables.

Dese un punto de vista gráfico, el análisis de regresión comienza con un diagrama de dispersión. Dos variables continuas se grafican una contra otra para definir si existe correlación entre ambas. 80 Altura del hijo 75 70 65 60 60 65 70 75 80 Altura del padre

Y=Millas por galón (mpg) 30 2 01 0 0.5 1 1.5 2 X=Peso del auto (tons) Y=Estatura de los hijos 80 6 04 0 60 70 80 X=Estatura de los padres (pulgs) Y=calif. (de 100%) 80 6 04 0 0.5 1 1.5 X=Tiempo 2 de estudio (hr) Y=Precio de venta 35 (miles) 2 5 1 6 14 22 30 X=Edad del auto 7 Y=Precio de casa ($) 15k 20k 35k 40k X=metros cuadrados Y=Ventas $ (millones) 30 2 01 0 0.5 1 1.5 2 X=Promoción $(Millones)

La correlación es la medida de que tan fuerte es la relación entre dos o más variables. El coeficiente de correlación varía de -1 a 1, definiendo una correlación negativa y una positiva, pasando por cero que significa sin correlación. 80 75 70 65 60 60 65 70 75 80 Correlación positiva 1550 1450 1350 1250 1150 1050 950 850 750 650 (min.) 50 40 30 20 10 0 85 90 95 100 105 60 65 70 75 80 Correlación negativa Sin correlación 110

El método de mínimos cuadrados trata de ajustar la mejor curva que minimice el error entre los puntos dispersos. 80 75 70 65 Y = f(x) Lineal, cuadrática, cúbica, logarítmica, etc. 60 60 65 70 75 80

El modelo más simple es la función lineal. El modelo lineal trata de ajustar una línea recta: Pendiente Ordenada al origen Variable dependiente (pronóstico) y ax b Variable independiente En estadística el concepto es el mismo, solo cambia la nomenclatura: Constante Coeficiente Estimado yˆ 0 1 x Variable de regresión

Las fórmulas para definir el modelo de regresión son(solo mostramos en caso para una sola variable, conocido como regresión simple): n (x i x)(y i y) SS i 1 xy 1 n 2 SSxx (x x) i i 1 yˆ 0 1 x Qué tan bueno es BUENO al ajustar los datos? 0 y 1 x

yˆ 0 1 x Un modelo de regresión es bueno dependiendo de que tan bien describe la variación entre dos variables. El coeficiente de correlación (R) indica que tan pronunciada es la pendiente. El cuadrado de la correlación indica que tanta variación (cambios en la Y) puede ser explicado por las variables de regresión. SS (y i yˆi ) R 2 error 1 1 SS i 1 yy (y y) n n i i 1 Y de nuevo, la decisión si el modelo descriptivo es bueno la haremos mediante el uso de una tabla de ANOVA (para lo que utilizaremos MINITAB). 2 2

Experiencia Entrevistas 15 4 41 9 58 12 18 6 37 8 52 10 28 6 24 5 45 10 33 7 Un gerente de mercadeo que conduce un estudio de mercado, desea predecir el número de entrevistas (cuestionarios) que puede levantar dados los entrevistadores. El piensa que el número de cuestionarios depende de la experiencia del entrevistador (en años). Toma una muestra de 10 entrevistadores para el análisis. Tiene la experiencia influencia real en el número de cuestionarios aplicados? Y = # entrevistas* X = Experiencia en semanas *RDD: Si una variable discreta tiene más de 5 niveles, puede tratarse como una variable continua. Por qué??

Usando Minitab: Stat>Regression>Fit Regression Model

Indica la Y Indica la X Selecciona Storage

Selecciona que guarde los residuales......y los valores ajustados (fits) Selecciona O.K. dos veces

Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 54.596 54.5961 124.65 0.000 Experiencia 1 54.596 54.5961 124.65 0.000 Error 8 3.504 0.4380 Total 9 58.100 Model Summary S R-sq R-sq(adj) R-sq(pred) 0.661804 93.97% 93.22% 89.83% 1. Busca la significancia en la relación Si el valor de p es mayor a 0.05, no es necesario continuar dado que no existe relación entre ambas variables. Un valor menor a 0.05 indica una relación significativa entre las variables (como en este caso).

Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 1.622 0.583 2.78 0.024 Experiencia 0.1732 0.0155 11.16 0.000 1.00 2. Busca significancia en la constante y forma el modelo Si el valor de p de la constante es mayor a 0.05, significa que no ayuda a ajustar correctamente el modelo y puede ser despreciada en el mismo. Si es menor a 0.05 entonces se mantiene en el modelo. El modelo queda como: Entrevistas 1.622 0.173Experiencia

Model Summary S R-sq R-sq(adj) R-sq(pred) 0.661804 93.97% 93.22% 89.83% 3. Revisa la cantidad de variación descrita por el modelo (R-sq) R 2 =0.9396 o sea que el modelo explica el 94% de la variación en el número de entrevistas. Para decir que el modelo es adecuado nos gustaría ver un valor de R-sq mayor al 80%, algo menor significa que existen otras variables afectando el proceso.

Para ver la regresión en forma gráfica, utilizamos el fitted line plot: Indica la Y y la X y luego O.K.: Stat>Regression>Fitted Line Plot Nota: Esto lo hace Minitab solo con regresión simple.

Experience Regresión 60 50 Fitted Line Plot Experience = - 6.687 + 5.427 No. interviews S 3.70496 R-Sq 94.0% R-Sq(adj) 93.2% 40 30 20 10 3 4 5 6 7 8 9 No. interviews 10 11 12 Ahora podemos ver la gráfica de regresión, notas la línea ajustada (pronósticos) como se acerca a los datos originales?. El modelo aparenta ser bueno, pero aún no terminamos. Tenemos que hacer un estudio de residuales.

Experience Regresión 60 50 40 30 20 10 3 e i 4 5 Fitted Line Plot Experience = - 6.687 + 5.427 No. interviews 6 7 8 9 No. interviews 10 11 12 S 3.70496 R-Sq 94.0% R-Sq(adj) 93.2% Los errores residuales (e i ) son la diferencia que existe entre el valor real, y el valor ajustado por el modelo. Los residuales son consecuencia de la falta de ajuste del modelo. Los residuales dan información sobre la validez del modelo, por eso hay que analizarlos.

Los residuales son el resultado de substraer el valor observado menos el valor pronosticado (error del modelo) Estos vienen de utilizar el modelo con los valores originales de X. 4. Revisa los residuales: Normalidad delos residuales (consistencia del estudio) Estabilidad de los residuales Independencia de los residuales vs. valores ajustados (adecuidad del modelo) Si estos supuestos no se cumplen, sin importar el valor de R 2, el modelo no es adecuado para predecir la Y..

Probability Normal Probability Plot Regresión Stat>Basic Statistics>Normality Tests.999.99.95.80.50.20.05.01.001 Average: -0.0000000 StDev: 0.623954 N: 10-0.5 0.0 RESI1 0.5 1.0 Anderson-Darling Normality Test A-Squared: 0.231 P-Value: 0.734 Busca el valor de P Al graficar sobre papel normalidad, se debe formar aproximadamente una línea recta. Aplicando pruebas de normalidad debemos apreciar una valor de p mayor a 0.05. Si esto no se cumple, puede deberse a problemas con el sistema de medición, condiciones del muestreo o a una relación no lineal. Algunas veces, se utiliza una transformación logarítmica en la Y para forzar la normalidad en los residuales.

Individual Value Regresión Stat>Control Charts>Individuals 2 1 I Chart for RESI1 UCL=1.808 0 Mean=-3.4E-15-1 -2 0 1 2 3 4 5 6 7 8 9 10 Observation Number LCL=-1.808 La estabilidad de los residuales se valida observando el comportamiento de los residuales según su orden (se aprecia mejor usando una gráfica de control). Se busca que no haya puntos fuera de los límites o tendencias. Inestabilidad en los residuales denota variación en la recolección de los datos. Se deben identificar causas especiales de variación.

RESI1 Regresión Graphs>Plot Los puntos deben estar dispersos sin un patrón específico 1 0-1 4 5 6 7 8 9 FITS1 10 11 12 Buscar independencia entre los residuales y los valores ajustados, nos ayuda a definir si el modelo es adecuado o no. Si se aprecia un patrón(como un embudo, curvas con diferentes jorobas, etc.) entonces se debe seleccionar otro modelo como cuadrático, cúbico o de otro tipo.

Minitab también puede sacar todas las gráficas al mismo tiempo: Stat>Regression>Regression> Graphs>Four in One

Frequency Residual Percent Residual Regresión Residual Plots for No. interviews Normal Probability Plot of the Residuals 99 Residuals Versus the Fitted Values 90 50 1.0 0.5 0.0 10-0.5 1-1 0 Residual 1-1.0 4 6 8 Fitted Value 10 12 3 Histogram of the Residuals 1.0 Residuals Versus the Order of the Data 2 0.5 1 0.0-0.5 0-1.0-0.5 0.0 0.5 Residual 1.0 1.5-1.0 1 2 3 4 5 6 7 8 Observation Order 9 10

Ejemplo Trabajando en un proyecto para reducir los costos de mantenimiento, el ingeniero del área desea saber si la eficiencia de un motor depende de su velocidad en rpm s. Ajusta el modelo más apropiado y determina su validez.

Ejemplo Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 0.29991 0.299914 269.10 0.000 X 1 0.29991 0.299914 269.10 0.000 Error 18 0.02006 0.001115 Total 19 0.31998 Model Summary S R-sq R-sq(adj) R-sq(pred) 0.0333843 93.73% 93.38% 92.01% La velocidad es significativa! El ajuste se ve bien (94%) Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 1.0480 0.0162 64.77 0.000 X -0.03958 0.00241-16.40 0.000 1.00 Regression Equation Y(%) = 1.0480-0.03958 X

Frequency Residual Percent Residual Ejemplo Tienden a ser normales, O.K. 99 90 50 10 4.8 3.6 2.4 1.2 0.0 Normal Probability Plot of the Residuals 1-0.08-0.04 0.00 Residual 0.04 Histogram of the Residuals -0.06-0.04-0.02 0.00 0.02 0.04 Residual Residual Plots for Y(%) 0.08 0.050 0.025 0.000-0.025-0.050 0.050 0.025 0.000-0.025-0.050 0.6 Razonablemente estables. Residuals Versus the Fitted Values 0.7 0.8 Fitted Value 0.9 1.0 Residuals Versus the Order of the Data 2 4 6 8 10 12 14 16 18 20 Observation Order Podemos apreciar un patrón entre los residuales y los valores ajustados. Esto nos indica que la relación no es lineal. Debemos ajustar otro modelo tal como el cuadrático, cúbico, etc. Ahora qué????

Ejemplo Al ajustar modelos no lineales, debemos seleccionar otro tipo de modelos tales como: cuadrático 2 yˆ 0 1 x 2 x o cúbico Debemos indicar a Minitab el modelo necesitado. yˆ x x 2 x 3 0 1 2 3

Ejemplo Es básicamente lo mismo, solo hay que seleccionar el modelo buscado (en la sección de OPTIONS podemos encontrar las transformaciones logarítmicas).

The regression equation is Y(%) = 0.953603 + 0.0030173 X - 0.0035365 X**2 S = 0.0141553 R-Sq = 98.9 % Ejemplo Mejoró la R 2 R-Sq(adj) = 98.8 % Analysis of Variance Source Regression Error Total DF SS 2 0.316569 17 0.003406 19 0.319975 MS 0.158284 0.000200 Source DF Seq SS F P Linear 1 0.299914 269.100 0.000 Quadratic 1 0.016655 83.119 0.000 F P 789.950 0.000 Ambos componentes son necesarios en el modelo Nuestro modelo es: yˆ 0.9536 0.0030173x 0.0035x 2 No olvides los residuales!!!

Frequency Residual Percent Residual Ejemplo Residual Plots for Y(%) La normalidad y estabilidad aún son buenas Normal Probability Plot of the Residuals 99 90 50 10 Residuals Versus the Fitted Values 0.02 0.00-0.02 1-0.04-0.02 0.00 0.0 0.04 0.6 0.7 0.8 0.9 1.0 Residual 2 Fitted Value 4.8 Histogram of the Residuals 0.02 Residuals Versus the Order of the Data 3.6 2.4 1.2 0.00-0.02 0.0-0.02-0.01 0.00 0.01 0.02 2 4 6 8 10 12 14 16 18 Residual 20 Observation Order Gran mejora en la independencia, el modelo cuadrático es adecuado.

Y(%) Ejemplo Fitted Line Plot Y(%) = 0.9536 + 0.003017 X - 0.003537 X**2 1.0 0.9 S 0.0141553 R-Sq 98.9% R-Sq(adj) 98.8% 0.8 0.7 0.6 0.5 0 2 4 6 X 8 10 12 El ajuste es muy bueno. Tenemos un buen modelo.

Que nos queda... 1.Planea el estudio para asegurar aleatoriedad, imparcialidad y un rango amplio para variación de la X y de la Y. 2. Recolecta buenos datos. 3.Evalúa por significancia de cada X por su valor de p y cuestiona la lógica de la magnitud del coeficiente. 5. Evalúa la significancia del modelo a través del valor de R 2. 6. Busca patrones inusuales en los residuales y analiza los valores extremos.