R E G R E S I O N. y ($) ...

Documentos relacionados
Tema 1.- Correlación Lineal

REGRESIÓN LINEAL SIMPLE, COEFICIENTE DE DETERMINACIÓN Y CORRELACIONES (EJERCICIOS RESUELTOS)

Diplomatura en Ciencias Empresariales X Y

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Teorema Central del Límite (1)

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION.

Tema 2. Descripción Conjunta de Varias Variables

UN PROBLEMA DE OPTIMIZACIÓN CON CABRI: LA REGRESIÓN LINEAL.

UNIDAD 6. Estadística

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

ESTADÍSTICA. Tema 4 Regresión lineal simple

Conceptos básicos estadísticos

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

13. Utilizar la fórmula del término general y de la suma de n términos consecutivos

Unidad V. 5.1 Recta tangente y recta normal a una curva en un punto. Curvas ortogonales.


Medidas de dispersión

ESTADÍSTICA SEMANA 3

Tema 8. Análisis de dos variables Ejercicios resueltos 1

Medidas de centralización

TEMA 3: CINÉTICA HOMOGÉNEA. REACCIONES SIMPLES CQA-3/1

MEDICIONES ELECTRICAS I

En la notación C(3) se indica el valor de la cuenta para 3 kilowatts-hora: C(3) = 60 (3) = 1.253

DEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM

CAPÍTULO 4 TÉCNICA PERT

MEDIDAS DE TENDENCIA CENTRAL

EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I.

JUNIO Bloque A

EL PROBLEMA DE LA TANGENTE

Estadística Descriptiva. SESIÓN 11 Medidas de dispersión

1. Caso no lineal: ajuste de una función potencial

ESTADÍSTICA DESCRIPTIVA PARA EL TURISMO

CAPITULO XII PUENTES DE CORRIENTE ALTERNA

Efecto de diferentes intervalos entre partos y producción por lactancia sobre la productividad esperada por hectárea.

Profesorado de Nivel Medio y Superior en Biología Matemática - 1º Cuatrimestre Año 2013 FUNCIÓN CUADRÁTICA

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

DISTRIBUCIÓN N BINOMIAL

Representaciones gráficas: Método del Paralelogramo

4. NÚMEROS PSEUDOALEATORIOS.

TEMA 4: ECUACIONES Y SISTEMAS DE ECUACIONES

Introducción. Flujo Eléctrico.

Tercera práctica de REGRESIÓN.

ESCALARES Y VECTORES

LA ECUACIÓN CUADRÁTICA

Encuesta de. Ocupación Hotelera

Regresión con variables independientes cualitativas

DERIVADAS. Para hallar la pendiente de una curva en algún punto hacemos uso de la recta tangente de una curva en un punto.

MATEMÁTICAS APLICADAS A LAS C.C. SOCIALES

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

12 Funciones de proporcionalidad

Algebra lineal y conjuntos convexos

Aplicaciones de la línea recta

ANEXO 1 EJEMPLO DE CALCULO DE RESISTIVIDAD APARENTE. Subestaciones de Media Tensión Curso Fernando Berrutti Staino

La distribución de Probabilidad normal, dada por la ecuación:

Multicolinealidad. Universidad de Granada. RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17

2.- Tablas de frecuencias

Estadística Inferencial. Estadística Descriptiva

NOCIONES PRELIMINARES (*) 1

Interacciones Eléctricas La Ley de Coulomb

CINEMÁTICA: ESTUDIO DEL MOVIMIENTO. Cinemática es la parte de la Física que estudia la descripción del movimiento de los cuerpos.

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

Unidad 2: Ecuaciones, inecuaciones y sistemas.

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

FUNDAMENTOS DEL ÁLGEBRA. Folleto De Trabajo Para La Clase ECUACIONES LINEALES EN DOS VARIABLES

Funciones 1. D = Dom ( f ) = x R / f(x) R. Recuerda como determinabas los dominios de algunas funciones: x x

TEMA 3: EL MERCADO DE BIENES

Objetivos. Epígrafes 3-1. Francisco José García Álvarez

CAPITULO II ANÁLISIS DEL CRECIMIENTO POBLACIONAL Y CALCULO DE CAUDALES DE DISEÑO

UNIDAD IV DISTANCIA ENTRE DOS PUNTOS

Aplicación: cálculo de áreas XII APLICACIÓN: CÁLCULO DE ÁREAS

BLOQUE I: GEOMETRÍA PLANA Y FIGURAS GEOMÉTRICAS. Ecuaciones y sistemas. 2 (20 horas) Funciones y gráficas. 2 (20 horas) Estadística y probabilidad

Límites y continuidad de funciones reales de variable real

ESTADÍSTICA DESCRIPTIVA

Habilidades Matemáticas. Alejandro Vera

Exactitud y Linearidad del Calibrador

CALIDAD 1 JOSÉ MANUEL DOMENECH ROLDÁN PROFESOR DE ENSEÑANZA SECUNDARIA

Examen de Matemáticas Aplicadas a las CC. Sociales II (Septiembre 2009) Selectividad-Opción A Tiempo: 90 minutos

ANEXO 1. CALIBRADO DE LOS SENSORES.

dada por c(x) = donde x indica el tamaño de los pedidos para renovar existencias

El polvo de bronce empleado ha sido suministrado por la empresa ECKART. Su denominación comercial es ECKA Spherical Bronze 89/11 AK.

2.2 Rectas en el plano

UNIDAD 6.- PROGRAMACIÓN LINEAL

Contenido Introducción Resumen Ejecutivo Objetivos del Estudio General Específicos...

Colegio Portocarrero. Curso Departamento de matemáticas. Análisis. (Límites/Asíntotas/Continuidad/Derivadas/Aplicaciones de las derivadas)

JUNIO Opción A

Infinito más un número Infinito más infinito. Infinito por infinito. OPERACIONES CON INFINITO Sumas con infinito. Productos con infinito

La variable independiente x es aquella cuyo valor se fija previamente. La variable dependiente y es aquella cuyo valor se deduce a partir de x.

Distancia focal de una lente convergente (método del desplazamiento) Fundamento

Medición de resistencia por el método de amperímetro-voltímetro

UNIDAD 4: FUNCIONES POLINOMIALES Y RACIONALES

INFERENCIA ESTADISTICA

2. Recolección de información - Medidas de posición: moda, media aritmética, mínimo, máximo - Frecuencia absoluta, relativa y porcentual

ACTIVIDAD DE APRENDIZAJE

2ª PRUEBA 26 de febrero de 2016

Parciales Matemática CBC Parciales Resueltos - Exapuni.

Transcripción:

Base Regresión/Correlación caral@bastaya.biz Página 1 de 20 R E G R E S I O N En clases anteriores se han visto los problemas de la determinación de la línea de tendencia en series de tiempo. Se generalizará ahora el problema, suponiendo que la variable independiente x pueda ser no sólo el tiempo, sino también cualquier otra. Se considerará un par de variables entre las cuales exista una relación matemática que se supone conocida. El análisis de regresión tratará las cuestiones relativas a la inferencia de una de estas variables, a partir del conocimiento de la restante. Tal es el caso, por ejemplo, de una empresa que tiene una flota de camiones, todos de igual marca y antigüedad, y desea estudiar la relación que existe entre el número de kilómetros recorridos (variable independiente) y el costo en mantenimiento (variable dependiente). En base a estadísticas de costos de mantenimiento y de kilómetros recorridos, la firma ha obtenido un diagrama del tipo graficado en la figura siguiente. y ($)....................................................................................................................... x (Km) De la observación del gráfico se puede llegar a deducir la existencia de una relación cuyo conocimiento reviste una gran importancia, dado que permitirá esbozar una política de renovación de unidades. En forma similar a lo que se vio en series cronológicas, aquí es posible estimar que la nube de puntos se agrupa alrededor de una línea que puede ser una recta o una curva.

Base Regresión/Correlación caral@bastaya.biz Página 2 de 20 Esta línea de ajuste recibe el nombre de línea de regresión, y su ecuación es, en caso de ser lineal: Ŷ x = â + b x En este caso, la línea es de regresión de y sobre x ; es decir, permite hallar valores de y conocido x, pudiendo estar definida simultáneamente la línea de regresión de x sobre y, o sea hallar valores de x para valores dados de y. En ese caso: X y = â + b y El término b recibe el nombre de coeficiente de regresión. El problema consiste en estimar los parámetros o valores constantes de la ecuación de regresión, y puede ser probado que el mejor estimador se obtiene por el método de los mínimos cuadrados, tal como hemos visto precedentemente. No hay que olvidar, por otro lado, que de todo el universo o totalidad de pares de valores de x y de y, sólo se está considerando una parte, o sea una muestra; y por lo tanto, la línea de regresión que se obtenga es sólo una estimación de la línea de regresión del universo. ESTUDIO DEL PROBLEMA Sí, por ejemplo, se está estudiando la ley de la caída de los cuerpos en el vacío, y se cronometra con extrema exactitud el tiempo empleado por el cuerpo en recorrer un cierto espacio también exactamente medido; a cada valor x del tiempo corresponderá un valor único y bien determinado del espacio recorrido y, y viceversa, dado por la expresión: Siendo: y = ½ g x 2 e = ½ g t 2 y = espacio recorrido por el cuerpo en metros/segundos; g = aceleración de la gravedad en metros/seg 2 ; x = tiempo en segundos. Es decir, aquí existe una relación funcional de causalidad entre el tiempo empleado y el espacio recorrido. La representación gráfica de esta fórmula se aprecia en la figura siguiente. Pero en la práctica, si se realiza este experimento muchas veces, no se obtiene un valor de y para cada valor de x, sino un conjunto de valores de y que se distribuyen alrededor de un valor medio en forma probabilística, siguiendo una ley de distribución de Gauss, y formando una nube de puntos. Esto es debido a que en la práctica es imposible cronometrar tiempos y medir espacios con una exactitud tal, que todos los puntos caigan sobre la recta de regresión, debido a errores aleatorios de medida, lectura, temperatura, etc.

Base Regresión/Correlación caral@bastaya.biz Página 3 de 20 Hay que tener en cuenta que en este ejemplo, ambas variables son en realidad variables matemáticas; pero se convierte a la variable dependiente y en variable aleatoria, al considerar los errores de medición citados. y (espacio) 80 y = ½ gx 2 70 60 50 40 30 20 10 0 1 2 3 4 (tiempo) x GRAFICO DE LA CAIDA DE LOS CUERPOS

Base Regresión/Correlación caral@bastaya.biz Página 4 de 20 Resumiendo, no se tiene entonces un valor de y para cada valor de x, sino un valor medio y. El lugar geométrico de estos valores medios es una línea de regresión del espacio y con respecto al tiempo x. y... x 1 x 2 x 3 x 4... x k x Se considera ahora un modelo tal como el anterior, cuya característica es que para cada valor de la variable independiente x existe un conjunto de observaciones de la variable dependiente y, de la manera graficada anteriormente. En este modelo se utilizarán dos subíndices para determinar la variable y, y uno para la x, como resume el Cuadro siguiente: Variable Variable dependiente Cantidad de Independiente puntos x 1 y 11 y 12 y 13.......... y 1 n1 n 1 x 2 y 21 y 22 y 23.......... y 2 n2 n 2 -............................. - -............................. - -............................. - -............................. - x k y k1 y k2 y k3........... y k nk n k

x 2 y 3 y i = a + bx i Base Regresión/Correlación caral@bastaya.biz Página 5 de 20 Por lo tanto, se definen las variables: e x i, donde i varía de 1 a k y ij, donde j varía de 1 a n i Se observa que para cada valor fijo de las x se tiene una población de y, cada una de las cuales tendrá una cierta distribución, una media y una variancia, como se visualiza en la figura Siguiente. Un importante supuesto que debe cumplir el modelo, es que las variancias de cada conjunto de y para valores fijos de x deben ser constantes. La ecuación de regresión es igual a la aplicada anteriormente, y para estimar el valor de â y de b, se usa el método de los mínimos cuadrados, con el cual la función F será: k n i F = Σ Σ (y ij - â - b x) 2 i = 1, j = 1 Resulta un sistema de dos ecuaciones con dos incógnitas, y cuya solución conduce a hallar los valores de a y b. f (x y) y y 1 x 1 y 2 x 3 x

Base Regresión/Correlación caral@bastaya.biz Página 6 de 20 â = 2 Σn i ỹ i Σn i x i - Σn i x i ỹ i Σn i x i 2 Σn i Σn i x i - (Σn i x i ) 2 b = Σn i Σn i x i ỹ i - Σn i x i Σn i ỹ i Σn i Σn i x i 2 - (Σn i x i ) 2 CALCULO DE LA VARIANCIA La variancia de los puntos con respecto a la recta de regresión se mide mediante la fórmula: 1 n S ŷi 2 = Σ (yi - ŷ i ) 2 Σn i - 2 i Donde ŷ i es la ecuación de regresión. En forma similar a lo visto anteriormente, puede ser calculado el intervalo de confianza, con el fin de medir la precisión del ajustamiento, bajo el supuesto de que los datos se distribuyen según una distribución normal de Gauss. La fórmula a emplear es: ŷ i ± S y ó ŷ i ± 2S y ó ŷ i ± 3S y. La fórmula de la varianza es similar a la indicada para la variancia cuando a cada valor de x correspondía uno de y (fórmula Guscida), sólo que en el caso que se acaba de analizar, se ha considerado una doble sumatoria, por el hecho de tener varias observaciones o valores de y para cada valor de x. Ejercicio de aplicación Los siguientes son los resultados de una investigación realizada tendiente a determinar el número de cabezas de ganado cebú en relación al número de hectáreas en varias Haciendas en la Selva Baja. Para ello se extrajo una muestra de 25 campos distribuidos de la siguiente forma: 5 Campos de 10 Ha; 4 Campos de 60 Ha; 4 Campos de 30 Ha; 5 Campos de 90 Ha; 3 Campos de 40 Ha; 4 Campos de 150 Ha; El Cuadro siguiente muestra los valores calculados en función de los datos obtenidos:

Base Regresión/Correlación caral@bastaya.biz Página 7 de 20 x i y ij ỹ i n i x i n i n i ỹ i n i x i 2 n i x i ỹ i 10 9, 18, 20, 10, 18 15 5 50 75 500 750 30 42, 35, 41, 30 37 4 120 148 3,600 4,440 40 39, 48, 51 46 3 120 138 4,800 5,520 60 60, 66, 73, 69 67 4 240 268 14,400 16,080 90 94, 110, 103, 99, 89 99 5 450 495 40,500 44,550 150 169, 172, 155, 164 165 4 600 660 90,000 99,000 25 1,580 1,784 153,800 170,340 siendo: x i = cantidad de hectáreas; y ij = cantidad de cabezas de ganado. ỹ i = Promedio de Cabezas de ganado. Calculando a y b por las fórmulas planteadas, se tiene: 1,784 X 153,800 170,340 X 1,580 â = = 3.89 25 X 153,800 (1,580) 2 25 X 170,340 1,580 X 1,784 b = = 1.07 25 X 153,800 (1,580) 2 La ecuación de regresión será: ŷ i = 3.89 + 1.07 x i CÁLCULO DE LA VARIANCIA Empleando la fórmula, con la cual se obtiene:

Base Regresión/Correlación caral@bastaya.biz Página 8 de 20 S ŷi = 6.4 Cálculo de intervalos de confianza Se desea calcular los intervalos de confianza a un nivel del 68% para 20 y 50 hectáreas. * Para 20 hectáreas: ŷ i = 3.89 + 1.07 x 20 = 25.29; 25.29 + 6.4 = 31.69 animales; 25.29 6.4 = 18.89 animales; En consecuencia, se espera que en promedio, el 68% de los establecimientos de 20 hectáreas posean entre 18 y 31 animales. * Para 50 hectáreas: El intervalo de confianza será: ŷ i = 3.89 + 1.07 x 50 = 57.39 57.39 + 6.4 = 63.79 animales; 57.39 6.4 = 50.99 animales; En consecuencia, se espera que en promedio, el 68% de los establecimientos de 50 hectáreas posean como mínimo 50 y como máximo 63 cebúes.

Base Regresión/Correlación caral@bastaya.biz Página 9 de 20 CORRELACION Analizando la regresión de y sobre x, se tiene que si la línea de regresión es paralela al eje x, se comprende que cualquiera sea la variación de x, el valor de y será constante, y por lo tanto, el coeficiente de regresión b, o pendiente de la recta, vale cero. Cuando se estudia la regresión de x sobre y, y si la línea de regresión es paralela al eje y, se entiende que cualquiera que sea la variación de y, el valor de x será constante, siendo en consecuencia cero el valor del coeficiente de regresión b. Pero si se analiza la regresión de y sobre x, y se tiene la recta de regresión como la de la figura siguiente, a una variación de x corresponde una de y, y el coeficiente b no es cero. La relación entre x y y puede ser fuerte o débil. Es muy fuerte, cuando la nube de puntos es muy estrecha, y todos ellos están muy cercanos a la línea de regresión. La relación será débil, cuando los puntos se encuentran alejados de la línea de regresión. y............................................................................................................ Para medir cuantitativamente cuán débil o fuerte es la relación o correlación entre dos variables, se emplea el coeficiente de correlación r. Este coeficiente fue introducido por Karl Pearson, y da una medida del grado de relación lineal que une a dos variables. Su expresión es la siguiente: x r = n xy - x y [ n x 2 - ( x ) 2 ] [ n y 2 - ( y ) 2 ]

Base Regresión/Correlación caral@bastaya.biz Página 10 de 20 También puede calcularse r en función de los coeficientes de regresión b y b, empleando la siguiente expresión: r = b. b VALORES DEL COEFICIENTE DE CORRELACIÓN El coeficiente de correlación puede tomar valores comprendidos entre +1 y 1. Si r = +1, la relación lineal entre ambas variables es perfecta. La nube de puntos se estrecha hasta que se confunde con la recta de regresión, siendo positiva la pendiente. y r = +1 x Si r = -1, la relación lineal entre ambas variables es también perfecta; pero a un incremento positivo de una, corresponde un incremento negativo de la otra, o sea pendiente negativa. Lo mismo sucede con la regresión de x sobre y. y r = -1 x

Base Regresión/Correlación caral@bastaya.biz Página 11 de 20 Si r = 0, las variables son independientes una de otra. La línea de regresión de y sobre x es una horizontal, y la línea de regresión de x sobre y, una vertical, y la nube está constituida por puntos dispersos al azar. y.......................................................................................................................................... r = 0 Se destaca que puede suceder que entre dos variables exista una relación de tipo parabólica perfecta, y sin embargo, r sea igual a cero. Ello se explica, por cuanto el coeficiente de correlación r mide el grado de relación lineal y no curvilínea. x y r = 0 x Mientras mayor sea el número de muestras tomadas, mayor será la precisión de r. Por tal motivo, se aconseja que la cantidad de pares de valores tomados sea mayor de 20. Hay que tener en cuenta, por otro lado, que un valor de r alto no significa necesariamente que haya una relación causa y efecto entre las dos variables analizadas, ya que el origen o causa de las variaciones puede ser exógena o externa. El coeficiente de correlación, sólo indica que las variables, ambas, varían de la misma forma.

Base Regresión/Correlación caral@bastaya.biz Página 12 de 20 Por ejemplo, si se analizan las series de tiempo de la importación de aluminio con la de la importación de madera, es probable que ambas varíen en igual sentido, existiendo una gran correlación. Sin embargo, no hay dependencia alguna entre una variable y otra; es decir, el consumo de aluminio no depende del empleo de madera, y viceversa. Esta variación simultánea puede depender, en cambio, de factores tales como modificación de tasas aduaneras, precio del dólar, etc. Como se intuye, existe evidentemente una conexión entre el coeficiente de regresión b y el coeficiente de correlación r. Matemáticamente, ambos coeficientes están ligados por la siguiente expresión: r = b S x S y Siendo: Sx = S 2 x, la dispersión de los valores de x ; Sy = S 2 y, la dispersión de los valores de y. Ejemplo de regresión lineal Una Empresa se dedica a la fabricación de artículos de acero inoxidable. Para complementar un importante pedido, se requiere un acero especial de dureza no inferior a 185 Brinell, y apto par resistir la corrosión provocada por vapores sulfurosos. Dado que aceros de esta dureza y con tales características de resistencia a la corrosión no están disponibles comúnmente en el mercado, solicita a un fabricante local de aceros inoxidables un acero al cromo-níquel, cuya dureza sea superior a 185 Brinell. Este fabricante produce toda la gama de aceros inoxidables o aceros al cromo-níquel-, desde un porcentaje del 1 al 20% de cromo, y ha determinado, en base a ensayos, la dureza correspondiente a cada porcentaje, teniendo como límite 165 Brinell, para un acero con 20% de cromo. Es imprescindible, por lo tanto, aumentar el tenor de cromo, necesario no sólo para aumentar la dureza, sino para resistir la corrosión. Sin embargo, el fabricante sabe que no se puede aumentar indefinidamente el tenor de cromo, ya que existe un límite del 25%, debido a que en cantidades mayores el acero se torna quebradizo. Desea saber, entonces, antes de encargar la fabricación, si es dable esperar una dureza mayor de 185 Brinell, empleando como máximo un 25% de cromo. PRIMER PASO Conocimiento de la serie cronológica

Base Regresión/Correlación caral@bastaya.biz Página 13 de 20 El Cuadro siguiente indica las durezas Brinell observadas en los ensayos, en función del tenor de cromo: % de cromo Dureza Brinell 1 58 2 72 3 70 4 78 5 90 6 88 7 102 8 100 9 112 10 118 11 114 12 118 13 130 14 142 15 146 16 146 17 152 18 162 19 160 20 165 SEGUNDO PASO Gráfica de las Series Cronológicas. TERCER PASO Estimación de la forma de la línea de ajuste Se aprecia que la tendencia es lineal. CUARTO PASO Se construye el Cuadro de valores y se obtienen los coeficientes: u 210 u 2,323 x = = 10.5 y = = 116.1 20 20 Σ x 2 i = 2.870

Base Regresión/Correlación caral@bastaya.biz Página 14 de 20 x i y i x i y i ŷ i y i - ŷ i (y i - ŷ i ) 2 1 58.................................... 2 72.................................... 3 70.................................... 4 78.................................... 5 90.................................... 6 88.................................... 7 102.................................... 8 100.................................... 9 112.................................... 10 118.................................... 11 114.................................... 12 118.................................... 13 130.................................... 14 142.................................... 15 146.................................... 16 146.................................... 17 152.................................... 18 162.................................... 19 160.................................... 20 165.................................... Σx i =210 Σy i = 2,323 Σx i y i =....... S y 2 = S y =.......... ( Σ x i ) 2 = 44,100 Σ y 2 = 290,027 20 x 28,112-210 x 2,323 74,410 b = = = 5.6 20 x 2,870-44,100 13,300 â = 116.1-5.6 x 10.5 = 57.3 La ecuación lineal será: ŷ = â + bx ŷ = 57.3 + 5.6x

Base Regresión/Correlación caral@bastaya.biz Página 15 de 20 Con esta ecuación es posible obtener los valores de la tabla anterior, y determinar la línea de tendencia. Extrapolando ésta, para un porcentaje máximo de un 25% de cromo se halla que la dureza esperada es de 197 Brinell. La variancia se calcula por la sumatoria de los cuadrados de las diferencias entre y i y ŷ i se ha calculado en la última columna de la tabla. Por lo tanto: 335.40 S 2 y = = 18.63 18 S y = 4.32 En consecuencia: ŷ i ± S ŷ = 197 ± 4.32 = 201.32 y 192.68 Lo cual indica que para un porcentaje de cromo del 25% es de esperar que la dureza Brinell oscile entre 192.68 y 201.32, lo cual supera la necesidad del cliente. Para el cálculo del coeficiente de correlación r, se utiliza la fórmula Conocida: 20 X 28.112-210 X 2.323 [ 20 X 2.870-44.100 ] [ 20 X 290.027 ( 2.323 ) 2 ] r = 0.98 Se aprecia que la correlación entre la dureza Brinell y el porcentaje de cromo, es positiva y perfecta. Regresión no lineal Así como se ha estudiado la regresión lineal de dos características medibles de un fenómeno, es posible analizar, también, la forma de la relación, cuando entre dichas variables ésta es no lineal. El método en esencia no difiere del explicado, ya que consiste en la obtención de los coeficientes de la ecuación que liga a ambas variables, mediante el empleo del método estadístico y el uso de polinomios aproximantes. APLICACIÓN DE REGRESION NO LINEAL Una empresa dedicada a la industria aeronáutica, fabrica pequeños aviones para tareas de fumigación.

Base Regresión/Correlación caral@bastaya.biz Página 16 de 20 Se ha llevado un registro del tiempo empleado para producir una pieza determinada, y por lo tanto, del costo de producción, verificándose que a medida que aumenta el número de piezas producidas en forma consecutiva, disminuye el tiempo empleado para producir cada unidad. Tal registro es el que se ilustra en el Cuadro siguiente: Piezas producidas Costo ($) Piezas producidas Costo ($) 1 3,900 17 1,600 2 2,970 18 1,490 3 2,700 19 1,520 4 2,300 20 1,500 5 2,100 21 1,410 6 2,050 22 1,380 7 2,000 23 1,500 8 1,970 24 1,470 9 1,900 25 1,390 10 1,750 26 1,420 11 1,700 27 1,300 12 1,770 28 1,310 13 1,500 29 1,400 14 1,520 30 1,350 15 1,500 31 1,310 16 1,470 32 1,280 Tarea Académica de Clase : Desarrolle la Regresión No Lineal del Cuadro Anterior

Base Regresión/Correlación caral@bastaya.biz Página 17 de 20 A N E X O CORRELACION Y REGRESION CORRELACION Correlación es variación conjunta. Existe correlación entre dos variables, cuando se observa que al variar una de ellas varía también la otra, y ambas variaciones ocurren de acuerdo a cierta ley, analogía o contraste tal que resulta posible efectuar predicciones razonables acerca de la manera como variará una de ellas, conocida la manera como variará la otra. Es importante señalar que correlación no significa necesariamente casualidad. El hecho de que una variable modifique sus magnitudes y también lo haga otra, no significa que la variación de una esté causando la de la otra; pudiera ser que ambas varíen debido a una tercer variable que actúa sobre las 2 primeras. Una herramienta útil para comenzar a examinar la posible presencia de correlación cuando se trata de dos variables, es el llamado diagrama de dispersión, que consiste simplemente en la graficación en un sistema de ejes coordinados, de los puntos determinados por los valores de las dos variables correspondientes a cada uno de los casos observados. Así por ejemplo: supongamos que estamos haciendo un estudio del mercado de clavos; que históricamente el consumo de clavos guarda cierta relación con el consumo de madera, y con el objeto de verificar este supuesto obtenemos las cifras de consumo anual de clavos y de madera en 100 poblaciones. Tenemos entonces para cada una de estas 100 poblaciones 2 cifras: una de consumo de clavos y otra de consumo de madera. Podemos tomar un sistema de ejes coordenados, en el eje de las X medir las cifras correspondientes al consumo de madera, y en el eje de las Y la de clavos. Cada par de cifras produce un punto, y el conjunto presentará un aspecto que puede corresponder a alguna de las tres formas típicas mostradas en los Dispersogramas conocidas. En estos Dispersogramas vemos 3 posibilidades, de la muchas que podrían darse. En la primera de ellas, (Pág. 11) el diagrama de puntos resulta bastante disperso: los puntos no presentan una tendencia o forma claramente identificable; en este caso se puede afirmar, simplemente mirando dicho gráfico, que no existe relación entre ambas variables, o que dicha relación es sumamente débil, es decir que los valores de una de ellas no permiten razonablemente hacer predicciones acerca del valor de la otra. A un valor cualquiera de X corresponde también un valor cualquiera de Y.

Base Regresión/Correlación caral@bastaya.biz Página 18 de 20 En cambio en el segundo caso (Pág. 1, 9 y 10) vemos que hay cierta concentración de puntos a lo largo de un eje aproximadamente recto y de forma ascendente, que nos permite afirmar que a medida que los valores de X aumentan también los de Y tienden a aumentar. Esta relación no es matemáticamente exacta en todos los casos; hay algunos puntos que escapan bastante a esta relación, alejándose notablemente del eje identificado; pero de todas manera, como fenómeno estadístico cabría afirmar que existe la tendencia a que los valores de Y aumenten a medida que aumentan los de X. En este caso podemos decir que existe correlación entre X e Y. En el tercer caso (Pág. 10) la figura es mucho más definida: se observa que los puntos tienden a linearse a lo largo de una curva que indica una clara relación entre los valores de X y de Y: en este caso dado un valor de X se puede deducir el valor de Y correspondiente dentro de un rango bastante preciso. Vemos entonces que existen intensidades o grados de correlación. La intensidad de la correlación entre dos o más variables puede variar según los casos, y puede medirse por medio de coeficientes especialmente diseñados para tal fin. Así, para el caso de variables cuantitativas existe el coeficiente de Pearson(r) diseñado de tal manera que su valor fluctúa entre 1 y +1, pasando por cero. En el caso expresado en el gráfico anterior, en el que los puntos están sumamente dispersos, si se calculase el coeficiente de Pearson encontraríamos un valor muy cercano a cero, indicando que la intensidad o grado de correlación entre las variables es sumamente bajo; en el segundo caso tendríamos un valor de r diferente de cero, pero tampoco muy cercado a 1, posiblemente 0.8 ó 0.7. En el tercer caso el valor de r sería más cercano a 1; posiblemente 0.9 ó 0.95. Los casos de r = 0 y r = ± 1 son extremos que casi nunca se dan en la práctica; son los casos en los cuales: o no existe absolutamente ninguna correlación, o existe correlación total, en este último caso el valor de Y es predecible en forma exacta y precisa dado el valor de X; la correlación entre ambas variables ya no es simplemente de tipo estadístico sino determinístico. REGRESIÓN Ahora bien, si existe correlación entre dos variables, cualquiera que sea el grado de esta correlación, existe una ley que relaciona la forma de variación de cada variable con respecto a la otra; esta ley es la llamada regresión estadística. Así, volviendo al Dispersograma, en el segundo caso la ley que relaciona las variaciones de X e Y, es la de una línea recta y su ecuación es la de forma: Y = a + bx Lo cual no significa que todos los valores de X y de Y responderán exactamente a dicha ley, sino que la tendencia general de variación de ambas variables corresponde a ella. En el caso tercero la ecuación será posiblemente parabólica, logarítmica o exponencial.

Base Regresión/Correlación caral@bastaya.biz Página 19 de 20 La regresión estadística es por lo tanto una consecuencia de la correlación: si existe correlación debe haber una ley de regresión que describa la forma o naturaleza de la relación existente entre las variables examinadas; y esta ley debe poderse expresar matemáticamente en una fórmula algebraica. Para producirla existen métodos que consisten fundamentalmente en observar el comportamiento de los pares de valores de las variables y a base de dicha observación hacer la correspondiente deducción teórica. El proceso que se acaba de describir es el de ajuste de curvas, una de cuyos métodos, el más usado, es el de los mínimos cuadrados. Dicho método consiste en el cálculo de los parámetros de la curva, elegida entre todas las posibles curvas que pueden pasar entre los puntos del diagrama de dispersión, de tal manera que la sumatoria de los cuadrados de las distancias de los puntos hasta dicha curva, medidas a lo largo de alguno de ambos ejes, sea mínima. El caso particular más sencillo de dicho método se da cuando se trata de ajustar una recta de regresión a un conjunto de puntos determinados por dos variables. Este es el caso denominado de regresión lineal simple, y las fórmulas operacionales convenientes para el cálculo de los parámetros son como siguen: b = n Σ xy ( Σ x ) ( Σ y) n Σ x 2 ( Σ x) 2 a = y b x Donde X e Y son las medias aritméticas de x e y respectivamente. Asimismo, la fórmula operacional para el cálculo del coeficiente de correlación es: r = [ n Σ xy ( Σ x ) ( Σ y) ] 2 [n Σ x 2 ( Σ x) 2 ] [n Σ y 2 (Σ y) 2 ] SIGNIFICACIÓN ESTADÍSTICA La correlación observada entre dos variables puede o no ser estadísticamente significativa. No siempre un valor de r cercano a 1 significa que existe un fuerte grado de correlación entre las variables. También cuenta el número de observaciones n. Cuanto mayor sea n más significativo serán, estadísticamente, el valor de r encontrado.

Base Regresión/Correlación caral@bastaya.biz Página 20 de 20 Un coeficiente muy útil para verificar la significación estadística de r se calcula por medio de la siguiente fórmula: F = r 2 ( n 2 ) 1 r 2 La distribución de F se encuentra en tablas estadísticas usuales, para los tres niveles de significación más comúnmente adoptados; 0.05, 0.01 y 0.001. Para dos variables, los grados de libertad pertinentes, para entrar a las tablas, son: n 1 = 1 n 2 = n 2 Cuando F calculada es igual o mayor que F en la tabla, se admite la significación estadística de r, al nivel de confianza adoptado. Ejercicio: Datos: Gráfico Polígono de Regresión X 1 2 3 4 5 6 7 8 9 10 11 12 Y 62 42 55 70 61 96 93 50 81 82 100 90 Y 100 80 60 40 20 0 2 4 6 8 10 12 X Cálculo de Parámetros y Coeficientes: a = 49.9091 r = 0.671533 b = 3.629371 F = 8.21347