1.1 Qué es la regresión Guardar

Documentos relacionados
1.1 Qué es la regresión

Julio Deride Silva. 6 de agosto de 2010

En este tipo de relaciones siempre existe una variable que depende de la otra, es decir, una de ellas es independiente y la otra dependiente.

Teoría de la decisión

Ajuste por mínimos cuadrados

que represente lo mejor posible la relación entre valores X e Y permitiéndonos inferir un valor a partir del otro.

Preliminares Métodos de Ajuste de Curvas AJUSTE DE CURVAS AJUSTE DE CURVAS

REPASO_RECUPERACION_III_PERIODO_MATEMATICAS_9_ DE 6

REGRESIÓN LINEAL Y CORRELACIÓN

Hoja de Trabajo 1: Gráfica en Papel Cuadriculado

PROBABILIDAD Y ESTADÍSTICA. Sesión 4 4. REGRESIÓN Y CORRELACIÓN SIMPLE

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

PRÁCTICA 2: LA RECTA DE REGRESIÓN

Programa del Diploma: Estudios Matemáticos

Estadística de dos variables

MODELOS FUNCIONALES CON INSTRUCCIONES EN GEOGEBRA

Ajuste de Curvas. Mg. Hermes Pantoja Carhuavilca. Métodos Numérico. Universidad Nacional de Ingeniería Facultad de Ingenieria Mecánica

Para verificar que el sistema converge se deberán cumplir con las siguientes condiciones en las formulas con derivadas parciales: + 1

Cuadrados Mínimos. Diego Luna. May 8, Laboratorio 1 Cuadrados Mínimos May 8, / 22

ANÁLISIS DE REGRESIÓN

1. Para la función f(x) = x sen x, halle su polinomio de Taylor de orden 2 en a = 0. x x3 3!, x x3

Regresión. Edgar Moyotl-Hernández. Análisis y Métodos Numéricos Físico Matemáticas, BUAP Otoño Regresión Introducción Regresión Lineal

Universidad Central de Venezuela Facultad de Ciencias Escuela de Computación Probabilidad y Estadística Práctica Nº 4

PRACTICA 03. SECRETARIA DE EDUCACIÓN PÚBLICA SUBSECRETARÍA DE EDUCACIÓN MEDIA SUPERIOR C.E.T.i.s. No. 141 Dr. Manuel Gamio

Análisis de regresión y correlación lineal

TALLER DE PREPARACIÓN PARA EL PRIMER PARCIAL

ANÁLISIS DE DATOS EXPERIMENTALES POR MÍNIMOS CUADRADOS

GUÍA N 1 MAX040 Funciones y sus gráficas

Tema 9. Regresión y correlación

Modelos Matemáticos II

FUNCIÓN POLINOMIAL. Ing. Caribay Godoy

Tema 3. Relación entre dos variables cuantitativas

Análisis de Regresión y Correlación Lineal

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

Que importancia tienen las funciones matemáticas?

Matemáticas. para administración y economía Ernest F. Haeussler, Jr.* Richard S. Paul

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Materia: Matemáticas de 4to año. Tema: Logaritmos naturales y base 10. Marco Teórico

tiempo vs altura y = 3,4731x 0,5028

3. RELACION ENTRE DOS CONJUNTOS DE DATOS.

Práctica 6: Regresión Lineal Múltiple (3)

Prueba de Septiembre 2012/13

Julio Deride Silva. 4 de junio de 2010

Instituto Tecnológico de Costa Rica. Escuela de Matemática MATEM Décimo Año- -Modalidad bienal- III EXAMEN PARCIAL 2014.

Matemáticas Avanzadas I

Capítulo 8. Selección de variables Introducción

Relación entre la altura y la distancia del suelo al ombligo

Conocer los principales métodos de la estadística inferencial e identificar sus aplicaciones a diversas áreas del conocimiento y de la cotidianidad.

TEMA N 1.- ANÁLISIS DE REGRESIÓN Y MÉTODO DE MÍNIMOS CUADRADOS

1. Conceptos de Regresión y Correlación. 2. Variables aleatorias bidimensionales. 3. Ajuste de una recta a una nube de puntos

Ministerio de Educación Pública Dirección de Gestión y Evaluación de la Calidad Departamento de Evaluación Académica y Certificación

CENTRO REGIONAL UNIVERSITARIO BARILOCHE TALLER DE MATEMATICA INGRESO 2016 LIC. ENFERMERÍA PRACTICO UNIDAD 3

Funciones cuadráticas

Ministerio de Educación Pública Dirección de Gestión y Evaluación de la Calidad Departamento de Evaluación Académica y Certificación

Ministerio de Educación Pública Dirección de Gestión y Evaluación de la Calidad Departamento de Evaluación Académica y Certificación

Número de estudiante: Instrucciones: Se permite el uso de calculadoras científicas. El examen tiene un valor total de 105 puntos.

APUNTES SOBRE SERIES HISTÓRICAS O CRONOLÓGICAS

Clase. Función cuadrática y ecuación de segundo grado

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

5.1 DISTINTOS TIPOS DE FUNCIONES LINEALES

Funciones algebraicas.

Segundo modelo para una epidemia: Modelo Monomolecular

FUNCIONES DE PROPORCIONALIDAD: y = mx. Su pendiente es 0. La recta y = 0 coincide con el eje

La asignatura proporciona al alumno los conceptos básicos de estadística. Se organiza el temario en cinco unidades.

Introducción a las Funciones Logarítmicas MATE 3171

( ) ( ) -3. Función Cuadrática La función cuadrática es una función real de variable real f : R R, es decir,

Regresión polinomial y factores

Matemáticas Nivel Medio Matemáticas Ap.CC.SS.II

Unidad IV Introducción a la Regresión y Correlación

3 Regresión y correlación lineales

2. ESTADÍSTICAS BIDIMENSIONALES

1. Para la función f(x) = x sen x, halle su polinomio de Taylor de orden 2 en a = 0. x x3 3! + x5

EVALUACIÓN DE LA EFICACIA DE UN INSECTICIDA BIOLÓGICO MEDIANTE ANÁLISIS PROBIT

Análisis de Regresión no lineal

Estadística II Ejercicios Tema 4

AJUSTE PLANTEAMIENTO DEL PROBLEMA

METODOS ESTADÍSTICOS

Colegio Portocarrero. Curso Departamento de matemáticas. Análisis

DISTRIBUCIONES BIDIMENSIONALES DISTRIBUCIONES BIDIMENSIONALES

Método de cuadrados mínimos

PROBLEMAS RESUELTOS SELECTIVIDAD ANDALUCÍA 2010 MATEMÁTICAS II TEMA 5: INTEGRALES

DEFINICIÓN : f es una función de R en R si a cada número real, x Dom, le hace corresponder un único número real, f(x):

Licenciatura en Electrónica y Computación: Métodos Numéricos

Ministerio de Educación Pública Dirección de Gestión y Evaluación de la Calidad Departamento de Evaluación Académica y Certificación

INTELIGENCIA DE NEGOCIO

REGRESION POLINOMIAL Y FACTORES. E Y X x x x

MINISTERIO DE EDUCACIÓN PÚBLICA DIRECCIÓN DE GESTIÓN Y EVALUACIÓN DE LA CALIDAD Departamento de Evaluación Académica y Certificación

EL INGRESO PER CÁPITA DE LOS MEXICANOS

Estadísticas Elemental Tema 3: Describir la relación entre dos variables: Correlación y regresión 3.1-1

DISTRIBUCIÓN SEGÚN HABILIDADES GENERALES Y ESPECÍFICAS Prueba 2. El desarrollo de estos temas los puede encontrar oprimiendo el siguiente botón.

, x es la variable independiente e y es la variable dependiente.

Criterios de Evaluación MÍNIMOS

Rige a partir de la convocatoria

EJERCICIOS DISTRIBUCIONES BIDIMENSIONALES

FIABILIDAD (VI): TESTS DE VIDA ACELERADA

Estadística aplicada al medio ambiente

INFERENCIA ESTADÍSTICA CON EL SOFTWARE MINITAB

Transcripción:

Artículo Revista digital Matemática, Educación e Internet (http://www.tec-digital.itcr.ac.cr/revistamatematica/). Vol 13, No 1. Agosto Febrero 2013. Análisis de regresión para la población de Costa Rica. Luis A.Acuña P. lacuna@itcr.ac.cr Escuela de Matemática Instituto Tecnológico de Costa Rica Resumen. Breve introducción al análisis de regresión y a la transformación de algunos problemas no lineales en problemas lineales. Aplicación al caso de la población de Costa Rica como función del tiempo. Palabras clave: Regresión, regresión lineal, regresión no lineal, predicción, crecimiento exponencial. Abstract. Short introduction to regression analysis and the transformation of some non-linear problems to linear problemas. Application to the case of Costa Rica s population as a function of time. KeyWords: Regression, linear regression, non-linear regression, prediction, exponential growth. Página 1 de 13 1.1 Qué es la regresión El análisis de regresión es una técnica estadística que permite encontrar una ecuación que aproxime una variable como función de otras. Típicamente, las variables son atributos de los individuos en una población, y el análisis trabaja a partir

de los valores de los atributos para alguna muestra de individuos. La variable que se escribe como función de las otras se llama resultado, y las otras son los predictores. La regresión simple se usa cuando hay un solo predictor. Como ejemplo de esto, al relacionar la edad x en años con la estatura y en centímetros para niños menores de doce años, se busca una función y = f (x). Si además la función buscada es lineal, y = a + bx, entonces se habla de regresión lineal simple. Uno de los usos más comunes de la regresión es el de predecir el valor de y para un valor de x que no esté en la muestra. Por ejemplo, suponga que a partir de una muestra de niños con edades respectivas 3, 5, 6, 8, 9 y 11, en años, se ha encontrado la ecuación y = 82.6 + 5.8x para la estatura en centímetros como función de la edad. Entonces se puede usar esa ecuación para predecir la estatura de un niño de 12 años: x = 12 resulta en y = 82.6 + 5.8(12) 152 cm, y esa es la estatura estimada a los doce años. El análisis de regresión lineal simple ha sido estudiado profundamente y sus mayores problemas ya están resueltos. Incluso muchas calculadoras de bolsillo pueden calcular los coeficientes a y b en la ecuación y = a + bx, a partir de algunos datos muestrales. Cuando la regresión simple no es lineal, se habla de regresión no lineal simple, y este no es un problema que esté completamente resuelto. Para algunos casos particulares, sin embargo, existen técnicas para transformar un problema no lineal en uno lineal, en el que se puedan aplicar los resultados existentes de la regresión lineal. En las siguientes secciones se darán dos ejemplos de esto. Si el resultado y es función de varios predictores, entonces el problema es de regresión múltiple, que también puede ser lineal o no lineal. En regresión lineal múltiple, el resultado y se escribe como función lineal de los predictores x 1, x 2,..., x n, en la forma y = b 0 + b 1 x 1 + b 2 x 2 + + b n x n. El problema de regresión lineal múltiple también es bien conocido y presenta pocas dificultades. En particular, la regresión polinomial, en la que se busca escribir un resultado y como función polinomial de uno o varios predictores, puede transformarse fácilmente a uno de regresión lineal múltiple. Como ejemplo concreto, considere el problema de encontrar una ecuación cuadrática y = at 2 + bt + c que exprese el resultado y en términos del predictor t. Si se definen dos nuevas variables x 1 = t y x 2 = t 2, entonces la ecuación se convierte en y = ax 2 + bx 1 + c, que tiene la forma usual en regresión lineal múltiple. Página 2 de 13

1.2 Un ejemplo: Temperatura de agua enfriándose La siguiente tabla muestra la temperatura, en grados centígrados, de agua en un recipiente mientras se enfría durante varios minutos ( Min es el número de minutos transcurridos). Min Grados Min Grados Min Grados Min Grados 0.00 97.0 3.30 79.0 11.28 56.0 18.25 46.5 0.43 95.0 4.43 74.0 13.18 53.0 21.55 43.5 1.10 90.0 6.27 68.0 15.00 50.5 24.72 41.0 2.42 83.0 8.88 61.0 16.35 49.0 34.55 35.5 Tabla 1.1 Se denotará con x al tiempo en minutos y con y a la temperatura. En el siguiente gráfico se observa que la relación entre las variables x y y es aparentemente exponencial (con base menor que 1), pero trasladada hacia arriba. En efecto, es de esperar que conforme x, el valor límite de y no será 0 como en una exponencial decreciente, sino que la temperatura límite convergerá a la temperatura ambiente. Si se denota con TA esa temperatura ambiente, entonces puede conjeturarse que la ecuación que expresa y como función de x tiene la forma y = ab x + TA donde a y b son constantes por determinar. La ecuación anterior puede convertirse en lineal de la siguiente manera: Página 3 de 13 y = ab x + TA y TA = ab x ln(y TA) = ln(ab x ) = ln a + x lnb y 1 = a 1 + b 1 x

Figura 1.1 Temperatura como función del tiempo Página 4 de 13 donde y 1 = ln(y TA), a 1 = ln a y b 1 = lnb. Luego de un poco de prueba y error 1 se encuentra que una buena estimación para la temperatura ambiente es TA = 31.5. Entonces se obtiene una nueva tabla de valores para x (que sigue siendo el número de minutos) y y 1 = ln(y 31.5): Al graficar esos puntos se nota que ellos son casi colineales, lo que significa que la regresión lineal sí dará una aproximación muy cercana. 1 Se calcula el coeficiente de correlación lineal entre x y y 1 para varios valores de TA, buscando alguno que dé un coeficiente muy cercano a 1... o más bien a 1, ya que la relación es decreciente.

x y 1 x y 1 x y 1 x y 1 0.00 4.1821 3.30 3.8607 11.28 3.1987 18.25 2.7081 0.43 4.1510 4.43 3.7495 13.18 3.0681 21.55 2.4849 1.10 4.0690 6.27 3.5973 15.00 2.9444 24.72 2.2513 2.42 3.9416 8.88 3.3844 16.35 2.8622 34.55 1.3863 Tabla 1.2 Página 5 de 13 Figura 1.2 y 1 = ln(y 31.5) como función de x De hecho, el análisis de regresión lineal para y 1 como función de x resulta en los coeficientes a 1 = 4.13295 y b = 0.078626. Recordando que a 1 = ln a y que b 1 = lnb, se despeja a = e a 1 = 62.3619 y b = e b 1 = 0.924385

Finalmente, la ecuación y = ab x + TA se convierte en Temperatura = 62.3619 0.924385 Minutos + 31.5 Al graficar los puntos en la figura 1.1 junto con esta ecuación se comprueba que efectivamente la ecuación describe las observaciones muy precisamente. Página 6 de 13 Figura 1.3 Regresión para la temperatura como función del tiempo

1.3 Evolución de la población de Costa Rica En la figura 1.4 se ve la evolución de la población de Costa Rica, entre los años 1522 y 2000, según datos del Instituto Nacional de Estadística y Censos. Página 7 de 13 Figura 1.4 Población de Costa Rica como función del año

La fuente de datos para ese gráfico es la siguiente tabla. Año Población Año Población Año Población 1522 27 200 1801 52 591 1892 243 205 1569 17 479 1824 65 393 1927 471 524 1611 15 538 1836 78 365 1950 800 875 1700 19 293 1844 93 871 1963 1 336 274 1720 19 437 1864 120 499 1973 1 871 780 1741 24 126 1875 153 250 1984 2 416 809 1751 24 022 1883 182 073 1995 3 301 210 1778 34 212 1888 205 731 2000 3 810 179 Tabla 1.3 En el gráfico es claro que la relación entre población y tiempo no es lineal. Más bien parece exponencial, y entonces puede plantearse una ecuación de la forma y = ab t Página 8 de 13 donde y es la población y t el año. Si la ecuación propuesta es correcta, entonces al tomar logaritmo natural en ambos lados se obtiene la relación lineal o bien lny = ln(ab t ) = ln a + tlnb y 1 = a 1 + b 1 t

donde y 1 = lny, a 1 = ln a y b 1 = lnb. La siguiente tabla contiene los valores de los datos transformados. t y 1 t y 1 t y 1 1522 7.3278 1801 7.4961 1892 7.5454 1569 7.3582 1824 7.5088 1927 7.5637 1611 7.3846 1836 7.5153 1950 7.5756 1700 7.4384 1844 7.5197 1963 7.5822 1720 7.4501 1864 7.5305 1973 7.5873 1741 7.4622 1875 7.5364 1984 7.5929 1751 7.4679 1883 7.5406 1995 7.5984 1778 7.4832 1888 7.5433 2000 7.6009 Tabla 1.4 Y el gráfico de y 1 como función de t es el siguiente. Página 9 de 13

Figura 1.5 y 1 = lny como función de t Página 10 de 13 Sorpresa! Tampoco la relación entre y 1 y t es lineal, de modo que la propuesta y 1 = a 1 + b 1 t no es satisfactoria. El gráfico sugiere que la relación entre t y y 1 es más bien cuadrática: y 1 = at 2 + bt + c. Para estimar los coeficientes a, b y c en la ecuación anterior podrían usarse técnicas de regresión múltiple, como se mencionó en la primera sección. Pero otra opción es escribir la relación cuadrática en la forma y 1 = a(t h) 2 + k que es una forma alterna para la ecuación de una parábola, donde el punto (h,k) es el vértice. La ventaja de esta forma en el caso en estudio es que fácilmente se estima h de manera visual para no necesitar regresión múltiple. En efecto, se

observa en el gráfico que h 1640 (el valor de t donde se alcanza el vértice), así que la ecuación puede escribirse como y 1 = ax + k donde se define la nueva variable x = (t 1640) 2. Esta ecuación, y 1 = ax + k, también es lineal, pero no se puede confiar en que sea aceptable antes de ver el gráfico. Afortunadamente, en el gráfico de x vs y 1, a continuación, se nota que la relación sí es casi exactamente lineal. Página 11 de 13 Figura 1.6 y 1 como función de x = (t 1640) 2

El análisis de regresión para y 1 = ax + k arroja los coeficientes a = 4.2629 10 5, k = 9.6273. Entonces, devolviendo los cambios de variables que se hicieron, resulta (donde exp es la función exponencial natural). y 1 = 4.2629 10 5 x + 9.6273 lny = 4.2629 10 5 (t 1640) 2 + 9.6273 y = exp [ 4.2629 10 5 (t 1640) 2 + 9.6273 ] = 15173.8 1.00004263 (t 1640)2 El gráfico siguiente muestra los puntos que habíamos visto en la figura 1.4 junto con el gráfico de la ecuación anterior. Como se ve, la regresión es bastante precisa. Página 12 de 13

Figura 1.7 Curva de regresión para la población como función del tiempo Página 13 de 13 Finalmente, se acepta la siguiente ecuación como aproximación de la población de Costa Rica en función del año: Población = 15173.8 1.00004263 (Año 1640)2 [1] Acuña, L. (2004). Estadística aplicada con Fathom (1era ed). Costa Rica: Editorial Tecnológica de Costa Rica. [2] Devore, J. (2006). Probabilidad y estadística para ingeniería y ciencias (6ta ed). México: Thomson Paraninfo.