Introducción al modelo de regresión logística

Documentos relacionados
1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

ESTADÍSTICA. Tema 4 Regresión lineal simple

Tercera práctica de REGRESIÓN.

Tema 10: Introducción a los problemas de Asociación y Correlación

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

T2. El modelo lineal simple

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

TEMA V ANÁLISIS DE REGRESIÓN LOGÍSTICA

Métodos Estadísticos Multivariados

Teoría de la decisión

Tema 3: Análisis de datos bivariantes

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

1. Ejercicios. 2 a parte

Tema 13. Regresión Logística

Tema 13: Distribuciones de probabilidad. Estadística

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

Part I. Variables aleatorias unidimensionales. Estadística I. Mario Francisco. Definición de variable aleatoria. Variables aleatorias discretas

Una forma fácil de recordar esta suma (regla de Sarrus): Primero vamos a estudiar algunas propiedades de los determinantes.

Análisis de datos Categóricos

Tema 6. Variables aleatorias continuas

Método de cuadrados mínimos

ANÁLISIS DE LA VARIANZA CON UN FACTOR (ANOVA)

TEMA 3: Contrastes de Hipótesis en el MRL

Estadistica II Tema 0. Repaso de conceptos básicos. Curso 2009/10

Econometría II Grado en finanzas y contabilidad

Análisis Probit. StatFolio de Ejemplo: probit.sgp

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

Capítulo 8. Análisis Discriminante

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis

Práctica 5 ANÁLISIS DE UNA MUESTRA INTERVALOS DE CONFIANZA CONTRASTE DE HIPÓTESIS

PRUEBA DE HIPÓTESIS BENJAMIN MAMANI CONDORI

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

Introducción a la regresión ordinal

Estadísticas Elemental Tema 3: Describir la relación entre dos variables: Correlación y regresión 3.1-1

Formulación del problema de la ruta más corta en programación lineal

1 Método de la bisección. 1.1 Teorema de Bolzano Teorema 1.1 (Bolzano) Contenido

UNIVERSIDAD ABIERTA PARA ADULTOS (UAPA) Maestría en Dirección Financiera. Asignatura: Método Cuantitativo Empresarial

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Curs de Modelització Estadística Bàsica amb Deducer. Anabel Blasco Ana Vázquez Anna Espinal Llorenç Badiella Oliver Valero

JUNIO Bloque A

TEMA 10 COMPARAR MEDIAS

Unidad IV: Distribuciones muestrales

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8.

Transformaciones de Potencia

ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M.

CORRELACIÓN Y REGRESIÓN. Raúl David Katz

Estructura de este tema. Tema 3 Contrastes de hipótesis. Ejemplo

1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN MÚLTIPLE Julián de la Horra Departamento de Matemáticas U.A.M.

UNIVERSIDADES PÚBLICAS DE LA COMUNIDAD DE MADRID PRUEBA DE ACCESO A LAS ENSEÑANZAS UNIVERSITARIAS OFICIALES DE GRADO

4.1 Análisis bivariado de asociaciones

Prácticas Tema 6. Modelos de ecuaciones simultáneas

Espacios Vectoriales Euclídeos. Métodos de los mínimos cuadrados

Fundamentos de Biología Aplicada I Estadística Curso Práctica 6: Regresión Logística I

Relación entre la altura y la distancia del suelo al ombligo

Índice general. Pág. N. 1. Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN. Diseño. Población. Muestra. Individuo (Observación, Caso, Sujeto) Variables

SEPTIEMBRE Opción A

Carrera: EMM Participantes Representante de las academias de ingeniería Electromecánica de los Institutos Tecnológicos.

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

Tema 2. Descripción Conjunta de Varias Variables

Álgebra Lineal Ma1010

I.E.S. DE INGENIO Avda. de los Artesanos, INGENIO POC-PC EVALUACIÓN CONTENIDOS MÍNIMOS CURSO CURSO: 1º BACH.

Jesús Eduardo Pulido Guatire, marzo Diagrama de Dispersión y Correlación Lineal Simple

Intervalos de confianza y contrastes de hipótesis. Intervalo de confianza de la media.

Econometría Universidad Carlos III de Madrid Soluciones Examen Final 27 de Mayo de 2013

Tribunal de la Oposición al Cuerpo Superior de Estadísticos del Estado

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Regresión Lineal. Dra. Noemí L. Ruiz Limardo 2008 Derechos Reservados, Rev 2010

Tema 9: Contraste de hipótesis.

Estadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis. Facultad de Ciencias Sociales, UdelaR

Derivada y diferencial

Repaso Estadística Descriptiva

Tema 5. Contraste de hipótesis (I)

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Cuadratura de Newton-Cotes

CONTENIDOS MÍNIMOS MATEMÁTICAS 2º Y 4º E.S.O.

INTERVALOS Y SEMIRRECTAS.

Proceso de análisis de regresión múltiple

Estadística Descriptiva II: Relación entre variables

UNIDAD Nº4. Ejemplo.- Dados los Gastos de publicidad en los meses enero a julio, los cuales generan los sgts. Ingresos:

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Ejercicio 1 (20 puntos)

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

3. ANÁLISIS DE DATOS DE PRECIPITACIÓN.

OPTIMIZACIÓN Y SIMULACIÓN PARA LA EMPRESA. Tema 5 Simulación

MUESTREO APUNTE. Índice: MUESTREO. Media Varianza Desvío Ejemplo CURVA DE GAUSS ( TEÓRICO) Interpretación de los resultados TAMAÑO DE MUESTRA

Fundamentos de Estadística y Simulación Básica

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

13. Utilizar la fórmula del término general y de la suma de n términos consecutivos

MATEMÁTICAS APLICADAS A LAS CCSS II (2º BACHILLERATO)

Estimación MC2E, MVIL en Modelos de Ecuaciones Simultáneas

4º E.S.O Opción A: DEPARTAMENTO DE MATEMÁTICAS

PRÁCTICA 8: CONTRASTES DE HIPÓTESIS PARAMÉTRICOS

Regresión Lineal Múltiple

Estadís5ca. María Dolores Frías Domínguez Jesús Fernández Fernández Carmen María Sordo. Tema 2. Modelos de regresión

ANÁLISIS DE FRECUENCIAS

viii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos

Resumen teórico de los principales conceptos estadísticos

Estadísticas Pueden ser

Transcripción:

Introducción al modelo de regresión logística JOSÉ R BERRENDERO DEPARTAMENTO DE MATEMÁTICAS UNIVERSIDAD AUTÓNOMA DE MADRID INTRODUCCIÓN Y MOTIVACIÓN El modelo de regresión logística se utiliza para investigar la relación entre una variable respuesta dicotómica (es decir, una variable cualitativa que toma dos posibles valores) y un conjunto de variables regresoras Veamos un ejemplo de esta situación El 4 de julio de 999 una tormenta con vientos que excedían las 90 millas por hora azotó el nordeste de Minnesota, en EEUU, causando graves daños en los bosques de un parque natural de la zona Los científicos analizaron los efectos de la tormenta determinando para más de 3600 árboles del parque su diámetro en cm (variable D), una medida de la severidad local de la tormenta relacionada con el porcentaje inerte de área basal de cuatro de las especies (variable S), una variable que registraba si cada árbol había muerto (y = ) o si había sobrevivido (y = 0) y finalmente la especie a la que pertenecía cada árbol (variable SSP) Los datos se encuentran en el fichero tormentasav y han sido analizados, por ejemplo, en el capítulo 2 de Weisberg (2005) La figura muestra diagramas de cajas de los diámetros de los árboles y de la variable que mide la fuerza de la tormenta, tanto para los árboles que sobrevivieron a la tormenta como para los que no Aunque los dos grupos se solapan se observa que los árboles que sobreviven tienden a tener un menor diámetro También se observa que, como es lógico, la fuerza de la tormenta tiende a ser menor en las zonas correspondientes a los árboles supervivientes A la vista de estas observaciones, parece que el diámetro y la variable S pueden ser útiles para estimar la probabilidad de supervivencia de un árbol El modelo de regresión logística nos permite describir la probabilidad de que un árbol sobreviva o no como función del resto de las variables explicativas, determinar si estas variables modifican significativamente dicha probabilidad y estimar, en función de las variables regresoras, la probabilidad de que un árbol sobreviva o no El área de un terreno ocupada por la sección de los troncos de los árboles en la base

Diámetro 20 40 60 80 S 00 02 04 06 08 0 0 0 Figura : Diagramas de cajas para los datos de la tormenta 2 EL MODELO DE REGRESIÓN LOGÍSTICA 2 FORMULACIÓN DEL MODELO Disponemos de n observaciones Cada observación (Y i, x i,, x ik ) está formada por el valor de la variable respuesta Y i, que es cero o uno, y un vector de variables regresoras (x i,, x ik ) Resulta conveniente denotar x i = (, x i,, x ik ), donde la primera coordenada igual a corresponde al término independiente del modelo Las dos primeras hipótesis necesarias para especificar el modelo de regresión logística son: (H) Las variables Y,,Y n son independientes (H2) Cada respuesta Y i tiene distribución de Bernoulli, B(, p i ), donde p i = P(Y i = x i ) La hipótesis (H2) supone una diferencia importante respecto a los modelos de regresión lineal La distribución normal ya no resulta adecuada como modelo para Y i y se sustituye por la distribución de Bernoulli Además, la probabilidad de que una observación pertenezca a uno de los dos posibles grupos (y = 0 ó y = ) depende en general de los valores de las variables regresoras x i Para terminar de especificar el modelo necesitamos determinar cuál es la relación entre la variable respuesta y el vector de variables regresoras En principio podríamos pensar en extender de forma directa la formulación del modelo de regresión lineal a esta nueva situación Sin embargo la relación p i = β 0 + β x i + + β k x ik no es adecuada ya que, en general, una combinación lineal de variables regresoras no tomará valores entre 0 y por lo que no se puede usar como modelo para describir una probabilidad La solución es usar una transformación F (β 0 + β x i + + β k x ik ) que siempre tome valores entre 0 y Hay varias transformaciones F que se pueden usar, pero la más utilizada es la función logística, F (x) = + e x 2

F(x) 00 02 04 06 08 0 6 4 2 0 2 4 6 x Figura 2: La función logística Esta función es relativamente fácil de manejar y además, como veremos, proporciona un modelo cuyos parámetros tienen una interpretación clara La representación gráfica de esta función se puede ver en la figura 2 Usando la función logística, llegamos a la tercera hipótesis del modelo: (H3) La relación entre x i y p i viene dada por: p i = P(Y i = x i ) = Las hipótesis (H), (H2) y (H3) especifican totalmente el modelo + e β 0 β x i β k x ik () 22 INTERPRETACIÓN DE LOS PARÁMETROS Es fácil comprobar que () se puede escribir también de la siguiente forma: O i = p i p i = e β 0+β x i + +β k x ik (2) La variable O i corresponde a la razón de probabilidades del suceso y i = respecto al suceso y i = 0 Por ejemplo, cuando O i = 2, entonces y i = es el doble de probable que y i = 0 Resulta conveniente interpretar los coeficientes β j del modelo en función de la razón de probabilidades: supongamos que O i es la razón de probabilidades para el individuo i cuando la variable regresora j toma un valor u, y sea O la razón de probabilidades para el individuo i i cuando dicha variable regresora se incrementa una unidad (y pasa a valer u + ) mientras que el resto de variables permanece constante Entonces, por (2), O i O i = eβ0+ +βj (u+)+ +βk xik e β 0+ +β j u+ +β k x ik = e β j 3

Como consecuencia, podemos interpretar e β j en términos de la variación de la razón de probabilidades cuando la variable regresora j se incrementa en una unidad y el resto de variables permanece constante Por ejemplo, si e β j = 2 entonces, para un incremento de una unidad de la variable j y manteniendo el resto de variables constantes, se duplica la razón de probabilidades del suceso y i = frente a y i = 0 3 ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO Sea β el vector de coeficientes (β 0,,β k ) El vector β se puede estimar usando el método de máxima verosimilitud Dado que las variables Y,,Y n tienen distribución binomial, la función de verosimilitud es L(β) = n i= p Y i i ( p i ) Y i En la expresión anterior hay que observar que p i depende de β según se describe en la ecuación () Los estimadores de máxima verosimilitud corresponden al vector ˆβ que maximiza L(β) Como de costumbre, resulta más fácil maximizar el logaritmo de la verosimilitud: l(β) = lnl(β) = n [ Yi ln p i + ( Y i )ln( p i ) ] i= Para maximizar, derivamos l(β) para obtener el gradiente l(β) y después resolvemos el sistema de ecuaciones l(β) = 0 Teniendo en cuenta que al derivar p i respecto de β se obtiene p i = p i ( p i )x i, se deduce que los estimadores de máxima verosimilitud ˆβ resuelven el siguiente sistema de k + ecuaciones: donde ˆp i = n n Y i x i = ˆp i x i, (3) i= i= + e ˆβ 0 ˆβ x i ˆβ k x ik La ecuación (3) es razonable: los estimadores de máxima verosimilitud son aquellos valores de los coeficientes tales que la suma de los vectores muestrales x i para los casos en los que Y i = (término de la izquierda) coincide con la suma de los mismos vectores x i ponderados por las probabilidades estimadas de Y i = (término de la derecha) Poblacionalmente, la misma igualdad se tendría que cumplir al usar las verdaderas probabilidades p i, lo que da cierta garantía de consistencia de los estimadores No es posible despejar ˆβ en (3) para obtener una expresión explícita Es necesario resolver la ecuación mediante algún método numérico iterativo Un método muy utilizado es el algoritmo de Newton-Raphson Algunos de estos métodos están implementados en SPSS o R y permiten también aproximar el error típico de los estimadores 4

4 REGRESIÓN LOGÍSTICA CON SPSS Para explicar cómo se ajusta un modelo de regresión logística con SPSS consideramos los datos del ejemplo El modelo es: p i = P(Y i = D i,s i ) = + e β 0 β D i β 2 S i, donde D i es el diámetro del árbol i, S i mide la fuerza local de la tormenta en la posición del árbol i y la respuesta es Y i = si el árbol i no sobrevivió a la tormenta e Y i = 0 en caso contrario Una vez tenemos el fichero de datos a la vista vamos al menú: Analizar Regresión Logística binaria Como variable dependiente elegimos la variable respuesta y En la ventana Covariables situamos las variables regresoras D y S Pulsamos el botón Aceptar De todos los resultados que aparecen los más relevantes son los que aparecen en la figura 3 Resumen del modelo Paso -2 log de la verosimilitud R cuadrado de Cox y Snell R cuadrado de Nagelkerke 3883,256 a,274,366 a La estimación ha finalizado en el número de iteración 5 porque las estimaciones de los parámetros han cambiado en menos de,00 Variables en la ecuación Paso a D S Constante B,097 4,424-3,543 ET,005,89,27 Wald 346,022 545,22 774,463 gl Sig,000,000,000 Exp(B),02 83,42,029 a Variable(s) introducida(s) en el paso : D, S Figura 3: Ajuste del modelo para los datos de la tormenta El cuadro inferior tiene una interpretación análoga a la de los modelos de regresión lineales En las dos columnas B y ET aparecen los estimadores de máxima verosimilitud y sus errores típicos: ˆβ 0 = 3,543(0,27), ˆβ = 0,097(0,005) y ˆβ 2 = 4,424(0,89) Por lo tanto, ˆp i = + e 3,543 0,097D i 4,424S i Si en el botón Guardar del cuadro de diálogo marcamos la opción Probabilidades, el programa calcula las probabilidades estimadas ˆp i para todos los árboles de la muestra Estas probabilidades aparecen en una nueva columna en el fichero de datos Es posible añadir los 5

datos de nuevos árboles para los que no se conoce si sobrevivieron o no y el programa también calculará las correspondientes probabilidades estimadas En la columna Exp(B) del cuadro aparecen los valores e ˆβ j, cuya interpretación hemos comentado anteriormente Por ejemplo, dado que e ˆβ =,02 la razón de probabilidades de no supervivencia frente a supervivencia se multiplica por,02 si el diámetro del árbol aumenta cm y la variable S no cambia La nota al pie del cuadro superior nos informa de que el método numérico para resolver (3) necesitó de 5 iteraciones para converger En la primera columna de este cuadro aparece el valor de D 2 = 2l( ˆβ) = 3883,256, que en algunos libros llaman la desviación (deviance) Cuanto menor es la desviación, mayor es la verosimilitud (debido al signo negativo) y, por lo tanto, mejor es el ajuste del modelo a los datos disponibles Los coeficientes de determinación de Cox-Snell y de Nagelkerke comparan las desviaciones del modelo completo y del modelo reducido que sólo incluye el término independiente 2 Ambos toman valores entre cero y uno y su interpretación es análoga a la del coeficiente de determinación en los modelos de regresión lineal 5 CONTRASTES E INTERVALOS DE CONFIANZA Bajo condiciones de regularidad, la distribución de los estimadores de máxima verosimilitud es aproximadamente normal, es decir, los valores estandarizados ˆβ j β j z j = error típico de β j tienen aproximadamente distribución normal estándar Como consecuencia, un intervalo de confianza de nivel aproximado α para β j se obtiene mediante la fórmula: [ ˆβ j z α/2 error típico de ˆβ j ] Dada la interpretación de los parámetros en el modelo logístico resulta de interés la obtención de intervalos de confianza para e β j Como la función exponencial es monótona, basta transformar adecuadamente el intervalo anterior: [exp( ˆβ j z α/2 error típico de ˆβ j ),exp( ˆβ j + z α/2 error típico de ˆβ j )] Bajo H 0 : β i = 0, se verifica que el estadístico de Wald ˆβ j z j = error típico de ˆβ j 2 Por ejemplo, el coeficente de Cox-Snell se define como R 2 = exp[(d 2 D 0 2)/n], donde D2 0 es la desviación del modelo reducido y n es el tamaño muestral Si R 2 0, las desviaciones de los dos modelos son similares lo que implica que el conjunto de variables regresoras no es muy significativo El coeficiente de Nagelkerke es una modificación del de Cox-Snell 6

se distribuye aproximadamente según una normal estándar Este valor (elevado al cuadrado) aparece en la columna Wald de la figura 3 en la sección anterior Una región crítica con nivel de significación aproximado α para contrastar H 0 : β j = 0 es, por lo tanto, { ˆβ } {( ) 2 } j ˆβ j R = error típico de ˆβ > z α/2 = j error típico de ˆβ > χ 2,α, j teniendo en cuenta que una normal estándar al cuadrado tiene distribución χ 2 El p-valor para este contraste aparece en la columna Sig de la figura 3 Para los datos del ejemplo, todos los coeficientes son significativamente distintos de 0 (p < 0,00) 6 APLICACIÓN AL PROBLEMA DE CLASIFICACIÓN En el modelo de regresión logística, predecir el valor de la variable respuesta Y 0 dado un nuevo vector independiente de variables regresoras x 0 equivale a clasificar la correspondiente observación en uno de los dos posibles grupos Resulta razonable predecir Ŷ 0 = cuando ˆp 0 > /2, donde ˆp 0 = + e ˆβ 0 ˆβ x 0 ˆβ k x 0k es la probabilidad estimada de Y 0 = dado el vector de variables x 0 Este criterio lleva a la siguiente regla de clasificación lineal: Ŷ 0 = ˆβ 0 + ˆβ x 0 + + ˆβ k x 0k > 0 S 00 02 04 06 08 0 20 40 60 80 Diametro Figura 4: La regla de clasificación logística Por ejemplo, clasificaremos un árbol como no superviviente (Ŷ 0 = ) si las correspondientes variables D 0 y S 0 verifican 0,097 D 0 + 4,424 S 0 > 3,543 7

En la figura 4 se representan los pares (D i,s i ) para todos los árboles de la muestra, en color gris (no supervivientes) o color negro (supervivientes) junto con la representación gráfica de la recta que divide las regiones en las que clasificaríamos un nuevo árbol como superviviente o no superviviente EJERCICIOS Teniendo en cuenta la salida de SPSS que aparece en la sección 4, responde a las cuestiones siguientes: (a) La probabilidad estimada de que un árbol sobreviva a la tormenta, crece o decrece con el diámetro? (b) Calcula un intervalo de confianza de nivel 95% para β (c) Calcula un intervalo de confianza de nivel 95% para e β (d) Estima la probabilidad de que no sobreviva un árbol cuyo diámetro es de 30 cm situado en una zona en la que la fuerza de la tormenta viene dada por S = 0,8 2 Ajusta un modelo de regresión logística simple que incluya únicamente el diámetro como variable regresora para explicar la probabilidad de no supervivencia de los árboles Responde a las siguientes cuestiones relacionadas con este modelo: (a) A nivel α = 0,00, es posible afirmar que el diámetro influye en la probabilidad de que un árbol sobreviva? (b) Escribe la regla para clasificar un árbol como superviviente o no superviviente en función de su diámetro 3 Se dispone de medidas en cm (fichero irissav) de la longitud y anchura del pétalo y el sépalo de 00 lirios correspondientes a dos especies diferentes: iris versicolor (y = 0) e iris virginica (y = ) Se ha ajustado un modelo de regresión logística a los datos con el fin de estudiar la probabilidad de que un lirio pertenezca a cada una de las dos especies en función de las cuatro medidas Los resultados más relevantes obtenidos con SPSS se muestran en la figura 5 Contesta a las siguientes cuestiones relacionadas con el ajuste: (a) Es bueno el ajuste del modelo a los datos? (b) A nivel α = 0,05, qué variables son significativas? Y a nivel α = 0,? (c) Calcula un intervalo de confianza de nivel 95% para el coeficiente correspondiente a la anchura del sépalo (d) Escribe la regla de clasificación lineal que proporciona el modelo con las cuatro variables Usando esta regla, en cuál de las dos especies se clasifica un lirio tal que la longitud de su pétalo es 5 cm, la anchura de su pétalo es 2 cm, la longitud de su sépalo es 6 cm y la anchura de su sépalo es 3 cm? 8

Resumen del modelo Paso -2 log de la verosimilitud R cuadrado de Cox y Snell R cuadrado de Nagelkerke,899 a,78,958 a La estimación ha finalizado en el número de iteración porque las estimaciones de los parámetros han cambiado en menos de,00 Variables en la ecuación Paso a LSepalo ASepalo LPetalo APetalo B -2,465-6,68 9,429 8,286 ET 2,394 4,480 4,737 9,743 Wald,060 2,224 3,962 3,523 gl Sig,303,36,047,06 Exp(B),085,00 2448,870 8,74E7 Constante -42,638 25,708 2,75,097 a Variable(s) introducida(s) en el paso : LSepalo, ASepalo, LPetalo, APetalo,000 Figura 5: Ajuste del modelo para los datos de los lirios REFERENCIAS Weisberg, S (2005) Applied linear regression, tercera edición Wiley, Nueva York Página 9