Mínimos Cuadrados Parciales

Documentos relacionados
Análisis Probit. StatFolio de Ejemplo: probit.sgp

Regresión en Cadena. StatFolio de Ejemplo: ridge reg.sgp

Ajustando Curva SnapStat

Modelos de Calibración

Análisis de Componentes de la Varianza

Regresión No Lineal. StatFolio de ejemplo: nonlinear reg.sgp

Regresión Polinomial. StatFolio de Ejemplo: polynomial reg.sgp

Transformaciones de Box-Cox

Transformaciones de Potencia

Estadísticas por Filas

Gráfico de Desgaste de Herramientas

Modelado y simulación en Ingeniería Química. Manuel Rodríguez

Exactitud y Linearidad del Calibrador

Gráfico de Control T-Cuadrada Multivariada

Gráfico de Probabilidad Normal

Correlaciones Canónicas

Selección del Modelo de Regresión

Análisis de Capacidad Multivariada

Método Analítico (Estudio del Calibrador Atributos)

Gráficos X-Bar y S. StatFolio de Muestra: xbarschart.sgp

Comparación de dos Muestras - SnapStat

REGRESIÓN Y ESTIMACIÓN TEMA 1: REGRESIÓN LINEAL SIMPLE

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

ANÁLISIS DE REGRESIÓN

Gráfico Arrhenius. Ejemplo StatFolio: arrhenius.sgp

Análisis de regresión y correlación lineal

Pronósticos Automáticos

Método de cuadrados mínimos

Comparación de Líneas de Regresión

Gráficos de Probabilidad

Método de Análisis del Riesgo (Estudio del Calibrador Atributos)

MPG City (MPG en Ciudad)

Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de Peso sobre Altura Datos en Encuesta.sgd a) Estudio descriptivo de ambas variables

Gráfico de Medias Móviles (MA)

Snapstat: Comparación de Varias Muestras

Capítulo 8. Selección de variables Introducción

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

Diseño de Experimentos Diseños de un Solo Factor Categórico

Grafico Cusum (Mascara-V)

Gráfico X-Y-Z. StatFolio de Muestra: xyzplot.sgp

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

ESTADISTICA PARA LA CALIBRACIÓN Y VALIDACIÓN DE METODOLOGÍAS ANALÍTICAS

Unidad Temática 3: Estadística Analítica. Unidad 9 Regresión Lineal Simple Tema 15

2. EL DISEÑO UNIFACTORIAL (COMPARACION DE TRATAMIENTOS)

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

Método del Rango (Estudio del Calibrador Variables)

Qué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y)

Tercera práctica de REGRESIÓN.

Diseño de Experimentos Diseños para Varios Factores Categóricos

Tema 5: Calibración de modelos. Modelado y simulación en Ingeniería Química. Manuel Rodríguez

Parámetros Estadísticos básicos, Resumen y Presentación de datos. Jhon Jairo Padilla, PhD.

Método del Rango y Promedio (Estudio del Calibrador - Variables)

Diagrama de Barras Múltiple

MODELADO CALIBRACIÓN MULTIVARIADA

Diseño de Experimentos Optimización de Múltiples Respuestas

Regresión polinomial y factores

MODELADO CALIBRACIÓN MULTIVARIADA

Estimación PLS de modelos SEM, UMA. Modelos de Ecuaciones Estructurales con PLS (Partial Least Squares)

Análisis de Capabilidad (Porcentaje Defectuoso)

ANALISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

Regresión Lineal. El modelo de regresión caracteriza la relación entre una variable respuesta que depende de k variables independientes o regresoras.

Jesús García Herrero TÉCNICAS CLÁSICAS DE ANÁLISIS DE DATOS

Histogramas. Ejemplo StatFolio: histogram.sgp

TEMA N 1.- ANÁLISIS DE REGRESIÓN Y MÉTODO DE MÍNIMOS CUADRADOS

Diseño de Experimentos Diseño de Componentes de la Varianza

Clasificador de Redes Neurales

Selección Diseño de Cribado

Método ANOVA (Estudio del Calibrador Variables)

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

DISEÑO EXPERIMENTAL Y OPTIMIZACIÓN DE SISTEMAS CON MÚLTIPLES RESPUESTAS

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

GUIA DE EXCEL PARA ANÁLISIS ESTADÍSTICO BÁSICO DE DATOS EXPERIMENTALES

Diseño de experimentos - Experimentos multifactoriales.

CASO 5-3 MILAN FOOD COOPERATIVE (B)

Regresión ponderada y falta de ajuste

UNIVERSIDAD DE ANTIOQUIA FACULTAD NACIONAL DE SALUD PÚBLICA Héctor Abad Gómez. Facultad Nacional de Salud Pública Héctor Abad Gómez

PRÁCTICA 3. REGRESIÓN LINEAL SIMPLE CON SPSS Ajuste de un modelo de regresión lineal simple Porcentaje de variabilidad explicado

3. RELACION ENTRE DOS CONJUNTOS DE DATOS.

PRÁCTICA 2: LA RECTA DE REGRESIÓN

Anomalías en regresión y medidas remediales

Tema 3: Análisis de datos bivariantes

REGRESION POLINOMIAL Y FACTORES. E Y X x x x

El ejemplo: Una encuesta de opinión

GUÍA DE STATGRAPHICS 5.1

UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE CIENCIAS NATURALES Y MUSEO CÁTEDRA DE ESTADÍSTICA CLASE ESPECIAL. Tema:

Tema 2: Regresión. Grado en Fisioterapia, 2010/11. Jesús Montanero Fernández. Cátedra de Bioestadística Universidad de Extremadura

Regresión Lineal Múltiple

Estadís5ca. María Dolores Frías Domínguez Jesús Fernández Fernández Carmen María Sordo. Tema 2. Modelos de regresión

TEMA 2 Diseño de experimentos: modelos con varios factores

Curso de nivelación Estadística y Matemática

7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL. Jorge Eduardo Ortiz Triviño

CORRELACIÓN Y REGRESIÓN. Juan José Hernández Ocaña

4.1 Análisis bivariado de asociaciones

Análisis de Tendencia de los Costos de Calidad

Viernes 7 de octubre de 2005 Mate 3026 Estadística con Programación Prof. José N. Díaz Caraballo

TALLER DE INTRODUCCIÓN A LOS NEGOCIOS

Determinación del tamaño de muestra (para una sola muestra)

Transcripción:

Mínimos Cuadrados Parciales Resumen El procedimiento Mínimos Cuadrados Parciales (PLS Partial Least Squares) está diseñado para construir un modelo estadístico que relaciona múltiples variables independientes X con múltiples variables dependientes Y. El procedimiento es mucho más útil cuando hay muchos factores y el objetivo principal es predecir las variables respuesta. Los mínimos cuadrados parciales (PLS) son ampliamente usados por ingenieros químicos y quimiométricos para calibración espectrométrica. StatFolio de Ejemplo: pls.sgp Datos de Ejemplo: El archivo spectra.sf6 contiene los espectros observados de n = 33 muestras que contienen concentraciones conocidas de dos aminoácidos, tirosina (tyrosine) y triptofano (tryptophan). Los espectros están medidos a k = 30 frecuencias. Una porción de los datos, tomados de McAvoy et al. (1989), se muestra a continuación: Sample Tryptophan Tyrosine f1 f2 f3 f4 f5 17mix35 0.00003000 0.00000001-6.215-5.809-5.114-3.963-2.897 19mix35 0.00002970 0.00000030-5.516-5.294-4.823-3.858-2.827 21mix35 0.00002925 0.00000075-5.519-5.294-4.501-3.863-2.827 23mix35 0.00002850 0.00000150-5.294-4.705-4.262-3.605-2.726 25mix35 0.00002700 0.00000300-4.600-4.069-3.764-3.262-2.598 27mix35 0.00002250 0.00000750-3.812-3.376-3.026-2.726-2.249 29mix35 0.00001500 0.00001500-3.053-2.641-2.382-2.194-1.977 28mix35 0.00000750 0.00002250-2.626-2.248-2.004-1.839-1.742 26mix35 0.00000300 0.00002700-2.370-1.990-1.754-1.624-1.560 24mix35 0.00000150 0.00002850-2.326-1.952-1.702-1.583-1.507 La columna de más a la izquierda identifica cada muestra (sample). Las siguientes 2 columnas son concentraciones conocidas de los aminoácidos. Las 30 columnas restantes contienen los espectros medidos. Nota: concentraciones originalmente iguales a 0 se pusieron a 1.0E-8 para que se pudiera realizar la transformación logarítmica. A continuación se muestra el espectro observado para una muestra típica: 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 1

Gráfico de Muestras vs Frecuencia 1.7-0.3 Muestras -2.3-4.3-6.3 0 5 10 15 20 25 30 Frecuencia Las primeras 18 muestras se usarán como grupo de entrenamiento para estimar un modelo de predicción. Entonces el modelo se probará en las 15 muestras restantes. Ingreso de Datos La caja de diálogo solicita los nombres de las columnas que contienen a las variables dependientes Y e independientes X: 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 2

Y: una o más columnas numéricas que contienen las n observaciones para las variables dependientes Y. Se pueden ingresar nombres de columnas o expresiones de STATGRAPHICS. X: una o más columnas numéricas que contienen los n valores para las variables independientes X. Selección: selección de un subgrupo de datos. Las filas seleccionadas se usarán como el grupo de entrenamiento. Las filas así elegidas pueden usarse como un grupo de prueba para validar el modelo ajustado. En el ejemplo, se tomaron los logaritmos base 10 de las concentraciones para crear dos variables dependientes. Todas las 30 frecuencias se ingresaron en el campo de las Variables Independientes. La entrada en el campo Selección hará que las primeras 18 filas se usen como grupo de entrenamiento. 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 3

Modelo Estadístico Al igual que en regresión múltiple, el objetivo de los mínimos cuadrados parciales (PLS) es construir un modelo lineal de la forma Y = Xβ + E (1) donde Y es una matriz n por m que contiene los n valores estandarizados de las m variables dependientes, X es una matriz n por p que contiene los valores estandarizados de las p variables predictoras, β es una matriz p por m de parámetros del modelo, y E es una matriz n por m de errores. A diferencia de la regresión múltiple, el número de observaciones n puede ser menor que el número de variables independientes p. Sin embargo, en vez de estimar β directamente, se extraen primero c componentes. Luego los coeficientes se calculan a partir del producto de dos matrices: β = WQ (2) donde W es una matriz p por c de pesos que transforman a X en una matriz T de valores de los factores de acuerdo con T = XW (3) y Q es una matriz de coeficientes de regresión (cargas) que expresan la dependencia entre Y y los valores de los factores: Y = TQ + E (4) La matriz de variables independientes también puede representarse en términos de P una matriz c por p de cargas de factores como X = TP + F (5) donde F es una matriz n por p de desviaciones. Parte de la tarea al realizar un análisis de mínimos cuadrados parciales (PLS) es determinar el número apropiado de componentes c. Si se establece c demasiado bajo o demasiado alto, el modelo puede no dar buenas predicciones para las futuras observaciones. 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 4

Resumen del Análisis El Resumen de Análisis muestra información sobre el modelo ajustado. La sección de arriba de la salida resume los datos de entrada y presenta un análisis de varianza para cada variable dependiente. Mínimos Cuadrados Parciales (FIRST(18)) Número de variables dependientes: 2 LOG10(Tryptophan) LOG10(Tyrosine) Número de variables independientes: 30 Número de casos completos: 18 Número de componentes extraidos: 10 Validación cruzada: prueba de establecer tamaño 15 Análisis de Varianza para LOG10(Tryptophan) Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P Modelo 17.8939 10 1.78939 1629.42 0.0 Residuo 0.00768727 7 0.00109818 Total (corr.) 17.9016 17 Análisis de Varianza para LOG10(Tyrosine) Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P Modelo 23.6216 10 2.36216 91.5542 0.0 Residuo 0.180605 7 0.0258006 Total (corr.) 23.8022 17 Se incluyen en la salida: Resumen Estadístico: un indicador del número (p) de variables X y (m) del número de variables Y. Número de Casos Completos: el número de observaciones n en el grupo de entrenamiento. Número de Componentes Extraídos: el número de componentes c usado para ajustar el modelo. c no puede ser mayor que el menor de p y (n 1). Validación Cruzada: el método para validar el modelo de predicción. Dependiendo de las Opciones del Análisis, un grupo de prueba interno o externo puede ser usado para ayudar a elegir el número de componentes. Análisis de Varianza: una tabla de ANOVA para cada una de las variables dependientes. Valores pequeños de P (por debajo de 0.05 si se trabaja al nivel de significancia del 5%) indican que el modelo es estadísticamente significativo. En el ejemplo anterior, se extrajeron 10 componentes. Los modelos resultantes son predictores significativos para las concentraciones de ambos aminoácidos., ya que ambos valores de P son extremadamente pequeños. La segunda parte de la salida ilustra la utilidad del modelo con diferente número de componentes: 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 5

Modelo para LOG10(Tryptophan) % Variación Cuadrado Medio Predicción Componente en Y R-Cuadrada PRESS R-Cuadrada 1 89.2544 89.2544 5.21663 66.661 2 1.5555 90.8099 10.6055 32.2211 3 2.72958 93.5395 3.42264 78.1262 4 3.35486 96.8943 6.17583 60.5307 5 2.34307 99.2374 6.17909 60.5099 6 0.662132 99.8995 5.89858 62.3026 7 0.0109937 99.9105 5.65696 63.8468 8 0.0376265 99.9482 6.47843 58.5969 9 0.00747959 99.9556 6.62841 57.6384 10 0.00142102 99.9571 6.04774 61.3494 Modelo para LOG10(Tyrosine) % Variación Cuadrado Medio Predicción Componente en Y R-Cuadrada PRESS R-Cuadrada 1 33.0645 33.0645 55.4905 0.0 2 37.8953 70.9599 9.97547 40.5959 3 15.5414 86.5012 22.7444 0.0 4 7.78511 94.2863 8.17638 51.3096 5 2.66735 96.9537 6.92665 58.7517 6 1.17416 98.1279 6.23816 62.8517 7 0.639761 98.7676 5.43445 67.6378 8 0.103256 98.8709 5.12607 69.4742 9 0.186533 99.0574 4.45825 73.451 10 0.183816 99.2412 15.2919 8.93679 Para cada variable dependiente, las tablas muestran: % de Variación en Y: el porcentaje de la suma de cuadrados total corregida para el grupo de entrenamiento explicada por cada componente conforme es agregado al ajuste. R-Cuadrada: el porcentaje acumulado del total de la variación explicada por los modelos con el número indicado de componentes, en una escala de 0% a 100%. Cuadrado Medio PRESS: cuadrado medio de los errores de predicción, calculado a partir del grupo de prueba de validación cruzada (PRESS, Prediction Error Sum of Squares Suma de Cuadrados del Error de Predicción). Esta estadística es comparable al cuadrado medio de los residuos de la tabla de ANOVA, excepto que la primera se calcula a partir de las predicciones para las observaciones cuando éstas no se emplean para ajustar el modelo. Al elegir el número de componentes a extraer, se debe buscar un modelo con un cuadrado medio PRESS pequeño. R Cuadrada de Predicción: uno menos la razón del Cuadrado Medio PRESS para el número indicado de componentes al valor cuando se ajusta un modelo con sólo un término constante. Valores altos indican buenos modelos. La R Cuadrada de Predicción alcanza un pico para LOG10(Tryptophan) en 3 componentes, y para LOG10(Tyrosine) en 9 componentes. 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 6

La última sección de la salida presenta una tabla similar para los porcentajes de la variación total en las variables X y Y explicada conforme aumenta el número de componentes. Variables Independendientes y Dependientes % Variación % Acumulado % Variación % Acumulado Predicción Promedio Componente en X de X en Y de Y R-Cuadrada 1 81.0322 81.0322 61.1595 61.1595 33.3305 2 16.8495 97.8816 19.7254 80.8849 36.4085 3 1.85606 99.7377 9.13549 90.0204 39.0631 4 0.197979 99.9357 5.56999 95.5903 55.9202 5 0.0276934 99.9634 2.50521 98.0956 59.6308 6 0.0128011 99.9762 0.918146 99.0137 62.5772 7 0.00539246 99.9816 0.325377 99.3391 65.7423 8 0.00581347 99.9874 0.0704414 99.4095 64.0355 9 0.00468166 99.9921 0.0970064 99.5065 65.5447 10 0.00405589 99.9961 0.0926184 99.5991 35.1431 La última columna muestra la R Cuadrada de Predicción promedio a través de todas las variables dependientes. El promedio alcanza un pico en 7 componentes, sugiriendo que un modelo con siete componentes sería una buena elección. Gráfico Comparativo de Modelos El porciento de variación acumulada en X y Y y la R cuadrada de predicción promedio exhibidas en la tabla anterior se grafican en la Gráfica de Comparación de Modelos. Gráfica de Comparación de Modelos Porciento de variación 100 80 60 40 20 X Y PRESS 0 1 2 3 4 5 6 7 8 9 10 Número de componentes Este gráfico es útil para visualizar cuántos componentes tienen que extraerse. Advierta que el porcentaje de variación para PRESS aumenta a lo largo de 7 componentes. Nota: En el resto de este documento, se mostrarán los resultados para un modelo con 7 componentes. 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 7

Opciones del Análisis Número de componentes: el número de componentes a incluir en el modelo. Este número no puede exceder al menor del número de variables independientes y n 1. Método de Validación: el método para validar de forma cruzada el modelo. Esto consiste en usar el modelo para predecir observaciones excluidas del ajuste del modelo. Se pueden usar los siguientes métodos: 1. Ninguno no se lleva a cabo la validación cruzada. 2. Sacar uno a la vez el modelo se vuelve a ajustar n veces, cada vez dejando fuera 1 de las observaciones y volviendo a ajustar el modelo usando las otras n 1. Luego la observación omitida se predice con el modelo del que fue excluida. 3. Sacar cada k-ésima éste es similar al método #2, excepto que sólo cada k-ésima observación es omitida y luego predicha. Esto acorta el proceso en grandes conjuntos de datos. 4. Dejar fuera bloques de k las observaciones se remueven en grupos de k, el modelo se vuelve a ajustar, y se predicen las k observaciones. 5. Usar casos no seleccionados si hizo uso del campo Seleccionar en la caja de diálogo del ingreso de datos, los casos excluidos por esa selección se usarán como casos de prueba. En el ejemplo, el campo Seleccionar eligió las primeras 18 filas para usarlas como grupo de entrenamiento para el modelo, formando con las 15 filas restantes un grupo de prueba. 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 8

Coeficientes de Regresión La table de Coeficientes de Regresión muestra los coeficientes estimados de los modelos ajustados. Se exhiben ambos coeficientes, estandarizados y sin estandarizar. A continuación se muestra una pequeña sección de la salida: Coeficientes de Regresión Coeficientes Estandarizados LOG10(Tryptophan) LOG10(Tyrosine) Constante 0.0 0.0 f1-0.160437 1.27641 f2 0.1732 0.767133 f3-0.170751 2.07999 f4 0.422583-3.19308 Coeficientes No Estandarizados LOG10(Tryptophan) LOG10(Tyrosine) Constante -4.85093-0.374954 f1-0.104881 0.962157 f2 0.113427 0.579294 f3-0.126316 1.77426 f4 0.406053-3.53788 El modelo sin estandarizar muestra la ecuación ajustada en la métrica de las mediciones originales. Por ejemplo, el modelo para la primera variable dependiente es log(tryptopan) = -4.851 0.105f 1 + 0.113f 2 0.126f 3 + 0.406f 4 + (6) El modelo estandarizado reexpresa cada una de las variables en una forma estandarizada substrayendo su media muestral y dividiendo entre su desviación estándar muestral. Expresando las nuevas variables como Y, X 1, X 2, y así sucesivamente, el modelo estandarizado para dos datos muestrales es Y = 0.160X 1 + 0.173X 2 0.171X 3 + 0.423X 4 + (7) Mientras que el modelo sin estandarizar es útil para hacer predicciones para nuevas muestras, los coeficientes del modelo estandarizado se comparan más fácilmente entre sí cuando las variables predictoras tienen diferentes unidades. 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 9

Gráfica de Coeficientes La Gráfica de Coeficientes presenta una de dos cantidades: 1. Los coeficientes de regresión estandarizados β para cada variable dependiente. 2. Las cargas Q del componente para cada variable dependiente. El ejemplo a continuación grafica las β s: Gráfica de Coeficientes PLS Coeficiente Estnd. 2.8 1.8 0.8-0.2-1.2-2.2-3.2 LOG10(Tryptophan) LOG10(Tyrosine) f1 f2 f3 f4 f5 f6 f7 f8 f9 f10 f11 f12 f13 f14 f15 f16 f17 f18 f19 f20 f21 f22 f23 f24 f25 f26 f27 f28 f29 f30 Los coeficientes proveen un tipo de firma para cada variable dependiente. Advierta el gran coeficiente negativo para f4 cuando predice LOG10(Tyrosine). Opciones de Ventana Eje Y: la cantidad y valor a graficar en el eje vertical. Primer Y/Comp: el índice de la primer variable o componente a incluir en el gráfico. Última Y/Comp: el índice de la última variable o componente a incluir en el gráfico. 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 10

Primer X: el índice de la primer variable independiente a incluir en el gráfico. Última X: el índice de la última variable independiente a incluir en el gráfico. Pesos y Cargas de los Componentes La tabla de Pesos y Cargas de los Componentes identifica cada uno de los componentes que se extrajeron de los datos. A continuación se muestra una porción de la tabla: Pesos y Cargas de los Componentes Variables Dependendientes 1 2 3 4 5 6 7 LOG10(Tryptophan) 0.192348 0.0570662 0.229545-0.764634 1.69537-1.39671-0.294154 LOG10(Tyrosine) -0.117072 0.281668 0.547727 1.16479 1.80889 1.85993 2.24394 Variables Independientes 1 2 3 4 5 6 7 f1-0.172149 0.403733 0.391608 0.298026 0.232811 0.334922-0.206403 f2-0.168901 0.414018 0.399816 0.327923 0.181725 0.00542026-0.137708 f3-0.163081 0.403805 0.290047 0.156741 0.045198-0.0121344 0.689201 f4-0.151243 0.372398 0.0731797-0.205695-0.447595-0.61829-0.515405 Se incluyen en la tabla: 1. Q, la matriz c por m de cargas (coeficientes de regresión) que relaciona la matriz de valores de los factores T con la variable dependiente Y: Y = TQ + E (8) 2. W, la matriz p por c de pesos de los factores, que crean los valores de los factores a partir de los valores estandarizados de las variables independientes de acuerdo con T = XW (9) Gráfico de Componentes 2D La opción Gráfico de Componentes 2D presentará la matriz T de puntajes de los factores o las matrices W y P de los pesos de los componentes. En el caso de la matriz de valores de los factores, el gráfico toma la siguiente forma: 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 11

Gráfica de Valores de Factor PLS 4.9 2.9 Factor 2 0.9-1.1-3.1-10 -7-4 -1 2 5 8 Factor 1 Se seleccionan dos factores, para por cada eje, y se grafican n puntos que representan las n filas en las correspondientes columnas de T. En situaciones donde los factores son interpretables, este gráfico muestra el valor de cada una de las muestras para estos factores. Si se eligen los pesos de los componentes, el gráfico tiene la siguiente forma: 0.5 Gráfica de Pesos de Componente PLS Componente 2 f3 0.4 f4 f5 LOG10(Tyrosine) f6 0.3 LOG10(Tryptophan) f7 0.2 f8 0.1 f9 f10 f11 f12 f13 f28 f16 f14 f15 f26 f27 f29 f30 f17 f19 f22 f25 f18 f23 f20 f24 f21 0-0.18-0.08 0.02 0.12 0.22 Componente 1 Se eligen dos componentes, uno para cada eje, y se grafican p + m puntos que representan las p variables independientes y las m variables dependientes. A partir de esta gráfica, se puede ver cómo cada una de las variables originales afecta a los componentes derivados. 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 12

Opciones de Ventana STATGRAPHICS Rev. 4/25/2007 Graficar Elija columnas de ya sea la matriz T de valores del factor o de la matriz W de los pesos del componenete. Componente en Eje X: Seleccione uno de los c componentes para que se grafique en el eje horizontal. Componente en Eje Y: Seleccione uno de los c componentes para que se grafique en el eje vertical. Gráfica de Componentes 3D La opción Gráfica de Componentes 3D es análoga al gráfico 2D excepto que se eligen tres componentes. Gráfica de Pesos de Componente PLS Componente 3 0.56 LOG10(Tryptophan) f3 LOG10(Tyrosine) 0.36 f4 0.16 f5-0.04 f6-0.24 f7 f8 f9 f11 f12 f13 f14 f15 f16 f22 f17 f18 f19 f20 f21 f23 f24 f28 f30 f26 f27 f29 f25-0.44-0.18-0.08 0.02 0.12 0.22 Componente 1 0.4 0.5 0 0.10.20.3 Componente 2 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 13

Opciones de Ventana STATGRAPHICS Rev. 4/25/2007 Graficar Elija columnas de ya sea la matriz T de valores del factor o de la matriz W de los pesos del componente. Componente en Eje X: Seleccione uno de los c componentes para que se grafique en el eje horizontal. Componente en Eje Y: Seleccione uno de los c componentes para que se grafique en el eje que se extiende hacia atrás al interior de la pantalla. Componente en Eje Z: Seleccione uno de los c componentes para que se grafique en el eje vertical. Predicciones y Residuos La ventana de Predichos y Residuos presenta información para las observaciones en el grupo de entrenamiento, observaciones en el grupo de prueba, y/o cualesquiera nuevas filas que hayan sido agregadas a la hoja de datos que contengan valores para las variables independientes pero valores faltantes para Y. La última opción le permite emplear el modelo para hacer predicciones para las observaciones no incluidas ni en el grupo de entrenamiento ni en el de prueba. La tabla a continuación muestra parte de la salida para los datos del ejemplo: Predicciones y Residuos Residuo Fila LOG10(Tryptophan) Predicho Residuo Estandarizado 1-4.52288-4.49803-0.024852-0.768533 2-4.52724-4.5206-0.0066395-0.234679 3-4.53387-4.57756 0.04369 1.73365 4-4.54516-4.52187-0.0232803-0.622566 Se incluye una tabla por separado para cada variable dependiente. Se incluyen en la tabla: 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 14

Fila el número de la fila en la hoja de datos. Y el valor observado de la variable independiente, si lo hay. Predicho el valor Ŷ predicho a partir del modelo ajustado. Residuo el valor del residuo para la i-ésima observación de la j-ésima variable dependiente se calcula con e ij = Y Yˆ (10) ij ij Residuo Estandarizado para los casos en el grupo de entrenamiento, un residuo Estudentizado internamente calculado dividiendo cada residuo entre una estimación de su error estándar, dado por r ij eij = (11) CME 1 h ) j ( i donde h i es el punto nivelador del i-ésimo caso. Opciones de Ventana Las filas mostradas pueden incluir: 1. Residuos atípicos en el grupo de entrenamiento: cualquiera hileras en el grupo de entrenamiento con residuos estandarizados que excedan de 2 en valor absoluto. 2. Todo el grupo de entrenamiento: todas las hileras del grupo de entrenamiento. 3. Conjunto de prueba: todas las hileras del grupo de prueba. 4. Filas con respuestas vacías: filas con valores vacías para una o más de las variables dependientes. 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 15

Observados versus Predichos Este gráfico muestra los valores de una variable dependiente elegida versus los valores predichos por el modelo ajustado: -3 Gráfica de Observados versus Predichos para for LOG10(Tryptophan) -4 Observado -5-6 -7-8 -8-7 -6-5 -4-3 Predicho Si el modelo ajusta bien, los puntos debieran alinearse a lo largo de la línea diagonal. Opciones de Ventana Elija la variable dependiente que desee graficar. Puntos Leverage Cuando se ajusta un modelo PLS, no todas las observaciones tienen la misma influencia en la estimación de los coeficientes en el modelo ajustado. Aquéllas con valores atípicos de las variables independientes tienden a tener más influencia que las otras.. La ventana de Puntos Leverage muestra cualesquiera observaciones que tienen una inusual influencia en el modelo ajustado: Puntos Leverage Fila Leverage Leverage promedio para un solo punto = 0.555556 El punto leverage es una estadística que mide la influencia de cada observación en el modelo final. Las observaciones se ponen en la lista si tienen más de 3 veces el leverage de un punto 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 16

promedio. Las observaciones con altos puntos leverage deben examinarse de cerca para estar seguros de que son válidas, ya que una observación con punto leverage alto que es también un valor atípico puede distorsionar gravemente al modelo estimado. En los datos de la muestra, no hay puntos leverage altos. Gráficas de Distancia para Residuos Las Gráficas de Distancia para Residuos grafican la distancia del origen a los residuos de X o Y que corresponden a cada caso en el grupo de entrenamiento. Los gráficos pueden usarse para determinar qué casos se desvían más de los valores predichos. 0.06 0.05 Gráfica de Distancia para Residuos Y Distancia 0.04 0.03 0.02 0.01 0 0 3 6 9 12 15 18 Fila Las distancias se expresan como la suma de cuadrados de la diferencia entre los valores observados y predichos de las variables estandarizadas. Para las variables Y, los residuos son elementos de la matriz E de dimensiones n por m en la ecuación Y = Xβ + E (12) Gráfica de Distancia para Residuos X 0.02 0.016 Distancia 0.012 0.008 0.004 0 0 3 6 9 12 15 18 Fila Para las variables X, los residuos son elementos de la matriz F de dimensiones n por p en la ecuación 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 17

X = TP + F STATGRAPHICS Rev. 4/25/2007 (13) Salvar Resultados Se pueden salvar en la hoja de datos los siguientes resultados: 1. Valores predichos los valores predichos de la(s) variable(s) dependiente(s). 2. Residuos Y los residuos para cada variable dependiente. 3. Residuos Estandarizados Y los residuos estandarizados para cada variable dependiente. 4. Residuos PRESS los residuos PRESS para cada variable dependiente. 5. Residuos X los residuos para cada variable independiente. 6. Leverages los puntos niveladores para cada uno de los n casos. 7. Distancias Y la distancia de los residuos Y para cada uno de los n casos. 8. Distancias X la distancia los residuos X para cada uno de los n casos. 9. Pesos de Componentes la matriz W de pesos. 10. Cargas de factor Y la matriz Q de cargas de los factores. 11. Cargas de factor X la matriz P de cargas de los factores. 12. Matriz de valores la matriz T de valores. Cálculos El programa usa el algoritmo NIPALS (Nonlinear Iterative Partial Least Squares, Mínimos Cuadrados Parciales Iterativos No Lineales) para extraer los componentes, después de transformar primero cada variable de manera que tengan una media de 0 y una desviación estándar de 1. 2006 por StatPoint, Inc. Mínimos Cuadrados Parciales - 18