MODELADO CALIBRACIÓN MULTIVARIADA

Calibración multivariada aproximaciones multivariadas para crear una curva de calibración: regresión clásica u ordinaria (classical/ordinary least squares, CLS) regresión de componentes principales (principal component regression, PCR) regresión de cuadrados mínimos parciales (partial least squares regression, PLS) optimizan el ajuste de los datos de manera diferente método de evaluación y resultados similares

Regresión por componentes principales (PCR) objetivo: reducir el número de variables predictoras usando los primeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras, lo cual suele ocurrir en casos de calibración inversa

Regresión por componentes principales (PCR) emplea una calibración inversa no correlaciona las concentraciones directamente con las respuestas instrumentales correlaciona las concentraciones con la matriz de puntuaciones (scores) scores o variables latentes: deben condensar de un modo eficiente la información espectral completa (las variables manifiestas) en una matriz de tamaño adecuado

aspecto fundamental: estimación del número de PC (por scree plot, PRESS, variación explicada) si se emplean menos PC que los necesarios se obtiene una situación poco deseable llamada subajuste de los datos demasiados PC no aportan información relevante sino esencialmente ruido: sobreajuste en general, no es aconsejable utilizar un número de PC superior a la mitad del número de mezclas de calibración

Ejemplo regresión PCR C 1 C 2 C 3 A 1 A 2 A 3 A 4 A 5 A 6 A 0,89 0,02 0,01 18,7 26,8 42,1 56,6 70,0 83,2 B 0,46 0,09 0,24 31,3 33,4 45,7 49,3 53,8 55,3 C 0,45 0,16 0,23 30,0 35,1 48,3 53,5 59,2 57,7 D 0,56 0,09 0,09 20,0 25,7 39,3 46,6 56,5 57,8 E 0,41 0,02 0,28 31,5 34,8 46,5 46,7 48,5 51,1 F 0,44 0,17 0,14 22,0 28,0 38,5 46,7 54,1 53,6 G 0,34 0,23 0,20 25,7 31,4 41,1 50,6 53,5 49,3 H 0,74 0,11 0,01 18,7 26,8 37,8 50,6 65,0 72,3 I 0,75 0,01 0,15 27,3 34,6 47,8 55,9 67,9 75,2 J 0,48 0,15 0,06 18,3 22,8 32,8 43,4 49,6 51,1

Empleando Minitab debe realizarse primero un PCA para los datos de la tabla anterior Principal Component Analysis: A 1.A 2.A 3.A 4.A 5.A 6 Eigenanalysis of the Covariance Matrix Eigenvalue 210,01 73,86 4,62 0,93 0,79 0,28 Proportion 0,723 0,254 0,016 0,003 0,003 0,001 Cumulative 0,723 0,977 0,993 0,996 0,999 1,000

Empleando Minitab Principal Component Analysis: A 1.A 2.A 3.A 4.A 5.A 6 Variable PC1 PC2 PC3 A 1-0,124-0,592-0,253 A 2-0,017-0,513 0,048 A 3 0,066-0,571-0,102 A 4 0,244-0,239 0,575 A 5 0,510-0,042 0,545 A 6 0,813 0,043-0,544 los primeros PCs explican más del 99 % de la variación en las absorbancias se pueden seleccionar solo estas dos absorbancias (sin sentido cuando son tan pocas variables predictoras)

Empleando Minitab obtener las puntuaciones (scores) de los PC seleccionados, en este caso 3, pero se pueden calcular más Muestra Z 1 Z 2 Z 3 A 117,126-61,6838 17,7148 B 82,975-73,3721 16,6156 C 89,007-76,0823 20,8135 D 86,833-58,4389 18,3197 E 76,229-74,0041 14,4500 F 81,880-60,4513 19,0386 G 78,686-66,9623 22,2530 H 103,970-58,0594 17,9048 I 108,561-74,1204 18,1318 J 76,919-51,4731 17,3175

Empleando Minitab obtener la ecuación de regresión Regression Analysis: c 1 versus z 1. z 2. z 3 The regression equation is c 1 = 0,0685 + 0,0119 z 1 + 0,00419 z 2-0,0171 z 3 Predictor Coef SE Coef T P Constant 0,06849 0,06571 1,04 0,337 z 1 0,0118502 0,0003480 34,05 0,000 z 2 0,0041884 0,0005868 7,14 0,000 z 3-0,017058 0,002345-7,27 0,000 S = 0,0151299 R-Sq = 99,5% R-Sq(adj) = 99,3% PRESS = 0,00301908 R-Sq(pred) = 98,96%

PCR: PRESS = 0,00301908 CLS: PRESS = 0,0274584 Empleando Minitab en este caso PRESS PCR < PRESS CLS cuál modelo es mejor?

Empleando Minitab para obtener una expresión en función de la concentración reemplazar z en términos de A empleando las puntuaciones (loadings) z 1 z 2 z 3-0,123596-0,592342-0,253000-0,017376-0,512546 0,047936 0,066134-0,570740-0,102300 0,243876-0,238879 0,575098 0,509940-0,041775 0,544949 0,812733 0,043296-0,543617

Empleando Minitab para obtener una expresión en función de la concentración reemplazar z en términos de A empleando las puntuaciones (loadings) z 1 = - 0,124A 1-0,017A 2 + 0,066A 3 + 0,244A 4 +0,510A 5 +0,813A 6 c 1 = 0,06849 + 0,00037 A 1 0,00317 A 2 + 0,00014 A 3 0,00792 A 4 0,00343 A 5 + 0,0190 A 6 repetir para las otras concentraciones

Empleando Minitab para obtener la concentración de una muestra incógnita: A 1 32,6 A 2 29,8 A 3 37,9 A 4 48,5 A 5 60,3 A 6 63,9 c 1 = 0,61 repetir para las otras concentraciones

Empleando Matlab 1. Estudio óptimo de factores presentes en la matriz de calibrado: Método: validación cruzada empleando rutina: pcr_cv.m 2. Calibración del modelo PCR empleando rutina: pcr_cal.m 3. Predicción de muestras incógnita > rutina pcr-pred.m

Empleando Matlab 1- Validación cruzada: usar la rutina pcr_cv.m % COMO EJECUTAR LA RUTINA 'pcr_cv.m' % *************************************************** % 1) Guardar los datos en archivos ASCII: % Los datos de señal se guardan en un archivo con I columnas (I es el numero de muestras de calibrado) % y J filas (J es el numero de longitudes de onda), o sea, una columna para cada espectro. % Los datos de concentracion se guardan en un archivo con una columna e I filas. % 2) Ejecutar 'pcr_cv.m'. % 3) Introudcir el numero maximo de factores a probar. % 4) Introducir los nombres de los archivos ASCII entre comillas simples. Ejemplo: 'resp_cal.txt'

Empleando Matlab 1- Validación cruzada: usar la rutina pcr_cv.m

Empleando Matlab 2- Calibración: usar la rutina pcr_cal.m % *************************************************** % COMO EJECUTAR LA RUTINA 'pcr_cal.m' % *************************************************** % 1) Guardar los datos en archivos ASCII: % Los datos de señal se guardan en un archivo con I columnas (I es el numero de muestras de calibrado) % y J filas (J es el numero de longitudes de onda), o sea, una columna para cada espectro. % Los datos de concentracion se guardan en un archivo con una columna e I filas. % 2) Ejecutar 'pcr_cal.m'. % 3) Introducir el numero de factores para la calibracion. % 4) Introducir los nombres de los archivos ASCII entre comillas simples. Ejemplo: 'resp_cal.txt' se calibra un analito a la vez

Empleando Matlab 2- Calibración: usar la rutina pcr_cal.m Absorbancia 90 80 70 60 50 40 Espectros de calibracion 1 2 3 4 5 6 7 8 9 10 30 20 10 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 Longitud de onda / nm

Empleando Matlab 3- Predicción: usar la rutina pcr_pred.m COMO EJECUTAR LA RUTINA 'pcr_pred.m' % *************************************************** % 1) Guardar los datos en archivos ASCII: % Los datos de señal se guardan en un archivo con tantas columnas como muestras incognita % y J filas (J es el numero de longitudes de onda), o sea, una columna para cada muestra. % 2) Ejecutar 'pcr_pred.m'. % 4) Introducir el nombre del archivo ASCII entre comillas simples. Ejemplo: 'resp_test.txt'

Empleando Matlab 3- Predicción: usar la rutina pcr_pred.m PCR: c1= 0,61 (r. esp.= 5,35) CLS: c1 = 0,61 (r. esp.= 5,45)

Ventajas de la PCR PCR combina las ventajas de la regresión multivariada CLS es posible la calibración directa, que permite ignorar las concentraciones de compuestos químicos desconocidos durante el calibrado el uso de espectros abstractos (scores) elimina los problemas asociados con la colinealidad espectral

Desventajas de la PCR interferencias no modeladas: si aparece en una muestra incógnita un compuesto no contenido en la calibración, el análisis no será exacto los modelos son capaces de detectar interferencias, aunque no de corregirla PCR sólo utiliza factores calculados en base a información espectral del calibrado únicamente, sin referencia a las concentraciones de calibrado

Regresión por cuadrados mínimos parciales (PLS) PLS (partial least-squares) emplea combinaciones lineales para predecir diferencia con PCR es la forma de elegir estas combinaciones: PCR: describen la máxima variación de las variables predictoras PLS: las variables que tienen mayor correlación con la respuesta tienen un peso extra por ser más efectivas para la predicción

Regresión por PLS PLS opera de manera similar a PCR weigth loading factors: contenidos en una matriz usualmente llamada W loadings: contenidos en una matriz llamada P las columnas de W son ortogonales, mientras que las de P no necesariamente lo son, a diferencia de PCR

Regresión por PLS las columnas de W no son autovectores propiamente dichos, sino factores obtenidos mediante una técnica diferente a la de PCR, cuyos elementos dependen de las concentraciones de calibración del analito de interés la obtención de estos factores se lleva a cabo mediante un algoritmo iterativo cíclico, muy similar a PCR diferencia fundamental: en PLS los factores describen la máxima correlación posible entre la matriz de datos y el vector de concentraciones del analito de interés

Regresión por PLS Formas de llevar a cabo PLS: PLS1: cada variable respuesta se trata separadamente (más común) PLS2: las variables respuesta se tratan colectivamente, se suele usar solamente cuando las variables respuesta están correlacionadas entre sí

Regresión por PLS empleando Minitab PLS Regression: c1 versus A 1, A 2, A 3, A 4, A 5, A 6 Number of components selected by cross-validation: 4 Number of observations left out per group: 1 Number of components cross-validated: 6 Analysis of Variance for c 1 Source DF SS MS F P Regression 4 0,289476 0,0723690 333,84 0,000 Residual Error 5 0,001084 0,0002168 Total 9 0,290560

Regresión por PLS Model Selection and Validation for c 1 Components X Variance Error SS R-Sq PRESS R-Sq (pred) 1 0,457325 0,0287984 0,900887 0,0469069 0,838564 2 0,957200 0,0255230 0,912159 0,0511899 0,823823 3 0,988793 0,0021123 0,992730 0,0078758 0,972894 4 0,992990 0,0010839 0,996270 0,0052733 0,981851 5 0,0010724 0,996309 0,0186933 0,935664 6 0,0010681 0,996324 0,0274584 0,905498

Regresión por PLS c 1 c 1 standardized Constant 0,0426293 0,00000 A 1 0,0039542 0,11981 A 2-0,0111737-0,27695 A 3 0,0038227 0,10753 A 4-0,0092380-0,22261 A 5-0,0003408-0,01425 A 6 0,0176165 1,16114

Regresión por PLS

Regresión por PLS evaluación de los resultados: método leave-one-out usando validación cruzada el número de componentes necesario para modelar c 1 = 4 se elige a partir del valor de PRESS es menor para el modelo de 4 componentes (PRESS=0,0052733) la capacidad predictiva del modelo disminuye si se agregan más componentes

Regresión por PLS la ecuación de regresión es: c 1 = 0,0426 + 0,0040 A 1 0,0112 A 2 +0,0038 A 3-0,0092 A 4 0,0003 A 5 + 0,0176 A 6 obtener ecuaciones para predecir c 2 y c 3 de manera similar

Comparación de resultados empleando Minitab ecuación de regresión para c 1 empleando los distintos métodos multivariados: CLS c 1 = 0,0501 + 0,000252A 1 0,00939A 2 + 0,00375A 3 0,00920A 4 0,00106A 5 + 0,0179A 6 PCR c 1 = 0,06849 + 0,00037A 1 0,00317A 2 + 0,00014A 3 0,00792 A 4 0,00343 A 5 + 0,0190 A 6 PLS c 1 = 0,0426 + 0,0040A 1 0,0112A 2 +0,0038A 3-0,0092 A 4 0,0003 A 5 + 0,0176 A 6

Empleando Matlab 1. Estudio óptimo de factores presentes en la matriz de calibrado: Método: validación cruzada empleando rutina: pls_cv.m 2. Calibración del modelo PLS empleando rutina: pls_cal.m 3. Predicción de muestras incógnita > rutina pls_pred.m

Empleando Matlab PLS: PCR: CLS: c 1 = 0,61 (r. esp. = 5,36) c 1 = 0,61 (r. esp. = 5,35) c 1 = 0,61 (r. esp.= 5,45)

Ventajas de la regresión por PLS es el método de calibración multivariada más empleado cuando la información instrumental proveniente de cada muestra es de tipo vectorial incorpora información útil referida a concentraciones de calibrado durante la etapa de cálculo de las variables latentes

Desventajas de la regresión por PLS interfencias no modeladas: desventaja de los métodos multivariados métodos para calibración multivariada: se basan en el procesamiento de datos del tipo vectorial (espectros, voltamperogramas u otro tipo similar de datos instrumentales)

Tipos de calibraciones calibración de orden cero: calibración univariada se clasificaría como de orden cero calibración de primer orden: basada en vectores para cada muestra se llama calibración (un vector se considera, en lenguaje tensorial, como un tensor de primer orden)

Tipos de calibraciones calibración de segundo orden: empleando datos matriciales para cada muestras (EEM, obtenidas fácilmente en un espectrofluorómetro convencional), matrices de absorbancia-tiempo (obtenidas a través de una reacción química en un espectrofotómetro de arreglo de diodos), etc.

Ventajas de las calibraciones de orden superior ventaja de segundo orden: se pueden cuantificar analitos calibrados en presencia de interferencias no calibradas propiedad ausente en los datos de primer orden presenta inmensas posibilidades en el análisis de mezclas complejas, en particular las de origen biológico, alimentos métodos: PARAFAC,...