MODELADO CALIBRACIÓN MULTIVARIADA

Documentos relacionados
Quimiometría CALIBRACIÓN MULTIVARIADA

MODELADO CALIBRACIÓN MULTIVARIADA

David R. González Barreto Universidad de Puerto Rico

Calibración multivariante en análisis cuantitativo. El modelo directo

Calibración multivariante en análisis cuantitativo. El modelo inverso

Universidad Nacional de la Patagonia San Juan Bosco

ANALISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

Diseño de experimentos

Capítulo 8. Selección de variables Introducción

MATRICES FACTORIALES

Caso 201 : Recta de calibrado para análisis de fosfato (Regresión lineal sin pesos estadísticos) (F. J. Burguillo, USAL)

RECONOCIMIENTO DE PAUTAS

Caso 17. Análisis multivariante: reducción de datos por componentes principales.

Modelado y simulación en Ingeniería Química. Manuel Rodríguez

Métodos Estadísticos Multivariados

Mínimos Cuadrados Parciales

UTILIZACIÓN DE LA TECNOLOGÍA NIRS EN EL SECTOR AGROALIMENTARIO

Métodos Estadísticos Multivariados

Regresión Lineal. El modelo de regresión caracteriza la relación entre una variable respuesta que depende de k variables independientes o regresoras.

Por: Dr. J. L. Urrutia Galicia Instituto De Ingeniería, UNAM

LABORATORIO DE COMPONENTES PRINCIPALES EN MATLAB

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

Universidad de Antioquia F.Q.F. Ingeniería de Alimentos Lab. Análisis Instrumental

b)no es posible hacer modelo debido a que el tipo de vidrio es una variable categorica

APLICACIÓN DE TÉCNICAS QUIMIOMÉTRICAS PARA EL DESARROLLO DE NUEVOS MÉTODOS CINÉTICO-ESPECTROFOTOMÉTRICOS DE ANÁLISIS

ANEXO A. PROCEDIMIENTOS 3 ANEXO B. RECTAS DE CALIBRADO 5 ANEXO C. RESULTADOS: OPTIMIZACIÓN DEL MÉTODO DE EXTRACCIÓN 9

Análisis Estadístico de Datos Climáticos. Análisis de correlación canónica. Facultad de Ciencias Facultad de Ingeniería 2013

3. Determinación de Colorantes en Bebidas Profesor: Lucas Blandón

David R. González Barreto Universidad de Puerto Rico

Tabla de contenido. Lista de figuras

Sistemas de Ecuaciones. Lineales I

Edgar Acuna/ ESMA 6665 Lecc La SVD y Componentes Principales

Bioestadística. Curso Práctica: La recta de regresión

Semana 11 Matrices y vectores - Sistemas de EDOs - Modelica. Elizabeth Villota Facultad de Ingeniería Mecánica Universidad Nacional de Ingeniería

ANÁLISIS DE COMPONENTES PRINCIPALES

CAPÍTULO IV. DESARROLLO DE LA INVESTIGACIÓN. presente capítulo. A continuación se procederá a escribir la metodología y a describir el

Clase. 1. Resolución de sistemas de ecuaciones lineales: preliminares

Regresión múltiple. Efecto de varias variables ambientales sobre una especie de ganso migratorio. Luz

Selección del número de factores latentes apropiados en PLSR con capacidad predictiva

Revista Mexicana de Ciencias Farmacéuticas ISSN: Asociación Farmacéutica Mexicana, A.C. México

AUTOVALORES Y AUTOVECTORES

MODELADO CALIBRACIÓN

Análisis de Regresión y Correlación con MINITAB

B.1 ANÁLISIS FACTORIAL COMÚN. cuyo propósito es reducir los datos en cantidad. Es también una técnica en la cual todas las

ANÁLISIS DE REGRESIÓN

Programación: Sistemas unitriangulares inferiores

1. Metodología de respuesta

Semana 10 Matrices y vectores - Sistemas de EDOs

Figura 1. Estructuras químicas del paracetamol (izquierda) y naproxeno (derecha).

Estimación de una función de gasto en alimentos

Práctica 2: Matrices. Sistemas de ecuaciones lineales.

Selección de variables y análisis de clasicación en datos de alta dimensión

Eigenvalores y eigenvectores

Laboratorio de Componentes Principales.

Análisis de Componentes Principales (ACP)

Regresión Lineal Múltiple

v = n 1 V max(i)[s] K m (i) + [S]

Análisis de Regresión

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

Espacios euclídeos. Transformaciones ortogonales

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

LABORATORIO ANÁLISIS INSTRUMENTAL PRACTICA #7 ULTRAVIOLETA PRESENTADO POR: EMIL SON LEÓN FLORIÁN DEYMER GOMEZ PRESENTADO A: LUCAS BLANDÓN

Diseños para estimar la superficie de respuesta

Métodos actuales en machine learning

Los datos siguientes contienen indicadores demográficos y criminales sobre 47

Práctica 2: Representación de datos y ajuste de curvas

Diagrames de dispersió i regressió lineal. Ús de MINITAB. Víctor Mañosa Dept. Matemàtica Aplicada III Universitat Politècnica de Catalunya

ANÁLISIS DE LAS SERIES DE TIEMPO - NIVEL II

Técnicas Cuantitativas para el Management y los Negocios

Práctica 4: Sistemas de ecuaciones no lineales.

Módulo Minería de Datos Diplomado. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Análisis de la evolución y tendencia de las tasas de hepatitis A en Chile desde a 2002

Tareas de matrices especiales

Análisis de Gradiente Ambiental: Ordenación sin contrastar

Química Biológica TP 1: ESPECTROFOTOMETRIA.

Ministerio de Cultura y Educación

Grado en Finanzas y Contabilidad

DEPARTAMENTO DE QUÍMICA ANALÍTICA Y TECNOLOGÍA DE ALIMENTOS ANALISIS INSTRUMENTAl I

Estimación PLS de modelos SEM, UMA. Modelos de Ecuaciones Estructurales con PLS (Partial Least Squares)

Análisis de Datos. Validación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

REGRESIÓN LINEAL Y CORRELACIÓN

Se trata de: Explicar el comportamiento de una variable dependiente ( Y ) en función de otras variables ( i ) 2 Investigar si las variables están asoc

Objetivo. variables factores F Principios básicos. Parsimonia Interpretabilidad

PARTE IV: RESULTADOS CAPÍTULO 13:

RESPUESTAS BREVES A LA PRÁCTICA 7

GRADO: Ingeniería en Tecnologías Industriales CURSO: 1º CUATRIMESTRE: 1º

11 Número de publicación: Int. Cl. 7 : A61B 5/ Agente: Zuazo Araluze, Alexander

SISTEMAS DE ECUACIONES

INDICE. Prólogo a la Segunda Edición

Componentes principales (II)

Cap 3: Álgebra lineal

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Identificación de SIStemas

Identificación de SIStemas

Considere la tasa de nacimiento (B) como la variable respuesta y la actividad económica de las mujeres (W) como variable regresora.

Fenómenos físicos empleados para medir. Principios de medidas químicas

Transcripción:

MODELADO CALIBRACIÓN MULTIVARIADA

Calibración multivariada aproximaciones multivariadas para crear una curva de calibración: regresión clásica u ordinaria (classical/ordinary least squares, CLS) regresión de componentes principales (principal component regression, PCR) regresión de cuadrados mínimos parciales (partial least squares regression, PLS) optimizan el ajuste de los datos de manera diferente método de evaluación y resultados similares

Regresión por componentes principales (PCR) objetivo: reducir el número de variables predictoras usando los primeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras, lo cual suele ocurrir en casos de calibración inversa

Regresión por componentes principales (PCR) emplea una calibración inversa no correlaciona las concentraciones directamente con las respuestas instrumentales correlaciona las concentraciones con la matriz de puntuaciones (scores) scores o variables latentes: deben condensar de un modo eficiente la información espectral completa (las variables manifiestas) en una matriz de tamaño adecuado

aspecto fundamental: estimación del número de PC (por scree plot, PRESS, variación explicada) si se emplean menos PC que los necesarios se obtiene una situación poco deseable llamada subajuste de los datos demasiados PC no aportan información relevante sino esencialmente ruido: sobreajuste en general, no es aconsejable utilizar un número de PC superior a la mitad del número de mezclas de calibración

Ejemplo regresión PCR C 1 C 2 C 3 A 1 A 2 A 3 A 4 A 5 A 6 A 0,89 0,02 0,01 18,7 26,8 42,1 56,6 70,0 83,2 B 0,46 0,09 0,24 31,3 33,4 45,7 49,3 53,8 55,3 C 0,45 0,16 0,23 30,0 35,1 48,3 53,5 59,2 57,7 D 0,56 0,09 0,09 20,0 25,7 39,3 46,6 56,5 57,8 E 0,41 0,02 0,28 31,5 34,8 46,5 46,7 48,5 51,1 F 0,44 0,17 0,14 22,0 28,0 38,5 46,7 54,1 53,6 G 0,34 0,23 0,20 25,7 31,4 41,1 50,6 53,5 49,3 H 0,74 0,11 0,01 18,7 26,8 37,8 50,6 65,0 72,3 I 0,75 0,01 0,15 27,3 34,6 47,8 55,9 67,9 75,2 J 0,48 0,15 0,06 18,3 22,8 32,8 43,4 49,6 51,1

Empleando Minitab debe realizarse primero un PCA para los datos de la tabla anterior Principal Component Analysis: A 1.A 2.A 3.A 4.A 5.A 6 Eigenanalysis of the Covariance Matrix Eigenvalue 210,01 73,86 4,62 0,93 0,79 0,28 Proportion 0,723 0,254 0,016 0,003 0,003 0,001 Cumulative 0,723 0,977 0,993 0,996 0,999 1,000

Empleando Minitab Principal Component Analysis: A 1.A 2.A 3.A 4.A 5.A 6 Variable PC1 PC2 PC3 A 1-0,124-0,592-0,253 A 2-0,017-0,513 0,048 A 3 0,066-0,571-0,102 A 4 0,244-0,239 0,575 A 5 0,510-0,042 0,545 A 6 0,813 0,043-0,544 los primeros PCs explican más del 99 % de la variación en las absorbancias se pueden seleccionar solo estas dos absorbancias (sin sentido cuando son tan pocas variables predictoras)

Empleando Minitab obtener las puntuaciones (scores) de los PC seleccionados, en este caso 3, pero se pueden calcular más Muestra Z 1 Z 2 Z 3 A 117,126-61,6838 17,7148 B 82,975-73,3721 16,6156 C 89,007-76,0823 20,8135 D 86,833-58,4389 18,3197 E 76,229-74,0041 14,4500 F 81,880-60,4513 19,0386 G 78,686-66,9623 22,2530 H 103,970-58,0594 17,9048 I 108,561-74,1204 18,1318 J 76,919-51,4731 17,3175

Empleando Minitab obtener la ecuación de regresión Regression Analysis: c 1 versus z 1. z 2. z 3 The regression equation is c 1 = 0,0685 + 0,0119 z 1 + 0,00419 z 2-0,0171 z 3 Predictor Coef SE Coef T P Constant 0,06849 0,06571 1,04 0,337 z 1 0,0118502 0,0003480 34,05 0,000 z 2 0,0041884 0,0005868 7,14 0,000 z 3-0,017058 0,002345-7,27 0,000 S = 0,0151299 R-Sq = 99,5% R-Sq(adj) = 99,3% PRESS = 0,00301908 R-Sq(pred) = 98,96%

PCR: PRESS = 0,00301908 CLS: PRESS = 0,0274584 Empleando Minitab en este caso PRESS PCR < PRESS CLS cuál modelo es mejor?

Empleando Minitab para obtener una expresión en función de la concentración reemplazar z en términos de A empleando las puntuaciones (loadings) z 1 z 2 z 3-0,123596-0,592342-0,253000-0,017376-0,512546 0,047936 0,066134-0,570740-0,102300 0,243876-0,238879 0,575098 0,509940-0,041775 0,544949 0,812733 0,043296-0,543617

Empleando Minitab para obtener una expresión en función de la concentración reemplazar z en términos de A empleando las puntuaciones (loadings) z 1 = - 0,124A 1-0,017A 2 + 0,066A 3 + 0,244A 4 +0,510A 5 +0,813A 6 c 1 = 0,06849 + 0,00037 A 1 0,00317 A 2 + 0,00014 A 3 0,00792 A 4 0,00343 A 5 + 0,0190 A 6 repetir para las otras concentraciones

Empleando Minitab para obtener la concentración de una muestra incógnita: A 1 32,6 A 2 29,8 A 3 37,9 A 4 48,5 A 5 60,3 A 6 63,9 c 1 = 0,61 repetir para las otras concentraciones

Empleando Matlab 1. Estudio óptimo de factores presentes en la matriz de calibrado: Método: validación cruzada empleando rutina: pcr_cv.m 2. Calibración del modelo PCR empleando rutina: pcr_cal.m 3. Predicción de muestras incógnita > rutina pcr-pred.m

Empleando Matlab 1- Validación cruzada: usar la rutina pcr_cv.m % COMO EJECUTAR LA RUTINA 'pcr_cv.m' % *************************************************** % 1) Guardar los datos en archivos ASCII: % Los datos de señal se guardan en un archivo con I columnas (I es el numero de muestras de calibrado) % y J filas (J es el numero de longitudes de onda), o sea, una columna para cada espectro. % Los datos de concentracion se guardan en un archivo con una columna e I filas. % 2) Ejecutar 'pcr_cv.m'. % 3) Introudcir el numero maximo de factores a probar. % 4) Introducir los nombres de los archivos ASCII entre comillas simples. Ejemplo: 'resp_cal.txt'

Empleando Matlab 1- Validación cruzada: usar la rutina pcr_cv.m

Empleando Matlab 1- Validación cruzada: usar la rutina pcr_cv.m

Empleando Matlab 1- Validación cruzada: usar la rutina pcr_cv.m

Empleando Matlab 2- Calibración: usar la rutina pcr_cal.m % *************************************************** % COMO EJECUTAR LA RUTINA 'pcr_cal.m' % *************************************************** % 1) Guardar los datos en archivos ASCII: % Los datos de señal se guardan en un archivo con I columnas (I es el numero de muestras de calibrado) % y J filas (J es el numero de longitudes de onda), o sea, una columna para cada espectro. % Los datos de concentracion se guardan en un archivo con una columna e I filas. % 2) Ejecutar 'pcr_cal.m'. % 3) Introducir el numero de factores para la calibracion. % 4) Introducir los nombres de los archivos ASCII entre comillas simples. Ejemplo: 'resp_cal.txt' se calibra un analito a la vez

Empleando Matlab 2- Calibración: usar la rutina pcr_cal.m Absorbancia 90 80 70 60 50 40 Espectros de calibracion 1 2 3 4 5 6 7 8 9 10 30 20 10 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 Longitud de onda / nm

Empleando Matlab 3- Predicción: usar la rutina pcr_pred.m COMO EJECUTAR LA RUTINA 'pcr_pred.m' % *************************************************** % 1) Guardar los datos en archivos ASCII: % Los datos de señal se guardan en un archivo con tantas columnas como muestras incognita % y J filas (J es el numero de longitudes de onda), o sea, una columna para cada muestra. % 2) Ejecutar 'pcr_pred.m'. % 4) Introducir el nombre del archivo ASCII entre comillas simples. Ejemplo: 'resp_test.txt'

Empleando Matlab 3- Predicción: usar la rutina pcr_pred.m PCR: c1= 0,61 (r. esp.= 5,35) CLS: c1 = 0,61 (r. esp.= 5,45)

Ventajas de la PCR PCR combina las ventajas de la regresión multivariada CLS es posible la calibración directa, que permite ignorar las concentraciones de compuestos químicos desconocidos durante el calibrado el uso de espectros abstractos (scores) elimina los problemas asociados con la colinealidad espectral

Ventajas de la PCR PCR combina las ventajas de la regresión multivariada CLS es posible la calibración directa, que permite ignorar las concentraciones de compuestos químicos desconocidos durante el calibrado el uso de espectros abstractos (scores) elimina los problemas asociados con la colinealidad espectral

Desventajas de la PCR interferencias no modeladas: si aparece en una muestra incógnita un compuesto no contenido en la calibración, el análisis no será exacto los modelos son capaces de detectar interferencias, aunque no de corregirla PCR sólo utiliza factores calculados en base a información espectral del calibrado únicamente, sin referencia a las concentraciones de calibrado

Regresión por cuadrados mínimos parciales (PLS) PLS (partial least-squares) emplea combinaciones lineales para predecir diferencia con PCR es la forma de elegir estas combinaciones: PCR: describen la máxima variación de las variables predictoras PLS: las variables que tienen mayor correlación con la respuesta tienen un peso extra por ser más efectivas para la predicción

Regresión por PLS PLS opera de manera similar a PCR weigth loading factors: contenidos en una matriz usualmente llamada W loadings: contenidos en una matriz llamada P las columnas de W son ortogonales, mientras que las de P no necesariamente lo son, a diferencia de PCR

Regresión por PLS las columnas de W no son autovectores propiamente dichos, sino factores obtenidos mediante una técnica diferente a la de PCR, cuyos elementos dependen de las concentraciones de calibración del analito de interés la obtención de estos factores se lleva a cabo mediante un algoritmo iterativo cíclico, muy similar a PCR diferencia fundamental: en PLS los factores describen la máxima correlación posible entre la matriz de datos y el vector de concentraciones del analito de interés

Regresión por PLS Formas de llevar a cabo PLS: PLS1: cada variable respuesta se trata separadamente (más común) PLS2: las variables respuesta se tratan colectivamente, se suele usar solamente cuando las variables respuesta están correlacionadas entre sí

Regresión por PLS empleando Minitab PLS Regression: c1 versus A 1, A 2, A 3, A 4, A 5, A 6 Number of components selected by cross-validation: 4 Number of observations left out per group: 1 Number of components cross-validated: 6 Analysis of Variance for c 1 Source DF SS MS F P Regression 4 0,289476 0,0723690 333,84 0,000 Residual Error 5 0,001084 0,0002168 Total 9 0,290560

Regresión por PLS Model Selection and Validation for c 1 Components X Variance Error SS R-Sq PRESS R-Sq (pred) 1 0,457325 0,0287984 0,900887 0,0469069 0,838564 2 0,957200 0,0255230 0,912159 0,0511899 0,823823 3 0,988793 0,0021123 0,992730 0,0078758 0,972894 4 0,992990 0,0010839 0,996270 0,0052733 0,981851 5 0,0010724 0,996309 0,0186933 0,935664 6 0,0010681 0,996324 0,0274584 0,905498

Regresión por PLS c 1 c 1 standardized Constant 0,0426293 0,00000 A 1 0,0039542 0,11981 A 2-0,0111737-0,27695 A 3 0,0038227 0,10753 A 4-0,0092380-0,22261 A 5-0,0003408-0,01425 A 6 0,0176165 1,16114

Regresión por PLS

Regresión por PLS evaluación de los resultados: método leave-one-out usando validación cruzada el número de componentes necesario para modelar c 1 = 4 se elige a partir del valor de PRESS es menor para el modelo de 4 componentes (PRESS=0,0052733) la capacidad predictiva del modelo disminuye si se agregan más componentes

Regresión por PLS la ecuación de regresión es: c 1 = 0,0426 + 0,0040 A 1 0,0112 A 2 +0,0038 A 3-0,0092 A 4 0,0003 A 5 + 0,0176 A 6 obtener ecuaciones para predecir c 2 y c 3 de manera similar

Comparación de resultados empleando Minitab ecuación de regresión para c 1 empleando los distintos métodos multivariados: CLS c 1 = 0,0501 + 0,000252A 1 0,00939A 2 + 0,00375A 3 0,00920A 4 0,00106A 5 + 0,0179A 6 PCR c 1 = 0,06849 + 0,00037A 1 0,00317A 2 + 0,00014A 3 0,00792 A 4 0,00343 A 5 + 0,0190 A 6 PLS c 1 = 0,0426 + 0,0040A 1 0,0112A 2 +0,0038A 3-0,0092 A 4 0,0003 A 5 + 0,0176 A 6

Empleando Matlab 1. Estudio óptimo de factores presentes en la matriz de calibrado: Método: validación cruzada empleando rutina: pls_cv.m 2. Calibración del modelo PLS empleando rutina: pls_cal.m 3. Predicción de muestras incógnita > rutina pls_pred.m

Empleando Matlab PLS: PCR: CLS: c 1 = 0,61 (r. esp. = 5,36) c 1 = 0,61 (r. esp. = 5,35) c 1 = 0,61 (r. esp.= 5,45)

Ventajas de la regresión por PLS es el método de calibración multivariada más empleado cuando la información instrumental proveniente de cada muestra es de tipo vectorial incorpora información útil referida a concentraciones de calibrado durante la etapa de cálculo de las variables latentes

Desventajas de la regresión por PLS interfencias no modeladas: desventaja de los métodos multivariados métodos para calibración multivariada: se basan en el procesamiento de datos del tipo vectorial (espectros, voltamperogramas u otro tipo similar de datos instrumentales)

Tipos de calibraciones calibración de orden cero: calibración univariada se clasificaría como de orden cero calibración de primer orden: basada en vectores para cada muestra se llama calibración (un vector se considera, en lenguaje tensorial, como un tensor de primer orden)

Tipos de calibraciones calibración de segundo orden: empleando datos matriciales para cada muestras (EEM, obtenidas fácilmente en un espectrofluorómetro convencional), matrices de absorbancia-tiempo (obtenidas a través de una reacción química en un espectrofotómetro de arreglo de diodos), etc.

Ventajas de las calibraciones de orden superior ventaja de segundo orden: se pueden cuantificar analitos calibrados en presencia de interferencias no calibradas propiedad ausente en los datos de primer orden presenta inmensas posibilidades en el análisis de mezclas complejas, en particular las de origen biológico, alimentos métodos: PARAFAC,...