Las 19 primeras diapositivas de esta clase están incluidas en la clase teórica previa: Error y expresión de resultados (diapositivas a 40).
Definiciones fundamentales y objetivo: El resultado arrojado por una medida cualquiera es aleatorio. El conjunto de todos los resultados posibles se conoce como población. Las n medidas obtenidas en el laboratorio constituyen un subconjunto de la población, el cual es conocido como muestra estadística. El objetivo final del tratamiento estadístico será obtener información sobre la población a partir de la muestra obtenida, junto con el error asociado a esta información.
Determinación de cobre en vinos Histograma y función de distribución de resultados
Distribución de frecuencias de datos experimentales En la mayor parte de los análisis cuantitativos se aproxima a una curva de Gauss o curva normal de error. En general, el tratamiento estadístico de los datos supone que eso se cumple. f (x) Frecuencias relativas f x s x-m 1 - s e m: media poblacional s: desvío estándar poblacional m - s m m + s x
Comentarios El error aleatorio hará que los resultados individuales se alejen más o menos del valor más frecuente. En ausencia de error sistemático, m es el verdadero valor de la magnitud. La dispersión se producirá con igual probabilidad hacia valores mayores o menores. Las desviaciones más pequeñas serán más probables que las grandes.
La probabilidad de que una medida experimental esté comprendida entre dos valores dados está determinada por el área bajo la curva de Gauss calculada entre dichos valores. Por ejemplo: 1. La probabilidad de obtener un resultado entre μ σ y μ + σ será 0,683 o 68,3%: 68,3% μ σ μ + σ. La probabilidad de obtener un resultado entre μ σ y μ + σ será 0,954 o 95,4%. 95,4% μ σ μ +σ 3. La probabilidad de obtener un resultado entre μ 3σ y μ + 3σ será 0,997 o 99,7%. 99,7% μ 3σ μ +3σ
Por qué es conveniente realizar más de una medición? Primero, el valor central o el promedio son más fiables que cualquiera de los resultados. Segundo, el análisis de la variación de los datos permite estimar la incertidumbre relacionada con el resultado central.
Cálculo del valor más probable a partir de medidas replicadas: 1. Media, media aritmética o promedio de n datos: x n i 1 n x i Estimador del valor más probable de la población m, que en ausencia de error sistemático coincide con el valor verdadero de la cantidad medida. Mayor número de datos mejor estimación
. Mediana: Resultado central de un conjunto impar de datos ordenados en forma creciente o decreciente. Cuando el conjunto es par, se toma el promedio de los dos valores centrales. En general no difiere significativamente de la media cuando el número de datos es grande. Útil cuando existe un dato atípico, que podría tener una gran influencia sobre el valor de la media, pero no de la mediana
Ejemplos: 1. La mediana de 11,56; 11,67; 11,96; 1,04; 1, y 1,74 es el promedio de 11,96 y 1,04 (1,00) ya que n = 6.. La mediana de 1687; 1703; 1708; 171 y 1781 (n = 5) es 1708, mientras que el promedio es de 1718 debido a la presencia del valor 1781.
Cálculo de la precisión de una serie de medidas replicadas: 1. Dispersión (w): diferencia entre el resultado más alto y el más bajo de una serie de replicados: w = x mayor x menor.. Desviación estándar (s) y varianza (s ): para una muestra de tamaño n se calculan como: s n i1 x i - x n -1 i 1 Estos parámetros estiman la magnitud del desvío estándar (σ) y varianza (σ ) poblacionales. s n x i - x n -1 Al valor (n-1) se lo llama número de grados de libertad de la varianza s e indica que de las n diferencias x i - x, sólo n -1 son independientes.
3. Coeficiente de variación (CV) o porcentaje de desviación estándar relativa (%DER): CV s x 100 % DER Su ventaja es que proporciona una visión más clara de la calidad de los datos y del proceso de medida ya que expresa la magnitud de s en forma relativa a la magnitud del promedio.
En la práctica es usual estimar la precisión de un valor calculado a partir de una combinación de datos experimentales, cada uno de los cuales posee una precisión propia. La forma de estimar el desvío estándar de un resultado calculado depende del cálculo que se haya realizado.
Ejemplos: 1. Varianza de sumas o restas: La varianza de una suma o una resta de variables independientes es igual a la suma de las varianzas de dichas variables. Así, para f = a 1 ( ± s 1 ) + b ( ± s ) c 3 ( ± s 3 ), la varianza (si a, b y c son constantes) viene dada por: s (f) = a s 1 + b s + c s 3
Si aplicamos la fórmula anterior: f = V1 V s V1 = (0,06) ml s V = (0,03) ml f V 1 V f V V 1 1. s f 1 0, 07 (0,06) ml ml + 1 (0,03) ml Ej. : V1 = 6,45 (±0,04) ml V = 0,1 (±0,08) ml V - V 1 0,08 + 0,04 0,1mL- 6,45mL - 7, 0,1mL ml
. Varianza de productos o divisiones: el desvío estándar relativo de un producto o de un cociente puede calcularse como la raíz cuadrada de la suma de los cuadrados de los desvíos estándar relativos de las variables que intervienen en el cálculo: si Ej. 1: 1 = 14,10 (±0,06); = 0,0949 (±0,0005); 3 = 9,95 (±0,04) 3 3 1 1 s s s f 3 3 1 1 + + s s s f s f
f 1 3 14,10 0,060,0949 0,0005 9,95 0,13448... s f 0,04 14,100,0949 0,06 0,0005 0,04 s f + + 0, 001 9,95 14,10 0,0949 9,95 Entonces, f = 0,134 (± 0,001).
3. Varianza de cálculos exponenciales: para un cálculo del tipo f = a, donde a es una constante y está sujeta a un error caracterizado por un desvío estándar s, se deduce empleando la fórmula general que: Así, cuando a =, el DER del resultado será el doble del de, cuando a = 3 será el triple, etc. Debe tenerse en cuenta que, aunque =, en este caso no puede aplicarse la fórmula para productos ya que ambos factores no son independientes. s f f a s
4. Varianza de logaritmos y antilogaritmos: Si f = log(), 1 s s s f 0, 434 ln10 El desvío estándar absoluto del logaritmo de una variable es igual al desvío estándar relativo de esa variable multiplicado por 1/ln10. Ej.: -4-4 1 0,0 10 log [,00 ( 0,0) 10 ] -3,6990-4 ln10,0010-3,699 0,004
Si f = antilog() = 10, s f f ln10 s,303s el desvío estándar relativo del antilogaritmo de una variable es igual al desvío estándar absoluto de esa variable multiplicado por ln 10. Ej.: anti log anti log 10,4 5,4 0,3,51188...,51188... ln10 0,3 5 3 10 0,3,51188...,51188... ln10 0,3 10 3 10 10 Como puede verse, se asocia un desvío estándar grande al antilogaritmo de un número con pocos decimales, sin importar la cantidad de números a la izquierda de la coma. 5 10 10
Comparación de medias utilizando la t de Student (test t) Existe diferencia o no entre medias? Nivel de probabilidad Casos: 1) Comparación con un resultado conocido y aceptado: coincide o no el resultado? ) Comparación de los resultados obtenidos por dos métodos diferentes: concuerdan entre sí los resultados? 3) Varias muestras medidas por dos métodos que arrojaron resultados diferentes: concuerdan los dos métodos o difieren entre sí?
Caso 1. Se dispone de una muestra de carbón de material estándar de referencia, certificado por el NIST, que contiene 3,19% en peso de azufre. Se quiere ensayar un nuevo método analítico para ver si permite obtener el valor conocido. Los valores de % en peso de azufre medidos fueron: 3,9, 3,, 3,30, 3,3 Media: 3,6 Desviación estándar: 0,04 Pregunta: concuerda este resultado con el valor conocido? Si t calculada es mayor que t tabulada (ver tabla de Valores de t de Student) para n-1 grados de libertad, a un nivel de confianza del 95% se considera que los dos resultados son diferentes.
Valores de t de Student
Caso. Para dos conjuntos de medidas que tienen n1 y n medidas y asumiendo que la desviación estándar de la población (s) de cada método. es prácticamente la misma, se calcula el valor de t: La desviación estándar combinada, s combinada, utiliza los dos conjuntos de datos. Si t calculada es mayor que t tabulada para n1 + n - grados de libertad (ver tabla de Valores de t de Student) se considera que los dos resultados son diferentes, a un determinado nivel de confianza.
Si la desviación estándar de la población de ambos conjuntos de medidas no es la misma, se deben usar las ecuaciones:
Caso 3. Se trata de dos métodos distintos, A y B, con los que se hace una sola medida usando muestras diferentes. No se duplica ninguna medida. Se aplica el test t a las diferencias individuales entre los resultados de cada muestra. La cantidad d es la diferencia media entre los valores obtenidos por el método A y por el método B, y n es el número de pares de datos. Si t calculada es menor que t tabulada para n-1 grados de libertad, los resultados arrojados por ambos métodos no son significativamente distintos, a un determinado nivel de confianza.
Comentarios finales La estadística solo brinda la información que se encuentra en una serie de datos. No genera información nueva. La estadística nos proporciona medios para aceptar conclusiones que tienen una alta probabilidad de ser correctas y de rechazar las conclusiones que no lo son.
Bibliografía Harris DC, Análisis Químico Cuantitativo, Reverté, 006. Miller JC, Miller JN, Estadística para Química Analítica, Addison-Wesley, 1993. Skoog DA, West DM, Holler FJ, Fundamentos de Química Analítica, Mc Graw-Hill, 004. Christian G, Analytical Chemistry, John Wiley & Sons, 1994.