Transformaciones de Potencia Resumen El procedimiento Transformaciones de Potencia está diseñado para definir una transformación normalizadora para una columna de observaciones numéricas que no provienen de una distribución normal. En tales casos, frecuentemente es posible encontrar una transformación de potencia que hará a los datos aproximadamente normales. Dada tal transformación, pueden entonces aplicarse procedimientos estadísticos a los datos transformados que asumen normalidad. El procedimiento usa el método propuesto por by Box y Cox (1964). StatFolio de Ejemplo: powertransforms.sgp Datos de Ejemplo: El archivo groundwater.sf3 contiene n = 47 medidas de la concentración de uranio en muestras de agua del suelo tomadas de una localidad en el noroeste de Texas. La tabla a continuación muestra una lista parcial de los datos de ese archivo: ppm 8.25 2.82 4.16 18.66 12.72 8.75 2.29 7.22 9.76 7.72 27.38 5.14 La concentración es medida en partes por millón (ppm). 2006 por StatPoint, Inc. Transformaciones de Potencia - 1
Ingreso de Datos Los datos a analizar consisten de una sola columna numérica que contiene n = 2 o más observaciones. Datos: columna numérica que contiene los dato a ser analizados. Seleccionar: selección de un subgrupo de datos. Resumen del Análisis El Resumen del Análisis muestra las transformaciones derivadas para los datos. Transformaciones de Potencia - ppm Datos/Variable: ppm Número de observaciones = 47 Transformación Box-Cox Potencia (lambda1): 0.204 Cambio (lambda2): 0.0 (optimizar) Media geométrica = 9.01355 Intervalo aproximado del 95% de confianza para la potencia: -0.077 a 0.505 El procedimiento determina automáticamente la mejor transformación de potencia encontrando el valor de λ 1 que minimiza la desviación estándar de las observaciones cuando son transformadas de acuerdo con la transformación de Box-Cox: λ1 ( X + λ2 ) 1 = 1+ λ1 1 λ1g Y si λ 1 0 (1) Y = + g ln( X + λ ) si λ 1 = 0 (2) 1 2 donde g es la media geométrica de las observaciones después de agregarles λ 2 : 2006 por StatPoint, Inc. Transformaciones de Potencia - 2
1/ n STATGRAPHICS Rev. 9/14/2006 n g ( X ) = i + λ 2 (3) i= 1 El parámetro λ 2 se establece como 0 a menos que el analista especifique un valor diferente de cero en la caja de diálogo de las Opciones de Análisis. En el corazón de las transformaciones anteriores está la potencia a la cual se elevarán los datos, λ 1. Frecuentemente, una potencia entre 2 y +2 hará a los datos aproximadamente normales. Esto incluye muchas transformaciones comunes: Potencia λ 1 Transformación -2.0 cuadrada recíproca -1.0 recíproca -0.5 raíz cuadrada recíproca -0.3333 raíz cúbica recíproca 0 logaritmo 0.3333 raíz cúbica 0.5 raíz cuadrada 1.0 ninguna 2.0 cuadrada En general, entre más se aleje λ 1 de 1.0, más fuerte es la transformación. Se requieren potencias menores que 1.0 para normalizar datos sesgados positivamente, mientras que para datos sesgados negativamente se requieren potencias mayores que1.0. La siguiente es información importante que se incluye en la salida: 1. Potencia (λ 1 ): la potencia óptima para los datos. Para los datos de muestra, parece que ppm 0.204 es la transformación óptima para alcanzar la normalidad. 2. Traslado (λ 2 ): una constante especificada por el usuario que se agrega a cada observación antes de elevarla a una potencia. En algunos casos, trasladar los datos antes de realizar la transformación de potencia mejora el ajuste. 3. Media geométrica (g): la media geométrica de las observaciones después de agregar el parámetro de traslado. 4. Intervalo de confianza aproximado para la potencia: un intervalo de confianza aproximado para el parámetro de la potencia λ 1. Ya que la transformación de potencia obtenida se basa en una muestra de datos, es sólo un estimador puntual de la mejor potencia para la población de la cual se tomaron los datos. El intervalo de confianza muestra el margen estimado de error. En este caso, cualquier potencia entre 0.077 y 0.505 podría ser un valor razonable para λ 1. Esto incluye una transformación logarítmica y una raíz cuadrada. 2006 por StatPoint, Inc. Transformaciones de Potencia - 3
Opciones de Análisis Potencia (lambda1): el parámetro de potencia λ 1. Si se marca Optimizar, este valor será determinado automáticamente por el procedimiento. Traslado (lambda2): el parámetro de traslado λ 2. Este valor se agrega a las observaciones antes de realizar la transformación de potencia. Optimizar: marque esta casilla para hacer que el procedimiento determine un valor óptimo para λ 1 usando el método de Box-Cox. Gráfico de Probabilidad Normal Esta ventana exhibe el gráfico de probabilidad para los valores transformados. 99.9 Gráfica Probabilística Normal para transformados ppm lambda1 = 0.204, lambda2 = 0.0 99 95 porcentaje 80 50 20 5 1 0.1-1 9 19 29 39 transformados ppm Si la transformación fue exitosa en cuanto a normalizar los datos, éstos deben estar aproximadamente a lo largo de una línea recta. Para los datos muestra, la transformación fue muy efectiva. 2006 por StatPoint, Inc. Transformaciones de Potencia - 4
Se pueden encontrar detalles con respecto al gráfico de probabilidad normal en la documentación del Gráfico de Probabilidad Normal. Dirección: la orientación del gráfico. Si es Vertical, el Porcentaje se presenta en el eje vertical. Si es Horizontal, el Porcentaje se presenta en el eje horizontal. Línea Ajustada: el método usado para ajustar la línea de referencia a los datos. Si es Usando Cuartiles, la línea pasa por la mediana cuando el Porcentaje es de 50 con una pendiente determinada a partir del rango intercuartílico. Si es Usando Mínimos Cuadrados, la línea se ajusta con la regresión por mínimos cuadrados de los cuantiles normales de las estadísticas de orden. El primer método basado en los cuartiles da más peso a la forma de los datos cerca del centro y frecuentemente permite mostrar desviaciones de la normalidad en las colas que no serían evidentes usando el método de mínimos cuadrados. 2006 por StatPoint, Inc. Transformaciones de Potencia - 5
Tabla de Comparación del CME STATGRAPHICS Rev. 9/14/2006 El procedimiento de Box-Cox encuentra el valor λ 1 que minimiza el cuadrado medio del error CME = n ( Yi Y ) i= 1 n 2 (4) Esta tabla muestra los CME para varios valores de λ 1. Tabla comparativa MSE Cambio (lambda2): 0.0 lambda1 MSE -2.0 10323.0-1.8 4809.42-1.6 2311.36-1.4 1154.69-1.2 605.55-1.0 337.376-0.8 202.379-0.6 132.407-0.4 95.3914-0.2 75.9491 0.0 66.6195 0.2 63.853 0.4 66.1757 0.6 73.3865 0.8 86.2915 1.0 106.778 1.2 138.193 1.4 186.112 1.6 259.687 1.8 373.974 2.0 553.922 Lambda1 Máxima: mínimo valor de λ 1 a presentar en la tabla. Lambda1 Mínima: máximo valor de λ 1 a presentar en la tabla. Resolución: el número de incrementos entre los valores máximo y mínimo. 2006 por StatPoint, Inc. Transformaciones de Potencia - 6
Gráfico de Comparación del CME Este gráfico muestra el CME como una función de λ 1. STATGRAPHICS Rev. 9/14/2006 113 Comparación MSE lambda2 =0.0 103 MSE 93 83 73 63-0.5-0.2 0.1 0.4 0.7 1 lambda1 Se dibujan líneas verticales en el valor de λ 1 obtenido y en sus límites de confianza. Lambda1 Máxima: mínimo valor de λ 1 a presentar en el gráfico. Lambda1 Mínima: máximo valor de λ 1 a presentar en el gráfico. Resolución: el número de valores de λ 1 en los cuales se graficará el CME. Pruebas de Normalidad Esta ventana muestra los resultados de varias pruebas para determinar si una distribución normal modela adecuadamente los datos transformados. Pruebas de Normalidad Potencia (lambda1): 0.204 Cambio (lambda2): 0.0 Prueba Estadístico Valor-P Chi-Cuadrado 9.29787 0.861435 Estadístico W de Shapiro-Wilk 0.981806 0.8057 Puntuación Z para asimetría -0.0732864 0.941573 Puntuación Z para curtosis -0.697379 0.485563 2006 por StatPoint, Inc. Transformaciones de Potencia - 7
Valores de P pequeños para cualquier prueba (menor de 0.05 si se trabaja con un nivel de significancia del 5%) conducen al rechazo de la hipótesis de que los datos transformados siguen una distribución normal. Para los datos de muestra, la transformación parece haber normalizado los datos adecuadamente. Para más detalles sobre pruebas de normalidad, refiérase a la documentación en Ajuste de Distribuciones (Datos No Censurados). Incluir: elija una o más pruebas a realizarse. Gráfico de Sesgo y Curtosis Este gráfico muestra los valores del sesgo y de la curtosis estandarizados como una función del parámetro de potencia λ 1. 3 2 1 0-1 -2 Gráfica de Sesgo y Curtosis lambda2 =0.0 sesgo curtosis -3-0.5-0.2 0.1 0.4 0.7 1 lambda1 El sesgo y la curtosis estandarizados deben estar ambos entre 2 y +2 para una transformación que normalice los datos adecuadamente. El gráfico muestra líneas horizontales en 2 y +2, con las líneas verticales indicando el valor óptimo de λ 1 y sus límites de confianza. 2006 por StatPoint, Inc. Transformaciones de Potencia - 8
Claramente, hay un rango amplio de valores de λ 1 que harían una buena transformación de los datos. Lambda1 Máxima: mínimo valor de λ 1 a presentar en el gráfico. Lambda1 Mínima: máximo valor de λ 1 a presentar en el gráfico. Resolución: el número de valores de λ 1 en los cuales se graficarán las estadísticas. Salvara Resultados Se pueden salvar los valores de los Datos Transformados Y a una columna de la hoja de datos. Cálculos Sesgo Estandarizado & Curtosis Estandarizada Calculados usando el método descrito bajo Pruebas de Normalidad en la documentación para Ajuste de Distribuciones (Datos No Censurados). 2006 por StatPoint, Inc. Transformaciones de Potencia - 9