Taller de análisis estadístico con R

Transcripción

1 Taller de análisis estadístico con R 4. Pruebas estadísticas Rodolfo Mora rmora@cenat.ac.cr Ricardo Román rroman@cenat.ac.cr Julio, 2016

2 Contenido 1 Pruebas de hipótesis Introducción Confianza Naturaleza de datos Poder estadístico 2 Comprobación de supuestos Pruebas de normalidad Transformación Homocedasticidad 3 Selección de prueba Tipo de prueba Prueba por tipo de pregunta 4 Pregunta tipo 1 T-Test Mann-Whitney-Wilcoxon Test One-way Anova 2 / 72

3 Pruebas de hipótesis 3 / 72

4 Pruebas de hipótesis Introducción Hace uso de información sobre la distribución de la población para determinar la respuesta a una pregunta. Pasos: 1 Desarrollar una pregunta de interés clara la cual va a guiar el análisis estadístico 2 Definir hipótesis 3 Determinar nivel de significancia 4 Elegir (y realizar) análisis estadístico 5 Tomar decisión 4 / 72

5 Pruebas de hipótesis Definición de la pregunta Para análisis estadístico la pregunta de investigación debe estar formulada en función al comportamiento de los datos. Principalmente las preguntas que giran en torno a explicar o describir el comportamiento de una variable en relación a otra(s). 5 / 72

6 Pruebas de hipótesis Definición de hipótesis La hipótesis es una respuesta potencial a la pregunta, por lo tanto está extremadamente ligada a la pregunta a realizar. Una vez planteada la hipótesis se determina la hipótesis nula (H 0 ), que siempre es la negación a la alternativa. Por ejemplo: Existe relación proporcional entre A y B? H 0 : No hay relación significativa. Alternativa: Sí hay una relación proporcional. Prueba: Correlación. Es A influenciada por el valor de B? H 0 : No hay diferencia significativa en el valor de B. Alternativa: Sí es clara la influencia de A en el valor de B Prueba: ANOVA. Están los valores de A dados en función de B? H 0 : No hay una función que determine A a partir de B. Alternativa: Sí existe una función de B que determina A. Prueba: Regresión. 6 / 72

7 Pruebas de hipótesis Nivel de significación Una vez definida H 0, se debe establecer un margen de error aceptable, este se establece con un porcentaje y es denotado por α. Si el margen de error aceptado es de 5 % entonces el valor de α debe ser Al ejecutar una prueba estadística, el resultado de la prueba, comúnmente representado por el valor-p (p-value) debe ser menor a α para rechazar H 0. El margen de confianza (1 α) se denomina nivel de significación. En el caso de α = 0,05, la significación es 95 %. El valor depende del área de estudio, tema, tipo de prueba, tipo de muestra, etc. En biociencias usualmente 5 % (0.05) mientras que en ingeniería puede ser << 1 % (0.01) 7 / 72

8 Pruebas de hipótesis Tipos de error H 0 Rechazada H 0 Aceptada H 0 Verdadera Error tipo I Falso Positivo Confianza = 1 β H 0 : Falsa Confianza = 1 α Error tipo II Falso Negativo Error de tipo I - Falsos positivos: Se representa por α, siendo 1 α el poder estadístico de la prueba. Denota la probabilidad de que la hipótesis nula haya sido rechazada, pero en realidad es verdadera. Es decir se asume que los datos cumplen propiedades que en realidad no cumplen. Error de tipo II - Falsos negativos: Se representa por β. Denota la probabilidad de que la hipótesis nula haya sudo aceptada, cuando en realidad es falsa. Es decir se asume que los datos no cumplen propiedades cuando sí las tienen. 8 / 72

9 Pruebas de hipótesis Tipos de error Un valor α de 0.05 significa dos cosas: Que existe un 5 % de probabilidad de que la hipótesis nula sea verdadera, a pesar de que haya sido rechazada. Que para un 5 % de los datos, el resultado positivo en realidad es falso. La significancia (1 α) indica qué tanto debe confiar el usuario en la prueba, de ahí que también se denomine la confianza, este parámetro se define de forma completamente arbitraria, ya que depende absolutamente de la aplicación. Por ejemplo es común que en pruebas médicas se acepte con más flexibilidad el error tipo I, mientras que se establece un umbral estrecho para el error tipo II. Es mejor decirle a un paciente que posiblemente tiene algo, cuando está sano, que decirle que no tiene nada, cuando en realidad está enfermo. 9 / 72

10 Pruebas de hipótesis Valor-p El p-value de una prueba estadística es el resultado obtenido al analizar los datos que indica si la hipótesis nula ha sido aprobada o rechazada. Si p > α = H 0 es aceptada. Esto significa que está demostrado que los datos NO cumplen la propiedad buscada, la hipótesis alternativa es descartada definitivamente. Si p < α = H 0 no puede ser aceptada. Esto significa que no es posible demostrar que los datos no cumplen la propiedad buscada, la hipótesis alternativa se asume como cierta, con una confianza de 1 α. Normalmente rechazar la hipótesis nula es suficiente para dar un resultado positivo al experimento, pero es importante recalcar que el resultado es una asunción, carente de certeza. Aún en el caso en que se acepta H 0, existe una probabilidad β de que H 0 sea falsa, así que este resultado tampoco tiene certeza absoluta. 10 / 72

11 Naturaleza de datos No paramétricos Datos no paramétricos No tienen parámetros estadísticos definidos: promedio, varianza, etc... Normalmente carecen de magnitud numérica No son necesariamente ordenados Etiquetas, binarios, ordinales Pueden ser números que no tengan una distribución de probabilidad específica 11 / 72

12 Naturaleza de datos Paramétricos Datos paramétricos Tienen una distribución de probabilidad definida, en la mayoría de los casos la distribución normal Tienen promedio y desviación estándar definida Obligatoriamente tienen magnitud numérica Son ordenables y comparables 12 / 72

13 Poder estadístico Definición Denota la probabilidad de encontrar resultados relevantes cuando estos existan (vital en diseño experimental). Hace posible determinar el tamaño de la muestra requerido para detectar un efecto de un tamaño determinado con un nivel de confianza dado. Si la probabilidad calculada es muy baja, sería necesario modificar o del todo abandonar el experimento. 13 / 72

14 Poder estadístico Cálculo Otra forma de definirlo, es la probabilidad de obtener resultados positivos cuando la hipótesis alternativa es verdadera, es decir 1 β. El cálculo del poder estadístico toma en consideración el tipo de prueba a realizar y 3 valores principalmente: 1 Tamaño de muestra 2 Efecto de tamaño 3 Nivel de significación (1 α) 14 / 72

15 Poder estadístico Introducción No existe un estándar definido para establecer el poder estadístico, al igual que la significancia, depende del área de estudio. Típicamente se define β = 4α, por lo tanto para un α = 0,05 (5 %), β = 0,2. Por lo tanto se establece que el poder estadístico P es de 80 % (0.8). 15 / 72

16 Comprobación de supuestos 16 / 72

17 Comprobación de supuestos Las pruebas paramétricas requieren que los datos cumplan ciertos supuestos. Que los datos sean paramétricos Que los datos tengan una distribución de probabilidad normal Que las varianzas sean homogéneas (Homocedasticidad) Analizar el tipo de dato es suficiente para determinar si son paramétricos, sin embargo para los otros dos puntos es necesario realizar pruebas. 17 / 72

18 Pruebas de normalidad Para verificar la normalidad de un conjunto de datos se puede: Visualizar los datos (histograma, QQ-Plot) Evaluar la simetría (skewness) y la curtosis (kurtosis) Aplicar una prueba formal 18 / 72

19 Pruebas de normalidad Visualización Para evaluar los datos visualmente es necesario generar un histograma o un gráfico Q-Q par(mfrow=c(1,2)) # Mostrar dos gráficos adyatences A <- rnorm(n = 30, mean = 30, sd = 20) # Generar datos ficticios hist(a) # Genera histograma de A qqnorm(a) # Genera plot de cuantiles de A qqline(a) # Genera línea datos ideales 19 / 72

20 Pruebas de normalidad Visualización Figura : Visualización inicial de datos 20 / 72

21 Pruebas de normalidad Simetría Simetría hace referencia a la distancia de la media al menor valor en proporción a la distancia de la media al valor mayor. Si el valor de la simetría se acerca a 0, indica que la distribución es simétrica, es decir ambos valores extremos están aproximadamente a la misma distancia de la media. Si el valor de la simetría es positivo (S > 0) indica que el valor menor está más cerca de la media que el valor mayor, inclinando la media hacia la izquierda. Si el valor de la simetría es negativo (S < 0) indica que el valor mayor está más cerca de la media que el valor menor, inclinando la media hacia la derecha. 21 / 72

22 Pruebas de normalidad Simetría Figura : Simetría en la distribución de los datos 22 / 72

23 Pruebas de normalidad Curtosis La curtosis indica qué tan pronunciada es la forma de campana en una distribución normal. Una curtosis muy alta denota una campana alargada y con las colas muy bajas - Leptocúrtica Un valor intermedio denota una campana ideal con la punta semicircular y la curva de las colas pronunciada - Mesocúrtica Una curtosis muy baja indica una campana chata y ancha con la curva de las colas poco pronunciada - Platycúrtica En una distribución normal ideal, la curtosis tiene un valor cercano a / 72

24 Pruebas de normalidad Curtosis Figura : Forma de la curva según el tipo de curtosis 24 / 72

25 Pruebas de normalidad Simetría y Curtosis El paquete moments de R tiene las funciones para calcular la simetría: skewness(), y la curtosis: kurtosis(). library("moments") A <- rbeta(500,5,5) curtosis <- kurtosis(a) simetria <- skewness(a) plot (density(a), main = "Normal", xlab = paste("curtosis ", round(curtosis, 2), "\n", "Simetría ", round(simetria,2))) 25 / 72

26 Pruebas de normalidad Simetría y Curtosis 26 / 72

27 Pruebas de normalidad Pruebas formales Existen varias pruebas estadísticas diseñadas para determinar la normalidad de los datos. En general, todas se basan en los siguientes enunciados: H 0 : Los datos vienen de una población con distribución normal H A : Los datos vienen de una población con distribución no normal 27 / 72

28 Pruebas de normalidad Pruebas formales Los más comunes son: 1 Anderson-Darling 2 Shapiro-Wilk 3 Lilliefors (Kolmogorov Smirnov) 28 / 72

29 Pruebas de normalidad Pruebas formales Shapiro-Wilk El más común de las pruebas de normalidad. Tiene más poder que variaciones del Kolgomorov-Smirnov. a <- rnorm(100, 40, 5) b <- runif(100, 50, 70) c <- rpois(100, 6) # Normal # Uniforme # Poisson shapiro.test(a) shapiro.test(b) shapiro.test(c) 29 / 72

30 Pruebas de normalidad Pruebas formales Si p > α se acepta H 0, por lo tanto los datos tienen distribución normal. Shapiro-Wilk normality test data: a W = , p-value = data: b W = 0.961, p-value = data: c W = , p-value = En el ejemplo, para una confianza del 95 % a (0.2710) Sí tiene distribución normal b (0.0002) No tiene distribución normal c (0.0009) No tiene distribución normal 30 / 72

31 Pruebas de normalidad Pruebas formales Lilliefors test y Anderson-Darling: Versión del test de Kolmogorov-Smirnov diseñada para distribuciones normales (Lilliefors). Ambos requieren la instalación del paquete nortest. # Empleando los mismos datos anteriores lillie.test(a); lillie.test(b); lillie.test(c) data: a > D = , p-value = data: b > D = , p-value = data: c > D = , p-value = ad.test(a); ad.test(b); ad.test(c) data: a > A = , p-value = data: b > A = , p-value = data: c > A = , p-value = Nótese que sólo los datos del set a cumplen con la distribución normal. 31 / 72

32 Pruebas de normalidad Pruebas formales Si se quiere ser formal, los Resultados de sólo una prueba no suelen ser concluyentes. Decisión debe basarse en combinación de visualización de los datos, la simetría, curtosis así como de tests formales de normalidad. 32 / 72

33 Transformación de datos Qué hacer si los datos no están normalmente distribuidos? Aplicar una transformación simple a los datos para alterar su distribución. 33 / 72

34 Transformación de datos Transformaciones logarítmicas Estas son las más comunes y se emplean principalmente cuando: Los datos están altamente sesgados El rango de los datos es muy amplio, incluso varía en órdenes de magnitud Existen outliers (datos extremos) No hay valores negativos 34 / 72

35 Transformación de datos Transformaciones logarítmicas 35 / 72

36 Transformación de datos Transformaciones logarítmicas Ejemplo de transformación logarítmica: library("moments") par(mfrow=c(1,2)) # Mostrar dos gráficos simultáneamente A <- rbeta(1000,1.5,500) # Generar datos en distribución beta A1 <- log(a) # Transformar datos # Graficar los resultados hist(a, xlab = paste("curtosis ", round(kurtosis(a),2), "\n", "Simetría ", round( skewness(a),2))) hist(a1, xlab = paste("curtosis ", round(kurtosis(a1),2), "\n", "Simetría ", round( skewness(a1),2)))c) 36 / 72

37 Transformación de datos Transformaciones exponenciales Incluyen todas aquellas elevadas a una potencia (pueden ser fracciones, negativa o positiva). La más común es la raíz cuadrada. 37 / 72

38 Transformación de datos Ejemplo de transformaciones exponenciales par(mfrow=c(1,2)) library("moments") A <- rnorm(100, 10, 4)^2 A1 <- A^(1/2) hist(a, xlab = paste("curtosis ", round(kurtosis(a),2), "\n", "Simetría ", round( skewness(a),2))) hist(a1, xlab = paste("curtosis ", round(kurtosis(a1),2), "\n", "Simetría ", round( skewness(a1),2))) 38 / 72

39 Homocedasticidad El último parámetro a evaluar para las pruebas paramétricas es el comportamiento de la varianza del error de un modelo. La homocedasticidad es una propiedad de los datos que se presenta cuando la varianza de un conjunto es igual a la varianza de cualquiera de sus subconjuntos. Es decir, la varianza es constante a través de todos los datos del conjunto. Las regresiones lineales suponen que los residuos del modelo presentan esta propiedad, por lo tanto es necesario evaluarla para establecer la confianza del modelo. Es posible evaluar la homocedasticidad visualmente, mejor dicho, es posible determinar si la relación entre dos variables presenta heterocedasticidad visualizando la distribución de los datos con un gráfico de dispersión. 39 / 72

40 Homocedasticidad Visualización 40 / 72

41 Homocedasticidad Prueba de Fisher Prueba de Fisher: Evalua homocedasticidad (homogeneidad de varianza) en las muestras. Asume que la proporción de las varianzas entre las dos muestras es 1 (H 0 varianzas son iguales) var.test(x, y) Donde x corresponde al primer set de datos y y el segundo. El resultado indica un intervalo de confianza, si el radio de varianzas cae dentro de este intervalo, se puede asumir que la relación entre las variables presenta homocesdasticidad, por lo que puede aplicarse pruebas de regresión lineal con alto nivel de confianza. 41 / 72

42 Homocedasticidad Ejemplo: x <- rnorm(50, mean = 0, sd = 2) y <- rnorm(30, mean = 1, sd = 1) var.test(x, y) F test to compare two variances data: x and y F = , num df = 49, denom df = 29, p-value = 8.885e-05 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: sample estimates: ratio of variances Según los datos, el F-value se encuentra dentro del intervalo de confianza por lo que la prueba es fiable. Se descarta la H 0 ya que p-value << a / 72

43 Selección de prueba 43 / 72

44 Selección de prueba Tipos de prueba Pruebas no paramétricas Para datos no paramétricos Tienen menos supuestos (no tienen) sobre los datos Más conservadoras (Menos probable que rechacen H 0 ) Mayor probabilidad de error tipo 1 si los datos son paramétricos Se usan cuando hay pocos datos, los datos no son confiables, no tienen distribución clara, etc... Pruebas paramétricas Estadísticamente más poderosas (resultados más precisos y más confiables) Tienen más supuestos sobre los datos (distribución, varianzas, etc...) Más probabilidad de producir error tipo 2, si los datos usados son no parámetricos Si los datos cumplen los supuestos de la prueba, se pueden establecer significancia y poder estadístico más altos (márgenes de error más bajos) 44 / 72

45 Selección de test Tipo de prueba A modo de resumen: Parámetro Tipo de datos Distribución asumida Asume varianzas constantes Asume muestras independientes paramétri- Pruebas cas Intervalos o proporcionales Pruebas no paramétricas Nominales, ordinales, otros No asumen forma No No Requieren conocimiento de distribución (usualmente normal) Usualmente Sí 45 / 72

46 Tipo de pregunta Todas las preguntas pueden clasificarse en varios tipos, típicamente van a ser estos dos: 1 Mis muestras difieren significativamente? 2 Existe alguna relación entre mis variables? 46 / 72

47 Pregunta tipo 1 47 / 72

48 Mis muestras difieren significativamente? 48 / 72

49 T-Test t-test Prueba empleada para comparar diferencias significativas entre dos muestras. Asume: Poblaciones normalmente distribuidas Selección de muestras aleatorias e independientes 49 / 72

50 T-Test Es una de las pruebas más comúnmente utilizadas ya que ofrece facilidades como: No es necesario que las muestras tengan varianzas iguales (existe la aproximación de Welch para este caso) No es necesario que las muestras tengan el mismo tamaño No hay un tamaño mínimo de la muestra (siempre que las suposiciones se mantengan) 50 / 72

51 T-Test Es posible desarrollar la prueba para datos pareados y no pareados. datos pareados: sobre el mismo individuo: efectos de una dieta en las mismas personas (antes y despues) datos no-pareados: sobre diferentes individuos: efectos de una dieta en un grupo control y un grupo de prueba Un t-test no pareada busca comparar muestras distintas mientras que una pareada se basa en mediciones distintas a una misma muestra. 51 / 72

52 T-Test Ejemplos de uso: Concentración de fosfatos en aguas de dos zonas es significativamente diferente (t-test no pareada) Crecimiento de plantas (gramos de biomasa) luego de 6 meses de tratamiento entre grupo control y con agroquímico (t-test no pareada) Peso de personas antes y después de una dieta (t-test pareada) Azúcar en sangre en personas diabéticas antes y después de un tratamiento (t-test pareada) 52 / 72

53 T-Test Ejemplo # Un arreglo de 10 entradas con distribución normal # Promedio 15, desviación estándar 1 A <- rnorm(10, 15, 1) # Un arreglo calculado a partir del primero B <- A * 10 # T Test de dos colas, no pareado, con varianzas iguales y confianza del 95 % t.test(a, B, alternative = "two.sided", paired = F, var.equal = T, conf.level = 0.95) Two Sample t-test data: A and B t = , df = 18, p-value < 2.2e / 72

54 T-Test Análisis T-Test no pareado de dos colas prueba si las muestras son significativamente distintas. El t indica la distancia que las poblaciones tienen, en la magnitud de la muestra. Entre más cercano este valor a 0, menos diferencia se detectó entre las poblaciones. El p-value, como ya se ha visto, indica si se puede rechazar la hipótesis nula, para esto tiene que ser menor al margen de error aceptable (α). El T-Test se puede probar con una sola cola, en R el valor del parámetro alternative se puede cambiar por "greater" o "g" para probar si la primera variable es más grande que la segunda. Así mismo puede cambiarse por "less" o "l" para probar si la primera variable es menor a la segunda. La versión pareada requiere que las poblaciones sean del mismo tamaño y que estén ordenadas, de forma que cada muestra del primer conjunto tenga un correspondiente en el segundo conjunto. 54 / 72

55 Mann-Whitney-Wilcoxon test y Wilcoxon Signed-Rank Alternativa no paramétrica al t-test no pareado (Mann-Whitney U-test) o pareado (Wilcoxon Signed-Rank). Las asunciones del test son simples: Datos son independientes Muestras corresponden a observaciones aleatorias de la población Observaciones en cada muestra son independientes (el resultado de una observación no altera el de otra medición en una misma muestra) 55 / 72

56 Mann-Whitney-Wilcoxon test y Wilcoxon Signed-Rank Se basa en comparar si los rangos de dos sets de datos difieren significativamente. Puede ser empleado para datos continuos u ordinales siempre y cuando puedan ser ordenados en rangos de menor a mayor. # Una variable aleatoria con distribución uniforme (no normal) C <- runif(10,1,10) # Una variable construida a partir de la variable anterior. D <- C*10 wilcox.test(c, D, paired = T, alternative = "two.sided") Wilcoxon signed rank test data: C and D V = 0, p-value = alternative hypothesis: true location shift is not equal to 0 56 / 72

57 One-way ANOVA Analiza si los valores de una variable (dependiente) están fuertemente influenciados por los valores de otra variable (independiente). Usualmente una variable clasificadora o de agrupación. La variable dependiente tiene que ser paramétrica, la variable independiente casi nunca lo es. Ejemplos: Evaluación del efecto de 4 distintos tipos de sustrato en el crecimiento de plantas de café. Evaluación del impacto de 5 distintos programas de ejercicio en el crecimiento de masa muscular. 57 / 72

58 One-way ANOVA B <- read.csv("baseballsqc.csv") # Archivo con estadísticas de baseball # Verificar si los promedios de bateo (BA) son diferentes por cada equipo (TEAM) fitb <- aov (BA TEAM, data = B) summary(fitb) Df Sum Sq Mean Sq F value Pr(>F) TEAM e-05 *** Residuals El p-value para la prueba está dado por Pr(>F) que en este caso tiene un valor de 4.19e-05, es decir se rechaza la hipótesis nula: se puede decir con mucha confianza que el promedio de bateo es claramente distinto por equipos, en al menos dos equipos. 58 / 72

59 One-way ANOVA El análisis de varianza (ANOVA) únicamente indica si existe afectación, no provee información más detallada acerca de qué forma tiene dicha afectación. Para describir la afectación se puede usar la prueba de Tukey la cual calcula la diferencia de impacto de cada valor en la variable independiente. TukeyHSD(fitB) Tukey multiple comparisons of means 95 % family-wise confidence level Fit: aov(formula = BA TEAM, data = B) $TEAM diff lwr upr BOS-BAL e-02 CHW-BAL e / 72

60 Multi-way ANOVA Si se cree que la variable dependiente está definida, no por una, sino por múltiples variables independientes interactuando juntas, se puede componer la prueba de ANOVA. fitb <- aov(ba TEAM * YEAR, B) summary(fitb) Df Sum Sq Mean Sq F value Pr(>F) TEAM e-05 *** YEAR TEAM:YEAR e-05 *** Residuals Nótese como YEAR (p = 0.718) no es suficiente para explicar la variable BA, pero TEAM:YEAR juntas (p = 1.51e-05) sí pueden explicarla, incluso mejor que TEAM por sí misma (p = 2.76e-05). 60 / 72

61 Kruskal-Wallis Alternativa no paramétrica a one-way ANOVA. Requiere que las distribuciones de las muestras sean similares así como sus varianzas (cercano a homocedasticidad). # La variable Home Runs (HR) no tiene distribución normal kruskal.test(hr TEAM, B) Kruskal-Wallis rank sum test data: HR by TEAM Kruskal-Wallis chi-squared = 36.08, df = 7, p-value = 7.002e-06 Esta prueba evalúa las medianas en lugar de los promedios (H 0 mediana en las muestras no es significativamente distinta). En caso de que las distribuciones sean distintas, existe una alternativa llamada Welch ANOVA. 61 / 72

62 Kruskal-Wallis Un análisis de los resultados puede realizarse empleando un análogo al Tuckey encontrado en el paquete pgirmess. kruskalmc(b$hr, B$TEAM) Multiple comparison test after Kruskal-Wallis p.value: 0.05 Comparisons obs.dif critical.dif difference BAL-BOS FALSE BAL-CHW FALSE... CHW-NYY TRUE... DET-MIN TRUE / 72

63 Pregunta tipo 2 63 / 72

64 Existe alguna relación entre mis variables? Algunos tests: Paramétricas Correlación de Pearson Regresión simple No paramétricas Chi-cuadrado Correlación de Spearman 64 / 72

65 Existe alguna relación entre mis variables? Fuente: Allison Horst 65 / 72

66 Correlación de Pearson Es una correlación paramétrica, indica si los datos son linealmente proporcionales. Se utiliza para determinar si dos variables están fuertemente relacionadas entre sí. Por ejemplo: El tamaño de la copa de un árbol es proporcional al ancho de su tronco? La estatura de un niño entre 1 y 15 es proporcional a su edad? La aceleración máxima de un automóvil es proporcional a su cilindraje? 66 / 72

67 Correlación de Pearson A <- rnorm(500,5,5) # Una variable aleatoria con distribución normal B <- A * 10 * runif(500,1,5) # Una variable nueva proporcional a la primera C <- rnorm(500,-100,100) # Otra variable con distribución normal cor(a,b) [1] cor(a,c) [1] Entre más cerca esté el resultado a 1, más fuerte es la correlación, en el ejemplo A y B tienen una correlación del 89.5 %. Mientras que A y C, que son ambas variables aleatorias distintas, tienen una correlación muy baja. Si el resultado es cercano a -1, la correlación es fuerte, pero las variables son inversamente proporcionales. 67 / 72

68 Correlación de Pearson Puede observarse como claramente A y B tienen una correlación muy alta, es decir sus valores se ajustan muy bien a una ĺınea de tendencia, tienen una relación lineal fuerte. Mientras que A y C no parecen ajustarse a su ĺınea de tendencia, su relación es muy débil. 68 / 72

69 Correlación de Spearman Muy similar a la correlación de Pearson, la de Spearman no asume que las variables sean paramétricas, de hecho no hace suposiciones respecto a la distribución de los datos. La correlación establece rangos de valores y compara si los rangos crecen o decrecen de forma proporcional en ambas variables. # Comparación del promedio de bateo (BA) con la cantidad de carreras (R) # Nótese que R es una variable NO PARAMÉTRICA # Usando Pearson cor(b$r, B$BA) [1] # Usando Spearman cor(b$r, B$BA, method = "spearman") [1] / 72

70 Regresión lineal Por medio de la regresión lineal se intenta modelar la relación entre una variable dependiente y una o más variables explicativas. Es la variable Y el resultado de una función de la variable X? y = f (x) = a + bx + ɛ El objetivo de la regresión lineal es determinar si la relación existe y encontrar los coeficientes a, b y ɛ f <- faithful # Datos de prueba Faithful disponibles en R m <- lm(eruptions waiting, data = f) # Cálculo de la regresión lineal c <- coefficients(eruption.lm) # Obtención de coeficientes a y b c (Intercept) waiting / 72

71 Regresión lineal Al igual que con las otras pruebas, la regresión lineal tiene un p-value que determina la confianza del ajuste. Adicionalmente provee información de los errores en el cálculo de coeficientes: summary(m) # Mostrar el resumen del modelo calculado Call: lm(formula = eruptions waiting, data = f)... Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** waiting <2e-16 ***... p-value: < 2.2e / 72

72 Taller de análisis estadístico con R 4. Pruebas estadísticas Rodolfo Mora rmora@cenat.ac.cr Ricardo Román rroman@cenat.ac.cr Julio, 2016