TEMA 0: INTRODUCCIÓN Y REPASO 1. Introducción a la estadística 2. Estadística descriptiva: resumen numérico y gráfico de datos 3. Estadística inferencial: estimación de parámetros desconocidos 4. Comparación de dos poblaciones 5. Objetivos del curso Estadística aplicada al medio ambiente 1
1. Introducción a la Estadística La ESTADÍSTICA es una herramienta para la toma de decisiones, a partir de una observación incompleta de la realidad. La ESTADÍSTICA se divide en: Descriptiva Con estos datos podemos decir que ocurre [ ] en esta muestra Inferencial Con estos datos podemos decir que hemos encontrado evidencia estadística para poder afirmar que ocurre [ ] en la población. Para hacer ESTADÍSTICA es imprescindible tener datos. DATOS = Valores numéricos de los que se extraen las conclusiones. Se pueden obtener mediante: - Observación - Experimentos - Encuestas 2
Tipos de datos CATEGÓRICOS (cualitativos) BINARIOS o dicotómicos Politómicos NOMINALES (categóricos puros) ORDINALES (semicuantitativos) Discretos o discontinuos CUANTITATIVOS (escala) CONTINUOS (Normales, exponenciales,etc) Tipos de datos Univariantes Multivariantes Bivariantes Multivariantes 3
2. Estadística Descriptiva: Resumen numérico y gráfico de datos RESUMEN NUMÉRICO DE LOS DATOS Datos categóricos NOMINALES: Tabla de frecuencias y moda. Datos categóricos ORDINALES: Medidas de posición: mediana y moda. Medidas de dispersión: rango intercuartílico (Q 3 -Q 1 ) Medidas de asociación: coeficiente de correlación de Spearman Datos CUANTITATIVOS: Medidas de posición: media, mediana, moda, media recortada. Medidas de dispersión: varianza, desviación típica, amplitud, rango intercuartílico (Q 3 -Q 1 ), MEDA. Medidas de forma: coeficientes de asimetría y curtosis. Medidas de asociación: coeficiente de correlación de Pearson. 4
RESUMEN GRÁFICO DE LOS DATOS 250 200 150 100 Diagrama de barras Diagrama de sectores Mapas estadísticos 50 0 Greatly A lot Something Little Nothing DATOS CATEGÓRICOS Histograma Boxplot Barras de error Gráfico probabilístico Diagrama de dispersión Gráfico de líneas DATOS CUANTITATIVOS 40,00 120,00 100,00 80,00 60,00 20,00 0,00 clorofila 130,56 1351,35 538,46 363,64 126,67 110,51 Casos ponderados por nºcelulas 5
3. Estadística Inferencial: Estimación de parámetros desconocidos En la ESTADÍSTICA INFERENCIAL se utiliza el MÉTODO INDUCTIVO para INFERIR conclusiones De lo particular a lo general La MUESTRA es lo particular La POBLACIÓN es lo general La muestra es un subconjunto de la población La INFERENCIA de conclusiones generales a partir de MUESTRAS es siempre INCIERTA. Existen muchas muestras posibles, pero nosotros solo OBSERVAMOS UNA!!! La ESTADÍSTICA se ocupa de medir esa incertidumbre 6
EL TEST ESTADÍSTICO Un TEST o contraste de hipótesis es la HERRAMIENTA que nos permite JUZGAR una HIPÓTESIS con la información que proporciona una muestra de datos La hipótesis que estamos juzgando se llama HIPÓTESIS NULA -H 0 y la contraria se llama hipótesis alternativa H 1 NUNCA SE TRATA DE PROBAR QUE H0 ES CIERTA, SE ASUME CIERTA SE TRATA DE VER SI LOS DATOS APORTAN TANTA EVIDENCIA EN CONTRA COMO O PARA LLEGAR A RECHAZARLA 7
Como en los juicios Todo el mundo es inocente (hipótesis nula) a menos que se demuestra su culpabilidad (alternativa) Se trata t de ver si los datos (pruebas) aportan tanta t evidencia en contra de la hipótesis nula (inocencia) como para a llegar a rechazarla a a Si las pruebas aportan suficiente evidencia en contra de la INOCENCIA (H 0 ), se rechaza y se declara culpable al acusado Si las pruebas NO aportan suficiente evidencia en contra de la INOCENCIA (H 0 ), no se rechaza y se declara no culpable al acusado (que no es lo mismo que inocente) 8
Una vez que hemos fijado H 0, la pregunta que nos hacemos es, los datos aportan suficiente evidencia en contra de la hipótesis nula? SI hay evidencia en contra de la hipótesis Se rechaza y decimos que hay evidencia a favor de la hipótesis contraria NO hay evidencia en contra de la hipótesis No se rechaza pero tampoco se ha demostrado que la hipótesis es cierta LA ESTADÍSTICA NO SIRVE PARA PROBAR NADA!!! 9
DISEÑO DE UN TEST ESTADÍSTICO Pasos que hay que seguir para diseñar un buen test estadístico: Fijar de manera precisa las hipótesis (H 0 y H 1 ) Definir un buen estadístico del test Fijar qué porcentaje de veces estamos dispuestos a asumir que rechazamos la hipótesis nula cuando es cierta (nivel de significación) Resolver el test Entre dos test elegiremos siempre el más potente para detectar la evidencia que contienen los datos. CÓMO PODEMOS SIMPLIFICAR EL PROCESO para no tener que recordar cada vez que queramos hacer un test: cuál es el ESTADÍSTICO del TEST, su DISTRIBUCIÓN, fijar ALPHA, buscar en las TABLAS, etc? 10
p-valor El p-valor es un número que se calcula con los datos de una muestra y que mide la probabilidad de obtener valores del estadístico más extremos del que calculamos con esa muestra Si el p-valor es pequeño La discrepancia es grande, ya que no se espera que haya muchos valores mayores, entonces tenemos evidencia para rechazar H 0 Si el p-valor es grande La discrepancia es pequeña y no tenemos evidencia para rechazar H 0 CUÁNDO ES UN p-valor GRANDE o PEQUEÑO??? p-valor grande: Mayor que 0,1 No se rechaza Si el p-valor está entre 0,01 y 0,1 se rechaza, a menos que las consecuencias de equivocarnos sean muy graves p-valor pequeño: Menor que 0,01 Se rechaza Siempre se rechaza cuando el p-valor es más pequeño que α 11
VENTAJAS DE USAR EL p- VALOR Nos dice si el estadístico del test es un número grande o pequeño sin tener que saber nada sobre su distribución, ni mirar las tablas. Es un número entre 0 y 1, no depende de la magnitud ni las unidades de medida de cada problema. Lo calcula cualquier paquete estadístico cuando hacemos un test. CONCLUSIONES SOBRE LOS TEST ESTADÍSTICOS Cuando disponemos de un conjunto de datos, lo único que necesitamos saber para poder usar los test estadísticos es: Qué hipótesis i queremoscontrastar. t Cuál es el mejor test. Disponer de una máquina que nos calcule el p-valor. Los test, como la estadística, NO sirven para PROBAR hipótesis. Son aparatos para detectar evidencias que ayudan en la toma de decisiones. 12
4. Comparación de dos poblaciones Test general de comparación de dos poblaciones H 0 : Las poblaciones son homogéneas en cuanto a su respuesta a una variable H 1 : Las poblaciones no son homogéneas Cuando hablamos de homogeneidad nos referimos a que los valores observados en ambas poblaciones vienen de la misma distribución En el caso de que sepamos que la distribución de la variable en las dos poblaciones es normal, estudiar si son homogéneas es equivalente a que las medias (y las varianzas) coincidan 13
Test t para muestras independientes H 0 : Las respuestas medias son iguales en las dos poblaciones H 1 : Las respuestas medias son distintas t en las dos poblaciones Para poder usar el Test t para muestras independientes tenemos que asumir que en las dos poblaciones la variable que se estudia es: NORMAL Independiente entre las poblaciones Independiente entre los individuos de la misma población La varianza puede ser o no la misma en las dos poblaciones Cuando los datos están emparejados entre las dos muestras Se utiliza el test-t para muestras dependientes Cuando no podemos asumir que la variable es Normal Se utilizan test noparamétricos (chi-cuadrado, Mann-Whitney, ) 14
5. Objetivos del curso Estadística aplicada al medio ambiente Tema 1: Comparación de poblaciones Estudiar si existen diferencias significativas en el comportamiento de una variable en más de dos poblaciones. Tema 2: Diseño de experimentos Modelos para analizar la influencia de varios factores sobre un fenómeno que nos interesa estudiar. Tema 3: Regresión lineal simple Estudiar la relación entre dos variables cuantitativas medidas en los mismos individuos. duos Tema 4: Modelos de regresión múltiple Modelos lineales para explicar y predecir una variable en función del comportamiento de otras variables cuantitativas que podemos observar en los mismos individuos. Tema 5: Extensiones del modelo de regresión Selección de variables, reducción de la dimensión, incorporación de variables cualitativas, etc 15
ESTADÍSTICA APLICADA AL MEDIO AMBIENTE Estudio de un fenómeno mediante su relación con otras variables 16
ESTADÍSTICA APLICADA AL MEDIO AMBIENTE APLICACIONES DE LOS MODELOS LINEALES Entender Intervenir Predecir 17