ANÁLISIS DE DATOS EPIDEMIOLÓGICOS. INFERENCIA CAUSAL EN EPIDEMIOLOGÍA

ANÁLISIS DE DATOS EPIDEMIOLÓGICOS. INFERENCIA CAUSAL EN EPIDEMIOLOGÍA 1. Inferencia causal Los estudios epidemiológicos tienen entre otros el objetivo de estimar la asociación entre un factor de riesgo y una enfermedad o evento con la mayor precisión y exactitud que sea posible. Este objetivo nos hace formular un modelo general de causa que facilite la identificación y distribución de los factores determinantes de salud o de causas de enfermedad y problemas que conllevan su prevención y asistencia. En primer definiremos que es causa: Causa es el hecho o suceso o estado de la naturaleza que inicia o permite, sola o en unión de otras causas, una secuencia de sucesos que producen un efecto. El concepto de causa en Epidemiología ha ido evolucionando a través de la historia, pero podemos considerar que la causa pretende relacionar variables para encontrar la asociación causal entre ellas. 2. Modelos de causalidad Intentan explicar la posible relación causal entre factor de riesgo o exposición y enfermedad. 2.1. Modelo determinista Define la causalidad como una relación constante, única y predecible entre dos variables. Este modelo implica una especificidad de causa y especificad de efecto, X es sólo causa de Y e Y es sólo efecto de A. La primera aplicación del modelo fue propuesta por KOCH, proponiendo tres postulados para la identificación de la relación causal con una enfermedad: El agente debe estar presente en todos los casos de la enfermedad (causa necesaria) El agente no debe encontrarse presente en ninguna otra enfermedad (especificidad) El agente debe inducir enfermedad siempre que se introduzca en animales susceptibles (causa suficiente) y debe ser aislado en cultivo (causa única) Este modelo no es el adecuado para muchas enfermedades por los siguientes razonamientos: 1. Etiología multifactorial 2. Multiplicidad de efectos 3. Limitada conceptualización de los factores causales; por ejemplo existen factores causales (riesgo) que no dependen de un cambio, como el sexo o la raza. Tampoco el modelo determinista no aclara el papel de determinantes continuos como la edad, tensión arterial ( qué nivel de tensión arterial causaría un ictus...?) 4. Conocimiento imperfecto de la asociación y del factor causal 12. Análisis de datos epidemiológicos. Inferencia causal en epidemiología 1-13

2.2. Modelo determinista modificado Diplomado en Salud Pública Trata de explicar la multicausalidad de la enfermedad. Se plantea las asociaciones de factores causales más que el factor simple. Esta asociación sería la causa suficiente. Cada asociación tendría un efecto en una enfermedad, pero sería diferente del efecto de esos factores en otras asociaciones. El modelo asume: Causas suficientes: Asociación de causas componentes. Causas necesarias; causa componente que forma parte de todas las causas suficientes para producir una enfermedad. Causas componentes: cada causa que forma parte de las asociaciones. 2.3. Modelo probabilístico Utiliza la teoría de probabilidades y métodos estadísticos relacionados con ellas para valorar empíricamente una asociación causal. Un factor de riesgo sería una variable que puede ser considerada para ser relacionada con la probabilidad de que un individuo desarrolle la enfermedad. Se deben tener en cuenta 3 criterios: El factor debe variar con la enfermedad El factor de riesgo debe preceder a la aparición de la enfermedad La asociación observada no puede ser consecuencia de cualquier tipo de error en la selección de la muestra, por problemas de diseño de estudio u otros motivos. Es el modelo usado en la actualidad. 3. Criterios de causalidad Son una serie de enunciados que permiten establecer nexos de causalidad. Los más conocidos: CRITERIOS DE CAUSALIDAD BRADFORD HILL Intensidad o fuerza de la asociación: magnitud o fuerza con la que dos fenómenos se presentan juntos Consistencia: la misma asociación se observa repetidas veces en distintas circunstancias Especificidad: asociación de forma más exclusiva de la causa y el efecto Secuencia temporal: la causa debe anteceder al efecto Gradiente biológico: Dosis respuesta entre causa y efecto Verosimilitud o plausibilidad: la causa debe ser biológicamente verosímil. Coherencia: la interpretación de las observaciones como relación causa-efecto no debe ser contradictoria con la historia natural de la enfermedad. Coherencia: evidencia experimental de los efectos de la eliminación o actuación sobre la causa Analogía: la exposición a factores similares debe producir efectos similares 12. Análisis de datos epidemiológicos. Inferencia causal en epidemiología 2-13

4. Análisis de datos epidemiológicos 4.1. Introducción Diplomado en Salud Pública La Epidemiología nos permite estudiar fenómenos cuyos resultados son a priori inciertos. Al llevar a cabo observaciones, una parte de los resultados obtenidos son sistemáticos y reales, dando información de la asociación entre variables, pero otra parte es fruto del fenómeno aleatorio. El análisis de los datos a través de la estadística nos dará la máxima y mejor información sobre la naturaleza de estas relaciones entre variables. Este análisis de datos se divide en: Análisis descriptivo Análisis inferencial 4.2. Conceptos generales Población: Conjunto de todos los elementos que cumplen unos criterios y sobre los que se desea hacer el estudio. Muestra: subgrupo de la población seleccionada de una forma más explícita, debido a que generalmente no es posible llevar a cabo el estudio sobre toda la población. Las muestras para ser válidas deben ser aleatorias, es decir: Todos los individuos de la muestra deben tener una probabilidad conocida (mayor de 0) de pertenecer a la muestra. Todos deben tener la misma probabilidad ser de la misma muestra. La probabilidad de un individuo de ser elegido para la muestra no debe estar afectada por la elección de otros individuos de la misma muestra. Variables: propiedades o cualidades que presentan la población y que van a ser objeto de estudio. Pueden ser: Cuantitativas: pueden ser medidas numéricamente - Discretas: valores concretos en un intervalo (número de hijos...) - Continuas: cualquier valor del intervalo (cifras de colesterol...) Cualitativas: no tienen una interpretación numérica - Nominales: no ordenan categorías (sexo, estado civil...) - Ordinales: ordenan categoría (percepción de la salud: buena, regular, mala...) - Dicotómicas: tipo especial de variables que solo pueden tomar uno de dos valores, o representar la presencia o ausencia de un factor. Son codificadas como 1 (presencia del factor) ó 0 (ausencia del factor). Estadístico: cualquier operación realizada con una variable. Parámetro: Valor de la población sobre el cual se va a hacer una inferencia a partir del valor obtenido en una muestra (estimador). 12. Análisis de datos epidemiológicos. Inferencia causal en epidemiología 3-13

4.3. Análisis descriptivo Análisis que organiza, presenta y resume los datos obtenidos. 4.3.1. Medidas de distribución Diplomado en Salud Pública A: Medidas de tendencia central: Media aritmética Mediana Moda Sirven para conocer el valor de la variable hacia el cual tienden a agruparse los datos. Media aritmética: Es la suma de todos los valores (x i ) dividida por el número de observaciones (n). Es la medida más usada. Es muy sensible a datos extremos. Mediana: Valor central del conjunto ordenado de observaciones. Deja a la mitad de las observaciones por debajo y la mitad por encima. Cuando el número de datos es par, la mediana se calcula haciendo la media de los dos datos centrales. Moda: Es el valor más frecuente. Puede haber dos modas (bimodal). B: Medidas de dispersión: Varianza: Mide en qué medida se aleja un dato del valor central. Es la dispersión de los datos. Equivale a la desviación o grado de variabilidad de las observaciones. Hay que añadir esta información a las medidas de tendencia central. Se calcula haciendo la media de la suma de los cuadrados de las desviaciones de los valores respecto a la media. Varianza poblacional ( 2 ) = (x i - ) 2 / n Varianza muestral (s 2 ) = (x i - X) 2 / n 1 ; n 1 = grados de libertad. Un grado menos de libertad que la varianza poblacional (expresa la dispersión de una muestra que a su vez es variable) Al estar en unidades al cuadrado no se interpreta bien, por lo que utilizamos la desviación típica o estándar. 12. Análisis de datos epidemiológicos. Inferencia causal en epidemiología 4-13

Desviación típica o estándar: Es la extracción de la raíz cuadrada de la varianza. Es una medida de variabilidad de los datos alrededor de la media aritmética. Desviación típica poblacional () = ( (x i - ) 2 / n) Desviación típica muestral (s ) Características de la varianza y desviación típica: - Valores positivos - Si los valores de una distribución son iguales entre sí, los valores de la varianza y desviación típica serán 0. - Muy sensibles a la variación de cualquier variable. - Solo se utilizan en variables cuantitativas. Coeficiente de variación: Cociente entre la desviación típica y la media. Se expresa en porcentaje. Muy utilizado para ver la variabilidad de dos o más grupos. Error estándar de la media: Mide el grado de dispersión de las medias de todas las posibles muestras que pudieran extraerse de la población. Dadas unas condiciones se puede asumir que la media de las medias muestrales es igual a la media poblacional, por lo cual se considera la media muestral un estimador de la media poblacional. Del mismo modo, la desviación estándar de las medias muestrales es igual a la desviación estándar de la población dividida por la raíz cuadrada del tamaño de la población. 12. Análisis de datos epidemiológicos. Inferencia causal en epidemiología 5-13

A la desviación estándar de las medias muestrales se le denomina también error estándar (EE) de la media y es una medida de la precisión del estimador. A mayor tamaño muestral más precisa será la estimación, el EE será más pequeño (variabilidad de las medias muestrales menor, el valor de la media de la muestra se acercará más al verdadero valor de la media poblacional) EJEMPLO: Comparamos las cifras de colesterol LDL en dos grupos de individuos: Los EE serían: Grupo Tamaño muestral Media Desviación estándar A 72 88 mmhg 4,5 mmhg B 48 79 mmhg 4,2 mmhg EE (A)= 4,5/ 72 = 0,53 EE (B)= 4,2/ 55 = 0,61 El mayor tamaño de la muestra A, tiene un EE menor. Error estándar de una proporción: Uno de los parámetros de interés en Epidemiología sería la estimación de una proporción, por ejemplo, porcentaje de individuos que presentan una característica. En este caso, la fórmula del EE es: De igual forma, es inversamente proporcional a la raíz cuadrada del tamaño de la muestra. EJEMPLO: Analizamos el nivel de estudio de una muestra de 140 individuos. Nos interesa la estimación de los que tienen un nivel de estudios superior (14,29 %) frente al resto. Nivel de estudios Frecuencia absoluta Frecuencia relativa Superior 20 14,29 % Medio 50 35,71% Bajo 70 50% Total 140 100% n = 140 p = 14,29 (0, 143) EE = (0,143 * 0, 857 /140) = 0,0121 q = 1-0,143 12. Análisis de datos epidemiológicos. Inferencia causal en epidemiología 6-13

C: Medidas de forma: Asimetría: Las distribuciones pueden ser simétricas o asimétricas. Lo ideal en muchos estudios es que la simetría no sea muy grande. Curtosis: Grado de aplastamiento de una curva. Lo ideal es que no sea muy grande. D: Medidas de posición: Cuantiles y percentiles Para calcularlos, se ordenan todos los valores de la distribución de menor a mayor y se busca aquel valor que deja por debajo de él un determinado porcentaje (percentiles). Mediana: es el percentil 50 Cuartiles: dividen la distribución en cuatro partes iguales. Desviación intercuartílica: Resultado de restar el cuartil tercero menos el cuartil primero. Nos da idea de la variabilidad de los datos en torno a la mediana (valor central). 4.4. Inferencia estadística 4.4.1. Probabilidad. Distribución muestral. Podemos asociar la probabilidad a la frecuencia con la que observamos la ocurrencia de un determinado suceso, predecimos la frecuencia con la que se presentará una determinada categoría, y que una variable tome un determinado valor, siempre asumiendo que las condiciones de presentación y medición de dicha variable sean estables. Distribución Normal de probabilidad Muchas variables estadísticas de los fenómenos de la salud, siguen de forma exacta o muy aproximada las leyes matemáticas o distribuciones de probabilidad teóricas con su correspondiente aspecto gráfico. La más conocida es la distribución Normal, que tiene las siguientes características: - Representación en forma de campana, asintótica por ambos extremos con el eje de coordenadas (pueden tener cualquier valor entre - y +. - Su media es y desviación estándar es - El área bajo la curva es 1 - Probabilidad de un valor de la variable en un intervalo de valores es igual al área bajo la curva en ese intervalo de valores. - La curva es simétrica respecto a la media - La curva alcanza un máximo en con puntos de inflexión a una distancia de +1 y 1 de la media. - Cuanto mayor sea (variabilidad de la muestra) la curva será más achatada (los valores se alejan más de la media) - El 95,5 % de los valores estarán incluidos en el intervalo +2 y -2 - El 95% de los valores estarán incluidos en el intervalo +1,96 y -1,96 12. Análisis de datos epidemiológicos. Inferencia causal en epidemiología 7-13

Distribución muestral de medias y proporciones Si tenemos una población que cuyos parámetros de estudio siguen una distribución normal N (,), la distribución muestral de medias de dicha población seguirá también una distribución normal: N (,/n) Si la población no sigue una distribución normal pero n es menor de 0, la distribución se aproxima a la normal. Para muestras mayores de 30, la distribución muestral de proporciones sigue una distribución normal N (p, pq/n) 4.4.2. Estimación de parámetros. Intervalo de confianza Llamamos estimación a la función que aplicamos a una muestra para obtener un valor de una parámetro lo más próximo posible a dicho parámetro en la población. La estimación de parámetros puede ser puntual (un solo valor para el parámetro) o por intervalos (se calculan dos valores entre los que estará el parámetro), con un nivel de confianza determinado. Nivel de confianza (1- ): es la probabilidad de que el intervalo calculado contenga el verdadero valor del parámetro. Se suele dar en porcentaje. Intervalo de confianza de la media: Como ya sabemos, la media de las medias muestrales es igual a la media de la población y la desviación estándar de las medias muestrales o error estándar (EE) es igual a la desviación estándar de la población dividida por la raíz cuadrada del tamaño de la muestra. Por tanto el intervalo de confianza de la media con un 95% de nivel de confianza, será: Siendo el EE = s/n, x 1,96* EE x + 1,96* EE x 1,96* s/n x + 1,96* s/n Interpretamos este intervalo: Con un 95% de confianza, la media de la población estará incluida entre los valores del intervalo. Será válido si se cumplen los criterios de distribución normal. EJEMPLO: En una muestra de 81 jóvenes de una población se obtiene una media de altura de 167 cm. La desviación típica de la altura en la población es de 8 cm. Calculamos el intervalo de confianza para la estatura media de la población con un nivel de confianza del 95% = 8 n = 81 1- = 95% /2 = 0,025 Z /2 = 1,96 ya que en la tabla N(0,1) obtenemos p( Z 1,96) =0,975 INTERVALO DE CONFIANZA= (167-1,96*0,89; 167+1,96*0,89) = (165,26; 168,74) 12. Análisis de datos epidemiológicos. Inferencia causal en epidemiología 8-13

Intervalo de confianza para una proporción (95% nivel de confianza) será: La amplitud del intervalo (precisión de la estimación) depende de: - Variabilidad de los datos (desviación estándar, s). Mayor amplitud a mayor variabilidad. - Tamaño muestral (n) : a mayor tamaño muestral, menor intervalo - Nivel de confianza (1- ): En este caso hemos cogido un nivel de confianza del 95%. Si el tamaño muestral se mantiene constante, a mayor nivel de confianza, mayor intervalo. 4.4.3. Comparación de muestras (contrate hipótesis) Es la aplicación de técnicas estadísticas para comprobar si los valores de los estimadores obtenidos a partir de los datos de una muestra son compatibles o no con la hipótesis de que proceden de una población con una media o una proporción con valor conocido. Evalúan la compatibilidad de los datos muestrales con una hipótesis poblacional predeterminada. Se parte de la formulación de una hipótesis nula (H 0) que representa el valor preestablecido del parámetro poblacional. Se aceptará la H 0 si los valores muestrales no aportan evidencia en contra de la misma, es decir, las diferencias entre el verdadero valor del parámetro y su valor hipotético se deben al azar (no hay diferencia). En caso de ser rechazada, se aceptará la hipótesis alternativa (H 1). Las hipótesis NUNCA se corroboran completamente, siempre hay un margen de error. El contraste de hipótesis puede se unilateral o bilateral. Los pasos a seguir serán: 1. Enunciado de la hipótesis 2. Elegir un nivel de significación y construir el intervalo de aceptación. A la zona de rechazo la llamaremos región crítica, y su área es el nivel de significación. 3. Verificar la hipótesis extrayendo una muestra cuyo tamaño se ha decidido en el paso anterior y obteniendo de ella el correspondiente estadístico (media o proporción, etc.). 4. Decidir. Si el valor calculado en la muestra está dentro de la zona de aceptación se acepta la hipótesis y si no se rechaza. 12. Análisis de datos epidemiológicos. Inferencia causal en epidemiología 9-13

Contraste de hipótesis para la media Contraste bilateral Ho: µ = µo H1: µ µo buscamos z/2 tal que P(-zz z)=1-1) Establecer la hipótesis Las medias muestrales se distribuyen Contraste unilateral Ho: µ µo H1: µ > µo> buscamos z tal que P(z z)=1-2) Elegir nivel de significación y determinar zona de aceptación a partir de Intervalo de confianza x aceptamos Ho x 3) Verificación aceptamos H o x 4) Decisión x rechazamos Ho rechazamos Ho 12. Análisis de datos epidemiológicos. Inferencia causal en epidemiología 10-13

Contraste de hipótesis para proporciones Contraste bilateral Ho: p = po H1: p po 1) Establecer la hipótesis Contraste unilateral Ho: p po H1: p < po buscamos z/2 tal que P(-zz z )=1- Las proporciones muestrales se distribuyen buscamos z tal que P(z z )=1-2) Elegir nivel de significación y determinar zona de aceptación a partir de Intervalo de confianza p aceptamos Ho 3) Verificación 4) Decisión p aceptamos Ho p rechazamos Ho p rechazamos Ho 12. Análisis de datos epidemiológicos. Inferencia causal en epidemiología 11-13

Probabilidad TABLA Probabilidades de una Normal Estándar z,00,01,02,03,04,05,06,07,08,09 0, 0 0, 5000 0, 5040 0, 5080 0, 5120 0, 5160 0, 5199 0, 5239 0, 5279 0, 5319 0, 5359 0, 1 0, 5398 0, 5438 0, 5478 0, 5517 0, 5557 0, 5596 0, 5636 0, 5675 0, 5714 0, 5753 0, 2 0, 5793 0, 5832 0, 5871 0, 5910 0, 5948 0, 5987 0, 6026 0, 6064 0, 6103 0, 6141 0, 3 0, 6179 0, 6217 0, 6255 0, 6293 0, 6331 0, 6368 0, 6406 0, 6443 0, 6480 0, 6517 0, 4 0, 6554 0, 6591 0, 6628 0, 6664 0, 6700 0, 6736 0, 6772 0, 6808 0, 6844 0, 6879 0, 5 0, 6915 0, 6950 0, 6985 0, 7019 0, 7054 0, 7088 0, 7123 0, 7157 0, 7190 0, 7224 0, 6 0, 7257 0, 7291 0, 7324 0, 7357 0, 7389 0, 7422 0, 7454 0, 7486 0, 7517 0, 7549 0, 7 0, 7580 0, 7611 0, 7642 0, 7673 0, 7704 0, 7734 0, 7764 0, 7794 0, 7823 0, 7852 0, 8 0, 7881 0, 7910 0, 7939 0, 7967 0, 7995 0, 8023 0, 8051 0, 8078 0, 8106 0, 8133 0, 9 0, 8159 0, 8186 0, 8212 0, 8238 0, 8264 0, 8289 0, 8315 0, 8340 0, 8365 0, 8389 1, 0 0, 8413 0, 8438 0, 8461 0, 8485 0, 8508 0, 8531 0, 8554 0, 8577 0, 8599 0, 8621 1, 1 0, 8643 0, 8665 0, 8686 0, 8708 0, 8729 0, 8749 0, 8770 0, 8790 0, 8810 0, 8830 1, 2 0, 8849 0, 8869 0, 8888 0, 8907 0, 8925 0, 8944 0, 8962 0, 8980 0, 8997 0, 9015 1, 3 0, 9032 0, 9049 0, 9066 0, 9082 0, 9099 0, 9115 0, 9131 0, 9147 0, 9162 0, 9177 1, 4 0, 9192 0, 9207 0, 9222 0, 9236 0, 9251 0, 9265 0, 9279 0, 9292 0, 9306 0, 9319 1, 5 0, 9332 0, 9345 0, 9357 0, 9370 0, 9382 0, 9394 0, 9406 0, 9418 0, 9429 0, 9441 1, 6 0, 9452 0, 9463 0, 9474 0, 9484 0, 9495 0, 9505 0, 9515 0, 9525 0, 9535 0, 9545 1, 7 0, 9554 0, 9564 0, 9573 0, 9582 0, 9591 0, 9599 0, 9608 0, 9616 0, 9625 0, 9633 1, 8 0, 9641 0, 9649 0, 9656 0, 9664 0, 9671 0, 9678 0, 9686 0, 9693 0, 9699 0, 9706 1, 9 0, 9713 0, 9719 0, 9726 0, 9732 0, 9738 0, 9744 0, 9750 0, 9756 0, 9761 0, 9767 2, 0 0, 9772 0, 9778 0, 9783 0, 9788 0, 9793 0, 9798 0, 9803 0, 9808 0, 9812 0, 9817 2, 1 0, 9821 0, 9826 0, 9830 0, 9834 0, 9838 0, 9842 0, 9846 0, 9850 0, 9854 0, 9857 2, 2 0, 9861 0, 9864 0, 9868 0, 9871 0, 9875 0, 9878 0, 9881 0, 9884 0, 9887 0, 9890 2, 3 0, 9893 0, 9896 0, 9898 0, 9901 0, 9904 0, 9906 0, 9909 0, 9911 0, 9913 0, 9916 2, 4 0, 9918 0, 9920 0, 9922 0, 9925 0, 9927 0, 9929 0, 9931 0, 9932 0, 9934 0, 9936 2, 5 0, 9938 0, 9940 0, 9941 0, 9943 0, 9945 0, 9946 0, 9948 0, 9949 0, 9951 0, 9952 2, 6 0, 9953 0, 9955 0, 9956 0, 9957 0, 9959 0, 9960 0, 9961 0, 9962 0, 9963 0, 9964 2, 7 0, 9965 0, 9966 0, 9967 0, 9968 0, 9969 0, 9970 0, 9971 0, 9972 0, 9973 0, 9974 2, 8 0, 9974 0, 9975 0, 9976 0, 9977 0, 9977 0, 9978 0, 9979 0, 9979 0, 9980 0, 9981 2, 9 0, 9981 0, 9982 0, 9982 0, 9983 0, 9984 0, 9984 0, 9985 0, 9985 0, 9986 0, 9986 3, 0 0, 9987 0, 9987 0, 9987 0, 9988 0, 9988 0, 9989 0, 9989 0, 9989 0, 9990 0, 9990 12. Análisis de datos epidemiológicos. Inferencia causal en epidemiología 12-13

Resumen Inferencia causal modelos causales: determinista determinista modificado probabilístico: en la actualidad Criterios de causalidad: Intensidad o fuerza de la asociación Gradiente biológico Consistencia Verosimilitud o plausibilidad Especificidad Coherencia Secuencia temporal Analogía Coherencia Análisis descriptivo medidas distribución: medidas tendencia central: media, mediana, moda medidas posición: cuartiles, cuantiles, percentles medidas dispersión: varianza, desviación típica Inferencia estadística - Distribución normal: forma de campana, media es y desviación estándar es - área bajo la curva 1 - simétrica respecto a la media - máximo en con puntos de inflexión a una distancia de +1 y 1 de la media. Intervalo de confianza de la media: x 1,96* s/n x + 1,96* s/n Intervalo de confianza para una proporción: Contraste de hipótesis para la media Contraste de hipótesis para proporciones 12. Análisis de datos epidemiológicos. Inferencia causal en epidemiología 13-13