Cómo describir e interpretar los resultados de un estudio de investigación quirúrgica? Variables cuantitativas Sesión de Residentes 13 de febrero, 2012
ÍNDICE Diferencia entre población y muestra. Diferencia entre teoría de la probabilidad y estadística. Descripción de una variable cuantitativa. La tendencia actual en utilizar la mediana (índices basados en ordenaciones) sobre la típica media (índices basados en momentos). La gran utilidad del diagrama de cajas (boxplot) al describir la distribución de caracteres cuantitativos.
POBLACIÓN Y MUESTRA CUESTIONARIO-AUTOEVALUACION Población diana Población accesible Muestra representativa Parámetro Estadístico es el subconjunto de la población que se encuentra disponible durante el estudio son los diferentes índices estadísticos descriptivos de toda una población es una fórmula en la que intervienen los valores observados en la muestra es el gran conjunto de pacientes al que se generalizaran los resultados. es un reducido grupo de individuos de la población seleccionados aleatoriamente. Integrados por individuos o sujetos
POBLACIÓN Y MUESTRA Población, el conjunto completo de individuos a los cuales se les referirán las conclusiones del estudio. Población diana, que es el gran conjunto de pacientes al que se generalizaran los resultados. Población accesible, que es el subconjunto de la población diana que se encuentra disponible durante el estudio.
POBLACIÓN Y MUESTRA Figura 1 Probabilidad y Estadística: Población y Muestras Muestra representativa, es un reducido grupo de individuos de la población seleccionados aleatoriamente. Integrados por individuos o sujetos Teoría de la PROBABILIDAD (predicción) POBLACION parámetro μ = 66,2 años azar MUESTRA estadístico x = 64,7 años ESTADISTICA (inferencia)
x x POBLACIÓN Y MUESTRA Parámetro, son los diferentes índices estadísticos descriptivos de toda una población (μ = 66,2 años ). Valor único Figura 1 Probabilidad y Estadística: Población y Muestras POBLACION parámetro μ = 66,2 años Accesible Estadístico, que es una fórmula en la que intervienen los valores observados en la muestra (x = 64,7 años). Valor por cada muestra Teoría de la PROBABILIDAD (predicción) azar MUESTRA estadístico x = 64,7 años ESTADISTICA (inferencia)
POBLACIÓN Y MUESTRA estadística inferencial, se busca obtener conclusiones a partir de los datos observados en una muestra Las técnicas estadísticas se basan en el hecho de que esta variabilidad, propia del muestreo, sigue una leyes conocidas, por lo que puede ser cuantificada. Teoría de la PROBABILIDAD (predicción) Figura 1 Probabilidad y Estadística: Población y Muestras POBLACION parámetro μ = 66,2 años azar MUESTRA estadístico x = 64,7 años ESTADISTICA (inferencia)
POBLACIÓN Y MUESTRA CUESTIONARIO-AUTOEVALUACIÓN Población diana Población accesible Muestra representativa Parámetro Estadístico PUNTUACIÓN: / 5 es el subconjunto de la población que se encuentra disponible durante el estudio son los diferentes índices estadísticos descriptivos de toda una población es una fórmula en la que intervienen los valores observados en la muestra es el gran conjunto de pacientes al que se generalizaran los resultados. es un reducido grupo de individuos de la población seleccionados aleatoriamente. Integrados por individuos o sujetos
Cómo describiremos una variable cuantitativa? A partir de momentos A partir de ordenaciones
VARIABLE CUANTITATIVA BASADA EN MOMENTOS CUESTIONARIO-AUTOEVALUACIÓN Medidas basadas momentos Medidas basadas en ordenaciones Concepto de Media Concepto de Varianza Concepto de Desviación estándar Variancia Varianza Correcto Su valor se obtiene tras la suma de todos los datos de la distribución dividida por el número de casos de la misma Incorrecto La mediana, la moda, La amplitud intercuartil, la desviación cuartil, rango Es la medida de dispersión que se define como la media de la suma de la diferencia entre cada valor de la variable y la media, elevado al cuadrado media, la variancia, la desviación estándar, el coeficiente asimetría Es la raíz cuadrada positiva de la variancia
DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN MOMENTOS Tendencia central (posición): media Su dispersión (variabilidad): la variancia o la desviación estándar Su asimetría (forma) : el coeficiente asimetría
DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN MOMENTOS LA MEDIA Figura 2 Su valor se obtiene tras la suma de todos los datos de la distribución dividida por el número de casos de la misma. Sus unidades de medida son las misma que las de la variable que se describe Parámetro: μ Tendencia central μ = x N Dispersión: Estadístico: x
DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN MOMENTOS VARIANCIA Es la medida de dispersión que se define como la media de la suma de la diferencia entre cada valor de la variable y la media, elevado al cuadrado Parámetro: σ 2 Estadístico: s 2 Ejemplo: 95,1 años 2 Figura 2 Tendencia central μ = x N Dispersión: No utilizar Varianza
DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN MOMENTOS DESVIACION ESTÁNDAR Es la raíz cuadrada positiva de la variancia. Figura 2 Tiene las misma unidades que la variable que describe. Se simboliza por σ DE o por SD ( Standard Deviation en inglés) Tendencia central μ = x N Dispersión: Estadístico: s. En nuestro ejemplo s = 9,75 años (raíz cuadrada de 95,1 años 2 )
DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN MOMENTOS DESCRIPCIÓN DE UNA DISTRIBUCIÓN SIMÉTRICA: Media y D.E. para caracterizar una distribución simétrica, se da la desviación estándar junto a la media x = 64,7 años (DE = 9,8 años) x = 64,7 ± 9,8 años incorrecto (Esta presentación es confusa y debe ser evitada porque no aclara si lo que hay detrás del signo ± es la desviación estándar, el error estándar o si se trata de un intervalo )
DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN MOMENTOS ASIMETRIA Cuando los valores se concentran en posiciones inferiores o superiores al promedio de la distribución, se indica la presencia de asimetría Figura 3 Esta es negativa (Γ < 0) cuando existen valores anormalmente bajos respecto a la media Asimetria: Γ 1 = xi μ σ N 3
DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN MOMENTOS La media, la variancia y la asimetría se denominan medidas basadas en momentos porque su cálculo se obtiene a partir de la diferencia de cada valor de la distribución respecto a la media de la misma: La media es el momento de orden 1 La variancia el momento de orden 2 La asimetría el momento de orden 3 Son medidas muy utilizadas para describir distribuciones cuantitativas simétricas. Cuando se presenta una marcada asimetría, la media y la desviación estándar no son apropiados porque se ven afectados por los valores anormalmente alejados
VARIABLE CUANTITATIVA BASADA EN MOMENTOS CUESTIONARIO-AUTOEVALUACIÓN Medidas basadas momentos Medidas basadas en ordenaciones Concepto de Media Concepto de Varianza Concepto de Desviación estándar Variancia Varianza PUNTUACIÓN: / 7 Correcto Su valor se obtiene tras la suma de todos los datos de la distribución dividida por el número de casos de la misma Incorrecto La mediana, la moda, La amplitud intercuartil, la desviación cuartil, rango Es la medida de dispersión que se define como la media de la suma de la diferencia entre cada valor de la variable y la media, elevado al cuadrado media, la variancia, la desviación estándar, el coeficiente asimetría Es la raíz cuadrada positiva de la variancia
VARIABLE CUANTITATIVA BASADA EN ORDENACIONES CUESTIONARIO-AUTOEVALUACIÓN Percentiles Cuartiles La mediana La moda La amplitud intercuartil La desviación cuartil Indica el valor central del conjunto ordenado de observaciones Se define como la mitad de la amplitud cuartil Es el valor de la variable más frecuente en la distribución Son cada uno de los 99 valores de la variable que particionan los datos ordenados en 100 grupos de igual tamaño. Son cada uno de los 3 valores de la variable que particionan la muestra ordenada en 4 grupos de igual tamaño Es una medida de dispersión de valor igual a la longitud del intervalo que contiene el 50 % central de los individuos de la distribución
DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN ORDENACIONES Consiste en derivar índices a partir de la ordenación de los datos (Con este procedimiento los valores más extremos pierden peso y no afectan el valor del índice descriptivo) Cuentan con una excelente representación gráfica: el diagrama de caja (boxplot) El índice de posición genérico se llama cuantil
DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN ORDENACIONES: Cuantiles Son medidas de posición que se obtienen dividiendo el conjunto ordenado de datos a describir en q partes iguales. A partir de ellos se definen: Percentiles (Px): son cada uno de los 99 valores de la variable que particionan los datos ordenados en 100 grupos de igual tamaño. El percentil (de orden) k corresponde al valor de la variable que deja por debajo el k por 100 de los sujetos de la población Cuartiles (Qx): son cada uno de los 3 valores de la variable que particionan la muestra ordenada en 4 grupos de igual tamaño. Sus valores corresponden a los percentiles: Q1 = P25 ; Q2 = P50 ; Q3 = P75
Índices de ordenación que miden la tendencia central: la mediana y la moda La mediana (Md), indica el valor central del conjunto ordenado de observaciones. En el caso de nuestro ejemplo de la figura, es de 25 col/ml y se corresponde con el valor del percentil 50 (P50), segundo cuartil (Q2) La moda, se representa por Mo, es el valor de la variable más frecuente en la distribución. Nuestro ejemplo corresponde a 59 años (en 5 ocasiones repetida) 250 200 150 100 50 0-50 N = 19 48 46 45 colonias aisladas /
Índices de ordenación que miden la dispersión: la amplitud intercuartil, la desviación cuartil y la amplitud o rango La amplitud intercuartil (IQR) es una medida de dispersión de valor igual a la longitud del intervalo que contiene el 50 % central de los individuos de la distribución. Se puede calcular a partir de los percentiles o cuartiles: IQR=P75-P25 = Q3 - Q1 En nuestro estudio es de 60 col/ml, lo que indica que en el 50 % central de los pacientes, el nº col/ml varía entre unos a otros como máximo en 60 col/ml
Índices de ordenación que miden la dispersión: la amplitud intercuartil, la desviación cuartil y la amplitud o rango La desviación cuartil (QD), se define como la mitad de la amplitud cuartil La amplitud o rango, se representa por A y es la medida de dispersión que corresponde a la diferencia entre el valor máximo (225 col/ml) y mínimo (14 col/ml) de la distribución (rango: 211 col/ml) La moda y la amplitud, aunque son medidas poco fiables porque en su cálculo intervienen solo unos pocos valores de la distribución
VARIABLE CUANTITATIVA BASADA EN ORDENACIONES CUESTIONARIO-AUTOEVALUACIÓN Percentiles Cuartiles La mediana La moda La amplitud intercuartil La desviación cuartil PUNTUACIÓN: / 6 Indica el valor central del conjunto ordenado de observaciones Se define como la mitad de la amplitud cuartil Es el valor de la variable más frecuente en la distribución Son cada uno de los 99 valores de la variable que particionan los datos ordenados en 100 grupos de igual tamaño. Son cada uno de los 3 valores de la variable que particionan la muestra ordenada en 4 grupos de igual tamaño Es una medida de dispersión de valor igual a la longitud del intervalo que contiene el 50 % central de los individuos de la distribución
Diagrama de caja ( boxplot ) CUESTIONARIO-AUTOEVALUACIÓN Figura 4 250 200 48 Marca la posición de la mediana 150 100 50 0 Mediana 46 45 Q3 Q1 Amplitud intercuartil Todo valor que se aleja más de 3 veces la amplitud intercuartil -50 N = 19 colonias aisladas / Valores fuera de las patillas Qué representan las dos bases Qué representa el trazo grueso horizontal Nombre de los dos trazos horizontales Valor anómalo Valor alejado Valor extremo Representan los cuartiles primero y tercero (Q1 y Q3). Todo valor de la distribución que se aleja del cuartil primero (Q1) o del cuartil tercero (Q3), una distancia superior a 1,5 veces la amplitud intercuartil Patillas PUNTUACIÓN: / 6
Diagrama de caja ( boxplot ) Las dos bases representan los cuartiles primero y tercero (Q1 y Q3), que señalan el 50 % central de la distribución Un trazo grueso horizontal, en el interior del rectángulo, marca la posición de la mediana 250 200 150 100 Figura 4 48 46 45 Dos nuevos trazos horizontales, llamados patillas Valores fuera de las patillas: valores anómalos 50 0-50 N = Mediana 19 colonias aisladas / Q 3 Q 1 Amplitud intercuartil
Diagrama de caja ( boxplot ) Valor alejado todo valor de la distribución que se aleja del cuartil primero (Q1) o del cuartil tercero (Q3), una distancia superior a 1,5 veces la amplitud intercuartil 250 200 150 100 Figura 4 48 46 45 Valor extremo todo valor que se aleja más de 3 veces la amplitud intercuartil. El sistema SPSS lo representa con un asterisco 50 0-50 N = Mediana 19 colonias aisladas / Q 3 Q 1 Amplitud intercuartil
Información del Diagrama de caja ( boxplot ) Localizar la tendencia central de la distribución (mediana). Figura 4 Comprobar la dispersión del 50 % central de la distribución (longitud de caja, amplitud intercualtil). Observar la posible asimetría en el centro de la distribución (posición de la mediana dentro de la caja). 250 200 150 100 50 0-50 N = Mediana 19 48 46 45 colonias aisladas / Q 3 Q 1 Amplitud intercuartil
Información del Diagrama de caja ( boxplot ) Observar la posible asimetría de las colas de la distribución (patillas de diferente longitud). 250 200 Figura 4 48 Detectar los valores anómalos de la distribución (valores alejados y extremos) Describir la evolución de una variable a lo largo del tiempo 150 100 50 0-50 N = Mediana 46 45 19 colonias aisladas / Q 3 Q 1 Amplitud intercuartil
Información del Diagrama de caja ( boxplot ) Muestran el incremento de los valores del CEA (antígeno carcino-embrionario) a través del tiempo, de un grupo de pacientes intervenidos de cáncer colorrectal que han recidivado en los primeros 18 meses postoperatorios. C E A 50 40 30 20 10 0 3 6 9 12 15 18 Seguimiento cáncer de colon
Índices basados en momentos u en ordenaciones? 250 200 Figura 4 48 Los datos que utilizamos acostumbran a seguir una distribución asimétrica 150 100 50 0 Mediana 46 45 Q 3 Q 1 Amplitud intercuartil La mediana refleja una forma más fidedigna que la media La amplitud intercuartil (50% de los datos, se encuentra 60 col/ml (Q 1 = 18 y Q 3 = 78) -50 N = 19 colonias aisladas / Indices basados en momentos Media Variancia Desv. estand Asimetria 50,7895 col/ml 3137,509 col 2 /ml 2 56,0135 col/ml 2,1180 col 3 /ml 3 Por lo que el valor medio de las muestras obtenidas oscila más alrededor del valor de la mediana = 25 col/ml, que la media (50 col/ml) Otro ejemplo claro: ESTANCIA HOSPITALARIA Indices basados en ordenaciones Mediana Amplitud Amplitud o Máximo Mínimo Intercuartil rango 25 col/ml 60 col/ml 211 col/ml 225 col/ml 14 col/ml Percentiles P 5 P 10 P 25 (Q 1 ) P 50 (Q 2 ) P 75 (Q 3 ) P 90 14 col/ml 15 col/ml 18 col/ml 25 col/ml 78 col/ml 136 col/ml
Diagrama de caja ( boxplot ) CUESTIONARIO-AUTOEVALUACIÓN Figura 4 250 200 48 Marca la posición de la mediana 150 100 50 0 Mediana 46 45 Q3 Q1 Amplitud intercuartil Todo valor que se aleja más de 3 veces la amplitud intercuartil -50 N = 19 colonias aisladas / Valores fuera de las patillas Qué representan las dos bases Qué representa el trazo grueso horizontal Nombre de los dos trazos horizontales Valor anómalo Valor alejado Valor extremo Representan los cuartiles primero y tercero (Q1 y Q3). Todo valor de la distribución que se aleja del cuartil primero (Q1) o del cuartil tercero (Q3), una distancia superior a 1,5 veces la amplitud intercuartil Patillas PUNTUACIÓN: / 6
PUNTUACIÓN FINAL POBLACIÓN Y MUESTRA : / 5 BASADA EN MOMENTOS / 7 BASADA EN ORDENACIONES: / 6 DIAGRAMA DE CAJA : / 6 TOTAL: / 24 Quien haya obtenido 24 / 24 siento haberle hecho perder el tiempo