Guía de asignatura Formato institucional Rev. Abril 2013 Información general Asignatura Fundamentos de Análisis de datos Código Tipo de asignatura Obligatoria X Electiva Tipo de saber Número de créditos 3 Tipo de crédito Horas de trabajo con acompañamiento directo del profesor Obligatoria básica o de fundamentación X A 64 Obligatoria profesional Horas de trabajo independiente del estudiante 192 Obligatoria complementaria Total de horas 256 Prerrequisitos Correquisitos Horario Salón Profesor Profesor auxiliar o monitor Nombre Correo electrónico Lugar y horario de atención Página web Nombre Correo electrónico Lugar y horario de atención Página web Pedro Monterrey (coordinador) pedro.monterrey@urosario.edu.co
Resumen y propósitos de formación del curso Este es un curso básico de estadística en el que se comienza con una breve reseña del muestreo y cómo este se maneja en los diferentes tipos de estudio propios de la investigación en el área; a continuación se enumeran los diferentes criterios descriptivos y se muestra cómo esta descripción de los datos pretende representar el comportamiento de la distribución de probabilidad de las variables bajo estudio. De esta forma se propicia un enfoque exploratorio en la descripción de los datos. En este con se introduce la noción de probabilidad, haciendo énfasis en los criterios de conteo. Los procedimientos paramétricos, asociados a la distribución normal, se resumen en el marco de los procedimientos generales de estimación por intervalos de confianza y las pruebas de hipótesis. Introduciéndose estos conceptos con los enfoques más actuales y propiciando un uso conjunto para fortalecer las capacidades de analizar datos de los asistentes al curso. En el caso de las pruebas de hipótesis se presta una especial atención al uso de los valores P para evitar que se cometan los errores que usualmente se presentan en muchas aplicaciones y que han sido criticados fuertemente en la literatura especializada. En el con de la exploración de los datos se analiza el ajuste de las distribuciones y se introducen algunos de los criterios para el análisis de la bondad del ajuste, en este aspecto reciben especial atención los procedimientos gráficos. En el curso se introduce el modelo de regresión lineal y el de análisis de varianza en el caso de la clasificación simple. Por último se analizan las pruebas no paramétricas asociadas a la distribución ji-cuadrado. Para el manejo computacional de los análisis de utilizará EXCEL y R. Propósitos del curso Desarrollar capacidades y habilidades dirigidas al análisis de los datos en el con de un problema de investigación con una mirada exploratoria
Temas Tema 1 La probabilidad Experimentos y sucesos aleatorios. Operaciones con sucesos. Suceso imposible y suceso seguro, Las frecuencias relativas y su estabilidad. La probabilidad como una frecuencia esperada. La definición clásica de probabilidad. Los diagramas de árbol y los criterios de conteo. Las permutaciones, variaciones y combinaciones. Propiedades de la probabilidad. La probabilidad condicional y la independencia. El teorema de Bayes. Tema 2 Las variables, los datos y las bases de datos Mediciones y errores de medición. Las variables. Los diferentes criterios de clasificación de las variables. La clasificación según el tipo de medición: las variables cualitativas (nominales y ordinales) y las variables cuantitativas (discretas y continuas) y según su papel en el problema abordado (dependientes, independientes y de confusión). La relación entre variables. Las observaciones, las bases de datos y las tablas (matrices) de datos. Población y muestra. La importancia del azar en la investigación de perfil estadístico. Los estudios de tipo observacional y experimental. Los fundamentos del muestreo en cada uno de ellos. Tema 3 Las variables aleatorias Las variables aleatorias discretas y continuas, importancia en la descripción del comportamiento poblacional de las variables. Las variables discretas y su función de probabilidad. Las distribuciones discretas uniforme, binomial, Poisson e hipergeométrica. Frecuencias observadas y frecuencias esperadas de los valores de una variable aleatoria discreta. Las variables aleatorias continuas y su función de densidad. La aproximación de las densidades a partir de los histogramas. El cálculo de probabilidades como áreas. La distribución normal y los puntajes estandarizados. El análisis de la distribución de una variable continua a partir de sus observaciones: el histograma y los diagramas P-P. Introducción a otras distribuciones continuas, las distribuciones t, ji-cuadrado y F. Los grados de libertad como parámetros de las distribuciones. El uso de R en el cálculo de probabilidades para las variables discretas y continuas. Los percentiles. Las Medidas de posición, de escala y de forma. Tema 4 La descripción de los datos Los diagramas para representar la distribución de los datos: los diagramas de puntos y los histogramas. La forma de las distribuciones: la simetría y la asimetría. La media y la moda como representantes de la localización (centro) de la distribución de los datos, la varianza y la desviación estándar como representantes de la escala (dispersión) de los datos. El coeficiente de variación y los puntajes estandarizados, su importancia. Los diagramas de dispersión. Los coeficientes de correlación de Pearson y Spearman. Percentiles, cuartilas y mediana. Los diagramas de tipo box-plot. La dispersión de los datos en términos de las medidas de frecuencia: el recorrido intercuartílico. La descripción de datos cualitativos, tablas de frecuencia y de contingencia. Frecuencias y proporciones según filas y columnas. Los diagramas de barras y de pastel.
Tema 5 Las estimaciones de parámetros de una distribución: El caso normal Los estimadores y su distribución muestral. El uso de los valores medios y la varianza de la distribución para caracterizar los estimadores. Distribución muestral de medias y proporciones para una y dos poblaciones. El Teorema del Límite Central. Los estimadores insesgados y el error estándar de estimación. Los intervalos de confianza para la media y la varianza de una y dos poblaciones normales. Intervalos de confianza para proporciones de una y dos poblaciones utilizando la aproximación normal. El nivel de confianza. Tema 6 Las pruebas de hipótesis La hipótesis de investigación y las hipótesis estadísticas. La importancia de las hipótesis estadísticas en la investigación. La relevancia metodológica de la hipótesis nula y la alternativa. La clasificación de las hipótesis estadísticas en paramétricas y no paramétricas. El uso de los intervalos de confianza en la valoración de la validez de las hipótesis estadísticas. La importancia del diámetro del intervalo. El criterio de Neymann y Pearson para el análisis de las hipótesis estadísticas: Las pruebas de hipótesis. Las tasas de error de tipo I y II. Las diferencias significativas. La definición de Región Crítica. El concepto de α-prueba. Las pruebas paramétricas en el caso de una y dos poblaciones normales. El criterio de Fisher para el análisis de las hipótesis estadísticas: las pruebas de significación. El valor P como medida de evidencia. La interpretación y usos del valor P. Los valores P en el caso de las pruebas paramétricas en una y dos poblaciones normales. Pruebas para proporciones de una y dos poblaciones. La prueba t para muestras con pareamiento. Tema 7 Comparación de múltiples poblaciones El análisis de varianza de clasificación simple, sus hipótesis. Comparaciones múltiples y la corrección de Bonferroni. Las pruebas no paramétricas de Mann-Whitney y de Kruskall-Wallis Tema 8 Introducción a la regresión lineal El modelo de regresión lineal para dos variables. El significado de los parámetros del modelo. Valores observados y esperados. Las hipótesis del modelo. El criterio de cuadrados mínimos y los estimadores de cuadrados mínimos. El coeficiente de determinación. Las hipótesis de Gauss- Markov. El coeficiente de determinación. La tabla de ANOVA. Tema 9 Las pruebas no paramétricas asociadas a la distribución ji-cuadrado Las pruebas ji-cuadrado de independencia, homogeneidad y bondad del ajuste. La prueba de Kolmogorov-Smirnov para una y dos poblaciones, su aproximación a la distribución ji-cuadrado. Resultados de aprendizaje esperados (RAE) OBJETIVOS GENERALES Desarrollar capacidades y habilidades dirigidas al análisis de los datos en el con de un problema de investigación con una mirada exploratoria
OBJETIVOS ESPECÍFICOS (1) Desarrollar una visión exploratoria para el análisis de datos (2) Describir un conjunto de datos partiendo de los objetivos propuestos para el análisis (3) Calcular probabilidades utilizando la definición clásica de probabilidad y la distribución de las variables (4) Comprender la distribución muestral como una distribución de probabilidad que representa el comportamiento de los valores de un estadístico (5) Aplicar correctamente las pruebas de hipótesis y los intervalos de confianza en la realización de inferencias (6) Aplicar los modelos de regresión en el caso de una variable dependiente y una independiente (7) Identificar las situaciones que pueden ser resueltas por los modelos de análisis de varianza (8) Analizar el tipo de distribución que siguen los datos (9) Utilizar la distribución ji-cuadrado en el análisis de hipótesis de independencia y homogeneidad en las tablas de contingencia Actividades de aprendizaje Talleres y tareas Monitorias Clases magistrales Actividades de evaluación
Tema Actividad de evaluación Porcentaje 1-2 Parcial 1 20 3-4-5 Parcial 2 20 6-7-8 Parcial 3 20 Labor en clases Labor durante el curso Trabajo en clases (10%) TALLER Análisis del problema de 15 Módulo Integrador II (5%) Resumen del semestre Examen final 25 Programación de actividades por sesión Semana Fecha Actividad Tema Contenidos Trabajo independiente del estudiante Recursos que apoyan la actividad 1 1 2 1 Experimentos y sucesos aleatorios. Operaciones con sucesos. Suceso imposible y suceso seguro, Las frecuencias relativas y su estabilidad. La probabilidad como una frecuencia esperada. La definición clásica de probabilidad. Los diagramas de árbol y los criterios de conteo. Las permutaciones, variaciones y combinaciones. Propiedades de la probabilidad 2 3 5 2 3 La probabilidad condicional y la independencia. El teorema de Bayes. 4 Mediciones y errores de medición. Las variables. Los diferentes criterios de clasificación de las variables. La clasificación según el tipo de medición: las variables cualitativas (nominales y ordinales) y las variables cuantitativas (discretas y continuas) y según su papel en el problema abordado (dependientes, independientes y de confusión). La relación entre variables. Las observaciones, las bases de datos y las tablas (matrices) de datos. Población y muestra. La importancia del azar en la investigación de perfil estadístico. Los estudios de tipo observacional y experimental. Los fundamentos del muestreo en cada uno de ellos.
4 6 7 1,2 Ejercicios de recapitulación salón de clases. Guía de ejercicios 8 PRIMER PARCIAL 5 9 Las variables aleatorias discretas y continuas, importancia en la descripción del comportamiento poblacional de las variables. Las variables discretas y su función de probabilidad. Las distribuciones discretas uniforme, Bernoulli, binomial, Poisson, hipergeométrica y multinomial. Frecuencias observadas y frecuencias esperadas de los valores de una variable aleatoria discreta. Medidas de posición y de escala para las variables discretas trabajo extraclase: probabilidad 10 variables discretas 6 11 3 Las variables aleatorias continuas y su función de densidad. La aproximación de las densidades a partir de los histogramas. El cálculo de probabilidades como áreas. La distribución normal y los puntajes estandarizados. El análisis de la distribución de una variable continua a partir de sus observaciones: el histograma y los diagramas P-P. Introducción a otras distribuciones continuas, las distribuciones t, jicuadrado y F. Los grados de libertad como parámetros de las distribuciones. El uso de R en el cálculo de probabilidades para las variables discretas y continuas. Los percentiles. Las Medidas de posición, de escala y de forma. 12 variables continuas 7 8 13 14 15 4 Los diagramas para representar la distribución de los datos: los diagramas de puntos y los histogramas. La forma de las distribuciones: la simetría y la asimetría. La media y la moda como representantes de la localización (centro) de la distribución de los datos, la varianza y la desviación estándar como representantes de la escala (dispersión) de los datos. El coeficiente de variación y los puntajes estandarizados, su importancia. Los diagramas de dispersión. Los coeficientes de correlación de Pearson y Spearman. Percentiles, cuartilas y mediana. Los diagramas de tipo box-plot. La dispersión de los datos en términos de las medidas de frecuencia: el recorrido intercuartílico. La descripción de datos cualitativos, tablas de frecuencia y de contingencia. Frecuencias y proporciones según filas y columnas. Los diagramas de barras y de pastel. Entrega trabajo extraclase: probabilidad 16
9 17 5 Los estimadores y su distribución muestral. El uso de los valores medios y la varianza de la distribución para caracterizar los estimadores. Distribución muestral de medias y proporciones para una y dos poblaciones. El Teorema del Límite Central. Los estimadores insesgados y el error estándar de estimación. Los intervalos de confianza para la media y la varianza de una y dos poblaciones normales. Intervalos de confianza para proporciones de una y dos poblaciones utilizando la aproximación normal. El nivel de confianza. 18 10 19 6 La hipótesis de investigación y las hipótesis estadísticas. La importancia de las hipótesis estadísticas en la investigación. La relevancia metodológica de la hipótesis nula y la alternativa. La clasificación de las hipótesis estadísticas en paramétricas y no paramétricas. El uso de los intervalos de confianza en la valoración de la validez de las hipótesis estadísticas. La importancia del diámetro del intervalo. El criterio de Neymann y Pearson para el análisis de las hipótesis estadísticas: Las pruebas de hipótesis. Las tasas de error de tipo I y II. Las diferencias significativas. La definición de Región Crítica. El concepto de α-prueba. El valor P TALLER análisis del problema de Módulo Integrador II 20 3,4,5 SEGUNDO PARCIAL 11 21 6 Las pruebas paramétricas en el caso de una y dos poblaciones normales. Pruebas para las proporciones. La prueba t para muestras con pareamiento 22 12 23 7 El análisis de varianza de clasificación simple, sus hipótesis. Comparaciones múltiples y la corrección de Bonferroni. Las pruebas no paramétricas de Mann- Whitney y de Kruskall-Wallis 24 6 y 7 ANOVA y pruebas de hipótesis Entrega TALLER análisis del problema de Módulo Integrador II 13 25 8 26 El modelo de regresión lineal para dos variables. El significado de los parámetros del modelo. Valores observados y esperados. Las hipótesis del modelo. El criterio de cuadrados mínimos y los estimadores de cuadrados mínimos. El coeficiente de determinación.las hipótesis de Gauss-Markov. El coeficiente de determinación. La tabla de ANOVA.
14 27 9 Pruebas no paramétricas: Las pruebas ji-cuadrado de independencia, homogeneidad y bondad del ajuste. La prueba de Kolmogorov-Smirnov para una y dos poblaciones. 28 9 15 16 29 9 30 9 31 Resumen del Curso 32 TERCER PARCIAL Tarea Tema 9 Entrega Tarea Tema 9 Guía ejercicios salón de clases Bibliografía EXAMEN FINAL 25 DE MAYO Diez D, Barr C, Çetinka-Rundel M. OpenIntro Statistics, 2 nd Edition. En https://www.openintro.org/stat/textbook.php. Open Intro 2014 Milton, Susan. Estadística para Biología y Ciencias de la Salud. Mc Graw Hill, 2001 Bibliografía complementaria Pagano M, Gauvreau K. Principles of Biostatistics. Duxbury. Segunda edición, 2000 Acuerdos de funcionamiento (Reglas de juego) Debe consultar: http://www.urosario.edu.co/la-universidad/documentos- Institucionales/ur/Reglamentos/Reglamento-Academico-de-Pregrado/ Teniendo en cuenta el reglamento formativo-preventivo y disciplinario de la Universidad del Rosario, y la certeza de que las acciones fraudulentas van en contra de los procesos de enseñanza y aprendizaje, cualquier acto corrupto vinculado a esta asignatura será notificado a la secretaría académica correspondiente de manera que se inicie el debido proceso disciplinario. Se recomienda a los estudiantes leer dicho reglamento para conocer las razones, procedimientos y consecuencias que este tipo de acciones pueden ocasionar, así como sus derechos y deberes asociados a este tipo de procedimientos.