Metodología Experimental

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Metodología Experimental"

Transcripción

1 Doctorado en Informática Métodos y Técnicas de Minería de Datos Metodología Experimental Juan José Rodríguez Diez jjrodriguez@ubu.es

2 Cuestiones Qué medimos. En principio, tasa de acierto/error. Qué experimentos hacemos. Como repartimos los datos en entrenamiento / test Cómo comparamos. Tests estadísticos. Metodología Experimental JJRD 2/61

3 Evaluación Cómo de bueno es prediciendo el modelo que hemos aprendido. El error en el conjunto de entrenamiento no es un buen indicador del error sobre datos nuevos. Almacenar los datos sería el clasificador óptimo. Rendimiento futuro sobre nuevos datos. Conjunto independiente de los datos de entrenamiento: datos de test. Normalmente solo se dispone de un conjunto de datos etiquetado. Si tenemos muchos datos etiquetados, dividir en entrenamiento y test. A menudo los datos etiquetados son limitados. Técnicas más sofisticadas. Metodología Experimental JJRD 3/61

4 Aspectos de la Evaluación Fiabilidad de las diferencias estimadas en el rendimiento. Elección de la medidas del rendimiento. Número de clasificaciones correctas. Precisión de las estimaciones de probabilidad. Error en predicción numérica. Costes asignados a distintos tipos de error. En muchas aplicaciones prácticas. Metodología Experimental JJRD 4/61

5 Entrenamiento y Test En clasificación la medida natural del rendimiento es la tasa de error. Acierto: la clase se predice correctamente. Error: la clase se predice incorrectamente. Tasa de error: proporción del número de errores cometidos sobre todo el conjunto de ejemplos. Error de resubstitución: tasa de error obtenida sobre el conjunto de entrenamiento. Inevitablemente optimista. Metodología Experimental JJRD 5/61

6 Entrenamiento y Test (II) Conjunto de test: ejemplos independientes que no se han usado de ningún modo en la construcción del clasificador. Tampoco se pueden usar en preprocesamientos. Suposición: los datos de entrenamiento y test son muestras representativas de un mismo problema subyacente. Los conjuntos de entrenamiento y test podrían ser de distinta naturaleza. Por ejemplo, clasificador construido sobre datos de clientes de dos ciudades diferentes. Estimar el rendimiento del clasificador obtenido en la primera ciudad sobre cualquier otra, utilizar la segunda ciudad para el conjunto de test. Metodología Experimental JJRD 6/61

7 Ajuste de Parámetros Los datos de test no se pueden usar de ningún modo para crear el clasificador. Algunos métodos trabajan en dos etapas: Construcción de la estructura básica. Optimizar los valores de los parámetros. Los datos de test no se pueden usar para el ajuste de párametros. Seleccionar entre varios métodos. Usar tres conjuntos independientes: entrenamiento, validación y test. Los de validación se usan para optimizar los parámetros o seleccionar. Metodología Experimental JJRD 7/61

8 Aprovechando los Datos Una vez que la evaluación se ha completado, se pueden usar todos los datos disponibles para construir el clasificador final. Normalmente, cuanto más grande sea el conjunto de entrenamiento mejor será el clasificador (mejoras cada vez más pequeñas). Cuanto más grande sea el conjunto de test, más precisa será la estimación del error. Holdout: dividir los datos originales en entrenamiento y test. Dilema: idealmente, ambos conjuntos deberían ser grandes. Buen clasificador o buena estimación del error Metodología Experimental JJRD 8/61

9 Predicción del Rendimiento Si la estimación de la tasa de error es del 25 %, cómo de cerca estamos a la tasa de error real. Depende del tamaño del conjunto de test. La predicción se puede considerar como lanzar una moneda trucada. Acierto o error en vez de cara o cruz. Sucesión de eventos independientes, proceso de Bernoulli. Intervalos de confianza para la verdadera proporción subyacente. Metodología Experimental JJRD 9/61

10 Intervalos de Confianza Podemos decir, p está en un determinado intervalo con una determinada confianza especificada. Ejemplo: S = 750 aciertos en N = 1000 intentos. Tasa de acierto estimada: 75 %. Con una confianza del 80 %, p está en [73.2, 76.7] Otro ejemplo: S = 75 aciertos en N = 100 intentos. Tasa de acierto estimada: 75 %. Con una confianza del 80 %, p está en [69.1, 80.1] Metodología Experimental JJRD 10/61

11 Media y varianza Media y varianza para un intento Bernouilli: p, p(1 p). Tasa de acierto esperada: f = S/N. Media y varianza para f: p, p(1 p)/n. Para valores de N suficientemente grandes, f sigue una distribución Normal. Intervalo de confianza [ z X z] del c % para una variable con media 0 Pr[ z X z] = c Para una distribución simétrica: Pr[ z X z] = 1 2 Pr[X z] Metodología Experimental JJRD 11/61

12 Límites de Confianza Pr[X z] z 0.1 % % % % % 1.28 [WF05] 20 % % 0.25 Entonces: Pr[ 1.65 X 1.65] = 90 %. Para poder usar esto se necesita transformar la variable f para que tenga media cero y varianza uno. Metodología Experimental JJRD 12/61

13 Transformación de f Valor transformado para f: f p p(1 p)/n Restamos la media, dividimos por la desviación estándar. Ecuación resultante: [ Pr z ] f p z p(1 p)/n = c Resolviendo para p: ( p = f + z2 2N ± z f N f2 N + ) ) z2 / (1 + z2 4N 2 N Metodología Experimental JJRD 13/61

14 Ejemplos f = 75 %, N = 1000, c = 80 % (de modo que z = 1.28). p [0.732, 0.767] f = 75 %, N = 100, c = 80 % (de modo que z = 1.28). p [0.691, 0.801] La suposición de que la distribución es normal solo es válida para N grande (i.e., N > 100). Metodología Experimental JJRD 14/61

15 Estimación por holdout Si la cantidad de datos es limitada. Holdout: reserva una cantidad para test, el resto para entrenamiento. E.g., un tercio para test. Problema: las muestras podrían no ser representativas. E.g., una clase podría no estar presente. Estratificación: asegura que cada clase está representada con aproximadamente las mismas proporciones en los dos subconjuntos. Metodología Experimental JJRD 15/61

16 Holdout repetido Más fiable si repetimos el proceso varias veces con diferentes muestras. En cada iteración se selecciona aleatoriamente una proporción para entrenamiento (posiblemente con estratificación). Las tasas de error de las diferentes iteraciones se promedian para obtener la tasa de error global. No es óptimo, los diferentes conjuntos de test se solapan. Cómo prevenir el solapamiento. Metodología Experimental JJRD 16/61

17 Validación Cruzada Evita el solapamiento de los conjuntos de test. Primer paso: repartir los datos en k subconjuntos del mismo tamaño. Segundo paso: usar cada subconjunto como test, el resto para entrenamiento. k-fold cross-validation. A menudo los subconjuntos se estratifican antes de realizar la validación cruzada. Se promedian las tasas de error. Metodología Experimental JJRD 17/61

18 Validación Cruzada (II) Estándar: 10 fold stratified cross validation. Apoyado por experimentación exhaustiva. La estratificación reduce la varianza del estimador. Ni la estratificación ni la división tienen que ser exactas. Validación cruzada repetida. Para paliar la influencia de la partición aleatoria. E.g.: 10 10, Metodología Experimental JJRD 18/61

19 Dejar Uno Fuera Leave one out (LOO). Validación cruzada con tantos grupos como ejemplos. Ventajas: Cantidad máxima de datos para entrenamiento. Determinista. Inconveniente: muy costoso computacionalmente. Excepciones, e.g., vecino más cercano. Metodología Experimental JJRD 19/61

20 Dejar Uno Fuera (II) No es posible estratificar. El conjunto de test solo tiene un ejemplo. Ejemplo artificial: conjunto completamente aleatorio con el mismo número de ejemplos de las dos clases. Mejor clasificador: predecir la mayoría. Sobre un conjunto nuevo de datos, acierto del 50 %. De acuerdo a LOO, 100 % de error. Metodología Experimental JJRD 20/61

21 Bootstrap Muestreo con reemplazamiento. Un mismo ejemplo puede ser seleccionado varias veces. Métodos de aprendizaje que son sensibles a cuantas veces aparece un valor. Obtener n elementos con reemplazamiento de un conjunto de n elementos. Conjunto de entrenamiento. En el fondo no es un conjunto... Los ejemplos no seleccionados irán al conjunto de test. Metodología Experimental JJRD 21/61

22 0.632 bootstrap Un ejemplo concreto tiene una probabilidad 1 1/n de no ser seleccionado. La probabilidad de acabar en el conjunto de test es ( 1 1 n) n e El conjunto de entrenamiento contendrá aproximadamente el 63.2 % de los ejemplos. Metodología Experimental JJRD 22/61

23 Estimación del error con bootstrap Evaluar sobre los datos de test: excesivamente pesimista. Entrenado con solo el 63 % de los ejemplos. Para compensar: e test e train Repetir varias veces con diferentes muestras, promediar los resultados. Para conjuntos de datos muy pequeños. Mismo conjunto artificial. Si se memoriza: 0 % de error en entrenamiento. Error: Metodología Experimental JJRD 23/61

24 Comparaciones 2 métodos. 1 conjunto. 1 ejecución. McNemar. Varias ejecuciones. Test t pareado (remuestreado corregido). Varios conjuntos. Test de signo sobre el número de victorias. Más de 2 métodos, varios conjuntos. Friedman. Todos contra todos. Nemenyi. Uno contra todos. Bonferroni-Dunn. Metodología Experimental JJRD 24/61

25 Test de McNemar Dos métodos, un conjunto, una ejecución. Entrenamiento R y Test T Entrenar algoritmos A y B sobre R Notación: n ij es el numero de ejemplos clasificados de modo i (0 mal, 1 bien) por A y de modo j por B n 00 n 01 n 10 n 11 Hipótesis nula, los dos algoritmos tienen la misma tasa de error: n 10 = n 01 El estadístico ( n 01 n 10 1) 2 n 01 +n 10 se distribuye aproximadamente como una χ 2 con 1 grado de libertad Si la hipótesis nula es correcta, la probabilidad que esta cantidad sea mayor que χ 2 1,0.95 = es menor que 0.05 [Die98] Metodología Experimental JJRD 25/61

26 McNemar (Exacto) Distribución binomial, probabilidad de s exitos en n intentos: n! s!(n s)! ps q n s Si no se esperan diferencias entre algoritmos, p = q = 0.5 n = n 01 + n 10, m = máx(n 01, n 10 ) La probabilidad de estos resultados es n s=m n! s!(n s)! 0.5n Metodología Experimental JJRD 26/61

27 2 Mét., 1 Conj, Varias Ejecuciones Evaluar los dos con validación cruzada, comparar. Para ciertas aplicaciones, puede ser suficiente. La diferencia puede deberse a que tenemos estimaciones del error. Repetir la validación cruzada. Demostrar convincentemente que un método en particular funciona mejor. Se quiere demostrar que un método A es mejor que B en un dominio particular. Para un tamaño determinado del conjunto de entrenamiento. En promedio, sobre todos los posibles conjuntos de entrenamiento. Metodología Experimental JJRD 27/61

28 2 Mét., 1 Conj, Varias Ejecuciones (II) Supongamos que hay una cantidad infinita de datos en el dominio. Obtener muchas muestras (conjuntos de datos) del tamaño especificado. Obtener una estimación por validación cruzada para cada conjunto y método. Comprobar si la precisión media del método A es mejor que la del método B. Significativamente. Metodología Experimental JJRD 28/61

29 Test t de Student En la práctica, los datos son limitados y tenemos un número limitado de estimaciones para calcular la media. Este test no indica si las medias de dos muestras son significativamente diferentes. Nuestras muestras son las estimaciones obtenidas por validación cruzada para diferentes conjuntos de datos del dominio. Test pareado, porque las muestras individuales están pareadas. Usar las mismas validaciones cruzadas para los dos métodos. Metodología Experimental JJRD 29/61

30 Distribución de las Medias Notación: x 1,... x k, y 1,... y k. Si hay suficientes ejemplos, la media de un conjunto de ejemplos tiene distribución normal Con independencia de la distribución de los propios ejemplos. Sean µ x y µ x los valor verdaderos de las media. No conocemos la varianza de las medias. Estimaciones: σ 2 x/k, σ 2 y/k. Entonces x µ x σ y y µ y tienen aproximadamente una distribución normal, 2 x /k σ 2 y /k con media 0 y varianza 1. Metodología Experimental JJRD 30/61

31 Distribución de Student Para muestras pequeñas (k < 100), la media sigue una distribución de Student con k 1 grados de libertad. Si más de 100, muy similar a la Normal. Ejemplo, para k = validaciones cruzadas. 9 grados de libertad. Pr[X z] 0.1 % 0.5 % 1 % 5 % 10 % 20 % z Metodología Experimental JJRD 31/61

32 Distribución de las Diferencias d i = x i y i, observaciones pareadas La media de las diferencias es la diferencia de las medias. d = x y También tiene una distribución de Student con k 1 grados de libertad. Hipótesis nula: las medias son iguales, la diferencia es nula Variable t-estadístico (media 0, varianza 1): t = d σ 2 d /k Metodología Experimental JJRD 32/61

33 Test de Student: Método Seleccionar un nivel de confianza (típicamente, 1 ó 5 %). Si la diferencia es significativa con un nivel α %, hay una probabilidad de (100 α) % de que las medias verdaderas difieran. Dividir el nivel por dos porque el test tiene dos colas. Determinar, a partir de la tabla, el valor de z que se corresponde con α/2. Si el valor de t es mayor que z o menor que z, rechazar la hipótesis nula (hay una diferencia significativa). Metodología Experimental JJRD 33/61

34 Observaciones no Pareadas Si las observaciones no están pareadas. Incluso se puede tener un número diferente de repeticiones (k y j). Test regular (no pareado) de Student. Grados de libertad: mín(k, j) 1. Estimación de la varianza de la diferencia de las medias: σ 2 x k + σ2 y j Metodología Experimental JJRD 34/61

35 Estimaciones Dependientes Suponíamos que teníamos datos suficientes como para crear varios conjuntos de datos del mismo tamaño. Si no es el caso, necesidad de reutilizar los datos. E.g., validaciones cruzadas sobre los mismos datos con distintas particiones aleatorias. Las muestras son dependientes. Diferencias insignificantes pueden convertirse en significantes. Heurística: test t remuestreado corregido [NB03]. Suponemos holdout repetido, n 1 ejemplos de entrenamiento, n 2 de test. Nuevo estadístico: t = d ( ) 1 + n 2 k n 1 σ 2 d Metodología Experimental JJRD 35/61

36 Comparación sobre varios Dominios [Dem06] Distintos conjuntos de datos (de distintos dominios). Caso particular: dos métodos. Test t pareado para cada conjunto. Resultados de significancia individuales. Un único t-test pareado con los resultados de cada conjunto. Los resultados en distintos conjuntos de datos no son comparables. Se necesita una muestra suficientemente grande ( 30) o distribución normal. Metodología Experimental JJRD 36/61

37 Número de Victorias: Test de Signo Contar el número de conjuntos para el que cada método gana. Si los dos métodos son equivalentes, cada uno debería ganar en la mitad de los conjuntos. Distribución binomial. conjuntos α = α = Un clasificador es significativamente mejor que otro si tiene mejores resultados para al menos el número de conjuntos en la tabla. Los empates se reparten. Para más conjuntos de datos: N/ N/2 (significancia: 5 %). Aproximadamente, N/2 + N Metodología Experimental JJRD 37/61

38 Varios Clasificadores Ranking para cada conjunto de datos. Se ordenan los métodos de mejor a peor. A cada método se le asigna un número con su posición. El mejor el 1, el segundo el 2... Si hay empates, valores promedios. E.g, si 4 métodos tienen el mejor resultado, se les asigna el valor 2.5. Para cada método, promediar sus posiciones. Ordenar de acuerdo a este ranking promedio. A partir de estos rankings se pueden realizar diversos tests estadísticos. Metodología Experimental JJRD 38/61

39 Ejemplo Resultados (AUC) Rankings C4.5 C4.5+m C4.5+cf C4.5+m+cf C4.5 C4.5+m C4.5+cf C4.5+m+cf adult breast cancer cancer wisconsin cmc ionosphere iris liver disorders lung cancer lymphography mushroom primary tumor rheum voting wine ranking promedio: Datos tomados de [Dem06] Metodología Experimental JJRD 39/61

40 Tests sobre los Rankings Test de Friedman. Hipótesis nula: los métodos son equivalentes, los rankings promedios deberían ser equivalentes. Estadístico de Friedman (N conjuntos de datos, k métodos, R j ranking promedio del método j) [ ] χ 2 F = 12N R 2 k(k + 1)2 j k(k + 1) 4 Distribución χ 2 con k 1 grados de libertad. Según Iman y Davenport, este test es demasiado conservador, estadístico alternativo: F F = (N 1)χ2 F N(k 1) χ 2 F Distribución F con k 1 y (k 1)(N 1) grados de libertad. Metodología Experimental JJRD 40/61 j

41 Tests sobre los Rankings (II) Si se rechaza la hipótesis nula, se puede proceder con un test post-hoc. Test de Nemenyi. Dos métodos son significativamente diferentes si sus rankings promedios difieren al menos en CD = q α k(k+1) 6N Clasificadores q q Test de Bonferroni-Dunn, cuándo se compara solo con un clasificador de control. Clasificadores q q Metodología Experimental JJRD 41/61

42 Ejemplo Para los resultados anteriores, X 2 F = 9.28 F F = Distribucion F con k 1 = 3 y (k 1)(N 1) = 39 grados de libertad. Valor crítico para α = 0.05, es Rechazamos la hipótesis nula. section3/eda3673.htm En la hoja de cálculo: =DISTR.F.INV(0,05;3;39) ó =DISTR.F(3,69;3;39) Metodología Experimental JJRD 42/61

43 Ejemplo (II) Si comparamos todos con todos, Nemenyi. CD = 1.25 ó CD = 1.12, dependiendo del nivel (5 % ó 10 %).. CD C4.5.. C4.5+cf. C4.5+m+cf. C4.5+m Si comparamos solo con C4.5, Bonferroni-Dunn. CD = 1.16 (nivel 5 %) C4.5.. C4.5+cf. C4.5+m+cf. C4.5+m [Dem06] Metodología Experimental JJRD 43/61

44 Regresión Mismas estrategias: conjunto de test independientes, validación cruzadas, test de significancia... Diferencia: medidas del error. Valores reales: a 1, a 2,... a n. Valores predichos: p 1, p 2,... p n. Más popular: error cuadrático medio. (p 1 a 1 ) (p n a n ) 2 Fácil de manipular matemáticamente. n Error absoluto medio. p 1 a p n a n n Metodología Experimental JJRD 44/61

45 Mejora de la Media Cuánto mejora el método a predecir el valor medio. Error cuadrático relativo. (p 1 a 1 ) (p n a n ) 2 (a a 1 ) (a a n ) 2 a es el valor medio en el conjunto de entrenamiento. Error absoluto relativo. p 1 a p n a n a a a a n A menudo la selección del método no depende de la medida. Metodología Experimental JJRD 45/61

46 Predicción de Probabilidades Hasta ahora la medida del rendimiento era la tasa de acierto. También denominada función de pérdida 0-1. La pérdida es 0 si se acierta, 1 si se falla. Muchos clasificadores son capaces de asignar una probabilidad a cada predicción. Para ciertas aplicaciones, podríamos comprobar la precisión de las estimaciones de probabilidad. Podría ser mejor acertar con 0.99 que con A veces la predicción puede ser entrada para otros procesos. E.g., análisis humano. Metodología Experimental JJRD 46/61

47 Función de pérdida cuadrática p 1... p k son las estimaciones de probabilidad para un ejemplo. c es el índice de la clase verdadera. a 1... a k = 0, savo a c = 1. Pérdida cuadrática: (p j a j ) 2 = j j c p 2 j + (p c 1) 2 = 1 2p c + j p 2 j Sumar la pérdida de cada ejemplo. Metodología Experimental JJRD 47/61

48 Función de Pérdida de Información log 2 p c Representa el número de bits necesarios para comunicar la clase verdadera. Sean p 1... p k las probabilidades reales de las clases. El valor esperado para la función de pérdida es p 1 log 2 p 1... p k log 2 p k Problema: si se asigna una probabilidad 0 a un evento que ocurre, pérdida infinita. Metodología Experimental JJRD 48/61

49 Discusión Qué función elegir. Ambas promueven la honestidad. La función de pérdida cuadrática tiene en cuenta las estimaciones de probabilidad de todas las clases para el ejemplo. La función de pérdida de información solo se fija en la probabilidad asignada a la clase verdadera. La pérdida cuadrática está acotada, 1 + j p2 j, como mucho 2. La pérdida de información puede ser infinita. Metodología Experimental JJRD 49/61

50 Sobre la Precisión No siempre es adecuado utilizar la precisión (el error) para comparar métodos. Suposiciones: Los costes de los errores son los mismos. Distribución de clases conocida a priori. Ejemplos: fraudes, créditos, inseminación de ganado, diagnosis... Para dos clases: (ciertos, falsos) (positivos, negativos). Metodología Experimental JJRD 50/61

51 Sobre la Precisión (II) Matriz de confusión. positivo clase real negativo clase sí cierto positivo falso positivo predicha no falso negativo cierto negativo Precisión: TP+TN P+N Tasa de ciertos positivos: tp = TP P Tasa de falsos positivos: fp = FP N Metodología Experimental JJRD 51/61

52 Análisis ROC Análisis ROC (Receiver Operation Characteristic), originado en teoría de la señal y común en diagnosis médica. Representación gráfica del rendimiento de clasificadores. Especialmente útiles en problemas desesequilibrados o sensibles al coste. Espacio ROC: pares (fp, tp). Relación entre los beneficios (ciertos positivos) y los costes (falsos positivos). Metodología Experimental JJRD 52/61

53 Análisis ROC (II) Cada clasificador un punto en ese espacio. (0, 0) aquellos clasificadors que siempre predicen negativo. (1, 1) si siempre predice positivo. (0, 1) clasificador perfecto. Un clasificador es mejor que otro si está encima y a la izquierda. Predicción aleatoria: en la diagonal. Metodología Experimental JJRD 53/61

54 Análisis ROC (III) Metodología Experimental JJRD 54/61

55 Análisis ROC (IV) Si el modelo ofrece una salida continua (e.g., probabilidad posterior), cada umbral define un clasificador tasa ciertos positivos tasa ciertos positivos tasa falsos positivos tasa falsos positivos Metodología Experimental JJRD 55/61

56 Análisis ROC (V) [Faw06] Metodología Experimental JJRD 56/61

57 Curvas ROC Metodología Experimental JJRD 57/61

58 Curvas ROC (II) Curvas ROC: habilidad de los clasificadores para generar buenos valores numéricos relativos, aunque no sean buenas probabilidades. Que permitan discriminar bien. Robustas a cambios en la distribución de clases en el conjunto de test. Representación bidimensional del rendimiento. Para comparar es mejor tener un único valor numérico. Área bajo la curva, AUC. Porción del área de un cuadrado unitario, valor entre 0 y 1. Debería ser mayor que 0.5. Un clasificador aleatorio genera la diagonal entre (0,0) y (1,1). Metodología Experimental JJRD 58/61

59 Curvas ROC (III) El área bajo la curva es equivalente a la probabilidad de que el clasificador asigne un valor superior a una instancia positiva que a una negativa, cuando ambas se seleccionan aleatoriamente. Test de rangos de Wilcoxon. Relacionada con el coeficiente de Gini (criterio para construir árboles de decisión), ya que este valor se corresponde con 2 AUC 1. Metodología Experimental JJRD 59/61

60 Referencias [Dem06] [Die98] J. Demšar. Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research, 7:1 30, Thomas G. Dietterich. Approximate statistical test for comparing supervised classification learning algorithms. Neural Computation, 10(7): , [Faw06] Tom Fawcett. An introduction to roc analysis. Pattern Recognition Letters, 27(8): , June [FHOM08] C. Ferri, J. Hernandez-Orallo, and R. Modroiu. An experimental comparison of performance measures for classification. Pattern Recognition Letters, September [GH08] Salvador García and Francisco Herrera. An extension on statistical comparisons of classifiers over multiple data sets for all pairwise comparisons. Journal of Machine Learning Research, 9: , December [Mit97] T. Mitchell. Machine Learning. McGraw Hill, [NB03] [Sal97] Claude Nadeau and Yoshua Bengio. Inference for the generalization error. Machine Learning, 52( ), Steven L. Salzberg. On comparing classifiers: Pitfalls toavoid and a recommended

61 approach. Data Min. Knowl. Discov., 1(3): , [WF05] I. H. Witten and E. Frank. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, 2nd edition, 2005.

Comparación de varios métodos de aprendizaje sobre varios problemas

Comparación de varios métodos de aprendizaje sobre varios problemas Comparación de varios métodos de aprendizaje sobre varios problemas Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Contenido 1. Motivación 2.

Más detalles

Comparación de dos métodos de aprendizaje sobre el mismo problema

Comparación de dos métodos de aprendizaje sobre el mismo problema Comparación de dos métodos de aprendizaje sobre el mismo problema Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Contenido 1. Motivación 2.

Más detalles

Reconocimiento de Patrones

Reconocimiento de Patrones Reconocimiento de Patrones Técnicas de validación (Clasificación Supervisada) Jesús Ariel Carrasco Ochoa Instituto Nacional de Astrofísica, Óptica y Electrónica Clasificación Supervisada Para qué evaluar

Más detalles

Aplicaciones de apoyo al diagnóstico médico. Identificación de objetos amigos y enemigos. Identificación de zonas afectadas por un desastre natural.

Aplicaciones de apoyo al diagnóstico médico. Identificación de objetos amigos y enemigos. Identificación de zonas afectadas por un desastre natural. Capítulo 5 Evaluación En muchas ocasiones requerimos hacer una evaluación muy precisa de nuestros algoritmos de aprendizaje computacional porque los vamos a utilizar en algún tipo de aplicación que así

Más detalles

ANÁLISIS DE DATOS. Jesús García Herrero

ANÁLISIS DE DATOS. Jesús García Herrero ANÁLISIS DE DATOS Jesús García Herrero ANALISIS DE DATOS EJERCICIOS Una empresa de seguros de automóviles quiere utilizar los datos sobre sus clientes para obtener reglas útiles que permita clasificar

Más detalles

Inducción de Árboles de Decisión ID3, C4.5

Inducción de Árboles de Decisión ID3, C4.5 Inducción de Árboles de Decisión ID3, C4.5 Contenido 1. Representación mediante árboles de decisión. 2. Algoritmo básico: divide y vencerás. 3. Heurística para la selección de atributos. 4. Espacio de

Más detalles

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición... Contenidos 1 Introducción al paquete estadístico S-PLUS 19 1.1 Introducción a S-PLUS............................ 21 1.1.1 Cómo entrar, salir y consultar la ayuda en S-PLUS........ 21 1.2 Conjuntos de datos..............................

Más detalles

Precisión del Modelo

Precisión del Modelo Precisión del Modelo Gráficas, estadística y minería de datos con python Miguel Cárdenas Montes Centro de Investigaciones Energéticas Medioambientales y Tecnológicas, Madrid, Spain miguel.cardenas@ciemat.es

Más detalles

Prueba t para muestras independientes

Prueba t para muestras independientes Prueba t para muestras independientes El procedimiento Prueba t para muestras independientes compara las medias de dos grupos de casos. Para esta prueba, idealmente los sujetos deben asignarse aleatoriamente

Más detalles

INDICE. Prólogo a la Segunda Edición

INDICE. Prólogo a la Segunda Edición INDICE Prólogo a la Segunda Edición XV Prefacio XVI Capitulo 1. Análisis de datos de Negocios 1 1.1. Definición de estadística de negocios 1 1.2. Estadística descriptiva r inferencia estadística 1 1.3.

Más detalles

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación Facultad de Ciencias Sociales, UdelaR Índice 1. Repaso: estimadores y estimaciones. Propiedades de los estimadores. 2. Estimación puntual.

Más detalles

Intervalos de Confianza

Intervalos de Confianza Intervalos de Confianza Álvaro José Flórez 1 Escuela de Ingeniería Industrial y Estadística Facultad de Ingenierías Febrero - Junio 2012 Intervalo de Confianza Se puede hacer una estimación puntual de

Más detalles

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA www.jmontenegro.wordpress.com UNI ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA PROF. JOHNNY MONTENEGRO MOLINA Objetivos Desarrollar el concepto de estimación de parámetros Explicar qué es una

Más detalles

Teoría de la decisión Estadística

Teoría de la decisión Estadística Pruebas de hìpótesis Unidad 8. Pruebas de hipótesis. Formulación general. Distribución de varianza conocida. Prueba para la bondad del ajuste. Validación de modelos 1 Formulación Una Hipótesis es una proposición

Más detalles

Teorema Central del Límite (1)

Teorema Central del Límite (1) Teorema Central del Límite (1) Definición. Cualquier cantidad calculada a partir de las observaciones de una muestra se llama estadístico. La distribución de los valores que puede tomar un estadístico

Más detalles

Índice general. Pág. N. 1. Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN. Diseño. Población. Muestra. Individuo (Observación, Caso, Sujeto) Variables

Índice general. Pág. N. 1. Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN. Diseño. Población. Muestra. Individuo (Observación, Caso, Sujeto) Variables Pág. N. 1 Índice general Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN 1.1 Diseño 1.2 Descriptiva 1.3 Inferencia Diseño Población Muestra Individuo (Observación, Caso, Sujeto) Variables Ejercicios de Población

Más detalles

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos Agro 6998 Conferencia Introducción a los modelos estadísticos mixtos Los modelos estadísticos permiten modelar la respuesta de un estudio experimental u observacional en función de factores (tratamientos,

Más detalles

Técnicas de Muestreo Métodos

Técnicas de Muestreo Métodos Muestreo aleatorio: Técnicas de Muestreo Métodos a) unidad muestral elemental: a.1) muestreo aleatorio simple a.2) muestreo (seudo)aleatorio sistemático a.3) muestreo aleatorio estratificado b) unidad

Más detalles

Tema 7: Aprendizaje de árboles de decisión

Tema 7: Aprendizaje de árboles de decisión Inteligencia Artificial 2 Curso 2002 03 Tema 7: Aprendizaje de árboles de decisión José A. Alonso Jiménez Miguel A. Gutiérrez Naranjo Francisco J. Martín Mateos José L. Ruiz Reina Dpto. de Ciencias de

Más detalles

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Regresión múltiple. Demostraciones. Elisa Mª Molanes López Regresión múltiple Demostraciones Elisa Mª Molanes López El modelo de regresión múltiple El modelo que se plantea en regresión múltiple es el siguiente: y i = β 0 + β 1 x 1i + β 2 x 2i +...+ β k x ki +

Más detalles

Qué hacemos cuando la distribución no es normal? Qué significa ser normal? Qué significa ser normal? 1er. Simposio Metodología Seis Sigma

Qué hacemos cuando la distribución no es normal? Qué significa ser normal? Qué significa ser normal? 1er. Simposio Metodología Seis Sigma er. imposio Metodología eis igma Resumen Qué hacemos cuando la distribución no es normal? Qué significa ser normal? Ejemplos de situaciones normales Ejemplos de situaciones no normales Resumen Implicaciones

Más detalles

DISEÑOS EXPERIMENTALES DE DOS GRUPOS Y MULTIGRUPO

DISEÑOS EXPERIMENTALES DE DOS GRUPOS Y MULTIGRUPO TEMA II ESQUEMA GENERAL Diseño experimental de dos grupos: definición y clasificación Formatos del diseño y prueba de hipótesis Diseño experimental multigrupo: definición Formato del diseño multigrupo

Más detalles

Diseño de experimentos Hugo Alexer Pérez Vicente

Diseño de experimentos Hugo Alexer Pérez Vicente Diseño de experimentos Hugo Alexer Pérez Vicente Métodos complementarios al análisis de varianza Comparaciones múltiples Comparación o pruebas de rangos múltiples Después de que se rechazó la hipótesis

Más detalles

Aprendizaje: Boosting y Adaboost

Aprendizaje: Boosting y Adaboost Técnicas de Inteligencia Artificial Aprendizaje: Boosting y Adaboost Boosting 1 Indice Combinando clasificadores débiles Clasificadores débiles La necesidad de combinar clasificadores Bagging El algoritmo

Más detalles

Aprendizaje Automatizado

Aprendizaje Automatizado Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto

Más detalles

Distribución Chi (o Ji) cuadrada (χ( 2 )

Distribución Chi (o Ji) cuadrada (χ( 2 ) Distribución Chi (o Ji) cuadrada (χ( 2 ) PEARSON, KARL. On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it Can Reasonably

Más detalles

ANÁLISIS ESTADÍSTICO PRUEBA DE HIPOTESIS

ANÁLISIS ESTADÍSTICO PRUEBA DE HIPOTESIS ANÁLISIS ESTADÍSTICO PRUEBA DE HIPOTESIS Jorge Fallas jfallas56@gmail.com 2010 1 Temario Datos experimentales y distribuciones de referencia Una media poblacional Hipótesis nula, alternativa y nivel de

Más detalles

Introducción a la Estadística Aplicada en la Química

Introducción a la Estadística Aplicada en la Química Detalle de los Cursos de Postgrado y Especialización en Estadística propuestos para 2015 1/5 Introducción a la Estadística Aplicada en la Química FECHAS: 20/04 al 24/04 de 2015 HORARIO: Diario de 10:00

Más detalles

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple Pronósticos, Series de Tiempo y Regresión Capítulo 4: Regresión Lineal Múltiple Temas Modelo de regresión lineal múltiple Estimaciones de Mínimos Cuadrados Ordinarios (MCO); estimación puntual y predicción

Más detalles

Estadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis. Facultad de Ciencias Sociales, UdelaR

Estadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis. Facultad de Ciencias Sociales, UdelaR Estadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis Facultad de Ciencias Sociales, UdelaR Índice 1. Introducción: hipótesis estadística, tipos de hipótesis, prueba de hipótesis 2.

Más detalles

ESTIMACION DEL TAMAÑO DE LA MUESTRA Y DE LA POTENCIA

ESTIMACION DEL TAMAÑO DE LA MUESTRA Y DE LA POTENCIA ESTIMACION DEL TAMAÑO DE LA MUESTRA Y DE LA POTENCIA HIPOTESIS Y PRINCIPIOS Sabemos a quién y qué vamos a estudiar. Ahora hay que decidir cuántos individuos contendrá la muestra. Hipótesis nula (H o )

Más detalles

Universidad Rafael Belloso Chacín (URBE) Cátedra: Fundamentos de Estadística y Simulación Básica Semestre Profesor: Jaime Soto

Universidad Rafael Belloso Chacín (URBE) Cátedra: Fundamentos de Estadística y Simulación Básica Semestre Profesor: Jaime Soto Universidad Rafael Belloso Chacín (URBE) Cátedra: Fundamentos de Estadística y Simulación Básica Semestre 2011-1 Profesor: Jaime Soto PRUEBA DE HIPÓTESIS Ejemplo El jefe de la Biblioteca de la URBE manifiesta

Más detalles

Selección Diseño de Cribado

Selección Diseño de Cribado Selección Diseño de Cribado Resumen La sección diseño experimental del STATGRAPHICS puede crear una amplia variedad de diseños dirigidos a mostrar los factores más importantes que afectan un proceso. Se

Más detalles

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8.

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8. UNIVERSIDAD NACIONAL ABIERTA ESTADÍSTICA GENERAL 745) VICERRECTORADO ACADÉMICO INTEGRAL ÁREA DE MATEMÁTICA Fecha: 17/ 01 /009 MODELO DE RESPUESTAS Objetivos, 3, 4, 5, 6, 7, Y 8. OBJ. 1 PTA 1 Una compañía

Más detalles

Pruebas de Hipótesis Multiples

Pruebas de Hipótesis Multiples Pruebas de Hipótesis Multiples Cuando queremos hacer comparaciones de mas de dos poblaciones, una alternativa es comparar todos los grupos a la vez con el método de Análisis de Varianza (ANOVA) H o : µ

Más detalles

ANOVA. Análisis de la Varianza. Univariante Efectos fijos Muestras independientes

ANOVA. Análisis de la Varianza. Univariante Efectos fijos Muestras independientes ANOVA Análisis de la Varianza Univariante Efectos fijos Muestras independientes De la t a la F En el test de la t de Student para muestras independientes, aprendimos como usar la distribución t para contrastar

Más detalles

PRUEBA DE HIPÓTESIS BENJAMIN MAMANI CONDORI

PRUEBA DE HIPÓTESIS BENJAMIN MAMANI CONDORI PRUEBA DE HIPÓTESIS BENJAMIN MAMANI CONDORI 2014 Para qué es útil la estadística inferencial? Se utiliza para probar hipótesis y generalizar los resultados obtenidos en la muestra a la población o universo.

Más detalles

DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II

DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II PRÁCTICA 5 En una determinada investigación se estudió el rendimiento en matemáticas en función del estilo de aprendizaje de una serie de estudiantes de educación

Más detalles

2. Plantear hipótesis considerando que: Hipótesis: Siendo una prueba no direccionada, el planteamiento de hipótesis, señalará que:

2. Plantear hipótesis considerando que: Hipótesis: Siendo una prueba no direccionada, el planteamiento de hipótesis, señalará que: Análisis de varianza El análisis de la varianza, conocida también como ANVAR o ANOVA, por sus siglas en inglés (ANalysis Of VAriance) es un método que permite comparar dos o más grupos de datos a través

Más detalles

Podemos definir un contraste de hipótesis como un procedimiento que se basa en lo observado en las muestras y en la teoría de la probabilidad para

Podemos definir un contraste de hipótesis como un procedimiento que se basa en lo observado en las muestras y en la teoría de la probabilidad para VII. Pruebas de Hipótesis VII. Concepto de contraste de hipótesis Podemos definir un contraste de hipótesis como un procedimiento que se basa en lo observado en las muestras y en la teoría de la probabilidad

Más detalles

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica INDICE 1. Qué es la Estadística? 1 Introducción 2 Qué significa estadística? 2 Por qué se estudia la estadística? 4 Tipos de estadística 5 Estadística descriptiva 5 Estadística inferencial 6 Tipos de variables

Más detalles

1.-DATOS DE LA ASIGNATURA

1.-DATOS DE LA ASIGNATURA 1.-DATOS DE LA ASIGNATURA Nombre de la asignatura: Minería de Datos Carrera: Ingeniería en Sistemas Computacionales Clave de la asignatura: ADM-0701 Horas teoría-horas práctica-créditos: 3-2-8 2.-HISTORIA

Más detalles

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016 ANEXO ESTADÍSTICO 1 : COEFICIENTES DE VARIACIÓN Y ERROR ASOCIADO AL ESTIMADOR ENCUESTA NACIONAL DE EMPLEO (ENE) INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 9 de Abril de 016 1 Este anexo estadístico es una

Más detalles

Validación Cruzada (cross-validation) y Remuestreo (bootstrapping)

Validación Cruzada (cross-validation) y Remuestreo (bootstrapping) Validación Cruzada (cross-validation) y Remuestreo (bootstrapping) Padres de cross-validation y el bootstrapping Bradley Efron y Rob Tibshirani Bradley Efron Rob Tibshirani Enfoque: tabla de aprendizaje

Más detalles

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico Formulario. Estadística Administrativa Módulo 1. Introducción al análisis estadístico Histogramas El número de intervalos de clase, k, se elige de tal forma que el valor 2 k sea menor (pero el valor más

Más detalles

UNIVERSIDAD TECNICA PARTICULAR DE LOJA ESTADISTICA Y PROBABILIDAD ENSAYO N 8

UNIVERSIDAD TECNICA PARTICULAR DE LOJA ESTADISTICA Y PROBABILIDAD ENSAYO N 8 UNIVERSIDAD TECNICA PARTICULAR DE LOJA ESTADISTICA Y PROBABILIDAD ENSAYO N 8 DOCENTE: Ing. Patricio Puchaicela ALUMNA: Andrea C. Puchaicela G. CURSO: 4to. Ciclo de Electrónica y Telecomunicaciones AÑO

Más detalles

ÍNDICE INTRODUCCIÓN... 21

ÍNDICE INTRODUCCIÓN... 21 INTRODUCCIÓN... 21 CAPÍTULO 1. ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS... 23 1. ORGANIZACIÓN DE LOS DATOS... 23 1.1. La distribución de frecuencias... 24 1.2. Agrupación en intervalos...

Más detalles

viii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos

viii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos Contenido Acerca de los autores.............................. Prefacio.... xvii CAPÍTULO 1 Introducción... 1 Introducción.............................................. 1 1.1 Ideas de la estadística.........................................

Más detalles

UNIVERSIDAD AUTÓNOMA DE CHIAPAS FACULTAD DE INGENIERÍA CAMPUS I PROBABILIDAD Y ESTADÍSTICA

UNIVERSIDAD AUTÓNOMA DE CHIAPAS FACULTAD DE INGENIERÍA CAMPUS I PROBABILIDAD Y ESTADÍSTICA UNIVERSIDAD AUTÓNOMA DE CHIAPAS FACULTAD DE INGENIERÍA CAMPUS I PROBABILIDAD Y ESTADÍSTICA NIVEL: LICENCIATURA CRÉDITOS: 9 CLAVE: ICAD24.500919 HORAS TEORÍA: 4.5 SEMESTRE: CUARTO HORAS PRÁCTICA: 0 REQUISITOS:

Más detalles

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES 1 APRENDIZAJE PROBABILÍSTICO NAIVE BAYES Bases de Datos Masivas 9 de Noviembre de 2016 2 Razonamiento Probabilístico Es una herramienta de aprendizaje estadístico. Se trata de razonar en un contexto incierto;

Más detalles

Caso 105. Tamaño de muestra y potencia de una prueba. Diseño de experimentos. Jesús López Fidalgo

Caso 105. Tamaño de muestra y potencia de una prueba. Diseño de experimentos. Jesús López Fidalgo Caso 105. Tamaño de muestra y potencia de una prueba. Diseño de experimentos. Jesús López Fidalgo Caso Práctico El objetivo de este ejercicio es analizar diferentes tipos de pruebas estadísticas en las

Más detalles

Posibles trabajos HIA

Posibles trabajos HIA Posibles trabajos HIA Posibles trabajos Comparar otras herramientas de Minería de Datos con Weka Estudiar la influencia del ruido en bagging y boosting Estudiar la influencia del parámetro de poda en J48

Más detalles

ESTADISTICA INFERENCIAL DR. JORGE ACUÑA A.

ESTADISTICA INFERENCIAL DR. JORGE ACUÑA A. ESTADISTICA INFERENCIAL DR. JORGE ACUÑA A. 1 PROBABILIDAD Probabilidad de un evento es la posibilidad relativa de que este ocurra al realizar el experimento Es la frecuencia de que algo ocurra dividido

Más detalles

MODELOS DE SIMULACIÓN ESTADÍSTICOS CLASE 4: DISTRIBUCIÓN t, CHI-CUADRADA y EXPONENCIAL PROFESOR: OSCAR SAAVEDRA ANDRÉS DURANGO.

MODELOS DE SIMULACIÓN ESTADÍSTICOS CLASE 4: DISTRIBUCIÓN t, CHI-CUADRADA y EXPONENCIAL PROFESOR: OSCAR SAAVEDRA ANDRÉS DURANGO. DISTRIBUCIÓN t Con frecuencia intentamos estimar la media de una población cuando se desconoce la varianza, en estos casos utilizamos la distribución de t de Student. Si el tamaño de la muestra es suficientemente

Más detalles

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia Estudio de Caso: Estudio Morfología Coeficiente de Correlación Considere el archivo Estudio Morfología.sav.

Más detalles

Tema 13: Distribuciones de probabilidad. Estadística

Tema 13: Distribuciones de probabilidad. Estadística Tema 13: Distribuciones de probabilidad. Estadística 1. Variable aleatoria Una variable aleatoria es una función que asocia a cada elemento del espacio muestral, de un experimento aleatorio, un número

Más detalles

JUEGO DE BASKETBALL. Repaso de Distribuciones de Probabilidad Discretas y Continuas

JUEGO DE BASKETBALL. Repaso de Distribuciones de Probabilidad Discretas y Continuas JUEGO DE BASKETBALL Repaso de Distribuciones de Probabilidad Discretas y Continuas PREGUNTA #1 Qué es una variable aleatoria uniforme discreta? Cómo es su distribución? Qué es una variable aleatoria uniforme

Más detalles

3 ANALISIS DESCRIPTIVO DE LOS DATOS

3 ANALISIS DESCRIPTIVO DE LOS DATOS 3 ANALISIS DESCRIPTIVO DE LOS DATOS 3.1 La tabulación de los datos 3.1.1 Tabla de distribución de frecuencias. 3.1.2 El histograma. 3.2 Medidas de tendencia central 3.2.1 La media. 3.2.2 La mediana. 3.2.3

Más detalles

Estas dos clases. ANOVA I - Conceptos generales - Supuestos - ANOVA de una vía - Transformación de datos - Test a Posteriori - ANOVA de dos vías

Estas dos clases. ANOVA I - Conceptos generales - Supuestos - ANOVA de una vía - Transformación de datos - Test a Posteriori - ANOVA de dos vías ANOVA I 19-8-2014 Estas dos clases ANOVA I - Conceptos generales - Supuestos - ANOVA de una vía - Transformación de datos - Test a Posteriori - ANOVA de dos vías ANOVA II - ANOVA factorial - ANCOVA (análisis

Más detalles

Análisis de Componentes de la Varianza

Análisis de Componentes de la Varianza Análisis de Componentes de la Varianza Resumen El procedimiento de Análisis de Componentes de Varianza está diseñado para estimar la contribución de múltiples factores a la variabilidad de una variable

Más detalles

Modelos de probabilidad. Modelos de probabilidad. Modelos de probabilidad. Proceso de Bernoulli. Objetivos del tema:

Modelos de probabilidad. Modelos de probabilidad. Modelos de probabilidad. Proceso de Bernoulli. Objetivos del tema: Modelos de probabilidad Modelos de probabilidad Distribución de Bernoulli Distribución Binomial Distribución de Poisson Distribución Exponencial Objetivos del tema: Al final del tema el alumno será capaz

Más detalles

Universidad Central del Este UCE Facultad de Ciencias de la Salud Escuela de Medicina

Universidad Central del Este UCE Facultad de Ciencias de la Salud Escuela de Medicina Universidad Central l Este UCE Facultad Ciencias la Salud Escuela Medicina Programa la asignatura: : MED-052 Bioestadística II Código: Semestre: Asignatura electiva Total créditos 3 Teóricos 3 Prácticos

Más detalles

Aux 7. Introducción a la Minería de Datos

Aux 7. Introducción a la Minería de Datos Aux 7. Introducción a la Minería de Datos Gastón L Huillier 1,2, Richard Weber 2 glhuilli@dcc.uchile.cl 1 Departamento de Ciencias de la Computación Universidad de Chile 2 Departamento de Ingeniería Industrial

Más detalles

478 Índice alfabético

478 Índice alfabético Índice alfabético Símbolos A, suceso contrario de A, 187 A B, diferencia de los sucesos A y B, 188 A/B, suceso A condicionado por el suceso B, 194 A B, intersección de los sucesos A y B, 188 A B, unión

Más detalles

Distribuciones de muestreo fundamentales y descripciones de datos Muestreo aleatorio

Distribuciones de muestreo fundamentales y descripciones de datos Muestreo aleatorio Distribuciones de muestreo fundamentales y descripciones de datos Muestreo aleatorio En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una población),

Más detalles

Tema 10: Introducción a los problemas de Asociación y Correlación

Tema 10: Introducción a los problemas de Asociación y Correlación Tema 10: Introducción a los problemas de Asociación y Correlación Estadística 4 o Curso Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación

Más detalles

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua ESTADÍSTICA Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal Cuantitativa discreta continua DISTRIBUCIÓN DE FRECUENCIAS Frecuencia absoluta: fi Frecuencia relativa:

Más detalles

Tema 8: Contraste de hipótesis

Tema 8: Contraste de hipótesis Tema 8: Contraste de hipótesis 1 En este tema: Conceptos fundamentales: hipótesis nula y alternativa, nivel de significación, error de tipo I y tipo II, p-valor. Contraste de hipótesis e IC. Contraste

Más detalles

ESTADÍSTICA. Tema 4 Regresión lineal simple

ESTADÍSTICA. Tema 4 Regresión lineal simple ESTADÍSTICA Grado en CC. de la Alimentación Tema 4 Regresión lineal simple Estadística (Alimentación). Profesora: Amparo Baíllo Tema 4: Regresión lineal simple 1 Estructura de este tema Planteamiento del

Más detalles

MATERIA: ESTADÍSTICA EJEMPLOS DE POSIBLES PREGUNTAS DE EXAMEN. a. Cuáles son las escalas en que pueden estar los datos en un análisis estadístico.

MATERIA: ESTADÍSTICA EJEMPLOS DE POSIBLES PREGUNTAS DE EXAMEN. a. Cuáles son las escalas en que pueden estar los datos en un análisis estadístico. MATERIA: ESTADÍSTICA EJEMPLOS DE POSIBLES PREGUNTAS DE EXAMEN 1. Conteste las preguntas siguientes: a. Cuáles son las escalas en que pueden estar los datos en un análisis estadístico. 1. 2. 3. 4. b. En

Más detalles

INFERENCIA ESTADISTICA

INFERENCIA ESTADISTICA INFERENCIA ESTADISTICA ESTIMACION 2 maneras de estimar: Estimaciones puntuales x s 2 Estimaciones por intervalo 2 ESTIMACION Estimaciones por intervalo Limites de Confianza LCI

Más detalles

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN FACULTAD DE CIENCIAS BIOLÓGICAS SUBDIRECCIÓN DE POSGRADO

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN FACULTAD DE CIENCIAS BIOLÓGICAS SUBDIRECCIÓN DE POSGRADO UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN FACULTAD DE CIENCIAS BIOLÓGICAS SUBDIRECCIÓN DE POSGRADO CONTENIDO DE CARTA DESCRIPTIVA 1.- IDENTIFICACIÓN Curso: Bioestadística Programa: Doctorado en Inmunobiología

Más detalles

Estadísticas Pueden ser

Estadísticas Pueden ser Principios Básicos Para iniciar en el curso de Diseño de experimentos, es necesario tener algunos conceptos claros en la parte de probabilidad y estadística. A continuación se presentan los conceptos más

Más detalles

1) Características del diseño en un estudio de cohortes.

1) Características del diseño en un estudio de cohortes. Departamento de Estadística Universidad Carlos III de Madrid BIOESTADISTICA (55-10536) Estudios de cohortes CONCEPTOS CLAVE 1) Características del diseño en un estudio de cohortes. ) Elección del tamaño

Más detalles

Tema 7: Estadística y probabilidad

Tema 7: Estadística y probabilidad Tema 7: Estadística y probabilidad En este tema revisaremos: 1. Representación de datos e interpretación de gráficas. 2. Estadística descriptiva. 3. Probabilidad elemental. Representaciones de datos Cuatro

Más detalles

Solución Examen Parcial IV Nombres: Apellidos: C.I.: Firma: Fecha: 22/06/2005

Solución Examen Parcial IV Nombres: Apellidos: C.I.: Firma: Fecha: 22/06/2005 Nombres: Apellidos: C.I.: Firma: Fecha: 22/06/2005 MÉTODOS ESTADÍSTICOS I EXAMEN IV PARTE I: Encierre con un círculo la respuesta correcta o llene los espacios en blanco (0,5 puntos c/u): 1. (V F) La prueba

Más detalles

CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN Modelo: Y =! 1 +! 2 X + u Hipótesis nula: Hipótesis alternativa H 1 :!!! 2 2 Ejemplo de modelo: p =! 1 +! 2 w + u Hipótesis nula: Hipótesis alternativa: H :!! 1 2 1. Como ilustración, consideremos un modelo

Más detalles

Resumen teórico de los principales conceptos estadísticos

Resumen teórico de los principales conceptos estadísticos Temas de Estadística Práctica Antonio Roldán Martínez Proyecto http://www.hojamat.es/ Muestreo aleatorio simple Resumen teórico Resumen teórico de los principales conceptos estadísticos Muestreo aleatorio

Más detalles

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10 Estadística II Tema 4. Regresión lineal simple Curso 009/10 Tema 4. Regresión lineal simple Contenidos El objeto del análisis de regresión La especificación de un modelo de regresión lineal simple Estimadores

Más detalles

Aprendizaje Automatizado. Árboles de Clasificación

Aprendizaje Automatizado. Árboles de Clasificación Aprendizaje Automatizado Árboles de Clasificación Árboles de Clasificación Estudiaremos un algoritmo para la creación del árbol. Selección de atributos comenzando en el nodo raíz. Proceso recursivo. Árboles

Más detalles

Probabilidad y Estadística

Probabilidad y Estadística Probabilidad y Estadística Tema 13 Inferencia en una población Objetivo de aprendizaje del tema Al finalizar el tema serás capaz de: Explicar el procedimiento de pruebas en la inferencia estadística. Aplicar

Más detalles

INDICE Prefacio 1. Introducción 2. Distribuciones de frecuencia: tablas estadísticas y graficas

INDICE Prefacio 1. Introducción 2. Distribuciones de frecuencia: tablas estadísticas y graficas INDICE Prefacio XIII 1. Introducción 1.1. la imagen de la estadística 1 1.2. dos tipos de estadísticas 1.3. estadística descriptiva 2 1.4. estadística inferencial 1.5. naturaleza interdisciplinaria de

Más detalles

Análisis de la varianza

Análisis de la varianza Análisis de la varianza José Gabriel Palomo Sánchez gabriel.palomo@upm.es E.U.A.T. U.P.M. Julio de 2011 I 1 Introducción 1 Comparación de medias 2 El pricipio de aleatorización 2 El problema de un factor

Más detalles

Determinación del tamaño de muestra (para una sola muestra)

Determinación del tamaño de muestra (para una sola muestra) STATGRAPHICS Rev. 4/5/007 Determinación del tamaño de muestra (para una sola muestra) Este procedimiento determina un tamaño de muestra adecuado para la estimación o la prueba de hipótesis con respecto

Más detalles

Teoría de la decisión

Teoría de la decisión 1.- Un problema estadístico típico es reflejar la relación entre dos variables, a partir de una serie de Observaciones: Por ejemplo: * peso adulto altura / peso adulto k*altura * relación de la circunferencia

Más detalles

Prof. Eliana Guzmán U. Semestre A-2015

Prof. Eliana Guzmán U. Semestre A-2015 Unidad III. Variables aleatorias Prof. Eliana Guzmán U. Semestre A-2015 Variable Aleatoria Concepto: es una función que asigna un número real, a cada elemento del espacio muestral. Solo los experimentos

Más detalles

Estadística Inferencial

Estadística Inferencial Estadística Inferencial 1 Sesión No. 5 Nombre: Prueba de hipótesis Contextualización En la práctica, es frecuente tener que tomar decisiones acerca de poblaciones con base en información de muestreo. Tales

Más detalles

Preparación de los datos de entrada

Preparación de los datos de entrada Preparación de los datos de entrada Clase nro. 6 CURSO 2010 Objetivo Modelado de las características estocásticas de los sistemas. Variables aleatorias con su distribución de probabilidad. Por ejemplo:

Más detalles

INFERENCIA ESTADISTICA

INFERENCIA ESTADISTICA 1 INFERENCIA ESTADISTICA Es una rama de la Estadística que se ocupa de los procedimientos que nos permiten analizar y extraer conclusiones de una población a partir de los datos de una muestra aleatoria,

Más detalles

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD Contrastes de hipótesis paramétricos para una y varias muestras: contrastes sobre la media, varianza y una proporción. Contrastes sobre la diferencia

Más detalles

Número de Observaciones (N): cuántas observaciones serán necesarias para detectar el efecto?

Número de Observaciones (N): cuántas observaciones serán necesarias para detectar el efecto? Tamaño del Efecto (ej. d, 2, f, phi ): qué magnitud del efecto se trata de detectar? Número de Observaciones (N): cuántas observaciones serán necesarias para detectar el efecto? Error de Tipo I, α (Nivel

Más detalles

Guía docente MÉTODOS ESTADÍSTICOS PARA LA EMPRESA

Guía docente MÉTODOS ESTADÍSTICOS PARA LA EMPRESA 1. Introducción Guía docente MÉTODOS ESTADÍSTICOS PARA LA EMPRESA Los análisis económicos y empresariales se efectúan sobre la base de la toma de decisiones, las cuales se toman a partir de la información

Más detalles

Prueba de Hipótesis. Bondad de Ajuste. Tuesday, August 5, 14

Prueba de Hipótesis. Bondad de Ajuste. Tuesday, August 5, 14 Prueba de Hipótesis Bondad de Ajuste Conceptos Generales Hipótesis: Enunciado que se quiere demostrar. Prueba de Hipótesis: Procedimiento para determinar si se debe rechazar o no una afirmación acerca

Más detalles

OTRAS HERRAMIETAS ESTADISTICAS UTILES. Dra. ALBA CECILIA GARZON

OTRAS HERRAMIETAS ESTADISTICAS UTILES. Dra. ALBA CECILIA GARZON OTRAS HERRAMIETAS ESTADISTICAS UTILES Dra. ALBA CECILIA GARZON Que es un Test de Significancia estadística? El término "estadísticamente significativo" invade la literatura y se percibe como una etiqueta

Más detalles

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso ESTADISTICA II INGENIERIA INFORMATICA, 3 ER Curso 22 - Diciembre - 2.006 Primera Parte - Test Apellidos y Nombre:... D.N.I. :... Nota : En la realización de este examen sólo esta permitido utilizar calculadoras

Más detalles

TEMA 2 Diseño de experimentos: modelos con varios factores

TEMA 2 Diseño de experimentos: modelos con varios factores TEMA 2 Diseño de experimentos: modelos con varios factores José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Análisis de Datos - Grado en Biología Esquema del tema Modelo bifactorial

Más detalles

VARIABLES ALEATORIAS

VARIABLES ALEATORIAS VARIABLES ALEATORIAS Ejemplo: lanzar dos dados y sumar lo que sale en las dos caras. El espacio muestral está formado por los 36 resultados posibles (de lanzar los dados) Y el resultado del experimento

Más detalles

TEMA 6 COMPROBACIÓN DE HIPÓTESIS ESPECÍFICAS DE INVESTIGACIÓN

TEMA 6 COMPROBACIÓN DE HIPÓTESIS ESPECÍFICAS DE INVESTIGACIÓN TEMA 6 COMPROBACIÓN DE HIPÓTESIS ESPECÍFICAS DE INVESTIGACIÓN 1 DISEÑO DE INVESTIGACIÓN Y 1 A = a 1 a Y 1 A = 3 a 1 a a Hipótesis específicas de la investigación Cuando la variable independiente tiene

Más detalles

4. Prueba de Hipótesis

4. Prueba de Hipótesis 4. Prueba de Hipótesis Como se ha indicado anteriormente, nuestro objetivo al tomar una muestra es extraer alguna conclusión o inferencia sobre una población. En nuestro interés es conocer acerca de los

Más detalles

2 Pruebas de hipótesis paramétricas

2 Pruebas de hipótesis paramétricas Pruebas de hipótesis paramétricas. La hipótesis nula y la hipótesis alterna Al intentar alcanzar una decisión, es útil hacer hipótesis (o conjeturas) sobre la población aplicada. Tales hipótesis, que pueden

Más detalles