Metodología Experimental
|
|
- María Isabel Navarrete Sánchez
- hace 6 años
- Vistas:
Transcripción
1 Doctorado en Informática Métodos y Técnicas de Minería de Datos Metodología Experimental Juan José Rodríguez Diez jjrodriguez@ubu.es
2 Cuestiones Qué medimos. En principio, tasa de acierto/error. Qué experimentos hacemos. Como repartimos los datos en entrenamiento / test Cómo comparamos. Tests estadísticos. Metodología Experimental JJRD 2/61
3 Evaluación Cómo de bueno es prediciendo el modelo que hemos aprendido. El error en el conjunto de entrenamiento no es un buen indicador del error sobre datos nuevos. Almacenar los datos sería el clasificador óptimo. Rendimiento futuro sobre nuevos datos. Conjunto independiente de los datos de entrenamiento: datos de test. Normalmente solo se dispone de un conjunto de datos etiquetado. Si tenemos muchos datos etiquetados, dividir en entrenamiento y test. A menudo los datos etiquetados son limitados. Técnicas más sofisticadas. Metodología Experimental JJRD 3/61
4 Aspectos de la Evaluación Fiabilidad de las diferencias estimadas en el rendimiento. Elección de la medidas del rendimiento. Número de clasificaciones correctas. Precisión de las estimaciones de probabilidad. Error en predicción numérica. Costes asignados a distintos tipos de error. En muchas aplicaciones prácticas. Metodología Experimental JJRD 4/61
5 Entrenamiento y Test En clasificación la medida natural del rendimiento es la tasa de error. Acierto: la clase se predice correctamente. Error: la clase se predice incorrectamente. Tasa de error: proporción del número de errores cometidos sobre todo el conjunto de ejemplos. Error de resubstitución: tasa de error obtenida sobre el conjunto de entrenamiento. Inevitablemente optimista. Metodología Experimental JJRD 5/61
6 Entrenamiento y Test (II) Conjunto de test: ejemplos independientes que no se han usado de ningún modo en la construcción del clasificador. Tampoco se pueden usar en preprocesamientos. Suposición: los datos de entrenamiento y test son muestras representativas de un mismo problema subyacente. Los conjuntos de entrenamiento y test podrían ser de distinta naturaleza. Por ejemplo, clasificador construido sobre datos de clientes de dos ciudades diferentes. Estimar el rendimiento del clasificador obtenido en la primera ciudad sobre cualquier otra, utilizar la segunda ciudad para el conjunto de test. Metodología Experimental JJRD 6/61
7 Ajuste de Parámetros Los datos de test no se pueden usar de ningún modo para crear el clasificador. Algunos métodos trabajan en dos etapas: Construcción de la estructura básica. Optimizar los valores de los parámetros. Los datos de test no se pueden usar para el ajuste de párametros. Seleccionar entre varios métodos. Usar tres conjuntos independientes: entrenamiento, validación y test. Los de validación se usan para optimizar los parámetros o seleccionar. Metodología Experimental JJRD 7/61
8 Aprovechando los Datos Una vez que la evaluación se ha completado, se pueden usar todos los datos disponibles para construir el clasificador final. Normalmente, cuanto más grande sea el conjunto de entrenamiento mejor será el clasificador (mejoras cada vez más pequeñas). Cuanto más grande sea el conjunto de test, más precisa será la estimación del error. Holdout: dividir los datos originales en entrenamiento y test. Dilema: idealmente, ambos conjuntos deberían ser grandes. Buen clasificador o buena estimación del error Metodología Experimental JJRD 8/61
9 Predicción del Rendimiento Si la estimación de la tasa de error es del 25 %, cómo de cerca estamos a la tasa de error real. Depende del tamaño del conjunto de test. La predicción se puede considerar como lanzar una moneda trucada. Acierto o error en vez de cara o cruz. Sucesión de eventos independientes, proceso de Bernoulli. Intervalos de confianza para la verdadera proporción subyacente. Metodología Experimental JJRD 9/61
10 Intervalos de Confianza Podemos decir, p está en un determinado intervalo con una determinada confianza especificada. Ejemplo: S = 750 aciertos en N = 1000 intentos. Tasa de acierto estimada: 75 %. Con una confianza del 80 %, p está en [73.2, 76.7] Otro ejemplo: S = 75 aciertos en N = 100 intentos. Tasa de acierto estimada: 75 %. Con una confianza del 80 %, p está en [69.1, 80.1] Metodología Experimental JJRD 10/61
11 Media y varianza Media y varianza para un intento Bernouilli: p, p(1 p). Tasa de acierto esperada: f = S/N. Media y varianza para f: p, p(1 p)/n. Para valores de N suficientemente grandes, f sigue una distribución Normal. Intervalo de confianza [ z X z] del c % para una variable con media 0 Pr[ z X z] = c Para una distribución simétrica: Pr[ z X z] = 1 2 Pr[X z] Metodología Experimental JJRD 11/61
12 Límites de Confianza Pr[X z] z 0.1 % % % % % 1.28 [WF05] 20 % % 0.25 Entonces: Pr[ 1.65 X 1.65] = 90 %. Para poder usar esto se necesita transformar la variable f para que tenga media cero y varianza uno. Metodología Experimental JJRD 12/61
13 Transformación de f Valor transformado para f: f p p(1 p)/n Restamos la media, dividimos por la desviación estándar. Ecuación resultante: [ Pr z ] f p z p(1 p)/n = c Resolviendo para p: ( p = f + z2 2N ± z f N f2 N + ) ) z2 / (1 + z2 4N 2 N Metodología Experimental JJRD 13/61
14 Ejemplos f = 75 %, N = 1000, c = 80 % (de modo que z = 1.28). p [0.732, 0.767] f = 75 %, N = 100, c = 80 % (de modo que z = 1.28). p [0.691, 0.801] La suposición de que la distribución es normal solo es válida para N grande (i.e., N > 100). Metodología Experimental JJRD 14/61
15 Estimación por holdout Si la cantidad de datos es limitada. Holdout: reserva una cantidad para test, el resto para entrenamiento. E.g., un tercio para test. Problema: las muestras podrían no ser representativas. E.g., una clase podría no estar presente. Estratificación: asegura que cada clase está representada con aproximadamente las mismas proporciones en los dos subconjuntos. Metodología Experimental JJRD 15/61
16 Holdout repetido Más fiable si repetimos el proceso varias veces con diferentes muestras. En cada iteración se selecciona aleatoriamente una proporción para entrenamiento (posiblemente con estratificación). Las tasas de error de las diferentes iteraciones se promedian para obtener la tasa de error global. No es óptimo, los diferentes conjuntos de test se solapan. Cómo prevenir el solapamiento. Metodología Experimental JJRD 16/61
17 Validación Cruzada Evita el solapamiento de los conjuntos de test. Primer paso: repartir los datos en k subconjuntos del mismo tamaño. Segundo paso: usar cada subconjunto como test, el resto para entrenamiento. k-fold cross-validation. A menudo los subconjuntos se estratifican antes de realizar la validación cruzada. Se promedian las tasas de error. Metodología Experimental JJRD 17/61
18 Validación Cruzada (II) Estándar: 10 fold stratified cross validation. Apoyado por experimentación exhaustiva. La estratificación reduce la varianza del estimador. Ni la estratificación ni la división tienen que ser exactas. Validación cruzada repetida. Para paliar la influencia de la partición aleatoria. E.g.: 10 10, Metodología Experimental JJRD 18/61
19 Dejar Uno Fuera Leave one out (LOO). Validación cruzada con tantos grupos como ejemplos. Ventajas: Cantidad máxima de datos para entrenamiento. Determinista. Inconveniente: muy costoso computacionalmente. Excepciones, e.g., vecino más cercano. Metodología Experimental JJRD 19/61
20 Dejar Uno Fuera (II) No es posible estratificar. El conjunto de test solo tiene un ejemplo. Ejemplo artificial: conjunto completamente aleatorio con el mismo número de ejemplos de las dos clases. Mejor clasificador: predecir la mayoría. Sobre un conjunto nuevo de datos, acierto del 50 %. De acuerdo a LOO, 100 % de error. Metodología Experimental JJRD 20/61
21 Bootstrap Muestreo con reemplazamiento. Un mismo ejemplo puede ser seleccionado varias veces. Métodos de aprendizaje que son sensibles a cuantas veces aparece un valor. Obtener n elementos con reemplazamiento de un conjunto de n elementos. Conjunto de entrenamiento. En el fondo no es un conjunto... Los ejemplos no seleccionados irán al conjunto de test. Metodología Experimental JJRD 21/61
22 0.632 bootstrap Un ejemplo concreto tiene una probabilidad 1 1/n de no ser seleccionado. La probabilidad de acabar en el conjunto de test es ( 1 1 n) n e El conjunto de entrenamiento contendrá aproximadamente el 63.2 % de los ejemplos. Metodología Experimental JJRD 22/61
23 Estimación del error con bootstrap Evaluar sobre los datos de test: excesivamente pesimista. Entrenado con solo el 63 % de los ejemplos. Para compensar: e test e train Repetir varias veces con diferentes muestras, promediar los resultados. Para conjuntos de datos muy pequeños. Mismo conjunto artificial. Si se memoriza: 0 % de error en entrenamiento. Error: Metodología Experimental JJRD 23/61
24 Comparaciones 2 métodos. 1 conjunto. 1 ejecución. McNemar. Varias ejecuciones. Test t pareado (remuestreado corregido). Varios conjuntos. Test de signo sobre el número de victorias. Más de 2 métodos, varios conjuntos. Friedman. Todos contra todos. Nemenyi. Uno contra todos. Bonferroni-Dunn. Metodología Experimental JJRD 24/61
25 Test de McNemar Dos métodos, un conjunto, una ejecución. Entrenamiento R y Test T Entrenar algoritmos A y B sobre R Notación: n ij es el numero de ejemplos clasificados de modo i (0 mal, 1 bien) por A y de modo j por B n 00 n 01 n 10 n 11 Hipótesis nula, los dos algoritmos tienen la misma tasa de error: n 10 = n 01 El estadístico ( n 01 n 10 1) 2 n 01 +n 10 se distribuye aproximadamente como una χ 2 con 1 grado de libertad Si la hipótesis nula es correcta, la probabilidad que esta cantidad sea mayor que χ 2 1,0.95 = es menor que 0.05 [Die98] Metodología Experimental JJRD 25/61
26 McNemar (Exacto) Distribución binomial, probabilidad de s exitos en n intentos: n! s!(n s)! ps q n s Si no se esperan diferencias entre algoritmos, p = q = 0.5 n = n 01 + n 10, m = máx(n 01, n 10 ) La probabilidad de estos resultados es n s=m n! s!(n s)! 0.5n Metodología Experimental JJRD 26/61
27 2 Mét., 1 Conj, Varias Ejecuciones Evaluar los dos con validación cruzada, comparar. Para ciertas aplicaciones, puede ser suficiente. La diferencia puede deberse a que tenemos estimaciones del error. Repetir la validación cruzada. Demostrar convincentemente que un método en particular funciona mejor. Se quiere demostrar que un método A es mejor que B en un dominio particular. Para un tamaño determinado del conjunto de entrenamiento. En promedio, sobre todos los posibles conjuntos de entrenamiento. Metodología Experimental JJRD 27/61
28 2 Mét., 1 Conj, Varias Ejecuciones (II) Supongamos que hay una cantidad infinita de datos en el dominio. Obtener muchas muestras (conjuntos de datos) del tamaño especificado. Obtener una estimación por validación cruzada para cada conjunto y método. Comprobar si la precisión media del método A es mejor que la del método B. Significativamente. Metodología Experimental JJRD 28/61
29 Test t de Student En la práctica, los datos son limitados y tenemos un número limitado de estimaciones para calcular la media. Este test no indica si las medias de dos muestras son significativamente diferentes. Nuestras muestras son las estimaciones obtenidas por validación cruzada para diferentes conjuntos de datos del dominio. Test pareado, porque las muestras individuales están pareadas. Usar las mismas validaciones cruzadas para los dos métodos. Metodología Experimental JJRD 29/61
30 Distribución de las Medias Notación: x 1,... x k, y 1,... y k. Si hay suficientes ejemplos, la media de un conjunto de ejemplos tiene distribución normal Con independencia de la distribución de los propios ejemplos. Sean µ x y µ x los valor verdaderos de las media. No conocemos la varianza de las medias. Estimaciones: σ 2 x/k, σ 2 y/k. Entonces x µ x σ y y µ y tienen aproximadamente una distribución normal, 2 x /k σ 2 y /k con media 0 y varianza 1. Metodología Experimental JJRD 30/61
31 Distribución de Student Para muestras pequeñas (k < 100), la media sigue una distribución de Student con k 1 grados de libertad. Si más de 100, muy similar a la Normal. Ejemplo, para k = validaciones cruzadas. 9 grados de libertad. Pr[X z] 0.1 % 0.5 % 1 % 5 % 10 % 20 % z Metodología Experimental JJRD 31/61
32 Distribución de las Diferencias d i = x i y i, observaciones pareadas La media de las diferencias es la diferencia de las medias. d = x y También tiene una distribución de Student con k 1 grados de libertad. Hipótesis nula: las medias son iguales, la diferencia es nula Variable t-estadístico (media 0, varianza 1): t = d σ 2 d /k Metodología Experimental JJRD 32/61
33 Test de Student: Método Seleccionar un nivel de confianza (típicamente, 1 ó 5 %). Si la diferencia es significativa con un nivel α %, hay una probabilidad de (100 α) % de que las medias verdaderas difieran. Dividir el nivel por dos porque el test tiene dos colas. Determinar, a partir de la tabla, el valor de z que se corresponde con α/2. Si el valor de t es mayor que z o menor que z, rechazar la hipótesis nula (hay una diferencia significativa). Metodología Experimental JJRD 33/61
34 Observaciones no Pareadas Si las observaciones no están pareadas. Incluso se puede tener un número diferente de repeticiones (k y j). Test regular (no pareado) de Student. Grados de libertad: mín(k, j) 1. Estimación de la varianza de la diferencia de las medias: σ 2 x k + σ2 y j Metodología Experimental JJRD 34/61
35 Estimaciones Dependientes Suponíamos que teníamos datos suficientes como para crear varios conjuntos de datos del mismo tamaño. Si no es el caso, necesidad de reutilizar los datos. E.g., validaciones cruzadas sobre los mismos datos con distintas particiones aleatorias. Las muestras son dependientes. Diferencias insignificantes pueden convertirse en significantes. Heurística: test t remuestreado corregido [NB03]. Suponemos holdout repetido, n 1 ejemplos de entrenamiento, n 2 de test. Nuevo estadístico: t = d ( ) 1 + n 2 k n 1 σ 2 d Metodología Experimental JJRD 35/61
36 Comparación sobre varios Dominios [Dem06] Distintos conjuntos de datos (de distintos dominios). Caso particular: dos métodos. Test t pareado para cada conjunto. Resultados de significancia individuales. Un único t-test pareado con los resultados de cada conjunto. Los resultados en distintos conjuntos de datos no son comparables. Se necesita una muestra suficientemente grande ( 30) o distribución normal. Metodología Experimental JJRD 36/61
37 Número de Victorias: Test de Signo Contar el número de conjuntos para el que cada método gana. Si los dos métodos son equivalentes, cada uno debería ganar en la mitad de los conjuntos. Distribución binomial. conjuntos α = α = Un clasificador es significativamente mejor que otro si tiene mejores resultados para al menos el número de conjuntos en la tabla. Los empates se reparten. Para más conjuntos de datos: N/ N/2 (significancia: 5 %). Aproximadamente, N/2 + N Metodología Experimental JJRD 37/61
38 Varios Clasificadores Ranking para cada conjunto de datos. Se ordenan los métodos de mejor a peor. A cada método se le asigna un número con su posición. El mejor el 1, el segundo el 2... Si hay empates, valores promedios. E.g, si 4 métodos tienen el mejor resultado, se les asigna el valor 2.5. Para cada método, promediar sus posiciones. Ordenar de acuerdo a este ranking promedio. A partir de estos rankings se pueden realizar diversos tests estadísticos. Metodología Experimental JJRD 38/61
39 Ejemplo Resultados (AUC) Rankings C4.5 C4.5+m C4.5+cf C4.5+m+cf C4.5 C4.5+m C4.5+cf C4.5+m+cf adult breast cancer cancer wisconsin cmc ionosphere iris liver disorders lung cancer lymphography mushroom primary tumor rheum voting wine ranking promedio: Datos tomados de [Dem06] Metodología Experimental JJRD 39/61
40 Tests sobre los Rankings Test de Friedman. Hipótesis nula: los métodos son equivalentes, los rankings promedios deberían ser equivalentes. Estadístico de Friedman (N conjuntos de datos, k métodos, R j ranking promedio del método j) [ ] χ 2 F = 12N R 2 k(k + 1)2 j k(k + 1) 4 Distribución χ 2 con k 1 grados de libertad. Según Iman y Davenport, este test es demasiado conservador, estadístico alternativo: F F = (N 1)χ2 F N(k 1) χ 2 F Distribución F con k 1 y (k 1)(N 1) grados de libertad. Metodología Experimental JJRD 40/61 j
41 Tests sobre los Rankings (II) Si se rechaza la hipótesis nula, se puede proceder con un test post-hoc. Test de Nemenyi. Dos métodos son significativamente diferentes si sus rankings promedios difieren al menos en CD = q α k(k+1) 6N Clasificadores q q Test de Bonferroni-Dunn, cuándo se compara solo con un clasificador de control. Clasificadores q q Metodología Experimental JJRD 41/61
42 Ejemplo Para los resultados anteriores, X 2 F = 9.28 F F = Distribucion F con k 1 = 3 y (k 1)(N 1) = 39 grados de libertad. Valor crítico para α = 0.05, es Rechazamos la hipótesis nula. section3/eda3673.htm En la hoja de cálculo: =DISTR.F.INV(0,05;3;39) ó =DISTR.F(3,69;3;39) Metodología Experimental JJRD 42/61
43 Ejemplo (II) Si comparamos todos con todos, Nemenyi. CD = 1.25 ó CD = 1.12, dependiendo del nivel (5 % ó 10 %).. CD C4.5.. C4.5+cf. C4.5+m+cf. C4.5+m Si comparamos solo con C4.5, Bonferroni-Dunn. CD = 1.16 (nivel 5 %) C4.5.. C4.5+cf. C4.5+m+cf. C4.5+m [Dem06] Metodología Experimental JJRD 43/61
44 Regresión Mismas estrategias: conjunto de test independientes, validación cruzadas, test de significancia... Diferencia: medidas del error. Valores reales: a 1, a 2,... a n. Valores predichos: p 1, p 2,... p n. Más popular: error cuadrático medio. (p 1 a 1 ) (p n a n ) 2 Fácil de manipular matemáticamente. n Error absoluto medio. p 1 a p n a n n Metodología Experimental JJRD 44/61
45 Mejora de la Media Cuánto mejora el método a predecir el valor medio. Error cuadrático relativo. (p 1 a 1 ) (p n a n ) 2 (a a 1 ) (a a n ) 2 a es el valor medio en el conjunto de entrenamiento. Error absoluto relativo. p 1 a p n a n a a a a n A menudo la selección del método no depende de la medida. Metodología Experimental JJRD 45/61
46 Predicción de Probabilidades Hasta ahora la medida del rendimiento era la tasa de acierto. También denominada función de pérdida 0-1. La pérdida es 0 si se acierta, 1 si se falla. Muchos clasificadores son capaces de asignar una probabilidad a cada predicción. Para ciertas aplicaciones, podríamos comprobar la precisión de las estimaciones de probabilidad. Podría ser mejor acertar con 0.99 que con A veces la predicción puede ser entrada para otros procesos. E.g., análisis humano. Metodología Experimental JJRD 46/61
47 Función de pérdida cuadrática p 1... p k son las estimaciones de probabilidad para un ejemplo. c es el índice de la clase verdadera. a 1... a k = 0, savo a c = 1. Pérdida cuadrática: (p j a j ) 2 = j j c p 2 j + (p c 1) 2 = 1 2p c + j p 2 j Sumar la pérdida de cada ejemplo. Metodología Experimental JJRD 47/61
48 Función de Pérdida de Información log 2 p c Representa el número de bits necesarios para comunicar la clase verdadera. Sean p 1... p k las probabilidades reales de las clases. El valor esperado para la función de pérdida es p 1 log 2 p 1... p k log 2 p k Problema: si se asigna una probabilidad 0 a un evento que ocurre, pérdida infinita. Metodología Experimental JJRD 48/61
49 Discusión Qué función elegir. Ambas promueven la honestidad. La función de pérdida cuadrática tiene en cuenta las estimaciones de probabilidad de todas las clases para el ejemplo. La función de pérdida de información solo se fija en la probabilidad asignada a la clase verdadera. La pérdida cuadrática está acotada, 1 + j p2 j, como mucho 2. La pérdida de información puede ser infinita. Metodología Experimental JJRD 49/61
50 Sobre la Precisión No siempre es adecuado utilizar la precisión (el error) para comparar métodos. Suposiciones: Los costes de los errores son los mismos. Distribución de clases conocida a priori. Ejemplos: fraudes, créditos, inseminación de ganado, diagnosis... Para dos clases: (ciertos, falsos) (positivos, negativos). Metodología Experimental JJRD 50/61
51 Sobre la Precisión (II) Matriz de confusión. positivo clase real negativo clase sí cierto positivo falso positivo predicha no falso negativo cierto negativo Precisión: TP+TN P+N Tasa de ciertos positivos: tp = TP P Tasa de falsos positivos: fp = FP N Metodología Experimental JJRD 51/61
52 Análisis ROC Análisis ROC (Receiver Operation Characteristic), originado en teoría de la señal y común en diagnosis médica. Representación gráfica del rendimiento de clasificadores. Especialmente útiles en problemas desesequilibrados o sensibles al coste. Espacio ROC: pares (fp, tp). Relación entre los beneficios (ciertos positivos) y los costes (falsos positivos). Metodología Experimental JJRD 52/61
53 Análisis ROC (II) Cada clasificador un punto en ese espacio. (0, 0) aquellos clasificadors que siempre predicen negativo. (1, 1) si siempre predice positivo. (0, 1) clasificador perfecto. Un clasificador es mejor que otro si está encima y a la izquierda. Predicción aleatoria: en la diagonal. Metodología Experimental JJRD 53/61
54 Análisis ROC (III) Metodología Experimental JJRD 54/61
55 Análisis ROC (IV) Si el modelo ofrece una salida continua (e.g., probabilidad posterior), cada umbral define un clasificador tasa ciertos positivos tasa ciertos positivos tasa falsos positivos tasa falsos positivos Metodología Experimental JJRD 55/61
56 Análisis ROC (V) [Faw06] Metodología Experimental JJRD 56/61
57 Curvas ROC Metodología Experimental JJRD 57/61
58 Curvas ROC (II) Curvas ROC: habilidad de los clasificadores para generar buenos valores numéricos relativos, aunque no sean buenas probabilidades. Que permitan discriminar bien. Robustas a cambios en la distribución de clases en el conjunto de test. Representación bidimensional del rendimiento. Para comparar es mejor tener un único valor numérico. Área bajo la curva, AUC. Porción del área de un cuadrado unitario, valor entre 0 y 1. Debería ser mayor que 0.5. Un clasificador aleatorio genera la diagonal entre (0,0) y (1,1). Metodología Experimental JJRD 58/61
59 Curvas ROC (III) El área bajo la curva es equivalente a la probabilidad de que el clasificador asigne un valor superior a una instancia positiva que a una negativa, cuando ambas se seleccionan aleatoriamente. Test de rangos de Wilcoxon. Relacionada con el coeficiente de Gini (criterio para construir árboles de decisión), ya que este valor se corresponde con 2 AUC 1. Metodología Experimental JJRD 59/61
60 Referencias [Dem06] [Die98] J. Demšar. Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research, 7:1 30, Thomas G. Dietterich. Approximate statistical test for comparing supervised classification learning algorithms. Neural Computation, 10(7): , [Faw06] Tom Fawcett. An introduction to roc analysis. Pattern Recognition Letters, 27(8): , June [FHOM08] C. Ferri, J. Hernandez-Orallo, and R. Modroiu. An experimental comparison of performance measures for classification. Pattern Recognition Letters, September [GH08] Salvador García and Francisco Herrera. An extension on statistical comparisons of classifiers over multiple data sets for all pairwise comparisons. Journal of Machine Learning Research, 9: , December [Mit97] T. Mitchell. Machine Learning. McGraw Hill, [NB03] [Sal97] Claude Nadeau and Yoshua Bengio. Inference for the generalization error. Machine Learning, 52( ), Steven L. Salzberg. On comparing classifiers: Pitfalls toavoid and a recommended
61 approach. Data Min. Knowl. Discov., 1(3): , [WF05] I. H. Witten and E. Frank. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, 2nd edition, 2005.
Comparación de varios métodos de aprendizaje sobre varios problemas
Comparación de varios métodos de aprendizaje sobre varios problemas Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Contenido 1. Motivación 2.
Más detallesComparación de dos métodos de aprendizaje sobre el mismo problema
Comparación de dos métodos de aprendizaje sobre el mismo problema Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Contenido 1. Motivación 2.
Más detallesReconocimiento de Patrones
Reconocimiento de Patrones Técnicas de validación (Clasificación Supervisada) Jesús Ariel Carrasco Ochoa Instituto Nacional de Astrofísica, Óptica y Electrónica Clasificación Supervisada Para qué evaluar
Más detallesAplicaciones de apoyo al diagnóstico médico. Identificación de objetos amigos y enemigos. Identificación de zonas afectadas por un desastre natural.
Capítulo 5 Evaluación En muchas ocasiones requerimos hacer una evaluación muy precisa de nuestros algoritmos de aprendizaje computacional porque los vamos a utilizar en algún tipo de aplicación que así
Más detallesANÁLISIS DE DATOS. Jesús García Herrero
ANÁLISIS DE DATOS Jesús García Herrero ANALISIS DE DATOS EJERCICIOS Una empresa de seguros de automóviles quiere utilizar los datos sobre sus clientes para obtener reglas útiles que permita clasificar
Más detallesInducción de Árboles de Decisión ID3, C4.5
Inducción de Árboles de Decisión ID3, C4.5 Contenido 1. Representación mediante árboles de decisión. 2. Algoritmo básico: divide y vencerás. 3. Heurística para la selección de atributos. 4. Espacio de
Más detalles2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...
Contenidos 1 Introducción al paquete estadístico S-PLUS 19 1.1 Introducción a S-PLUS............................ 21 1.1.1 Cómo entrar, salir y consultar la ayuda en S-PLUS........ 21 1.2 Conjuntos de datos..............................
Más detallesPrecisión del Modelo
Precisión del Modelo Gráficas, estadística y minería de datos con python Miguel Cárdenas Montes Centro de Investigaciones Energéticas Medioambientales y Tecnológicas, Madrid, Spain miguel.cardenas@ciemat.es
Más detallesPrueba t para muestras independientes
Prueba t para muestras independientes El procedimiento Prueba t para muestras independientes compara las medias de dos grupos de casos. Para esta prueba, idealmente los sujetos deben asignarse aleatoriamente
Más detallesINDICE. Prólogo a la Segunda Edición
INDICE Prólogo a la Segunda Edición XV Prefacio XVI Capitulo 1. Análisis de datos de Negocios 1 1.1. Definición de estadística de negocios 1 1.2. Estadística descriptiva r inferencia estadística 1 1.3.
Más detallesEstadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR
Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación Facultad de Ciencias Sociales, UdelaR Índice 1. Repaso: estimadores y estimaciones. Propiedades de los estimadores. 2. Estimación puntual.
Más detallesIntervalos de Confianza
Intervalos de Confianza Álvaro José Flórez 1 Escuela de Ingeniería Industrial y Estadística Facultad de Ingenierías Febrero - Junio 2012 Intervalo de Confianza Se puede hacer una estimación puntual de
Más detallesESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA
www.jmontenegro.wordpress.com UNI ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA PROF. JOHNNY MONTENEGRO MOLINA Objetivos Desarrollar el concepto de estimación de parámetros Explicar qué es una
Más detallesTeoría de la decisión Estadística
Pruebas de hìpótesis Unidad 8. Pruebas de hipótesis. Formulación general. Distribución de varianza conocida. Prueba para la bondad del ajuste. Validación de modelos 1 Formulación Una Hipótesis es una proposición
Más detallesTeorema Central del Límite (1)
Teorema Central del Límite (1) Definición. Cualquier cantidad calculada a partir de las observaciones de una muestra se llama estadístico. La distribución de los valores que puede tomar un estadístico
Más detallesÍndice general. Pág. N. 1. Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN. Diseño. Población. Muestra. Individuo (Observación, Caso, Sujeto) Variables
Pág. N. 1 Índice general Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN 1.1 Diseño 1.2 Descriptiva 1.3 Inferencia Diseño Población Muestra Individuo (Observación, Caso, Sujeto) Variables Ejercicios de Población
Más detallesAgro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos
Agro 6998 Conferencia Introducción a los modelos estadísticos mixtos Los modelos estadísticos permiten modelar la respuesta de un estudio experimental u observacional en función de factores (tratamientos,
Más detallesTécnicas de Muestreo Métodos
Muestreo aleatorio: Técnicas de Muestreo Métodos a) unidad muestral elemental: a.1) muestreo aleatorio simple a.2) muestreo (seudo)aleatorio sistemático a.3) muestreo aleatorio estratificado b) unidad
Más detallesTema 7: Aprendizaje de árboles de decisión
Inteligencia Artificial 2 Curso 2002 03 Tema 7: Aprendizaje de árboles de decisión José A. Alonso Jiménez Miguel A. Gutiérrez Naranjo Francisco J. Martín Mateos José L. Ruiz Reina Dpto. de Ciencias de
Más detallesRegresión múltiple. Demostraciones. Elisa Mª Molanes López
Regresión múltiple Demostraciones Elisa Mª Molanes López El modelo de regresión múltiple El modelo que se plantea en regresión múltiple es el siguiente: y i = β 0 + β 1 x 1i + β 2 x 2i +...+ β k x ki +
Más detallesQué hacemos cuando la distribución no es normal? Qué significa ser normal? Qué significa ser normal? 1er. Simposio Metodología Seis Sigma
er. imposio Metodología eis igma Resumen Qué hacemos cuando la distribución no es normal? Qué significa ser normal? Ejemplos de situaciones normales Ejemplos de situaciones no normales Resumen Implicaciones
Más detallesDISEÑOS EXPERIMENTALES DE DOS GRUPOS Y MULTIGRUPO
TEMA II ESQUEMA GENERAL Diseño experimental de dos grupos: definición y clasificación Formatos del diseño y prueba de hipótesis Diseño experimental multigrupo: definición Formato del diseño multigrupo
Más detallesDiseño de experimentos Hugo Alexer Pérez Vicente
Diseño de experimentos Hugo Alexer Pérez Vicente Métodos complementarios al análisis de varianza Comparaciones múltiples Comparación o pruebas de rangos múltiples Después de que se rechazó la hipótesis
Más detallesAprendizaje: Boosting y Adaboost
Técnicas de Inteligencia Artificial Aprendizaje: Boosting y Adaboost Boosting 1 Indice Combinando clasificadores débiles Clasificadores débiles La necesidad de combinar clasificadores Bagging El algoritmo
Más detallesAprendizaje Automatizado
Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto
Más detallesDistribución Chi (o Ji) cuadrada (χ( 2 )
Distribución Chi (o Ji) cuadrada (χ( 2 ) PEARSON, KARL. On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it Can Reasonably
Más detallesANÁLISIS ESTADÍSTICO PRUEBA DE HIPOTESIS
ANÁLISIS ESTADÍSTICO PRUEBA DE HIPOTESIS Jorge Fallas jfallas56@gmail.com 2010 1 Temario Datos experimentales y distribuciones de referencia Una media poblacional Hipótesis nula, alternativa y nivel de
Más detallesIntroducción a la Estadística Aplicada en la Química
Detalle de los Cursos de Postgrado y Especialización en Estadística propuestos para 2015 1/5 Introducción a la Estadística Aplicada en la Química FECHAS: 20/04 al 24/04 de 2015 HORARIO: Diario de 10:00
Más detallesPronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple
Pronósticos, Series de Tiempo y Regresión Capítulo 4: Regresión Lineal Múltiple Temas Modelo de regresión lineal múltiple Estimaciones de Mínimos Cuadrados Ordinarios (MCO); estimación puntual y predicción
Más detallesEstadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis. Facultad de Ciencias Sociales, UdelaR
Estadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis Facultad de Ciencias Sociales, UdelaR Índice 1. Introducción: hipótesis estadística, tipos de hipótesis, prueba de hipótesis 2.
Más detallesESTIMACION DEL TAMAÑO DE LA MUESTRA Y DE LA POTENCIA
ESTIMACION DEL TAMAÑO DE LA MUESTRA Y DE LA POTENCIA HIPOTESIS Y PRINCIPIOS Sabemos a quién y qué vamos a estudiar. Ahora hay que decidir cuántos individuos contendrá la muestra. Hipótesis nula (H o )
Más detallesUniversidad Rafael Belloso Chacín (URBE) Cátedra: Fundamentos de Estadística y Simulación Básica Semestre Profesor: Jaime Soto
Universidad Rafael Belloso Chacín (URBE) Cátedra: Fundamentos de Estadística y Simulación Básica Semestre 2011-1 Profesor: Jaime Soto PRUEBA DE HIPÓTESIS Ejemplo El jefe de la Biblioteca de la URBE manifiesta
Más detallesSelección Diseño de Cribado
Selección Diseño de Cribado Resumen La sección diseño experimental del STATGRAPHICS puede crear una amplia variedad de diseños dirigidos a mostrar los factores más importantes que afectan un proceso. Se
Más detallesMODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8.
UNIVERSIDAD NACIONAL ABIERTA ESTADÍSTICA GENERAL 745) VICERRECTORADO ACADÉMICO INTEGRAL ÁREA DE MATEMÁTICA Fecha: 17/ 01 /009 MODELO DE RESPUESTAS Objetivos, 3, 4, 5, 6, 7, Y 8. OBJ. 1 PTA 1 Una compañía
Más detallesPruebas de Hipótesis Multiples
Pruebas de Hipótesis Multiples Cuando queremos hacer comparaciones de mas de dos poblaciones, una alternativa es comparar todos los grupos a la vez con el método de Análisis de Varianza (ANOVA) H o : µ
Más detallesANOVA. Análisis de la Varianza. Univariante Efectos fijos Muestras independientes
ANOVA Análisis de la Varianza Univariante Efectos fijos Muestras independientes De la t a la F En el test de la t de Student para muestras independientes, aprendimos como usar la distribución t para contrastar
Más detallesPRUEBA DE HIPÓTESIS BENJAMIN MAMANI CONDORI
PRUEBA DE HIPÓTESIS BENJAMIN MAMANI CONDORI 2014 Para qué es útil la estadística inferencial? Se utiliza para probar hipótesis y generalizar los resultados obtenidos en la muestra a la población o universo.
Más detallesDISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II
DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II PRÁCTICA 5 En una determinada investigación se estudió el rendimiento en matemáticas en función del estilo de aprendizaje de una serie de estudiantes de educación
Más detalles2. Plantear hipótesis considerando que: Hipótesis: Siendo una prueba no direccionada, el planteamiento de hipótesis, señalará que:
Análisis de varianza El análisis de la varianza, conocida también como ANVAR o ANOVA, por sus siglas en inglés (ANalysis Of VAriance) es un método que permite comparar dos o más grupos de datos a través
Más detallesPodemos definir un contraste de hipótesis como un procedimiento que se basa en lo observado en las muestras y en la teoría de la probabilidad para
VII. Pruebas de Hipótesis VII. Concepto de contraste de hipótesis Podemos definir un contraste de hipótesis como un procedimiento que se basa en lo observado en las muestras y en la teoría de la probabilidad
Más detallesINDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica
INDICE 1. Qué es la Estadística? 1 Introducción 2 Qué significa estadística? 2 Por qué se estudia la estadística? 4 Tipos de estadística 5 Estadística descriptiva 5 Estadística inferencial 6 Tipos de variables
Más detalles1.-DATOS DE LA ASIGNATURA
1.-DATOS DE LA ASIGNATURA Nombre de la asignatura: Minería de Datos Carrera: Ingeniería en Sistemas Computacionales Clave de la asignatura: ADM-0701 Horas teoría-horas práctica-créditos: 3-2-8 2.-HISTORIA
Más detallesINSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016
ANEXO ESTADÍSTICO 1 : COEFICIENTES DE VARIACIÓN Y ERROR ASOCIADO AL ESTIMADOR ENCUESTA NACIONAL DE EMPLEO (ENE) INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 9 de Abril de 016 1 Este anexo estadístico es una
Más detallesValidación Cruzada (cross-validation) y Remuestreo (bootstrapping)
Validación Cruzada (cross-validation) y Remuestreo (bootstrapping) Padres de cross-validation y el bootstrapping Bradley Efron y Rob Tibshirani Bradley Efron Rob Tibshirani Enfoque: tabla de aprendizaje
Más detallesFormulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico
Formulario. Estadística Administrativa Módulo 1. Introducción al análisis estadístico Histogramas El número de intervalos de clase, k, se elige de tal forma que el valor 2 k sea menor (pero el valor más
Más detallesUNIVERSIDAD TECNICA PARTICULAR DE LOJA ESTADISTICA Y PROBABILIDAD ENSAYO N 8
UNIVERSIDAD TECNICA PARTICULAR DE LOJA ESTADISTICA Y PROBABILIDAD ENSAYO N 8 DOCENTE: Ing. Patricio Puchaicela ALUMNA: Andrea C. Puchaicela G. CURSO: 4to. Ciclo de Electrónica y Telecomunicaciones AÑO
Más detallesÍNDICE INTRODUCCIÓN... 21
INTRODUCCIÓN... 21 CAPÍTULO 1. ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS... 23 1. ORGANIZACIÓN DE LOS DATOS... 23 1.1. La distribución de frecuencias... 24 1.2. Agrupación en intervalos...
Más detallesviii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos
Contenido Acerca de los autores.............................. Prefacio.... xvii CAPÍTULO 1 Introducción... 1 Introducción.............................................. 1 1.1 Ideas de la estadística.........................................
Más detallesUNIVERSIDAD AUTÓNOMA DE CHIAPAS FACULTAD DE INGENIERÍA CAMPUS I PROBABILIDAD Y ESTADÍSTICA
UNIVERSIDAD AUTÓNOMA DE CHIAPAS FACULTAD DE INGENIERÍA CAMPUS I PROBABILIDAD Y ESTADÍSTICA NIVEL: LICENCIATURA CRÉDITOS: 9 CLAVE: ICAD24.500919 HORAS TEORÍA: 4.5 SEMESTRE: CUARTO HORAS PRÁCTICA: 0 REQUISITOS:
Más detallesAPRENDIZAJE PROBABILÍSTICO NAIVE BAYES
1 APRENDIZAJE PROBABILÍSTICO NAIVE BAYES Bases de Datos Masivas 9 de Noviembre de 2016 2 Razonamiento Probabilístico Es una herramienta de aprendizaje estadístico. Se trata de razonar en un contexto incierto;
Más detallesCaso 105. Tamaño de muestra y potencia de una prueba. Diseño de experimentos. Jesús López Fidalgo
Caso 105. Tamaño de muestra y potencia de una prueba. Diseño de experimentos. Jesús López Fidalgo Caso Práctico El objetivo de este ejercicio es analizar diferentes tipos de pruebas estadísticas en las
Más detallesPosibles trabajos HIA
Posibles trabajos HIA Posibles trabajos Comparar otras herramientas de Minería de Datos con Weka Estudiar la influencia del ruido en bagging y boosting Estudiar la influencia del parámetro de poda en J48
Más detallesESTADISTICA INFERENCIAL DR. JORGE ACUÑA A.
ESTADISTICA INFERENCIAL DR. JORGE ACUÑA A. 1 PROBABILIDAD Probabilidad de un evento es la posibilidad relativa de que este ocurra al realizar el experimento Es la frecuencia de que algo ocurra dividido
Más detallesMODELOS DE SIMULACIÓN ESTADÍSTICOS CLASE 4: DISTRIBUCIÓN t, CHI-CUADRADA y EXPONENCIAL PROFESOR: OSCAR SAAVEDRA ANDRÉS DURANGO.
DISTRIBUCIÓN t Con frecuencia intentamos estimar la media de una población cuando se desconoce la varianza, en estos casos utilizamos la distribución de t de Student. Si el tamaño de la muestra es suficientemente
Más detallesUniversidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia
Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia Estudio de Caso: Estudio Morfología Coeficiente de Correlación Considere el archivo Estudio Morfología.sav.
Más detallesTema 13: Distribuciones de probabilidad. Estadística
Tema 13: Distribuciones de probabilidad. Estadística 1. Variable aleatoria Una variable aleatoria es una función que asocia a cada elemento del espacio muestral, de un experimento aleatorio, un número
Más detallesJUEGO DE BASKETBALL. Repaso de Distribuciones de Probabilidad Discretas y Continuas
JUEGO DE BASKETBALL Repaso de Distribuciones de Probabilidad Discretas y Continuas PREGUNTA #1 Qué es una variable aleatoria uniforme discreta? Cómo es su distribución? Qué es una variable aleatoria uniforme
Más detalles3 ANALISIS DESCRIPTIVO DE LOS DATOS
3 ANALISIS DESCRIPTIVO DE LOS DATOS 3.1 La tabulación de los datos 3.1.1 Tabla de distribución de frecuencias. 3.1.2 El histograma. 3.2 Medidas de tendencia central 3.2.1 La media. 3.2.2 La mediana. 3.2.3
Más detallesEstas dos clases. ANOVA I - Conceptos generales - Supuestos - ANOVA de una vía - Transformación de datos - Test a Posteriori - ANOVA de dos vías
ANOVA I 19-8-2014 Estas dos clases ANOVA I - Conceptos generales - Supuestos - ANOVA de una vía - Transformación de datos - Test a Posteriori - ANOVA de dos vías ANOVA II - ANOVA factorial - ANCOVA (análisis
Más detallesAnálisis de Componentes de la Varianza
Análisis de Componentes de la Varianza Resumen El procedimiento de Análisis de Componentes de Varianza está diseñado para estimar la contribución de múltiples factores a la variabilidad de una variable
Más detallesModelos de probabilidad. Modelos de probabilidad. Modelos de probabilidad. Proceso de Bernoulli. Objetivos del tema:
Modelos de probabilidad Modelos de probabilidad Distribución de Bernoulli Distribución Binomial Distribución de Poisson Distribución Exponencial Objetivos del tema: Al final del tema el alumno será capaz
Más detallesUniversidad Central del Este UCE Facultad de Ciencias de la Salud Escuela de Medicina
Universidad Central l Este UCE Facultad Ciencias la Salud Escuela Medicina Programa la asignatura: : MED-052 Bioestadística II Código: Semestre: Asignatura electiva Total créditos 3 Teóricos 3 Prácticos
Más detallesAux 7. Introducción a la Minería de Datos
Aux 7. Introducción a la Minería de Datos Gastón L Huillier 1,2, Richard Weber 2 glhuilli@dcc.uchile.cl 1 Departamento de Ciencias de la Computación Universidad de Chile 2 Departamento de Ingeniería Industrial
Más detalles478 Índice alfabético
Índice alfabético Símbolos A, suceso contrario de A, 187 A B, diferencia de los sucesos A y B, 188 A/B, suceso A condicionado por el suceso B, 194 A B, intersección de los sucesos A y B, 188 A B, unión
Más detallesDistribuciones de muestreo fundamentales y descripciones de datos Muestreo aleatorio
Distribuciones de muestreo fundamentales y descripciones de datos Muestreo aleatorio En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una población),
Más detallesTema 10: Introducción a los problemas de Asociación y Correlación
Tema 10: Introducción a los problemas de Asociación y Correlación Estadística 4 o Curso Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación
Más detallesESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua
ESTADÍSTICA Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal Cuantitativa discreta continua DISTRIBUCIÓN DE FRECUENCIAS Frecuencia absoluta: fi Frecuencia relativa:
Más detallesTema 8: Contraste de hipótesis
Tema 8: Contraste de hipótesis 1 En este tema: Conceptos fundamentales: hipótesis nula y alternativa, nivel de significación, error de tipo I y tipo II, p-valor. Contraste de hipótesis e IC. Contraste
Más detallesESTADÍSTICA. Tema 4 Regresión lineal simple
ESTADÍSTICA Grado en CC. de la Alimentación Tema 4 Regresión lineal simple Estadística (Alimentación). Profesora: Amparo Baíllo Tema 4: Regresión lineal simple 1 Estructura de este tema Planteamiento del
Más detallesMATERIA: ESTADÍSTICA EJEMPLOS DE POSIBLES PREGUNTAS DE EXAMEN. a. Cuáles son las escalas en que pueden estar los datos en un análisis estadístico.
MATERIA: ESTADÍSTICA EJEMPLOS DE POSIBLES PREGUNTAS DE EXAMEN 1. Conteste las preguntas siguientes: a. Cuáles son las escalas en que pueden estar los datos en un análisis estadístico. 1. 2. 3. 4. b. En
Más detallesINFERENCIA ESTADISTICA
INFERENCIA ESTADISTICA ESTIMACION 2 maneras de estimar: Estimaciones puntuales x s 2 Estimaciones por intervalo 2 ESTIMACION Estimaciones por intervalo Limites de Confianza LCI
Más detallesUNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN FACULTAD DE CIENCIAS BIOLÓGICAS SUBDIRECCIÓN DE POSGRADO
UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN FACULTAD DE CIENCIAS BIOLÓGICAS SUBDIRECCIÓN DE POSGRADO CONTENIDO DE CARTA DESCRIPTIVA 1.- IDENTIFICACIÓN Curso: Bioestadística Programa: Doctorado en Inmunobiología
Más detallesEstadísticas Pueden ser
Principios Básicos Para iniciar en el curso de Diseño de experimentos, es necesario tener algunos conceptos claros en la parte de probabilidad y estadística. A continuación se presentan los conceptos más
Más detalles1) Características del diseño en un estudio de cohortes.
Departamento de Estadística Universidad Carlos III de Madrid BIOESTADISTICA (55-10536) Estudios de cohortes CONCEPTOS CLAVE 1) Características del diseño en un estudio de cohortes. ) Elección del tamaño
Más detallesTema 7: Estadística y probabilidad
Tema 7: Estadística y probabilidad En este tema revisaremos: 1. Representación de datos e interpretación de gráficas. 2. Estadística descriptiva. 3. Probabilidad elemental. Representaciones de datos Cuatro
Más detallesSolución Examen Parcial IV Nombres: Apellidos: C.I.: Firma: Fecha: 22/06/2005
Nombres: Apellidos: C.I.: Firma: Fecha: 22/06/2005 MÉTODOS ESTADÍSTICOS I EXAMEN IV PARTE I: Encierre con un círculo la respuesta correcta o llene los espacios en blanco (0,5 puntos c/u): 1. (V F) La prueba
Más detallesCONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN
Modelo: Y =! 1 +! 2 X + u Hipótesis nula: Hipótesis alternativa H 1 :!!! 2 2 Ejemplo de modelo: p =! 1 +! 2 w + u Hipótesis nula: Hipótesis alternativa: H :!! 1 2 1. Como ilustración, consideremos un modelo
Más detallesResumen teórico de los principales conceptos estadísticos
Temas de Estadística Práctica Antonio Roldán Martínez Proyecto http://www.hojamat.es/ Muestreo aleatorio simple Resumen teórico Resumen teórico de los principales conceptos estadísticos Muestreo aleatorio
Más detallesEstadística II Tema 4. Regresión lineal simple. Curso 2009/10
Estadística II Tema 4. Regresión lineal simple Curso 009/10 Tema 4. Regresión lineal simple Contenidos El objeto del análisis de regresión La especificación de un modelo de regresión lineal simple Estimadores
Más detallesAprendizaje Automatizado. Árboles de Clasificación
Aprendizaje Automatizado Árboles de Clasificación Árboles de Clasificación Estudiaremos un algoritmo para la creación del árbol. Selección de atributos comenzando en el nodo raíz. Proceso recursivo. Árboles
Más detallesProbabilidad y Estadística
Probabilidad y Estadística Tema 13 Inferencia en una población Objetivo de aprendizaje del tema Al finalizar el tema serás capaz de: Explicar el procedimiento de pruebas en la inferencia estadística. Aplicar
Más detallesINDICE Prefacio 1. Introducción 2. Distribuciones de frecuencia: tablas estadísticas y graficas
INDICE Prefacio XIII 1. Introducción 1.1. la imagen de la estadística 1 1.2. dos tipos de estadísticas 1.3. estadística descriptiva 2 1.4. estadística inferencial 1.5. naturaleza interdisciplinaria de
Más detallesAnálisis de la varianza
Análisis de la varianza José Gabriel Palomo Sánchez gabriel.palomo@upm.es E.U.A.T. U.P.M. Julio de 2011 I 1 Introducción 1 Comparación de medias 2 El pricipio de aleatorización 2 El problema de un factor
Más detallesDeterminación del tamaño de muestra (para una sola muestra)
STATGRAPHICS Rev. 4/5/007 Determinación del tamaño de muestra (para una sola muestra) Este procedimiento determina un tamaño de muestra adecuado para la estimación o la prueba de hipótesis con respecto
Más detallesTeoría de la decisión
1.- Un problema estadístico típico es reflejar la relación entre dos variables, a partir de una serie de Observaciones: Por ejemplo: * peso adulto altura / peso adulto k*altura * relación de la circunferencia
Más detallesProf. Eliana Guzmán U. Semestre A-2015
Unidad III. Variables aleatorias Prof. Eliana Guzmán U. Semestre A-2015 Variable Aleatoria Concepto: es una función que asigna un número real, a cada elemento del espacio muestral. Solo los experimentos
Más detallesEstadística Inferencial
Estadística Inferencial 1 Sesión No. 5 Nombre: Prueba de hipótesis Contextualización En la práctica, es frecuente tener que tomar decisiones acerca de poblaciones con base en información de muestreo. Tales
Más detallesPreparación de los datos de entrada
Preparación de los datos de entrada Clase nro. 6 CURSO 2010 Objetivo Modelado de las características estocásticas de los sistemas. Variables aleatorias con su distribución de probabilidad. Por ejemplo:
Más detallesINFERENCIA ESTADISTICA
1 INFERENCIA ESTADISTICA Es una rama de la Estadística que se ocupa de los procedimientos que nos permiten analizar y extraer conclusiones de una población a partir de los datos de una muestra aleatoria,
Más detallesTÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD
TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD Contrastes de hipótesis paramétricos para una y varias muestras: contrastes sobre la media, varianza y una proporción. Contrastes sobre la diferencia
Más detallesNúmero de Observaciones (N): cuántas observaciones serán necesarias para detectar el efecto?
Tamaño del Efecto (ej. d, 2, f, phi ): qué magnitud del efecto se trata de detectar? Número de Observaciones (N): cuántas observaciones serán necesarias para detectar el efecto? Error de Tipo I, α (Nivel
Más detallesGuía docente MÉTODOS ESTADÍSTICOS PARA LA EMPRESA
1. Introducción Guía docente MÉTODOS ESTADÍSTICOS PARA LA EMPRESA Los análisis económicos y empresariales se efectúan sobre la base de la toma de decisiones, las cuales se toman a partir de la información
Más detallesPrueba de Hipótesis. Bondad de Ajuste. Tuesday, August 5, 14
Prueba de Hipótesis Bondad de Ajuste Conceptos Generales Hipótesis: Enunciado que se quiere demostrar. Prueba de Hipótesis: Procedimiento para determinar si se debe rechazar o no una afirmación acerca
Más detallesOTRAS HERRAMIETAS ESTADISTICAS UTILES. Dra. ALBA CECILIA GARZON
OTRAS HERRAMIETAS ESTADISTICAS UTILES Dra. ALBA CECILIA GARZON Que es un Test de Significancia estadística? El término "estadísticamente significativo" invade la literatura y se percibe como una etiqueta
Más detallesESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso
ESTADISTICA II INGENIERIA INFORMATICA, 3 ER Curso 22 - Diciembre - 2.006 Primera Parte - Test Apellidos y Nombre:... D.N.I. :... Nota : En la realización de este examen sólo esta permitido utilizar calculadoras
Más detallesTEMA 2 Diseño de experimentos: modelos con varios factores
TEMA 2 Diseño de experimentos: modelos con varios factores José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Análisis de Datos - Grado en Biología Esquema del tema Modelo bifactorial
Más detallesVARIABLES ALEATORIAS
VARIABLES ALEATORIAS Ejemplo: lanzar dos dados y sumar lo que sale en las dos caras. El espacio muestral está formado por los 36 resultados posibles (de lanzar los dados) Y el resultado del experimento
Más detallesTEMA 6 COMPROBACIÓN DE HIPÓTESIS ESPECÍFICAS DE INVESTIGACIÓN
TEMA 6 COMPROBACIÓN DE HIPÓTESIS ESPECÍFICAS DE INVESTIGACIÓN 1 DISEÑO DE INVESTIGACIÓN Y 1 A = a 1 a Y 1 A = 3 a 1 a a Hipótesis específicas de la investigación Cuando la variable independiente tiene
Más detalles4. Prueba de Hipótesis
4. Prueba de Hipótesis Como se ha indicado anteriormente, nuestro objetivo al tomar una muestra es extraer alguna conclusión o inferencia sobre una población. En nuestro interés es conocer acerca de los
Más detalles2 Pruebas de hipótesis paramétricas
Pruebas de hipótesis paramétricas. La hipótesis nula y la hipótesis alterna Al intentar alcanzar una decisión, es útil hacer hipótesis (o conjeturas) sobre la población aplicada. Tales hipótesis, que pueden
Más detalles