Poniendo R a trabajar: Evaluación y comparativa de varios algoritmos de inducción utilizando el dataset iris

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Poniendo R a trabajar: Evaluación y comparativa de varios algoritmos de inducción utilizando el dataset iris"

Transcripción

1 Poniendo R a trabajar: Evaluación y comparativa de varios algoritmos de inducción utilizando el dataset iris. pág. Poniendo R a trabajar: Evaluación y comparativa de varios algoritmos de inducción utilizando el dataset iris José A. García Gutiérrez, Ingeniería en informática ETSI Informática, Universidad Nacional de Educación a Distancia, Calle Juan del Rosal, Madrid España alumno.uned.es Este trabajo se discute la aplicación de diferentes algoritmos de agrupamiento (clustering) a la clasificación de instancias del dataset iris, que contiene valores de diferentes atributos que caracterizan la flor de tres variedades del lirio: iris setosa, iris virginica e iris versicolor. Para ello utilizaremos distintos métodos de clasificación (Bayesiano, un árbol de decisión C4. y una estrategia de máquina de vectores de soporte) que se toman desde las últimas versiones e implementaciones que se encuentran disponibles en el repositorio CRAN para computación numérica en lenguaje R. También veremos cómo afectan las distintas configuraciones de validación cruzada a cada uno de los métodos e intentaremos establecer una comparación en precisión y rendimiento entre los diferentes métodos, estableceremos una hipótesis sobre la superioridad de unos sobre otros de acuerdo a su idoneidad de aplicación al dataset propuesto y realizaremos un contraste de hipótesis que nos permitirá afirmar con suficiente evidencia estadística las diferencias observadas. 2. Evaluación de algoritmos de aprendizaje automático sobre el mismo dominio 2. Descripción del experimento y configuración del entorno Evaluación de varios métodos predictivos sobre el problema de clasificación del conjunto de datos "Iris" aplicando la validación cruzada con k-folds = 0. La idea general será la de realizar la tarea de clasificación asociada con la identificación de las especies de lirios incluidos en el conjunto de datos Iris, mediante a la aplicación de varios métodos, al menos uno basado en redes bayesianas y otro basado en árboles de clasificación. Luego se aplicará el procedimiento propuesto para realizar la evaluación y comparación de los métodos utilizados. Con los resultados obtenidos se realizaron test de hipótesis para validar estadísticamente las diferencias entre los rendimientos de los métodos aplicados. A partir de una exploración inicial de los resultados obtenidos por estos dos métodos, se observó una clara ventaja del clasificador bayesiano sobre los arboles de decisión. Por esta razón decidimos incorporar otros algoritmos predictivos: Redes neuronales y Máquinas de vectores soporte (SVM). Igualmente se desarrolló un algoritmo en que fácilmente se pueden incorporar nuevos métodos de clasificación o cambiar la cantidad de iteraciones o ejecuciones y la cantidad de particiones o kfold. Para el desarrollo de este proceso de análisis vamos a requerir varios paquetes, como "e0" que contiene el método del clasificador bayesiano ingenuo, que puede interpretarse como un tipo básico de red bayesiana, así como el método de Máquinas de vectores de soporte (SVM). El paquete "rpart" contiene los algoritmos de clasificación basados en árboles de decisión. El paquete "nnet" implementa los algoritmos predictivos basado en redes neuronales. Además, utilizaremos el paquete "caret" que tiene funciones de apoyo para la creación de los conjuntos de partes que luego serán utilizados para aplicar el método de validación cruzada. suppresswarnings(suppressmessages(library(e0))) suppresswarnings(suppressmessages(library(rpart))) suppresswarnings(suppressmessages(library(caret))) suppresswarnings(suppressmessages(library(nnet))) suppresswarnings(suppressmessages(library(ggplot2))) suppresswarnings(suppressmessages(library(tidyr))) suppresswarnings(suppressmessages(library(dplyr))) suppresswarnings(suppressmessages(library(pander))) suppresswarnings(suppressmessages(library(shiny))) Para poder garantizar la reproducibilidad de los resultados vamos a definir una semilla para el generador de números aleatorios: set.seed(2) 2.2. Preparación de datos El conjunto de datos Iris está incluido por defecto en la instalación de base del lenguaje de programación R, por lo que solo debemos cargarlo en la memoria mediante la función data(). Luego extraemos las dimensiones de la tabla cargada y definimos el número de iteraciones o ejecuciones en niter y el número de partes en que se dividirá el dataset para la aplicación de la validación cruzada en cada ejecución con kfold: data(iris) datos iris n dim(datos)[] niter 0 kfold 0

2 Poniendo R a trabajar: Evaluación y comparativa de varios algoritmos de inducción utilizando el dataset iris. pág. 2 Creamos las particiones asociadas a cada ejecución usando la createfolds() del paquete "caret" aplicada sobre cada una de las ejecuciones mediante la función lapply(): particiones lapply(:niter, function(x){ createfolds(:n, kfold) }) Luego creamos las estructuras de datos en results que guardará todos los resultados de la ejecución de cada uno de los métodos dentro de la validación cruzada (0 kfolds) y las 0 ejecuciones de la misma. Esta estructura es una lista de matrices donde se almacenarán los resultados de cada método: results list() metodos c("bayes", "arbol", "svm", "nnet") for(metod in metodos) results[[metod]] matrix(rep(0, niter*kfold), nrow=niter) 2.. Validación Cruzada El proceso de validación cruzada busca disminuir la varianza en el cálculo de las medidas de evaluación en tareas de clasificación, a la vez que permite la evaluación sobre toda el dataset. Además, evita los problemas asociados con el uso de toda el dataset o la división en tabla de aprendizaje y prueba. Para esto se divide el dataset en un conjunto de partes (flods) generadas aleatoriamente y luego aplica el algoritmo de clasificación al conjunto completo menos una de las partes, sobre la cual se realiza la evaluación (cálculo del error, precisión, etc). Este proceso se repite kfold veces y, en cada iteración, se deja por fuera una parte diferenciante. Al concluir se habrá revaluado el método sobre todas las partes generadas, tomándose como evaluación final el promedio de todas las evaluaciones realizadas. De esta forma se logra una evaluación más precisa de los errores. En nuestro caso aplicaremos este proceso un número de niter=0 veces, con el objeto de generar una muestra de evaluaciones que nos permita comparar varios métodos mediante la aplicación posterior de pruebas de hipótesis. for (i in :niter) { grupos particiones[[i]] # Este ciclo es el que hace la validación cruzada con 0 grupos (Folds) for (k in :kfold) { muestra grupos[[k]] tprueba datos[muestra, ] taprendizaje datos[-muestra, ] #Maquinas de vectores soporte modelo svm(species ~ Petal.Length+Petal.Width, data = taprendizaje, kernel = "radial") prediccion predict(modelo, tprueba) clase tprueba$species MC table(clase, prediccion) #Matriz de confusión results[["svm"]][i,k] sum(diag(mc)) / sum(mc) # precisión global #Redes neuronales modelo nnet(species ~ Petal.Length+Petal.Width, data = taprendizaje, size = 0, rang = 0., decay = e-04, maxit = 200, trace = FALSE) prediccion predict(modelo, tprueba, type = "class") clase tprueba$species MC table(clase, prediccion) #Matriz de confusión results[["nnet"]][i,k] sum(diag(mc)) / sum(mc) # precisión global #Clasificasor bayesiano modelo naivebayes(species ~ Petal.Length+Petal.Width, data = taprendizaje) prediccion predict(modelo, tprueba) clase tprueba$species MC table(clase, prediccion) #Matriz de confusión results[["bayes"]][i,k] sum(diag(mc)) / sum(mc) # precisión global #Arbol de decisión modelo rpart(species ~ Petal.Length+Petal.Width, data = taprendizaje) prediccion predict(modelo, tprueba, type = "class") clase tprueba$species MC table(clase, prediccion) #Matriz de confusión results[["arbol"]][i,k] sum(diag(mc)) / sum(mc) # precisión global } } El ciclo más externo realiza las iteraciones o ejecuciones (niter=0 veces). En cada ciclo se selecciona un conjunto de partes diferente (de los generados dentro de particiones) y se le asigna a la variable grupos. Luego, en el ciclo más interno se ejecuta la validación cruzada propiamente (kfold=0 veces), dentro de cada una de estas iteraciones se selecciona como tabla de pruebas a los datos del conjunto asociados con el grupo o fold correspondiente y la tabla de aprendizaje como todos los demás, luego se aplica al conjunto de datos de entrenamiento los algoritmos de clasificación. Con los modelos generados en cada caso de realiza una predicción sobre el dataset de pruebas y se generan matrices de confusión de la cual se calculan las precisiones globales de cada aplicación. Este proceso genera una matriz para cada método que son insertadas en la lista results. Aquí podemos ver la matriz de resultados del método del clasificador bayesiano ingenuo (naive bayes) de dimensiones niter x kfold (0 x 0 = 00): fold fold2 fold fold4 fold fold fold fold8 fold9 fo

3 Poniendo R a trabajar: Evaluación y comparativa de varios algoritmos de inducción utilizando el dataset iris. pág Aquí podemos ver la matriz de resultados del método de árbol de decisión (rpart()) de dimensiones niter x kfold (0 x 0 = 00): fold fold2 fold fold4 fold fold fold fold8 fold9 fo Ordenación de las evaluaciones por ejecución Ahora procedemos a ordenar las evaluaciones para cada una de las ejecuciones de cada uno de los algoritmos aplicados: resulord results for( metod in metodos ) for( i in :niter ){ ordenado sort(results[[metod]][i,]) for(j in :kfold) } resulord[[metod]][i,j] ordenado[j] Quedando la estructura de resultados para el mismo caso de árbol de clasificación como vemos en el siguiente ejemplo de las primeras ejecuciones: fold fold2 fold fold4 fold fold fold fold8 f9 f Generación de las muestras Según nuestra segunda interpretación del procedimiento propuesto, generaremos la muestra para realizar la comparación entre métodos, mediante el cálculo de los promedios de las evaluaciones sobre las ejecuciones para cada uno de los folds: Resultados2 data.frame(fold= :kfold, Bayes = apply(resulord[["bayes"]], 2, mean), Arbol = apply(resulord[["arbol"]], 2, mean), SVM = apply(resulord[["svm"]], 2, mean), NNet = apply(resulord[["nnet"]], 2, mean) Observemos que hemos empleado en el segundo parámetro de la función apply el valor 2, que representa que la función mean será aplicada a las columnas de la matriz de resultados, es decir, sobre las diferentes ejecuciones. Generándose una lista de evaluaciones promedio para cada uno de los folds. Aquí podemos ver el resultado obtenido en el data.frame: Fold Bayes Arbol SVM NNet Se observa que la tabla contiene solo 0 filas, debido a que la validación cruzada está definida con ese valor para kfold. Luego calculamos algunas diferencias de los vectores obtenidos entre diferentes métodos y los agregamos en una

4 Poniendo R a trabajar: Evaluación y comparativa de varios algoritmos de inducción utilizando el dataset iris. pág. 4 nueva tabla dos columnas (Algoritmo y Diferencia) para facilitar su Graficado: Diferencias2 data.frame( Fold= :kfold, Bayes_Arbol = Resultados2$Bayes - Resultados2$Arbol, NNet_Bayes = Resultados2$NNet - Resultados2$Bayes, Bayes_SVM = Resultados2$Bayes - Resultados2$SVM, SVM_Arbol = Resultados2$SVM - Resultados2$Arbol ) Datos2 gather(diferencias2, "Algoritmo", "Diferencia", 2:) Quedando la tabla de diferencias así: Para tener una mejor visión de las distribuciones de las diferencias construimos un gráfico de densidades que nos muestra una clara diferencia entre los comportamientos de las diferencias entre ciertos métodos: ggplot(data=datos2, mapping=aes(x=diferencia, fill=algoritmo)) + geom_density(aes(y =..density..), position = "identity", color = "black", alpha = 0.) + ggtitle("distribución de diferencias de precisión por algoritmo") Fold Bayes_Arbol NNet_Bayes Bayes_SVM SVM_Arbol Graficado de las diferencias Se observa que casi todos los vectores de diferencias tienen una tendencia de valores ligeramente superiores al cero, lo que sugiere que las diferencias entre estos métodos pudieran ser significativas. Podemos ver estos valores gráficamente: ggplot(data=datos2, mapping=aes(x=fold, y=diferencia, color=algoritmo),) + geom_line(size=) + ggtitle("precisiones según cada Fold "). Validación de los resultados y prueba de hipótesis Para validar estas diferencias aplicaremos una prueba de hipótesis simple, en la que asumiremos como hipótesis nula que las medias de los rendimientos entre los dos métodos a comparar son iguales, por lo que su diferencia es cero. Como hipótesis alternativa propondremos que la diferencia es distinta de cero, dado que como vemos en los resultados, estas diferencias pueden ser positivas o negativas, es decir que se trata de una prueba de dos colas, en la que desconocemos la varianza, que junto al hecho de que solo contamos con muestras de tamaño kfold (0) nos lleva a utilizar la distribución t de student para modelar el estadístico de prueba: Definición de las hipótesis H0: µ = 0; H: µ <> 0; Nivel de confianza - α = 0.9; α = 0.0; Estadístico de prueba Donde es la media muestral

5 Poniendo R a trabajar: Evaluación y comparativa de varios algoritmos de inducción utilizando el dataset iris. pág. y es la varianza muestral Puntos críticos de la región de rechazo (intervalo de confianza) Regla de rechazo de la hipótesis nula (Ho).2. Aplicación del Test Este test de hipótesis se puede aplicar con la función t.test() que puede recibir como parámetros uno o dos vectores, la hipotesis nula ( ), el tipo de hipostesis alternativa ("two.sided", "less", "greater") y el nivel de confianza ( ). En nuestro caso usaremos un solo vector: el vector de diferencias entre las evaluaciones. Los resultados para las diferencias entre el método del clasificador bayesiano y el de árboles de clasificación son los siguientes: t_bayes_arbol <- t.test(diferencias2$bayes_arbol, conf.level = 0.9) print(t_bayes_arbol) One Sample t-test data: Diferencias2$Bayes_Arbol t = 4., df = 9, p-value = alternative hypothesis: true mean is not equal to 0 9 percent confidence interval: sample estimates: mean of x Que da como resultado un Pvalor = <= α por lo que podemos considerar a la evidencia estadística suficiente para rechazar la hipótesis nula. Es decir que las diferencias entre los dos métodos son significativas y no son debidas a la aleatoriedad. Ahora veamos el test aplicado a la diferencia entre los resultados de la Red neuronal y el clasificado bayesiano ingenuo: t_nnet_bayes <- t.test( Diferencias2$NNet_Bayes, conf.level = 0.9) print(t_nnet_bayes) One Sample t-test data: Diferencias2$NNet_Bayes t = 0.00, df = 9, p-value = 0.92 alternative hypothesis: true mean is not equal to 0 9 percent confidence interval: sample estimates: mean of x Dando como resultado un por lo que no hay evidencia estadística suficiente para rechazar la hipótesis nula de igualdad de las medias de las evaluaciones de los dos métodos. Aplicamos un nuevo test sobre la diferencia entre el clasificador bayesiano ingenuo y las máquinas de vectores soporte: t_bayes_svm <- t.test(diferencias2$bayes_svm, conf.level = 0.9) print(t_bayes_svm) One Sample t-test data: Diferencias2$Bayes_SVM t =.4, df = 9, p-value = 0.2 alternative hypothesis: true mean is not equal to 0 9 percent confidence interval: sample estimates: mean of x Donde vemos que no podemos rechazar la hipótesis nula. Y por último un test sobre SVM y Arboles de decisión: t_svm_arbol <- t.test(diferencias2$svm_arbol, conf.level = 0.9) print(t_svm_arbol) One Sample t-test data: Diferencias2$SVM_Arbol t = 4.482, df = 9, p-value = alternative hypothesis: true mean is not equal to 0 9 percent confidence interval: sample estimates: mean of x Mostrando que se puede rechazar la hipótesis nula de igualdad... Promedio sobre los Folds En vista de estas observaciones decidimos repetir las pruebas, pero ahora calculando los promedios sobre los resultados de cada validación cruzada, es decir, sobre los folds, generando así, un valor por cada ejecución. Este

6 Poniendo R a trabajar: Evaluación y comparativa de varios algoritmos de inducción utilizando el dataset iris. pág. procedimiento se beneficiará de la posibilidad de realizar un mayor número de ejecuciones por lo que reasignaremos la variable niter a valor de 0: set.seed(2) niter 0 kfold 0 Y luego repetimos el proceso del cálculo de la validación cruzada. Este proceso genera una matriz para cada método que es insertado en la lista results Aquí podemos ver un ejemplo las primeras (de 0) ejecuciones de la matriz de resultados del método de árbol de clasificación rpart de dimensiones niter x kfold (0 x 0 = 00): fold fold2 fold fold4 fold fold fold fold8 fold9 fo El primer cálculo que hacemos sobre los resultados obtenidos sobre cada algoritmo es el de su media y varianza: Algoritmo Media Desv Bayes Árbol SVM NNet Donde podemos observar claras diferencias no solo en las medias sino también sus desviaciones estándar. A continuación, se presenta un gráfico con los resultados obtenidos por cada método a lo largo de todas las ejecuciones: ggplot(data=datos, mapping=aes(x=ejecución, y=precision, color=algoritmo),) + geom_line(size=) + ggtitle("precisión global según validación cruzada por algoritmo").4. Evaluación de los promedios obtenidos por validación cruzada Según la propuesta clásica de la validación cruzada, la evaluación generada por cada ejecución se calcula con el promedio obtenido de las evaluaciones realizadas sobre cada uno de los folds: Resultados data.frame(ejecución= :niter, Bayes = apply(results[["bayes"]],, mean), Arbol = apply(results[["arbol"]],, mean), SVM = apply(results[["svm"]],, mean), NNet = apply(results[["nnet"]],, mean) ) Datos gather(resultados, "Algoritmo", "Precisión", 2:) Observemos que hemos empleado en el segundo parámetro de la función apply, el valor, que nos indica, que las funciones mean será aplicada a las filas de la matriz de resultados, es decir, sobre los diferentes folds. Generándose una lista de evaluaciones promedio para cada una de las ejecuciones. Aquí podemos ver el resultado obtenido en las primeras ejecuciones, en el data.frame: Ejecución Bayes Arbol SVM NNet Aquí se puede ver mejor como hay cierta estabilidad en los diferentes métodos, pero además se mueven en rangos un poco diferentes entre sí. Veamos cómo se distribuyen los resultados de las evaluaciones (precisiones globales) de los métodos empleados: ggplot(data=datos, mapping=aes(x=precision, fill=algoritmo)) + geom_density(aes(y =..density..), position = "identity", color = "black", alpha = 0.) + ggtitle("distribución de la precisión según algoritmo utilizado")

7 Poniendo R a trabajar: Evaluación y comparativa de varios algoritmos de inducción utilizando el dataset iris. pág. En esta oportunidad podemos aplicar una prueba de hipótesis de diferencia de medias de la T de Student de dos muestras con varianzas diferentes: Prueba de hipótesis sobre las diferencias entre naivebayes y rpart t_bayes_arbol t.test( Resultados$Bayes, Resultados$Arbol, var.equal = FALSE, conf.level = 0.9) print(t_bayes_arbol) Se observa que los mejores resultados son obtenidos por las Redes neuronales, seguido del clasificador bayesiano ingenuo, luego las máquinas de vectores soporte y, por último, los arboles de decisión. Aquí se puede ver el mismo resultado pero separando cada gráfica de densidad en un gráfico diferente: ggplot(data=datos, mapping=aes(x=precision, fill=algoritmo)) + geom_density(aes(y =..density..), position = "identity", color = "black", alpha = 0.) + facet_grid(algoritmo ~.) + ggtitle("distribución de la precisión según algoritmo utilizado") Welch Two Sample t-test data: Resultados$Bayes and Resultados$Arbol t = 2.4, df =., p-value < 2.2e- alternative hypothesis: true differ in means is not equal to 0 9 percent confidence interval: sample estimates: mean of x mean of y Prueba de hipótesis sobre las diferencias entre naivebayes y svm t_bayes_svm t.test( Resultados$Bayes, Resultados$SVM, var.equal = FALSE, conf.level = 0.9) print(t_bayes_svm) Welch Two Sample t-test data: Resultados$Bayes and Resultados$SVM t = 0.20, df =.0, p-value =.e- alternative hypothesis: true differ in means is not equal to 0 9 percent confidence interval: sample estimates: mean of x mean of y Prueba de hipótesis sobre las diferencias entre svm y rpart Solo resta verificar estas observaciones con las respectivas pruebas de hipótesis que corroboren si estas diferencias son estadísticamente significativas... Aplicación de la prueba de hipótesis t_svm_arbol t.test(resultados$svm, Resultados$Arbol, var.equal = FALSE, conf.level = 0.9) print(t_svm_arbol) Welch Two Sample t-test data: Resultados$SVM and Resultados$Arbol t = 8.442, df =.22, p-value < 2.2e-

8 Poniendo R a trabajar: Evaluación y comparativa de varios algoritmos de inducción utilizando el dataset iris. pág. 8 alternative hypothesis: true differ in means is not equal to 0 9 percent confidence interval: sample estimates: mean of x mean of y Prueba de hipótesis sobre las diferencias entre nnet y naivebayes t_nnet_bayes t.test(resultados$nnet, Resultados$Bayes, var.equal = FALSE, conf.level = 0.9) print(t_nnet_bayes) Welch Two Sample t-test data: Resultados$NNet and Resultados$Bayes t =.8, df =.80, p-value = alternative hypothesis: true differ in means is not equal to 0 9 percent confidence interval: sample estimates: mean of x mean of y Observaciones y conclusiones al estudio En las páginas anteriores hemos realizado una comparación de los algoritmos de clasificación más conocidos utilizando para ello las distintas implementaciones de las que dispone R. 2. La aplicación del test sobre el vector de diferencias (una sola muestra) impide aplicar un test de hipótesis que considere la posibilidad de que las muestras a comparar tengan varianzas diferentes (como sucede en las pruebas realizadas). Obviando lo anterior, en general, se verificaron diferencias significativas entre todos los métodos, permitiendo descartar la aleatoriedad como la causa de las mismas. Es decir que para este problema en particular algunos métodos tienen mejores resultados y son más adecuados que otros. REFERENCIAS [Lopez & Herrero 04] López, J. M., & Herrero, J. G. (2004). Técnicas de análisis de datos. Universidad Carlos III, Madrid. [Bouckaert 04] R. Bouckaert. Bayesian network classifiers in Weka. Tech. rep. 4/2004. Department of Computer Science, Hamilton, New Zealand: The University of Waikato. [Bhargava et al. ] Bhargava, N., Sharma, G., Bhargava, R., & Mathuria, M. (20). Decision tree analysis on j48 algorithm for data mining. Proceedings of International Journal of Advanced Research in Computer Science and Software Engineering, (). [Loh 08] Loh, W. Y. (2008). Classification and regression tree methods. Encyclopedia of statistics in quality and reliability. [Jiawei 0] Jiawei Han. (200) Data Mining: Concepts and Techniques. San Francisco, CA, USA: Morgan Kaufmann Publishers. Todos los métodos se aplicaron sobre el mismo banco de datos (iris) lo que nos ha permitido realizar una medida de rendimiento que enfrente a los métodos uno a uno para intentar obtener medidas de la diferencia de rendimiento entre ellos con suficiente significancia estadística. Por ello se utilizó un test t-student para descartar que tales diferencias realmente ocurrieron y son medibles. Sin embargo, dado el pequeño tamaño del dataset y su relativa sencillez no es recomendable extrapolas conclusiones generales ya que para hacerlo deberíamos utilizar diferentes datasets de distintos tamaños y distinta naturaleza de datos y repetir los experimentos un número suficiente de veces lo que nos asegure que minimizamos la influencia del azar y el sesgado que puedan contener los datos. Además, de la forma en que se realiza el experimento podemos identificar al menos dos debilidades que pudieran haber afectado los resultados:. El cálculo de los promedios sobre las ejecuciones en lugar de hacerlo sobre los folds como lo propone el equipo de Weka, provoca que nuestra muestra tenga un número muy pequeño de observaciones (igual a kfold), esto pudiera provocar un menor nivel de certeza en la decisión. No menos queda claro cuál sería la ventaja de incrementar el número de ejecuciones, dado que la muestra final seguía siendo del mismo tamaño.

> t.test (datos_x, datos_y =NULL, alternative = "two.sided", mu = 0, paired =FALSE, var.equal = FALSE, conf.level= 0.95)

> t.test (datos_x, datos_y =NULL, alternative = two.sided, mu = 0, paired =FALSE, var.equal = FALSE, conf.level= 0.95) INTERVALOS DE CONFIANZA Y TEST DE HIPOTESIS CON R Estudiemos ahora la función en el lenguaje R, que nos ofrece tanto estimaciones puntuales y por intervalos de confianza como test de hipótesis, es: > t.test

Más detalles

Tema 5 - III: Inferencia sobre dos poblaciones: proporciones, varianzas, medias

Tema 5 - III: Inferencia sobre dos poblaciones: proporciones, varianzas, medias Tema 5 - III: Inferencia sobre dos poblaciones: proporciones, varianzas, medias Biología y Biología sanitaria - UAH Marcos Marvá Ruiz Para dos poblaciones Se presentan conjuntamente intervalos y contrastes

Más detalles

Titulo: MATLAB como herramienta metodológica en la enseñanza y su incidencia en el rendimiento académico universitario.

Titulo: MATLAB como herramienta metodológica en la enseñanza y su incidencia en el rendimiento académico universitario. Titulo: MATLAB como herramienta metodológica en la enseñanza y su incidencia en el rendimiento académico universitario. Autores: Eder Lenin Cruz Siguenza, Carlos José Santillán Mariño,, Luis Fernando Buenaño

Más detalles

Métodos Estadísticos de la Ingeniería Tema 11: Contrastes de Hipótesis Grupo B

Métodos Estadísticos de la Ingeniería Tema 11: Contrastes de Hipótesis Grupo B Métodos Estadísticos de la Ingeniería Tema 11: Contrastes de Hipótesis Grupo B Área de Estadística e Investigación Operativa Licesio J. Rodríguez-Aragón Abril 2010 Contenidos...............................................................

Más detalles

Ricardo Aler Mur EVALUACIÓN DE TÉCNICAS DE APRENDIZAJE-2 COMPARACIÓN DE MODELOS

Ricardo Aler Mur EVALUACIÓN DE TÉCNICAS DE APRENDIZAJE-2 COMPARACIÓN DE MODELOS Ricardo Aler Mur EVALUACIÓN DE TÉCNICAS DE APRENDIZAJE-2 COMPARACIÓN DE MODELOS En esta clase se desarrolla de manera técnica una cuestión introducida en la clase anterior: la comparación de dos modelos.

Más detalles

Análisis Estadísticos con R

Análisis Estadísticos con R Análisis Estadísticos con R Ibon Martínez http://fdesnedecor.wordpress.com/ µ ¹ ½ http://fdesnedecor.wordpress.com/, Agosto 2011 p. 1/22 Los datos Vamos a plantear una serie de análisis estadísticos con

Más detalles

Reconocimiento de Patrones

Reconocimiento de Patrones Reconocimiento de Patrones Técnicas de validación (Clasificación Supervisada) Jesús Ariel Carrasco Ochoa Instituto Nacional de Astrofísica, Óptica y Electrónica Clasificación Supervisada Para qué evaluar

Más detalles

Relación entre tests de hipótesis bilaterales e intervalos de confianza

Relación entre tests de hipótesis bilaterales e intervalos de confianza Relación entre tests de hipótesis bilaterales e intervalos de confianza Introduciremos esta relación a través de un ejemplo. Sea X 1, X,..., X n una m.a. de una distribución N ( µ, σ ). Sabemos que, cuando

Más detalles

1.- Lo primero que debemos hacer es plantear como hasta ahora la hipótesis nula y la alternativa

1.- Lo primero que debemos hacer es plantear como hasta ahora la hipótesis nula y la alternativa PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE MEDIAS Introducción Como hemos visto hasta ahora ya sabemos cómo hacer inferencia sobre bases de datos para medias con valores conocidos y desconocidos de desviación

Más detalles

Análisis de dos muestras

Análisis de dos muestras Análisis de dos muestras Supongamos el siguiente ejemplo. La resistencia a la rotura de un componente eléctrico constituye una característica importante de un cierto proceso. Un fabricante utiliza un material

Más detalles

Comparación de métodos de aprendizaje sobre el mismo problema

Comparación de métodos de aprendizaje sobre el mismo problema Comparación de métodos de aprendizaje sobre el mismo problema Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Contenido 1. Motivación. Test de

Más detalles

Tópicos Selectos en Aprendizaje Maquinal. Clasificación y Regresión con Datos Reales

Tópicos Selectos en Aprendizaje Maquinal. Clasificación y Regresión con Datos Reales Tópicos Selectos en Aprendizaje Maquinal Guía de Trabajos Prácticos N 2 Clasificación y Regresión con Datos Reales 18 de septiembre de 2014 1. Objetivos Introducir conceptos básicos de aprendizaje automático.

Más detalles

EVALUACIÓN EN APRENDIZAJE. Eduardo Morales y Jesús González

EVALUACIÓN EN APRENDIZAJE. Eduardo Morales y Jesús González EVALUACIÓN EN APRENDIZAJE Eduardo Morales y Jesús González Significancia Estadística 2 En estadística, se dice que un resultado es estadísticamente significante, cuando no es posible que se presente por

Más detalles

Índice general. Prefacio...5

Índice general. Prefacio...5 Índice general Prefacio...5 Capítulo 1 Introducción...13 1.1 Introducción...13 1.2 Los datos...19 1.3 Etapas en los procesos de big data...20 1.4 Minería de datos...21 1.5 Estructura de un proyecto de

Más detalles

Técnicas de aprendizaje sobre series temporales

Técnicas de aprendizaje sobre series temporales Técnicas de aprendizaje sobre series temporales Contenido 1. Motivación. 2. Ejemplo del Problema. 3. Aproximaciones al problema de clasificación de series temporales. 4. Aprendizaje de reglas. 5. Boosting

Más detalles

Ejemplo resistencias (primera parte)

Ejemplo resistencias (primera parte) Ejemplo resistencias (primera parte) Un proveedor de materiales de enseñanza entrega un conjunto de resistencias eléctricas y afirma que las resistencias de sus productos, medidos en Ohm, se distribuyen

Más detalles

PRÁCTICA 8: CONTRASTES DE HIPÓTESIS PARAMÉTRICOS

PRÁCTICA 8: CONTRASTES DE HIPÓTESIS PARAMÉTRICOS PRÁCTICA 8: CONTRASTES DE HIPÓTESIS PARAMÉTRICOS Objetivos Plantear y resolver problemas mediante la técnica de contraste de hipótesis. Asimilar los conceptos relativos a contrastes de hipótesis, tales

Más detalles

1.-DATOS DE LA ASIGNATURA

1.-DATOS DE LA ASIGNATURA 1.-DATOS DE LA ASIGNATURA Nombre de la asignatura: Minería de Datos Carrera: Ingeniería en Sistemas Computacionales Clave de la asignatura: ADM-0701 Horas teoría-horas práctica-créditos: 3-2-8 2.-HISTORIA

Más detalles

Manual de bolsillo del MegaStat * * MegaStat es un complemento estadístico para el Excel elaborado por el profesor J. B. Orris de Butler University.

Manual de bolsillo del MegaStat * * MegaStat es un complemento estadístico para el Excel elaborado por el profesor J. B. Orris de Butler University. Manual de bolsillo del MegaStat * * MegaStat es un complemento estadístico para el Excel elaborado por el profesor J. B. Orris de Butler University. Estadísticas con MegaStat AgeCat Gender Seconds 1 2

Más detalles

RESPUESTAS BREVES A LA PRÁCTICA 6

RESPUESTAS BREVES A LA PRÁCTICA 6 RESPUESTAS BREVES A LA PRÁCTICA 6 EJERCICIO [Prueba bilateral] Se rechaza la hipótesis nula con un nivel de significación del % (z =5). La evidencia muestral sostiene la hipótesis de que el puntaje medio

Más detalles

Informe Técnico Centro de Pruebas de Cocinas CPC-Bolivia CPC-IT-02/0911

Informe Técnico Centro de Pruebas de Cocinas CPC-Bolivia CPC-IT-02/0911 Informe Técnico Centro de Pruebas de Cocinas CPC-Bolivia CPC-IT-02/0911 Metodología estadística para la comparación de cocinas mejoradas a leña bajo el protocolo WBT Septiembre 2011 La Paz, Bolivia CPC

Más detalles

CAPÍTULO 10 ESTIMACIÓN POR PUNTO Y POR INTERVALO 1.- ESTIMACIÓN PUNTUAL DE LA MEDIA Y DE LA VARIANZA 2.- INTERVALO DE CONFIANZA PARA LA MEDIA

CAPÍTULO 10 ESTIMACIÓN POR PUNTO Y POR INTERVALO 1.- ESTIMACIÓN PUNTUAL DE LA MEDIA Y DE LA VARIANZA 2.- INTERVALO DE CONFIANZA PARA LA MEDIA CAPÍTULO 10 ESTIMACIÓN POR PUNTO Y POR INTERVALO 1.- ESTIMACIÓN PUNTUAL DE LA MEDIA Y DE LA VARIANZA 2.- INTERVALO DE CONFIANZA PARA LA MEDIA 3.- INTERVALO DE CONFIANZA PARA LA VARIANZA 4.- INTERVALO DE

Más detalles

Comparación de dos métodos de aprendizaje sobre el mismo problema

Comparación de dos métodos de aprendizaje sobre el mismo problema Comparación de dos métodos de aprendizaje sobre el mismo problema Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Contenido 1. Motivación 2.

Más detalles

Aplicación del Análisis de la Varianza para estudiar el tiempo de acceso en las aulas informáticas

Aplicación del Análisis de la Varianza para estudiar el tiempo de acceso en las aulas informáticas Aplicación del Análisis de la Varianza para estudiar el tiempo de acceso en las aulas informáticas Apellidos, nombre Capilla Romá, Carmen 1 (ccapilla@eio.upv.es) Departamento Centro 1 Estadística e Investigación

Más detalles

Estadística Convocatoria de Junio Facultad de Ciencias del Mar. Curso 2009/10 28/06/10

Estadística Convocatoria de Junio Facultad de Ciencias del Mar. Curso 2009/10 28/06/10 1. El Indice Climático Turístico (ICT), definido por Mieczkowski en 1985 es un índice que toma valores en una escala de 0 a 100 y tiene como objetivo valorar la calidad que ofrece el clima de una región

Más detalles

Estadística Aplicada y Lingüística Empírica. Introducción a las Tecnologías del Habla 2 o cuatrimestre 2014 Agustín Gravano

Estadística Aplicada y Lingüística Empírica. Introducción a las Tecnologías del Habla 2 o cuatrimestre 2014 Agustín Gravano Estadística Aplicada y Lingüística Empírica Introducción a las Tecnologías del Habla 2 o cuatrimestre 2014 Agustín Gravano Antes de empezar... Entrá a http://tinyurl.com/experimento-ith Ingresá tu altura

Más detalles

Universidad Rafael Belloso Chacín (URBE) Cátedra: Fundamentos de Estadística y Simulación Básica Semestre Profesor: Jaime Soto

Universidad Rafael Belloso Chacín (URBE) Cátedra: Fundamentos de Estadística y Simulación Básica Semestre Profesor: Jaime Soto Universidad Rafael Belloso Chacín (URBE) Cátedra: Fundamentos de Estadística y Simulación Básica Semestre 2011-1 Profesor: Jaime Soto PRUEBA DE HIPÓTESIS Ejemplo El jefe de la Biblioteca de la URBE manifiesta

Más detalles

Intervalos de confianza con STATGRAPHICS

Intervalos de confianza con STATGRAPHICS Intervalos de confianza con STATGRAPHICS Ficheros empleados: TiempoaccesoWeb.sf3 ; TiempoBucle.sf3; 1. Ejemplo 1: Tiempo de acceso a una página Web Se desean construir intervalos de confianza para la media

Más detalles

Introducción a los contrastes de hipótesis. Límites de confianza y. de confianza y pruebas estadísticas

Introducción a los contrastes de hipótesis. Límites de confianza y. de confianza y pruebas estadísticas Introducción a los contrastes de hipótesis. Límites de confianza y pruebas estadísticas [0011] DEFAD. Métodos de contraste de hipótesis y diseño de experimentos 2017 18 1 Inferencia estadística 2 3 4 5

Más detalles

MATERIA: ESTADÍSTICA EJEMPLOS DE POSIBLES PREGUNTAS DE EXAMEN. a. Cuáles son las escalas en que pueden estar los datos en un análisis estadístico.

MATERIA: ESTADÍSTICA EJEMPLOS DE POSIBLES PREGUNTAS DE EXAMEN. a. Cuáles son las escalas en que pueden estar los datos en un análisis estadístico. MATERIA: ESTADÍSTICA EJEMPLOS DE POSIBLES PREGUNTAS DE EXAMEN 1. Conteste las preguntas siguientes: a. Cuáles son las escalas en que pueden estar los datos en un análisis estadístico. 1. 2. 3. 4. b. En

Más detalles

Parte de las notas tomadas de: Prof. Edgar Acuña UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ

Parte de las notas tomadas de: Prof. Edgar Acuña  UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ Estadística stica No Paramétrica Parte de las notas tomadas de: Prof. Edgar Acuña http://math.uprm math.uprm/edu/~edgar UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ METODOS ESTADISTICOS

Más detalles

Contraste de hipótesis con STATGRAPHICS

Contraste de hipótesis con STATGRAPHICS Contraste de hipótesis con STATGRAPHICS Ficheros empleados: Transistor.sf3, Estaturas.sf3 1. Introducción: Una forma habitual de hacer inferencia acerca de uno o más parámetros de una población consiste

Más detalles

PRÁCTICA 5: CONTRASTES DE HIPÓTESIS PARAMÉTRICOS

PRÁCTICA 5: CONTRASTES DE HIPÓTESIS PARAMÉTRICOS PRÁCTICA 5: CONTRASTES DE HIPÓTESIS PARAMÉTRICOS Objetivos Plantear y resolver problemas mediante la técnica de contraste de hipótesis. Asimilar los conceptos relativos a contrastes de hipótesis, tales

Más detalles

Práctica de INTERVALOS DE CONFIANZA

Práctica de INTERVALOS DE CONFIANZA Práctica de INTERVALOS DE CONFIANZA 1.- Objetivo de la práctica El objetivo de esta práctica es familiarizarse con la estimación por intervalos, el concepto de intervalo de confianza y su aplicación en

Más detalles

Explicación de la tarea 8 Felipe Guerra

Explicación de la tarea 8 Felipe Guerra Pruebas de bondad de ajuste de χ 2 Explicación de la tarea 8 Felipe Guerra Las pruebas de bondad de ajuste corresponden a una comparación entre la distribución de una muestra aleatoria y una distribución

Más detalles

Aplicaciones de apoyo al diagnóstico médico. Identificación de objetos amigos y enemigos. Identificación de zonas afectadas por un desastre natural.

Aplicaciones de apoyo al diagnóstico médico. Identificación de objetos amigos y enemigos. Identificación de zonas afectadas por un desastre natural. Capítulo 5 Evaluación En muchas ocasiones requerimos hacer una evaluación muy precisa de nuestros algoritmos de aprendizaje computacional porque los vamos a utilizar en algún tipo de aplicación que así

Más detalles

Facultad de Ciencias del Mar, Curso 2011/12 Estadística Convocatoria Extraordinaria de Diciembre. 7/12/11

Facultad de Ciencias del Mar, Curso 2011/12 Estadística Convocatoria Extraordinaria de Diciembre. 7/12/11 Facultad de Ciencias del Mar, Curso 2011/12 Estadística Convocatoria Extraordinaria de Diciembre. 7/12/11 1. Una empresa de acuicultura dispone de 8 jaulas flotantes para la cría de doradas. La producción

Más detalles

EJERCICIOS RESUELTOS

EJERCICIOS RESUELTOS CAPÍTULO 10 ESTIMACIÓN POR PUNTO Y POR INTERVALO 10.1.- Generar 100 muestras de tamaño 200 de una variable aleatoria N(0,1). Calcular los correspondientes intervalos de confianza para la media al nivel

Más detalles

Práctica 5: Clasificación con número variable de ejemplos.

Práctica 5: Clasificación con número variable de ejemplos. 5º INGENIERÍA DE TELECOMUNICACIÓN INTELIGENCIA ARTIFICIAL Y RECONOCIMIENTO DE PATRONES Práctica 5: Clasificación con número variable de ejemplos. Objetivos: Utilización de conjuntos de entrenamiento y

Más detalles

Comparación de poblaciones independientes con STATGRAPHICS -Intervalos de Confianza y Contrastes de Hipótesis-

Comparación de poblaciones independientes con STATGRAPHICS -Intervalos de Confianza y Contrastes de Hipótesis- Comparación de poblaciones independientes con STATGRAPHICS -Intervalos de Confianza y Contrastes de Hipótesis- 1. Introducción Ficheros de datos: longitudclavos.sf3 y reciennacidos.sf3 En las siguientes

Más detalles

Estadística I Tema 8: Contraste de hipótesis. POBLACIÓN NORMAL: CONTRASTE DE HIPÓTESIS PARA LA MEDIA

Estadística I Tema 8: Contraste de hipótesis. POBLACIÓN NORMAL: CONTRASTE DE HIPÓTESIS PARA LA MEDIA Estadística I Tema 8: Contraste de hipótesis. POBLACIÓN NORMAL: CONTRASTE DE HIPÓTESIS PARA LA MEDIA 1) Para la realización de este ejercicio se necesitan los siguientes paquetes: RcmdrPlugin.TeachingDemos

Más detalles

Estadísticas Pueden ser

Estadísticas Pueden ser Principios Básicos Para iniciar en el curso de Diseño de experimentos, es necesario tener algunos conceptos claros en la parte de probabilidad y estadística. A continuación se presentan los conceptos más

Más detalles

Estadística I Solución Examen Final- 19 de junio de Nombre y Apellido:... Grupo:...

Estadística I Solución Examen Final- 19 de junio de Nombre y Apellido:... Grupo:... Estadística I Examen Final- 19 de junio de 2009 Nombre y Apellido:... Grupo:... (1) La siguiente tabla muestra las distribuciones de frecuencias absolutas de la variable altura (en metros) de n = 500 estudiantes

Más detalles

Análisis computacional Inferencia Estadística: intervalos de confianza y contrastes de hipótesis

Análisis computacional Inferencia Estadística: intervalos de confianza y contrastes de hipótesis Análisis computacional Inferencia Estadística: intervalos de confianza y contrastes de hipótesis omán Salmerón Gómez 29 de abril de 2014 Inferencia Estimación (computacional) mediante intervalos de confianza

Más detalles

Identificación de variables asociadas al éxito académico en Estudiantes de la Facultad de Informática Mazatlán

Identificación de variables asociadas al éxito académico en Estudiantes de la Facultad de Informática Mazatlán Your logo Identificación de variables asociadas al éxito académico en Estudiantes de la Facultad de Informática Mazatlán Universidad Autónoma de Sinaloa M.C. Rogelio Estrada Lizárraga Abril 16, 2013 Introducción

Más detalles

Estadística Básica con R y R Commander

Estadística Básica con R y R Commander Estadística Básica con R y R Commander 2 a Edición Revisada (Versión Marzo 2013) Autores: A. J. Arriaza Gómez F. Fernández Palacín M. A. López Sánchez M. Muñoz Márquez S. Pérez Plaza A. Sánchez Navas Copyright

Más detalles

UNIVERSIDAD DE ATACAMA

UNIVERSIDAD DE ATACAMA UNIVERSIDAD DE ATACAMA FACULTAD DE INGENIERÍA / DEPARTAMENTO DE MATEMÁTICA ESTADÍSTICA Y PROBABILIDADES PAUTA DE CORRECCIÓN PRUEBA N 3 Profesor: Hugo S. Salinas. Segundo Semestre 200. Se investiga el diámetro

Más detalles

Práctica 5 Prueba de Hipótesis

Práctica 5 Prueba de Hipótesis 05/08/08 1 Práctica 5 Prueba de Hipótesis PROGRAMA: SPSS ARCHIVOS: Equinos.sav; Temp.xls, Cabras.xls, Car_boer.xls, Malinois.xls. Conocimientos previos: Conocer y utilizar la distribución normal estándar,

Más detalles

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES 1 APRENDIZAJE PROBABILÍSTICO NAIVE BAYES Bases de Datos Masivas 9 de Noviembre de 2016 2 Razonamiento Probabilístico Es una herramienta de aprendizaje estadístico. Se trata de razonar en un contexto incierto;

Más detalles

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA www.jmontenegro.wordpress.com UNI ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA PROF. JOHNNY MONTENEGRO MOLINA Objetivos Desarrollar el concepto de estimación de parámetros Explicar qué es una

Más detalles

Convocatoria Ordinaria de Junio, Curso 2011/12 8/6/2012

Convocatoria Ordinaria de Junio, Curso 2011/12 8/6/2012 Grado en Ciencias del Mar Estadística Convocatoria Ordinaria de Junio, Curso 2011/12 8/6/2012 Entre los años 1999 y 2004 se llevaron a cabo diversas campañas para el estudio del anidamiento y éxito reproductivo

Más detalles

TEMA Nº 2 CONTRASTE DE HIPÓTESIS EN LOS DISEÑOS DE UNA MUESTRA

TEMA Nº 2 CONTRASTE DE HIPÓTESIS EN LOS DISEÑOS DE UNA MUESTRA TEMA Nº 2 CONTRASTE DE HIPÓTESIS EN LOS DISEÑOS DE UNA MUESTRA TIPOS DE CONTRASTE Contrastes paramétricos: Son aquellos que se relacionan con el estudio de un parámetro poblacional (media, varianza, proporción,

Más detalles

Má M s á ter e Se S c e tor o Fa F r a ma m c a éu é t u ico Es E tad a í d stica a ap a l p icad a a d Teresa Villagarcía

Má M s á ter e Se S c e tor o Fa F r a ma m c a éu é t u ico Es E tad a í d stica a ap a l p icad a a d Teresa Villagarcía Máster Sector Farmacéutico Estadística aplicada Teresa Villagarcía Indice Probabilidad intuitiva Distribución normal Estimación de la normal Intervalos de confianza Contraste de hipótesis: Una media Dos

Más detalles

Caso particular: Contraste de homocedasticidad

Caso particular: Contraste de homocedasticidad 36 Bioestadística: Métodos y Aplicaciones 9.5.5. Caso particular: Contraste de homocedasticidad En la práctica un contraste de gran interés es el de la homocedasticidad o igualdad de varianzas. Decimos

Más detalles

Diseño de experimentos - prueba de hipótesis.

Diseño de experimentos - prueba de hipótesis. Diseño de experimentos - prueba de hipótesis http://www.academia.utp.ac.pa/humberto-alvarez/diseno-deexperimentos-y-regresion Inferencia estadística Conjunto de métodos y técnicas que permiten inducir,

Más detalles

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD Contrastes de hipótesis paramétricos para una y varias muestras: contrastes sobre la media, varianza y una proporción. Contrastes sobre la diferencia

Más detalles

Ejemplo de Regresión Lineal Simple.

Ejemplo de Regresión Lineal Simple. Ejemplo de Regresión Lineal Simple. El archivo sargos.csv contiene datos morfométricos de una muestra de 200 sargos. Estos datos pueden leerse en R mediante la sintaxis: sargos=read.table(file="http://dl.dropbox.com/u/7610774/sargos.csv",

Más detalles

Perceptrón simple y perceptrón multicapa

Perceptrón simple y perceptrón multicapa UNL - FICH - Departamento de Informática - Ingeniería Informática Inteligencia Computacional Guía de trabajos prácticos Perceptrón simple y perceptrón multicapa. Objetivos Aplicar diferentes arquitecturas

Más detalles

Pruebas de Hipótesis

Pruebas de Hipótesis Pruebas de Hipótesis Una prueba de hipótesis es una técnica de Inferencia Estadística que permite comprobar si la información que proporciona una muestra observada concuerda (o no) con la hipótesis estadística

Más detalles

INTRODUCTION TO MACHINE LEARNING ISABELLE GUYON

INTRODUCTION TO MACHINE LEARNING ISABELLE GUYON INTRODUCTION TO MACHINE LEARNING ISABELLE GUYON 2008-02-31 Notas tomadas por: María Eugenia Rojas Qué es Machine Learning? El proceso de aprendizaje de maquina consiste en tener una gran base de datos

Más detalles

Primeros pasos con Knime. Luis P. Guerra Velasco

Primeros pasos con Knime. Luis P. Guerra Velasco Primeros pasos con Knime Luis P. Guerra Velasco May 7, 2008 2 Índice 1 Introducción 5 2 Instalación y extensiones 7 3 Preprocesado y manejo de datos 9 4 Clasificación no supervisada 13 5 Clasificación

Más detalles

Introducción a pruebas de hipótesis

Introducción a pruebas de hipótesis Introducción a pruebas de hipótesis ESTA 3042 (ESTA 3042) Tests of Significance 1 / 18 Testing de Hipótesis Hemos visto como estimar un parámetro de una población. (ESTA 3042) Tests of Significance 2 /

Más detalles

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación Facultad de Ciencias Sociales, UdelaR Índice 1. Repaso: estimadores y estimaciones. Propiedades de los estimadores. 2. Estimación puntual.

Más detalles

DCA: Es el más simple de todos los diseños, solamente se estudia el. en diferentes tratamientos o niveles.

DCA: Es el más simple de todos los diseños, solamente se estudia el. en diferentes tratamientos o niveles. completamente aleatorizado (DCA): 1 solo factor con diferentes tratamientos. DCA: Es el más simple de todos los diseños, solamente se estudia el efecto de un factor, el cual se varía en diferentes tratamientos

Más detalles

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8.

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8. UNIVERSIDAD NACIONAL ABIERTA ESTADÍSTICA GENERAL 745) VICERRECTORADO ACADÉMICO INTEGRAL ÁREA DE MATEMÁTICA Fecha: 17/ 01 /009 MODELO DE RESPUESTAS Objetivos, 3, 4, 5, 6, 7, Y 8. OBJ. 1 PTA 1 Una compañía

Más detalles

06/05/2015. Ángel Serrano Sánchez de León

06/05/2015. Ángel Serrano Sánchez de León 06/05/2015 Ángel Serrano Sánchez de León 1 Índice Distribuciones muestrales Media Proporción Dibujando la normal estándar Entendiendo el nivel de confianza Estimación de intervalos de confianza (IC) Media

Más detalles

GUÍA DE APRENDIZAJE ASIGNATURA SISTEMAS BASADOS EN APRENDIZAJE AUTOMATICO. CURSO ACADÉMICO - SEMESTRE Primer semestre

GUÍA DE APRENDIZAJE ASIGNATURA SISTEMAS BASADOS EN APRENDIZAJE AUTOMATICO. CURSO ACADÉMICO - SEMESTRE Primer semestre GUÍA DE APRENDIZAJE ASIGNATURA SISTEMAS BASADOS EN APRENDIZAJE AUTOMATICO CURSO ACADÉMICO - SEMESTRE 2015-16 - Primer semestre FECHA DE PUBLICACIÓN Julio - 2015 Datos Descriptivos Nombre de la Asignatura

Más detalles

Introducción a pruebas de hipótesis

Introducción a pruebas de hipótesis Introducción a pruebas de hipótesis ESTA 3042 enero 2013 (ESTA 3042) Tests of Significance enero 2013 1 / 18 Testing de Hipótesis Hemos visto como estimar un parámetro de una población. Ahora pasamos a

Más detalles

Estructura de este tema. Tema 3 Contrastes de hipótesis. Ejemplo

Estructura de este tema. Tema 3 Contrastes de hipótesis. Ejemplo Estructura de este tema Tema 3 Contrastes de hipótesis José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Qué es un contraste de hipótesis? Elementos de un contraste: hipótesis,

Más detalles

Teoría de la decisión Estadística

Teoría de la decisión Estadística Pruebas de hìpótesis Unidad 8. Pruebas de hipótesis. Formulación general. Distribución de varianza conocida. Prueba para la bondad del ajuste. Validación de modelos 1 Formulación Una Hipótesis es una proposición

Más detalles

Sistemas de Percepción Visión por Computador

Sistemas de Percepción Visión por Computador Nota: Algunas de las imágenes que aparecen en esta presentación provienen del libro: Visión por Computador: fundamentos y métodos. Arturo de la Escalera Hueso. Prentice Hall. Sistemas de Percepción Visión

Más detalles

Tópicos Selectos en Aprendizaje Maquinal. Algoritmos para Reconocimiento de Patrones

Tópicos Selectos en Aprendizaje Maquinal. Algoritmos para Reconocimiento de Patrones Tópicos Selectos en Aprendizaje Maquinal Guía de Trabajos Prácticos N 1 (2da. parte) Algoritmos para Reconocimiento de Patrones 20 de Octubre de 2010 1. Objetivos Introducir conceptos básicos de aprendizaje

Más detalles

Tema 13 : Intervalos de probabilidad y confianza. Hipótesis y decisiones estadísticas.

Tema 13 : Intervalos de probabilidad y confianza. Hipótesis y decisiones estadísticas. Tema 13 : Intervalos de probabilidad y confianza. Hipótesis y decisiones estadísticas. ---Intervalo de probabilidad (IP) Permite predecir el comportamiento de las muestras. Si de una población se sacan

Más detalles

Selección de atributos

Selección de atributos Selección de atributos Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Contenido Introducción Clasificación de las técnicas Esquema General Evaluadores

Más detalles

2. EL DISEÑO UNIFACTORIAL (COMPARACION DE TRATAMIENTOS)

2. EL DISEÑO UNIFACTORIAL (COMPARACION DE TRATAMIENTOS) 2. EL DISEÑO UNIFACTORIAL (COMPARACION DE TRATAMIENTOS) La idea principal en este capitulo es el inicio a planear los diseño experimentales y su correspondiente análisis estadístico. En este caso iniciaremos

Más detalles

Tema 4: Estadística Inferencial Unidad 1: Intervalos de Confianza y Contrastes de Hipótesis

Tema 4: Estadística Inferencial Unidad 1: Intervalos de Confianza y Contrastes de Hipótesis Estadística Tema 4: Estadística Inferencial Unidad 1: Intervalos de Confianza y Contrastes de Hipótesis Área de Estadística e Investigación Operativa Licesio J. Rodríguez-Aragón Diciembre 010 Contenidos...............................................................

Más detalles

PRUEBA DE HIPÓTESIS BENJAMIN MAMANI CONDORI

PRUEBA DE HIPÓTESIS BENJAMIN MAMANI CONDORI PRUEBA DE HIPÓTESIS BENJAMIN MAMANI CONDORI 2014 Para qué es útil la estadística inferencial? Se utiliza para probar hipótesis y generalizar los resultados obtenidos en la muestra a la población o universo.

Más detalles

PRECISIÓN DE SISTEMAS DE MEDICIÓN DESTRUCTIVOS CON MEDICIONES SIMULTÁNEAS.

PRECISIÓN DE SISTEMAS DE MEDICIÓN DESTRUCTIVOS CON MEDICIONES SIMULTÁNEAS. PRECISIÓN DE SISTEMAS DE MEDICIÓN DESTRUCTIVOS CON MEDICIONES SIMULTÁNEAS. Américo G. Rivas C Prof. de la Escuela de Ingeniería Industrial. Área de Postgrado. Maestría en Ingeniería Industrial. Universidad

Más detalles

Cómo se hace la Prueba t a mano?

Cómo se hace la Prueba t a mano? Cómo se hace la Prueba t a mano? Sujeto Grupo Grupo Grupo Grupo 33 089 74 5476 84 7056 75 565 3 94 8836 75 565 4 5 704 76 5776 5 4 6 76 5776 6 9 8 76 5776 7 4 78 6084 8 65 45 79 64 9 86 7396 80 6400 0

Más detalles

INFERENCIA PARÁMETRICA: RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS

INFERENCIA PARÁMETRICA: RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS . Metodología en Salud Pública INFERENCIA PARÁMETRICA: RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS Autor: Clara Laguna 7.1 INTRODUCCIÓN Los datos categóricos o variables cualitativas son muy frecuentes en

Más detalles

Aprendizaje Automatizado

Aprendizaje Automatizado Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto

Más detalles

Minería de datos. Unidad 2. El proceso KDD Evaluación, difusión y uso. M en I Sara Vera Noguez

Minería de datos. Unidad 2. El proceso KDD Evaluación, difusión y uso. M en I Sara Vera Noguez Minería de datos Unidad 2. El proceso KDD Evaluación, difusión y uso M en I Sara Vera Noguez El proceso KDD Hernández, 2008 p.20 La parte iterativa Una vez obtenido el modelo se debe evaluar Si satisface

Más detalles

Contrastes de hipótesis. 1: Ideas generales

Contrastes de hipótesis. 1: Ideas generales Contrastes de hipótesis 1: Ideas generales 1 Inferencia Estadística paramétrica población Muestra de individuos Técnicas de muestreo X 1 X 2 X 3.. X n Inferencia Estadística: métodos y procedimientos que

Más detalles

Prueba de Hipótesis. Bondad de Ajuste. Tuesday, August 5, 14

Prueba de Hipótesis. Bondad de Ajuste. Tuesday, August 5, 14 Prueba de Hipótesis Bondad de Ajuste Conceptos Generales Hipótesis: Enunciado que se quiere demostrar. Prueba de Hipótesis: Procedimiento para determinar si se debe rechazar o no una afirmación acerca

Más detalles

Pruebas de hipótesis

Pruebas de hipótesis Pruebas de hipótesis Álvaro José Flórez 1 Escuela de Ingeniería Industrial y Estadística Facultad de Ingenierías Febrero - Junio 2012 Prueba de hipótesis Uno de los objetivos de la estadística es hacer

Más detalles

Diseño de experimentos Hugo Alexer Pérez Vicente

Diseño de experimentos Hugo Alexer Pérez Vicente Diseño de experimentos Hugo Alexer Pérez Vicente Métodos complementarios al análisis de varianza Comparaciones múltiples Comparación o pruebas de rangos múltiples Después de que se rechazó la hipótesis

Más detalles

UNIVERSIDAD TECNICA PARTICULAR DE LOJA ESTADISTICA Y PROBABILIDAD ENSAYO N 8

UNIVERSIDAD TECNICA PARTICULAR DE LOJA ESTADISTICA Y PROBABILIDAD ENSAYO N 8 UNIVERSIDAD TECNICA PARTICULAR DE LOJA ESTADISTICA Y PROBABILIDAD ENSAYO N 8 DOCENTE: Ing. Patricio Puchaicela ALUMNA: Andrea C. Puchaicela G. CURSO: 4to. Ciclo de Electrónica y Telecomunicaciones AÑO

Más detalles

6. Inferencia con muestras grandes. Informática. Universidad Carlos III de Madrid

6. Inferencia con muestras grandes. Informática. Universidad Carlos III de Madrid 6. Inferencia con muestras grandes 1 Tema 6: Inferencia con muestras grandes 1. Intervalos de confianza para μ con muestras grandes 2. Determinación del tamaño muestral 3. Introducción al contraste de

Más detalles

Módulo Minería de Datos Diplomado. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Módulo Minería de Datos Diplomado. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Error de clasificación Algoritmo de aprendizaje h Entrenamiento DATOS Evaluación

Más detalles

Pruebas de hipótesis estadísticas acerca de los cambios en la incidencia de la pobreza aplicando la metodología preliminar del CTMP

Pruebas de hipótesis estadísticas acerca de los cambios en la incidencia de la pobreza aplicando la metodología preliminar del CTMP Nota Técnica 0/006 Pruebas de hipótesis estadísticas acerca de los cambios en la incidencia de la pobreza aplicando la metodología preliminar del CTMP 000 005 Octubre de 006 Av. Paseo de la Reforma #51,

Más detalles

Complementación y ampliación de la currícula de la Maestría 2017 Maestría en Generación y Análisis de Información Estadística

Complementación y ampliación de la currícula de la Maestría 2017 Maestría en Generación y Análisis de Información Estadística ampliación de la currícula Maestría en Generación y Análisis de Información Estadística Programa abierto de ampliación de la currícula Maestría en Generación y Análisis de Información Estadística La Maestría

Más detalles

Aprendizaje: Boosting y Adaboost

Aprendizaje: Boosting y Adaboost Técnicas de Inteligencia Artificial Aprendizaje: Boosting y Adaboost Boosting 1 Indice Combinando clasificadores débiles Clasificadores débiles La necesidad de combinar clasificadores Bagging El algoritmo

Más detalles

4. Prueba de Hipótesis

4. Prueba de Hipótesis 4. Prueba de Hipótesis Como se ha indicado anteriormente, nuestro objetivo al tomar una muestra es extraer alguna conclusión o inferencia sobre una población. En nuestro interés es conocer acerca de los

Más detalles

Probabilidad Condicional

Probabilidad Condicional Probabilidad Condicional Ejemplo: Se tiene que dos bolas son seleccionadas aleatoriamente (sin reemplazo) de un caja que contiene r bolas rojas y b bolas azules. Cuál es la probabilidad de que la primera

Más detalles

Práctica 4. Contraste de hipótesis

Práctica 4. Contraste de hipótesis Práctica 4. Contraste de hipótesis Estadística Facultad de Física Objetivos Ajuste a una distribución discreta uniforme Test χ 2 Comparación de muestras Ajuste a una distribución normal 1 Introducción

Más detalles

ANÁLISIS ESTADÍSTICO PRUEBA DE HIPOTESIS

ANÁLISIS ESTADÍSTICO PRUEBA DE HIPOTESIS ANÁLISIS ESTADÍSTICO PRUEBA DE HIPOTESIS Jorge Fallas jfallas56@gmail.com 2010 1 Temario Datos experimentales y distribuciones de referencia Una media poblacional Hipótesis nula, alternativa y nivel de

Más detalles

Aprendizaje Automatizado. Árboles de Clasificación

Aprendizaje Automatizado. Árboles de Clasificación Aprendizaje Automatizado Árboles de Clasificación Árboles de Clasificación Estudiaremos un algoritmo para la creación del árbol. Selección de atributos comenzando en el nodo raíz. Proceso recursivo. Árboles

Más detalles

Práctica 7. Muestreo

Práctica 7. Muestreo Práctica 7. Muestreo En la siguiente práctica, tenemos que estimar la media poblacional de un lote de 2000 rodamientos que necesitamos en el proceso de fabricación de nuestro producto. Intentaremos simular

Más detalles

IIC 3633 - Sistemas Recomendadores

IIC 3633 - Sistemas Recomendadores Tests Estadísticos para Comparar Recomendaciones IIC 3633 - Sistemas Recomendadores Denis Parra Profesor Asistente, DCC, PUC CHile Page 1 of 11 TOC En esta clase 1. Significancia Estadistica de los Resultados

Más detalles