Clasificador Bayesiano de Documentos MedLine a partir de Datos No Balanceados

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Clasificador Bayesiano de Documentos MedLine a partir de Datos No Balanceados"

Transcripción

1 Clasificador Bayesiano de Documentos MedLine a partir de Datos No Balanceados Raquel Laza y Reyes Pavón Sistemas de Software Inteligentes y Adaptables, Universidad de Vigo, Ourense, España. Resumen. La presencia de clases no balanceadas es un problema frecuente en muchas aplicaciones de aprendizaje automático y cuyos efectos sobre el desempeño de clasificadores estándar son notables. Se han desarrollado numerosas técnicas para hacer frente al problema de las clases no balanceadas en el aprendizaje automático. En este artículo se ha investigado acerca de la aplicación de técnicas de balanceado de datos en la clasificación de documentos MedLine, donde cada documento se ha representado por un conjunto de términos de la ontología MeSH y donde el clasificador se ha basado en una red bayesiana. Abstract. Imbalanced datasets is a common problem in many applications of machine learning and its effects on the performance of standard classifiers are remarkable. Numerous methods have been developed to face the problem of unbalanced class in machine learning. In this paper we investigate the application of techniques for balancing data to classify MedLine documents, where each document is identified by a set of MeSH ontology terms and where the classifier is based on a bayesian network. Palabras clave: Aprendizaje automático, clasificadores, datos no balanceados, redes bayesianas, documentos MedLine, términos MeSH. Introducción La clasificación automática de textos en categorías predefinidas se basa principalmente en el uso de técnicas de aprendizaje automático: procesos inductivos que construyen clasificadores de forma automática a partir de conjuntos preclasificados de documentos. Uno de los principales problemas con los que se enfrenta esta tarea es la presencia de categorías o clases no balanceadas. El problema de clases desbalanceadas ocurre cuando el número de instancias pertenecientes a cada clase es muy diferente. Ello provoca que los clasificadores tengan gran exactitud para calcular modelos sobre la clase mayoritaria pero una pobre exactitud predictiva sobre los datos de la clase minoritaria []. Esto ocurre puesto que el clasificador intenta reducir el error global, de forma que el error de clasificación no tiene en cuenta la distribución de los datos. El contar con pocos datos

2 para una clase dificulta el desempeño de los clasificadores porque existen pocos datos para soportar los posibles patrones que se van construyendo. El problema de los datos no balanceados en minería de datos es un tema que ha cobrado gran interés para muchos investigadores, quienes han desarrollado sus propias técnicas para solventar este problema, el cual está presente no solo en la clasificación de textos, sino en muchos otros dominios de aplicación entre los que podemos citar la detección de fraude, detección de derrames de petróleo a partir de imágenes de radar, detección de fallas en procesos industriales, diagnósticos médicos, etc [2]. En muchas de estas aplicaciones la clase minoritaria es justamente la clase de mayor interés y la que más nos interesa clasificar correctamente, puesto que está formada por los casos que ocurren con menor frecuencia o que son más difíciles de identificar [4]. Por ejemplo, en el caso de detección de cáncer, tenemos pocos pacientes enfermos (clase minoritaria) y gran cantidad de pacientes sanos (clase mayoritaria). En este caso, nos interesa detectar correctamente a los pacientes enfermos, y permitir un pequeño error en la clase mayoritaria, ya que un falso negativo (caso en el que un paciente enfermo se clasifica como sano) es grave, puesto que rara vez un paciente al que no le detectan cáncer pide una segunda opinión. En este artículo trataremos el problema de los conjuntos de datos desequilibrados en clasificación de textos biomédicos. Se parte de un trabajo previo en el que se realizó una propuesta de modelo binario de clasificación automática de documentos MedLine a partir de su vocabulario MeSH 2 [3]. El modelo binario de clasificación utiliza Redes Bayesianas, para representar las relaciones de dependencia e independencia entre términos MeSH de un conjunto de documentos previamente clasificados en dos categorías: relevantes y no relevantes. Dado un nuevo documento para ser clasificado, sus términos MeSH se utilizan como evidencias en la red y la probabilidad de relevancia es calculada utilizando el proceso de inferencia de la red bayesiana. Finalmente el documento es clasificado en relevante o no relevante en función de la probabilidad obtenida. El conjunto de datos utilizado para la creación y prueba del modelo se tomó de los documentos presentados en TREC 25 Genomics track [4]. Los resultados obtenidos fueron prometedores, pero se detectó un problema de sobre entrenamiento de la red con documentos no relevantes, debido a que el conjunto de datos del que se dispone está desequilibrado, donde la mayoría de los documentos pertenecen a la clase de no relevantes. El objetivo de este documento es tratar este problema, estudiando las técnicas ya existentes y adaptándolas a nuestro caso de estudio, intentando mejorar la clasificación de documentos relevantes. Como solución se han planteado diversos métodos: redimensionar el conjunto de entrenamiento o utilizar pesos para las categorías dando mayor peso a las minoritarias. Además de esta introducción el artículo incluye otras secciones. En la Sección 2 se describen las técnicas existentes para tratar el problema de datos no balanceados. La Sección 3 está dedicada al estado del arte, incluyendo trabajos existentes en el dominio que nos ocupa. En la Sección 4 se describen los datos utilizados para la base de datos de documentos médicos de los que dispone la National Library of Medicine (NLM) 2 Medicine Subject Headings. Taxonomía jerárquica de términos médicos y biológicos creada por la NLM para indexar artículos de revistas biomédicas

3 experimentación, las pruebas realizadas y se presentan los resultados obtenidos. Y en la última sección se plantean las conclusiones y el trabajo futuro. 2 El Problema de las Clases No Balanceadas Existen distintas propuestas para resolver la problemática de construcción de modelos de clasificación a partir de datos no balanceados. Algunas propuestas afectan a los algoritmos de clasificación y otras a los datos. En el primer caso, se asigna un coste diferencial a las instancias de entrenamiento según las frecuencias de las clases [4]. En el segundo caso, se muestrea el conjunto de datos original, ya sea agregando casos sintéticos o repetidos de la clase minoritaria, o eliminando casos de la clase mayoritaria [3]. 2. Estrategias a Nivel de los Algoritmos En este tipo de estrategias no se modifica la distribución de los datos y, por consiguiente, no se sobrecargan los conjuntos de datos. Los clasificadores sensibles al coste (cost sensitive) han sido desarrollados para tratar los problemas con diferentes costes de error de clasificación. Estos clasificadores pueden ser usados en conjuntos de datos no balanceados configurando un coste mayor a los ejemplos mal clasificados de la clase minoritaria que los de la clase mayoritaria. Estos métodos se utilizan en muchas aplicaciones reales, como puede ser en dominios médicos, donde un error de tipo falso negativo puede provocar que no se hagan más pruebas a un paciente enfermo diagnosticado sano y que, con el paso del tiempo, desarrolle la enfermedad. La incorporación de coste lleva a los algoritmos de clasificación a cometer menos errores en la clase minoritaria, lo que en este caso de problemas es deseable. El problema principal con el aprendizaje sensible al coste es que los costes son generalmente desconocidos y difíciles de encontrar porque dependen del problema en cuestión. Sin embargo, existe una relación directa entre aumentar el coste de clasificación y aumentar el número de ejemplos de la clase minoritaria. Otros métodos que se sitúan en este tipo de estrategias son el ajuste de probabilidad en las hojas del árbol de decisión y el aprendizaje de una única clase (recognitionbased) en lugar de a partir de dos clases (discrimination based). 2.2 Estrategias a Nivel de los Datos Una de las técnicas más utilizadas para solucionar el problema de datos no balanceados es el muestreo. A continuación se definen dos formas de muestro de datos:. Sobre muestreo (oversampling): Consiste en balancear la distribución de las clases añadiendo ejemplos a la clase minoritaria. Podemos diferenciar dos métodos. Random oversampling que consiste en generar ejemplos de la clase minoritaria de forma aleatoria hasta que la clase minoritaria tenga tantos ejemplos como la

4 mayoritaria. Focused oversampling que consiste en generar ejemplos de la clase minoritaria de forma aleatoria pero limitando el número de nuevas instancias. Alguno de los algoritmos más representativos es SMOTE (Synthetic Minority Oversampling TEchnique) [5] que crea nuevos ejemplos de la clase minoritaria interpolando los valores de vecinos más cercanos a ejemplos de la clase minoritaria. 2. Submuestreo (undersampling): Se eliminan ejemplos de la clase mayoritaria. Existen dos métodos como en el caso de oversampling. Random undersampling que consiste en reducir de forma aleatoria la clase mayoritaria hasta obtener el mismo tamaño que la clase minoritaria. Focused undersampling que se diferencia de la anterior en que se limita el número de ejemplos a eliminar. El muestreo de datos presenta tanto ventajas como inconvenientes. El submuestreo aleatorio puede provocar pérdida de información al eliminar ejemplos de la clase mayoritaria que resultan útiles, pero tiene como ventaja que reduce el tiempo de procesado del conjunto de datos. El sobre muestreo aleatorio tiene la ventaja de no perder información pero puede añadir ejemplos de la clase minoritaria con ruido además de aumentar el tiempo de procesado del conjunto de datos. Existen métodos que intentan mitigar estos problemas mejorando las estrategias de muestreo. Así, el uso de Tomek links[8][] es una estrategia de submuestreo que elimina sólo ejemplos de la clase mayoritaria que sean redundantes o que se encuentren muy próximos a los de la clase minoritaria. Existen también estrategias para combinar oversampling y undersampling [6]. 3 Estado del Arte Hay investigadores que han desarrollado diferentes métodos para resolver el problema de las clases desbalanceadas. Métodos que incluyen cambiar el tamaño del conjunto de datos de entrenamiento, ajuste de costes de error de clasificación y aprendizaje de la clase minoritaria. Ling & Li [9] sobre muestrearon la clase minoritaria añadiendo copias de los ejemplos de la clase minoritaria al conjunto de datos de entrenamiento. En submuestreo, los ejemplos podían ser seleccionados de forma aleatoria, ejemplos que están lejos de los ejemplos de la clase minoritaria. En otro experimento, sobremuestrearon los ejemplos de la clase minoritaria con reemplazamiento para que coincidiese el número de ejemplos de la clase mayoritaria y minoritaria. La combinación de undersampling y oversampling no proporcionó una mejora significante en la clasificación. Kubat y Matwin [] estudiaron varios métodos de reducción de la clase mayoritaria. Ellos usaron la media geométrica como medida de mejora del clasificador, que se relaciona con un simple punto en la curva ROC. La clase minoritaria fue dividida en 4 categorías: ruido solapando la región de decisión de la clase minoritaria, ejemplos frontera, ejemplos redundantes y ejemplos seguros. Los ejemplos frontera fueron detectados usando el concepto Tomek links [].

5 Zhang y Mani [3] investigaron el efecto de undersampling sobre el algoritmo KNN con diferentes métodos de selección de ejemplos. Seleccionaron un porcentaje dado de ejemplos de la clase mayoritaria (negativa) de diferentes formas: selección aleatoria, selección de ejemplos negativos más próximos a ejemplos positivos y selección de ejemplos negativos con mayor distancia a los positivos. Como medidas de mejora se utilizaron la medida de exhaustividad (recall), precisión y F measure. En su estudio, la exhaustividad decrementaba al incrementar el porcentaje de selección de ejemplos negativos, mientras que la precisión incrementaba. Entre los métodos de selección de ejemplos que utilizaron, el método aleatorio y la selección de ejemplos más próximos a todos los ejemplos positivos dieron mejores resultados. Otra propuesta fue la que propuso Domingos[]. El comparó MetaCost, método para hacer clasificadores sensibles al coste, con undersampling de la clase mayoritaria y con oversampling de la clase minoritaria. Obtuvo que metacost mejora sobre cualquiera y que undersampling es preferible a oversampling. La probabilidad de cada clase es estimada y los ejemplos son etiquetados con respecto al coste de clasificación incorrecta (misclassification costs). El dominio de recuperación de información (Information Retrieval) [2] también se enfrenta al problema de las clases desbalanceadas. Un documento o página web es convertido en una representación de bag of words: un vector de características reflejando las ocurrencias de palabras en la página. Normalmente, hay muy pocas instancias de la categoría interesante en categorización de textos. Al estar más representada la clase negativa ésta puede causar problemas en la evaluación de los clasificadores. Como medida de evaluación de los clasificadores en recuperación de información se utiliza normalmente la exhaustividad y precisión. Mladenié y Grobelnik [5] propusieron una selección de características con datos no balanceados en el dominio de recuperación de información. Ellos experimentaron con varios métodos de selección de características, y encontraron que el odds ratio combinado con el clasificador Naïve Bayes mejora en su dominio. Odds ratio es una medida de probabilidad usada para clasificar documentos en función de su relevancia para la clase minoritaria. 4 Caso de Estudio En este trabajo se aborda el problema de la clasificación de documentos MedLine a partir de su vocabulario MeSH utilizando un conjunto de datos no balanceado y empleando diferentes estrategias de balanceado de datos. 4. Datos Disponibles Como ya se ha mencionado, para la realización de este estudio se ha partido de un trabajo previo de clasificación de documentos MedLine usando términos MeSH [3]. Dicho trabajo utilizaba los documentos del TREC 25 Genomic track, los cuales estaban organizados en 4 categorías (A,E,G,T). Para cada categoría, la distribución de documentos relevantes y no relevantes es la que se observa en la Tabla. Se puede ver que el número de documentos no relevantes es mucho mayor que el de relevantes

6 en todos los conjuntos de entrenamiento y test. Nos encontramos ante una clara situación de desbalanceado de datos. Tabla. Número de documentos relevantes y no relevantes en los conjuntos de datos TREC 25 para cada una de las cuatro categorías. Categoría Conjuntos Relevantes No Relevantes A Entrenamiento Test E Entrenamiento Test G Entrenamiento Test T Entrenamiento Test Para realizar los experimentos se utilizó la herramienta Weka 3 [7], lo cual obligó al pre procesamiento de los documentos disponibles. Cada documento se convirtió en el conjunto de términos Mesh que contenía. Como consecuencia se generaron ocho matrices binarias que representan los conjuntos de datos de entrenamiento y test de las cuatro categorías definidas en TREC 25. En estas matrices cada fila se corresponde con un documento MedLine y cada columna con un término MeSH. Cada posición ij de cada matriz tomará valor si el término MeSH correspondiente a la columna j está presente en el documento Medline i. En otro caso ij contendrá el valor. La Figura muestra un ejemplo de matriz con doce documentos y doce términos MeSH. La columna Class tomará valor si un documento es relevante y cuando pertenece a la categoría no relevante. Para la generación de las matrices se ha considerado que si un término MeSH está presente en un documento, también lo están todos sus ancestros en la jerarquía MeSH. Por ejemplo, aquel documento que contenga el término A tendrá en esta columna un, pero también tendrá un en las columnas correspondientes a sus términos padres (A, A.47, A.47.25, A ) presentes en el documento. El volumen de datos soportado por cada matriz aconsejó tomar 2 medidas:. Representar los documentos por únicamente los términos que pertenezcan al mismo nivel de la jerarquía de términos MeSH, alcanzando como máximo el nivel. De esta forma, en lugar de disponer de dos matrices binarias para cada categoría (A,E,G,T), se dispone de 2 (2 x niveles). Con esta división se perseguía: Establecer las relaciones entre términos de diferentes categorías desde niveles tempranos, pudiendo ver si estas relaciones cambian al añadir más información. Disminuir el tiempo de procesado que Weka necesita para generar la red a partir de los datos cuando los documentos tienen muchos atributos. 3 Waikato Environment for Knowledge Analysis. Colección de algoritmos de aprendizaje automático para realizar tareas de minería de datos. Formado por herramientas de preprocesado de datos, clasificación, regresión, clustering, reglas de asociación y visualización.

7 Fig.. Matriz con doce documentos y doce términos MeSH. 2. Aplicar a cada documento un método de selección de características que permita reducir el número de términos MeSH que le identifican, quedándonos con los más representativos. De esta forma, para nuestras pruebas tenemos un conjunto de entrenamiento para cada nivel con los atributos más característicos de ese nivel. Los conjuntos de test contienen los mismos atributos que los conjuntos de entrenamiento [3]. En el trabajo previo [3] se han realizado las pruebas con los documentos pertenecientes a la categoría A del TREC 25 y se concluyó que a medida que aumentamos la cantidad de términos MeSH que representan los documentos, los diferentes datos estadísticos que miden la calidad de la clasificación obtenida mejoran. Y a partir del nivel seis se obtuvo un porcentaje de documentos bien clasificados de más del 95%. La Tabla 2 muestra los datos estadísticos obtenidos. 4.2 Pruebas Realizadas Partiendo de los datos disponibles, el objetivo de este trabajo es aplicar las técnicas existentes para solucionar el problema de datos no balanceados en el proceso de clasificación de documentos mencionado y analizar los resultados obtenidos, comparándolos con los resultados del trabajo previo. Precisamente las conclusiones de dicho trabajo previo han motivado que el estudio experimental realizado en este trabajo se reduzca a los documentos de la categoría A de TREC y a partir del nivel seis de la jerarquía de términos MeSH. Para la realización de nuestras pruebas hemos utilizado igualmente la herramienta Weka. Para la inducción del modelo Bayesiano se ha utilizado el mismo algoritmo que se había utilizado en el estudio previo [3], el algoritmo BayesNet que se encuentra en la ruta weka.classifiers.bayes.bayesnet y se han configurado los parámetros del algoritmo K2 como se proponía en [3]. Para el balanceado de datos se ha utilizado, por un lado la herramienta de preprocesado de datos, donde las estrategias a nivel de datos utilizadas se encuentran en la ruta weka.filters.supervised.instance. Se trata de estrategias de muestreo, en las que se puede diferenciar estrategia de undersampling (SpreadSubsample) y combinación

8 de ambas oversampling/undersampling (Resample). Y por otro lado, una estrategia a nivel de algoritmo, con la herramienta de clasificación, que se encuentra en la ruta weka.classifiers.meta.costsensitiveclassifier. En esta sección se ilustran las pruebas realizadas con las diferentes estrategias proporcionadas por Weka y se han analizado los resultados obtenidos. Tabla 2. Resultados de la categorización para los niveles MeSH Nivel Clase FPr Precisión Recall F measure,885,954,987, El desempeño de los algoritmos de aprendizaje automático es típicamente evaluado por una matriz de confusión como se ilustra en la Figura 2 (para problemas de 2 clases). Las columnas son la clase predicha y las filas la clase real. En la construcción de la matriz, TN es el número de ejemplos negativos correctamente clasificados (True Negatives), FP es el número de ejemplos negativos incorrectamente clasificados como positivos (False Positives), FN es el número de ejemplos incorrectamente clasificados como negativos (False Negatives) y TP es el número de ejemplos positivos correctamente clasificados (True Positives). Weka nos proporciona numerosos datos estadísticos. Uno de ellos es la matriz de confusión. Permite ver el porcentaje de ejemplos negativos mal clasificados (False positive rate) (), la exhaustividad (2), la precisión (3) o el valor F measure (4) entre otras. Estas medidas se tendrán en cuenta a lo largo de todas las pruebas realizadas en este artículo. En nuestro caso de estudio, los ejemplos de la clase negativa se corresponden con los documentos no relevantes y los de la clase positiva con los relevantes.

9 Clasificado Real Negativa Positiva Negativa TN FP Positiva FN TP Fig. 2. Matriz de Confusión!" FP rate=!"#$% () $" recall= $"#!% (2) $" precision = $"#!" (3) &. )*+,-.-/. *+,22 F measure = ()*+,-.-/ # *+,22) (4) 4.2. Resultados Experimentales con Undersampling En esta sección hablaremos de las pruebas realizadas con la estrategia de muestreo undersampling que se encuentra en la ruta weka.filters.supervised.instance.spreadsubsample de Weka. Esta técnica produce una submuestra aleatoria de un conjunto de datos. Permite especificar el máximo spread (relación) entre la clase más común y la clase menos frecuente. Por ejemplo, se puede especificar que hay a lo sumo un 2: de diferencia en la frecuencia de clases. Es decir, la clase mayoritaria tiene dos veces más ejemplos que la clase minoritaria. Esta técnica nos permite además configurar la opción de ajuste de pesos (adjustweights) que pondremos a falso para que los pesos de las instancias no se ajusten para minimizar el error global. En nuestro caso queremos

10 minimizar el error de la clase minoritaria, aunque con ello aumente el error en la clase mayoritaria. Hemos aplicado a la clase mayoritaria diferentes spread de sub muestreo. En la Tabla 3 se ilustra la matriz de confusión para el nivel 9 del conjunto de datos no balanceado. En la Tabla 4 podemos ver la matriz de confusión tras aplicar submuestreo con spread : al nivel 9 del conjunto de entrenamiento. El valor se corresponde con documentos no relevantes, mientras que el serán los relevantes. Como se puede observar en la Tabla 4 el número de documentos relevantes bien clasificados aumenta con respecto a los de la Tabla 3. Por otra parte, el número de documentos clasificados incorrectamente como relevantes también aumenta. En la Tabla 5 podemos ver los datos estadísticos obtenidos para cada uno de los niveles analizados y por spread de sub muestreo. Una relación de 6: en la columna Spread de la Tabla 5, significa que se trata del conjunto de datos no balanceado. Tabla 3. Matriz de confusión del nivel 9 con datos no balanceados Clasificado Real Tabla 4. Matriz de confusión del nivel 9 con spread : Clasificado Real

11 Tabla 5. Resultados de la categorización para los últimos niveles MeSH, aplicando diferentes relaciones de sub muestreo de la estrategia SpreadSubsample Nivel Spread Clase FPr Precisión Recall F measure 6: : : : : : : : : : : : : : : : : : : : : : : :

12 6: 2 : 6 : 3 :.5 : : Fig. 3. Variación de precisión del nivel Fig. 4. Variación de recall del nivel 9 por spread 9 por spread En la Tabla 5 se puede observar que el comportamiento de cada uno de los datos estadísticos para los distintos niveles es similar. Para comprender mejor este comportamiento nos hemos centrado en el nivel nueve. Aplicando undersampling, el porcentaje de documentos relevantes mal clasificados disminuye, y aunque el porcentaje de documentos no relevantes mal clasificados aumenta, aumenta en menor proporción, llegando a un equilibrio entre las dos clases (ver columna FPr). La precisión de la clasificación de documentos relevantes disminuye a medida que reducimos el número de ejemplos negativos, esto es debido al ligero aumento de documentos no relevantes mal clasificados. Por otra parte recall aumenta para los documentos relevantes, el porcentaje de documentos relevantes bien clasificados es mayor. En las Figuras 3 y 4 se puede observar esta evolución de la precisión y exhaustividad a medida que se reduce el número de documentos no relevantes en el nivel nueve para las distintas clases Resultados Experimentales con combinación de Oversampling y Undersampling En esta sección se han realizado pruebas combinando oversampling y undersampling. Para ello, hemos utilizado el método proporcionado por Weka y que se encuentra en la ruta weka.filters.supervised.instance.resample. Esta técnica produce un

13 subconjunto de datos aleatorio, se combina la técnica de oversampling con la técnica de undersampling. Weka nos permite la configuración de opciones de Resample, en especial a través del parámetro biastouniformclass. Un valor deja la distribución de clases como está, un valor asegura que la distribución de las clases es uniforme (similar cantidad de ejemplos en cada clase). Valores intermedios de bias balancearan las clases para mantener la distribución (oversampling y undersampling). Se mantendrá el porcentaje de instancias que se crean nuevas a, para indicar que el número de instancias que se genera es el mismo al conjunto original. En la Tabla 6 se muestra la matriz de confusión para el nivel 9 con un balanceado de datos al 75%. Si la comparamos con la Tabla 3, se puede ver que el número de documentos relevantes bien clasificados aumenta. La Tabla 7 muestra los datos estadísticos para los niveles 6 a con la distribución de las clases que se especifica en la columna Bias. La distribución cero indica que se trata del conjunto de datos no balanceado. Centrándonos en el nivel nueve de la Tabla 7, se puede observar que a medida que aumentamos el porcentaje de undersampling y oversampling el número de documentos relevantes clasificados incorrectamente va disminuyendo hasta un Tabla 6. Matriz de confusión del nivel 9 con Resample bias=.75 Clasificado Real porcentaje de undersampling y oversampling del 75%. Con una distribución uniforme de las clases el número de documentos relevantes mal clasificados aumenta un poco. La precisión de los documentos relevantes disminuye a medida que las clases se balancean, debido al aumento de los documentos no relevantes clasificados como relevantes (FP). El porcentaje de documentos relevantes clasificados correctamente (recall) aumenta hasta conseguir una distribución al 75%, a partir de ese momento disminuye ligeramente. Esto no ocurre con el resto de niveles, en los que recall va aumentando hasta que se consigue una distribución uniforme de las clases. Este empeoramiento en el nivel nueve podría ser debido a la eliminación de ejemplos de la clase mayoritaria potencialmente útiles o a la inclusión de ejemplos con ruido. Las Figuras 5 y 6 muestran la evolución de la precisión y exhaustividad a medida que la distribución de las clases tiende a ser uniforme.

14 Tabla 7. Resultados de la categorización para los últimos niveles MeSH, aplicando diferentes distribuciones de oversampling y undersampling de la estrategia Resample Nivel Bias Clase FPr Precisión Recall F measure

15 Fig. 5. Variación de precisión por porcentaje Fig. 6. Variación de recall por porcentaje de muestreo del nivel 9. de muestreo del nivel Resultados Experimentales Aplicando Aprendizaje Sensible al Coste Otra de las estrategias utilizadas en nuestro caso de estudio ha sido emplear un metaclasificador sensible al coste para darle alto coste a los ejemplos mal clasificados de la clase minoritaria. Weka nos proporciona un metaclasificador que se encuentra en la ruta weka.classifiers.meta.costsensitiveclassifier. Se usa como clasificador base BayesNet, el mismo con el que se han desarrollado todas las pruebas. Se configura la matriz de coste para dos clases y cambiando el coste de los ejemplos mal clasificados de la clase minoritaria (falsos negativos). Los costes de la matriz de coste como ya habíamos comentado, no son fáciles de encontrar. Pero existe una relación entre aumentar el coste de la clasificación y aumentar el número de ejemplos negativos. En las pruebas se han empleado costes 2, 3, 5, 8 y 5 sobre los falsos positivos. En la Tabla 8 se ilustra la matriz de confusión para el nivel 9 con un coste 5. Se puede observar que el número de documentos relevantes correctamente clasificados es mayor que el número de documentos relevantes bien clasificados de la Tabla 3. En la Tabla 9 se muestran los datos estadísticos para los niveles estudiados aplicando diferentes costes a la clase minoritaria. Podemos ver en la Tabla 9 que con esta técnica a medida que aumentamos el coste de clasificación de la clase minoritaria los ejemplos de la clase minoritaria son mejor clasificados. El porcentaje de documentos relevantes mal clasificados disminuye y el porcentaje de documentos relevantes correctamente clasificados aumenta. Las Figuras 7 y 8 muestran la evolución de la precisión y exhaustividad del nivel nueve por coste de clasificación de la clase minoritaria. Se puede observar que la exhaustividad aumenta para la clase positiva y disminuye ligeramente para la clase negativa debido al error de clasificación que se introduce a la clase negativa con el balanceado de datos. La precisión disminuye para los documentos relevantes por el mismo motivo.

16 Tabla 8. Matriz de confusión del nivel 9 con CostSensitiveClassifier. Coste =5 Clasificado Real Tabla 9. Resultados de la categorización para los últimos niveles MeSH, aplicando diferentes costes a los ejemplos mal clasificados de la clase minoritaria. Nivel Coste Clase FPr Precisión Recall F measure

17 Fig. 7. Variación de precisión por coste del Fig. 8. Variación de recall por coste del nivel 9 nivel 9

18 5 Conclusiones y Trabajos Futuros En este documento hemos descrito la aplicación de diferentes técnicas de balanceado de datos a un problema de clasificación en recuperación de información con clases no balanceadas. Especialmente, estudiamos los efectos de random undersampling, la combinación de oversampling y undersampling y la aplicación de costes de clasificación para los ejemplos positivos. Con los resultados obtenidos por nuestro clasificador podemos concluír que el número de documentos relevantes bien clasificados aumenta con las tres técnicas. En el 99% de los casos con una distribución totalmente uniforme de las clases se obtienen los mejores resultados. El otro % puede ser debido a la eliminación de ejemplos representativos de la clase mayoritaria o la inclusión de ejemplos con ruido en la clase minoritaria. Con la mejora en clasificación de documentos relevantes empeoramos un poco la clasificación de documentos no relevantes. Pero no resulta tan grave tener un documento no relevante clasificado como relevante que viceversa. Leerse documentos no relevantes no tiene tantos efectos negativos como no leerse alguno relevante. Entre las tres técnicas utilizadas, SpreadSubsample y CostSensitiveClassifier mejoran los resultados para los documentos relevantes. Los resultados obtenidos con una selección aleatoria de ejemplos (SpreadSubsample) son buenos pero sería interesante aplicar técnicas más sofisticadas y observar si existe una clara ventaja usándo estas nuevas técnicas. En futuros trabajos deberíamos estudiar algunas de esas técnicas de selección de ejemplos de la clase mayoritaria, para descartar ejemplos negativos de la región frontera, que son ruido o redundantes [][6] y aplicarlas a nuestro caso de estudio. Así como técnicas de selección de características, utilizando como medidas de clasificación odds ratio e information gain entre otras [5]. Como trabajo a realizar inmediatamente se plantea terminar las pruebas con los datos disponibles del TREC 25, ya que en algunos trabajos previos donde se han utilizado estos conjuntos de entrenamiento, los clasificadores no tenían igual comportamiento en las cuatro categorías. 6 Referencias. Chawla, N.V, Lazarevic, A., Hall, L.O. and Bowyer, K.W. SMOTEBoost: Improving Prediction of the Minority Class in Boosting. Journal Title: Principles of Data Mining and Knowledge Discovery. pp Chawla, N.V, Japkowicz, N. and Kolcz, A. Editorial: Special Issue on Learning from Imbalanced Data Sets. SIGKDD Explorations. Volume 6, Issue, pp. 6, Zhang, J. and Mani, I. KNN Approach to Unbalanced Data Distributions: A Case Study involving Information Extraction, ICML, Washington DC, Morales, E.F. and González, J.A. El Problema de las clases desbalanceadas. Instituto Nacional de Astrofísica, Óptica y Electrónica, 27.

19 5. Chawla, N.V., Bowyer, K.W., Hall, L.O., Kegelmeyer W.P. SMOTE: Syntetic Minority Oversampling Technique. Journal of Artificial Intelligence Research. Volume 6, pp Batista, G., Prati, R. and Monard, M.C. A study of the behavior of several methods for balancing machine learning training data. ACM SIGKDD Explorations. Volume 6:, pp. 2 29, June Weka Data Mining with Open Source Machine Learning Software in Java. The University of Waikato, New Zealand, Herrera, F. Clasificación con Datos no Balanceados. 9. Ling, C., and Li, C. Data Mining for Direct Marketing Problems and Solutions. In Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining (KDD 98) New York, NY. AAAI Press Kubat, M., and Matwin, S. Addressing the Curse of Imbalanced Training Sets: One Sided Selection. In Proceedings of the Fourteenth International Conference on Machine Learning, pp Domingos P. MetaCost: A General Method for Making Classifiers Cost Sensitive. Proceedings of the fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego,CA. pp Dumais, S., Platt, J., Heckerman, D., and Sahami, M. Inductive Learning Algorithms and Representations for Text Categorization. In Proceedings of the Seventh International Conference on Information and Knowledge Management, pp Glez Peña, D., López, S., Pavón R., Laza, R., Iglesias, E. and Borrajo, L. Classification of MedLine Documents Using MeSH Terms. Lecture Notes in Computer Science. Springer Berlin/Heidelberg. Distributed Computing, Artificial Intelligence, Bioinformatics, Soft Computing, and Ambient Assisted Living. Volume 558, pp Dayanik, A., Genkin, A., Kantor, P., Lewis, D.D. and Madigan, D. DIMACS at the TREC 25 genomics track. DIMACS, Rutgers University, Mladenié, D., and Grobelnik, M. Feature Selection for Unbalanced Class Distribution and Naive Bayes. In Proceedings of the 6th International Conference on Machine Learning, Morgan Kaufmann, pp Suman, S., Laddhad, K. and Deshmukh, U. Methods for Handling Highly Skewed Datasets. 25.

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces

Más detalles

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Emmanuel Anguiano-Hernández Abril 29, 2009 Abstract Tratando de mejorar el desempeño de un clasificador Naive

Más detalles

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA Enrique Puertas epuertas@uem.es Francisco Carrero fcarrero@uem.es José María Gómez Hidalgo jmgomez@uem.es Manuel de Buenaga buenga@uem.es

Más detalles

Estudio Comparativo de Técnicas de Balanceo de Datos en el Aprendizaje de Múltiples Instancias

Estudio Comparativo de Técnicas de Balanceo de Datos en el Aprendizaje de Múltiples Instancias Estudio Comparativo de Técnicas de Balanceo de Datos en el Aprendizaje de Múltiples Instancias Jose Arrieta*, Carlos Mera *Universidad Nacional de Colombia Sede Medellín, Medellín, Colombia Universidad

Más detalles

Preprocesamiento de datos termográficos por medio de técnicas de balanceo de clases y análisis de cúmulos (Clustering)

Preprocesamiento de datos termográficos por medio de técnicas de balanceo de clases y análisis de cúmulos (Clustering) Preprocesamiento de datos termográficos por medio de técnicas de balanceo de clases y análisis de cúmulos (Clustering) TESIS DE MAESTRÍA Nancy Pérez Castro Laboratorio Nacional de Informática Avanzada

Más detalles

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Ing. Juan Miguel Moine Ing. Cristian Germán Bigatti Ing. Guillermo Leale Est. Graciela Carnevali Est. Esther Francheli

Más detalles

Weka como herramienta de data mining

Weka como herramienta de data mining Weka como herramienta de data mining Lic. Aldave Rojas Isaac Alberto Instituto Tecnológico Superior de Ciudad Serdán Abstract El presente trabajo muestra un ejemplo introductorio a la herramienta de Data

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

Ordenamiento de imágenes Web de acuerdo a su relevancia utilizando un enfoque de fusión multimodal

Ordenamiento de imágenes Web de acuerdo a su relevancia utilizando un enfoque de fusión multimodal Ordenamiento de imágenes Web de acuerdo a su relevancia utilizando un enfoque de fusión multimodal Reporte final Ricardo Omar Chávez García Instituto Nacional de Astrofísica Óptica y Electrónica, 72840

Más detalles

Método rápido de preprocesamiento para clasificación en conjuntos de datos no balanceados

Método rápido de preprocesamiento para clasificación en conjuntos de datos no balanceados Método rápido de preprocesamiento para clasificación en conjuntos de datos no balanceados Liliana Puente-Maury 1, Asdrúbal López-Chau 2, William Cruz-Santos 2, Lourdes López-García 2 1 Universidad Autónoma

Más detalles

CLASIFICACIÓN TEXTUAL BASADA EN TÉRMINOS JERÁRQUICOS

CLASIFICACIÓN TEXTUAL BASADA EN TÉRMINOS JERÁRQUICOS XXV Jornadas de Automática Ciudad Real, del 8 al 10 de septiembre de 2004 CLASIFICACIÓN TEXTUAL BASADA EN TÉRMINOS JERÁRQUICOS Francisco Javier Panizo, José R. Villar, Ángel Alonso Área de Ingeniería de

Más detalles

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Amaro Camargo Erika, Reyes García Carlos A. Instituto Nacional de Astrofísica, Óptica

Más detalles

Aprendizaje Computacional. Eduardo Morales y Jesús González

Aprendizaje Computacional. Eduardo Morales y Jesús González Aprendizaje Computacional Eduardo Morales y Jesús González Objetivo General La capacidad de aprender se considera como una de los atributos distintivos del ser humano y ha sido una de las principales áreas

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Cómo se usa Data Mining hoy?

Cómo se usa Data Mining hoy? Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta

Más detalles

Evaluación de modelos para la predicción de la Bolsa

Evaluación de modelos para la predicción de la Bolsa Evaluación de modelos para la predicción de la Bolsa Humberto Hernandez Ansorena Departamento de Ingeniería Telemática Universidad Carlos III de Madrid Madrid, España 10003975@alumnos.uc3m.es Rico Hario

Más detalles

Clasificación Automática de Textos de Desastres Naturales en México

Clasificación Automática de Textos de Desastres Naturales en México Clasificación Automática de Textos de Desastres Naturales en México Alberto Téllez-Valero, Manuel Montes-y-Gómez, Olac Fuentes-Chávez, Luis Villaseñor-Pineda Instituto Nacional de Astrofísica, Óptica y

Más detalles

Método Supervisado orientado a la clasificación automática de documentos. Caso Historias Clínicas

Método Supervisado orientado a la clasificación automática de documentos. Caso Historias Clínicas Método Supervisado orientado a la clasificación automática de documentos. Caso Historias Clínicas Roque E. López Condori 1 Dennis Barreda Morales 2 Javier Tejada Cárcamo 2 Luis Alfaro Casas 1 1 Universidad

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Redes Bayesianas para predecir riesgo de plomo en sangre de puérperas y neonatos

Redes Bayesianas para predecir riesgo de plomo en sangre de puérperas y neonatos Redes Bayesianas para predecir riesgo de plomo en sangre de puérperas y neonatos Autores A.M. Sancho 1,2 ; V. Messina 3 ; M. Cuevas 4 ; I. Sattolo 2 ; R.Dante 1 ; A. Ricca 1, y L. De Oto 2 RESUMEN Las

Más detalles

WEKA TUTORIAL 1. Weka Tutorial en Clasificación de Documentos. Valeria Guevara. Thompson Rivers University

WEKA TUTORIAL 1. Weka Tutorial en Clasificación de Documentos. Valeria Guevara. Thompson Rivers University WEKA TUTORIAL 1 Weka Tutorial en Clasificación de Documentos Valeria Guevara Thompson Rivers University Author Note This is a final project COMP 4910 for the bachelors of computing science from the Thompson

Más detalles

Clasificación Bayesiana de textos y páginas web

Clasificación Bayesiana de textos y páginas web Clasificación Bayesiana de textos y páginas web Curso de doctorado: Ingeniería Lingüística aplicada al Procesamiento de Documentos Víctor Fresno Fernández Introducción Enorme cantidad de información en

Más detalles

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos I. Barbona - Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparison among

Más detalles

Aplicación de Redes bayesianas usando Weka.

Aplicación de Redes bayesianas usando Weka. Aplicación de Redes bayesianas usando Weka. Cynthia Lorena Corso 1, Fabian Gibellini 1 1 Universidad Tecnológica Nacional, Facultad Regional Córdoba Laboratorio de Sistemas de Información Maestro M. López

Más detalles

Sistema categorizador de ofertas de empleo informáticas

Sistema categorizador de ofertas de empleo informáticas Diego Expósito Gil diegoexpositogil@hotmail.com Manuel Fidalgo Sicilia Manuel_fidalgo@hotmail.com Diego Peces de Lucas pecesdelucas@hotmail.com Sistema categorizador de ofertas de empleo informáticas 1.

Más detalles

EXPERTO EN DATA SCIENCE

EXPERTO EN DATA SCIENCE POSTgrado Ingeniería EXPERTO EN DATA SCIENCE Machine Learning (Aprendizaje Automático) Data Analytics Data Science RStudio Caret Storm Spark Random Forest IPython NumPy Recall F-Measure A/B Testing Active

Más detalles

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre: : : lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. 12 6 lemas propios de la. 12 6 lemas propios de la.

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

Métricas de complejidad para la transformación del problema de detección de cáncer basado en

Métricas de complejidad para la transformación del problema de detección de cáncer basado en Índice para la transformación del problema de detección de cáncer basado en mamografías Alumna: Núria Macià Antoĺınez Asesora: Ester Bernadó Mansilla Núria Macià Antoĺınez PFC: 1/49 Índice 1 Planteamiento

Más detalles

Qué factores influyen más en el crecimiento de los emprendimientos?

Qué factores influyen más en el crecimiento de los emprendimientos? Qué factores influyen más en el crecimiento de los emprendimientos? José Cazal 1, María Messina 2, Esther Hochsztain 2 1 Facultad Politécnica, Universidad Nacional de Asunción. 2 Facultad de Ciencias Económicas

Más detalles

UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES

UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES José Alejandro Chiri Aguirre RESUMEN La predicción de recidiva en pacientes que han sido

Más detalles

Inteligencia Artificial II Propuesta de trabajo Detección de correo basura (anti-spam) mediante técnicas de Inteligencia Artificial

Inteligencia Artificial II Propuesta de trabajo Detección de correo basura (anti-spam) mediante técnicas de Inteligencia Artificial Inteligencia Artificial II Propuesta de trabajo Detección de correo basura (anti-spam) mediante técnicas de Inteligencia Artificial José F. Quesada 1 Introducción La idea de detección o filtrado de correo

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Práctica 1: Entorno WEKA de aprendizaje automático y data mining.

Práctica 1: Entorno WEKA de aprendizaje automático y data mining. PROGRAMA DE DOCTORADO TECNOLOGÍAS INDUSTRIALES APLICACIONES DE LA INTELIGENCIA ARTIFICIAL EN ROBÓTICA Práctica 1: Entorno WEKA de aprendizaje automático y data mining. Objetivos: Utilización de funciones

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

SVM: Máquinas de Vectores Soporte. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid

SVM: Máquinas de Vectores Soporte. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid SVM: Máquinas de Vectores Soporte Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Contenido 1. Clasificación lineal con modelos lineales 2. Regresión

Más detalles

Complejidad de los datos en las Redes Neuronales Artificiales: Estado de la Cuestión

Complejidad de los datos en las Redes Neuronales Artificiales: Estado de la Cuestión Complejidad de los datos en las Redes Neuronales Artificiales: Estado de la Cuestión P. Toribio 1, B. G. Rodriguez 1, R. Alejo 2 1 Centro Universitario UAEM Atlacomulco, Universidad Autónoma del Estado

Más detalles

Categorización de texto sensible al coste para el filtrado de contenidos inapropiados en Internet

Categorización de texto sensible al coste para el filtrado de contenidos inapropiados en Internet Categorización de texto sensible al coste para el filtrado de contenidos inapropiados en Internet José María Gómez Hidalgo Enrique Puertas Sánz Francisco Carrero García Manuel de Buenaga Rodríguez Departamento

Más detalles

Minería de Datos. Preprocesamiento: Reducción de Datos - Discretización

Minería de Datos. Preprocesamiento: Reducción de Datos - Discretización Minería de Datos Preprocesamiento: Reducción de Datos - Discretización Dr. Edgar Acuña Departamento de Ciencias Matemáticas Universidad de Puerto Rico-Mayaguez E-mail: edgar.acuna@upr.edu, eacunaf@gmail.com

Más detalles

OPTATIVA I: MINERIA DE DATOS

OPTATIVA I: MINERIA DE DATOS UNIVERSIDAD AUTÓNOMA DE CHIHUAHUA Clave: 08MSU007H Clave: 08USU4053W FACULTAD DE INGENIERÍA PROGRAMA DEL CURSO: OPTATIVA I: MINERIA DE DATOS DES: Programa(s) Educativo(s): Tipo de materia: Clave de la

Más detalles

CONSTRUCCIÓN DE UN FILTRO ANTI-SPAM

CONSTRUCCIÓN DE UN FILTRO ANTI-SPAM UNIVERSIDAD POLITÉCNICA DE MADRID FACULTAD DE INFORMÁTICA Enunciado del Trabajo para la asignatura Sistemas Informáticos Departamento de Inteligencia Artificial CONSTRUCCIÓN DE UN FILTRO ANTI-SPAM Curso

Más detalles

APROBACIÓN DE CRÉDITOS BANCARIOS UTILIZANDO INTELIGENCIA ARTIFICIAL

APROBACIÓN DE CRÉDITOS BANCARIOS UTILIZANDO INTELIGENCIA ARTIFICIAL APROBACIÓN DE CRÉDITOS BANCARIOS UTILIZANDO INTELIGENCIA ARTIFICIAL Israel Cueva Hidalgo Mayo, 2010 I. INTRODUCCIÓN II. Hoy en día son muchas las instituciones que conceden créditos a sus clientes; pero

Más detalles

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013 VivaMéxico sin PRI Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres Facultad de Ciencias de la Computación Benemérita Universidad Autónoma de Puebla Otoño 2013 IMAGENESpemexmorena Adquisición

Más detalles

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) Autor: Lic. Manuel Ernesto Acosta Aguilera Entidad: Facultad de Economía, Universidad de La Habana Dirección: Edificio

Más detalles

Clasificación de Documentos usando Naive Bayes Multinomial y Representaciones Distribucionales

Clasificación de Documentos usando Naive Bayes Multinomial y Representaciones Distribucionales Clasificación de Documentos usando Naive Bayes Multinomial y Representaciones Distribucionales Juan Manuel Cabrera Jiménez 1 and Fabricio O. Pérez Pérez 1 Instituto Nacional de Astrofísica Óptica y Electrónica,

Más detalles

Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular

Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular AUTORES: Fabián Cabrera Cuenca 1, Sergio Jonathan León García 2, Ilse Lorena Ycaza Díaz 3, Juan Aurelio Alvarado

Más detalles

Análisis de estrategias de clasificación multiclase en microarrays: relación con medidas de complejidad

Análisis de estrategias de clasificación multiclase en microarrays: relación con medidas de complejidad Análisis de estrategias de clasificación multiclase en microarrays: relación con medidas de complejidad L. Morán Fernández, V. Bolón-Canedo y A. Alonso-Betanzos Laboratorio de I+D en Inteligencia Artificial

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web

Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web A Comparison of Approaches to Semi-supervised Multiclass SVM for Web Page Classification Arkaitz Zubiaga,

Más detalles

M1. FUNDAMENTOS DE MINERÍA DE DATOS

M1. FUNDAMENTOS DE MINERÍA DE DATOS MÁSTER OFICIAL DE LA UNIVERSIDAD DE GRANADA "SOFT COMPUTING Y SISTEMAS INTELIGENTES" M1. FUNDAMENTOS DE MINERÍA DE DATOS J.L. CUBERO, F. BERZAL, F. HERRERA Dpto. Ciencias de la Computación e I.A. Universidad

Más detalles

Aproximación evolutiva a la inducción constructiva basada en expresiones algebraicas

Aproximación evolutiva a la inducción constructiva basada en expresiones algebraicas Aproximación evolutiva a la inducción constructiva basada en expresiones algebraicas Manuel Baena García, Rafael Morales Bueno y Carlos Cotta Porras Workshop MOISES Septiembre 2004 1/15 Contenido Inducción

Más detalles

Impacto de la Complejidad del Dominio en las Variaciones del Comportamiento de Procesos de Explotación de Información

Impacto de la Complejidad del Dominio en las Variaciones del Comportamiento de Procesos de Explotación de Información Impacto de la Complejidad del Dominio en las Variaciones del Comportamiento de Procesos de Explotación de Información Marcelo López Nocera Programa de Maestría en Ingeniería de Sistemas de Información.

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

Bibliografía Anotada

Bibliografía Anotada Maestría en Ingeniería de Sistemas y Computación Universidad Nacional de Colombia Bogotá D.C. June 2, 2006 Contenido Tema Amplio 1 Tema Amplio 2 3 4 5 Tema Tema Amplio Extracción de información y obtención

Más detalles

Introducción. Qué es machine learning? Algunos Tipos de Machine Learning. Generalización & Exploración. Ejemplos de aplicaciones en Machine Learning

Introducción. Qué es machine learning? Algunos Tipos de Machine Learning. Generalización & Exploración. Ejemplos de aplicaciones en Machine Learning Introducción Qué es aprendizaje automatizado e inferencia inductiva"? Para qué sirve? (ejemplos/aplicaciones) Tareas de aprendizaje Representación de datos Enfoques usados Concept learning: algoritmos

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

Mónica López Ratón BIOSTATECH, Advice, Training & Innovation in Biostatistics, S.L. Abril 2013. monica.lopez.raton@usc.es

Mónica López Ratón BIOSTATECH, Advice, Training & Innovation in Biostatistics, S.L. Abril 2013. monica.lopez.raton@usc.es Mónica López Ratón BIOSTATECH, Advice, Training & Innovation in Biostatistics, S.L. Abril 2013 monica.lopez.raton@usc.es Selección de puntos de corte óptimos en los tests diagnósticos Índice 1. Motivación

Más detalles

PROGRAMA DE CURSO. Personal 6 10 3.0 0 7. Electivo para ICC FI2002 Electromagnetismo. Competencia a la que Tributa el Curso. Propósito del Curso

PROGRAMA DE CURSO. Personal 6 10 3.0 0 7. Electivo para ICC FI2002 Electromagnetismo. Competencia a la que Tributa el Curso. Propósito del Curso PROGRAMA DE CURSO Código Nombre CC5206 Introducción a la Minería de Datos Nombre en Inglés Introduction to Data Mining SCT es Horas de Horas Docencia Horas de Trabajo Docentes Cátedra Auxiliar Personal

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos Guía docente

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos Guía docente Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos Guía docente Impartido por: Juan Alfonso Lara Torralbo 1. Datos del docente NOMBRE Juan Alfonso Lara Torralbo FORMACIÓN

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Título: Árboles de Decisión automáticos para el Pronóstico del Rendimiento Docente (aplicable al Control de Procesos).

Título: Árboles de Decisión automáticos para el Pronóstico del Rendimiento Docente (aplicable al Control de Procesos). Título: Árboles de Decisión automáticos para el Pronóstico del Rendimiento Docente (aplicable al Control de Procesos). Autores: - MsC. Ing. Mario L. Basulto Núñez (ETECSA) mario.basulto@etecsa.cu - Lic.

Más detalles

Juan C Jiménez UPSI-Universidad Técnica Particular de Loja Loja Ecuador. tener en el aprendizaje y por ende maximizar la calidad de la enseñanza.

Juan C Jiménez UPSI-Universidad Técnica Particular de Loja Loja Ecuador. tener en el aprendizaje y por ende maximizar la calidad de la enseñanza. Recolección de datos de interacción de alumnos en una plataforma E-learning para obtener indicadores de interés de su actividad aplicando técnicas de aprendizaje automático Greyson P Alberca UPSI-Universidad

Más detalles

Recuperación de información desde diferentes perspectivas

Recuperación de información desde diferentes perspectivas Recuperación de información desde diferentes perspectivas Grupo de Ingeniería Telemática Facultad de Informática Universidade de A Coruña Diego Fernández, Víctor Carneiro, Francisco Novoa, Xacobe Macía

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente Agüero Martin Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.marin@gmail.com López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu

Más detalles

Evaluando las Hipótesis Inductivas. Tomás Arredondo Vidal 8/9/2011

Evaluando las Hipótesis Inductivas. Tomás Arredondo Vidal 8/9/2011 Evaluando las Hipótesis Inductivas Tomás Arredondo Vidal 8/9/2011 Evaluando las Hipótesis Inductivas Contenidos Estimando la Precisión Comparando Hipótesis Comparando Algoritmos de Clasificación Evaluando

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu Agüero Martín Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.martin@gmail.com

Más detalles

Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil

Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil Osvaldo M. Spositto spositto@unlam.edu.ar Martín E. Etcheverry metcheverry@unlam.edu.ar

Más detalles

Presentación. Introducción a las técnicas de reconocimiento de patrones. Materia de doctorado en ingeniería/informática

Presentación. Introducción a las técnicas de reconocimiento de patrones. Materia de doctorado en ingeniería/informática Presentación Introducción a las técnicas de reconocimiento de patrones Materia de doctorado en ingeniería/informática Tópicos de minería de datos Materia optativa de LCC Docente: Pablo M. Granitto Horarios:

Más detalles

DETECCIÓN DE PATRONES DE ACCESIBILIDAD EN EL DESARROLLO DE PROYECTOS WEB

DETECCIÓN DE PATRONES DE ACCESIBILIDAD EN EL DESARROLLO DE PROYECTOS WEB DETECCIÓN DE PATRONES DE ACCESIBILIDAD EN EL DESARROLLO DE PROYECTOS WEB Villanueva, J. (p) ; Rodríguez, V.; Ortega, F.; Mijares, A. Abstract The use of accessibility requirements in the development of

Más detalles

Finanzas e Investigación de Mercados"

Finanzas e Investigación de Mercados DIPLOMATURA: "Análisis de Datos para Negocios, Finanzas e Investigación de Mercados" Seminario: Introducción a Data Mining y Estadística Dictado: Sábado 13, 20,27 de Abril, 04 de Mayo en el horario de

Más detalles

Introducción. Tipo de artículo: Artículo corto Temática: Inteligencia artificial Recibido: 05/09/2015 Aceptado: 15/10/2015

Introducción. Tipo de artículo: Artículo corto Temática: Inteligencia artificial Recibido: 05/09/2015 Aceptado: 15/10/2015 Tipo de artículo: Artículo corto Temática: Inteligencia artificial Recibido: 05/09/2015 Aceptado: 15/10/2015 Crawler focalizado para la extracción de documentos PDF desde revistas científicas Focused crawler

Más detalles

Buscador automático de material educativo en aulas virtuales

Buscador automático de material educativo en aulas virtuales IX Congreso de Tecnología en Educación & Educación en Tecnología 166 Buscador automático de material educativo en aulas virtuales Beatriz Fernández Reuter y Elena Durán Instituto de Investigaciones en

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

Detección de subjetividad en noticias en línea publicadas en español utilizando clasificadores probabilísticos

Detección de subjetividad en noticias en línea publicadas en español utilizando clasificadores probabilísticos Detección de subjetividad en noticias en línea publicadas en español utilizando clasificadores probabilísticos Noé Alejandro Castro-Sánchez 1, Sadher Abelardo Vázquez-Cámara 1 y Grigori Sidorov 2 1 Centro

Más detalles

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source Inteligencia Artificial y Seguridad Informática en plataformas Open Source Jornadas de Software Libre y Seguridad Informática Santa Rosa La Pampa 4 y 5 de Diciembre de 2009 AGENDA Primera Parte Definiciones

Más detalles

de Lanús. Buenos Aires, Argentina. rgarcia@unla.edu.ar.

de Lanús. Buenos Aires, Argentina. rgarcia@unla.edu.ar. Behavioral Variability of Clustering and Induction Based on Domain Features Variabilidad del Comportamiento de Agrupamiento e Inducción Basado en las Características del Dominio Marcelo López N. 1, Ramón

Más detalles

Búsqueda por contenido en bases de datos 3D

Búsqueda por contenido en bases de datos 3D Búsqueda por contenido en bases de datos 3D Benjamin Bustos Centro de Investigación de la Web Departamento de Ciencias de la Computación Universidad de Chile Motivación Buscar documentos 3D en una base

Más detalles

En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del

En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del 33 En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del sistema de procesamiento de imágenes para controlar un robot manipulador y se describen en la forma como serán

Más detalles

Capítulo 7: Distribuciones muestrales

Capítulo 7: Distribuciones muestrales Capítulo 7: Distribuciones muestrales Recordemos: Parámetro es una medida de resumen numérica que se calcularía usando todas las unidades de la población. Es un número fijo. Generalmente no lo conocemos.

Más detalles

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.ar/~laura SADIO 26 de Marzo, 9 y 23 de Abril y 7 de mayo de 2010 grupo de PLN en FaMAF http://www.cs.famaf.unc.edu.ar/~pln/

Más detalles

Decidir cuándo autenticar en dispositivos móviles a partir de modelos de machine learning 1

Decidir cuándo autenticar en dispositivos móviles a partir de modelos de machine learning 1 Decidir cuándo autenticar en dispositivos móviles a partir de modelos de machine learning 1 En los dispositivos móviles como tablets o teléfonos celulares se tiene la opción de implementar o no un sistemas

Más detalles

Propuesta de un modelo basado en redes neuronales para la detección de riesgo crediticio

Propuesta de un modelo basado en redes neuronales para la detección de riesgo crediticio Revista de Investigación ULASALLE, Rev Inv ULASALLE, Número 1, 2012 (55-64) Universidad La Salle Arequipa, Perú Propuesta de un modelo basado en redes neuronales para la detección de riesgo crediticio

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Tutorial Weka 3.6.0 Ricardo Aler 2009

Tutorial Weka 3.6.0 Ricardo Aler 2009 Tutorial Weka 3.6.0 Ricardo Aler 2009 Contenidos: 0. Descarga 1. Entrar al programa 2. El Explorer: 2.0. El Explorer: Preprocesamiento (preprocess) 2.1. El Explorer, Clasificación (classify) 2.2. El Explorer,

Más detalles

Doctoral Consortium: Bayesian Networks for High Dimensional and Big Data domains over new distributed computing paradigms

Doctoral Consortium: Bayesian Networks for High Dimensional and Big Data domains over new distributed computing paradigms Doctoral Consortium: Bayesian Networks for High Dimensional and Big Data domains over new distributed computing paradigms Jacinto Arias Departamento de Sistemas Informáticos, Universidad de Castilla-La

Más detalles

Problemas de clasificación: problemas de localización

Problemas de clasificación: problemas de localización Problemas de clasificación: problemas de localización Emilio Carrizosa Facultad de Matemáticas Universidad de Sevilla ecarrizosa@us.es Belén Martín-Barragán Facultad de Matemáticas Universidad de Sevilla

Más detalles

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático?

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático? Ingeniería del conocimiento Sesión 1 Por qué estudiar aprendizaje automático? 1 Agenda Qué vamos a ver en la asignatura? Para qué sirve todo esto? Cómo aprobar la asignatura? 2 Extracción del conocimiento

Más detalles

Minería de datos para la determinación del grado de exclusión social

Minería de datos para la determinación del grado de exclusión social Minería de datos para la determinación del grado de exclusión social Data mining to determine the degree of social exclusion * Jorge Enrique Rodríguez Rodríguez Fecha de recepción: 23 de agosto de 2008

Más detalles

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. 2.1 Revisión sistema reconocimiento caracteres [9]: Un sistema de reconocimiento típicamente esta conformado por

Más detalles

Clase 10. Ingeniería de ontologías. Mg. A. G. Stankevicius. Segundo Cuatrimestre

Clase 10. Ingeniería de ontologías. Mg. A. G. Stankevicius. Segundo Cuatrimestre Ingeniería de Aplicaciones para la Web Semántica Clase 10 Ingeniería de ontologías Mg. A. G. Stankevicius Segundo Cuatrimestre 2005 Copyright 2 Copyright 2005 A. G. Stankevicius. Se asegura la libertad

Más detalles

Jesús Manuel Montero Burga. Universidad Europea de Madrid C/Tajo s/n 28670, Villaviciosa de Odón, Madrid, C/Tajo s/n. correoyeray@eresmas.

Jesús Manuel Montero Burga. Universidad Europea de Madrid C/Tajo s/n 28670, Villaviciosa de Odón, Madrid, C/Tajo s/n. correoyeray@eresmas. )LOWUR:HEGH3iJLQDV1R'HVHDEOHV %DVDGRHQOD&DWHJRUL]DFLyQGH7H[WRV Jesús Manuel Montero Burga Universidad Europea de Madrid C/Tajo s/n 28670, Villaviciosa de Odón, Madrid, jmburga@eresmas.com

Más detalles

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.ar/ laura SADIO 12, 13 y 14 de Marzo de 2008 grupo de PLN en FaMAF http://www.cs.famaf.unc.edu.ar/ pln/

Más detalles

CURSO ESTADÍSTICA APLICADA CON R

CURSO ESTADÍSTICA APLICADA CON R CURSO ESTADÍSTICA APLICADA CON R Organizado por: Instituto IMDEA Alimentación Facultad de Ciencias de la Universidad Autónoma de Madrid MADRID, de Septiembre a Diciembre de 2015 Estadística Aplicada con

Más detalles

LA MINERÍA DE DATOS EN LA EXTRACCIÓN DE CONOCIMIENTOS APLICADOS A PROBLEMAS RELACIONADOS CON LA EDUCACIÓN

LA MINERÍA DE DATOS EN LA EXTRACCIÓN DE CONOCIMIENTOS APLICADOS A PROBLEMAS RELACIONADOS CON LA EDUCACIÓN LA MINERÍA DE DATOS EN LA EXTRACCIÓN DE CONOCIMIENTOS APLICADOS A PROBLEMAS RELACIONADOS CON LA EDUCACIÓN Blanca Maricela Ibarra Murrieta, Ricardo Blanco Vega y María Angélica García Fierro Departamento

Más detalles

KDD y MD. Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA 2005. Juan Pedro Febles KDD y MD

KDD y MD. Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA 2005. Juan Pedro Febles KDD y MD KDD y MD Dr. Juan Pedro Febles Rodríguez BIOINFO febles@bioinfo.cu http://www.bioinfo.cu CITMA 2005 Temas a tratar Algunos antecedentes académicos. El proceso de descubrimiento de conocimientos en Datos

Más detalles

PLANIFICACIÓN DE LA DOCENCIA UNIVERSITARIA GUÍA DOCENTE. Datamining y Aprendizaje Automático

PLANIFICACIÓN DE LA DOCENCIA UNIVERSITARIA GUÍA DOCENTE. Datamining y Aprendizaje Automático CENTRO UNIVERSITARIO DE TECNOLOGÍA Y ARTE DIGITAL PLANIFICACIÓN DE LA DOCENCIA UNIVERSITARIA GUÍA DOCENTE Datamining y Automático 1. DATOS DE IDENTIFICACIÓN DE LA ASIGNATURA. Título: Facultad: Grado en

Más detalles

2. CLASIFICACIÓN DE LA ACTIVIDAD CURRICULAR, FORMACIÓN PRÁCTICA Y CARGA HORARIA

2. CLASIFICACIÓN DE LA ACTIVIDAD CURRICULAR, FORMACIÓN PRÁCTICA Y CARGA HORARIA CÓDIGO ASIGNATURA 1131-3 DEPARTAMENTO: Ingeniería e Investigaciones Tecnológicas ASIGNATURA: DATA MINING y DATA WAREHOUSE Plan 2009 Ingeniería en Informática Año: 5 (Electiva - Ingeniería de Software)

Más detalles