Clasificador Bayesiano de Documentos MedLine a partir de Datos No Balanceados

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Clasificador Bayesiano de Documentos MedLine a partir de Datos No Balanceados"

Transcripción

1 Clasificador Bayesiano de Documentos MedLine a partir de Datos No Balanceados Raquel Laza y Reyes Pavón Sistemas de Software Inteligentes y Adaptables, Universidad de Vigo, Ourense, España. rlfidalgo@correo.ei.uvigo.es, pavon@uvigo.es Resumen. La presencia de clases no balanceadas es un problema frecuente en muchas aplicaciones de aprendizaje automático y cuyos efectos sobre el desempeño de clasificadores estándar son notables. Se han desarrollado numerosas técnicas para hacer frente al problema de las clases no balanceadas en el aprendizaje automático. En este artículo se ha investigado acerca de la aplicación de técnicas de balanceado de datos en la clasificación de documentos MedLine, donde cada documento se ha representado por un conjunto de términos de la ontología MeSH y donde el clasificador se ha basado en una red bayesiana. Abstract. Imbalanced datasets is a common problem in many applications of machine learning and its effects on the performance of standard classifiers are remarkable. Numerous methods have been developed to face the problem of unbalanced class in machine learning. In this paper we investigate the application of techniques for balancing data to classify MedLine documents, where each document is identified by a set of MeSH ontology terms and where the classifier is based on a bayesian network. Palabras clave: Aprendizaje automático, clasificadores, datos no balanceados, redes bayesianas, documentos MedLine, términos MeSH. Introducción La clasificación automática de textos en categorías predefinidas se basa principalmente en el uso de técnicas de aprendizaje automático: procesos inductivos que construyen clasificadores de forma automática a partir de conjuntos preclasificados de documentos. Uno de los principales problemas con los que se enfrenta esta tarea es la presencia de categorías o clases no balanceadas. El problema de clases desbalanceadas ocurre cuando el número de instancias pertenecientes a cada clase es muy diferente. Ello provoca que los clasificadores tengan gran exactitud para calcular modelos sobre la clase mayoritaria pero una pobre exactitud predictiva sobre los datos de la clase minoritaria []. Esto ocurre puesto que el clasificador intenta reducir el error global, de forma que el error de clasificación no tiene en cuenta la distribución de los datos. El contar con pocos datos

2 para una clase dificulta el desempeño de los clasificadores porque existen pocos datos para soportar los posibles patrones que se van construyendo. El problema de los datos no balanceados en minería de datos es un tema que ha cobrado gran interés para muchos investigadores, quienes han desarrollado sus propias técnicas para solventar este problema, el cual está presente no solo en la clasificación de textos, sino en muchos otros dominios de aplicación entre los que podemos citar la detección de fraude, detección de derrames de petróleo a partir de imágenes de radar, detección de fallas en procesos industriales, diagnósticos médicos, etc [2]. En muchas de estas aplicaciones la clase minoritaria es justamente la clase de mayor interés y la que más nos interesa clasificar correctamente, puesto que está formada por los casos que ocurren con menor frecuencia o que son más difíciles de identificar [4]. Por ejemplo, en el caso de detección de cáncer, tenemos pocos pacientes enfermos (clase minoritaria) y gran cantidad de pacientes sanos (clase mayoritaria). En este caso, nos interesa detectar correctamente a los pacientes enfermos, y permitir un pequeño error en la clase mayoritaria, ya que un falso negativo (caso en el que un paciente enfermo se clasifica como sano) es grave, puesto que rara vez un paciente al que no le detectan cáncer pide una segunda opinión. En este artículo trataremos el problema de los conjuntos de datos desequilibrados en clasificación de textos biomédicos. Se parte de un trabajo previo en el que se realizó una propuesta de modelo binario de clasificación automática de documentos MedLine a partir de su vocabulario MeSH 2 [3]. El modelo binario de clasificación utiliza Redes Bayesianas, para representar las relaciones de dependencia e independencia entre términos MeSH de un conjunto de documentos previamente clasificados en dos categorías: relevantes y no relevantes. Dado un nuevo documento para ser clasificado, sus términos MeSH se utilizan como evidencias en la red y la probabilidad de relevancia es calculada utilizando el proceso de inferencia de la red bayesiana. Finalmente el documento es clasificado en relevante o no relevante en función de la probabilidad obtenida. El conjunto de datos utilizado para la creación y prueba del modelo se tomó de los documentos presentados en TREC 25 Genomics track [4]. Los resultados obtenidos fueron prometedores, pero se detectó un problema de sobre entrenamiento de la red con documentos no relevantes, debido a que el conjunto de datos del que se dispone está desequilibrado, donde la mayoría de los documentos pertenecen a la clase de no relevantes. El objetivo de este documento es tratar este problema, estudiando las técnicas ya existentes y adaptándolas a nuestro caso de estudio, intentando mejorar la clasificación de documentos relevantes. Como solución se han planteado diversos métodos: redimensionar el conjunto de entrenamiento o utilizar pesos para las categorías dando mayor peso a las minoritarias. Además de esta introducción el artículo incluye otras secciones. En la Sección 2 se describen las técnicas existentes para tratar el problema de datos no balanceados. La Sección 3 está dedicada al estado del arte, incluyendo trabajos existentes en el dominio que nos ocupa. En la Sección 4 se describen los datos utilizados para la base de datos de documentos médicos de los que dispone la National Library of Medicine (NLM) 2 Medicine Subject Headings. Taxonomía jerárquica de términos médicos y biológicos creada por la NLM para indexar artículos de revistas biomédicas

3 experimentación, las pruebas realizadas y se presentan los resultados obtenidos. Y en la última sección se plantean las conclusiones y el trabajo futuro. 2 El Problema de las Clases No Balanceadas Existen distintas propuestas para resolver la problemática de construcción de modelos de clasificación a partir de datos no balanceados. Algunas propuestas afectan a los algoritmos de clasificación y otras a los datos. En el primer caso, se asigna un coste diferencial a las instancias de entrenamiento según las frecuencias de las clases [4]. En el segundo caso, se muestrea el conjunto de datos original, ya sea agregando casos sintéticos o repetidos de la clase minoritaria, o eliminando casos de la clase mayoritaria [3]. 2. Estrategias a Nivel de los Algoritmos En este tipo de estrategias no se modifica la distribución de los datos y, por consiguiente, no se sobrecargan los conjuntos de datos. Los clasificadores sensibles al coste (cost sensitive) han sido desarrollados para tratar los problemas con diferentes costes de error de clasificación. Estos clasificadores pueden ser usados en conjuntos de datos no balanceados configurando un coste mayor a los ejemplos mal clasificados de la clase minoritaria que los de la clase mayoritaria. Estos métodos se utilizan en muchas aplicaciones reales, como puede ser en dominios médicos, donde un error de tipo falso negativo puede provocar que no se hagan más pruebas a un paciente enfermo diagnosticado sano y que, con el paso del tiempo, desarrolle la enfermedad. La incorporación de coste lleva a los algoritmos de clasificación a cometer menos errores en la clase minoritaria, lo que en este caso de problemas es deseable. El problema principal con el aprendizaje sensible al coste es que los costes son generalmente desconocidos y difíciles de encontrar porque dependen del problema en cuestión. Sin embargo, existe una relación directa entre aumentar el coste de clasificación y aumentar el número de ejemplos de la clase minoritaria. Otros métodos que se sitúan en este tipo de estrategias son el ajuste de probabilidad en las hojas del árbol de decisión y el aprendizaje de una única clase (recognitionbased) en lugar de a partir de dos clases (discrimination based). 2.2 Estrategias a Nivel de los Datos Una de las técnicas más utilizadas para solucionar el problema de datos no balanceados es el muestreo. A continuación se definen dos formas de muestro de datos:. Sobre muestreo (oversampling): Consiste en balancear la distribución de las clases añadiendo ejemplos a la clase minoritaria. Podemos diferenciar dos métodos. Random oversampling que consiste en generar ejemplos de la clase minoritaria de forma aleatoria hasta que la clase minoritaria tenga tantos ejemplos como la

4 mayoritaria. Focused oversampling que consiste en generar ejemplos de la clase minoritaria de forma aleatoria pero limitando el número de nuevas instancias. Alguno de los algoritmos más representativos es SMOTE (Synthetic Minority Oversampling TEchnique) [5] que crea nuevos ejemplos de la clase minoritaria interpolando los valores de vecinos más cercanos a ejemplos de la clase minoritaria. 2. Submuestreo (undersampling): Se eliminan ejemplos de la clase mayoritaria. Existen dos métodos como en el caso de oversampling. Random undersampling que consiste en reducir de forma aleatoria la clase mayoritaria hasta obtener el mismo tamaño que la clase minoritaria. Focused undersampling que se diferencia de la anterior en que se limita el número de ejemplos a eliminar. El muestreo de datos presenta tanto ventajas como inconvenientes. El submuestreo aleatorio puede provocar pérdida de información al eliminar ejemplos de la clase mayoritaria que resultan útiles, pero tiene como ventaja que reduce el tiempo de procesado del conjunto de datos. El sobre muestreo aleatorio tiene la ventaja de no perder información pero puede añadir ejemplos de la clase minoritaria con ruido además de aumentar el tiempo de procesado del conjunto de datos. Existen métodos que intentan mitigar estos problemas mejorando las estrategias de muestreo. Así, el uso de Tomek links[8][] es una estrategia de submuestreo que elimina sólo ejemplos de la clase mayoritaria que sean redundantes o que se encuentren muy próximos a los de la clase minoritaria. Existen también estrategias para combinar oversampling y undersampling [6]. 3 Estado del Arte Hay investigadores que han desarrollado diferentes métodos para resolver el problema de las clases desbalanceadas. Métodos que incluyen cambiar el tamaño del conjunto de datos de entrenamiento, ajuste de costes de error de clasificación y aprendizaje de la clase minoritaria. Ling & Li [9] sobre muestrearon la clase minoritaria añadiendo copias de los ejemplos de la clase minoritaria al conjunto de datos de entrenamiento. En submuestreo, los ejemplos podían ser seleccionados de forma aleatoria, ejemplos que están lejos de los ejemplos de la clase minoritaria. En otro experimento, sobremuestrearon los ejemplos de la clase minoritaria con reemplazamiento para que coincidiese el número de ejemplos de la clase mayoritaria y minoritaria. La combinación de undersampling y oversampling no proporcionó una mejora significante en la clasificación. Kubat y Matwin [] estudiaron varios métodos de reducción de la clase mayoritaria. Ellos usaron la media geométrica como medida de mejora del clasificador, que se relaciona con un simple punto en la curva ROC. La clase minoritaria fue dividida en 4 categorías: ruido solapando la región de decisión de la clase minoritaria, ejemplos frontera, ejemplos redundantes y ejemplos seguros. Los ejemplos frontera fueron detectados usando el concepto Tomek links [].

5 Zhang y Mani [3] investigaron el efecto de undersampling sobre el algoritmo KNN con diferentes métodos de selección de ejemplos. Seleccionaron un porcentaje dado de ejemplos de la clase mayoritaria (negativa) de diferentes formas: selección aleatoria, selección de ejemplos negativos más próximos a ejemplos positivos y selección de ejemplos negativos con mayor distancia a los positivos. Como medidas de mejora se utilizaron la medida de exhaustividad (recall), precisión y F measure. En su estudio, la exhaustividad decrementaba al incrementar el porcentaje de selección de ejemplos negativos, mientras que la precisión incrementaba. Entre los métodos de selección de ejemplos que utilizaron, el método aleatorio y la selección de ejemplos más próximos a todos los ejemplos positivos dieron mejores resultados. Otra propuesta fue la que propuso Domingos[]. El comparó MetaCost, método para hacer clasificadores sensibles al coste, con undersampling de la clase mayoritaria y con oversampling de la clase minoritaria. Obtuvo que metacost mejora sobre cualquiera y que undersampling es preferible a oversampling. La probabilidad de cada clase es estimada y los ejemplos son etiquetados con respecto al coste de clasificación incorrecta (misclassification costs). El dominio de recuperación de información (Information Retrieval) [2] también se enfrenta al problema de las clases desbalanceadas. Un documento o página web es convertido en una representación de bag of words: un vector de características reflejando las ocurrencias de palabras en la página. Normalmente, hay muy pocas instancias de la categoría interesante en categorización de textos. Al estar más representada la clase negativa ésta puede causar problemas en la evaluación de los clasificadores. Como medida de evaluación de los clasificadores en recuperación de información se utiliza normalmente la exhaustividad y precisión. Mladenié y Grobelnik [5] propusieron una selección de características con datos no balanceados en el dominio de recuperación de información. Ellos experimentaron con varios métodos de selección de características, y encontraron que el odds ratio combinado con el clasificador Naïve Bayes mejora en su dominio. Odds ratio es una medida de probabilidad usada para clasificar documentos en función de su relevancia para la clase minoritaria. 4 Caso de Estudio En este trabajo se aborda el problema de la clasificación de documentos MedLine a partir de su vocabulario MeSH utilizando un conjunto de datos no balanceado y empleando diferentes estrategias de balanceado de datos. 4. Datos Disponibles Como ya se ha mencionado, para la realización de este estudio se ha partido de un trabajo previo de clasificación de documentos MedLine usando términos MeSH [3]. Dicho trabajo utilizaba los documentos del TREC 25 Genomic track, los cuales estaban organizados en 4 categorías (A,E,G,T). Para cada categoría, la distribución de documentos relevantes y no relevantes es la que se observa en la Tabla. Se puede ver que el número de documentos no relevantes es mucho mayor que el de relevantes

6 en todos los conjuntos de entrenamiento y test. Nos encontramos ante una clara situación de desbalanceado de datos. Tabla. Número de documentos relevantes y no relevantes en los conjuntos de datos TREC 25 para cada una de las cuatro categorías. Categoría Conjuntos Relevantes No Relevantes A Entrenamiento Test E Entrenamiento Test G Entrenamiento Test T Entrenamiento Test Para realizar los experimentos se utilizó la herramienta Weka 3 [7], lo cual obligó al pre procesamiento de los documentos disponibles. Cada documento se convirtió en el conjunto de términos Mesh que contenía. Como consecuencia se generaron ocho matrices binarias que representan los conjuntos de datos de entrenamiento y test de las cuatro categorías definidas en TREC 25. En estas matrices cada fila se corresponde con un documento MedLine y cada columna con un término MeSH. Cada posición ij de cada matriz tomará valor si el término MeSH correspondiente a la columna j está presente en el documento Medline i. En otro caso ij contendrá el valor. La Figura muestra un ejemplo de matriz con doce documentos y doce términos MeSH. La columna Class tomará valor si un documento es relevante y cuando pertenece a la categoría no relevante. Para la generación de las matrices se ha considerado que si un término MeSH está presente en un documento, también lo están todos sus ancestros en la jerarquía MeSH. Por ejemplo, aquel documento que contenga el término A tendrá en esta columna un, pero también tendrá un en las columnas correspondientes a sus términos padres (A, A.47, A.47.25, A ) presentes en el documento. El volumen de datos soportado por cada matriz aconsejó tomar 2 medidas:. Representar los documentos por únicamente los términos que pertenezcan al mismo nivel de la jerarquía de términos MeSH, alcanzando como máximo el nivel. De esta forma, en lugar de disponer de dos matrices binarias para cada categoría (A,E,G,T), se dispone de 2 (2 x niveles). Con esta división se perseguía: Establecer las relaciones entre términos de diferentes categorías desde niveles tempranos, pudiendo ver si estas relaciones cambian al añadir más información. Disminuir el tiempo de procesado que Weka necesita para generar la red a partir de los datos cuando los documentos tienen muchos atributos. 3 Waikato Environment for Knowledge Analysis. Colección de algoritmos de aprendizaje automático para realizar tareas de minería de datos. Formado por herramientas de preprocesado de datos, clasificación, regresión, clustering, reglas de asociación y visualización.

7 Fig.. Matriz con doce documentos y doce términos MeSH. 2. Aplicar a cada documento un método de selección de características que permita reducir el número de términos MeSH que le identifican, quedándonos con los más representativos. De esta forma, para nuestras pruebas tenemos un conjunto de entrenamiento para cada nivel con los atributos más característicos de ese nivel. Los conjuntos de test contienen los mismos atributos que los conjuntos de entrenamiento [3]. En el trabajo previo [3] se han realizado las pruebas con los documentos pertenecientes a la categoría A del TREC 25 y se concluyó que a medida que aumentamos la cantidad de términos MeSH que representan los documentos, los diferentes datos estadísticos que miden la calidad de la clasificación obtenida mejoran. Y a partir del nivel seis se obtuvo un porcentaje de documentos bien clasificados de más del 95%. La Tabla 2 muestra los datos estadísticos obtenidos. 4.2 Pruebas Realizadas Partiendo de los datos disponibles, el objetivo de este trabajo es aplicar las técnicas existentes para solucionar el problema de datos no balanceados en el proceso de clasificación de documentos mencionado y analizar los resultados obtenidos, comparándolos con los resultados del trabajo previo. Precisamente las conclusiones de dicho trabajo previo han motivado que el estudio experimental realizado en este trabajo se reduzca a los documentos de la categoría A de TREC y a partir del nivel seis de la jerarquía de términos MeSH. Para la realización de nuestras pruebas hemos utilizado igualmente la herramienta Weka. Para la inducción del modelo Bayesiano se ha utilizado el mismo algoritmo que se había utilizado en el estudio previo [3], el algoritmo BayesNet que se encuentra en la ruta weka.classifiers.bayes.bayesnet y se han configurado los parámetros del algoritmo K2 como se proponía en [3]. Para el balanceado de datos se ha utilizado, por un lado la herramienta de preprocesado de datos, donde las estrategias a nivel de datos utilizadas se encuentran en la ruta weka.filters.supervised.instance. Se trata de estrategias de muestreo, en las que se puede diferenciar estrategia de undersampling (SpreadSubsample) y combinación

8 de ambas oversampling/undersampling (Resample). Y por otro lado, una estrategia a nivel de algoritmo, con la herramienta de clasificación, que se encuentra en la ruta weka.classifiers.meta.costsensitiveclassifier. En esta sección se ilustran las pruebas realizadas con las diferentes estrategias proporcionadas por Weka y se han analizado los resultados obtenidos. Tabla 2. Resultados de la categorización para los niveles MeSH Nivel Clase FPr Precisión Recall F measure,885,954,987, El desempeño de los algoritmos de aprendizaje automático es típicamente evaluado por una matriz de confusión como se ilustra en la Figura 2 (para problemas de 2 clases). Las columnas son la clase predicha y las filas la clase real. En la construcción de la matriz, TN es el número de ejemplos negativos correctamente clasificados (True Negatives), FP es el número de ejemplos negativos incorrectamente clasificados como positivos (False Positives), FN es el número de ejemplos incorrectamente clasificados como negativos (False Negatives) y TP es el número de ejemplos positivos correctamente clasificados (True Positives). Weka nos proporciona numerosos datos estadísticos. Uno de ellos es la matriz de confusión. Permite ver el porcentaje de ejemplos negativos mal clasificados (False positive rate) (), la exhaustividad (2), la precisión (3) o el valor F measure (4) entre otras. Estas medidas se tendrán en cuenta a lo largo de todas las pruebas realizadas en este artículo. En nuestro caso de estudio, los ejemplos de la clase negativa se corresponden con los documentos no relevantes y los de la clase positiva con los relevantes.

9 Clasificado Real Negativa Positiva Negativa TN FP Positiva FN TP Fig. 2. Matriz de Confusión!" FP rate=!"#$% () $" recall= $"#!% (2) $" precision = $"#!" (3) &. )*+,-.-/. *+,22 F measure = ()*+,-.-/ # *+,22) (4) 4.2. Resultados Experimentales con Undersampling En esta sección hablaremos de las pruebas realizadas con la estrategia de muestreo undersampling que se encuentra en la ruta weka.filters.supervised.instance.spreadsubsample de Weka. Esta técnica produce una submuestra aleatoria de un conjunto de datos. Permite especificar el máximo spread (relación) entre la clase más común y la clase menos frecuente. Por ejemplo, se puede especificar que hay a lo sumo un 2: de diferencia en la frecuencia de clases. Es decir, la clase mayoritaria tiene dos veces más ejemplos que la clase minoritaria. Esta técnica nos permite además configurar la opción de ajuste de pesos (adjustweights) que pondremos a falso para que los pesos de las instancias no se ajusten para minimizar el error global. En nuestro caso queremos

10 minimizar el error de la clase minoritaria, aunque con ello aumente el error en la clase mayoritaria. Hemos aplicado a la clase mayoritaria diferentes spread de sub muestreo. En la Tabla 3 se ilustra la matriz de confusión para el nivel 9 del conjunto de datos no balanceado. En la Tabla 4 podemos ver la matriz de confusión tras aplicar submuestreo con spread : al nivel 9 del conjunto de entrenamiento. El valor se corresponde con documentos no relevantes, mientras que el serán los relevantes. Como se puede observar en la Tabla 4 el número de documentos relevantes bien clasificados aumenta con respecto a los de la Tabla 3. Por otra parte, el número de documentos clasificados incorrectamente como relevantes también aumenta. En la Tabla 5 podemos ver los datos estadísticos obtenidos para cada uno de los niveles analizados y por spread de sub muestreo. Una relación de 6: en la columna Spread de la Tabla 5, significa que se trata del conjunto de datos no balanceado. Tabla 3. Matriz de confusión del nivel 9 con datos no balanceados Clasificado Real Tabla 4. Matriz de confusión del nivel 9 con spread : Clasificado Real

11 Tabla 5. Resultados de la categorización para los últimos niveles MeSH, aplicando diferentes relaciones de sub muestreo de la estrategia SpreadSubsample Nivel Spread Clase FPr Precisión Recall F measure 6: : : : : : : : : : : : : : : : : : : : : : : :

12 6: 2 : 6 : 3 :.5 : : Fig. 3. Variación de precisión del nivel Fig. 4. Variación de recall del nivel 9 por spread 9 por spread En la Tabla 5 se puede observar que el comportamiento de cada uno de los datos estadísticos para los distintos niveles es similar. Para comprender mejor este comportamiento nos hemos centrado en el nivel nueve. Aplicando undersampling, el porcentaje de documentos relevantes mal clasificados disminuye, y aunque el porcentaje de documentos no relevantes mal clasificados aumenta, aumenta en menor proporción, llegando a un equilibrio entre las dos clases (ver columna FPr). La precisión de la clasificación de documentos relevantes disminuye a medida que reducimos el número de ejemplos negativos, esto es debido al ligero aumento de documentos no relevantes mal clasificados. Por otra parte recall aumenta para los documentos relevantes, el porcentaje de documentos relevantes bien clasificados es mayor. En las Figuras 3 y 4 se puede observar esta evolución de la precisión y exhaustividad a medida que se reduce el número de documentos no relevantes en el nivel nueve para las distintas clases Resultados Experimentales con combinación de Oversampling y Undersampling En esta sección se han realizado pruebas combinando oversampling y undersampling. Para ello, hemos utilizado el método proporcionado por Weka y que se encuentra en la ruta weka.filters.supervised.instance.resample. Esta técnica produce un

13 subconjunto de datos aleatorio, se combina la técnica de oversampling con la técnica de undersampling. Weka nos permite la configuración de opciones de Resample, en especial a través del parámetro biastouniformclass. Un valor deja la distribución de clases como está, un valor asegura que la distribución de las clases es uniforme (similar cantidad de ejemplos en cada clase). Valores intermedios de bias balancearan las clases para mantener la distribución (oversampling y undersampling). Se mantendrá el porcentaje de instancias que se crean nuevas a, para indicar que el número de instancias que se genera es el mismo al conjunto original. En la Tabla 6 se muestra la matriz de confusión para el nivel 9 con un balanceado de datos al 75%. Si la comparamos con la Tabla 3, se puede ver que el número de documentos relevantes bien clasificados aumenta. La Tabla 7 muestra los datos estadísticos para los niveles 6 a con la distribución de las clases que se especifica en la columna Bias. La distribución cero indica que se trata del conjunto de datos no balanceado. Centrándonos en el nivel nueve de la Tabla 7, se puede observar que a medida que aumentamos el porcentaje de undersampling y oversampling el número de documentos relevantes clasificados incorrectamente va disminuyendo hasta un Tabla 6. Matriz de confusión del nivel 9 con Resample bias=.75 Clasificado Real porcentaje de undersampling y oversampling del 75%. Con una distribución uniforme de las clases el número de documentos relevantes mal clasificados aumenta un poco. La precisión de los documentos relevantes disminuye a medida que las clases se balancean, debido al aumento de los documentos no relevantes clasificados como relevantes (FP). El porcentaje de documentos relevantes clasificados correctamente (recall) aumenta hasta conseguir una distribución al 75%, a partir de ese momento disminuye ligeramente. Esto no ocurre con el resto de niveles, en los que recall va aumentando hasta que se consigue una distribución uniforme de las clases. Este empeoramiento en el nivel nueve podría ser debido a la eliminación de ejemplos de la clase mayoritaria potencialmente útiles o a la inclusión de ejemplos con ruido. Las Figuras 5 y 6 muestran la evolución de la precisión y exhaustividad a medida que la distribución de las clases tiende a ser uniforme.

14 Tabla 7. Resultados de la categorización para los últimos niveles MeSH, aplicando diferentes distribuciones de oversampling y undersampling de la estrategia Resample Nivel Bias Clase FPr Precisión Recall F measure

15 Fig. 5. Variación de precisión por porcentaje Fig. 6. Variación de recall por porcentaje de muestreo del nivel 9. de muestreo del nivel Resultados Experimentales Aplicando Aprendizaje Sensible al Coste Otra de las estrategias utilizadas en nuestro caso de estudio ha sido emplear un metaclasificador sensible al coste para darle alto coste a los ejemplos mal clasificados de la clase minoritaria. Weka nos proporciona un metaclasificador que se encuentra en la ruta weka.classifiers.meta.costsensitiveclassifier. Se usa como clasificador base BayesNet, el mismo con el que se han desarrollado todas las pruebas. Se configura la matriz de coste para dos clases y cambiando el coste de los ejemplos mal clasificados de la clase minoritaria (falsos negativos). Los costes de la matriz de coste como ya habíamos comentado, no son fáciles de encontrar. Pero existe una relación entre aumentar el coste de la clasificación y aumentar el número de ejemplos negativos. En las pruebas se han empleado costes 2, 3, 5, 8 y 5 sobre los falsos positivos. En la Tabla 8 se ilustra la matriz de confusión para el nivel 9 con un coste 5. Se puede observar que el número de documentos relevantes correctamente clasificados es mayor que el número de documentos relevantes bien clasificados de la Tabla 3. En la Tabla 9 se muestran los datos estadísticos para los niveles estudiados aplicando diferentes costes a la clase minoritaria. Podemos ver en la Tabla 9 que con esta técnica a medida que aumentamos el coste de clasificación de la clase minoritaria los ejemplos de la clase minoritaria son mejor clasificados. El porcentaje de documentos relevantes mal clasificados disminuye y el porcentaje de documentos relevantes correctamente clasificados aumenta. Las Figuras 7 y 8 muestran la evolución de la precisión y exhaustividad del nivel nueve por coste de clasificación de la clase minoritaria. Se puede observar que la exhaustividad aumenta para la clase positiva y disminuye ligeramente para la clase negativa debido al error de clasificación que se introduce a la clase negativa con el balanceado de datos. La precisión disminuye para los documentos relevantes por el mismo motivo.

16 Tabla 8. Matriz de confusión del nivel 9 con CostSensitiveClassifier. Coste =5 Clasificado Real Tabla 9. Resultados de la categorización para los últimos niveles MeSH, aplicando diferentes costes a los ejemplos mal clasificados de la clase minoritaria. Nivel Coste Clase FPr Precisión Recall F measure

17 Fig. 7. Variación de precisión por coste del Fig. 8. Variación de recall por coste del nivel 9 nivel 9

18 5 Conclusiones y Trabajos Futuros En este documento hemos descrito la aplicación de diferentes técnicas de balanceado de datos a un problema de clasificación en recuperación de información con clases no balanceadas. Especialmente, estudiamos los efectos de random undersampling, la combinación de oversampling y undersampling y la aplicación de costes de clasificación para los ejemplos positivos. Con los resultados obtenidos por nuestro clasificador podemos concluír que el número de documentos relevantes bien clasificados aumenta con las tres técnicas. En el 99% de los casos con una distribución totalmente uniforme de las clases se obtienen los mejores resultados. El otro % puede ser debido a la eliminación de ejemplos representativos de la clase mayoritaria o la inclusión de ejemplos con ruido en la clase minoritaria. Con la mejora en clasificación de documentos relevantes empeoramos un poco la clasificación de documentos no relevantes. Pero no resulta tan grave tener un documento no relevante clasificado como relevante que viceversa. Leerse documentos no relevantes no tiene tantos efectos negativos como no leerse alguno relevante. Entre las tres técnicas utilizadas, SpreadSubsample y CostSensitiveClassifier mejoran los resultados para los documentos relevantes. Los resultados obtenidos con una selección aleatoria de ejemplos (SpreadSubsample) son buenos pero sería interesante aplicar técnicas más sofisticadas y observar si existe una clara ventaja usándo estas nuevas técnicas. En futuros trabajos deberíamos estudiar algunas de esas técnicas de selección de ejemplos de la clase mayoritaria, para descartar ejemplos negativos de la región frontera, que son ruido o redundantes [][6] y aplicarlas a nuestro caso de estudio. Así como técnicas de selección de características, utilizando como medidas de clasificación odds ratio e information gain entre otras [5]. Como trabajo a realizar inmediatamente se plantea terminar las pruebas con los datos disponibles del TREC 25, ya que en algunos trabajos previos donde se han utilizado estos conjuntos de entrenamiento, los clasificadores no tenían igual comportamiento en las cuatro categorías. 6 Referencias. Chawla, N.V, Lazarevic, A., Hall, L.O. and Bowyer, K.W. SMOTEBoost: Improving Prediction of the Minority Class in Boosting. Journal Title: Principles of Data Mining and Knowledge Discovery. pp Chawla, N.V, Japkowicz, N. and Kolcz, A. Editorial: Special Issue on Learning from Imbalanced Data Sets. SIGKDD Explorations. Volume 6, Issue, pp. 6, Zhang, J. and Mani, I. KNN Approach to Unbalanced Data Distributions: A Case Study involving Information Extraction, ICML, Washington DC, Morales, E.F. and González, J.A. El Problema de las clases desbalanceadas. Instituto Nacional de Astrofísica, Óptica y Electrónica, 27.

19 5. Chawla, N.V., Bowyer, K.W., Hall, L.O., Kegelmeyer W.P. SMOTE: Syntetic Minority Oversampling Technique. Journal of Artificial Intelligence Research. Volume 6, pp Batista, G., Prati, R. and Monard, M.C. A study of the behavior of several methods for balancing machine learning training data. ACM SIGKDD Explorations. Volume 6:, pp. 2 29, June Weka Data Mining with Open Source Machine Learning Software in Java. The University of Waikato, New Zealand, Herrera, F. Clasificación con Datos no Balanceados Ling, C., and Li, C. Data Mining for Direct Marketing Problems and Solutions. In Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining (KDD 98) New York, NY. AAAI Press Kubat, M., and Matwin, S. Addressing the Curse of Imbalanced Training Sets: One Sided Selection. In Proceedings of the Fourteenth International Conference on Machine Learning, pp Domingos P. MetaCost: A General Method for Making Classifiers Cost Sensitive. Proceedings of the fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego,CA. pp Dumais, S., Platt, J., Heckerman, D., and Sahami, M. Inductive Learning Algorithms and Representations for Text Categorization. In Proceedings of the Seventh International Conference on Information and Knowledge Management, pp Glez Peña, D., López, S., Pavón R., Laza, R., Iglesias, E. and Borrajo, L. Classification of MedLine Documents Using MeSH Terms. Lecture Notes in Computer Science. Springer Berlin/Heidelberg. Distributed Computing, Artificial Intelligence, Bioinformatics, Soft Computing, and Ambient Assisted Living. Volume 558, pp Dayanik, A., Genkin, A., Kantor, P., Lewis, D.D. and Madigan, D. DIMACS at the TREC 25 genomics track. DIMACS, Rutgers University, Mladenié, D., and Grobelnik, M. Feature Selection for Unbalanced Class Distribution and Naive Bayes. In Proceedings of the 6th International Conference on Machine Learning, Morgan Kaufmann, pp Suman, S., Laddhad, K. and Deshmukh, U. Methods for Handling Highly Skewed Datasets. 25.

ESTIMACIÓN. puntual y por intervalo

ESTIMACIÓN. puntual y por intervalo ESTIMACIÓN puntual y por intervalo ( ) Podemos conocer el comportamiento del ser humano? Podemos usar la información contenida en la muestra para tratar de adivinar algún aspecto de la población bajo estudio

Más detalles

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Emmanuel Anguiano-Hernández Abril 29, 2009 Abstract Tratando de mejorar el desempeño de un clasificador Naive

Más detalles

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces

Más detalles

Covarianza y coeficiente de correlación

Covarianza y coeficiente de correlación Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

Inteligencia de Negocio

Inteligencia de Negocio UNIVERSIDAD DE GRANADA E.T.S. de Ingenierías Informática y de Telecomunicación Departamento de Ciencias de la Computación e Inteligencia Artificial Inteligencia de Negocio Guión de Prácticas Práctica 1:

Más detalles

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007 Enunciado Se desea efectuar el testing funcional de un programa que ejecuta transferencias entre cuentas bancarias. El programa recibe como parámetros la cuenta de origen, la de cuenta de destino y el

Más detalles

Análisis de los datos

Análisis de los datos Universidad Complutense de Madrid CURSOS DE FORMACIÓN EN INFORMÁTICA Análisis de los datos Hojas de cálculo Tema 6 Análisis de los datos Una de las capacidades más interesantes de Excel es la actualización

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

5.- ANÁLISIS DE RIESGO

5.- ANÁLISIS DE RIESGO 5.- ANÁLISIS DE RIESGO El módulo de Análisis de Riesgo se caracteriza por desarrollar una herramienta formativa para la gestión, que permite al usuario identificar, analizar y cuantificar el riesgo de

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

Capítulo 12: Indexación y asociación

Capítulo 12: Indexación y asociación Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación

Más detalles

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial Universidad del Cauca Facultad de Ingeniería Electrónica y Telecomunicaciones Programas de Maestría y Doctorado en Ingeniería Telemática Seminario de Investigación Evaluación, limpieza y construcción de

Más detalles

- MANUAL DE USUARIO -

- MANUAL DE USUARIO - - MANUAL DE USUARIO - Aplicación: Kz Precio Hora Instagi Instagi Teléfono: 943424465-943466874 Email: instagi@instagi.com GUIA PROGRAMA CALCULO PRECIO HORA 1. Introducción 2. Datos de la empresa 2.1.Gastos

Más detalles

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de CAPITULO 4 JUSTIFICACION DEL ESTUDIO En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de estudios previos y los alcances que justifican el presente estudio. 4.1. Justificación.

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Movimiento a través de una. José San Martín

Movimiento a través de una. José San Martín Movimiento a través de una curva José San Martín 1. Introducción Una vez definida la curva sobre la cual queremos movernos, el siguiente paso es definir ese movimiento. Este movimiento se realiza mediante

Más detalles

Capítulo IV. Manejo de Problemas

Capítulo IV. Manejo de Problemas Manejo de Problemas Manejo de problemas Tabla de contenido 1.- En qué consiste el manejo de problemas?...57 1.1.- Ventajas...58 1.2.- Barreras...59 2.- Actividades...59 2.1.- Control de problemas...60

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre.

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre. Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre. Tema: Sistemas Subtema: Base de Datos. Materia: Manejo de aplicaciones

Más detalles

Base de datos en Excel

Base de datos en Excel Base de datos en Excel Una base datos es un conjunto de información que ha sido organizado bajo un mismo contexto y se encuentra almacenada y lista para ser utilizada en cualquier momento. Las bases de

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

Análisis de medidas conjuntas (conjoint analysis)

Análisis de medidas conjuntas (conjoint analysis) Análisis de medidas conuntas (conoint analysis). Introducción Como ya hemos dicho anteriormente, esta técnica de análisis nos sirve para analizar la importancia que dan los consumidores a cada uno de los

Más detalles

Conclusiones. Particionado Consciente de los Datos

Conclusiones. Particionado Consciente de los Datos Capítulo 6 Conclusiones Una de las principales conclusiones que se extraen de esta tesis es que para que un algoritmo de ordenación sea el más rápido para cualquier conjunto de datos a ordenar, debe ser

Más detalles

Análisis de Datos. Práctica de métodos predicción de en WEKA

Análisis de Datos. Práctica de métodos predicción de en WEKA SOLUCION 1. Características de los datos y filtros Una vez cargados los datos, aparece un cuadro resumen, Current relation, con el nombre de la relación que se indica en el fichero (en la línea @relation

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Contenidos. INFORME ENCUESTA TELEFÓNICA. Curso 2009 10

Contenidos. INFORME ENCUESTA TELEFÓNICA. Curso 2009 10 ENCUESTA DE OPINIÓN DEL ALUMNADO SOBRE LA ACTUACIÓN DOCENTE DEL PROFESORADO UNIVERSIDAD DE SEVILLA Curso 2009-2010 ENCUESTA TELEFÓNICA Contenidos Introducción.... 4 El Cuestionario... 5 El muestreo...

Más detalles

Tema 3. Medidas de tendencia central. 3.1. Introducción. Contenido

Tema 3. Medidas de tendencia central. 3.1. Introducción. Contenido Tema 3 Medidas de tendencia central Contenido 31 Introducción 1 32 Media aritmética 2 33 Media ponderada 3 34 Media geométrica 4 35 Mediana 5 351 Cálculo de la mediana para datos agrupados 5 36 Moda 6

Más detalles

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. 2.1 Revisión sistema reconocimiento caracteres [9]: Un sistema de reconocimiento típicamente esta conformado por

Más detalles

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT REACCIONES ADVERSAS DE LOS MEDICAMENTOS Los fármacos por naturaleza

Más detalles

MUESTREO TIPOS DE MUESTREO

MUESTREO TIPOS DE MUESTREO MUESTREO En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una población), se selecciona una muestra, entendiendo por tal una parte representativa de

Más detalles

4 Pruebas y análisis del software

4 Pruebas y análisis del software 4 Pruebas y análisis del software En este capítulo se presentan una serie de simulaciones donde se analiza el desempeño de ambos sistemas programados en cuanto a exactitud con otros softwares que se encuentran

Más detalles

Práctica 11 SVM. Máquinas de Vectores Soporte

Práctica 11 SVM. Máquinas de Vectores Soporte Práctica 11 SVM Máquinas de Vectores Soporte Dedicaremos esta práctica a estudiar el funcionamiento de las, tan de moda, máquinas de vectores soporte (SVM). 1 Las máquinas de vectores soporte Las SVM han

Más detalles

Adaptación al NPGC. Introducción. NPGC.doc. Qué cambios hay en el NPGC? Telf.: 93.410.92.92 Fax.: 93.419.86.49 e-mail:atcliente@websie.

Adaptación al NPGC. Introducción. NPGC.doc. Qué cambios hay en el NPGC? Telf.: 93.410.92.92 Fax.: 93.419.86.49 e-mail:atcliente@websie. Adaptación al NPGC Introducción Nexus 620, ya recoge el Nuevo Plan General Contable, que entrará en vigor el 1 de Enero de 2008. Este documento mostrará que debemos hacer a partir de esa fecha, según nuestra

Más detalles

ARREGLOS DEFINICION GENERAL DE ARREGLO

ARREGLOS DEFINICION GENERAL DE ARREGLO ARREGLOS DEFINICION GENERAL DE ARREGLO Conjunto de cantidades o valores homogéneos, que por su naturaleza se comportan de idéntica forma y deben de ser tratados en forma similar. Se les debe de dar un

Más detalles

7. Conclusiones. 7.1 Resultados

7. Conclusiones. 7.1 Resultados 7. Conclusiones Una de las preguntas iniciales de este proyecto fue : Cuál es la importancia de resolver problemas NP-Completos?. Puede concluirse que el PAV como problema NP- Completo permite comprobar

Más detalles

Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción. www.fundibeq.org

Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción. www.fundibeq.org DIAGRAMA MATRICIAL 1.- INTRODUCCIÓN Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción. Muestra su potencial, como herramienta indispensable para la planificación

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Un primer acercamiento a la CMDB.

Un primer acercamiento a la CMDB. Un Versión primer 1.2 acercamiento a la CMDB. 20/07/2005 Un primer acercamiento a la CMDB. Versión 1.1 1.2 18/02/05 20/02/05 Fecha Jose Autores Carlos Manuel García Viejo García Lobato http://ars.viejolobato.com

Más detalles

ANÁLISIS DE DATOS NO NUMERICOS

ANÁLISIS DE DATOS NO NUMERICOS ANÁLISIS DE DATOS NO NUMERICOS ESCALAS DE MEDIDA CATEGORICAS Jorge Galbiati Riesco Los datos categóricos son datos que provienen de resultados de experimentos en que sus resultados se miden en escalas

Más detalles

Funcionalidades Software PROYECTOS GotelGest.Net Software para la gestión de Proyectos GotelGest.Net

Funcionalidades Software PROYECTOS GotelGest.Net Software para la gestión de Proyectos GotelGest.Net 2012 Funcionalidades Software PROYECTOS GotelGest.Net Software para la gestión de Proyectos GotelGest.Net Servinet Sistemas y Comunicación S.L. www.softwaregestionproyectos.com Última Revisión: Febrero

Más detalles

Charla N 6: Utilidades de Consulta de datos.

Charla N 6: Utilidades de Consulta de datos. 1 Charla N 6: Utilidades de Consulta de datos. Objetivos Generales: La manipulación de los datos organizados en forma de lista, donde la lista relaciones diferentes ocurrencias de una información común,

Más detalles

TIPO DE CAMBIO, TIPOS DE INTERES Y MOVIMIENTOS DE CAPITAL

TIPO DE CAMBIO, TIPOS DE INTERES Y MOVIMIENTOS DE CAPITAL TIPO DE CAMBIO, TIPOS DE INTERES Y MOVIMIENTOS DE CAPITAL En esta breve nota se intentan analizar las relaciones existentes en el sector español entre tipo de cambio, tasa de inflación y tipos de interés,

Más detalles

Técnicas de valor presente para calcular el valor en uso

Técnicas de valor presente para calcular el valor en uso Normas Internacionales de Información Financiera NIC - NIIF Guía NIC - NIIF NIC 36 Fundación NIC-NIIF Técnicas de valor presente para calcular el valor en uso Este documento proporciona una guía para utilizar

Más detalles

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. UNIVERSIDAD DE CARABOBO FACULTAD DE CIENCIA Y TECNOLOGÍA DIRECCION DE EXTENSION COORDINACION DE PASANTIAS Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. Pasante:

Más detalles

CASO PRÁCTICO. ANÁLISIS DE DATOS EN TABLAS DINÁMICAS

CASO PRÁCTICO. ANÁLISIS DE DATOS EN TABLAS DINÁMICAS CASO PRÁCTICO. ANÁLISIS DE DATOS EN TABLAS DINÁMICAS Nuestra empresa es una pequeña editorial que maneja habitualmente su lista de ventas en una hoja de cálculo y desea poder realizar un análisis de sus

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

MEDIDAS DE TENDENCIA CENTRAL

MEDIDAS DE TENDENCIA CENTRAL CAPÍTULO 14 MEDIDAS DE TENDENCIA CENTRAL A veces, de los datos recolectados ya organizados en alguna de las formas vistas en capítulos anteriores, se desea encontrar una especie de punto central en función

Más detalles

PRUEBA RAPIDA EN EMBARAZADAS (n=62,214 2009-Junio 2010) NO REACTIVO n=218 REACTIVO INDETERMINADO. Tabla 9: Resultados Prueba rápida

PRUEBA RAPIDA EN EMBARAZADAS (n=62,214 2009-Junio 2010) NO REACTIVO n=218 REACTIVO INDETERMINADO. Tabla 9: Resultados Prueba rápida 11-RESULTADOS 11.1-Interpretación y análisis de resultados Un total de de 62,214 mujeres embarazadas se realizaron la prueba rápida de VIH durante años 2009 hasta junio 2010 (Tabla 9). De ellas, 61,808

Más detalles

ÍNDICE DISEÑO DE CONTADORES SÍNCRONOS JESÚS PIZARRO PELÁEZ

ÍNDICE DISEÑO DE CONTADORES SÍNCRONOS JESÚS PIZARRO PELÁEZ ELECTRÓNICA DIGITAL DISEÑO DE CONTADORES SÍNCRONOS JESÚS PIZARRO PELÁEZ IES TRINIDAD ARROYO DPTO. DE ELECTRÓNICA ÍNDICE ÍNDICE... 1 1. LIMITACIONES DE LOS CONTADORES ASÍNCRONOS... 2 2. CONTADORES SÍNCRONOS...

Más detalles

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse.

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse. TABLA DE DECISION La tabla de decisión es una herramienta que sintetiza procesos en los cuales se dan un conjunto de condiciones y un conjunto de acciones a tomar según el valor que toman las condiciones.

Más detalles

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO I. INTRODUCCIÓN Beatriz Meneses A. de Sesma * En los estudios de mercado intervienen muchas variables que son importantes para el cliente, sin embargo,

Más detalles

Manual del Usuario Groupware

Manual del Usuario Groupware Manual del Usuario Groupware por Dionisio Antón (antond@quersystem.com) v1.0 Con este manual usted podrá trabajar con la herramienta Groupware de la plataforma Open-Xchange Índice: 1 Portal... 2 2 Calendario...

Más detalles

GedicoPDA: software de preventa

GedicoPDA: software de preventa GedicoPDA: software de preventa GedicoPDA es un sistema integrado para la toma de pedidos de preventa y gestión de cobros diseñado para trabajar con ruteros de clientes. La aplicación PDA está perfectamente

Más detalles

CAPÍTULO 3 Servidor de Modelo de Usuario

CAPÍTULO 3 Servidor de Modelo de Usuario CAPÍTULO 3 Servidor de Modelo de Usuario Para el desarrollo del modelado del estudiante se utilizó el servidor de modelo de usuario desarrollado en la Universidad de las Américas Puebla por Rosa G. Paredes

Más detalles

Sesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto

Sesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto INFORMÁTICA INFORMÁTICA 1 Sesión No. 4 Nombre: Procesador de Texto Contextualización La semana anterior revisamos los comandos que ofrece Word para el formato del texto, la configuración de la página,

Más detalles

EJERCICIOS DE MATEMÁTICAS I HOJA 4. Ejercicio 1. Se consideran los vectores

EJERCICIOS DE MATEMÁTICAS I HOJA 4. Ejercicio 1. Se consideran los vectores EJERCICIOS DE MATEMÁTICAS I HOJA 4 Ejercicio 1. Se consideran los vectores u 1 = (1, 1, 0, 1), u 2 = (0, 2, 1, 0), u 3 = ( 1, 1, 1, 1), u 4 = (2, 2, 1, 0) de R 4. Expresa, si es posible, los vectores u

Más detalles

ANÁLISIS DINÁMICO DEL RIESGO DE UN PROYECTO

ANÁLISIS DINÁMICO DEL RIESGO DE UN PROYECTO ANÁLISIS DINÁMICO DEL RIESGO DE UN PROYECTO Por: Pablo Lledó Master of Science en Evaluación de Proyectos (University of York) Project Management Professional (PMP) Profesor de Project Management y Evaluación

Más detalles

Sistemas de Información Geográficos (SIG o GIS)

Sistemas de Información Geográficos (SIG o GIS) Sistemas de Información Geográficos (SIG o GIS) 1) Qué es un SIG GIS? 2) Para qué sirven? 3) Tipos de datos 4) Cómo trabaja? 5) Modelos de datos, Diseño Conceptual 6) GeoDataase (GD) 7) Cómo evaluamos

Más detalles

5.4. Manual de usuario

5.4. Manual de usuario 5.4. Manual de usuario En esta sección se procederá a explicar cada una de las posibles acciones que puede realizar un usuario, de forma que pueda utilizar todas las funcionalidades del simulador, sin

Más detalles

Creación y administración de grupos de dominio

Creación y administración de grupos de dominio Creación y administración de grupos de dominio Contenido Descripción general 1 a los grupos de Windows 2000 2 Tipos y ámbitos de los grupos 5 Grupos integrados y predefinidos en un dominio 7 Estrategia

Más detalles

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología La metodología para el desarrollo de software es un modo sistemático de realizar, gestionar y administrar un proyecto

Más detalles

Sistemas de numeración

Sistemas de numeración Sistemas de numeración Un sistema de numeración es un conjunto de símbolos y reglas que permiten representar datos numéricos. Los sistemas de numeración actuales son sistemas posicionales, que se caracterizan

Más detalles

ANÁLISIS DE BALANCES CON EL NUEVO PGC DE 2008

ANÁLISIS DE BALANCES CON EL NUEVO PGC DE 2008 ANÁLISIS DE BALANCES CON EL NUEVO PGC DE 2008 Índice: 1.- ANÁLISIS DE BALANCES. GENERALIDADES...2 2.- EL FONDO DE MANIOBRA...2 3.- ANÁLISIS FINANCIERO DEL BALANCE...3 4.- ANÁLISIS ECONÓMICO DEL BALANCE...6

Más detalles

DISCOS RAID. Se considera que todos los discos físicos tienen la misma capacidad, y de no ser así, en el que sea mayor se desperdicia la diferencia.

DISCOS RAID. Se considera que todos los discos físicos tienen la misma capacidad, y de no ser así, en el que sea mayor se desperdicia la diferencia. DISCOS RAID Raid: redundant array of independent disks, quiere decir conjunto redundante de discos independientes. Es un sistema de almacenamiento de datos que utiliza varias unidades físicas para guardar

Más detalles

Capítulo 7: Distribuciones muestrales

Capítulo 7: Distribuciones muestrales Capítulo 7: Distribuciones muestrales Recordemos: Parámetro es una medida de resumen numérica que se calcularía usando todas las unidades de la población. Es un número fijo. Generalmente no lo conocemos.

Más detalles

ANÁLISIS DE BONOS. Fuente: Alexander, Sharpe, Bailey; Fundamentos de Inversiones: Teoría y Práctica; Tercera edición, 2003

ANÁLISIS DE BONOS. Fuente: Alexander, Sharpe, Bailey; Fundamentos de Inversiones: Teoría y Práctica; Tercera edición, 2003 ANÁLISIS DE BONOS Fuente: Alexander, Sharpe, Bailey; Fundamentos de Inversiones: Teoría y Práctica; Tercera edición, 2003 Métodos de Análisis Una forma de analizar un bono es comparar su rendimiento al

Más detalles

proceso que consiste en aplicar una serie de reglas a las relaciones obtenidas tras el paso del modelo entidad-relación al modelo relacional.

proceso que consiste en aplicar una serie de reglas a las relaciones obtenidas tras el paso del modelo entidad-relación al modelo relacional. Que es una normalización de una base de datos proceso que consiste en aplicar una serie de reglas a las relaciones obtenidas tras el paso del modelo entidad-relación al modelo relacional. Para que sirve

Más detalles

PROYECTOS, FORMULACIÓN Y CRITERIOS DE EVALUACIÓN

PROYECTOS, FORMULACIÓN Y CRITERIOS DE EVALUACIÓN PROYECTOS, FORMULACIÓN Y CRITERIOS DE EVALUACIÓN GESTIÓN DE PROYECTOS CON PLANNER AVC APOYO VIRTUAL PARA EL CONOCIMIENTO GESTIÓN DE PROYECTOS CON PLANNER Planner es una poderosa herramienta de software

Más detalles

TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones.

TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones. TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones. La herramienta que nos indica si el proceso está o no controlado o Estado de Control son

Más detalles

ÍTEMS DEL MENÚ CREACIÓN Y GESTIÓN (Última revisión: lunes, 9 de marzo de 2009)

ÍTEMS DEL MENÚ CREACIÓN Y GESTIÓN (Última revisión: lunes, 9 de marzo de 2009) JOOMLA! ÍTEMS DEL MENÚ CREACIÓN Y GESTIÓN (Última revisión: lunes, 9 de marzo de 2009) Es necesario comentar que este manual ha sido diseñado en su mayor parte por comunidadjoomla.org. Este manual es una

Más detalles

Las ratios financieras

Las ratios financieras Informes en profundidad 10 Las ratios financieras Barcelona Activa SAU SPM, 1998-2011 Índice 01 Introducción 02 03 04 05 Los estados financieros La liquidez La solvencia La rentabilidad 06 Conclusiones

Más detalles

Tema 7 COSTO ESTÁNDAR

Tema 7 COSTO ESTÁNDAR Tema 7 COSTO ESTÁNDAR Campus Santa Fé Miguel Ángel Gutiérrez Banegas 1 Introducción En el proceso de generación de información en los negocios, la predeterminación de costos soluciona la dificultad que

Más detalles

Control Estadístico del Proceso. Ing. Claudia Salguero Ing. Alvaro Díaz

Control Estadístico del Proceso. Ing. Claudia Salguero Ing. Alvaro Díaz Control Estadístico del Proceso Ing. Claudia Salguero Ing. Alvaro Díaz Control Estadístico del Proceso Es un conjunto de herramientas estadísticas que permiten recopilar, estudiar y analizar la información

Más detalles

Manual Consultas Web - PC Sistel Ver 486R4+ - USUARIO JEFATURA

Manual Consultas Web - PC Sistel Ver 486R4+ - USUARIO JEFATURA PCSISTEL Ver 486R4+ Diseñado y Desarrollado por Visual Soft S.A.C. Todos los Derechos reservados. 2006 Este producto y su respectiva documentación así como el nombre PCSISTEL se encuentra debidamente registradas

Más detalles

H E R R A M I E N T A S D E A N Á L I S I S D E D A T O S HERRAMIENTAS DE ANÁLISIS DE DATOS

H E R R A M I E N T A S D E A N Á L I S I S D E D A T O S HERRAMIENTAS DE ANÁLISIS DE DATOS H E R R A M I E N T A S D E A N Á L I S I S D E D A T O S HERRAMIENTAS DE ANÁLISIS DE DATOS Una situación que se nos plantea algunas veces es la de resolver un problema hacia atrás, esto es, encontrar

Más detalles

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Introducción Las Compañías aseguradoras determinan sus precios basadas en modelos y en información histórica

Más detalles

Aula Banca Privada. La importancia de la diversificación

Aula Banca Privada. La importancia de la diversificación Aula Banca Privada La importancia de la diversificación La importancia de la diversificación La diversificación de carteras es el principio básico de la operativa en mercados financieros, según el cual

Más detalles

Introducción. Metadatos

Introducción. Metadatos Introducción La red crece por momentos las necesidades que parecían cubiertas hace relativamente poco tiempo empiezan a quedarse obsoletas. Deben buscarse nuevas soluciones que dinamicen los sistemas de

Más detalles

La práctica del análisis de correspondencias

La práctica del análisis de correspondencias La práctica del análisis de correspondencias MICHAEL GREENACRE Catedrático de Estadística en la Universidad Pompeu Fabra Separata del capítulo 18 Análisis de correspondencias múltiples Primera edición:

Más detalles

[8 ] Contenidos: tipologías y organización.

[8 ] Contenidos: tipologías y organización. [8 ] Contenidos: tipologías y organización. Con Drupal podemos construir casi cualquier tipo de web, definiendo tipos de contenidos, estructurados, permisos, sistema de registro de usuarios, sistemas de

Más detalles

11.2-DISCUSIÓN Prueba rápida

11.2-DISCUSIÓN Prueba rápida 11.2-DISCUSIÓN Prueba rápida Como se observa en la tabla 9 del total de las embarazadas (62,214) a las que se les realizo la prueba rápida un 99.3%(61,808) de ellas dio como resultado no reactivo, tan

Más detalles

2) Se ha considerado únicamente la mano de obra, teniéndose en cuenta las horas utilizadas en cada actividad por unidad de página.

2) Se ha considerado únicamente la mano de obra, teniéndose en cuenta las horas utilizadas en cada actividad por unidad de página. APLICACIÓN AL PROCESO PRODUCTIVO DE LA EMPRESA "F. G. / DISEÑO GRÁFICO". AÑO 2004 Rescala, Carmen Según lo explicado en el Informe del presente trabajo, la variación en la producción de páginas web de

Más detalles

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2 K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2 Historia de revisiones Fecha VersiónDescripción Autor 08/10/2009 1.0 Creación del documento.

Más detalles

Elementos requeridos para crearlos (ejemplo: el compilador)

Elementos requeridos para crearlos (ejemplo: el compilador) Generalidades A lo largo del ciclo de vida del proceso de software, los productos de software evolucionan. Desde la concepción del producto y la captura de requisitos inicial hasta la puesta en producción

Más detalles

Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1

Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1 Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1 TEMA 11: MÉTODOS DINÁMICOS DE SELECCIÓN DE INVERSIONES ESQUEMA DEL TEMA: 11.1. Valor actualizado neto. 11.2. Tasa interna

Más detalles

Ampliación de Estructuras de Datos

Ampliación de Estructuras de Datos Ampliación de Estructuras de Datos Amalia Duch Barcelona, marzo de 2007 Índice 1. Diccionarios implementados con árboles binarios de búsqueda 1 2. TAD Cola de Prioridad 4 3. Heapsort 8 1. Diccionarios

Más detalles

Diseño de bases de datos Diapositiva 1

Diseño de bases de datos Diapositiva 1 Diseño o de bases de datos Objetivos del Diseño Principios del Diseño de BD Proceso de Diseño Normalización Diseño de Tablas: Claves Relaciones Integridad referencial Convenciones de nomenclatura Diseño

Más detalles

HOJA INFORMATIVA DE HORTICULTURA

HOJA INFORMATIVA DE HORTICULTURA HOJA INFORMATIVA DE HORTICULTURA COSECHA Y POST-COSECHA: Importancia y fundamentos Alejandro R. Puerta Ing. Agr. Agosto 2002 La cosecha y post - cosecha es una etapa de fundamental importancia en el proceso

Más detalles

Tutorial: Primeros Pasos con Subversion

Tutorial: Primeros Pasos con Subversion Tutorial: Primeros Pasos con Subversion Introducción Subversion es un sistema de control de versiones open source. Corre en distintos sistemas operativos y su principal interfaz con el usuario es a través

Más detalles

Tratamiento del Riesgo

Tratamiento del Riesgo Tratamiento del Riesgo 1 En que consiste el tratamiento de los riesgos? 2. Cuando debemos enfrentarnos a los riesgos? 3. Estrategias de tratamiento de riesgos 4. Modelo de Análisis de Riesgos 5. Qué pasos

Más detalles

Tools. Ibermática Soluciones Empresariales 2012, Todos los derechos reservados http://soluciones.ibermatica.com

Tools. Ibermática Soluciones Empresariales 2012, Todos los derechos reservados http://soluciones.ibermatica.com Tools http://soluciones.ibermatica.com La aplicación Tools Ibermática incluye 15 aplicaciones que llevan a cabo varios trabajos centrados en el diseño. Estas aplicaciones han sido desarrolladas pensando

Más detalles

Para optimizar este proceso lo dividiremos en etapas y deberemos tener bien claro el objetivo que debemos alcanzar en cada una de ellas:

Para optimizar este proceso lo dividiremos en etapas y deberemos tener bien claro el objetivo que debemos alcanzar en cada una de ellas: ETAPAS DEL PROCESO DE SELECCIÓN DE PERSONAL EN LAS EMPRESAS FAMILIARES En la actualidad muchas empresas familiares han evolucionado intentando aplicar técnicas adecuadas para el proceso de Selección de

Más detalles

Media vs mediana vs moda Cual medida de tendencia central es mas adecuada? MEDIA conveniencias:

Media vs mediana vs moda Cual medida de tendencia central es mas adecuada? MEDIA conveniencias: Iniciar con las interpretaciones de las medidas MEDIA VS MEDIANA VS MODA CUAL ES LA MEDIDA ADECUADA TAREA MEDIA PONDERADA Actividad de Medidas de Localización Problema 1. El problema de las tasas de delito.

Más detalles

ADT CONSULTING S.L. http://www.adtconsulting.es PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS

ADT CONSULTING S.L. http://www.adtconsulting.es PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS ADT CONSULTING S.L. http://www.adtconsulting.es PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS ESTUDIO SOBRE EL POSICIONAMIENTO EN BUSCADORES DE PÁGINAS WEB Y LA RELEVANCIA DE LA ACTUALIZACIÓN DE CONTENIDOS

Más detalles

TEMA 4: Introducción al Control Estadístico de Procesos

TEMA 4: Introducción al Control Estadístico de Procesos TEMA 4: Introducción al Control Estadístico de Procesos 1 Introducción 2 Base estadística del diagrama de control 3 Muestreo y agrupación de datos 4 Análisis de patrones en diagramas de control 1. Introducción

Más detalles

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI La segunda fase del NIPE corresponde con la adecuación de las intervenciones de enfermería del sistema de clasificación N.I.C. (Nursing Intervention

Más detalles

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Descargado desde www.medwave.cl el 13 Junio 2011 por iriabeth villanueva Medwave. Año XI, No. 2, Febrero 2011. ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Autor:

Más detalles

TEMA 14: ANÁLISIS DE LOS ESTADOS FINANCIEROS DE LA EMPRESA

TEMA 14: ANÁLISIS DE LOS ESTADOS FINANCIEROS DE LA EMPRESA Administración de Empresas. 14 Estados financieros de la empresa 14.1 TEMA 14: ANÁLISIS DE LOS ESTADOS FINANCIEROS DE LA EMPRESA ESQUEMA DEL TEMA: 14.1 Introducción. 14.2 Análisis financiero de la empresa.

Más detalles