PROCEDIMIENTO PARA LA IDENTIFICACIÓN DE DATOS ANOMALOS EN BASES DE DATOS

Tamaño: px
Comenzar la demostración a partir de la página:

Download "PROCEDIMIENTO PARA LA IDENTIFICACIÓN DE DATOS ANOMALOS EN BASES DE DATOS"

Transcripción

1 PROCEDIMIENTO PARA LA IDENTIFICACIÓN DE DATOS ANOMALOS EN BASES DE DATOS H. Kuna, A. Rambo, S. Caballero, G. Pautsch, M. Rey, C. Cuba Depto. de Informática, Facultad de Ciencias Exactas Quím. y Naturales Universidad Nacional de Misiones R. García-Martínez Departamento Desarrollo Productivo y Tecnológico. Universidad Nacional de Lanús F. Villatoro Departamento de Lenguajes y Ciencias de la Computación, Universidad de Málaga. Resumen La información se ha transformado en uno de los recursos más importantes que las organizaciones necesitan proteger. En este contexto, la auditoría de sistemas tiene un rol central en prevenir los riesgos relacionados con la tecnología de la información. El desarrollo e implementación de técnicas y herramientas que asistan al auditor (CAATs) durante este proceso es aún incipiente. La minería de datos se aplica de manera asistemática y poco desarrollada en los procesos de auditoría de sistemas. El presente trabajo intenta mostrar un procedimiento que utiliza técnicas de clustering (clasificación y agrupamiento de datos por características similares) donde se procede a la detección de campos considerados outliers, pudiendo representar datos anómalos en la base de datos. Esto podría ser muy útil en las tareas de auditoría de sistemas. Abstract Information has become one of the most important assets companies need to protect. From this fact, the audit of systems has a central role in preventing risks related to information technology. Development and implementation of the computer-assisted audit technique (CAATs) is still incipient. Data mining applies in an embryonic and asystematic way to tasks related to systems audit. This paper tries to show a procedure that uses clustering techniques (classification and grouping of data with similar characteristics) which comes to detecting outliers fields considered and may represent corrupted data in the database. This could be very useful in systems auditing tasks. 1. Introducción El manejo de grandes volúmenes de datos es una constante en todas las organizaciones, lo que exige la capacitación de los recursos humanos existentes para manipular, procesar y obtener el máximo beneficio de los mismos. La MD (minería de datos), conocida como el proceso de extracción inteligente de información no evidente pero presente en las bases de datos, ha sido ampliamente utilizada en diferentes casos como por ejemplo en la medicina [10]. Algunas técnicas de MD se encuentran orientadas a detección de outliers [15]. Un outlier es aquel dato [7], que por sus características diferenciadoras en comparación a los demás datos contenidos en la base de datos es sospechoso de haber sido introducidos por otros mecanismos. La auditoría de sistemas es el conjunto de actividades tendientes a generar recomendaciones que permitan optimizar el correcto funcionamiento de los sistemas existentes en las organizaciones. Las acciones pueden ser de carácter preventivo o correctivo [9]. El propósito del tipo preventivo es identificar actividades de vital importancia como por ejemplo la seguridad. Las normas ISO 27001/2 (y la anterior ISO 17799), hacen mención al ordenamiento de las actividades. La planificación de las mismas es un tema abordados en la norma ISO y en los estándares de la Information Systems Audit and Control Foundation COBIT [4]. En el caso de las auditorías correctivas tienden a detectar y en algunas ocasiones corregir los problemas ya acontecidos, entre los cuales se encuentra la posibilidad de realizar estudios de datos anómalos. Los datos anómalos pueden crear distorsión en los resultados obtenidos al realizar cualquier tipo de análisis sobre los mismos. Sin embargo son menos frecuentes los estudios sobre la calidad de los datos,

2 considerando a los outliers como posibles datos anómalos, teniendo en cuenta como criterios de calidad la detección de datos anómalos, sucios o con ruido. Buscar anomalías realizando consultas o análisis secuenciales sobre los datos, requiere un planteo específico, el cual amerita conocerlas previamente. Para tareas de auditoría es relevante tener mecanismos que permitan automatizar estas prácticas, entre las cuales la aplicación de la MD resulta interesante, debido a su capacidad para detectar patrones y relaciones entre los datos que no son evidentes. Para realizar la aplicación de técnicas de MD existen propuestas que definen una serie de actividades tendientes a ordenar el proceso por ejemplo la empresa SAS propone la utilización de la metodología SEMMA [13] (Sample, Explore, Modify, Model, Assess). En el año 1999, Las empresas, NCR (Dinamarca), AG (Alemania), SPSS (Inglaterra) y OHRA (Holanda), desarrollaron una metodología de libre distribución CRISP-DM (Cross-Industry Standard Process for Data Mining) [5]. La metodología P3TQ [12] (Product, Place, Price, Time, Quantity), tiene dos modelos, el Modelo de MD y el Modelo de Negocio. Existen trabajos que definen una taxonomía de las anomalías detectadas en la búsqueda de outliers [3], donde se mencionan estudios realizados en diferentes contextos como detección de fraude tanto en tarjetas de crédito [1] [14] como en teléfonos celulares [6], entre otros. Se observa que es posible utilizar las técnicas de MD relacionadas a los outliers entre las cuales se encuentra la técnica de clustering. Esta técnica se basa en un método de aprendizaje no supervisado en el cual los datos se agrupan de acuerdo a características similares. Es una de las principales técnicas para descubrir conocimiento oculto, siendo muy utilizado en el descubrimiento de patrones en bases de datos (BD) sin ningún conocimiento previo, y en la detección de los valores extremos. Cuanto mayor es la distancia entre un objeto de una base de datos y el resto de la muestra, mayor es la posibilidad de considerar al objeto como un valor atípico. Los principales métodos para medir la distancia son la distancia euclídea, la de Manhattan y de Mahalanobis. Las técnicas de agrupación se pueden clasificar de la siguiente manera: 1. Agrupamiento jerárquico, que produce una descomposición jerárquica del conjunto de datos, creando un gráfico conocido como dendograma que representa la forma de agrupación. 2. Métodos basados en particiones, en los que se realizan divisiones sucesivas del conjunto de datos. Los objetos se organizan en k grupos, de modo que la desviación de cada objeto debe reducirse al mínimo en relación con el centro de la agrupación. 3. Métodos basados en la densidad, donde cada cluster se relaciona con una medida basada en este parámetro. Aquí los objetos situados en regiones con baja concentración son considerados anómalos. Existen otros procedimientos como los basados en métodos difusos, en redes neuronales, en algoritmos evolutivos, en entropía, etc. El presente trabajo plantea utilizar técnicas de MD, entre ellas específicamente las de clustering, para identificar valores atípicos y mejorar de esa manera la calidad de los datos. Para ello se procede a analizar aquellas técnicas que mejor apliquen, buscando determinar las ventajas y desventajas que presentan, siendo el objetivo final el desarrollo de procedimientos que permitan detectar outliers. Considerando que estos pueden representar datos anómalos útiles, para el auditor ya que además de detectar las tuplas indican los campos dentro de las mismas considerados outliers. Siendo este un importante aporte dado que hasta el presente trabajo solamente es posible detectar las tuplas que contienen valores atípicos. En la sección 2 Materiales y métodos se describen el origen de los datos utilizados en cada prueba. Además se indican los programas utilizados con una breve descripción de la finalidad de los mismos dentro del presente estudio. Se realiza la descripción de los procedimientos y algoritmos empleados subdivididos para su mejor interpretación en dos apartados 2.1 indicando el método estadístico y 2.2 donde se explica el procedimiento propuesto el cual utiliza clustering. En la sección 3 Resultados y discusión se presentan los pasos utilizados para realizar cada una de las etapas que involucran los procedimientos descriptos anteriormente junto con gráficos y tablas explicativas. En la sección 4 Conclusiones se identifican los principales logros del presente estudio. En la sección 5 Referencias se puede observar el compendio bibliográfico utilizado de referencia. 2. Materiales y Métodos La performance de la técnica propuesta se mide usando lotes generados aleatoriamente y una base de datos que contiene datos reales sobre cáncer de mama. La base de datos de Cáncer de mama se obtuvo de Wisconsin Diagnostic Breast Cancer [16] y por otra parte se generó una base de datos con números aleatorios que responden a una distribución normal, el objetivo del lote de datos generados es determinar los mejores valores de los parámetros utilizados en el

3 procedimiento propuesto. Esta última BD fue creada utilizando la aplicación Mathlab [17] utilizando la fórmula que se muestra en (1) m (' Normal', a, b, c d ) m = random, Formula de distribución normal utilizada en el Mathlab. (1) Donde Normal: es el nombre de la distribución. a: es la mediana, rango para generar números a partir del 1 a x<200 b: es la dispersión c: es la cantidad de registros a generar d: la cantidad de columnas. Con estos datos se aplicaron los procedimientos iniciales que involucraban el análisis estadístico de los registros (con el objetivo de determinar estadísticamente los valores outliers) y la aplicación del procedimiento propuesto que utiliza clustering. Este procedimiento sirvió para determinar los valores outliers y contrastarlos con los obtenidos a través del análisis estadístico de los datos. El procedimiento que utiliza clustering aplicado sobre la base de datos creada con el Mathlab, se ejecutó en sucesivas pruebas de manera tal que se pudo determinar los valores óptimos de los parámetros (LOF, Min y Max) necesarios para ejecutar el algoritmo. Luego se aplicó el procedimiento que utiliza clustering sobre la BD de cáncer de mama para determinar los valores outliers. Finalmente se evaluaron los resultados obtenidos. Para implementar el procedimiento que utiliza la técnica de clustering se utilizó el Rapid Miner [20], en esta instancia se programó una interface de trabajo en Java para lo cual se utilizó el NetBeans [18] con la finalidad de automatizar los procesos de prueba utilizando el Rapid Miner. Para almacenar los resultados de las diferentes pruebas y realizar las comparaciones se utilizó una hoja de cálculos Calc de Libre Office [19] Método estadístico Se procedió a realizar el estudio de los datos aplicando métodos estadísticos como el cálculo de la media aritmética simple, ver formula (2) y el desvío estándar muestral para determinar los valores extremos o atípicos, ver formula (3). n i= = 1 n x i Calculo de la media aritmética simple (2) Donde xi es cada uno de los elementos de la muestra y n es el tamaño de la muestra. n xi x i= 1 s = n 1 Calculo del desvío estándar muestral (3) Donde x es la media de muestra o promedio (número1; número2; ) y n es el tamaño de la muestra. Sobre cada conjunto de los campos de datos se realizaron los siguientes pasos: Se calcula el valor medio del conjunto de datos (columnas, o campos de los registros) Se calcula el desvío estándar de este conjunto de datos Se determinan los rangos de valores máximos y mínimos aceptables sumando y restando el doble del valor del desvío estándar al valor de la media calculada según lo establecido en el área de estadística. [11]. En este paso se identifican los valores atípicos, que son aquellos que están fuera del rango establecido en el punto anterior. Cabe destacar que la finalidad del método estadístico es determinar los outliers para luego compararlos con los obtenidos a través del procedimiento que aplica clustering y de esta manera determinar la eficiencia del mismo 2.2. Procedimiento propuesto aplicando clustering (LOF) Luego de determinado cuales eran los registros que potencialmente tenían ruido, aplicando el análisis estadístico; se procedió a aplicar el procedimiento propuesto que incluye el algoritmo de clusterización LOF (Local Outlier Factor) [8], el cual pertenece al conjunto de técnicas basadas en densidad para la detección de outliers. Esta técnica hace uso de la estimación de densidad de los objetos, para ello, los objetos localizados en regiones de baja densidad, y que son relativamente distantes de sus vecinos se consideran anómalos. El Local outlier factor (LOF) de una instancia x se encuentra definida por LOF ( x) = y N 2 ( x) N lrd lrd ( x) ( y) ( x)

4 Calculo de LOF(4) Donde lrd representa la densidad de alcanzabilidad local (lrd) de una instancia. Dada una instancia x, su lrd se define como la inversa de la distancia de alcanzabilidad promedio basada en la vecindad más cercana de la instancia x. Cuando la densidad de los vecinos de una instancia x es alta o cuando su densidad es baja entonces su LOF será grande y puede ser considerado un outlier [2]. En esta etapa se utiliza la aplicación realizada en Java trabajando en forma conjunta con el Rapid Miner para aplicar técnicas de MD específicamente LOF. El algoritmo LOF es un algoritmo basado en la densidad que determina un factor local de outlier, este facto puede tomar valores entre 0 e donde 1 indica que se trata de un valor normal, este valor es incorporado a cada tupla. Este algoritmo utilizado independientemente no permitía determinar qué campo es un outlier, solo lograba identificar la tupla completa que poseía entre sus campos posibles datos inconsistentes o con ruido. El objetivo de este procedimiento es detectar aquellos campos dentro de cada tupla que son outliers. El procedimiento hace lo siguiente: se aplica LOF a una BD se separan dos bases de datos de acuerdo al valor de LOF, de acuerdo a la experimentación cuando LOF > n (siendo n un valor a determinar experimentalmente), se crean de esta manera dos bases de datos una limpia (con valores de LOF < n) y otra con tuplas donde se considera que alguno de sus valores es atípico (con valores de LOF > n). sobre la base de datos limpia se determinan los metadatos, se toman los valores máximos y mínimos y la media de cada columna se desarrolla un script que realiza las siguientes funciones: recorre todas las columnas y compara los valores máximos y mínimos normales con los de cada campo sobre la base de datos que contienen valores atípicos, si el valor del campo es mayor o menor que los valores normales marca ese campo como posible outlier. se aplica el script sobre la base de datos sucia o sea donde el valor de LOF de la tupla representa un posible outlier, el resultado es que se obtienen los campos que posiblemente sean valores extremos. Este procedimiento se puede observar en la figura 1. Cabe destacar que el valor óptimo para la variable n, donde se busca LOF > n para valores limpios y LOF < n para valores atípicos, es el valor n = 1.5. Se arribaron a este parámetro y al de Min = 10 y Max = 20 luego de sucesivas pruebas realizadas sobre la base de datos con datos generados aleatoriamente esta comparativa de rendimiento que justifica la elección se observa en la tabla 2, 3 y Resultados y Discusión Para la experimentación se crearon tres BD (bases de datos) que tienen la distribución normal utilizando el Mathlab, un conjunto de datos de 200, otra de 400 y una última de 2000 registros. Se realizaron pruebas para cada una de las BD primeramente utilizando el análisis estadístico, para determinar los outliers y luego se aplicó el procedimiento propuesto donde se utilizó la herramienta de MD en el Rapid Miner para lo cual se testearon diferentes valores de las variables Min y Max y Limites de LOF (valor de n) tomando como criterios de validación y efectividad los casos que mayor acierto o descubrimientos de outliers presentaba y menores casos de falsos positivos. Los 2 primeros parámetros son utilizados para definir el vecindario que el algoritmo formará alrededor de cada tupla a la hora de su análisis particular. El Min es el límite de la cantidad mínima de tuplas con las cuales se debe realizar el cálculo del valor de LOF, mientras que Max marca el límite máximo de tuplas que se utilizarán para la misma tarea. Por esto es que se dice que definen el vecindario de tuplas contra las que cada una se va a comparar para determinar su valor de outlier. Los valores de las variables utilizadas en cada prueba fueron: Limite LOF: 1.3, 1.5, 1.7, 1.9 y 2. Min: 1, 5, 10, 20 y 50. Max: 2, 10, 15, 20, 40 y 100 Conjunto de datos: 200, 400 y 2000 registros. Los mejores resultados como se observa en la tabla 1, se obtuvieron con valores siguientes: Límite de LOF igual a 1.5, Min igual a 10 y Max igual a 20. La tabla 1 presenta los resultados obtenidos con los diferentes grupos de datos (200, 400 y 2000 registros). Estos valores se tomaron como parámetros para realizar las pruebas con el procedimiento diseñado que

5 incluye aplicar clustering sobre la base de datos de cáncer de mama. De esta manera se puede observar como los valores óptimos para los parámetros se encuentran con n = 1,5 Min = 10 y Max = 20. Tabla 1. Valores Obtenidos en las pruebas realizadas aplicando el procedimiento propuesto sobre la BD generada, con valores de Limite de LOF igual 1.5 (extracto del conjunto de pruebas realizadas). Figura. 1. Procedimiento de clustering utilizando LOF aplicado sobre la BD Para obtener estos valores óptimos se ejecutaron sucesivas pruebas determinando la efectividad obtenida según el criterio mencionado anteriormente. Los datos para los diferentes valores Min, Max y límite de LOF para 200 registros se observa en la tabla 2. Los datos para los diferentes valores Min, Max y límite de LOF para 400 registros se observa en la tabla 3. Los datos para los diferentes valores Min, Max y límite de LOF para 2000 registros se observa en la tabla 4. La efectividad se calculó teniendo en cuenta el valor de aciertos (valor porcentual de outliers detectados sobre el total existente) menos el valor yerro (valor porcentual de los falsos positivos sobre el total existente). Tomando como mejor efectividad los valores más altos positivos y como una mala efectividad los valores más bajos negativos. Luego de obtener estos resultados se tomaron los valores óptimos LOF, Min y Max para proceder a realizar las pruebas sobre la BD de cáncer de mama. En el estudio realizado en A New Local Distance- Based Outlier Detection Approach for Scattered Real- World Data [1] se utiliza la base de datos de cáncer de mama de Wisconsin Diagnostic Breast Cancer [16] para detectar tuplas outliers. En esta base de datos aparecen clasificados tipos de cáncer de mamas con diferentes características que responden a casos de cáncer maligno y benigno. En este estudio se separaron los datos correspondientes a cáncer maligno identificando un set o conjunto de datos de 212 valores. Tomando como referencia este estudio, el cual considera el conjunto de datos que indican cáncer benigno como datos normales y el conjunto de datos que representan casos de cáncer malignos como los datos anormales o atípicos. De esta manera los casos de cáncer maligno estarían destinados a formar parte del conjunto que representaría los outliers en la base de datos que estaría compuesta únicamente por conjuntos

6 de datos que identifican características de cáncer benigno. Tabla 2. Valores Obtenidos en las pruebas realizadas aplicando el procedimiento propuesto sobre la BD generada, con 200 registros variando los valores de Min, Max y LOF (extracto del conjunto de pruebas realizadas). De este conjunto compuesto por 19 registros se los ordena de mayor a menor y se toman los diez primeros, los cuales se introducen dentro del conjunto de registros que pose únicamente los casos de cáncer benigno. Tabla 3. Valores obtenidos en las pruebas realizadas aplicando el procedimiento propuesto sobre la BD generada, con 400 registros variando los valores de Min, Max y LOF (extracto del conjunto de pruebas realizadas). Para optimizar el funcionamiento del procedimiento se seleccionaron solamente 10 tuplas con el atributo tipo de cáncer = maligno, para obtener estos registros se aplicó con la herramienta Rapid Miner un procedimiento de clusterización con K- Means. Esta técnica de clustering selecciona grupos representativos entre los datos. Sus diferentes variantes se basan fundamentalmente en la forma de medir distancias entre los datos. El Rapid Miner utiliza el método de centroides donde la distancia entre dos clusters se define como la distancia entre los centroides (medias de los cluster). Luego de aplicar esta técnica se detecta el cluster más lejano y se selecciona un conjunto de 10 registros que se identifican como candidatos para conformar el conjunto de outliers a ser introducidos en la BD de cáncer que posee únicamente los casos de cáncer benigno. De esta manera se determinan las diez tuplas a ser utilizadas como outliers por ser parte más representativa del conjunto de datos que componen a los registros que contienen las características del cáncer maligno. Se aplica el procedimiento que utiliza clustering aplicando LOF con estos valores incorporados a la base de datos con cáncer benigno y se obtienen los resultados de la tabla 5. Es posible observar que con alta efectividad se identifican y aíslan los registros que poseen outliers. Tomando como criterios de efectividad mayor cantidad de outliers identificados y menor cantidad de falsos positivos.

7 4. Conclusiones Se comprueba con el procedimiento empleado que es posible detectar con efectividad los registros que contienen outliers y en particular fue posible detectar los campos de esos registros que son considerados outliers con una efectividad del 100% en el caso de la base de datos real utilizada para la experimentación. Tabla 4. Valores Obtenidos en las pruebas realizadas aplicando el procedimiento propuesto sobre la BD generada, con 2000 registros variando los valores de Min, Max y LOF (extracto del conjunto de pruebas realizadas). Valor Max: 20 Outliers reales de la BD 19 Out. detectados por el procedimiento 14 Falsos Positivos 0 Efectividad 73, Se logró determinar los valores de los parámetros utilizados en el algoritmo propuesto que mayor efectividad tienen. Hasta el presente todas las investigaciones sobre el tema permitían identificar tuplas con sospecha de contener outliers, en cambio el procedimiento propuesto permite identificar específicamente que campo es el que tiene outliers, siendo esto de mucha utilidad en la tarea del auditor. 5. Líneas Futuras En futuros trabajos se probarán otros métodos de clustering con el objetivo de evaluar su rendimiento para compararlos con los métodos estudiados. Además de aplicar los procesos desarrollados en este trabajo en bases de datos del mundo real. Por otra parte se pretende trabajar sobre los algoritmos empleados de manera tal que se pueda mejorar el rendimiento del proceso. El presente trabajo forma parte de un proyecto de investigación que involucra el desarrollo de una tesis de doctorado, una tesis de maestría y dos tesis de grado. Además de contar la tesis de doctorado con el auspicio del capítulo ISACA en Buenos Aires (ADACSI, Asociación de Auditoría y Control de Sistemas de Información), una futura línea de trabajo se relaciona con el desarrollo de una herramienta que permita automatizar las actividades de auditoria de base de datos para que sea de utilidad directa en la industria. 6. Referencias Tabla 5. Tabla de resultados obtenidos sobre la base de datos de cáncer BD - Cancer Valor límite de LOF: 1,5 Valor Min: 10 Valor Max: 20 Outliers reales de la BD 10 Out. detectados por el procedimiento 10 Falsos Positivos 0 Efectividad 100 Valor límite de LOF: 1,5 Valor Min: 10 [1]. Bolton, R. And Hand, D.: Unsupervised profiling methods for fraud detection. In Proceedings of the Conference on Credit Scoring and Credit Control VII. (1999) [2]. Breunig, M; Kriegel, H, Raimond T.; Sander, J.: LOF: Identifying Density-based Local Outliers. ACM SIGMOD. (2000) [3]. Chandola V., Banerjee A., and Kumar V.: Anomaly Detection: A Survey. University of Minnesota. Pg ACM Computing Surveys, Vol. 41, No. 3, Article 15. (2009) [4]. COBIT Control Objectives for Information and related Technology. org/cobit/. Vigencia 16/04/08.

8 [5]. CRISP-DM Vigencia 15/09/08. [6]. Fawcett, T. and Provost, F.: Activity monitoring: noticing interesting changes in behavior. In Proceedings of the 5th ACM SIGKDD International Press, Conference on Knowledge Discovery and Data Mining. ACM (1999) [7]. Hawkings, D.: Identification of Outliers. Chapman and Hall. London. (1980) [8]. Hu T. and Sungs S. Y.: Detecting pattern-based outliers. Pattern Recognition Letters, vol. 24, no. 16, pp (2003) [9]. ISO/IEC Primera Edición 15/10/2005. Estándar Internacional. (2005) [10]. Ke Z., Marcus H. and Huindong J.: A New Local Distance-Based Outlier Detection Approach for Scattered Real-World Data. RSISE, Australian National University, National ICT Australia (NICTA), Canberra Lab, ACT, Australia (2009) [11]. Peña D.: Análisis de Datos Multivariantes, Pg 84. McGraw-Hill. Interamericana de España. S.A.U. (2003). [12]. Pyle, D.: Business Modeling and Business intelligence. Morgan Kaufmann Publishers (2003) [13]. SEMMA ing/miner/semma.html. Vigencia 15/09/08. [14]. Teng, H., Chen, K., and Lu, S.: Adaptive real-time anomaly detection using inductively generated sequential patterns. In Proceedings of the IEEE Computer Society Symposium on Research in Security and Privacy. IEEE Computer Society Press, (1990) [15]. Torr P.H.S. and Murray D. W.: Outlier Detection and Motion Segmentation. Sensor Fusion VI Volume: 2059, Pages: Robotics Research Gorup, Department of Engineering Science, University of Oxford Parks Road, Oxford OX1 3PJ, UK. (1993) [16]. WDBC el conjunto de datos es de UCI ML Repository: última visita 20/05/ Software Utilizado [17]. Mathlab. Entorno de cálculos programable. Software con licencia académica. ( ) [18]. NetBeans. Entorno para desarrollo de aplicaciones. Open Source ( ) [19]. Open Office. Calc. Programa de Hoja de Cálculo. Open Source. ( ). [20]. RapidMiner. Sistema Open Source para minería de datos. ( )

Procedimiento de Explotación de Información para la Identificación de Campos anómalos en Base de Datos Alfanuméricas

Procedimiento de Explotación de Información para la Identificación de Campos anómalos en Base de Datos Alfanuméricas Procedimiento de Explotación de Información para la Identificación de Campos anómalos en Base de Datos Alfanuméricas Horacio Kuna 1,2, German Pautsch 1, Aalice Rambo 1, Martin Rey 1, J.ose Cortes 1, Silvina

Más detalles

COMPARACION DE LA EFECTIVIDAD DE PROCEDIMIENTOS DE LA EXPLOTACIÓN DE INFORMACIÓN PARA LA IDENTIFICACIÓN DE OUTLIERS EN BASES DE DATOS

COMPARACION DE LA EFECTIVIDAD DE PROCEDIMIENTOS DE LA EXPLOTACIÓN DE INFORMACIÓN PARA LA IDENTIFICACIÓN DE OUTLIERS EN BASES DE DATOS WICC 2012 296 COMPARACION DE LA EFECTIVIDAD DE PROCEDIMIENTOS DE LA EXPLOTACIÓN DE INFORMACIÓN PARA LA IDENTIFICACIÓN DE OUTLIERS EN BASES DE DATOS H. Kuna 1, G. Pautsch 1, M. Rey 1, C. Cuba 1, A. Rambo

Más detalles

AVANCES EN PROCEDIMIENTOS DE LA EXPLOTACIÓN DE INFORMACIÓN CON ALGORITMOS BASADOS EN LA DENSIDAD PARA LA IDENTIFICACIÓN DE OUTLIERS EN BASES DE DATOS

AVANCES EN PROCEDIMIENTOS DE LA EXPLOTACIÓN DE INFORMACIÓN CON ALGORITMOS BASADOS EN LA DENSIDAD PARA LA IDENTIFICACIÓN DE OUTLIERS EN BASES DE DATOS AVANCES EN PROCEDIMIENTOS DE LA EXPLOTACIÓN DE INFORMACIÓN CON ALGORITMOS BASADOS EN LA DENSIDAD PARA LA IDENTIFICACIÓN DE OUTLIERS EN BASES DE DATOS H. Kuna 1, G. Pautsch 1, M. Rey 1, C. Cuba 1, A. Rambo

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Procedimientos de explotación de información para la identificación de datos faltantes con ruido e inconsistentes.

Procedimientos de explotación de información para la identificación de datos faltantes con ruido e inconsistentes. ESCUELA TÉCNICA SUPERIOR DE INGENIERÍA INFORMÁTICA DEPARTAMENTO DE LENGUAJES Y CIENCIAS DE LA COMPUTACIÓN Procedimientos de explotación de información para la identificación de datos faltantes con ruido

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Líneas de I+D+I del Laboratorio de Investigación y Desarrollo en Ingeniería de Explotación de Información (LIDIEI GISI UNLa)

Líneas de I+D+I del Laboratorio de Investigación y Desarrollo en Ingeniería de Explotación de Información (LIDIEI GISI UNLa) Líneas de I+D+I del Laboratorio de Investigación y Desarrollo en Ingeniería de Explotación de Información (LIDIEI GISI UNLa) R. García-Martínez, D. Rodríguez, E. Baldizzoni, S. Martins Grupo Investigación

Más detalles

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre: : : lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. 12 6 lemas propios de la. 12 6 lemas propios de la.

Más detalles

ASEGURAMIENTO DE LA CALIDAD PARA PROYECTOS DE EXPLOTACIÓN DE INFORMACIÓN

ASEGURAMIENTO DE LA CALIDAD PARA PROYECTOS DE EXPLOTACIÓN DE INFORMACIÓN WICC 2012 212 ASEGURAMIENTO DE LA CALIDAD PARA PROYECTOS DE EXPLOTACIÓN DE INFORMACIÓN Diez, E., Pytel, P., Rodríguez, D., García, R., Lacabanne, M., Leonardis, L., Martins, S., Cartanilica, A., García-Martínez,

Más detalles

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial Universidad del Cauca Facultad de Ingeniería Electrónica y Telecomunicaciones Programas de Maestría y Doctorado en Ingeniería Telemática Seminario de Investigación Evaluación, limpieza y construcción de

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA Pablo F. Provasi 1 Lucio J. Kleisinger 1 Francisco R. Villatoro 2 1 Dpto. de Informática, Universidad

Más detalles

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata v.1.0 Clase 5 Docente: Gustavo Valencia Zapata Temas Clase 5: Conceptos de Minería de Datos Herramientas de DM Referencias Minería de datos Proceso de DM www.gustavovalencia.com Minería de datos La minería

Más detalles

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source Inteligencia Artificial y Seguridad Informática en plataformas Open Source Jornadas de Software Libre y Seguridad Informática Santa Rosa La Pampa 4 y 5 de Diciembre de 2009 AGENDA Primera Parte Definiciones

Más detalles

METODOLOGÍAS PARA LA REALIZACIÓN DE PROYECTOS DE DATA MINING

METODOLOGÍAS PARA LA REALIZACIÓN DE PROYECTOS DE DATA MINING METODOLOGÍAS PARA LA REALIZACIÓN DE PROYECTOS DE DATA MINING Rodríguez Montequín, Mª Teresa; Álvarez Cabal, J. Valeriano; Mesa Fernández, José Manuel; González Valdés, Adolfo Resumen La gran cantidad de

Más detalles

Trabajo Practico N 12

Trabajo Practico N 12 Trabajo Practico N 12 Minería de Datos CATEDRA: Actualidad Informática Ingeniería del Software III Titular: Mgter. Horacio Kuna JTP: Lic. Sergio Caballero Auxiliar: Yachesen Facundo CARRERAS: Analista

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

DETECCIÓN DE PATRONES DE ACCESIBILIDAD EN EL DESARROLLO DE PROYECTOS WEB

DETECCIÓN DE PATRONES DE ACCESIBILIDAD EN EL DESARROLLO DE PROYECTOS WEB DETECCIÓN DE PATRONES DE ACCESIBILIDAD EN EL DESARROLLO DE PROYECTOS WEB Villanueva, J. (p) ; Rodríguez, V.; Ortega, F.; Mijares, A. Abstract The use of accessibility requirements in the development of

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Verónica Escobar González, Claudio Barrientos Ochoa, Sergio Barrientos Ochoa, Dirección de Modelamiento Geometalúrgico

Más detalles

Habilidades y Herramientas para trabajar con datos

Habilidades y Herramientas para trabajar con datos Habilidades y Herramientas para trabajar con datos Marcelo Ferreyra X Jornadas de Data Mining & Business Intelligence Universidad Austral - Agenda 2 Tipos de Datos Herramientas conceptuales Herramientas

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

Modelo de Procesos para la Gestión de Requerimientos en Proyectos de Explotación de Información

Modelo de Procesos para la Gestión de Requerimientos en Proyectos de Explotación de Información Modelo de Procesos para la Gestión de Requerimientos en Proyectos de Explotación de Información Pollo-Cattaneo, M. F. 1,2, Mansilla, D 2,Vegega, C 2, Pesado, P. 3, García-Martínez, R. 4, P. Britos, P.

Más detalles

DETECCIÓN DE PATRONES EN IMÁGENES MÉDICAS BASADOS EN TÉCNICAS DE EXPLOTACIÓN DE DATOS Proyecto de Tesis de Magíster en Ingeniería de Software

DETECCIÓN DE PATRONES EN IMÁGENES MÉDICAS BASADOS EN TÉCNICAS DE EXPLOTACIÓN DE DATOS Proyecto de Tesis de Magíster en Ingeniería de Software DETECCIÓN DE PATRONES EN IMÁGENES MÉDICAS BASADOS EN TÉCNICAS DE EXPLOTACIÓN DE DATOS Proyecto de Tesis de Magíster en Ingeniería de Software Tesista: Director propuesto: Ing. Gustavo A. Ferrero M. Ing.

Más detalles

WICC 2014 XVI Workshop de Investigadores en Ciencias de la Computación

WICC 2014 XVI Workshop de Investigadores en Ciencias de la Computación ESTUDIO DE TECNICAS DE DATA MINING APLICADAS AL ANALISIS DE DATOS GENERADOS CON LA METODOLOGIA BLENDED LEARNING Marcelo Omar Sosa, Sosa Bruchmann Eugenia Cecilia Departamento Computación/Facultad de Ciencias

Más detalles

(3300) Posadas. Argentina 1 gpautsch@fceqyn.unam.edu.ar, 2 hdkuna@unam.edu.ar,

(3300) Posadas. Argentina 1 gpautsch@fceqyn.unam.edu.ar, 2 hdkuna@unam.edu.ar, Resultados Preliminares del Proceso de Minería de Datos Aplicado al Análisis de la Deserción en Carreras de Informática Utilizando Herramientas Open Source J. Germán A. Pautsch 1, Horacio D. Kuna 2, Antonia

Más detalles

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

Weka como herramienta de data mining

Weka como herramienta de data mining Weka como herramienta de data mining Lic. Aldave Rojas Isaac Alberto Instituto Tecnológico Superior de Ciudad Serdán Abstract El presente trabajo muestra un ejemplo introductorio a la herramienta de Data

Más detalles

OPTATIVA I: MINERIA DE DATOS

OPTATIVA I: MINERIA DE DATOS UNIVERSIDAD AUTÓNOMA DE CHIHUAHUA Clave: 08MSU007H Clave: 08USU4053W FACULTAD DE INGENIERÍA PROGRAMA DEL CURSO: OPTATIVA I: MINERIA DE DATOS DES: Programa(s) Educativo(s): Tipo de materia: Clave de la

Más detalles

Área Académica: Sistemas Computacionales. Profesor: Felipe de Jesús Núñez Cárdenas

Área Académica: Sistemas Computacionales. Profesor: Felipe de Jesús Núñez Cárdenas Área Académica: Sistemas Computacionales Tema: Sistemas ROLAP y MOLAP Profesor: Felipe de Jesús Núñez Cárdenas Periodo: Agosto Noviembre 2011 Keywords: ROLAP, MOLAP,HOLAP Tema: Sistemas ROLAP y MOLAP Abstract

Más detalles

MATERIAL DE APOYO CASO PRÁCTICO SISTEMA INTEGRAL PARA LA PROYECCION Y DETECCION DE LA PREVENCION DEL DELITO, MEDIANTE MINERIA DE DATOS.

MATERIAL DE APOYO CASO PRÁCTICO SISTEMA INTEGRAL PARA LA PROYECCION Y DETECCION DE LA PREVENCION DEL DELITO, MEDIANTE MINERIA DE DATOS. MATERIAL DE APOYO CASO PRÁCTICO SISTEMA INTEGRAL PARA LA PROYECCION Y DETECCION DE LA PREVENCION DEL DELITO, MEDIANTE MINERIA DE DATOS. PRESENTA MTIE. Erik Guerrero Bravo. Tula de Allende Hidalgo Septiembre

Más detalles

Impacto de la Complejidad del Dominio en las Variaciones del Comportamiento de Procesos de Explotación de Información

Impacto de la Complejidad del Dominio en las Variaciones del Comportamiento de Procesos de Explotación de Información Impacto de la Complejidad del Dominio en las Variaciones del Comportamiento de Procesos de Explotación de Información Marcelo López Nocera Programa de Maestría en Ingeniería de Sistemas de Información.

Más detalles

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA PF-3808 Minería de Datos II Semestre del 2009 Profesor: Dr. Francisco J. Mata (correo: fmatach@racsa.co.cr;

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

DETECCIÓN DE OBSERVACIONES ATÍPICAS MEDIANTE TRUNCAMIENTOS: CASO UNIVARIANTE

DETECCIÓN DE OBSERVACIONES ATÍPICAS MEDIANTE TRUNCAMIENTOS: CASO UNIVARIANTE DETECCIÓN DE OBSERVACIONES ATÍPICAS MEDIANTE TRUNCAMIENTOS: CASO UNIVARIANTE ORTEGA DATO, Juan Fco. Departamento de Economía y Empresa Universidad de Castilla-La Mancha correo-e: JuanFco.Ortega@uclm.es

Más detalles

Informática II Ing. Industrial. Data Warehouse. Data Mining

Informática II Ing. Industrial. Data Warehouse. Data Mining Data Warehouse Data Mining Definición de un Data Warehouses (DW) Fueron creados para dar apoyo a los niveles medios y altos de una empresa en la toma de decisiones a nivel estratégico en un corto o mediano

Más detalles

Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular

Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular AUTORES: Fabián Cabrera Cuenca 1, Sergio Jonathan León García 2, Ilse Lorena Ycaza Díaz 3, Juan Aurelio Alvarado

Más detalles

Reglas de Asociación. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid

Reglas de Asociación. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Reglas de Asociación Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Reglas Proposicionales: Reglas de Clasificación Descripción de instancias:

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile.

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile. Los futuros desafíos de la Inteligencia de Negocios Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile.cl El Vértigo de la Inteligencia de Negocios CRM: Customer

Más detalles

LA MINERÍA DE DATOS EN LA EXTRACCIÓN DE CONOCIMIENTOS APLICADOS A PROBLEMAS RELACIONADOS CON LA EDUCACIÓN

LA MINERÍA DE DATOS EN LA EXTRACCIÓN DE CONOCIMIENTOS APLICADOS A PROBLEMAS RELACIONADOS CON LA EDUCACIÓN LA MINERÍA DE DATOS EN LA EXTRACCIÓN DE CONOCIMIENTOS APLICADOS A PROBLEMAS RELACIONADOS CON LA EDUCACIÓN Blanca Maricela Ibarra Murrieta, Ricardo Blanco Vega y María Angélica García Fierro Departamento

Más detalles

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1 ÍNDICE Introducción... XV Capítulo 1. El concepto de Data Mining... 1 Introducción... 1 Una definición de Data Mining... 3 El proceso de Data Mining... 6 Selección de objetivos... 8 La preparación de los

Más detalles

Métricas de complejidad para la transformación del problema de detección de cáncer basado en

Métricas de complejidad para la transformación del problema de detección de cáncer basado en Índice para la transformación del problema de detección de cáncer basado en mamografías Alumna: Núria Macià Antoĺınez Asesora: Ester Bernadó Mansilla Núria Macià Antoĺınez PFC: 1/49 Índice 1 Planteamiento

Más detalles

Modelado de relaciones existentes en un equipo de proyecto de software Modeling relationships in a software project team

Modelado de relaciones existentes en un equipo de proyecto de software Modeling relationships in a software project team Modelado de relaciones existentes en un equipo de proyecto de software Modeling relationships in a software project team Rafael Rodríguez-Puente 1, Eliana B. Ril-Valentin 2 1 Departamento de Técnicas de

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

Aplicación de Minería de Datos para la Detección de Anomalías: Un Caso de Estudio

Aplicación de Minería de Datos para la Detección de Anomalías: Un Caso de Estudio Aplicación de Minería de Datos para la Detección de Anomalías: Un Caso de Estudio Ania Cravero Leal, Samuel Sepúlveda Cuevas Depto. Ingeniería de Sistemas Universidad de la Frontera, Temuco, Chile {acravero,

Más detalles

de Lanús. Buenos Aires, Argentina. rgarcia@unla.edu.ar.

de Lanús. Buenos Aires, Argentina. rgarcia@unla.edu.ar. Behavioral Variability of Clustering and Induction Based on Domain Features Variabilidad del Comportamiento de Agrupamiento e Inducción Basado en las Características del Dominio Marcelo López N. 1, Ramón

Más detalles

2. CLASIFICACIÓN DE LA ACTIVIDAD CURRICULAR, FORMACIÓN PRÁCTICA Y CARGA HORARIA

2. CLASIFICACIÓN DE LA ACTIVIDAD CURRICULAR, FORMACIÓN PRÁCTICA Y CARGA HORARIA CÓDIGO ASIGNATURA 1131-3 DEPARTAMENTO: Ingeniería e Investigaciones Tecnológicas ASIGNATURA: DATA MINING y DATA WAREHOUSE Plan 2009 Ingeniería en Informática Año: 5 (Electiva - Ingeniería de Software)

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu Agüero Martín Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.martin@gmail.com

Más detalles

Propuesta de Proceso de Ingeniería de Explotación de Información Centrado en Control y Gestión del Proyecto

Propuesta de Proceso de Ingeniería de Explotación de Información Centrado en Control y Gestión del Proyecto Propuesta de Proceso de Ingeniería de Explotación de Información Centrado en Control y Gestión del Proyecto Sebastian Martins 1,2, Patricia Pesado 1,3, Ramón García-Martínez 2 1. Programa de Doctorado

Más detalles

METODOLOGIA PARA LA ESPECIFICACION DE REQUISITOS EN PROYECTOS DE EXPLOTACION DE INFORMACION PROPUESTA TÉCNICA DE INSCRIPCIÓN AL DOCTORADO

METODOLOGIA PARA LA ESPECIFICACION DE REQUISITOS EN PROYECTOS DE EXPLOTACION DE INFORMACION PROPUESTA TÉCNICA DE INSCRIPCIÓN AL DOCTORADO UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE INFORMÁTICA Secretaría de Postgrado METODOLOGIA PARA LA ESPECIFICACION DE REQUISITOS EN PROYECTOS DE EXPLOTACION DE INFORMACION PROPUESTA TÉCNICA DE INSCRIPCIÓN

Más detalles

Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil

Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil Osvaldo M. Spositto spositto@unlam.edu.ar Martín E. Etcheverry metcheverry@unlam.edu.ar

Más detalles

Tema: Administración de Tecnologías de Información

Tema: Administración de Tecnologías de Información Área Académica: Lic. en Sistemas Computacionales Tema: Administración de Tecnologías de Información Profesor: Dr. Alejandro Fuentes Penna Periodo: Enero Junio 2014 Tema: Impacto de las TIC en la Organización

Más detalles

Capítulo 1. Introducción. 1.1. Antecedentes

Capítulo 1. Introducción. 1.1. Antecedentes Capítulo 1. Introducción En este capítulo se presenta una descripción general del problema a investigar y el enfoque con el que se aborda. Se establece la necesidad de incorporar técnicas de análisis novedosas

Más detalles

Propuesta de Métricas para Proyectos de Explotación de Información

Propuesta de Métricas para Proyectos de Explotación de Información Propuesta de Métricas para Proyectos de Explotación de Información Diego Martín Basso 1. Maestría en Ingeniería de Sistemas de Información. Universidad Tecnológica Nacional, FRBA Buenos Aires, Argentina

Más detalles

SEGMENTACION PARA DETECCIÓN DE TRANSACCIONES INUSUALES EN TARJETA CREDITO. Segmentation for Detection of Unusual Transactions

SEGMENTACION PARA DETECCIÓN DE TRANSACCIONES INUSUALES EN TARJETA CREDITO. Segmentation for Detection of Unusual Transactions SEGMENTACION PARA DETECCIÓN DE TRANSACCIONES INUSUALES EN TARJETA CREDITO. Segmentation for Detection of Unusual Transactions Blanca Inés Rojas Peña a, Maria Alejandra Uribe Acosta b birojas@unal.edu.co,

Más detalles

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Ing. Juan Miguel Moine Ing. Cristian Germán Bigatti Ing. Guillermo Leale Est. Graciela Carnevali Est. Esther Francheli

Más detalles

El Gobierno TI es el único camino posible para asegurar que las áreas de sistemas contribuyen al éxito de las empresas

El Gobierno TI es el único camino posible para asegurar que las áreas de sistemas contribuyen al éxito de las empresas 9 El Gobierno TI es el único camino posible para asegurar que las áreas de sistemas contribuyen al éxito de las empresas LEZAMA- Valeria Universidad Iberoamericana. Recibido 21 de Enero, 2014; Aceptado

Más detalles

Data Mining: Conceptos y Técnicas Preprocesamiento de Datos

Data Mining: Conceptos y Técnicas Preprocesamiento de Datos Cap. 3: Preprocesamiento de Datos Data Mining: Conceptos y Técnicas Preprocesamiento de Datos (Basado en material de Jiawei Han and Micheline Kamber) Intelligent Database Systems Research Lab School of

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente Agüero Martin Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.marin@gmail.com López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu

Más detalles

1. Introducción. 2. El concepto de calidad del software. 3. Estándares de calidad existentes. 4. La norma ISO 9000-3

1. Introducción. 2. El concepto de calidad del software. 3. Estándares de calidad existentes. 4. La norma ISO 9000-3 Contenido INGENIERIA DE SOFTWARE Tema 6: Administración de la calidad del software Presenta: David Martínez Torres Universidad Tecnológica de la Mixteca dtorres@mixteco.utm.mx Cubo 37 1. Introducción 2.

Más detalles

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS Por qué es importante la Minería de Datos? 2 La Minería de Datos es un proceso que permite obtener conocimiento a partir de los datos

Más detalles

El GobiernoTI es el único camino posible para asegurar que las áreas de sistemas contribuyen al éxito de las empresas

El GobiernoTI es el único camino posible para asegurar que las áreas de sistemas contribuyen al éxito de las empresas El GobiernoTI es el único camino posible para asegurar que las áreas de sistemas contribuyen al éxito de las empresas 29 Valeria Lezama Véjar V. Lezama Véjar Universidad Iberoamericana M. Ramos, P. Solares,

Más detalles

Semestre de cursado: primero Cantidad de horas semanales: 8. Hoja 1 de 10 Profesor Asociado: María Eugenia Stefanoni. J:T:P: Higinio Facchini

Semestre de cursado: primero Cantidad de horas semanales: 8. Hoja 1 de 10 Profesor Asociado: María Eugenia Stefanoni. J:T:P: Higinio Facchini Semestre de cursado: primero Cantidad de horas semanales: 8. Hoja 1 de 10 PROGRAMA 1) OBJETIVOS DE LA ASIGNATURA Formar al alumno como usuario de bases de datos, brindándole: 1. Comprensión de las bases

Más detalles

Cátedra: BI Business Intelligence. Asignatura BI Business Intelligence Ciclo Lectivo 2012 Vigencia del Ciclo lectivo 2012.

Cátedra: BI Business Intelligence. Asignatura BI Business Intelligence Ciclo Lectivo 2012 Vigencia del Ciclo lectivo 2012. Asignatura BI Business Intelligence Ciclo Lectivo 2012 Vigencia del Ciclo lectivo 2012 programa Plan 2008 Área Complementaria Carga horaria semanal Anual/ cuatrimestral Coordinador de Cátedra Objetivos

Más detalles

Manejo de Base de Datos y Uso de Muestreo Estadístico

Manejo de Base de Datos y Uso de Muestreo Estadístico Estado Libre Asociado de Puerto Rico OFICINA DEL CONTRALOR Manejo de Base de Datos y Uso de Muestreo Estadístico Adiestramiento Auditores Internos del Gobierno Iván Denizac González abril 2005 El Auditor

Más detalles

Presentación. Introducción a las técnicas de reconocimiento de patrones. Materia de doctorado en ingeniería/informática

Presentación. Introducción a las técnicas de reconocimiento de patrones. Materia de doctorado en ingeniería/informática Presentación Introducción a las técnicas de reconocimiento de patrones Materia de doctorado en ingeniería/informática Tópicos de minería de datos Materia optativa de LCC Docente: Pablo M. Granitto Horarios:

Más detalles

INSTITUTO UNIVERSITARIO DE SISTEMAS INTELIGENTES Y APLICACIONES NUMÉRICAS EN INGENIERÍA TRABAJO FINAL DE MÁSTER:

INSTITUTO UNIVERSITARIO DE SISTEMAS INTELIGENTES Y APLICACIONES NUMÉRICAS EN INGENIERÍA TRABAJO FINAL DE MÁSTER: INSTITUTO UNIVERSITARIO DE SISTEMAS INTELIGENTES Y APLICACIONES NUMÉRICAS EN INGENIERÍA TRABAJO FINAL DE MÁSTER: Sistema Biométrico de Detección Facial sobre Alumno: Marcos del Pozo Baños Tutor: Dr. Modesto

Más detalles

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Francisco J. Martín Mateos Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Qué es la (KE)? Definición de Wikipedia: La es una disciplina cuyo objetivo es integrar conocimiento

Más detalles

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos Anteproyecto de Tesis de Magíster en Ingeniería del Software Tesista: Lic. Matilde

Más detalles

La Inteligencia Analítica: Una Herramienta para el Mejoramiento en la Administración Pública

La Inteligencia Analítica: Una Herramienta para el Mejoramiento en la Administración Pública La Inteligencia Analítica: Una Herramienta para el Mejoramiento en la Administración Pública Dr. Viterbo H. Berberena G. Coordinador de la Maestría en Inteligencia Analítica Consultor Sénior en Inteligencia

Más detalles

Ges3ón de Proyectos So9ware

Ges3ón de Proyectos So9ware Ges3ón de Proyectos So9ware Tema 2.1 Integración Carlos Blanco Bueno Félix Óscar García Rubio Este tema se publica bajo Licencia: Crea5ve Commons BY- NC- ND 4.0 Objetivos Ampliar los conocimientos básicos

Más detalles

Métodos Exploratorios en Minería de Datos

Métodos Exploratorios en Minería de Datos Métodos Exploratorios en Minería de Datos Tutor: El curso será impartido por Dr. Oldemar Rodríguez graduado de la Universidad de París IX y con un postdoctorado de la Universidad de Stanford. Duración:

Más detalles

UN MODELO DE PROCESOS DE EXPLOTACIÓN DE INFORMACIÓN

UN MODELO DE PROCESOS DE EXPLOTACIÓN DE INFORMACIÓN UN MODELO DE PROCESOS DE EXPLOTACIÓN DE INFORMACIÓN Juan Ángel Vanrell, Rodolfo Bertone, Ramón García-Martínez Escuela de Postgrado. Universidad Tecnológica Nacional (FRBA) Facultad de Informática. Universidad

Más detalles

USO DE HERRAMIENTAS TECNOLÓGICAS

USO DE HERRAMIENTAS TECNOLÓGICAS USO DE HERRAMIENTAS TECNOLÓGICAS POR LA AUDITORÍA Preparado por Ricardo Arce Sandí, CIA, CISA. Objetivo Dar a conocer de manera general las grandes posibilidades tecnológicas que hoy día tiene un Auditor

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos Guía docente

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos Guía docente Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos Guía docente Impartido por: Juan Alfonso Lara Torralbo 1. Datos del docente NOMBRE Juan Alfonso Lara Torralbo FORMACIÓN

Más detalles

Detección de Patrones de Bajo Rendimiento Académico y Deserción Estudiantil con Técnicas de Minería de Datos

Detección de Patrones de Bajo Rendimiento Académico y Deserción Estudiantil con Técnicas de Minería de Datos Detección de Patrones de Bajo Rendimiento Académico y Deserción Estudiantil con Técnicas de Minería de Datos Ricardo Timarán Pereira, Ph.D. Departamento de Sistemas, Facultad de Ingeniería, Universidad

Más detalles

Un Protocolo de Caracterización Empírica de Dominios para Uso en Explotación de Información

Un Protocolo de Caracterización Empírica de Dominios para Uso en Explotación de Información Un Protocolo de aracterización Empírica de Dominios para Uso en Explotación de Información Lopez-Nocera, M., Pollo-attaneo, F., Britos, P., García-Martínez, R. Grupo Investigación en Sistemas de Información.

Más detalles

Programa de asignatura

Programa de asignatura Programa de asignatura 01. Carrera: Lic. en Tecnología Informática 02. Asignatura: Auditoría Informática 03. Año lectivo: 2014 04. Año de cursada: 4 05. Cuatrimestre: 1 06. Horas Semanales de Cursada:

Más detalles

FORMULARIO DE SOLICITUD DE ADMISIÓN A TRÁMITE DE TESIS DOCTORAL Departamento de Lenguajes y Ciencias de la Computación. Universidad de Málaga

FORMULARIO DE SOLICITUD DE ADMISIÓN A TRÁMITE DE TESIS DOCTORAL Departamento de Lenguajes y Ciencias de la Computación. Universidad de Málaga FORMULARIO DE SOLICITUD DE ADMISIÓN A TRÁMITE DE TESIS DOCTORAL Departamento de Lenguajes y Ciencias de la Computación. Universidad de Málaga Doctorando: Directores: Mg. Horacio Daniel Kuna Francisco R.

Más detalles

ENSIA 605 Inteligencia de Negocios y Minería de Datos

ENSIA 605 Inteligencia de Negocios y Minería de Datos ENSIA 605 Inteligencia de Negocios y Minería de Datos Profesor: Jaime Miranda P. E mail profesor: jmirandap@fen.uchile.cl OBJETIVOS DEL CURSO OBJETIVO GENERAL Estudiar, analizar, diseñar y aplicar tecnologías

Más detalles

REVISTA COLOMBIANA DE FÍSICA, VOL. 34, No. 1. 2002 CONTEO Y CARACTERIZACIÓN DE REGIONES COMPLETAS EN IMÁGENES 2D: APLICACIÓN A NÚCLEOS CELULARES

REVISTA COLOMBIANA DE FÍSICA, VOL. 34, No. 1. 2002 CONTEO Y CARACTERIZACIÓN DE REGIONES COMPLETAS EN IMÁGENES 2D: APLICACIÓN A NÚCLEOS CELULARES REVISTA COLOMBIANA DE FÍSICA, VOL. 34, No. 1. 2002 CONTEO Y CARACTERIZACIÓN DE REGIONES COMPLETAS EN IMÁGENES 2D: APLICACIÓN A NÚCLEOS CELULARES Y. Sossa, G. Osorio, F. Prieto, F. Angulo Grupo de Percepción

Más detalles

MAESTRÍA EN INGENIERÍA DE COMPUTACIÓN Y SISTEMAS CON MENCIÓN EN GESTIÓN DE TECNOLOGÍAS DE LA INFORMACIÓN

MAESTRÍA EN INGENIERÍA DE COMPUTACIÓN Y SISTEMAS CON MENCIÓN EN GESTIÓN DE TECNOLOGÍAS DE LA INFORMACIÓN MAESTRÍA EN INGENIERÍA DE COMPUTACIÓN Y SISTEMAS CON MENCIÓN EN GESTIÓN DE TECNOLOGÍAS DE LA INFORMACIÓN SUMILLAS 1 CICLO I Gestión de Servicios de Tecnologías de Información Estudio de los servicios de

Más detalles

Asistente para la realización de auditorías de sistemas en organismos Públicos o Privado.

Asistente para la realización de auditorías de sistemas en organismos Públicos o Privado. Asistente para la realización de auditorías de sistemas en organismos Públicos o Privado. Proyecto de Tesis de Magíster en Ingeniería del Software Maestrando: Lic.Horacio Kuna Director: Dr. Ramón García

Más detalles

Curso del Data Mining al Big Data

Curso del Data Mining al Big Data Curso del Data Mining al Big Data Instructor: Dr. Luis Carlos Molina Félix Presentación. Las bases de datos y los sistemas de administración de datos han jugado un papel primordial en el crecimiento y

Más detalles

KDD y MD. Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA 2005. Juan Pedro Febles KDD y MD

KDD y MD. Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA 2005. Juan Pedro Febles KDD y MD KDD y MD Dr. Juan Pedro Febles Rodríguez BIOINFO febles@bioinfo.cu http://www.bioinfo.cu CITMA 2005 Temas a tratar Algunos antecedentes académicos. El proceso de descubrimiento de conocimientos en Datos

Más detalles

Mejora del proceso de software en micro y pequeñas organizaciones

Mejora del proceso de software en micro y pequeñas organizaciones Encuentro de Investigadores y Docentes de Ingeniería 2008 EnIDI 2008, Mendoza, Argentina Mejora del proceso de software en micro y pequeñas organizaciones N.C. Dumit Muñoz & G. Mercado ndumit@frm.utn.edu.ar

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

SISTEMAS DE AUDITORIA A SISTEMAS GESTORES DE BASE DE DATOS

SISTEMAS DE AUDITORIA A SISTEMAS GESTORES DE BASE DE DATOS SISTEMAS DE AUDITORIA A SISTEMAS GESTORES DE BASE DE DATOS SYSTEM OF AUDIT TO MANAGEMENT SYSTEMS OF DATABASE Fernando Ricardo Romero 1, Delis Ise Morales 2, Luis Eduardo Gallardo Concepción 3 Yeilenia

Más detalles

PROGRAMA DE CURSO. Personal 6 10 3.0 0 7. Electivo para ICC FI2002 Electromagnetismo. Competencia a la que Tributa el Curso. Propósito del Curso

PROGRAMA DE CURSO. Personal 6 10 3.0 0 7. Electivo para ICC FI2002 Electromagnetismo. Competencia a la que Tributa el Curso. Propósito del Curso PROGRAMA DE CURSO Código Nombre CC5206 Introducción a la Minería de Datos Nombre en Inglés Introduction to Data Mining SCT es Horas de Horas Docencia Horas de Trabajo Docentes Cátedra Auxiliar Personal

Más detalles

ASIGNATURA: Fundamentos de los Sistemas Automáticos de Fabricación

ASIGNATURA: Fundamentos de los Sistemas Automáticos de Fabricación ASIGNATURA: Fundamentos de los Sistemas Automáticos de Fabricación Código: 1613018 Titulación: Ingeniero Técnico Industrial Especialidad en Electrónica Industrial Curso: 3º Profesor(es) responsable(s):

Más detalles

Herramientas de Desarrollo de Software: Hacia la Construcción de una Ontología

Herramientas de Desarrollo de Software: Hacia la Construcción de una Ontología Herramientas de Desarrollo de Software: Hacia la Construcción de una Ontología Lornel A. Rivas 1,2, María Pérez 2, Luis E. Mendoza 2, y Anna Grimán 2 1 Gerencia de Investigación, Instituto Nacional de

Más detalles

MODELOS DE PROCESO PARA LA INTEGRACIÓN DEL NEGOCIO UTILIZANDO SERVICE ORIENTED ARCHITECTURE (SOA).

MODELOS DE PROCESO PARA LA INTEGRACIÓN DEL NEGOCIO UTILIZANDO SERVICE ORIENTED ARCHITECTURE (SOA). MODELOS DE PROCESO PARA LA INTEGRACIÓN DEL NEGOCIO UTILIZANDO SERVICE ORIENTED ARCHITECTURE (SOA). López, G. 1 ; Jeder, I. 1 ; Echeverría, A. 1 ; Fierro, P. (PhD.) 2 1. Laboratorio de Informática de Gestión

Más detalles

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio Hidrocarburos: Análisis de Pablo Burgos Casado (Jefe de Área Desarrollo (SGTIC - MITYC)) María Teresa Simino Rueda Rubén Pérez Gómez Israel Santos Montero María Ángeles Rodelgo Sanchez 1. INTRODUCCIÓN

Más detalles

Prontuario. I. Titulo del curso: Minería de Datos. II. Codificación: ESTA 5504. Horas / Crédito: 3 horas semanales / 3 Créditos

Prontuario. I. Titulo del curso: Minería de Datos. II. Codificación: ESTA 5504. Horas / Crédito: 3 horas semanales / 3 Créditos Universidad de Puerto Rico Recinto de Rio Piedras Facultad de Administración de Empresas 1 2 I. Titulo del curso: Minería de Datos Prontuario II. Codificación: ESTA 5504 III. Horas / Crédito: 3 horas semanales

Más detalles