Minera de datos aplicada a la detección de Cáncer de Mama

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Minera de datos aplicada a la detección de Cáncer de Mama"

Transcripción

1 Minera de datos aplicada a la detección de Cáncer de Mama Eugenio Hernández Martínez Universidad Carlos III de Madrid Rodrigo Lorente Sanjurjo Universidad Carlos III de Madrid ABSTRACT El Modelo de Simulación Epidemiológica de Cáncer de Mama Wisconsin [1] es un modelo de simulación estocástico que usa un sistema científico de modelado para estudiar el nivel de incidencia y mortalidad del cáncer de mama de la población en Estados Unidos entre 1975 y Se modelan simultáneamente cuatro procesos interactivos: - Historia natural del cáncer de mama - Detección de cáncer de mama - Tratamiento de cáncer de mama - Mortalidad del cáncer de mama Estos componentes forman un complejo sistema interactivo que simula las vidas de mujeres (aproximadamente el 1/50 de la población estadounidense) desde 1950 hasta 2000 en ciclos de 6 meses. Después de un periodo de aprendizaje de 25 años, las salidas del modelo permiten obtener las tasas de incidencia y mortalidad en función de la edad entre 1975 y El modelo también simula casos de enfermedad, tanto detectada como oculta, a nivel individual, y puede utilizarse también para responder a preguntas sobre la selección y efectividad de tratamientos, además de para estimar beneficios para mujeres de edades e historiales específicos. El cáncer de mama afecta aproximadamente a un 15% de las mujeres en edad de riesgo de todo el mundo [2]. Una detección temprana de la presencia de células cancerosas malignas aumenta la posibilidad de vida de las pacientes, sobre todo cuando se localiza un tumor pequeño y aún no ramificado. El objetivo de este artículo es realizar el análisis de los datos correspondientes a un conjunto de mujeres para poder obtener ciertos patrones a la hora de poder aplicarlos para detectar posibles casos de cáncer de mama mediante minería de datos, de manera similar a otros estudios basados en algoritmos genéticos [3]. 1.1 Minería de datos La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos [4]. KEYWORDS Detección de cáncer de mama, supervivencia al cáncer de mama, minería de datos, Weka, aprendizaje. 1. INTRODUCCION En la última década, la Minería de Datos y el Análisis Estadístico han sido ampliamente utilizados en la industria del cuidado de la salud. Cuando estos métodos son utilizados junto a información extraída de grandes cantidades de datos, pueden ayudar a los médicos para tomar decisiones y mejorar el servicio. Figura 1. Ciclo de Vida de Proyectos de Minería de Datos

2 1.2 Weka Weka es un conjunto de librerías Java para la extracción de conocimientos desde bases de datos. Es un software ha sido desarrollado en la universidad de Waikato (Nueva Zelanda) bajo licencia GPL lo cual ha impulsado que sea una de las suites más utilizadas en el área en los últimos años. El banco de trabajo de Weka contiene una colección de herramientas de visualización y algoritmos para el análisis de datos y modelos de predicción, junto a interfaces gráficas para facilitar dichas funcionalidades. La versión original no implementaba Java y utilizaba la línea de comandos para implementar algoritmos (utilidades de procesado de datos en C y un sistema basado en Makefile para ejecutar los experimentos de aprendizaje) para analizar datos agrícolas. Sin embargo, la versión basada en Java (Weka 3), que comenzó a desarrollarse en 1997, es usada actualmente en numerosas áreas, en particular para propósitos educativos y de investigación. Weka soporta numeroso estándares para realizar minería de datos, concretamente preprocesado de datos, clustering, clasificación, regresión, visualización, y selección de características [5]. Esta herramienta dispone de varios tipos de clasificadores, cuyo funcionamiento dependerá del número de ejemplos para entrenar, siendo tanto más fiables los modelos cuanto mayor número de ejemplos dispongamos. En esta práctica intentaremos determinar que clasificadores son mejores ante casos números de ejemplos de entrenamiento reducidos. 2.1 Atributos 1. Sample code number: código identificativo de cada paciente. Entero. 2. Clump Thickness: espesor. Entero [0,10]. 3. Uniformity of Cell Size: uniformidad del tamaño de la célula. Entero [0,10]. 4. Uniformity of Cell Shape: uniformidad de la forma de la célula. Entero [0,10]. 5. Marginal Ashesion: adhesión marginal. Entero [0,10]. 6. Single Epithelial Cell Size: tamaño individual de la célula. Entero [0,10]. 7. Bar Nuclei: núcleo. Entero [0,10]. 8. Bland Chromatin: cromatina blanda. Entero [0,10]. 9. Normal Nucleoli: nucleoli normal. Entero [0,10]. 10. Mitoses: mitosis. Entero [0,10]. 11. Class: clase. {benigno, maligno}. La distribución de clase es: benigno 458 (65.5%) y maligno 241 (34.5%) Clump Thickness Como podemos observar el espesor de la mama es un factor de peso a la hora de determinar el tipo de tumor, cuanto menor sea el espesor más probabilidad de que se trate de un cáncer benigno. 2. TRABAJO CON LOS DATOS La base de casos Wisconsin Breast Cancer Database consta de 699 casos, cada uno con 9 atributos correspondientes a observaciones subjetivas de los tumores, más dos atributos correspondientes a la identificación del caso y a la clasificación del tumor (benigno o maligno). Las observaciones subjetivas se basan en descripciones de las células obtenidas de una imagen. Esta aproximación sigue un proceso de siete pasos para extraer información útil de los datos: 1. Identificar los objetivos 2. Obtener un conjunto de datos a analizar 3. Preprocesado de datos 4. Transformación de datos 5. Minería de Datos y Análisis Estadístico 6. Interpretación y evaluación 7. Escribir el informe Figura 2. Espesor Uniformity of Cell Size Los casos benignos se concentran en el índice de uniformidad 1

3 Figura 3. Uniformidad del tamaño de la célula Figura 5. Mitosis Single Epithelial Cell Size En este caso podemos ver que la mayoría de los tamaños de célula se concentran en valores pequeños, estando relacionado el menor tamaño con si el tumor es benigno. 3. EVALUACIÓN DE LOS DATOS Este sería ya el cuarto de los pasos a dar a la hora de llevar a cabo un estudio sobre la minería de datos. Por ello se van a ir sacando y extrayendo los resultados buscados para este estudio en cada momento en función de los parámetros. Para este propósito utilizaremos las distintas herramientas de clasificación que nos ofrece Weka. 3.1 K-NN Figura 4. Tamaño individual de la célula En el método K-NN [6] (K nearest neighbors Fix y Hodges, 1951) es un método de clasificación supervisada. Este es un método de clasificación no paramétrico, que estima el valor de la función de densidad de probabilidad o directamente la probabilidad a posteriori de que un elemento x pertenezca a una determinada clase Cj a partir de la información proporcionada por el conjunto de muestras. Generalmente para saber en qué clase nos encontramos utilizaremos la distancia euclídea 1. El valor de k óptimo que deberemos fijar dependerá de nuestros datos, ya que un valor muy pequeño nos haría el sistema muy sensible al ruido y un valor demasiado alto nos llevaría a una mala clasificación Otras consideraciones El resto de los atributos presentan histogramas similares (a menor valor más cantidad de benignos), aunque cabría destacar el de Mitoses ya que aparentemente se trata de un atributo que no proporciona información debido a que la inmensa mayoría de casos (tanto benignos como malignos) se concentran en el nivel más bajo.

4 Figura 7. Error K-NN. Figura 6. Clasificación KNN En el ejemplo anterior, se ve como se quiere clasificar una nueva muestra (en verde) con un k-nn. Se observa que se elige un k = 3, la muestra nueva se clasificará en la clase roja, en cambio si elegimos un k = 5 la muestra será clasificada en la clase azul. En nuestro caso, procederemos a utilizar la función IB-k disponible en Weka, con una k comprendida en el intervalo [1,10], activando la casilla cross-validation con 10 folds, obteniendo los siguientes resultados. Tabla 1. Error KNN k error 1 4, , , , , , , , , ,5765 Como podemos ver en la gráfica anterior, el error fluctúa según la k elegida, en nuestro caso en concreto se obtiene que la k óptima se produce para k = 3 produciendo un error del 3.14 % 3.2 MLP El perceptrón multicapa [7] es una red neuronal artificial (RNA) formada por múltiples capas, esto le permite resolver problemas que no son linealmente separables, lo cual es la principal limitación del perceptrón. El perceptrón multicapa puede ser totalmente o localmente conectado. En el primer caso cada salida de una neurona de la capa "i" es entrada de todas las neuronas de la capa "i+1", mientras que el segundo, cada neurona de la capa "i" es entrada de una serie de neuronas (región) de la capa "i+1". Las capas pueden clasificarse en tres tipos: 1. Capa de entrada: Constituida por aquellas neuronas que introducen los patrones de entrada en la red. En estas neuronas no se produce procesamiento. 2. Capas ocultas: Formada por aquellas neuronas cuyas entradas provienen de capas anteriores y las salidas pasan a neuronas de capas posteriores. 3. Capa de salida: Neuronas cuyos valores de salida se corresponden con las salidas de toda la red. 1 La fórmula de la distancia euclídea es la siguiente: Figura 8. Detalle de una neurona

5 Como podemos ver en la figura 8, a la salida tendremos Donde puede ser una función del tipo sigmoide 2 que será la función de activación. Las capas de las redes neuronales usadas en esta aplicación son de dos tipos a, t e i, donde 'a' = (attribs + classes) / 2, 'i' = attribs, 'o' = classes, 't' = attribs + classes. Se pueden ver a continuación en las figuras 9, 10 y 11. Los resultados obtenidos para cada distinta implementación son los siguientes MLP Clase a Tabla 2. Resultados MLP Clase A Benigno Maligno Donde obtenemos un error de % MLP Clase i Figura 9. MLP clase a Tabla 3. Resultados MLP Clase i Benigno Maligno Donde obtenemos un error de 4 % MLP Clase t Tabla 4. Resultados MLP Clase t Benigno Maligno Donde obtenemos un error de 4.86 %. Figura 10. MLP clase i Como podemos observar, los tres valores son bastante parecidos, la tasa de fallos está en torno al 4-5%, siendo mejor el perceptrón de la clase I. Se podría aumentar aún más el número de capas ocultas del MLP para así poder tener un modelo mucho más fiable y aproximado al real, aunque esto nos llevaría a un aumento del tiempo de cómputo y de complejidad. 2 Sigmoide Figura 11. MLP clase t

6 3.3 Naïve Bayes Naïve Bayes (NB) (John y Langley, 1995) [8] [9] es un clasificador probabilístico que parte de la premisa de que cada par parámetro-valor de un mismo ejemplo es independiente del resto. A cada par parámetro-valor se le asigna una probabilidad de pertenencia a una clase. Para ello se divide el número de ejemplos de cada clase en los que aparece ese par entre el número de ejemplos que pertenecen a esa clase. Para clasificar un caso nuevo se calcula la probabilidad de pertenencia de ese caso a cada clase, clasificándolo en la clase donde dicha probabilidad sea mayor, adoptando pues un criterio de estimación máxima a posteriori. Esta probabilidad de pertenencia se calcula como el producto de la probabilidad de pertenencia a cada clase de cada uno de los pares parámetro-valor que definen el caso que se desea clasificar. Por lo tanto, si tenemos la siguiente distribución Y se clasificaría según el mayor valor anterior. Llevándolo a Weka y utilizando la función SimpleNaiveBayes, obtenemos Correctly Classified Instances % Incorrectly Classified Instances % Tabla 5. Resultados Naïve Bayes Benigno Maligno Como podemos ver el error de clasificación para este método es similar al obtenido para el perceptrón de clase I, aunque si podemos ver que la tasa de fallos se distribuye de otra manera, siendo ahora la tasa de falsas alarmas mucho mayor que la tasa de pérdidas solo siendo clasificados 6 casos erróneamente. 3.4 SMO Figura 12 A partir de la figura 12, calculamos las probabilidades de estar en verde ( ) y en rojo ( ). SMO implementa el algoritmo de optimización mínima secuencial para entrenar una máquina de soporte vectorial (SVM) (Vapnik, 1995). Estos algoritmos extienden las características de los modelos lineales, ya que permiten distinguir entre clases que presentan límites de decisión no lineales. Para ello se transforman los datos originales transformándolos de forma no lineal en un nuevo espacio de mayor dimensión. En este nuevo espacio se construye un modelo lineal que pueda representar un límite de decisión no lineal en el espacio original. Puede hallarse una introducción más detallada a SVM en Burges (1998). Correctly Classified Instances % Incorrectly Classified Instances % Figura 13 Cuando un nuevo objeto se introduce, se mira la verosimilitud con los objetos contiguos como. Ahora para finalizar la clasificación, aplicamos la regla de Bayes: Tabla 6. Resultados SMO Benigno Maligno Como podemos ver en los resultados obtenidos mediante SMO, la tasa de fallos se reduce hasta un 3%, incluso por debajo del 3-NN. En cambio, al tener una menor tasa de error, obtenemos una probabilidad de pérdidas superior al caso anterior lo cual no es ventajoso. También cabe destacar que disminuye la probabilidad de falsa alarma, hasta el punto de solo haber 12 casos que la contemplan.

7 3.5 RFB RFB [10] [11] es un método alternativo al perceptrón multicapa (MLP) (ej.: backpropagation) para hacer ajuste a funciones no lineales. A diferencia de la disposición que se tiene en la funciones de activación que permite construir modelos de entrenamiento mediante backpropagation, estas nuevas redes basadas en RBF construyen sus modelos con funciones de activación que son diferentes tanto en la capa oculta como la de salida. Esto es, una red RBF está diseñada con neuronas en la capa oculta activadas mediante funciones radiales de carácter no lineal con sus centros gravitacionales propios y en la capa de salida mediante funciones lineales. A diferencia de las MLP, el modelo clásico de las redes RBF está construido con una arquitectura rígida de tres capas: la de entrada, la oculta y la de salida. En general, una red RBF tiene un mejor desempeño con un mayor volumen de datos de entrenamiento. La construcción de una red RBF requiere de una mayor cantidad de neuronas en los nodos ocultos que en las redes que usan backpropagation. Aunque las redes RBF no son comúnmente utilizadas en aplicaciones que impliquen un alto volumen de patrones de entrenamiento, se le reconoce como una red con una alta eficiencia en la fase de entrenamiento. En Weka utiliza un algoritmo de clustering del tipo k-means y aprende por regresión logística o por regresión lineal. Utilizará el número de clusters de las clases que se quieran clasificar, y estandarizará los datos a media cero y varianza unidad. Efectuando de la misma manera que en el K-NN, obtenemos los las siguientes tasas de fallos en función del número de clusters. Tabla 7. Resultados RFB Benigno Maligno Como podemos ver, la red RFB nos proporciona un buen resultado a la hora de detectar los casos positivos, donde se observa que la probabilidad de pérdidas es pequeña, aunque la probabilidad de falsa alarma si es elevada en comparación a los demás algoritmos analizados. 3.6 J48 J48 [12] Implementa la versión pública del algoritmo de clasificación basada en árboles de decisión C4.5 revisión 8, previa a la comercialización de la versión C5.0 (Quinlan, 1993, citado por Witten y Frank, 2005, p. 198). Estos árboles clasifican un nuevo caso mediante la evaluación, en cada nodo del modelo, de los parámetros que definen el caso que se pretende clasificar. Los casos que, partiendo de la raíz, llegan a una determinada hoja reciben la clasificación que la hoja indica. La importancia de los árboles de decisión se debe a su capacidad de construir modelos interpretables, siendo este un factor decisivo para su aplicación. La clasificación en árboles de decisión considera clases disjuntas, de forma que el árbol conducirá a una y solo una hoja, asignando una única clase a la predicción. Este algoritmo es una mejora del algoritmo ID3. El algoritmo J48 se basa en la utilización del criterio ratio de ganancia (gain ratio). De esta manera se consigue evitar que las variables con mayor número de posibles valores salgan beneficiadas en la selección. Además el algoritmo incorpora una poda del árbol de clasificación una vez que éste ha sido inducido. Ejecutando el algoritmo en Weka, obtenemos Correctly Classified Instances % Incorrectly Classified Instances % Tabla 7. Resultados j Benigno Maligno Figura 14. Error RFB. Donde podemos ver que el error aumenta si aumentamos el número de clusters. Para el error mínimo tenemos el siguiente resultado: Como podemos ver, con este método la tasa de errores sube hasta un 5%. Obteniendo el árbol de decisión de la figura 15. Correctly Classified Instances % Incorrectly Classified Instances %

8 - El caso de mínimo error del RFB es similar al del Naïve Bayes, con una cantidad de falsas alarmas mucho mayor que de pérdidas, lo que resulta un problema. Para valores mayores del número de clusters la tasa de error aumenta. - Al igual que el SMO, el clasificador J48 presenta un equilibrio entre las falsas alarmas y las pérdidas, no obstante el error es significativamente mayor, siendo el que peores propiedades en este aspecto presenta. Teniendo en cuenta lo anteriormente descrito, nos decantaríamos por la utilización del clasificador SMO, debido a su baja tasa de error y al equilibrio entre falsas alarmas y pérdidas. 5. REFERENCIAS 4. CONCLUSIONES A la vista de los resultados obtenidos llegamos a la conclusión de que si bien todos los atributos pueden afectar en mayor o menor medida a la clasificación de un tumor como benigno o maligno, y que en general se cumple que a menor valor del atributo mayor probabilidad de que se trate de clase benigna, en el caso concreto del atributo Mitosis, como ya se comentó en su momento, se puede pensar en que su eliminación del estudio no afectará mucho a los resultados, ya que la gran mayoría de los casos, tanto de una clase como de otra se sitúan en el nivel más bajo. Analizando los resultados de los diferentes clasificadores vemos ligeras diferencias de unos a otros, aunque las tasas de error de todos se concentran en torno al 3-5%, en un análisis más pormenorizado: - El K-NN presenta la ventaja de poder elegir el valor de K para nuestros requerimientos, no obstante tenemos el problema de encontrar el valor óptimo y la necesidad de ir variándolo. - El clasificador del perceptrón multicapa permite seleccionar entre varias opciones, aunque los resultados entre ellos son similares y presentan peores características que por ejemplo el K-NN. - Con el Naïve Bayes obtenemos una probabilidad de error mayor que para la mayoría de los K-NN, aunque la distribución de errores se decanta en clasificar tumores malignos como benignos, lo que podría considerarse más grave que el caso contrario. - El clasificador SMO presenta la mejor tasa de error, estando los errores bastante equilibrados entre falsas alarmas y pérdidas. [1] Breast Cancer Wisconsin Diagnostic Data Set. sin+(diagnostic) [2] W. H. Wolberg Benign breast disease and breast cancer tutorial. Versión Online: https://mywebspace.wisc.edu/wwolberg/breast/breast.html [3] Clasificación de células cancerosas usando algoritmos genéticos [4] Minería de datos [5] Weka [6] Algoritmo K-NN [7] Clasificador perceptrón multicapa /result/node7.html [8] Clasificación Naïve Bayes n [9] Clasificador Naïve Bayes [10] Introduction of the Radial Basis Function (RBF) Networks [11] CAPITULO 4 FUNCION DE BASE RADIAL (RBF) grama/redes_neuronales/capitulo4_funciones_bases_radi ales.pdf [12] Miguel Ángel Fuente Rodríguez. Pablo Galarza Heredero

Weka como herramienta de data mining

Weka como herramienta de data mining Weka como herramienta de data mining Lic. Aldave Rojas Isaac Alberto Instituto Tecnológico Superior de Ciudad Serdán Abstract El presente trabajo muestra un ejemplo introductorio a la herramienta de Data

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES

UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES José Alejandro Chiri Aguirre RESUMEN La predicción de recidiva en pacientes que han sido

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Cómo se usa Data Mining hoy?

Cómo se usa Data Mining hoy? Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta

Más detalles

Con el fin de obtener los datos, se procede con las siguientes instrucciones:

Con el fin de obtener los datos, se procede con las siguientes instrucciones: Capitulo 3. La predicción de beneficios del mercado bursátil Este segundo caso de estudio va más allá en el uso de técnicas de minería de datos. El dominio específico utilizado para ilustrar estos problemas

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu Agüero Martín Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.martin@gmail.com

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente Agüero Martin Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.marin@gmail.com López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu

Más detalles

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source Inteligencia Artificial y Seguridad Informática en plataformas Open Source Jornadas de Software Libre y Seguridad Informática Santa Rosa La Pampa 4 y 5 de Diciembre de 2009 AGENDA Primera Parte Definiciones

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

MÁQUINA DE VECTORES DE SOPORTE

MÁQUINA DE VECTORES DE SOPORTE MÁQUINA DE VECTORES DE SOPORTE La teoría de las (SVM por su nombre en inglés Support Vector Machine) fue desarrollada por Vapnik basado en la idea de minimización del riesgo estructural (SRM). Algunas

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales Elkin García, Germán Mancera, Jorge Pacheco Presentación Los autores han desarrollado un método de clasificación de música a

Más detalles

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Amaro Camargo Erika, Reyes García Carlos A. Instituto Nacional de Astrofísica, Óptica

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013 VivaMéxico sin PRI Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres Facultad de Ciencias de la Computación Benemérita Universidad Autónoma de Puebla Otoño 2013 IMAGENESpemexmorena Adquisición

Más detalles

Tema 5. Reconocimiento de patrones

Tema 5. Reconocimiento de patrones Tema 5. Reconocimiento de patrones Introducción al reconocimiento de patrones y a la clasificación de formas Un modelo de general de clasificador Características discriminantes Tipos de clasificación Clasificadores

Más detalles

LÍNEAS DE INVESTIGACIÓN: Redes neuronales (I)

LÍNEAS DE INVESTIGACIÓN: Redes neuronales (I) LÍNEAS DE INVESTIGACIÓN: Redes neuronales (I) Objetivo: Usar técnicas neuronales para resolver problemas: * Modelado de sistemas mediante aprendizaje automático a partir de ejemplos * No se conoce ningún

Más detalles

Gestión del Conocimiento. Gestión del Conocimiento. Herramientas para la

Gestión del Conocimiento. Gestión del Conocimiento. Herramientas para la Herramientas para la Departamento de Informática Facultad de Ciencias Económicas Universidad Nacional de Misiones Universidad Nacional de Misiones Facultad de Ciencias Económicas Departamento de Informática

Más detalles

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

Capítulo 1. Introducción. 1.1. Antecedentes

Capítulo 1. Introducción. 1.1. Antecedentes Capítulo 1. Introducción En este capítulo se presenta una descripción general del problema a investigar y el enfoque con el que se aborda. Se establece la necesidad de incorporar técnicas de análisis novedosas

Más detalles

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos I. Barbona - Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparison among

Más detalles

En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del

En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del 33 En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del sistema de procesamiento de imágenes para controlar un robot manipulador y se describen en la forma como serán

Más detalles

Evaluación de modelos para la predicción de la Bolsa

Evaluación de modelos para la predicción de la Bolsa Evaluación de modelos para la predicción de la Bolsa Humberto Hernandez Ansorena Departamento de Ingeniería Telemática Universidad Carlos III de Madrid Madrid, España 10003975@alumnos.uc3m.es Rico Hario

Más detalles

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 5: Redes Neuronales

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 5: Redes Neuronales MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 5: Redes Neuronales 1 Objetivos del tema Conocer las limitaciones de los modelos lineales en problemas de modelización/ clasificación.

Más detalles

Capítulo 2. Las Redes Neuronales Artificiales

Capítulo 2. Las Redes Neuronales Artificiales Capítulo 2. Las Redes Neuronales Artificiales 13 Capitulo 2. Las Redes Neuronales Artificiales 2.1 Definición Redes Neuronales Artificiales El construir una computadora que sea capaz de aprender, y de

Más detalles

Práctica 1: Entorno WEKA de aprendizaje automático y data mining.

Práctica 1: Entorno WEKA de aprendizaje automático y data mining. PROGRAMA DE DOCTORADO TECNOLOGÍAS INDUSTRIALES APLICACIONES DE LA INTELIGENCIA ARTIFICIAL EN ROBÓTICA Práctica 1: Entorno WEKA de aprendizaje automático y data mining. Objetivos: Utilización de funciones

Más detalles

CAPITULO 6 SISTEMA DE DETECCION DE INTRUSOS

CAPITULO 6 SISTEMA DE DETECCION DE INTRUSOS Capitulo 6. Sistema de Detección de Intrusos con Redes Neuronales. 69 CAPITULO 6 SISTEMA DE DETECCION DE INTRUSOS USANDO REDES NEURONALES. En este capítulo se realiza la preparación adecuada de toda la

Más detalles

Predicción de los ciclos de El Niño

Predicción de los ciclos de El Niño Predicción de los ciclos de El Niño Israel Cendrero Sánchez I.T.T.Telemática Universidad Carlos III de Madrid Leganes,Madrid,España 100055713@alumnos.uc3m.es Beatriz López Moreno I.T.T.Telemática Universidad

Más detalles

Minería de datos (Introducción a la minería de datos)

Minería de datos (Introducción a la minería de datos) Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 14-I. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 24

Más detalles

Aplicación de Redes bayesianas usando Weka.

Aplicación de Redes bayesianas usando Weka. Aplicación de Redes bayesianas usando Weka. Cynthia Lorena Corso 1, Fabian Gibellini 1 1 Universidad Tecnológica Nacional, Facultad Regional Córdoba Laboratorio de Sistemas de Información Maestro M. López

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

Métricas de complejidad para la transformación del problema de detección de cáncer basado en

Métricas de complejidad para la transformación del problema de detección de cáncer basado en Índice para la transformación del problema de detección de cáncer basado en mamografías Alumna: Núria Macià Antoĺınez Asesora: Ester Bernadó Mansilla Núria Macià Antoĺınez PFC: 1/49 Índice 1 Planteamiento

Más detalles

CAPÍTULO 3 RED NEURONAL PARA EL RECONOCIMIENTO DE ROSTROS

CAPÍTULO 3 RED NEURONAL PARA EL RECONOCIMIENTO DE ROSTROS CAPÍTULO 3 RED NEURONAL PARA EL RECONOCIMIENTO DE ROSTROS Descripción de la base de datos Como datos de entrenamiento, en este proyecto, se utilizó la base de datos ORL [1], la cual contiene un conjunto

Más detalles

M1. FUNDAMENTOS DE MINERÍA DE DATOS

M1. FUNDAMENTOS DE MINERÍA DE DATOS MÁSTER OFICIAL DE LA UNIVERSIDAD DE GRANADA "SOFT COMPUTING Y SISTEMAS INTELIGENTES" M1. FUNDAMENTOS DE MINERÍA DE DATOS J.L. CUBERO, F. BERZAL, F. HERRERA Dpto. Ciencias de la Computación e I.A. Universidad

Más detalles

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software J. Cuadrado Gallego 1, Miguel Ángel Sicilia 1, Miguel Garre Rubio 1 1 Dpto de Ciencias de la Computación,

Más detalles

Aplicación Java para distribución de código en R

Aplicación Java para distribución de código en R rolgalan@gmail.com Huesca - 24 de noviembre de 2009 Implementación Descripción problema Existen muchos problemas, cuya resolución informática requiere de un enorme tiempo de cómputo. En la actualidad,

Más detalles

Aprendizaje Automatizado

Aprendizaje Automatizado Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto

Más detalles

Guía del Módulo de Inteligencia Artificial. Versión 5.1.0

Guía del Módulo de Inteligencia Artificial. Versión 5.1.0 Guía del Módulo de Inteligencia Artificial Versión 5.1.0 1. Análisis de los Usuarios de un Portal Web: Módulo de Inteligencia Artificial de isum Una de las características más significativas de la plataforma

Más detalles

Repaso de conceptos. Tipos de RNA más utilizados. Técnicas de Clasificación con RNA. Contenido

Repaso de conceptos. Tipos de RNA más utilizados. Técnicas de Clasificación con RNA. Contenido Contenido Introducción al Diseño de Experimentos para el Reconocimiento de Patrones Capítulo 3: Redes Neuronales Artificiales Curso de doctorado impartido por Dr. Quiliano Isaac Moro Dra. Aranzazu Simón

Más detalles

Finanzas e Investigación de Mercados"

Finanzas e Investigación de Mercados DIPLOMATURA: "Análisis de Datos para Negocios, Finanzas e Investigación de Mercados" Seminario: Introducción a Data Mining y Estadística Dictado: Sábado 13, 20,27 de Abril, 04 de Mayo en el horario de

Más detalles

Inteligencia Artificial

Inteligencia Artificial Inteligencia Artificial Practica 2. (5 semanas) Rubén Cárdenes Almeida Redes neuronales. Introducción Las Redes Neuronales Artificiales (RNA) están inspiradas en la biología, esto significa que están formadas

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

Análisis de Incidentes Informáticos usando Modelos de Asociación y Métodos del Análisis de Datos Multivariante.

Análisis de Incidentes Informáticos usando Modelos de Asociación y Métodos del Análisis de Datos Multivariante. Análisis de Incidentes Informáticos usando Modelos de Asociación y Métodos del Análisis de Datos Multivariante. García, Alejandro (1), Corso, Cynthia Lorena (2), Gibellini, Fabián (3), Rapallini, Marcos

Más detalles

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) Autor: Lic. Manuel Ernesto Acosta Aguilera Entidad: Facultad de Economía, Universidad de La Habana Dirección: Edificio

Más detalles

SISTEMAS INTELIGENTES

SISTEMAS INTELIGENTES SISTEMAS INTELIGENTES T11: Métodos Kernel: Máquinas de vectores soporte {jdiez, juanjo} @ aic.uniovi.es Índice Funciones y métodos kernel Concepto: representación de datos Características y ventajas Funciones

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo 1 Algoritmos de minería de datos incluidos en SQL Server 2008 Los algoritmos que aquí se presentan son: Árboles de decisión de Microsoft, Bayes naive de Microsoft, Clústeres de Microsoft, Serie temporal

Más detalles

Ejemplo de aplicación de la Dimensión Fractal en Medicina

Ejemplo de aplicación de la Dimensión Fractal en Medicina Ejemplo de aplicación de la Dimensión Fractal en Medicina El cáncer de mama es la enfermedad de las mujeres más común en el mundo moderno. Las estadísticas muestran que el riesgo de la mujer de desarrollar

Más detalles

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Ing. Juan Miguel Moine Ing. Cristian Germán Bigatti Ing. Guillermo Leale Est. Graciela Carnevali Est. Esther Francheli

Más detalles

PROGRAMA DE CURSO. Personal 6 10 3.0 0 7. Electivo para ICC FI2002 Electromagnetismo. Competencia a la que Tributa el Curso. Propósito del Curso

PROGRAMA DE CURSO. Personal 6 10 3.0 0 7. Electivo para ICC FI2002 Electromagnetismo. Competencia a la que Tributa el Curso. Propósito del Curso PROGRAMA DE CURSO Código Nombre CC5206 Introducción a la Minería de Datos Nombre en Inglés Introduction to Data Mining SCT es Horas de Horas Docencia Horas de Trabajo Docentes Cátedra Auxiliar Personal

Más detalles

El problema de la mayoría de las personas e instituciones, es la conservación de sus

El problema de la mayoría de las personas e instituciones, es la conservación de sus 2 1.1 Introducción. El problema de la mayoría de las personas e instituciones, es la conservación de sus documentos escritos, especialmente cuando éstos tienen un siglo de antigüedad. Es por esto que se

Más detalles

Apéndice A Herramientas utilizadas

Apéndice A Herramientas utilizadas Apéndice A Herramientas utilizadas A.1 Java Media Framework El Java Media Framework (JMF) es una interfaz para el desarrollo de aplicaciones (API) e incorpora el manejo de audio y video en el lenguaje

Más detalles

Comparación de Modelos de Redes Neuronales Utilizados en Sistemas de Soporte de Decisiones

Comparación de Modelos de Redes Neuronales Utilizados en Sistemas de Soporte de Decisiones Comparación de Modelos de Redes Neuronales Utilizados en Sistemas de Soporte de Decisiones Broggi, Carlos Javier Goujon, Diego Javier Herrmann, Raúl Alberto Universidad Tecnológica Nacional, Facultad Regional

Más detalles

APROBACIÓN DE CRÉDITOS BANCARIOS UTILIZANDO INTELIGENCIA ARTIFICIAL

APROBACIÓN DE CRÉDITOS BANCARIOS UTILIZANDO INTELIGENCIA ARTIFICIAL APROBACIÓN DE CRÉDITOS BANCARIOS UTILIZANDO INTELIGENCIA ARTIFICIAL Israel Cueva Hidalgo Mayo, 2010 I. INTRODUCCIÓN II. Hoy en día son muchas las instituciones que conceden créditos a sus clientes; pero

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Álvaro J. Méndez Services Engagement Manager IBM SPSS / Profesor Econometría UAM Jecas, 22 Oct 2010 Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Business Analytics software Agenda Minería

Más detalles

Curso de Inteligencia Artificial

Curso de Inteligencia Artificial Curso de Inteligencia Artificial Introducción al Aprendizaje Automático Gibran Fuentes Pineda IIMAS, UNAM Definición El aprendizaje automático es el estudio de los metodos para programar las computadoras

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

Ejemplo de Aplicación con Neural Connection

Ejemplo de Aplicación con Neural Connection Ejemplo de Aplicación con Neural Connection El marketing directo es un área donde las redes neuronales han tenido un considerable éxito. En este tipo de marketing, se vende un producto o un servicio, enviando

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

LA MINERÍA DE DATOS EN LA EXTRACCIÓN DE CONOCIMIENTOS APLICADOS A PROBLEMAS RELACIONADOS CON LA EDUCACIÓN

LA MINERÍA DE DATOS EN LA EXTRACCIÓN DE CONOCIMIENTOS APLICADOS A PROBLEMAS RELACIONADOS CON LA EDUCACIÓN LA MINERÍA DE DATOS EN LA EXTRACCIÓN DE CONOCIMIENTOS APLICADOS A PROBLEMAS RELACIONADOS CON LA EDUCACIÓN Blanca Maricela Ibarra Murrieta, Ricardo Blanco Vega y María Angélica García Fierro Departamento

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS Por qué es importante la Minería de Datos? 2 La Minería de Datos es un proceso que permite obtener conocimiento a partir de los datos

Más detalles

Trabajo Practico N 12

Trabajo Practico N 12 Trabajo Practico N 12 Minería de Datos CATEDRA: Actualidad Informática Ingeniería del Software III Titular: Mgter. Horacio Kuna JTP: Lic. Sergio Caballero Auxiliar: Yachesen Facundo CARRERAS: Analista

Más detalles

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión.

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión. TEMA 9 TÉCNICAS DE INTELIGENCIA ARTIFICIAL PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE 9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de

Más detalles

TEMA 1. Introducción

TEMA 1. Introducción TEMA 1. Introducción Francisco José Ribadas Pena, Santiago Fernández Lanza Modelos de Razonamiento y Aprendizaje 5 o Informática ribadas@uvigo.es, sflanza@uvigo.es 28 de enero de 2013 1.1 Aprendizaje automático

Más detalles

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1 ÍNDICE Introducción... XV Capítulo 1. El concepto de Data Mining... 1 Introducción... 1 Una definición de Data Mining... 3 El proceso de Data Mining... 6 Selección de objetivos... 8 La preparación de los

Más detalles

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Emmanuel Anguiano-Hernández Abril 29, 2009 Abstract Tratando de mejorar el desempeño de un clasificador Naive

Más detalles

La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)

La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network) La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network) III Jornadas de Usuarios de R Javier Alfonso Cendón, Manuel Castejón Limas, Joaquín Ordieres Mere, Camino Fernández Llamas Índice

Más detalles

CAPÍTULO 5: MODELADO DEL IDS CON REDES NEURONALES

CAPÍTULO 5: MODELADO DEL IDS CON REDES NEURONALES Capítulo 5 Modelado y Simulación del IDS 35 CAPÍTULO 5: MODELADO DEL IDS CON REDES NEURONALES En este capítulo se describe la preparación de los datos para servir como entradas al IDS y la simulación de

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

Minería de Datos. Abstract. Existencia de herramientas automáticas que no hacen necesario el ser un experto en estadística Potencia de computo

Minería de Datos. Abstract. Existencia de herramientas automáticas que no hacen necesario el ser un experto en estadística Potencia de computo Minería de Datos Óscar Palomo Miñambres Universidad Carlos III de Madrid Avda. De la Universidad, 30 28911, Leganés (Madrid-España) 100049074@alumnos.uc3m.es Abstract En este artículo analizaremos las

Más detalles

Aplicación de Técnicas de Minería de Datos para la Indagación y Estudio de Resultados Electorales

Aplicación de Técnicas de Minería de Datos para la Indagación y Estudio de Resultados Electorales FIALLOS TIC S y Sociedad Aplicación de Técnicas de Minería de Datos para la Indagación y Estudio de Resultados Electorales Roberto CAMANA FIALLOS Facultad de Ingeniería en Sistemas Bolívar 20-35 y Guayaquil,

Más detalles

Anexo No. 02 FICHA TECNICA FONDO FINANCIERO DE PROYECTOS DE DESARROLLO FONADE

Anexo No. 02 FICHA TECNICA FONDO FINANCIERO DE PROYECTOS DE DESARROLLO FONADE Anexo No. 02 FICHA TECNICA FONDO FINANCIERO DE PROYECTOS DE DESARROLLO FONADE Unidad Administrativa Especial de Gestión Pensional y Contribuciones Parafiscales de la Protección Social UGPP Objeto: ADQUISICIÓN

Más detalles

Deep Learning y Big Data

Deep Learning y Big Data y Eduardo Morales, Enrique Sucar INAOE (INAOE) 1 / 40 Contenido 1 2 (INAOE) 2 / 40 El poder tener una computadora que modele el mundo lo suficientemente bien como para exhibir inteligencia ha sido el foco

Más detalles

Un presente y futuro de RR.HH. basado en datos: Aplicaciones de Data Mining en la Gestión de Personas. Prof. Lic. Juan M. Bodenheimer jb@instare.

Un presente y futuro de RR.HH. basado en datos: Aplicaciones de Data Mining en la Gestión de Personas. Prof. Lic. Juan M. Bodenheimer jb@instare. Un presente y futuro de RR.HH. basado en datos: Aplicaciones de Data Mining en la Gestión de Personas Congreso de RR.HH. De Costa Rica 30/10/2012 Prof. Lic. Juan M. Bodenheimer jb@instare.com Nuestra Agenda

Más detalles

Palabras llave. 1. Introducción. S. Valero 1, M. Ortiz 1, C. Senabre 1, M. Peñarrubia 1, A. Gabaldón 2 y Fco. Garcia 2

Palabras llave. 1. Introducción. S. Valero 1, M. Ortiz 1, C. Senabre 1, M. Peñarrubia 1, A. Gabaldón 2 y Fco. Garcia 2 Clasificación de consumidores eléctricos mediante el uso de varias técnicas de redes neuronales artificiales, e identificación de nuevos clientes con las redes entrenadas S. Valero, M. Ortiz, C. Senabre,

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Algoritmos. Jordi Gironés Roig PID_00197284

Algoritmos. Jordi Gironés Roig PID_00197284 Algoritmos Jordi Gironés Roig PID_00197284 CC-BY-NC-ND PID_00197284 Algoritmos Los textos e imágenes publicados en esta obra están sujetos excepto que se indique lo contrario a una licencia de Reconocimiento-NoComercial-SinObraDerivada

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Aportaciones al Diagnóstico de Cáncer Asistido por Ordenador

Aportaciones al Diagnóstico de Cáncer Asistido por Ordenador UNIVERSIDAD POLITÉCNICA DE VALENCIA Departamento de Sistemas Informáticos y Computación Borrador de Tesis Mayo de 2006 Aportaciones al Diagnóstico de Cáncer Asistido por Ordenador Presentado por: Rafael

Más detalles

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA ÁREA TÉCNICA

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA ÁREA TÉCNICA UNIVERDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja ÁREA TÉCNICA TITULACIÓN DE INGENIERO EN STEMAS INFORMÁTICOS Y COMPUTACIÓN Aplicación de técnicas de minería de datos para predecir la

Más detalles

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP Universidad Politécnica de Puebla UPP JESÚS ANTONIO GONZÁLEZ BERNAL 1 2 Evolución de la Tecnología BD 1960 s y antes Creación de las BD en archivos primitivos 1970 s hasta principios de los 1980 s BD Jerárquicas

Más detalles

Las Matemáticas En Ingeniería

Las Matemáticas En Ingeniería Las Matemáticas En Ingeniería 1.1. Referentes Nacionales A nivel nacional se considera que el conocimiento matemático y de ciencias naturales, sus conceptos y estructuras, constituyen una herramienta para

Más detalles

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de CAPITULO 4 JUSTIFICACION DEL ESTUDIO En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de estudios previos y los alcances que justifican el presente estudio. 4.1. Justificación.

Más detalles

Minería de datos para la determinación del grado de exclusión social

Minería de datos para la determinación del grado de exclusión social Minería de datos para la determinación del grado de exclusión social Data mining to determine the degree of social exclusion * Jorge Enrique Rodríguez Rodríguez Fecha de recepción: 23 de agosto de 2008

Más detalles

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático?

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático? Ingeniería del conocimiento Sesión 1 Por qué estudiar aprendizaje automático? 1 Agenda Qué vamos a ver en la asignatura? Para qué sirve todo esto? Cómo aprobar la asignatura? 2 Extracción del conocimiento

Más detalles

Tema 7: Estadística y probabilidad

Tema 7: Estadística y probabilidad Tema 7: Estadística y probabilidad En este tema revisaremos: 1. Representación de datos e interpretación de gráficas. 2. Estadística descriptiva. 3. Probabilidad elemental. Representaciones de datos Cuatro

Más detalles

Curso del Data Mining al Big Data

Curso del Data Mining al Big Data Curso del Data Mining al Big Data Instructor: Dr. Luis Carlos Molina Félix Presentación. Las bases de datos y los sistemas de administración de datos han jugado un papel primordial en el crecimiento y

Más detalles

KNime. KoNstanz Information MinEr. KNime - Introducción. KNime - Introducción. Partes de la Herramienta. Editor Window. Repositorio de Nodos

KNime. KoNstanz Information MinEr. KNime - Introducción. KNime - Introducción. Partes de la Herramienta. Editor Window. Repositorio de Nodos KNime - Introducción KNime Significa KoNstanz Information MinEr. Se pronuncia [naim]. Fue desarrollado en la Universidad de Konstanz (Alemania). Esta escrito en Java y su entorno grafico esta desarrollado

Más detalles

Planificación del tamaño de la muestra. para las evaluaciones de impactos. David Evans, Banco Mundial. (Banco Mundial) Turning Promises into Evidence

Planificación del tamaño de la muestra. para las evaluaciones de impactos. David Evans, Banco Mundial. (Banco Mundial) Turning Promises into Evidence Planificación del tamaño de la muestra para las evaluaciones de impactos David Evans, Banco Mundial Basada en transparencias de Esther Duflo (J-PAL) y Jed Friedman (Banco Mundial) REGIONAL IMPACT EVALUATION

Más detalles

Darío Álvarez Néstor Lemo www.autonomo.edu.uy

Darío Álvarez Néstor Lemo www.autonomo.edu.uy Data Mining para Optimización de Distribución de Combustibles Darío Álvarez Néstor Lemo Agenda Qué es DODC? Definición de Data Mining El ciclo virtuoso de Data Mining Metodología de Data Mining Tareas

Más detalles