COLEGIO DE POSTGRADUADOS

Tamaño: px
Comenzar la demostración a partir de la página:

Download "COLEGIO DE POSTGRADUADOS"

Transcripción

1 COLEGIO DE POSTGRADUADOS INSTITUCIÓN DE ENSEÑANZA E INVESTIGACIÓN EN CIENCIAS AGRÍCOLAS CAMPUS MONTECILLO SOCIOECONOMÍA, ESTADÍSTICA E INFORMÁTICA ESTADÍSTICA MINERÍA DE DATOS USANDO SAS ENTERPRISE MINER; UNA APLICACIÓN EN DATOS FORESTALES VICTORIA LUCIA CARMONA MOTA T E S I S PRESENTADA COMO REQUISITO PARCIAL PARA OBTENER EL GRADO DE: M A E S T R A EN C I E N C I A S MONTECILLO, TEXCOCO, EDO. DE MÉXICO 2006

2 DEDICATORIAS A mis Padres Por el amor que me han dado, enseñanzas, y sobre todo su entereza ante las adversidades. A mis Hermanos y Hermanas Por el amor, protección y apoyo que me han brindado durante toda mi vida. A mis Sobrinos y Sobrinas (Beto, Monse, Paco, Rebeca, y Fernandito). Porque sin ustedes no hubiera sido posible lograr esta meta.

3 AGRADECIMIENTOS A Dios Al Consejo Nacional de Ciencia y Tecnología (CONACYT) por el apoyo económico brindado durante esta etapa de mi formación académica. Al Dr. Humberto Vaquera Huerta por el compromiso, motivación y paciencia para la realización del presente trabajo. Al Dr. Antonio Martínez Alcántara por sus conocimientos; y por sus sugerencias para mejorar este trabajo. A la Dra. Martha Elva Ramírez Guzmán por sus sugerencias y correcciones para la realización de este trabajo. Al Dr. René Valdez Lazalde por su valiosa ayuda, y disponibilidad en la elaboración de este trabajo. Al M.C. Guadalupe Hernández Lira por su apoyo e impulso para continuar mis estudios. Al M.C. Paulino Pérez Rodríguez por los conocimientos compartidos y su maravillosa calidad humana. A mi amigo Adalberto Pineda por su compañía, cariño y apoyo en el tiempo compartido durante la maestría. A mis amigas: Verónica Macias, Laura Cabañas y Rocío Cervantes por los ánimos y apoyo durante este tiempo de estudio. A mis profesores, amigos y todas las personas que de alguna manera me ayudaron durante mis estudios de maestría. Muchas gracias. VLCM

4 CONTENIDO RESUMEN...i ABSTRACT...ii 1. Introducción Objetivos...3 Objetivo General...3 Objetivos Particulares Justificación Descubrimiento de conocimiento en bases de datos (KDD) y minería de datos Historia de la minería de datos Definición de descubrimiento de conocimiento en bases de datos (KDD) El proceso de descubrimiento de conocimiento en bases de datos (KDD) Minería de datos Objetivos de la minería de datos La importancia de la estadística en KDD y minería de datos Evaluación de patrones del descubrimiento de conocimiento en bases de datos (KDD) Modelos de clasificación Introducción Modelos de regresión logística Modelo de regresión logística polinomial (multinomial) Modelos de redes neuronales artificiales Estructura de una red neuronal natural Redes neuronales artificiales Perceptrón simple capa Función de activación o transferencia Modelo perceptrón multicapa con dos capas Modelo perceptrón multicapa Entrenamiento de los modelos perceptrón multicapa Modelos de árboles de decisión Árboles de regresión Método para podar árboles de decisión Árboles de clasificación Certeza de los modelos de clasificación Minería de datos con SAS (Enterprise Miner) Introducción Requerimientos de SAS Enterprise Miner El proceso de minería de datos usando SAS Enterprise Miner Inicio de SAS Enterprise Miner...31

5 4.5. Proyecto Estructura de un proyecto Crear un proyecto Exportar un proyecto Proyecto cliente/servidor Servidor único-usuario Servidor multi-usuario Acceso al método de comunicación Definir un cliente/servidor Diagrama Crear un diagrama Nodos Sampling Exploring Modify Model Assessing Scoring Utility Clonar un nodo Modelos de clasificación Selección de variables para el modelo multinomial Modelo de redes neuronales Árboles de clasificación Matriz de decisiones y probabilidades a-priori Evaluación y selección de los modelos de clasificación Un ejemplo de minería de datos usando Enterprise Miner en la clasificación de la cobertura forestal Introducción Antecedentes del problema Planteamiento del problema de aplicación Inicio del diagrama Base de datos de entrada Definición del archivo objetivo Base de datos para el entrenamiento, validación y prueba Visualización de datos Transformación de variables Modelos de clasificación Ajuste de un modelo de regresión multinomial Ajuste un modelo de redes neuronales Ajuste del modelo de árboles de clasificación Evaluación de los modelos Base de datos para futuras clasificaciones Base de datos Score Pérdida esperada del nuevo conjunto de datos....88

6 5.13. Uso de SAS Code para los resultados de SAS Score Reporte Web Resultados y Discusión Conclusiones...95 Bibliografía...96 Anexo Anexo

7 RESUMEN La minería de datos es una disciplina nueva que es útil para investigadores que manejan grandes volúmenes de información. SAS Institute Inc. ha desarrollado la metodología SEMMA; la cual automatiza el proceso de la minería de datos a través del programa Enterprise Miner. Este trabajo buscó encontrar una estructura para clasificar la cobertura forestal con el programa mencionado, utilizando datos de cuatro áreas del bosque Roosevelt National Forest localizado aproximadamente a 70 millas al noroeste de Denver, Colorado, EEUU. Se entrenaron tres modelos de clasificación: redes neuronales, multinomial y árboles de clasificación, con el criterio de minimizar la pérdida, la cual es cuantificada en una escala de 0 a 7. Los resultados señalan que el modelo de redes neuronales clasifica correctamente 74.83% de cobertura forestal, el multinomial 72.26%, y el de árboles de clasificación 69.35%. La pérdida promedio es 1.05 para el modelo de redes neuronales, 1.16 para el multinomial, y 1.30 para el de árboles de clasificación. Palabras clave: Árboles de clasificación, bases de datos, matriz de pérdidas, modelo de regresión logística multinomial, redes neuronales artificiales. i

8 ABSTRACT Data mining is a new discipline that is useful for researchers that manage large databases. SAS Institute Inc. has developed the SEMMA methodology, which automatizes the data mining process through the Enterprise Miner software. This work looks for finding a structure for classifying forest cover with Enterprise Miner. Using data sets from the Roosevelt National Forest, located approximately 70 miles northwest of Denver, Colorado USA. Three classification models were trained: a neural network, a multinomial and a classification tree with minimum loss criterion, which is scaled at the range 0 to 7. The results indicated that the neural network model classification accuracy was 74.83% of the forest cover, the multinomial model classification accuracy was 72.26% and the classification tree model classification accuracy was 69.35%. The average loss was 1.05 for the neural networks model, 1.16 for the multinomial model and 1.30 for the classification tree. Keywords: Classification Trees, Databases, Loss Matrix, Logistic Regression Multinomial Model, Artificial Neural Networks. ii

9 1. Introducción En la últimas décadas el avance de la ciencia computacional ha provocado un enorme crecimiento de información almacenada, no es exagerado decir que el mundo actual es un universo de datos, basta con mencionar el tamaño de algunas bases de datos tales como Yahoo que a través de su red transfiere arriba de 10TB 1 por día, además es utilizada por más de 410 millones de usuarios en un mes generando una enorme cantidad de información (Piatestsky-Shapiro, 2006a). Otro caso es WalMart que añade alredor de 1 billón de registros a su base de datos diariamente (USA TODAY, 2006). En áreas científicas también hay grandes volúmenes de información un ejemplo de ello es Digital Palomar Sky Survey (DPOSS) quien genera imágenes de aproximadamente 3TB de píxeles por día (AAS, 2002). Consecuentemente a tal crecimiento y la rapidez con que se actualizan los datos surge la necesidad de desarrollar métodos que permitan automatizar el proceso de encontrar patrones ocultos en enormes bases de datos, dicho proceso es llamado minería de datos. En los últimos años el éxito de la minería de datos ha sido impresionante, así lo muestran las siguientes aplicaciones: El sistema SKY Image Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de minería de datos para poder clasificar los objetos en estrellas, planetas, sistemas y galaxias. El FBI analiza bases de datos comerciales para detectar terroristas. Los registros (logs) que dejan los navegadores de páginas web son procesados mediante técnicas denominadas Webmining. Información oculta en colecciones de texto se extrae mediante métodos de Texmining (Molina, 2005). En general la minería de datos se aplica a cualquier área interesada en explotar bases de datos. La minería de datos es una disciplina que fusiona áreas tales como bases de datos, inteligencia artificial y estadística, expertos de dichas áreas se han involucrado en el desarrollo de técnicas que permitan encontrar relaciones y patrones ocultos en los datos, pero a pesar de los avances aún hay mucho por hacer, tan es así que instituciones como Microsoft se han interesado en la ciencia computacional para el análisis de datos (Piatestsky-Shapiro, 2006b). Pero no solo Microsoft se ha interesado en la comercialización de metodologías y programas para sistematizar problemas de minería de datos. Algunas metodologías disponibles son: CRISP-DM principalmente usado en problemas de negocios y marketing, esta metodología es de uso libre aunque actualmente es el soporte para el software Clementine SPSS Data Mining (Jackson, 2002). Por su parte SAS Institute desarrolló SEMMA llamada así por sus siglas en inglés que significan: Sampling, Exploring, Modifying, Model y Assessing éste procedimiento sistematiza la minería de datos a través del programa SAS Enterprise Miner (SAS Institute Inc., 2004). Otros paquetes son S-plus Insightful Miner y Oracle Data Mining. El objetivo de ésta investigación es mostrar el proceso de la minería de datos usando SAS Enterprise Miner, utilizando para ello el problema de encontrar una estructura que 1 TB=Terabytes, 1TB=10 12 Bytes 1

10 clasifique la cobertura forestal de cuatro áreas del bosque de Roosevelt National Forest localizado al noroeste de Denver Colorado. De manera que el trabajo esta estructurado de la siguiente forma, el capítulo 1 contiene el objetivo general, los objetivos específicos y la justificación del estudio, el capítulo 2 se refiere a la definición de minería de datos dentro del proceso de descubrir conocimientos en bases de datos KDD por sus siglas en inglés, aunque los dos términos se usan indistintamente, en un enfoque científico existe diferencia la cual se puntualiza en este capítulo, además se describen algunas técnicas de minería de datos y se destaca la importancia de la estadística dentro de esta disciplina. En el capítulo 3 se describe los aspectos teóricos de los modelos de clasificación de redes neuronales artificiales, modelo multinomial y árboles de decisión los cuales se ocupan en el ejemplo de aplicación. El capítulo 4 es una guía del funcionamiento y manejo del programa incluye especificaciones de los modelos de clasificación y los criterios para evaluar y seleccionar éstos. El capítulo 5 está dedicado a la aplicación se detalla cada paso a seguir en el proceso de solucionar el problema de clasificar la cobertura forestal, además de discutir los resultados encontrados. Por último el capítulo 6 son las conclusiones de la investigación. 2

11 1.1. Objetivos Objetivo General Mostrar el uso de la minería de datos con SAS Enterprise Miner en el análisis de bases de datos en el área de las ciencias agropecuarias. Objetivos Particulares Encontrar alguna estructura oculta que lleve a la correcta clasificación de la cobertura forestal del bosque Roosevelt National Forest. Realizar una revisión de bibliografía de las técnicas de minería de datos, principalmente de modelos de clasificación. Explicar el uso del programa SAS Enterprise Miner Justificación El crecimiento de las bases de datos en las últimas décadas ha sido impresionante, de tal manera que la minería de datos es una disciplina útil para el entendimiento de la información y toma de decisiones. Esta se utiliza principalmente en áreas de negocios y marketing, sin embargo, en los años recientes han incrementado las aplicaciones en las ciencias agropecuarias y en general en áreas científicas. Por otro lado a pesar de que la literatura relacionada con el tema es extensa se requiere de documentos prácticos que expliquen de manera clara el proceso de la minería de datos, por ello la presente investigación proporciona una guía de tal disciplina usando SAS Enterprise Miner en un problema de aplicación, se utiliza este programa debido a que es una herramienta poderosa comparada con otros programas en el uso de la disciplina, además de que en México es un programa de uso tradicional en las ciencias agropecuarias. 3

12 2. Descubrimiento de conocimiento en bases de datos (KDD) y minería de datos Historia de la minería de datos El término minería de datos no es nuevo, desde los años 70 s los estadísticos manejaban para explicar el significado de minería de datos, expresiones como: extracción de conocimientos, descubrimiento de información, cosecha de información, arqueología de los datos, procesamiento de patrones de los datos, inclusive minería de datos (Fayyad et al., 1996). El término minería de datos es usado principalmente por los estadísticos. Aunque conceptualmente hay una diferencia entre minería de datos y descubrimiento de conocimiento en bases de datos (KDD), regularmente su uso es indistinto, más adelante se puntualiza la diferencia. La frase descubrimiento de conocimiento en bases de datos fue ideada en un primer taller en 1989 por G. Piatetsky-Shapiro, para destacar que el conocimiento es el fin de un proceso de exploración de datos, dicho taller continuo los subsecuentes años donde U. Fayyad, G. Piatetsky-Shapiro, P. Smyth y R. Uthurusamy, presentaban avances de KDD la primera conferencia que incluyó el término minería de datos fue a mediados de los 90 s International Conferences on Knowledge Discovery in Databases and Data Mining ; para finalizar el milenio y en los primeros años del nuevo las conferencias acerca del tema aumentaron, algunas fueron European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD) (1997) Pacific- Asia Conference on Knowledge Discovery in Databases (PAKDD) (1997), Conference International on Data Mining, Institute International of Electrical Engineers (IEEE) (2001), y Conference International on Data Mining, Society for Industrial and Applied Mathematics (SIAM) (2001). Actualmente el número de conferencias y reuniones etc. acerca del tema es bastante amplio algunas asociaciones destacadas son: SIAM, PKDD, PAKDD, IEEE, ICDEM, DaWak, SIPIE-DM entre otras (Christen, 2005) Definición de descubrimiento de conocimiento en bases de datos (KDD) El descubrimiento de conocimiento en bases de datos, es un área de investigación de naturaleza multidisciplinaria comprende áreas como: bases de datos, inteligencia artificial (aprendizaje de computadoras, reconocimiento de patrones, sistemas de expertos), y estadística. 4

13 Una definición formal es ofrecida por (Vazirgiannis et al., 2003 citando a Fayyad et al. 1996). El descubrimiento de conocimiento en bases de datos es un proceso no-trivial de identificación valida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran en los datos. Se desglosan algunos términos que son parte de la definición: Proceso: Implica varios pasos los cuales incluyen pre-procesamiento de los datos, búsqueda de patrones, evaluación y mejoramiento del conocimiento. No trivial: Significa que alguna búsqueda o inferencia esta involucrada. Patrón: Es un subconjunto de datos que comparten propiedades similares. Datos: Es un conjunto de registros que aparecen en una base de datos. Validez: Extraer patrones puede ser validado con base en alguna prueba de datos con algún grado de certeza, más adelante se mencionan algunos métodos de validación o evaluación. Potencialmente útiles: Que sean de beneficio para el usuario. Entendibles: El objetivo de descubrir conocimientos es identificar patrones y hacer esto entendible para los humanos El proceso de descubrimiento de conocimiento en bases de datos (KDD) El proceso de descubrimiento de conocimiento en bases de datos es un proceso iterativo e interactivo. Es iterativo porque el resultado de cada paso podría ser usado para previos pasos como se muestra en la Figura 1.1. Es interactivo porque el usuario o experto en el campo de aplicación debe estar involucrado para ayudar en la preparación de los datos, descubrimiento y evaluación de conocimiento (Vazirgiannis et al., 2003) Los pasos en el proceso de KDD son: 1. Desarrollar un entendimiento del dominio de la aplicación y el conocimiento a- priori relevante, así como la identificación del objetivo del proceso KDD desde el punto de vista de cliente o usuario. 2. Integrar datos de diferentes tipos de información que puede ser usada en el proceso de descubrir conocimiento. Así es que, fuentes de datos múltiples pueden ser combinados definiendo el conjunto para el cual el proceso minería es aplicado. 3. Crear un conjunto de datos target (objetivo), seleccionando un conjunto de datos o un subconjunto de variables sobre los cuales el proceso de descubrir será interpretado. 5

14 4. Limpiar datos y pre-procesamiento, este paso incluye las operaciones básicas tales como eliminar datos extremos, colectar la información necesaria para modelar o explicar el ruido y las decisiones sobre las estrategias para datos faltantes. 5. Transformar los datos o consolidarlos en forma apropiada para explotar o minar usando reducción de dimensionalidad o métodos de transformación para reducir el número de variables efectivas bajo consideración o encontrar información invariante para los datos. 6. Seleccionar la tarea de minería de datos y algoritmos, se decide el objetivo del proceso de KDD seleccionando la tarea de minería de datos para llevar a cabo dicho objetivo, esto incluye decidir que modelo y parámetros son apropiados, además de adecuar los método de minería de datos con los requerimientos y todos los criterios del proceso de KDD. 7. Aplicar los métodos de minería de datos para encontrar patrones interesantes de conocimiento. Los patrones pueden ser para una representación específica o un conjunto de tales representaciones tales como: reglas de clasificación, árboles de decisión, regresión, agrupamiento etc. La ejecución y los resultados de minería de datos depende de los pasos precedentes. 8. La extracción de patrones son evaluados sobre algunas mediciones interesantes para identificar patrones representando conocimientos, más adelante hay un apartado acerca de esto. 9. La extracción de conocimientos es incorporado en un sistema o simplemente la visualización y técnicas de representación de conocimientos son usadas para representar el conocimiento minado para su uso. También se chequea y resuelve conflictos con conocimientos previos. 6

15 Figura 2.1. Proceso de descubrimiento de conocimiento en bases de datos (Vazirgiannis et al., 2003). Como se mencionó anteriormente el descubrimiento de conocimiento en bases de datos fusiona varias áreas como: bases de datos, inteligencia artificial (aprendizaje de computadoras, reconocimiento de patrones etc.), y estadística. Cada una de estas áreas dirige una parte específica del problema, por ejemplo bases de datos esta designada al pre-procesamiento, submuestras y transformaciones de los datos. Un campo relacionado que ha evolucionado con las bases de datos es data warehousing, el cual se refiere a coleccionar y limpiar transacciones de bases de datos para hacer estos disponibles para el análisis y soporte de decisión. Data warehousing ayuda al KDD en dos importantes formas: limpieza de datos y acceso a los datos. Por otro lado la estadística e inteligencia artificial están enfocadas al desarrollo de algoritmos para la búsqueda de patrones ocultos, más adelante destacaremos la importancia de la estadística en la minería de datos. 7

16 2.4. Minería de datos. El corazón del proceso de KDD es la aplicación de métodos de minería de datos para descubrir y extraer patrones, con base en el entrenamiento y pruebas utilizando áreas como: aprendizaje de máquinas, reconocimiento de patrones y estadística. La minería de datos es un paso en el proceso de KDD que consiste de la aplicación de análisis de datos y descubrimiento de algoritmos con ayuda de métodos computacionales produciendo una enumeración particular de patrones o modelos sobre los datos (Fayyad et al., 1996). A continuación se hace una reseña de los métodos de minería de datos Objetivos de la minería de datos. Los métodos de minería de datos tienen principalmente dos objetivos: 1.- Predicción 2.-Descripción La predicción involucra usar variables o campos de las bases de datos para predecir en un futuro valores desconocidos de otras variables de interés y la descripción esta enfocada a encontrar patrones humanamente interpretables que describan los datos. Aunque la diferencia entre predicción y descripción no es muy clara, ya que algunos modelos de predicción pueden ser descriptivos y viceversa, la distinción es útil para entender el objetivo general del descubrimiento de conocimientos (Fayyad et al., 1996). Los objetivos de la minería de datos pueden cumplirse usando una variedad de métodos diseñados para encontrar patrones ocultos en las bases de datos, en este apartado se presenta de manera breve una descripción de los mismos ya que el objetivo no es presentar de manera detallada tales métodos, si se requiere más información se puede consultar (Vazirgiannis et al., 2003) Antes de presentar las diferentes técnicas de minería de datos nos enfocamos en dos conceptos importantes en la aplicación de los mismos, estos conceptos son: aprendizaje con supervisión y aprendizaje sin supervisión. Aprendizaje con supervisión: Suponga un escenario típico, es decir una variable respuesta y que se quiere predecir con base en un conjunto de características x, se realiza entonces un entrenamiento en el cual se observa las características de medición de un conjunto de casos para la respuesta y, usando estos datos se construye entonces un modelo de predicción o clasificación el cual nos permitirá predecir la respuesta con nuevos datos. A este tipo de aprendizaje se le llama aprendizaje con supervisión porque la presencia de una variable respuesta guía el proceso de aprendizaje. 8

17 Aprendizaje sin supervisión: En este aprendizaje únicamente se observan los datos durante el entrenamiento y no hay una variable respuesta que guié el proceso. En minería de datos la variable de respuesta es llamada objetivo y las técnicas generalmente se pueden clasificar de acuerdo a su tipo de aprendizaje como: De clasificación El problema de clasificación ha sido estudiado extensivamente en reconocimiento de patrones y aprendizaje de máquinas como una posibilidad para adquirir conocimientos. Es una de las principales tareas de minería de datos. Un modelo de clasificación es una función que asigna un dato a alguna clase predefinida. El proceso divide la base de datos en tres conjuntos: entrenamiento, validación y prueba. Con el primer conjunto de datos se ajustan iterativamente modelos hasta elegir uno que satisfaga algún criterio de selección. Con el conjunto de validación se estima la certeza de los modelos ajustados en el entrenamiento. La certeza es el porcentaje de datos que son clasificados correctamente por el modelo ajustado en el entrenamiento. El tercer conjunto de datos se usa para estimar la certeza del modelo final. Algunos métodos de clasificación son: clasificación de Bayes, árboles de decisión, redes neuronales, clasificación de nearest neighbor, entre otras. De regresión Los modelos de regresión son una función de aprendizaje que asigna datos para predecir una variable tomando valores reales. En minería de datos se hace una distinción entre predicción y clasificación, se utiliza predicción si la variable objetivo que se quiere predecir es una variable continua o binaria y se clasifica si el objetivo es una variable categórica o nominal. De agrupamiento Es una de las herramientas más utilizadas en minería de datos para descubrir grupos e identificar patrones y distribuciones interesantes de los datos bajo estudio. El agrupamiento se refiere a una partición de un conjunto de datos en grupos tal que los puntos en un grupo son más similares que los puntos en diferentes grupos. También se usan otros nombres para la técnica de agrupamiento: en el área de reconocimiento de patrones se les llama aprendizaje sin supervisión, en biología y ecología taxonomía numérica, topología en ciencias sociales y partición en teoría de gráficas. El procedimiento del agrupamiento no tiene clases pre-definidas ni ejemplos que puedan mostrar que tipo de relaciones deseables puedan ser validadas entre los datos, por eso es que se percibe como un proceso sin supervisión. De resumen Resumir es el proceso de encontrar una descripción compacta para un conjunto de datos. Por ejemplo resumir puede ser usado para estimar la media y desviación 9

18 estándar para todos los atributos de un conjunto de datos. Otra aplicación más sofisticada de resumir son las reglas de derivación resumidas, técnicas de visualización multivariada, las técnicas para resumir son frecuentemente aplicada para análisis de exploración de los datos y generar reportes automatizados. Otros métodos de minería de datos son: reglas de asociación, secuencia de patrones, series de tiempo, visualización y reducción de dimensionalidad La importancia de la estadística en KDD y minería de datos. Originalmente KDD no surge dentro de estadística sino dentro de las bases de datos, principalmente se debe a que los estadísticos no se habían preocupado por los conjuntos de datos que contienen muchos millones o billones de registros. La minería de datos tiene mucho en común con estadística, principalmente en la estimación de parámetros y uso de técnicas de análisis multivariado por ello es que la mayoría de la técnicas de minería de datos son de naturaleza estadística, tan es así, que se dice que KDD es un esfuerzo estadístico, sin embargo, hay una diferencia clara entre los métodos convencionales de estadística y los métodos requeridos para analizar grandes cantidades de información y es que, en estadística generalmente se asumen supuestos acerca de la distribución de los datos el más común es que han sido muestreados independientes y de la misma distribución iid, pero las condiciones de los datos en minería de datos son en muchas ocasiones muy diferentes al ideal iid (Hand, 1998). Por otro lado la parte conceptual es un punto importante a tratar, ya que minería de datos es la búsqueda de patrones interesantes o alguna estructura en los datos pero antes hay que definir que significa patrones interesantes o alguna estructura y más antes es necesario decidir que significa interesante, generalmente lo interesante, depende de cada problema en particular. La esencia de minería de datos es que no se sabe con precisión que estructura se esta buscando en los datos, lo que provoca un número grande de patrones candidatos pero probablemente falsos, algunas estrategias que han sido desarrollados para solucionar este problema son: modelos de familias restringidas (limitando el tamaño de la clase de parámetros examinados), penalización de patrones, y reducción de la sobreparametrización del modelo (imponiendo fuertemente un criterio de selección de modelos o patrones), para que finalmente estos patrones sean identificados por un experto en el área de consideración y no totalmente sobre las estructuras internas de los métodos (Hand, 1998). Algunos métodos robustos o menos rígidos en las suposiciones que se han utilizado con éxito son: modelos de redes neuronales, árboles de decisión, también cluster y modelos de regresión entre otros. 10

19 Otro problema es el tamaño enorme de las bases de datos y la velocidad con que éstas se actualizan, por lo que es necesario encontrar métodos teóricamente bien sustentados que arrojen resultados rápidos y confiables. De tal manera que hay una urgencia de que los estadísticos se involucren con problemas de minería de datos, para aprender acerca de estos y para contribuir de manera importante al desarrollo de nuevos métodos que resuelvan problemas de minería de datos Evaluación de patrones del descubrimiento de conocimiento en bases de datos (KDD). La calidad de los patrones depende de la calidad del análisis y de la calidad de los resultados encontrados (Vazirgiannis et al., 2003) Generalmente el término calidad en minería de datos requiere de: Representar conocimientos reales incluidos en el análisis de los datos, el análisis de datos oculta información interesante que los métodos de minería de datos revelan. Un requisito para la evaluación de la extracción de conocimientos y representación es que debe estar involucrado el experto en el tema. Muchos algoritmos y técnicas son propuestos bajo diferentes supuestos que pueden conducir a diferentes resultados. La selección de un método adecuado para una tarea de análisis especifico en términos de su ejecución y la calidad de estos resultados es uno de los mayores problemas en minería de datos, frecuentemente este paso es referido como sintonización de algoritmos. Regularmente es muy largo el número de patrones generados pero solamente unos de estos patrones son probables de ser de algún interés para el experto del análisis. muchos de estos patrones son irrelevantes u obvios y no proporcionan nuevos conocimientos, es por ello que la selección de patrones más representativos para un conjunto de datos es un importante tema en términos de evaluación de calidad. Existen varios métodos y pruebas para validar la calidad de los patrones encontrados en el proceso de minería de datos, en este trabajo se presentan los métodos para evaluar modelos de clasificación debido a que estos son utilizados más adelante en el ejercicio de aplicación para otros métodos ver (Vazirgiannis et al., 2003) 11

20 3. Modelos de clasificación 3.1. Introducción. Como se mencionó en el capítulo anterior uno de los propósitos de la minería de datos es predecir el objetivo (variable de respuesta) con relación a una o más variables explicativas, es decir estimar los parámetros que aproximen la asociación entre dichas variables. Cuando el objetivo es categórico los modelos son referidos como modelos de clasificación. En este trabajo se utilizan los modelos de clasificación como técnicas de aprendizaje con supervisión y se basan en la teoría de estimación de parámetros de los modelos lineales generalizados (GLM), los modelos lineales generalizados son una unificación de modelos lineales y modelos no-lineales (Montgomery et al., 2002). La finalidad de este apartado es establecer los aspectos teóricos de los modelos de clasificación. El capítulo se inicia con los modelos de regresión logística, regresión logística multinomial, y redes neuronales, finalmente nos enfocamos en los árboles de decisión y la evaluación de la certeza de los modelos Modelos de regresión logística. Los modelos de regresión logística toman las ideas de un modelo lineal (Hosmer y Lemeshow, 1989), se usan cuando la variable respuesta es binaria. Debido a que los modelos multinomiales y en algunos ocasiones los modelos de redes neuronales toman de base la función logit, se describen algunos aspectos importantes de este modelo que serán de ayuda para el entendimiento de los modelos subsecuentes. Por notación se usa ( x) E{ Y x} p = para representar la media condicional de una variable Y dado x cuando la distribución logística es usada. La forma del modelo de regresión logística esta dada en (3.1) β +β x { } β 0+β1x { } 0 1 exp π (x) = 1 + exp (3.1) donde β 0 y β 1 son los parámetros que se desean estimar, x es la variable explicativa. Una transformación a π ( x) es central para el estudio de regresión logística, dicha 12

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

Capítulo 2. Las Redes Neuronales Artificiales

Capítulo 2. Las Redes Neuronales Artificiales Capítulo 2. Las Redes Neuronales Artificiales 13 Capitulo 2. Las Redes Neuronales Artificiales 2.1 Definición Redes Neuronales Artificiales El construir una computadora que sea capaz de aprender, y de

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

Cómo se usa Data Mining hoy?

Cómo se usa Data Mining hoy? Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta

Más detalles

Deep Learning y Big Data

Deep Learning y Big Data y Eduardo Morales, Enrique Sucar INAOE (INAOE) 1 / 40 Contenido 1 2 (INAOE) 2 / 40 El poder tener una computadora que modele el mundo lo suficientemente bien como para exhibir inteligencia ha sido el foco

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

Con el fin de obtener los datos, se procede con las siguientes instrucciones:

Con el fin de obtener los datos, se procede con las siguientes instrucciones: Capitulo 3. La predicción de beneficios del mercado bursátil Este segundo caso de estudio va más allá en el uso de técnicas de minería de datos. El dominio específico utilizado para ilustrar estos problemas

Más detalles

UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES

UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES José Alejandro Chiri Aguirre RESUMEN La predicción de recidiva en pacientes que han sido

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

CAPÍTULO 5: MODELADO DEL IDS CON REDES NEURONALES

CAPÍTULO 5: MODELADO DEL IDS CON REDES NEURONALES Capítulo 5 Modelado y Simulación del IDS 35 CAPÍTULO 5: MODELADO DEL IDS CON REDES NEURONALES En este capítulo se describe la preparación de los datos para servir como entradas al IDS y la simulación de

Más detalles

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre: : : lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. 12 6 lemas propios de la. 12 6 lemas propios de la.

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

CAPITULO 6 SISTEMA DE DETECCION DE INTRUSOS

CAPITULO 6 SISTEMA DE DETECCION DE INTRUSOS Capitulo 6. Sistema de Detección de Intrusos con Redes Neuronales. 69 CAPITULO 6 SISTEMA DE DETECCION DE INTRUSOS USANDO REDES NEURONALES. En este capítulo se realiza la preparación adecuada de toda la

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Capítulo 1. Introducción. 1.1. Antecedentes

Capítulo 1. Introducción. 1.1. Antecedentes Capítulo 1. Introducción En este capítulo se presenta una descripción general del problema a investigar y el enfoque con el que se aborda. Se establece la necesidad de incorporar técnicas de análisis novedosas

Más detalles

Comparación de Modelos de Redes Neuronales Utilizados en Sistemas de Soporte de Decisiones

Comparación de Modelos de Redes Neuronales Utilizados en Sistemas de Soporte de Decisiones Comparación de Modelos de Redes Neuronales Utilizados en Sistemas de Soporte de Decisiones Broggi, Carlos Javier Goujon, Diego Javier Herrmann, Raúl Alberto Universidad Tecnológica Nacional, Facultad Regional

Más detalles

CAPÍTULO 4: ALGORITMOS DE APRENDIZAJE

CAPÍTULO 4: ALGORITMOS DE APRENDIZAJE Capítulo 4 Algoritmos de Aprendizaje 26 CAPÍTULO 4: ALGORITMOS DE APRENDIZAJE En este capítulo se proporcionan las descripciones matemáticas de los principales algoritmos de aprendizaje para redes neuronales:

Más detalles

TRATAMIENTO DE BASES DE DATOS CON INFORMACIÓN FALTANTE SEGÚN ANÁLISIS DE LAS PÉRDIDAS CON SPSS

TRATAMIENTO DE BASES DE DATOS CON INFORMACIÓN FALTANTE SEGÚN ANÁLISIS DE LAS PÉRDIDAS CON SPSS Badler, Clara E. Alsina, Sara M. 1 Puigsubirá, Cristina B. 1 Vitelleschi, María S. 1 Instituto de Investigaciones Teóricas y Aplicadas de la Escuela de Estadística (IITAE) TRATAMIENTO DE BASES DE DATOS

Más detalles

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Álvaro J. Méndez Services Engagement Manager IBM SPSS / Profesor Econometría UAM Jecas, 22 Oct 2010 Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Business Analytics software Agenda Minería

Más detalles

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 5: Redes Neuronales

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 5: Redes Neuronales MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 5: Redes Neuronales 1 Objetivos del tema Conocer las limitaciones de los modelos lineales en problemas de modelización/ clasificación.

Más detalles

Minería de datos (Introducción a la minería de datos)

Minería de datos (Introducción a la minería de datos) Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 14-I. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 24

Más detalles

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión.

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión. TEMA 9 TÉCNICAS DE INTELIGENCIA ARTIFICIAL PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE 9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de

Más detalles

UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO CENTRO UNIVERSITARIO UAEM ATLACOMULCO REPORTE DE INVESTIGACION

UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO CENTRO UNIVERSITARIO UAEM ATLACOMULCO REPORTE DE INVESTIGACION UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO CENTRO UNIVERSITARIO UAEM ATLACOMULCO REPORTE DE INVESTIGACION Qué es el momento en una red backpropagation? U.A. REDES NEURONALES INTEGRANTES: JESUS BARRIOS CRESCENCIO

Más detalles

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1 ÍNDICE Introducción... XV Capítulo 1. El concepto de Data Mining... 1 Introducción... 1 Una definición de Data Mining... 3 El proceso de Data Mining... 6 Selección de objetivos... 8 La preparación de los

Más detalles

Estudio comparativo de los currículos de probabilidad y estadística español y americano

Estudio comparativo de los currículos de probabilidad y estadística español y americano Estudio comparativo de los currículos de probabilidad y estadística español y americano Jaldo Ruiz, Pilar Universidad de Granada Resumen Adquiere las mismas capacidades en Probabilidad y Estadística un

Más detalles

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Emmanuel Anguiano-Hernández Abril 29, 2009 Abstract Tratando de mejorar el desempeño de un clasificador Naive

Más detalles

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) Autor: Lic. Manuel Ernesto Acosta Aguilera Entidad: Facultad de Economía, Universidad de La Habana Dirección: Edificio

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

TEMA 9: Desarrollo de la metodología de Taguchi

TEMA 9: Desarrollo de la metodología de Taguchi TEMA 9: Desarrollo de la metodología de Taguchi 1 La filosofía de la calidad de Taguchi 2 Control de calidad Off Line y On Line Calidad Off Line Calidad On Line 3 Función de pérdida 4 Razones señal-ruido

Más detalles

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productivity in Construction Companies: Knowledge acquired from the databases Hernando Camargo Mila, Rogelio Flórez

Más detalles

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo 1 Algoritmos de minería de datos incluidos en SQL Server 2008 Los algoritmos que aquí se presentan son: Árboles de decisión de Microsoft, Bayes naive de Microsoft, Clústeres de Microsoft, Serie temporal

Más detalles

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS Por qué es importante la Minería de Datos? 2 La Minería de Datos es un proceso que permite obtener conocimiento a partir de los datos

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Introducción a Las redes Neuronales (Neurales) CO-6612

Introducción a Las redes Neuronales (Neurales) CO-6612 Introducción a Las redes Neuronales (Neurales) CO-662 Coordenadas iniciales: Prof. Minaya Villasana Oficina: CBI-2 Extension: 906 3386 forma más fácil (preferida) de contacto: mvillasa@usb.ve Bibliografia:

Más detalles

Las Matemáticas En Ingeniería

Las Matemáticas En Ingeniería Las Matemáticas En Ingeniería 1.1. Referentes Nacionales A nivel nacional se considera que el conocimiento matemático y de ciencias naturales, sus conceptos y estructuras, constituyen una herramienta para

Más detalles

Regresión Polinomial y Regresión Logística

Regresión Polinomial y Regresión Logística MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 1 Regresión Polinomial y Regresión Logística M.L. Gámiz Pérez Departamento Estadística e Inv. Operativa

Más detalles

En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del

En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del 33 En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del sistema de procesamiento de imágenes para controlar un robot manipulador y se describen en la forma como serán

Más detalles

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales Elkin García, Germán Mancera, Jorge Pacheco Presentación Los autores han desarrollado un método de clasificación de música a

Más detalles

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source Inteligencia Artificial y Seguridad Informática en plataformas Open Source Jornadas de Software Libre y Seguridad Informática Santa Rosa La Pampa 4 y 5 de Diciembre de 2009 AGENDA Primera Parte Definiciones

Más detalles

OPTATIVA I: MINERIA DE DATOS

OPTATIVA I: MINERIA DE DATOS UNIVERSIDAD AUTÓNOMA DE CHIHUAHUA Clave: 08MSU007H Clave: 08USU4053W FACULTAD DE INGENIERÍA PROGRAMA DEL CURSO: OPTATIVA I: MINERIA DE DATOS DES: Programa(s) Educativo(s): Tipo de materia: Clave de la

Más detalles

APOYO PARA LA TOMA DE DECISIONES

APOYO PARA LA TOMA DE DECISIONES APOYO PARA LA TOMA DE DECISIONES Cátedra: Gestión de Datos Profesor: Santiago Pérez Año: 2006 Bibliografía: Introducción a las Bases de Datos. DATE - 1 - 1. INTRODUCCION APOYO PARA LA TOMA DE DECISIONES

Más detalles

Cómo obtener un Modelo de Regresión Logística Binaria con SPSS

Cómo obtener un Modelo de Regresión Logística Binaria con SPSS Universitat de de Barcelona. Institut de de Ciències de de l Educació Cómo obtener un Modelo de Regresión Logística Binaria con SPSS Vanesa Berlanga-Silvente y Ruth Vilà-Baños Fecha de presentación:

Más detalles

Data & Text Mining. III Reunión de la RedDES(GT de Tecnología de la BVS6) Exponentes:

Data & Text Mining. III Reunión de la RedDES(GT de Tecnología de la BVS6) Exponentes: Data & Text Mining Exponentes: - Dr. Jorge Bacallao Guerra - Ing. Ramón Martinez - Ing. José Villanueva Agosto del 2012 Introducción o Porqué es necesario utilizar data mining o Que ésdata miningy qué

Más detalles

Enfoque propuesto para la detección del humo de señales de video.

Enfoque propuesto para la detección del humo de señales de video. Capítulo 3 Enfoque propuesto para la detección del humo de señales de video. 3.1 Comportamiento del enfoque propuesto. Una visión general del método propuesto se muestra en la figura 2. El método genera

Más detalles

OLAP y Minería de Datos: Introducción

OLAP y Minería de Datos: Introducción OLAP y Minería de Datos: Introducción Carlos Hurtado L. churtado@dcc.uchile.cl Departamento de Ciencias de la Computación Universidad de Chile OLAP y Minería de Datos: Introducción, DCC, U. de Chile, 2do

Más detalles

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata v.1.0 Clase 5 Docente: Gustavo Valencia Zapata Temas Clase 5: Conceptos de Minería de Datos Herramientas de DM Referencias Minería de datos Proceso de DM www.gustavovalencia.com Minería de datos La minería

Más detalles

Minería de Datos. Preprocesamiento: Reducción de Datos - Discretización

Minería de Datos. Preprocesamiento: Reducción de Datos - Discretización Minería de Datos Preprocesamiento: Reducción de Datos - Discretización Dr. Edgar Acuña Departamento de Ciencias Matemáticas Universidad de Puerto Rico-Mayaguez E-mail: edgar.acuna@upr.edu, eacunaf@gmail.com

Más detalles

Introducción a Sistemas de Información Geográfica (Resumen)

Introducción a Sistemas de Información Geográfica (Resumen) Introducción a Sistemas de Información Geográfica (Resumen) Existen términos que creemos exclusivos de los sistemas GIS, pero que anteriormente han sido acuñados por grandes personajes, como es el caso

Más detalles

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. 2.1 Revisión sistema reconocimiento caracteres [9]: Un sistema de reconocimiento típicamente esta conformado por

Más detalles

Aprendizaje Automatizado. Redes Neuronales Artificiales

Aprendizaje Automatizado. Redes Neuronales Artificiales Aprendizaje Automatizado Redes Neuronales Artificiales Introducción Una forma de emular características propias de los humanos: memorizar y asociar hechos. Se aprende de la experiencia. El cerebro humano

Más detalles

Finanzas e Investigación de Mercados"

Finanzas e Investigación de Mercados DIPLOMATURA: "Análisis de Datos para Negocios, Finanzas e Investigación de Mercados" Seminario: Introducción a Data Mining y Estadística Dictado: Sábado 13, 20,27 de Abril, 04 de Mayo en el horario de

Más detalles

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Verónica Escobar González, Claudio Barrientos Ochoa, Sergio Barrientos Ochoa, Dirección de Modelamiento Geometalúrgico

Más detalles

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos Published on Dataprix (http://www.dataprix.com) Principal > Artículos de Minería de Datos de Dataprix By Dataprix Created 26/12/2009-17:13 Artículos de Minería de Datos de Dataprix Introducción a la minería

Más detalles

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) OFERTAS TECNOLÓGICAS 1) GESTIÓN ORGANIZACIONAL Y LOGÍSTICA INTEGRADA: TÉCNICAS Y SISTEMAS DE INFORMACIÓN 2) GESTIÓN

Más detalles

Repaso de conceptos. Tipos de RNA más utilizados. Técnicas de Clasificación con RNA. Contenido

Repaso de conceptos. Tipos de RNA más utilizados. Técnicas de Clasificación con RNA. Contenido Contenido Introducción al Diseño de Experimentos para el Reconocimiento de Patrones Capítulo 3: Redes Neuronales Artificiales Curso de doctorado impartido por Dr. Quiliano Isaac Moro Dra. Aranzazu Simón

Más detalles

Habilidades y Herramientas para trabajar con datos

Habilidades y Herramientas para trabajar con datos Habilidades y Herramientas para trabajar con datos Marcelo Ferreyra X Jornadas de Data Mining & Business Intelligence Universidad Austral - Agenda 2 Tipos de Datos Herramientas conceptuales Herramientas

Más detalles

Aplicación de los modelos de credit scoring para instituciones microfinacieras.

Aplicación de los modelos de credit scoring para instituciones microfinacieras. Econ. Reynaldo Uscamaita Huillca Aplicación de los modelos de credit scoring para instituciones microfinacieras. OBJETIVO Proporcionar al ejecutivo del sistema financiero un modelo solido que permita tomar

Más detalles

Redes de Kohonen y la Determinación Genética de las Clases

Redes de Kohonen y la Determinación Genética de las Clases Redes de Kohonen y la Determinación Genética de las Clases Angel Kuri Instituto Tecnológico Autónomo de México Octubre de 2001 Redes Neuronales de Kohonen Las Redes de Kohonen, también llamadas Mapas Auto-Organizados

Más detalles

2. CLASIFICACIÓN DE LA ACTIVIDAD CURRICULAR, FORMACIÓN PRÁCTICA Y CARGA HORARIA

2. CLASIFICACIÓN DE LA ACTIVIDAD CURRICULAR, FORMACIÓN PRÁCTICA Y CARGA HORARIA CÓDIGO ASIGNATURA 1131-3 DEPARTAMENTO: Ingeniería e Investigaciones Tecnológicas ASIGNATURA: DATA MINING y DATA WAREHOUSE Plan 2009 Ingeniería en Informática Año: 5 (Electiva - Ingeniería de Software)

Más detalles

Aplicación de Redes bayesianas usando Weka.

Aplicación de Redes bayesianas usando Weka. Aplicación de Redes bayesianas usando Weka. Cynthia Lorena Corso 1, Fabian Gibellini 1 1 Universidad Tecnológica Nacional, Facultad Regional Córdoba Laboratorio de Sistemas de Información Maestro M. López

Más detalles

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez Curso de Análisis de investigaciones con programas Informáticos 1 UNIVERSIDAD DE JAÉN Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

Botón menú Objetivo de la Minería de datos.

Botón menú Objetivo de la Minería de datos. Titulo de Tutorial: Minería de Datos N2 Botón menú: Introducción. Las instituciones y empresas privadas coleccionan bastante información (ventas, clientes, cobros, pacientes, tratamientos, estudiantes,

Más detalles

KDD y MD. Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA 2005. Juan Pedro Febles KDD y MD

KDD y MD. Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA 2005. Juan Pedro Febles KDD y MD KDD y MD Dr. Juan Pedro Febles Rodríguez BIOINFO febles@bioinfo.cu http://www.bioinfo.cu CITMA 2005 Temas a tratar Algunos antecedentes académicos. El proceso de descubrimiento de conocimientos en Datos

Más detalles

IBM SPSS Decision Trees

IBM SPSS Decision Trees IBM Software IBM SPSS Statistics 19 IBM SPSS Decision Trees Identifique grupos y pronostique resultados con facilidad Funciones destacadas Con IBM SPSS Decision Trees podrá: Crear árboles de clasificación

Más detalles

TEMA 1. Introducción

TEMA 1. Introducción TEMA 1. Introducción Francisco José Ribadas Pena, Santiago Fernández Lanza Modelos de Razonamiento y Aprendizaje 5 o Informática ribadas@uvigo.es, sflanza@uvigo.es 28 de enero de 2013 1.1 Aprendizaje automático

Más detalles

Capítulo 1. Minería de datos: Conceptos, técnicas y sistemas...

Capítulo 1. Minería de datos: Conceptos, técnicas y sistemas... , INDICE Introducción, ; XVII Capítulo 1. Minería de datos: Conceptos, técnicas y sistemas... Aproximación al concepto de minería de datos... El proceso de extracción del conocimiento... Técnicas de minería

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado

Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado 1. Introducción Unified Modeling Languaje Fuente: Booch- Jacobson-Rumbauch y diversos sitios Internet, entre otros:

Más detalles

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos V - ESTIMACION PUNTUAL E INTERVALOS DE CONFIANZA. 5.1 Introducción

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos V - ESTIMACION PUNTUAL E INTERVALOS DE CONFIANZA. 5.1 Introducción V - ESTIMACION PUNTUAL E INTERVALOS DE CONFIANZA 5.1 Introducción En este capítulo nos ocuparemos de la estimación de caracteristicas de la población a partir de datos. Las caracteristicas poblacionales

Más detalles

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT REACCIONES ADVERSAS DE LOS MEDICAMENTOS Los fármacos por naturaleza

Más detalles

Capítulo 12: Indexación y asociación

Capítulo 12: Indexación y asociación Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación

Más detalles

Notas. Modelo conceptual para el diseño e implementación del sitio web de un museo regional * Resumen. 1. Introducción y formulación del problema

Notas. Modelo conceptual para el diseño e implementación del sitio web de un museo regional * Resumen. 1. Introducción y formulación del problema Notas Modelo conceptual para el diseño e implementación del sitio web de un museo regional * Resumen El presente artículo propone el modelo conceptual para la creación de un sitio Web de un museo regional

Más detalles

Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides

Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides Introducción La visión artificial, también conocida como visión por computador

Más detalles

REDES AUTOORGANIZATIVAS II

REDES AUTOORGANIZATIVAS II Tema 5: Redes Autoorganizativas Sistemas Conexionistas 1 REDES AUTOORGANIZATIVAS II 1. Leyes de Grossberg. 1.1. Red de Contrapropagación. - Estructura. - Funcionamiento. - Limitaciones y Ventajas. 2. Teoría

Más detalles

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Amaro Camargo Erika, Reyes García Carlos A. Instituto Nacional de Astrofísica, Óptica

Más detalles

Resumen. 1.1 Knowledge discovery in databases

Resumen. 1.1 Knowledge discovery in databases KDD (Knowledge Discovery in Databases): Un proceso centrado en el usuario Héctor Oscar Nigro, Daniel Xodo, Gabriel Corti, Damián Terren INCA/INTIA - Departamento de Computación y Sistemas Facultad de Ciencias

Más detalles

Modelos de regresión: lineal simple y regresión logística

Modelos de regresión: lineal simple y regresión logística 14 Modelos de regresión: lineal simple y regresión logística Irene Moral Peláez 14.1. Introducción Cuando se quiere evaluar la relación entre una variable que suscita especial interés (variable dependiente

Más detalles

CLASIFICACIÓN DE SEÑALES ELECTROMIOGRÁFICAS (EMG) PARA UNA PRÓTESIS DE MANO CARLOS MARIO BELALCÁZAR SANDOVAL ZULLY VIVIANA RENGIFO VARILA

CLASIFICACIÓN DE SEÑALES ELECTROMIOGRÁFICAS (EMG) PARA UNA PRÓTESIS DE MANO CARLOS MARIO BELALCÁZAR SANDOVAL ZULLY VIVIANA RENGIFO VARILA CLASIFICACIÓN DE SEÑALES ELECTROMIOGRÁFICAS (EMG) PARA UNA PRÓTESIS DE MANO CARLOS MARIO BELALCÁZAR SANDOVAL ZULLY VIVIANA RENGIFO VARILA UNIVERSIDAD DEL CAUCA FACULTAD DE INGENIERÍA ELECTRÓNICA Y TELECOMUNICACIONES

Más detalles

IBM SPSS Modeler Professional

IBM SPSS Modeler Professional IBM SPSS Modeler Professional Características Cree estrategias más efectivas evaluando tendencias y resultados Acceda, prepare y cree modelos de datos estructurados fácilmente con este conjunto de programas

Más detalles

Objetivos Generales. Objetivos específicos. Que el estudiante:

Objetivos Generales. Objetivos específicos. Que el estudiante: ASIGNATURA: MÉTODOS NUMPERICOS I (ANÁLISIS Y PROCESAMIENTO DE LOS DATOS EXPERIMENTALES CON INTRODUCCIÓN A LA COMPUTACIÓN) Objetivos Generales Comprender y manejar los conceptos relacionados con el manejo,

Más detalles

Minería de datos para la determinación del grado de exclusión social

Minería de datos para la determinación del grado de exclusión social Minería de datos para la determinación del grado de exclusión social Data mining to determine the degree of social exclusion * Jorge Enrique Rodríguez Rodríguez Fecha de recepción: 23 de agosto de 2008

Más detalles

Capítulo 3. 3. Marco Teórico.

Capítulo 3. 3. Marco Teórico. Capítulo 3 3. Marco Teórico. La visión artificial o visión por computador se define como un área multidisciplinar que pretende, en cierta medida, reproducir artificialmente el sentido de la vista mediante

Más detalles

MATERIAL DE APOYO CASO PRÁCTICO SISTEMA INTEGRAL PARA LA PROYECCION Y DETECCION DE LA PREVENCION DEL DELITO, MEDIANTE MINERIA DE DATOS.

MATERIAL DE APOYO CASO PRÁCTICO SISTEMA INTEGRAL PARA LA PROYECCION Y DETECCION DE LA PREVENCION DEL DELITO, MEDIANTE MINERIA DE DATOS. MATERIAL DE APOYO CASO PRÁCTICO SISTEMA INTEGRAL PARA LA PROYECCION Y DETECCION DE LA PREVENCION DEL DELITO, MEDIANTE MINERIA DE DATOS. PRESENTA MTIE. Erik Guerrero Bravo. Tula de Allende Hidalgo Septiembre

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Weka como herramienta de data mining

Weka como herramienta de data mining Weka como herramienta de data mining Lic. Aldave Rojas Isaac Alberto Instituto Tecnológico Superior de Ciudad Serdán Abstract El presente trabajo muestra un ejemplo introductorio a la herramienta de Data

Más detalles

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de CAPITULO 4 JUSTIFICACION DEL ESTUDIO En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de estudios previos y los alcances que justifican el presente estudio. 4.1. Justificación.

Más detalles

Universidad del CEMA Master en Finanzas 2006

Universidad del CEMA Master en Finanzas 2006 Universidad del CEMA Master en Finanzas 2006 La Simulación como una herramienta para el manejo de la incertidumbre Fabián Fiorito ffiorito@invertironline.com Tel.: 4000-1400 Hoy en día la simulación es

Más detalles

Técnicas Multivariadas Avanzadas

Técnicas Multivariadas Avanzadas Regresión lineal Universidad Nacional Agraria La Molina 2014-2 Regresión lineal Regresión lineal simple Estimando los coecientes Evaluando la precisión de los coecientes estimados Evaluando la precisión

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles