CAPÍTULO 2. MINERÍA DE DATOS ESPACIALES
|
|
|
- Sebastián Silva Blanco
- hace 9 años
- Vistas:
Transcripción
1 CAPÍTULO 2. MINERÍA DE DATOS ESPACIALES En este capítulo se presentan conceptos generales y trabajos relacionados del proceso de descubrimiento de conocimientos en bases de datos espaciales ó minería de datos espaciales, y se describen dos metodologías para la minería de datos en bases de datos espaciales y dos algoritmos para minería de datos espaciales basados en técnicas de agrupamiento. Se describen estos dos algoritmos ya que sirvieron de modelo para desarrollar nuestra propia minería de datos a través de la implementación del algoritmo de agrupamiento PAM [17] para realizar minería de datos espaciales, y el uso del sistema SUBDUE [39] para realizar minería de datos no espaciales. 2.1 Descubrimiento de conocimiento en BD espaciales. Junas Adhikary en su artículo [1], nos presenta una visión general de la minería de datos espaciales. En primer término define los conceptos básicos del área, comenta la importancia que ha tomado la minería de datos en la actual era de la información, y vislumbra futuras direcciones. La autora clasifica los métodos de la minería de datos espaciales en cinco grupos (figura 2.1). 18
2 Métodos para el descubrimiento de conocimiento en base de datos espaciales Métodos basados en generalización Métodos de reconocimiento de patrones Métodos usando agrupamiento Métodos explorando asociaciones espaciales Métodos usando aproximación y agregación Figura 2.1 Métodos para el descubrimiento de conocimiento en base de datos espaciales. Los métodos basados en generalización requieren la implementación de jerarquías de conceptos, en el caso de las base de datos espaciales estas jerarquías pueden ser temáticas ó espaciales. Una jerarquía temática puede ser ejemplificada al generalizar mango y piña a frutas. Una jerarquía espacial puede ser ejemplificada generalizando varios puntos en un mapa como una región y un grupo de regiones como un país. Los métodos de reconocimiento de patrones pueden ser usados para realizar reconocimientos y categorizaciones automáticas de fotografías, imágenes, y textos, entre otros. Los métodos usando agrupamiento son utilizados para crear agrupaciones o asociaciones de datos, cuando en éstos existan nociones de similaridad (por ejemplo, distancia Euclidiana). Los métodos explorando asociaciones espaciales permiten descubrir reglas de asociación espaciales, esto es, reglas que asocien uno ó más objetos espaciales con otro ú otros objetos espaciales (X Y, donde X y Y son un conjunto de predicados 19
3 espaciales ó no espaciales). Los métodos que utilizan aproximación y agregación permiten descubrir conocimiento en base a las características representativas del conjunto de datos. 2.2 Algoritmos de agrupamiento. Erica Kolatch en su artículo [18] plantea definiciones sobre datos espaciales, bases de datos espaciales, minería de datos ó descubrimiento de conocimiento en base de datos. Una de los puntos más significativos del artículo es el esquema que presenta sobre los algoritmos de agrupamiento (figura 2.2) y las relaciones entre ellos. La autora agrupa los algoritmos en tres grupos: Partitional, Hierarchical y Locality. En el primer grupo incluye a los algoritmos que crean particiones de los datos de tal forma que los objetos en una partición (cluster) sean más similares entre sí que a otros objetos de otras particiones. El agrupamiento jerárquico realiza una secuencia de operaciones de agrupamiento. Estas pueden ser realizadas de forma bottom-up ó top-down. En el último grupo se encuentran los algoritmos que agrupan objetos en base a una relación de ubicación ó localidad. Algunos algoritmos de este tipo se basan en la densidad, mientras otros asumen una distribución aleatoria. A continuación se comentan los algoritmos: PAM [17] (Partitioning Around Medoids) usa k-medoid para identificar agrupamientos, trabaja bien en bases de datos pequeñas, pero es lento en grandes. Esto originó el desarrollo de CLARA [17]. CLARA (Clustering Large Applications) crea múltiples muestras de los datos y entonces aplica PAM a la muestra. Uno de los primeros algoritmos de agrupamiento diseñado específicamente para base de datos espaciales fue CLARANS [26], el cual usa el método de agrupamiento k-medoid. CLARANS fue seguido por DBSCAN 20
4 [8], un algoritmo basado en la localización, dependiente de la densidad de objetos para crear agrupaciones. DBCLASD [43] también es un algoritmo basado en la localización, pero permite la distribución aleatoria de los puntos. Otros algoritmos basados en la densidad o localización son STING [40], una mejora de DBSCAN, WaveCluster [38] y DENCLUE [13]. BIRCH [44], CURE [12] y CLIQUE [2] son algoritmos híbridos que hacen uso de técnicas de jerarquías y agrupación de objetos similares. Estos trabajos serán descritos en más detalle en las secciones siguientes. Algoritmos de agrupamiento Partitional Herarchical Locality K-Medoid K-Means Bottom-Up Top-Down Density-based Random Distribution PAM/CLARA CLARANS Grid-Based DBSCAN DBCLASD STING BIRCH CURE DENCLUE WaveCluster CLIQUE STING+ MOSAIC Figura 2.2 Algoritmos de agrupamiento [18]. 21
5 2.3 Conceptos generales. Los datos espaciales son aquellos datos que ocupan espacio. Estos están siendo recopilados continuamente por diversos tipos de aplicaciones tales como los Sistemas de Información Geográfica y cartografía computarizada. En consecuencia, el análisis de estos datos mediante técnicas manuales es en ocasiones una tarea complicada y difícil dado el volumen de datos. Para solucionar este problema, diversos métodos han sido propuestos y aplicados para descubrir conocimiento en datos espaciales, entre éstos encontramos técnicas de aprendizaje máquina, tecnología de base de datos y estadística. La minería de datos, en términos generales, es la búsqueda de patrones que pudiesen existir en bases de datos [26]. Minería de datos espaciales es el descubrimiento de conocimiento implícito y previamente desconocido en base de datos espaciales [9]. El conocimiento a ser descubierto en los datos espaciales puede ser de varios tipos, como características representativas, estructuras o agrupamientos, asociaciones espaciales, solamente por mencionar algunos. Los métodos de minería de datos espaciales son aplicados para extraer conocimiento interesante y regular. Estos métodos pueden ser usados para entender los datos espaciales, descubrir relaciones entre datos espaciales y no espaciales, reorganizar los datos en bases de datos espaciales y determinar sus características generales de manera simple y concisa. 22
6 2.4 Métodos para el descubrimiento de conocimiento en base de datos espaciales. Los datos geográficos en general contienen datos temáticos y espaciales [1]. Los datos temáticos son datos alfanuméricos relacionados a objetos espaciales. Los datos espaciales, por otro lado, se describen usando dos diferentes propiedades: geometría y topología. De acuerdo a [1], las propiedades geométricas pueden ser la localización espacial y tamaño; mientras que ejemplos de propiedades topológicas pueden ser adyacente a (el objeto A está a la derecha del objeto B) e inclusión (el objeto A está incluido en el objeto B). De esta manera los métodos para el descubrimiento de conocimiento pueden enfocarse en las propiedades temáticas y/o espaciales de los objetos geométricos en una base de datos espaciales Descubrimiento de conocimiento basado en generalización. Uno de los métodos efectivos para el descubrimiento de conocimiento ha sido el aprendizaje a partir de técnicas de muestreo y generalización. Fue introducido por la comunidad de aprendizaje máquina y ha sido empleado en algoritmos de este tipo [23]. Este enfoque no ha sido directamente empleado en las bases de datos espaciales por las razones siguientes [1]:?? Los algoritmos son exponenciales en el número de muestras.?? No manejan de manera efectiva la inconsistencia en los datos. 23
7 El descubrimiento de conocimiento basado en la generalización requiere jerarquías de conceptos. En el caso de las bases de datos espaciales se pueden manejar dos tipos, temáticos y espaciales. Un ejemplo del primer tipo es la jerarquía que establece que mango y pera pueden ser generalizados a frutas; en el segundo caso se podrían generalizar ciertos puntos geográficos como región o zona Métodos usando agrupamiento. El análisis de clusters es una rama de la estadística; la principal ventaja de usar esta técnica es la factibilidad de encontrar agrupamientos (clusters) directamente en los datos sin usar ningún conocimiento previo, similar al aprendizaje no supervisado usado en el aprendizaje máquina. Por tal motivo, es factible su uso en los procesos de minería de datos espaciales [26]. Sin embargo, tomar estas técnicas e integrarlas a los algoritmos de minería de datos no siempre produce resultados satisfactorios. Para que las técnicas de análisis de clusters sean eficientes debe existir algún tipo de similitud entre los datos. Diversos investigadores proponen su uso en datos espaciales, ya que en éstos, existen nociones de similitud, tal como la distancia Euclidiana o Manhattan. A continuación se presentan los algoritmos de agrupamiento PAM y CLARA desarrollados por Kaufman y Rousseeuw [17] y el CLARANS desarrollado por Ng y Han [26] basado en los dos primeros. 24
8 PAM (Partitioning Around Medoids). Para encontrar k clusters (agrupamientos), el modelo PAM determina un objeto representativo para cada cluster. Este objeto representativo, llamado medoid, es el que se encuentra localizado más al centro dentro del cluster. Una vez que los medoids han sido seleccionados, cada objeto no seleccionado es agrupado con el medoid al cual es más similar. Más preciso, si O j es un objeto no seleccionado, y O i es un medoid (objeto seleccionado), se dice que O j pertenece al cluster representado por O i, si d(o j,o i ) = min oe d(o j,o e ), donde la notación min oe denota el mínimo sobre todos los medoids O e, y la notación d(oa,ob) denota la disimilaridad o distancia entre los objetos Oa y Ob. Todos los valores de disimilaridad son dados como datos de entrada al PAM. Para encontrar los k medoids, PAM comienza con una selección arbitraria de k objetos. En cada iteración, un intercambio entre un objeto seleccionado O i y un objeto no seleccionado O h es realizado, si y solo sí, el intercambio resulta en un incremento de la calidad del agrupamiento (clustering). En particular, para calcular el efecto del intercambio entre Oi y O h, PAM calcula el costo C jih para todos los objetos no seleccionados O j. Dependiendo en cuál de los siguientes casos se encuentre O j, C jih es definido por una de las ecuaciones siguientes: Caso 1: Suponiendo que O j pertenece actualmente al cluster representado por O i, Además, asumiendo que O j es más similar a O j,2 que a O h, (d(o j,o h )? d(o j,o j,2 ), donde O j,2 es el segundo medoid más similar a Oj. Entonces, si Oi es reemplazado por Oh como un medoid, 25
9 O j pertenecería al cluster representado por O j,2. De esta manera el costo del intercambio es dado por: Cjih = d(oj,oj,2) d(oj,oi) Esta ecuación siempre da un valor no negativo C jih, indicando que no existe un costo negativo incurrido al reemplazar O i por O h. Un ejemplo es mostrado en la figura 2.3. Supongamos que d(o j,o j,2 ) = 6 y d(o j,o i ) = 2, entonces el valor C jih = 6 2 = 4. O h 8 O j,2 6 O i 2 O j Figura 2.3 Cálculo de C jih, caso 1. Caso 2: Oj pertenece actualmente al cluster representando por Oi. Pero esta vez, Oj es menos similar a O j,2 que a O h, (d(o j,o h ) < d(o j,o j,2 ). Entonces, si O i es reemplazado por O h, O j pertenecería al cluster representado por O h. De esta manera el costo es dado por: C jih = d(o j,o h ) d(o j,o i ) A diferencia de la ecuación en el caso 1, C jih puede ser positivo o negativo, dependiendo si O j es más similar a O i, ó a O h. Un ejemplo es mostrado en la figura 2.4. Supongamos que O j 26
10 es más similar a O i, d(o j,o h ) = 6 y d(o j,o i ) = 2, entonces el valor C jih = 6 2 = 4. Por el contrario si O j fuese más similar a O h, d(o j,o h ) = 1 y d(o j,o i ) = 2, entonces el valor C jih = 1 2 = -1. O j,2 8 O h 6 O i 2 O j 1 O h Figura 2.4 Cálculo de Cjih, caso 2. Caso 3: Suponiendo que O j pertenece actualmente a un cluster diferente al representado por O i. Además, asumiendo que O j,2 es el objeto representativo de ese cluster y O j es más similar a O j,2 que a O h. Entonces aún si O i es reemplazado por O h, O j permanecería en el cluster representado por O j,2. De esta manera el costo es: Cjih = 0 Un ejemplo es mostrado en la figura 2.5. Supongamos que d(o j,o j,2 ) = 2, d(o j,o i ) = 6 y d(o j,o h ) = 8, entonces el valor C jih = 0. 27
11 O h 8 O i 6 O j,2 2 O j Figura 2.5 Cálculo de C jih, caso 3. Caso 4: O j pertenece actualmente al cluster representado por O j,2. Pero O j es menos similar a O j,2 que a O h. Entonces reemplazando O i por O h causaría que O j saltara al cluster representado por O h desde el cluster O j,2. De esta manera el costo es dado por: C jih = d(o j,o h ) d(o j,o j,2 ) Este costo siempre es negativo. Un ejemplo es mostrado en la figura 2.6. Supongamos que d(o j,o h ) = 2 y d(o j,o j,2 ) = 8, entonces el valor C jih = 2 8 = -6. O j,2 8 O i 6 O h 2 O j Figura 2.6 Cálculo de C jih, caso 4. 28
12 Combinando los cuatro casos, el costo total de reemplazar O i por O h es dado por: TC ih =? j C jih Algoritmo: 1. Seleccionar k objetos representativos de forma aleatoria. 2. Calcular TC ih para todos los pares de objetos O i,o h donde O i está actualmente seleccionado, y O h no lo está. 3. Seleccionar el par O i,o h el cual corresponde a min Oi,Oh TC ih. Si el mínimo TC ih es negativo, reemplazar O i por O h, y regresar al paso (2). 4. De lo contrario, para cada objeto no seleccionado, encontrar el objeto representativo más similar. 5. Terminar CLARA (Clustering LARge Applications). La diferencia entre PAM y CLARA es que el segundo se basa en muestreos. Solo una pequeña porción de los datos totales es seleccionada como representativa de los datos y los medoids son escogidos de la muestra usando PAM. La intuición es que si la muestra es seleccionada de manera aleatoria, entonces es representativa del conjunto total de datos, y los objetos representativos escogidos (medoids), serán similares tal y como si hubieran sido escogidos del conjunto total de datos. A continuación se presenta el algoritmo CLARA con n muestras de tamaño t: 29
13 Algoritmo: 1. Para i = 1 hasta n, repetir los siguientes pasos: 2. Seleccionar una muestra de t objetos de forma aleatoria del conjunto total de datos, y llamar al algoritmo PAM para encontrar k medoids de la muestra. 3. Para cada objeto O j del conjunto total de datos, determinar cuál de los k medoids es el más similar a O j. 4. Calcular la disimilaridad promedio del agrupamiento obtenido en el paso anterior. Si este valor es menor al mínimo actual, usar este valor como el mínimo actual y retener los k medoids encontrados en el paso (2) como el mejor conjunto de medoids obtenidos. 5. Retornar al paso (1) para comenzar la próxima iteración CLARANS (Clustering Large Applications based upon RANdomized Search). Es una mezcla de PAM y CLARA. Las búsquedas las realiza sobre un subconjunto del conjunto de datos y no se confina a ninguna muestra. Mientras CLARA tiene una muestra fija en cada etapa de la búsqueda, CLARANS forma una muestra aleatoria en cada etapa de la búsqueda. Algoritmo: 1. Dar como datos de entrada los parámetros numlocal y maxneighbor. Inicializar i a 1, y mincost a un número mayor. 2. Establecer current a un nodo arbitrario en G n,k. 3. Establecer j a 1. 30
14 4. Considerar un vecino aleatorio S de current, y basado en la ecuación (5), calcular el costo diferencial de los 2 nodos. 5. Si S tiene un costo menor, establecer current a S, e ir al paso (3). 6. De lo contrario, incrementar j en 1. Si j? maxneighbor, ir al paso (4). 7. De lo contrario, cuando j > maxneighbor, comparar el costo de current con mincost. Si éste es menor a mincost, establecer mincost al costo de current, y establecer bestnode a current. 8. Incrementar i en 1. Si i > numlocal, el resultado es bestnode y terminar. De lo contrario, ir al paso (2). 2.5 Minería de datos espaciales basada en algoritmos de agrupamiento. En este apartado se presentan dos algoritmos de minería de datos espaciales desarrollados por Kaufman y Rousseeuw [17]: Spatial Dominant Approach, SD (CLARANS), y Non- Spatial Dominant Approach, NSD (CLARANS). Ambos algoritmos se basan en el algoritmo de agrupamiento CLARANS, sin embargo, también es posible emplearlos con base en los algoritmos PAM y CLARA Spatial Dominant Approach: SD(CLARANS). Hay diferentes enfoques para la minería de datos espaciales. Una base de datos espacial consta de atributos espaciales y no espaciales, los atributos no espaciales son almacenados en relaciones. El enfoque general que aquí se plantea es el uso de algoritmos de 31
15 agrupamiento para trabajar con los atributos espaciales, y el empleo de otras herramientas de aprendizaje destinadas a los datos no espaciales. En el modelo original de SD y NSD, ambos algoritmos hacen uso de una herramienta denominada DBLEARN [6] para minería de datos con atributos no espaciales. Sus datos de entrada son datos relacionales, jerarquías de generalización para los atributos y una consulta de aprendizaje especificando los objetivos de la tarea de minería a implementar. A partir de solicitud de aprendizaje, DBLEARN primero extrae un conjunto de tuplas relevantes. Posteriormente basados en las jerarquías de generalización de los atributos, de forma iterativa generaliza las tuplas. Algoritmo: 1. Dada una solicitud de aprendizaje, encontrar el conjunto inicial de tuplas relevantes. 2. Aplicar CLARANS a los atributos espaciales para encontrar el número más natural Knat de clusters. 3. Para cada uno de los K nat clusters obtenidos: a. Agrupar los componentes no espaciales de las tuplas incluidas en el cluster actual. b. Aplicar DBLEARN a esta colección de componentes no espaciales. 32
16 2.5.2 Non-Spatial Dominant Approach: NSD(CLARANS). Los algoritmos dominantes espaciales, tales como SD (CLARANS), pueden verse como centrados asimétricamente en el descubrimiento de características no espaciales de clusters espaciales. Los algoritmos dominantes no espaciales, por el contrario, se centran en el descubrimiento de clusters espaciales existentes en grupos de datos no espaciales. Por ejemplo, estos algoritmos pueden lograr descubrimientos basados en el agrupamiento o distribución espacial. Más específicamente, a diferencia de los algoritmos dominantes espaciales, los algoritmos dominantes no espaciales primero aplican generalización no espacial, y después agrupamiento espacial. Algoritmo: 1. Dado una solicitud de aprendizaje, encuentra el conjunto inicial de tuplas relevantes. 2. Aplicar DBLEARN a los atributos no espaciales, hasta que el número final de tuplas generalizadas se encuentre bajo un cierto umbral. 3. Para cada tupla generalizada obtenida: a. Agrupar los componentes espaciales de las tuplas representadas por la tupla generalizada actual. b. Aplicar CLARANS para encontrar el número más natural K nat de clusters. 33
17 4. Para todos los clusters obtenidos, revisar si existen clusters que se intersectan o sobreponen. Si este es el caso, tales clusters pueden ser agrupados. Esto provoca que las correspondientes tuplas generalizadas sean combinadas. En este capítulo se presentaron conceptos generales de la minería de datos espaciales y trabajos relacionados. Se explicaron los algoritmos de agrupamiento PAM, CLARA y CLARANS, así como los algoritmos de minería basados en agrupamiento SD y NSD. En este proyecto, PAM es utilizado para aplicar minería de datos espaciales. En el capítulo siguiente se explicará el sistema SUBDUE, utilizado para aplicar minería de datos no espaciales. 34
1.1. Resumen. 1.2. Introducción. 1.3. Objetivos del resumen automático
1. RESUMEN AUTOMÁTICO 1.1. Resumen El objetivo de esta web es explicar en qué consiste el resumen automático de documentos y cómo es posible combinar técnicas de recuperación y organización de la información
Distribuciones muestrales. Distribución muestral de Medias
Distribuciones muestrales. Distribución muestral de Medias Algunas secciones han sido modificadas de: Apuntes de Estadística, Mtra Leticia de la Torre Instituto Tecnológico de Chiuhuahua TEORIA DEL MUESTREO
SIG. CIAF Centro de Investigación y Desarrollo en Información Geográfica. Fundamentos de Sistemas de Información Geográfica C U R S O.
Grupo SIG C U R S O Fundamentos de Sistemas de Información Geográfica UNIDAD 1 Generalidades de los Sistemas de Información Geográfica Tema 2 Conceptos básicos, definiciones y generalidades de los SIG
La estadística en Internet
5 La estadística en Internet Neus Canal Díaz 5.1. Introducción Actualmente, Internet se está convirtiendo en una de las principales fuentes de información en muchas áreas, como es la investigación científica.
La distribución t de student. O lo que es lo mismo: La relación entre la cerveza y los estudios de estadística
La distribución t de student O lo que es lo mismo: La relación entre la cerveza y los estudios de estadística La distribución t de student fue descubierta por William S. Gosset en 1908. Gosset era un estadístico
Optimización en Ingeniería
Optimización en Ingeniería Departamento de Computación CINVESTAV-IPN Av. IPN No. 2508 Col. San Pedro Zacatenco México, D.F. 07300 email: [email protected] Método de Búsqueda de Fibonacci Algoritmo
CÁLCULO DE SIGNIFICANCIA ESTADÍSTICA PARA RESULTADOS SIMCE
CÁLCULO DE SIGNIFICANCIA ESTADÍSTICA PARA RESULTADOS SIMCE SIMCE Unidad de Currículum y Evaluación Ministerio de Educación 011 Índice 1. Antecedentes Generales 1. Comparación de puntajes promedios.1. Errores
Estadística Descriptiva
Estadística Descriptiva 1 Sesión No. 3 Nombre: Estadística descriptiva Contextualización Parte fundamental de la Estadística es la organización de los datos, una forma de realizar esta organización es
D.2 ANÁLISIS ESTADÍSTICO DE LAS TEMPERATURAS DE VERANO
Anejo Análisis estadístico de temperaturas Análisis estadístico de temperaturas - 411 - D.1 INTRODUCCIÓN Y OBJETIVO El presente anejo tiene por objeto hacer un análisis estadístico de los registros térmicos
Predicción de la relación entre el género, la cantidad de cigarrillos y enfermedades usando Máquinas de Vector Soporte
Predicción de la relación entre el género, la cantidad de cigarrillos y enfermedades usando Máquinas de Vector Soporte Resumen En este trabajo se usó Máquinas de Vectores de Soporte (SVM, por sus siglas
3. Métodos clásicos de optimización lineal
3. Métodos clásicos de optimización lineal Uso del método Simplex El problema que pretende resolverse es un problema de optimización lineal sujeto a restricciones. Para el modelo construido para el problema
Introducción a la Geometría Computacional
Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas 8 de enero del 2013 Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Introducción a la GC 8 de enero del 2013 1 / 17 1 Introducción a la Geometría Computacional
MAPA INTERACTIVO DEL ÍNDICE DE DESARROLLO HUMANO (IDH) 2011
Geografía y Sistemas de Información Geográfica (GEOSIG). Revista digital del Grupo de Estudios sobre Geografía y Análisis Espacial con Sistemas de Información Geográfica (GESIG). Programa de Estudios Geográficos
Utiliza los números ordinales al resolver problemas planteados de manera oral.
T G CONTENIDOS APRENDIZAJES ESPERADOS ESTÁNDARES 1.2.1 Identificación y uso de los números ordinales para colocar objetos o para indicar el lugar que ocupan dentro de una colección de hasta 10 elementos.
NORMA INFORMACIÓN Y DOCUMENTACIÓN. FORMATOS PARA EL INTERCAMBIO DE LA INFORMACIÓN. International Standard ISO 2709. 1 Campo de aplicación
NORMA En esta Sección se incluyen los proyectos de normas españolas relativas a Información y Documentación, durante el período en que están sometidas a la preceptiva información pública. En este número
Práctica 2 Métodos de búsqueda para funciones de una variable
Práctica 2 Métodos de búsqueda para funciones de una variable Introducción Definición 1. Una función real f se dice que es fuertemente cuasiconvexa en el intervalo (a, b) si para cada par de puntos x 1,
Explorando la ecuación de la recta pendiente intercepto
Explorando la ecuación de la recta pendiente intercepto Realiza las siguientes actividades, mientras trabajas con el tutorial. 1. Los puntos que están en la misma recta se dice que son. 2. Describe el
TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING
TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla
Tesis Doctoral. Título: RESUMEN
Revista de Teledetección. ISSN: 1988-8740. 2010. 34: 97-99 Tesis Doctoral Título: Técnicas de extracción de características y clasificación de imágenes orientada a objetos aplicadas a la actualización
Atributos Los atributos son las columnas de un relación y describen características particulares de ella.
Unidad III: Modelo relacional 3.1 Estructura básica Tablas El modelo relacional proporciona una manera simple de representar los datos: una tabla bidimensional llamada relación. título año duración tipo
Desarrollo de las condiciones de optimalidad y factibilidad. El problema lineal general se puede plantear como sigue:
Método simplex modificado Los pasos iterativos del método simplex modificado o revisado son exactamente a los que seguimos con la tabla. La principal diferencia esá en que en este método se usa el algebra
PROBABILIDAD Y ESTADÍSTICA. Sesión 5 (En esta sesión abracamos hasta tema 5.8)
PROBABILIDAD Y ESTADÍSTICA Sesión 5 (En esta sesión abracamos hasta tema 5.8) 5 DISTRIBUCIONES DE PROBABILIDAD CONTINUAS Y MUESTRALES 5.1 Distribución de probabilidades de una variable aleatoria continua
PLAN DE MUESTREO. Conceptos necesarios para el muestreo
PLAN DE MUESTREO El muestreo se utiliza con frecuencia en IM, ya que ofrece beneficios importantes: 1. ahorra dinero: en lugar de entrevistar a un millón de personas, una muestra se puede entrevistar de
CÁLCULO DE SIGNIFICANCIA ESTADÍSTICA PARA RESULTADOS DE LAS PRUEBAS SIMCE
CÁLCULO DE SIGNIFICANCIA ESTADÍSTICA PARA RESULTADOS DE LAS PRUEBAS SIMCE Unidad de Análisis Estadístico División de Evaluación de Logros de Aprendizaje Agencia de Calidad de la Educación 013 Índice 1.
CONCEPTOS BÁSICOS DE ESTADÍSTICA
CONCEPTOS BÁSICOS DE ESTADÍSTICA Jorge M. Galbiati Riesco La Estadística está constituida por un conjunto de métodos de análisis de datos que pueden agruparse en tres categorías: La Estadística Descriptiva,
Nombre de la asignatura: Probabilidad y Estadística Ambiental
Nombre de la asignatura: Probabilidad y Estadística Ambiental Créditos: 2 2-4 Aportación al perfil Proporcionar los fundamentos necesarios para el manejo estadístico de datos experimentales que le permitan
INFORMACIÓN SOBRE LA PRUEBA DE ACCESO (PAU) A LA UNIVERSIDAD DE OVIEDO. CURSO 2015/2016
INFORMACIÓN SOBRE LA PRUEBA DE ACCESO (PAU) A LA UNIVERSIDAD DE OVIEDO. CURSO 2015/2016 Materia: MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II 1. COMENTARIOS Y/O ACOTACIONES RESPECTO AL TEMARIO EN RELACIÓN
COMPARACIÓN DE SUPERFICIES DE RESPUESTA CON BÚSQUEDA TABÚ Y ALGORITMOS GENÉTICOS
71 CAPITULO 5 COMPARACIÓN DE SUPERFICIES DE RESPUESTA CON BÚSQUEDA TABÚ Y ALGORITMOS GENÉTICOS En este capítulo se presentan los resultados obtenidos y los comentarios de éstos, al correr algunos ejemplos
ESCALAS EN UN MAPA. Escuela Técnica Superior de Ingeniería Agronómica y del Medio Natural
ESCALAS EN UN MAPA Apellidos, nombre Departamento Centro Ibáñez Asensio, Sara ([email protected]) Moreno Ramón, Héctor ([email protected]) Gisbert Blanquer, Juan Manuel ([email protected]) Producción
MATEMATICAS GRADO DECIMO
MATEMATICAS GRADO DECIMO TERCER PERIODO TEMAS Funciones Trigonométricas. Funciones trigonométricas. Son relaciones angulares; guardan relación con el estudio de la geometría de los triángulos y son de
Teoría 3_10 Gráficos!
Teoría 3_10 Gráficos! Gráficos de columnas Ideal para mostrar cambios de datos en un período de tiempo o para ilustrar comparaciones entre elementos. En los gráficos de columnas, las categorías normalmente
TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING
TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla
ÁLGEBRA LINEAL Y GEOMETRÍA ANALÍTICA (0250)
Universidad Central de Venezuela Facultad de Ingeniería Ciclo Básico Departamento de Matemática Aplicada ÁLGEBRA LINEAL Y GEOMETRÍA ANALÍTICA (0250) Semestre 1-2011 Mayo 2011 Álgebra Lineal y Geometría
SISTEMAS OPERATIVOS SISTEMA DE ARCHIVOS
UNIVERSIDAD INTERNACIONAL SAN ISIDRO LABARDOR Escuela de Ingeniería en Sistemas SISTEMAS OPERATIVOS SISTEMA DE ARCHIVOS Cuatrimestre II-2006 Recopilado por Ing. Fernely Artavia Fallas Visión del usuario
Tema 11: Intervalos de confianza.
Tema 11: Intervalos de confianza. Presentación y Objetivos. En este tema se trata la estimación de parámetros por intervalos de confianza. Consiste en aproximar el valor de un parámetro desconocido por
Métodos no supervisados: Agrupamiento
Métodos no supervisados: Agrupamiento Agrupamiento clustering- Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido 1. Introducción. Basados en particiones 3. Métodos
Aplicaciones de las integrales dobles
Aplicaciones de las integrales dobles Las integrales dobles tienen multiples aplicaciones en física en geometría. A continuación damos una relación de alguna de ellas.. El área de una región plana R en
DOCUMENTO CÁLCULO DE MUESTRA (FÓRMULAS) EL TAMAÑO DE LA MUESTRA MEDIANTE FÓRMULAS
DOCUMENTO 1 CÁLCULO DE MUESTRA (FÓRMULAS) EL TAMAÑO DE LA MUESTRA MEDIANTE FÓRMULAS Para determinar el tamaño de muestra mediante fórmulas es necesario entender los siguientes términos y sus definiciones:
Universidad de Carabobo Facultad de Ingeniería Escuela de Ingeniería Mecánica
Universidad de Carabobo Facultad de Ingeniería Escuela de Ingeniería Mecánica Edición 2009 Profesor Agregado Dpto. de Materiales y Procesos de Fabricación Escuela de Ingeniería Mecánica Facultad de Ingeniería
Preprocesado de Datos
Preprocesado de Datos Juan A. Botía Departamento de Ingeniería de la Información y las Comunicaciones Universidad de Murcia Ingeniería Superior en Informática, UMU Juan A. Botía (Departamento de Ingeniería
TIPS PARA ELABORAR TRABAJO DE INVESTIGACION. El tema es el área donde se encuentra el problema.
TIPS PARA ELABORAR TRABAJO DE INVESTIGACION CAPITULO I.- TEMA DE INVESTIGACION: El tema es el área donde se encuentra el problema. El titulo del tema siempre partirá del problema que se investiga. El titulo
BASE DE DATOS. Qué es una base de datos?
1 BASE DE DATOS Qué es una base de datos? Una base de datos es una herramienta para recopilar y organizar información. En las bases de datos, se puede almacenar información sobre personas, productos, pedidos,
3.1 Conflictos de Esquema
1 Colección de Tesis Digitales Universidad de las Américas Puebla Alvarez Carrión, Guillermo Para que el usuario de un MDBMS pueda accesar de manera transparente y uniforme la información almacenada en
Capítulo 2. Cómo utilizar la ayuda
Capítulo 2 Cómo utilizar la ayuda El SPSS cuenta con un completo sistema de ayuda al que puede accederse desde cualquier ventana o cuadro de diálogo. Este sistema de ayuda adopta varios formatos diferentes,
Guía básica de implementación
Guía básica de implementación Gestión básica de redes ethernet Herramienta ConneXview Centro de Competencia Técnica Objeto del presente documento Éste documento pretende ser una guía básica paso a paso
Figura 1 Permite que el estudio se realice en menor tiempo, al ser menos los elementos observados Se reducen los gastos.
N 19 Población y muestra en los estudios cuantitativos 1 Uno de los aspectos centrales de la estrategia metodológica cuantitativa es la determinación de la población o grupo en que el estudio será realizado,
INSTITUTO VALLADOLID PREPARATORIA Página 11 GEOMETRÍA ANALÍTICA
INSTITUTO VALLADOLID PREPARATORIA Página 11 GEOMETRÍA ANALÍTICA Página 1 CONCEPTOS PRELIMINARES CONCEPTOS PRELIMINARES.1 GRÁFICAS Y TABULACIONES En Matemáticas, para toda operación existe su inversa, la
Diseño de Bases de Datos (TEMAS 1 Y 2)
Departamento de Lenguajes y Sistemas Informáticos Avda Reina Mercedes s/n. 41012 Sevilla Tlf/Fax 954 557 139 E-mail [email protected] www.lsi.us.es E.T.S. Ingeniería Informática Diseño de Bases de Datos (TEMAS
BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN
BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN 3.1 Conceptos Básicos El modelo entidad-relación es el modelo más utilizado para el diseño conceptual de bases de datos. Fue introducido por Peter Chan en
METODOLOGÍA COMMONKADS.
METODOLOGÍA COMMONKADS. Figura A.1. Metodología CommonKads La metodología CommonKads se utiliza como un estándar por los responsables de la gestión del conocimiento e ingenieros del conocimiento para el
La programación lineal hace referencia al uso eficiente o distribución de recursos limitados, para alcanzar unos objetivos determinados.
Programación lineal La programación lineal hace referencia al uso eficiente o distribución de recursos limitados, para alcanzar unos objetivos determinados. El nombre de programación no se refiere a la
Teoría de la decisión Estadística
Conceptos básicos Unidad 7. Estimación de parámetros. Criterios para la estimación. Mínimos cuadrados. Regresión lineal simple. Ley de correlación. Intervalos de confianza. Distribuciones: t-student y
Distribución muestral de proporciones. Algunas secciones han sido tomadas de: Apuntes de Estadística Inferencial Instituto Tecnológico de Chiuhuahua
Distribución muestral de proporciones Algunas secciones han sido tomadas de: Apuntes de Estadística Inferencial Instituto Tecnológico de Chiuhuahua Distribución muestral de Proporciones Existen ocasiones
DISTRIBUCIONES MUESTRALES
DISTRIBUCIONES MUESTRALES Distribuciones muestrales Autores: Ángel A. Juan ([email protected]), Máximo Sedano ([email protected]), Alicia Vila ([email protected]). ESQUEMA DE CONTENIDOS CARACTERÍSTICAS DE LA
LA FUNCIÓN LINEAL: Ecuaciones y aplicaciones de la línea recta.
INSTITUCION EDUCATIVA LA PRESENTACION NOMBRE ALUMNA: AREA : MATEMÁTICAS ASIGNATURA: GEOMETRÍA DOCENTE: JOSÉ IGNACIO DE JESÚS FRANCO RESTREPO TIPO DE GUIA: CONCEPTUAL - EJERCITACION PERIODO GRADO N FECHA
Herramienta de Alineación Curricular - Resumen a través de las unidades Departamento de Educación de Puerto Rico Matemáticas 8vo Grado
Unidad 8.3 (Relaciones Eponenciales 8.N.1.1 8.N.1.2 8.N.1.3 1.0 Numeración y Operación Describe los números reales como el conjunto de todos los números decimales y utiliza la notación científica, la estimación
Los números naturales
Los números naturales Los números naturales Los números naturales son aquellos que sirven para contar. Se suelen representar utilizando las cifras del 0 al 9. signo suma o resultado Suma: 9 + 12 = 21 sumandos
GRÁFICOS GRÁFICOS EN SPSS. Bakieva, M., González Such, J., Jornet, J., Terol, L.
GRÁFICOS GRÁFICOS EN SPSS GRÁFICOS EN SPSS. TIPOS DE GRÁFICOS. GRÁFICOS DE BARRAS; GRÁFICOS DE LÍNEAS; GRÁFICOS DE ÁREAS; GRÁFICOS DE SECTORES; GRÁFICOS DE MÁXIMOS Y MÍNIMOS; DIAGRAMA DE CAJA; DIAGRAMAS
CAPÍTULO 1. Introducción. la competitividad exige actualización y mejora continua por parte de todos y cada uno
CAPÍTULO 1 Introducción La ingeniería industrial ha estado en continuo desarrollo desde sus inicios y hoy en día la competitividad exige actualización y mejora continua por parte de todos y cada uno de
Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste
Técnicas de Inferencia Estadística II Tema 3. Contrastes de bondad de ajuste M. Concepción Ausín Universidad Carlos III de Madrid Grado en Estadística y Empresa Curso 2014/15 Contenidos 1. Introducción
Visión global sobre modelos de Microsimulación de Impuestos sobre la renta de las Sociedades
Organisation for Economic Co-operation and Development Visión global sobre modelos de Microsimulación de Impuestos sobre la renta de las Sociedades W. Steven Clark Jefe de la Unidad de Impuestos sobre
Coeficiente de correlación semiparcial
Coeficiente de correlación semiparcial 1.- Introducción...1.- Correlación semiparcial... 3.- Contribución específica de las distintas variables al modelo de egresión Múltiple... 3 4.- Correlación semiparcial
4. " $#%&' (#) para todo $#* (desigualdad triangular).
10 Capítulo 2 Espacios Métricos 21 Distancias y espacios métricos Definición 211 (Distancia) Dado un conjunto, una distancia es una aplicación que a cada par le asocia un número real y que cumple los siguientes
ECUACIONES Y PROBLEMAS DE PRIMER GRADO
ECUACIONES Y PROBLEMAS DE PRIMER GRADO INSTITUTO POLITECNICO NACIONAL CENTRO DE ESTUDIOS TECNOLOGICOS WALTER CROSS BUCHANAN LUDWING J. SALAZAR GUERRERO FRANCISCO VEGA HERNANDEZ HUGO BAHENA ROMAN [email protected]
GUÍAS. Módulo de Razonamiento cuantitativo SABER PRO 2014-1
GUÍAS Módulo de Razonamiento cuantitativo SABER PRO 2014-1 GUÍAS Módulo Razonamiento cuantitativo Este módulo evalúa competencias relacionadas con las habilidades matemáticas que todo ciudadano debe tener,
Estado del arte en las compras 2013. Anexo B Por tamaño de empresa
Estado del arte en las compras 2013. Anexo B Por tamaño de empresa por Ing. Jesús Campos Cortés CPIM CIRM, C.P.M, PMP,CPAM, CQIA, CEI, CSCP, CPSM, CPF, PLS www.estrategiaycompetitividad.org INDICE DE CONTENIDO
ESTADÍSTICA INFERENCIAL
ESTADÍSTICA INFERENCIAL ESTADÍSTICA INFERENCIAL 1 Sesión No. 9 Nombre: Pruebas de hipótesis referentes al valor de la media de la población Contextualización Los métodos estadísticos y las técnicas de
POBLACIÓN o UNIVERSO - Totalidad de unidades de análisis del conjunto a estudiar. - Conjunto de individuos, objetos, elementos o
Población y Muestra Lic. Silvia Beatriz D Angelo (U.N.N.E.; U.C.P.) Población y Unidad elemental POBLACIÓN o UNIVERSO - Totalidad de unidades de análisis del conjunto a estudiar. - Conjunto de individuos,
SISTEMAS INTELIGENTES
SISTEMAS INTELIGENTES T8: Aprendizaje basado en instancias www.aic.uniovi.es/ssii Índice Aprendizaje basado en instancias Métricas NN Vecino más próximo: Regiones de Voronoi El parámetro K Problemas de
FRAGMENTACIÓN DE TABLAS
2 FRAGMENTACIÓN DE TABLAS Contenido: 2.1. Introducción Fragmentación de tablas 2.1.1. Definición. 2.2. Tipos de Fragmentación 2.2.1. Fragmentación Horizontal 2.2.2. Fragmentación Vertical 2.2.3. Fragmentación
BASES DE DATOS TEMA 2 MODELOS DE DATOS
BASES DE DATOS TEMA 2 MODELOS DE DATOS 2.3 De red En este modelo las entidades se representan como nodos y sus relaciones son las líneas que los unen. En esta estructura cualquier componente puede relacionarse
Prof. Dra. Silvia Schiaffino ISISTAN
Clustering ISISTAN [email protected] Clustering: Concepto Cluster: un número de cosas o personas similares o cercanas, agrupadas Clustering: es el proceso de particionar un conjunto de objetos (datos)
Terminología Equivalente
Normalización La normalización de bases de datos es un proceso que consiste en designar y aplicar una serie de reglas a las relaciones obtenidas tras el paso del modelo entidadrelación almodelo relacional.
Métodos para pronosticar la demanda
2.1.1 Características de la demanda. El pronóstico de la demanda consiste en hacer una estimación de nuestras futuras ventas (ya sea en unidades físicas o monetarias) de uno o varios productos (generalmente
LOGO Fundamentos Básicos de Estadística I
LOGO Fundamentos Básicos de Estadística I Prof. Mariugenia Rincón [email protected] Definiciones Estadistica. Objetivo e Importancia Clasificación: Descriptiva e Inferencial Población y Muestra Unidad
PRUEBAS PARA DOS MUESTRAS RELACIONADAS
PRUEBAS PARA DOS MUESTRAS RELACIONADAS Estos contrastes permiten comprobar si hay diferencias entre las distribuciones de dos poblaciones a partir de dos muestras dependientes o relacionadas; es decir,
PROGRAMACION ENTERA. M. en C. Héctor Martínez Rubin Celis 1
M. en C. Héctor Martínez Rubin Celis PROGRAMACION ENTERA En muchos problemas prácticos, las variables de decisión son realistas únicamente si estas son enteras. Hombres, máquinas y vehículos deben ser
MICROSOFT ACCESS 2007
MICROSOFT ACCESS 2007 1. AVANZADO Nº Horas: 24 Objetivos: Descripción del funcionamiento del programa de gestión de bases de datos Microsoft Access 2007, estudiando los conceptos fundamentales de las bases
OLIMPIADA ESTADÍSTICA 2016:
OLIMPIADA ESTADÍSTICA 2016: Encuesta sobre Equipamiento y Uso de Tecnologías de la Información y Comunicación en los hogares Equipo: TRESALCUBO Categoría: ESO Centro: Colegio San Jorge (Murcia) Participantes:
DEMOGRAFÍA EMPRESARIAL DE LA COMUNIDAD DE MADRID
DEMOGRAFÍA EMPRESARIAL DE LA COMUNIDAD DE MADRID NOTA METODOLÓGICA La demanda de información sobre la creación y desaparición de empresas no ha dejado de crecer, y se ha desarrollado especialmente en los
Test de Kolmogorov-Smirnov
Test de Kolmogorov-Smirnov Georgina Flesia FaMAF 2 de junio, 2011 Test de Kolmogorov-Smirnov El test chi-cuadrado en el caso continuo H 0 : Las v.a. Y 1, Y 2,..., Y n tienen distribución continua F. Particionar
Manual del Usuario de Microsoft Access Consultas - Página 1. Tema IV: Consultas. IV.1. Creación de Consultas
Manual del Usuario de Microsoft Access Consultas - Página 1 Tema IV: Consultas IV.1. Creación de Consultas La potencia real de una base de datos reside en su capacidad para mostrar los datos que se desea
TEMA 4: COMPONENTES DE LOS DATOS GEOGRÁFICOS OBJETIVOS DEL TEMA:
TEMA 4: COMPONENTES DE LOS DATOS GEOGRÁFICOS OBJETIVOS DEL TEMA: Comprender cuales son los componentes de los datos de un sistema de información geográfica y su funcionalidad. Adquirir los conocimientos
Complejidad de Algoritmos
Complejidad de Algoritmos Tema 5 Introducción Un algoritmo es una secuencia de instrucciones que resuelve un problema Puede tener diferentes implementaciones Para comparar las diferentes formas (algoritmos)
ESTADÍSTICA DESCRIPTIVA Bosqueja o describe las diversas características de un conjunto de datos.
CONCEPTOS BÁSICOS DE ESTADÍSTICA INDICADOR DE LOGROS Aplicarás y explicarás la estadística descriptiva, utilizando la terminología básica, con seguridad e interés. Aplicarás y explicarás con interés y
BASES DE DATOS DOCUMENTOS O INSTRUMENTOS? DEBEN SOMETERSE A VALORACIÓN?
MEMORIA - XXI Congreso Archivístico Nacional - 2009 BASES DE DATOS DOCUMENTOS O INSTRUMENTOS? DEBEN SOMETERSE A VALORACIÓN? Adolfo Barquero Picado 1 1. ALGUNOS ASPECTOS CONCEPTUALES RELATIVOS A BASES DE
color (yerba, verde) el mismo predicado, pero con diferentes argumentos, puede no ser verdadero: color (yerba, azul) o color (cielo, verde)
Lógica de Predicados La principal debilidad de la lógica proposicional es su limitada habilidad para expresar conocimiento. Existen varias sentencias complejas que pierden mucho de su significado cuando
Microsoft Access 2003 (Completo)
Página 1 Horas de teoría: 27 Horas de práctica: 25 Precio del Curso: 167 Descripción del funcionamiento del programa de gestión de bases de datos Microsoft Access 2003, estudiando los conceptos fundamentales
UNIDAD UNO PROGRAMACIÓN LÍNEAL Parte 3
UNIDAD UNO PROGRAMACIÓN LÍNEAL Parte 3 Matriz unitaria "I" de base con variables artificiales. Cuando el problema de programación lineal se expresa en la forma canónica de maximizar, las variables de holgura
CAPÍTULO. Conceptos básicos
CAPÍTULO 1 Conceptos básicos 1.3 Soluciones de ecuaciones diferenciales 1.3.1 Soluciones de una ecuación Ejemplo 1.3.1 Resolver la ecuación: D 0. H Resolver esta ecuación significa encontrar todos los
Conceptos básicos de bases de datos
Conceptos básicos de bases de datos En este artículo se realiza una breve introducción a las bases de datos: qué son, por qué podría querer usar una y cuáles son las funciones de las distintas partes de
[GEOGEBRA] Innovación Educativa. Ricardo Villafaña Figueroa
2009 Innovación Educativa [GEOGEBRA] Una introducción a la geometría interactiva y cálculo visual a través de, una herramienta computacional sin costo que facilita y apoya la enseñanza y el análisis de
