TÉCNICAS DIFUSAS Y NO-DIFUSAS PARA EL CLUSTERING DEL CONTENIDO DE PÁGINAS EN UN SITIO WEB

Save this PDF as:
 WORD  PNG  TXT  JPG

Tamaño: px
Comenzar la demostración a partir de la página:

Download "TÉCNICAS DIFUSAS Y NO-DIFUSAS PARA EL CLUSTERING DEL CONTENIDO DE PÁGINAS EN UN SITIO WEB"

Transcripción

1 TÉCNICAS DIFUSAS Y NO-DIFUSAS PARA EL CLUSTERING DEL CONTENIDO DE PÁGINAS EN UN SITIO WEB David Nettleton Bárbara Poblete Grupo de Investigación en Grupo de Investigación en Recuperación de Información y Recuperación de Información y Minería de Datos en la Web, Minería de Datos en la Web, Dpto. de Tecnología, Dpto. de Tecnología, Universitat Pompeu Fabra, Universitat Pompeu Fabra, Passeig de Circumval.lació, 8 Passeig de Circumval.lació, Barcelona Barcelona. Resumen En este artículo comparamos dos algoritmos de clustering, uno difuso y otro no difuso, para agrupar los documentos de un sitio Web. En la mayoría de los casos el método categórico k- Means es utilizado como método de facto para el clustering de documentos en la Web, así como otras técnicas no-difusas. Es por este motivo que en este estudio realizamos una comparación de k-means y el enfoque de la estadística clásica, respecto al enfoque difuso, representando por Fuzzy c-means. Dentro de esta evaluación también consideramos algunas características particulares de los documentos encontrados en la Web, como por ejemplo, su alta dimensionalidad, y proponemos una solución novedosa a este problema basada en las covarianzas difusas. Presentamos los resultados del proceso de un conjunto de documentos de prueba, con datos extraídos a partir de documentos reales, y que sirven para contrastar los diferentes enfoques. Palabras Clave: Clustering, Fuzzy/Difuso, Crisp/No-difuso, Internet, Web, Covarianzas, Minería de Datos, Término, Documento. 1 INTRODUCCIÓN El presente artículo forma parte del trabajo en curso siendo realizado por el Grupo de Investigación en Recuperación de Información y Minería de Datos en la Web, de la Universidad Pompeu Fabra, Barcelona. El trabajo continúa la línea de investigación en la aplicación de diferentes técnicas de clustering y modelización[10,11], incluyendo técnicas difusas, a datos de resultados de búsquedas en Internet. Ahora aplicamos las técnicas a una nueva área, esto siendo la agrupación de documentos de un sitio Web. Además introducimos un nuevo aspecto, la reducción de la dimensionalidad, contrastando dos técnicas, una difusa y otra no-difusa, para este fin. Los resultados tienen una aplicación práctica que será su incorporación en el sistema de minería Web [3], desarrollado por el grupo de investigación, que utiliza el clustering como medio para mejorar la organización y la estructura de un sitio Web. 2 DEFINICIÓN DEL PROBLEMA A RESOLVER El problema a resolver se trata del clustering de documentos Web a base de su contenido. Dentro de este entorno, cada documento puede ser representado por un gran número de variables descriptivas, que representan las frecuencias de los términos en el documento. Las variables representan los términos y definen la anchura de la matriz de datos de entrada, y una colección de documentos representen las filas de casos. Los documentos Web son distintos de los documentos textuales en general debido al alto número de variables descriptivas (términos), y dado que están compuestas de documentos de una mayor heterogeneidad. Además, deseamos que el proceso de los datos sea de los documentos de un sitio Web concreto, en vez de la Web en general. Los documentos al interior de un sitio tienen un grado de similitud entre sí, significativamente mayor que la existente en general entre documentos Web.

2 Por consiguiente, proponemos que el enfoque difuso podría ser útil dado la mayor dificultad en clasificar cada documento de forma nítida en un único cluster. 3 ESTADO DEL ARTE CLUSTERING DE DOCUMENTOS WEB Y REDUCCIÓN DE LA DIMENSIONALIDAD 3.1. CLUSTERING Uno de los algoritmos citados en la literatura como una técnica efectiva para realizar el clustering de datos textuales de una gran dimensionalidad, y específicamente aplicado al clustering de documentos Web, es el spherical k-means [6]. Este algoritmo es una versión de k-means que emplea el coseno como medida de distancia. Se emplea para el clustering de texto, en el cual cada documento queda representado por un vector de ocurrencias de términos (modelo de espacio vectorial). El clustering de documentos en la Web en general ha sido estudiado en la literatura principalmente como una herramienta para mejorar la organización de los resultados de un motor de búsqueda en la Web [12]. También el clustering ha sido empleado como una forma automática de clasificación de documentos para directorios de categorías temáticas [1]. Indicamos que, en la literatura, no existen estudios significativos enfocados en realizar clustering y reducción de términos de documentos en sitios Web concretos, y que además incluyen una evaluación del valor de utilizar un método difuso sobre este tipo de documentos REDUCCIÓN DE LA DIMENSIONALIDAD EN EL CONTEXTO DEL CLUSTERING DE TÉRMINOS Y DOCUMENTOS En esta área, citamos primero la representación de Latent Semantic Indexing [4], que consiste en la extracción de relaciones útiles entre términos clave (keywords) y documentos. Emplea técnicas estadísticas para calcular y cuantificar estas asociaciones. El método reside en la construcción de una matriz (conceptos documentos), que resulta de la aplicación del método de descomposición SVD (Singular Value Decomposition) al término clave por la matriz de documentos. La ventaja principal de este método es la reducción de dimensiones desde T*N (dónde T es el número de términos en los documentos y N es el número de documentos) hasta S*N (dónde S es el número de conceptos). En general, permite identificar la relación entre términos. Además de esta técnica específica (SVD), también existen las técnicas estadísticas habituales de análisis factorial, y el análisis de correlación y de covarianzas, y la selección de factores mediante métodos de filtrado y de envoltura[2]. 4 DESCRIPCIÓN DE NUESTRO ENFOQUE Ante la problemática del clustering de documentos de sitios en la Web, la solución que proponemos es emplear un enfoque difuso, como alternativa o complemento para las técnicas principalmente categóricas utilizadas habitualmente para los documentos Web. Para este fin, contrastamos Fuzzy c-means para el clustering difuso con k-means para el clustering categórico. Según la tipología del conjunto de documentos, podemos elegir el enfoque difuso como el más adecuado. Parte de la aplicación de técnicas difusas sobre datos de alta dimensionalidad consiste en plantear una correcta reducción de dimensiones para el algoritmo difuso. Para esto proponemos una técnica de análisis de covarianzas difusas, para la reducción de la dimensionalidad en el preproceso de los datos de entrada a Fuzzy c-means. Lo contrastamos con su equivalente no-difuso, la covarianza estadística estándar CLUSTERING: K-MEANS Y FUZZY C-MEANS k-means [7]: es una técnica común de clustering, que establece una distancia entre los casos mediante la selección de un número predefinido de casos. k-means usa los casos pre-seleccionados como semillas en el proceso de construir los clusters. Se asigna un cluster a cada caso, en un proceso iterativo. El cluster asignado a cada caso es el más cerca al caso, y la distancia se mide entre el caso para ser incluido y el valor medio para todos los clusters. El objetivo del proceso del algoritmo k- Means es el de minimizar una función de error cuadrado. Fuzzy c-means [5]: en contraste con k-means, FCM puede asignar un caso a más de un cluster, con diferentes grados de pertenencia. Como primer paso, Fuzzy c- Means calcula los centros de cluster de los clusters difusos para el número elegido de clusters. Entonces calcula el grado de pertenencia de cada caso, respecto a cada cluster, y para cada variable de entrada. Fuzzy c- Means se basa en la minimización de la siguiente función objetiva: N C 2 J m = Σ Σ u ijm x i c j, (1) i=1 j=1 1 m < donde m es cualquier número real mayor que 1, x i es el i- isimo caso de datos, u ij es el grado de pertenencia de x i en cluster j, c j es el centro de cluster j, y * es cualquier norma que expresa la similitud entre un caso y el centro de cluster CONSIDERACIONES: FUZZY C-MEANS El algoritmo de Fuzzy c-means en su versión estándar minimiza la varianza intra-cluster (y maximiza la varianza

3 inter-cluster), de modo parecido a k-means. Sin embargo, también hereda algunos inconvenientes de k-means: por ejemplo, las soluciones representadas por mínimos locales y el hecho de que los resultados están condicionados por la asignación inicial (aleatoria) de los pesos en la matriz u. Como una solución pragmática a estos problemas, cuando procesamos los datos con Fuzzy c-means, comprobamos varias ejecuciones con diferentes asignaciones aleatorias de u. Además, hemos elaborado una medida propia para la distancia inter-cluster de Fuzzy c-means, usando un cálculo a partir de la matriz v de centros de cluster/variable, y que explicamos a continuación. Observamos que v jd representa el valor para cluster j y dimensión d. Es decir, con referencia a la fórmula (1), c j representa el centro del cluster j con dimensionalidad D, y se implementa como un vector de con D dimensiones. Entonces, la distancia inter-cluster para dimensión d es igual a: k k φ d = Σ Σ v j v i (2) j=1 i=1 y la distancia inter-cluster es igual a: D Φ = Σ φ d (3) d=1 donde D = número de dimensiones y k = número de clusters. Elegimos la solución que proporciona un resultado de clustering coherente con la solución esperada y que además maximiza la distancia inter-cluster. En la Sección indicamos algunos valores resultantes para Φ con los datos de prueba. Añadimos que, para poder comparar entre sí a los resultados para diferentes números de clusters y de dimensiones, es necesario tomar el promedio en cada suma. Es decir, para las dos sumas interiores, dividir cada una por el número de clusters, y para la suma exterior, dividir por el número de dimensiones. En consecuencia de las pruebas con el conjunto de datos, decidimos usar la Norma Euclideana como parámetro de proceso de Fuzzy c-means, para el clustering con todos los 40 términos y para el clustering con los 12 términos REDUCCIÓN DE LA DIMENSIONALIDAD En esta sección presentamos dos enfoques, uno difuso y otro no difuso, para la reducción de la dimensionalidad de variables que representan los términos en documentos. Estas dos técnicas nos servirán para contrastar los resultados del enfoque difuso respecto al enfoque no difuso Preproceso de las variables usando covarianzas estándar (no difusas) Intuitivamente, la covarianza es la medida de variación mutua de dos variables aleatorias. Es decir, la covarianza tendrá un valor positivo más grande para cada pareja de valores que difieren del valor medio con el mismo signo (+ o -). Asimismo, la covarianza tendrá un valor negativo más grande para cada pareja de valores que difieren del valor medio con signo distinto (+ o -). Si la covarianza mutua es cero entre dos variables aleatorias, esto indica que no existe una correlación entre ellas. Definición de la covarianza: suponemos que existe una muestra de n pares de observaciones de dos variables X e Y, X: x 1 x 2... x n Y: y 1 y 2... y n Sea x' = 1 Σx i, y' = 1 Σy i. n n La siguiente se llama la covarianza de la muestra: n S xy = 1 Σ ( x i - x' ) ( y i - y' ) (4) n i= Preproceso de las variables usando covarianzas difusas Este algoritmo fue presentado por la primera vez por Nettleton en [9]. Es una variación del método presentado por Gustafson y Kessel en [8], que calcula las covarianzas difusas entre casos. En [9] se extendió este método para calcular las covarianzas difusas entre variables difusas. Esto permite identificar las variables cuya covarianza esta por encima de un determinado umbral (definido mediante inspección de los valores resultantes), y usar sólo estas variables como entradas al clustering. A continuación se presenta formalmente el cálculo de las covarianzas difusas. Sea u i la matriz de grados de pertenencia de n casos relativos a partición i; u ik es el grado de pertenencia de caso k a partición i; x k es el vector de características (datos) pertenecientes al caso k; v i es el centroide de partición i; m es un factor de ponderación que define el grado difuso; ( x k - v i )( x k - v i ) es una distancia parecida a la de Mahalonobis. Medimos el grado de relación entre una variable V 1 con el centroide de una partición C 1. Entonces medimos el grado de relación de una segunda variable V 2 al centroide de la misma partición C 1. La distancia mide la diferencia entre el grado de relación de V 1 a C 1 y el grado de relación de V 2 a C 1, es decir, d(v 1, C 1 ) d(v 2, C 1 ). Por consiguiente, el cálculo de las covarianzas difusas entre las variables en partición i se representa con la siguiente fórmula: ρ n ρ C fi = Σ Σ (u ik ) m Σ d(v 1, C 1 ) d(v 2, C 1 ) (5) j=1 k=1 q=1 donde y d(v 1, C 1 ) = ( x jk - v i )( x jk - v i ) d(v 2, C 1 ) = ( x qk - v i )( x qk - v i ) siendo ρ el número de variables, y n el número de casos.

4 5 APLICACIÓN DE LAS TÉCNICAS A LOS DATOS DE PRUEBA Y ANÁLISIS DE LOS RESULTADOS 5.1. DATOS DE PRUEBA En orden de probar y contrastar el proceso difuso con el proceso no-difuso, hemos preparado una colección de documentos obtenida de un portal Web dirigido principalmente a estudiantes universitarios. El contenido del vocabulario es más heterogéneo que muchos sitios, aunque sigue siendo bastante más homogéneo que los documentos encontrados en la Web global. En la colección, hay algunos documentos que clasifican de forma única en categorías bien definidas, algunos documentos que tienen una clasificación ambigua, y otros no se clasifican (ruido). La matriz de datos de entrada esta en formato denso, en vez de sparse. Esto quiere decir que si un valor esta ausente, se rellene su posición con el valor cero. Dicha matriz tiene la siguiente estructura: 40 columnas (variables o términos) por 10 filas (documentos). Cada elemento o dato representa la frecuencia (sin normalizar) del término representado por la columna correspondiente. Cada término corresponde a una columna, desde la columna 1 hasta 40 y un valor cero (frecuencia cero) indica que el término no existe en el documento correspondiente. Los términos son los siguientes: {agosto; alfaguara; aquí; añadir; biotecnología; brown; cable; carreras; código; construcción; correo; cuerpo; cultura; encuentro; escríbenos; escritoras; foros; ingeniería; instituto; juana; loca; manuales; mapuche; matemática; metropolitana michio; minería; ministerio; nishihara; pergamino; portal; presenta; región; santiago; seducción; serena; superior; tecnología; umbriel; uweb}. Así que, en columna 1, fila 1, un valor de 3 indicaría que el término agosto tiene una frecuencia de 3 en documento 1. Asimismo, un valor de cero en columna 3, fila 3, indicaría que el término aquí no existe en documento 3. En el fichero de prueba, los términos fueron convertidos a minúscula y los acentos eliminados. Los términos y los documentos fueron seleccionados para poder contrastar las técnicas fuzzy y non-fuzzy y la reducción de atributos. El conjunto de documentos de prueba tiene la siguiente forma: documentos (filas) 1 y 2: no se parezcan entre si ni a ningún otro documento; documentos 3 al 7: son 5 documentos muy similares; documentos 8 al 10: son 3 documentos similares a documentos 3 al 7 pero con algunos términos adicionales RESULTADOS En esta Sección presentamos los resultados del clustering y reducción de atributos usando la técnica difusa y la nodifusa. En Secciones y presentamos y comentamos los resultados del clustering usando k-means y Fuzzy c-means, respectivamente. En Secciones y presentamos los resultados de la reducción de atributos usando covarianzas estándar y covarianzas difusas, respectivamente. En la Sección presentamos los resultados del clustering con k-means usando los 12 atributos indicados por las covarianzas estándar. Entonces, en la Sección 5.2.6, presentamos los resultados del clustering con Fuzzy c-means, usando sólo los 12 atributos indicados por las covarianzas difusas. Por último, en la Sección 5.2.7, comentamos la calidad de los clusters para Fuzzy c-means, en términos del criterio de distancia inter-cluster Clustering del conjunto de documentos con k- Means Los resultados para el número de clusters igual a 4 fueron: cluster 1, documento 1; cluster 2, documento 2; cluster 3, documentos 3 al 7; cluster 4, documentos 8 al 10. Estos resultados fueron exactamente los esperados Clustering del conjunto de documentos con fuzzy c-means Con referencia a la Tabla 1, los resultados para el número de clusters igual a 4 fueron: documento 1 tiene una pertenencia muy alta a cluster C2; documento 2 tiene una pertenencia moderada a cluster C1 y una pertenencia menor a C3,C4 y C2, en aquel orden; documentos 3 al 6 tienen una pertenencia muy alta a cluster C1; documento 7 tiene una pertenencia muy alta a cluster C4 y pertenencia residual a C1,C3 y C2; documentos 8 y 10 tienen una pertenencia alta a cluster C3; documento 9 tiene una pertenencia principal a cluster C3, aunque en menor grado que documentos 8 y 10; documento 9 también tiene una pertenencia significativa a cluster C4. Tabla 1: FCM. Grados de pertenencia para clusters=4, 10 documentos y 40 variables de entrada. C1 C2 C3 C4 D D D D D D D D D D Si comparamos estos resultados con los de k-means, observamos que documento 1 tiene el mismo resultado, con un cluster propio bien distinguido (C2). Documento 2, en cambio, ya no sigue el patrón hard y tiene su pertenencia esparcida por los 4 clusters. Documentos 2 al 6 tienen el mismo resultado que k-means, siendo asignado a un cluster bien definido (C1). Documento 7 no tiene la misma asignación que k-means y parece tener un

5 cluster propio (C4) con una alta pertenencia. Documentos 8 y 10 presentan el mismo resultado que k-means, con un cluster propio (C3), aunque con una distribución menor de su pertenencia a otros clusters. Por último, documento 9 tiene su pertenencia distribuida entre C3 y C4. Estos resultados son coherentes con la selección de términos en documentos 7 y 9, que tienen unos términos en común. El resultado de documento 2 parece una consecuencia de la selección aleatoria de términos Resultados de la reducción de variables usando covarianzas estándar (no-fuzzy) Las covarianzas de las frecuencias de los términos fueron calculadas y ordenadas de forma decreciente. A partir del gráfico de la Figura 1, un umbral fue definido a partir del doceno término, y los primeros 12 términos fueron seleccionados. Los 12 términos seleccionados a partir de sus valores de covarianza fueron los siguientes, dónde el primer número es su posición en el fichero original, y el último número es la covarianza: {40, uweb, }, {5, biotecnología, 16.74}, {10, construcción, 16.74}, {18, ingeniería, 16.74}, {19, instituto, 16.74}, {24, matemática,16.74}, {28, ministerio, 16.74}, {31, portal, 16.74}, {35, seducción, 16.74}, {20, juana, 16.6}, {36, serena, }, {7, cable, } Resultados de la reducción de variables usando covarianzas difusas Las covarianzas difusas de las frecuencias de los términos fueron calculadas, según la fórmula detallada en la Sección 4, y ordenadas de forma decreciente. A partir del gráfico de la Figura 2, un umbral fue definido a partir del doceno término, y los primeros 12 términos fueron seleccionados. Los 12 términos seleccionados a partir de sus valores de covarianza difusa fueron los siguientes, dónde el primer número es su posición en el fichero original, y el último número es la covarianza: {7, cable, 640.9}, {27, minería, }, {13, cultura, }, {23, mapuche, }, {30, pergamino, }, {3, aquí, }, {33, región, }, {21, loca, }, {1, agosto, }, {10, construcción, }, {34, santiago, }, {14, encuentro, }. Si comparamos el gráfico de la Figura 1, que representa las covarianzas estándar, con el gráfico de la Figura 2, que representa las covarianzas difusas, observamos en la Figura 2 una caída inicial más abrupta y a partir del caso 13, una disminución más suave. En contraste, la Figura 1 presenta una caída inicial más suave terminando con una disminución abrupta a partir de caso 36. Observamos que las covarianzas estándar y las covarianzas difusas han elegido, respectivamente, dos conjuntos de términos distintos entre sí. Este resultado es coherente, dado que existe más de un conjunto de términos que puede particionar los 10 documentos correctamente en 4 clusters. Figura 1: Gráfico del valor de la covarianza estándar (eje y) por el Id. de la variable (eje x), estos siendo ordenados de forma decreciente por la covarianza. Figura 2: Gráfico del valor de la covarianza difusa (eje y) por el Id. de la variable (eje x), estos siendo ordenados de forma decreciente por la covarianza Clustering k-means usando solo las variables indicadas por las covarianzas estándar Los resultados para el número de clusters igual a 4 fueron: cluster 1, documento 1; cluster 2, documento 2; cluster 3, documentos 3 al 7; cluster 4, documentos 8 al 10. Estos resultados fueron exactamente los esperados Clustering Fuzzy c-means usando solo las variables indicadas por las covarianzas difusas En la Tabla 2, se ven los resultados del clustering difuso con las variables seleccionadas por las covarianzas difusas. Para documentos 1 al 7, se observa que los resultados son muy consistentes con los del clustering de k-means, con grados de pertenencia igual a 1. Documentos 1 y 2 tienen sus propios clusters C2 y C4, respectivamente, y documentos 3 al 7 tienen su propio cluster C1. En el caso de documentos 8 al 10, se ha mantenido la característica de pertenencia difusa, con asignación principal al cluster C3. Con referencia a filas D8 hasta D10 de Tabla 2, y en términos de los datos originales, podemos indicar que los vectores que corresponden a D8 a D10 poseen menos valores cero que los demás documentos y las frecuencias tienden a ser más

6 altas. Esta característica quedó acentuada en el conjunto reducido de términos. Tabla 2: FCM. Grados de pertenencia para clusters=4, 10 documentos y 12 variables de entrada. C1 C2 C3 C4 D D D D D D D D D D Calidad del Clustering Fuzzy c-means En el caso de Fuzzy c-means, en la Sección 4.2 definimos una medida para la distancia inter-cluster, el objetivo siendo de maximizar esta distancia. En el caso del clustering con 40 términos, el cálculo resultó en un valor promedio de para 3 clusters y para 4 clusters. Esto es coherente con el hecho de que la partición de 4 clusters es la que ajustaba mejor a la solución correcta para el conjunto de los 10 documentos de prueba. En el caso del clustering con 12 términos, el cálculo resultó en un valor promedio de para 3 clusters y para 4 clusters. Otra vez, este resultado es coherente para la mejor solución de 4 términos, y además, según este criterio, indica una mejora en la calidad de los clusters en el caso del conjunto menor de 12 términos de entrada, respecto al conjunto completo de 40 términos. 6 RESUMEN En este artículo hemos presentado y contrastado una técnica difusa con otra no-difusa para el clustering de documentos Web. Al comparar los resultados, hemos observado una consistencia entre los clusters generados por ambas técnicas, y por los resultados generados por las covarianzas difusas. Los grados de pertenencia han identificado diversas matices en las asignaciones de términos en los documentos que fueron perdidos en la asignación crisp. Un resultado significativo ha sido el hecho de que dos conjuntos de términos distintos, elegidos usando dos tipos de covarianzas distintas, han dado resultados de clustering muy parecidos. Este indica otra vez que el uso de la técnica difusa ha desvelado una solución válida y distinta a la técnica no-difusa. También, hemos conseguido el mismo resultado de clustering usando sólo 12 de los 40 términos originales, una reducción del 70% en el número de entradas. Por último, hemos definido una medida propia para evaluar la calidad del clustering de Fuzzy c-means. Futuras líneas de trabajo incluyen pruebas con variantes del algoritmo Fuzzy c- Means, con otras técnicas de reducción de la dimensionalidad y conjuntos de documentos de mayor tamaño y diversidad. Por último, proponemos optimizar el código de nuestra versión del algoritmo Fuzzy c-means para procesar una mayor dimensionalidad de documentos y así demostrar la escalabilidad de la solución. Referencias [1] Adami, G., Avesani, P., Sona, D. Clustering documents in a web directory. Proc. 5th ACM Int. Workshop on Web Information and Data Management. New Orleans, USA. Pág , [2] Aguilera, J., del Jesus, M., Herrera, F. Hibridación de Métodos Filtro y de Envoltura para Selección de Características. VIII Conf. de la Asoc. Esp. para la Inteligencia Artificial, Nov. 1999, Vol. I, [3] Baeza-Yates, R., Poblete, B. A Website Mining Model Centered on User Queries. European Web Mining Forum (EWMF 2005). Oporto, Portugal Pág [4] Berry, M., Dumais, S., Shippy, A. A Case Study of Latent Semantic Indexing, Technical Report: UT-CS , University of Tennessee, USA, [5] Bezdek, J.C. Pattern recognition with Fuzzy Objective Function Algoritms. Plenum Press, [6] Dhillon, I., Modha, D. Concept decompositions for large sparse text data using clustering, Machine Learning, 42(1), Pág , [7] Duda, R., Hart, P. Pattern Classification and Scene Analysis. Wiley, [8] Gustafson, D.E., and Kessel, W., Fuzzy Clustering with a Fuzzy Covariance Matrix, in Proc. IEEE- CDC, Vol. 2 (K.S. Fu, Ed.), Pág , IEEE Press, Piscataway, New Jersey, (1979). [9] Nettleton, D.F., Fuzzy covariance analysis, aggregation and input selection for fuzzy data. IKBS 98. Int. Conf. on Knowledge Based Computer Systems. Mumbai, India, Pág , [10] Nettleton, D., Baeza-Yates, R. Web Retrieval: techniques for the aggregation and selection of queries and answers, (in Spanish), I Spanish Symposium on Fuzzy Logic and Soft Computing, Granada, Spain, Sept. 2005, Pág [11] Nettleton, D. Clustering and Aggregation of Web Query Session Data for User Profiling. Proceedings of Modeling Decisions in Artificial Intelligence, MDAI 2006, Tarragona, Spain, Abril [12] Zamir, O., Etzioni, O. Web document clustering: a feasibility demonstration. Proc. 21st annual int. ACM SIGIR conf. on Research and Development in Information Retrieval. Melbourne, Australia. Pág , 1998.

Procesamiento de Texto y Modelo Vectorial

Procesamiento de Texto y Modelo Vectorial Felipe Bravo Márquez 6 de noviembre de 2013 Motivación Cómo recupera un buscador como Google o Yahoo! documentos relevantes a partir de una consulta enviada? Cómo puede procesar una empresa los reclamos

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

Covarianza y coeficiente de correlación

Covarianza y coeficiente de correlación Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA Pablo F. Provasi 1 Lucio J. Kleisinger 1 Francisco R. Villatoro 2 1 Dpto. de Informática, Universidad

Más detalles

Análisis Estadístico de Datos Climáticos

Análisis Estadístico de Datos Climáticos Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) (Wilks, Cap. 14) Facultad de Ciencias Facultad de Ingeniería 2013 Objetivo Idear una clasificación o esquema de agrupación

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

4. MÉTODOS DE CLASIFICACIÓN

4. MÉTODOS DE CLASIFICACIÓN 4. MÉTODOS DE CLASIFICACIÓN Una forma de sintetizar la información contenida en una tabla multidimensional (por ejemplo una tabla léxica agregada), es mediante la conformación y caracterización de grupos.

Más detalles

Métricas de complejidad para la transformación del problema de detección de cáncer basado en

Métricas de complejidad para la transformación del problema de detección de cáncer basado en Índice para la transformación del problema de detección de cáncer basado en mamografías Alumna: Núria Macià Antoĺınez Asesora: Ester Bernadó Mansilla Núria Macià Antoĺınez PFC: 1/49 Índice 1 Planteamiento

Más detalles

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez Curso de Análisis de investigaciones con programas Informáticos 1 UNIVERSIDAD DE JAÉN Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos

Más detalles

Tema 2: Estadística Descriptiva Multivariante

Tema 2: Estadística Descriptiva Multivariante Tema 2: Estadística Descriptiva Multivariante Datos multivariantes: estructura y notación Se llama población a un conjunto de elementos bien definidos. Por ejemplo, la población de las empresas de un país,

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Introducción al Data Mining Clases 5 Cluster Analysis Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Cluster Análisis 1 El término cluster analysis (usado por primera

Más detalles

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Emmanuel Anguiano-Hernández Abril 29, 2009 Abstract Tratando de mejorar el desempeño de un clasificador Naive

Más detalles

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO I. INTRODUCCIÓN Beatriz Meneses A. de Sesma * En los estudios de mercado intervienen muchas variables que son importantes para el cliente, sin embargo,

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

TEMA 9: Desarrollo de la metodología de Taguchi

TEMA 9: Desarrollo de la metodología de Taguchi TEMA 9: Desarrollo de la metodología de Taguchi 1 La filosofía de la calidad de Taguchi 2 Control de calidad Off Line y On Line Calidad Off Line Calidad On Line 3 Función de pérdida 4 Razones señal-ruido

Más detalles

Clasificación Bayesiana de textos y páginas web

Clasificación Bayesiana de textos y páginas web Clasificación Bayesiana de textos y páginas web Curso de doctorado: Ingeniería Lingüística aplicada al Procesamiento de Documentos Víctor Fresno Fernández Introducción Enorme cantidad de información en

Más detalles

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile.

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile. Los futuros desafíos de la Inteligencia de Negocios Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile.cl El Vértigo de la Inteligencia de Negocios CRM: Customer

Más detalles

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software J. Cuadrado Gallego 1, Miguel Ángel Sicilia 1, Miguel Garre Rubio 1 1 Dpto de Ciencias de la Computación,

Más detalles

3. Selección y Extracción de características. Selección: Extracción: -PCA -NMF

3. Selección y Extracción de características. Selección: Extracción: -PCA -NMF 3. Selección y Extracción de características Selección: - óptimos y subóptimos Extracción: -PCA - LDA - ICA -NMF 1 Selección de Características Objetivo: Seleccionar un conjunto de p variables a partir

Más detalles

Similaridad y Clustering

Similaridad y Clustering Similaridad y Clustering 1 web results motivación Problema 1: ambigüedad de consultas Problema 2: construcción manual de jerarquías de tópicos y taxonomías Problema 3: acelerar búsqueda por similaridad

Más detalles

ANÁLISIS DE DATOS NO NUMERICOS

ANÁLISIS DE DATOS NO NUMERICOS ANÁLISIS DE DATOS NO NUMERICOS ESCALAS DE MEDIDA CATEGORICAS Jorge Galbiati Riesco Los datos categóricos son datos que provienen de resultados de experimentos en que sus resultados se miden en escalas

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

Capítulo 1. Introducción

Capítulo 1. Introducción Capítulo 1. Introducción El WWW es la mayor fuente de imágenes que día a día se va incrementando. Según una encuesta realizada por el Centro de Bibliotecas de Cómputo en Línea (OCLC) en Enero de 2005,

Más detalles

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA Enrique Puertas epuertas@uem.es Francisco Carrero fcarrero@uem.es José María Gómez Hidalgo jmgomez@uem.es Manuel de Buenaga buenga@uem.es

Más detalles

Weka como herramienta de data mining

Weka como herramienta de data mining Weka como herramienta de data mining Lic. Aldave Rojas Isaac Alberto Instituto Tecnológico Superior de Ciudad Serdán Abstract El presente trabajo muestra un ejemplo introductorio a la herramienta de Data

Más detalles

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces

Más detalles

Análisis de los datos

Análisis de los datos Universidad Complutense de Madrid CURSOS DE FORMACIÓN EN INFORMÁTICA Análisis de los datos Hojas de cálculo Tema 6 Análisis de los datos Una de las capacidades más interesantes de Excel es la actualización

Más detalles

David Jordi Vallet Weadon. <david.vallet@uam.es>

David Jordi Vallet Weadon. <david.vallet@uam.es> David Jordi Vallet Weadon 1 Introducción Durante las últimas décadas, la personalización ha sido aplicada en diferentes campos de la informática, tanto en la rama científica como

Más detalles

Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides

Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides Introducción La visión artificial, también conocida como visión por computador

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

Clasificación Automática de Textos de Desastres Naturales en México

Clasificación Automática de Textos de Desastres Naturales en México Clasificación Automática de Textos de Desastres Naturales en México Alberto Téllez-Valero, Manuel Montes-y-Gómez, Olac Fuentes-Chávez, Luis Villaseñor-Pineda Instituto Nacional de Astrofísica, Óptica y

Más detalles

REGRESIÓN LINEAL MÚLTIPLE

REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN LINEAL MÚLTIPLE.- Planteamiento general....- Métodos para la selección de variables... 5 3.- Correlaciones parciales y semiparciales... 8 4.- Multicolinealidad en las variables explicativas...

Más detalles

Tema 4:Segmentación de imágenes

Tema 4:Segmentación de imágenes Tema 4:Segmentación de imágenes La segmentación de imágenes divide la imagen en sus partes constituyentes hasta un nivel de subdivisión en el que se aíslen las regiones u objetos de interés. Los algoritmos

Más detalles

Experimentos con un solo factor: El análisis de varianza. Jhon Jairo Padilla Aguilar, PhD.

Experimentos con un solo factor: El análisis de varianza. Jhon Jairo Padilla Aguilar, PhD. Experimentos con un solo factor: El análisis de varianza Jhon Jairo Padilla Aguilar, PhD. Experimentación en sistemas aleatorios: Factores Controlables Entradas proceso Salidas Factores No controlables

Más detalles

T E C N O L O G Í A OPTIMIZACIÓN DE MATERIALES MEDIANTE PATRONES DE CORTE EFICIENTE. Aplicación. a la INDUSTRIA

T E C N O L O G Í A OPTIMIZACIÓN DE MATERIALES MEDIANTE PATRONES DE CORTE EFICIENTE. Aplicación. a la INDUSTRIA OPTIMIZACIÓN DE MATERIALES MEDIANTE PATRONES DE CORTE EFICIENTE Aplicación a la INDUSTRIA de la construcción 1 El presente estudio propone el uso de un algoritmo comúnmente utilizado en la rama de investigación

Más detalles

Aplicaciones de Estadística Descriptiva

Aplicaciones de Estadística Descriptiva Aplicaciones de Estadística Descriptiva Contenidos de la presentación Funciones estadísticas en Excel. Gráficos. El módulo de análisis de datos y las tablas dinámicas de Excel. Información Intentaremos

Más detalles

La práctica del análisis de correspondencias

La práctica del análisis de correspondencias La práctica del análisis de correspondencias MICHAEL GREENACRE Catedrático de Estadística en la Universidad Pompeu Fabra Separata del capítulo 18 Análisis de correspondencias múltiples Primera edición:

Más detalles

La práctica del análisis de correspondencias

La práctica del análisis de correspondencias La práctica del análisis de correspondencias MICHAEL GREENACRE Catedrático de Estadística en la Universidad Pompeu Fabra Separata del capítulo Biplots en análisis de correspondencias Primera edición: julio

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

PRESENTACIÓN DE LOS MÉTODOS DE CLASIFICACIÓN. Eduardo CRIVISQUI

PRESENTACIÓN DE LOS MÉTODOS DE CLASIFICACIÓN. Eduardo CRIVISQUI PRESENTACIÓN DE LOS MÉTODOS DE CLASIFICACIÓN Eduardo CRIVISQUI ADVERTENCIA SÓLO EL CONOCIMIENTO DE LAS PROPIEDADES LÓGICAS DE LOS MÉTODOS ESTADÍSTICOS PERMITE EVITAR EL EMPLEO «A CIEGAS» DE LOS MISMOS.

Más detalles

Aplicación de la inteligencia artificial a la resolución del problema de asignación de estudiantes del departamento de PDI

Aplicación de la inteligencia artificial a la resolución del problema de asignación de estudiantes del departamento de PDI Aplicación de la inteligencia artificial a la resolución del problema de asignación de estudiantes del departamento de PDI Ricardo Köller Jemio Departamento de Ciencias Exactas e Ingeniería, Universidad

Más detalles

Integrando Información de Fuentes Relevantes para un Sistema Recomendador

Integrando Información de Fuentes Relevantes para un Sistema Recomendador Integrando Información de Fuentes Relevantes para un Sistema Recomendador Silvana Aciar, Josefina López Herrera and Javier Guzmán Obando Agents Research Laboratory University of Girona {saciar, jguzmano}@eia.udg.es,

Más detalles

UNIDAD DIDÁCTICA 7 ANÁLISIS DE ÍTEMS Y BAREMACIÓN DE UN TEST

UNIDAD DIDÁCTICA 7 ANÁLISIS DE ÍTEMS Y BAREMACIÓN DE UN TEST UNIDAD DIDÁCTICA 7 ANÁLISIS DE ÍTEMS Y BAREMACIÓN DE UN TEST 7.1. ANÁLISIS DE LOS ÍTEMS Al comenzar la asignatura ya planteábamos que uno de los principales problemas a los que nos enfrentábamos a la hora

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

Sistema categorizador de ofertas de empleo informáticas

Sistema categorizador de ofertas de empleo informáticas Diego Expósito Gil diegoexpositogil@hotmail.com Manuel Fidalgo Sicilia Manuel_fidalgo@hotmail.com Diego Peces de Lucas pecesdelucas@hotmail.com Sistema categorizador de ofertas de empleo informáticas 1.

Más detalles

Análisis multivariable

Análisis multivariable Análisis multivariable Las diferentes técnicas de análisis multivariante cabe agruparlas en tres categorías: «Análisis de dependencia» tratan de explicar la variable considerada independiente a través

Más detalles

Capítulo 17 Análisis de correlación lineal: Los procedimientos Correlaciones bivariadas y Correlaciones parciales

Capítulo 17 Análisis de correlación lineal: Los procedimientos Correlaciones bivariadas y Correlaciones parciales Capítulo 17 Análisis de correlación lineal: Los procedimientos Correlaciones bivariadas y Correlaciones parciales Cuando se analizan datos, el interés del analista suele centrarse en dos grandes objetivos:

Más detalles

Métodos de la Minería de Datos

Métodos de la Minería de Datos This is page i Printer: Opaue this Métodos de la Minería de Datos Dr. Oldemar Rodríguez Rojas de noviembre de 2005 ii Contents This is page iii Printer: Opaue this iv This is page v Printer: Opaue this

Más detalles

Recuperación de información desde diferentes perspectivas

Recuperación de información desde diferentes perspectivas Recuperación de información desde diferentes perspectivas Grupo de Ingeniería Telemática Facultad de Informática Universidade de A Coruña Diego Fernández, Víctor Carneiro, Francisco Novoa, Xacobe Macía

Más detalles

CLASIFICACIÓN TEXTUAL BASADA EN TÉRMINOS JERÁRQUICOS

CLASIFICACIÓN TEXTUAL BASADA EN TÉRMINOS JERÁRQUICOS XXV Jornadas de Automática Ciudad Real, del 8 al 10 de septiembre de 2004 CLASIFICACIÓN TEXTUAL BASADA EN TÉRMINOS JERÁRQUICOS Francisco Javier Panizo, José R. Villar, Ángel Alonso Área de Ingeniería de

Más detalles

SEGURIDAD Y PROTECCION DE FICHEROS

SEGURIDAD Y PROTECCION DE FICHEROS SEGURIDAD Y PROTECCION DE FICHEROS INTEGRIDAD DEL SISTEMA DE ARCHIVOS ATAQUES AL SISTEMA PRINCIPIOS DE DISEÑO DE SISTEMAS SEGUROS IDENTIFICACIÓN DE USUARIOS MECANISMOS DE PROTECCIÓN Y CONTROL INTEGRIDAD

Más detalles

CREACIÓN DE UNA TIPOLOGÍA DE GENES MEDIANTE TÉCNICAS DE DATA MINING PARA Drosophila

CREACIÓN DE UNA TIPOLOGÍA DE GENES MEDIANTE TÉCNICAS DE DATA MINING PARA Drosophila CREACIÓN DE UNA TIPOLOGÍA DE GENES MEDIANTE TÉCNICAS DE DATA MINING PARA Drosophila Ramón Álvarez 1 Flavio Pazos 2 Adrián Valentín 2 Curso de data Mining-2012,Instituto Pasteur 1 IESTA(Instituto de Estadística)

Más detalles

Encuesta Permanente de Hogares

Encuesta Permanente de Hogares Minería de Datos Aplicada a la Encuesta Permanente de Hogares Disertante: Luis Alfonso Cutro Adscripto a la asignatura Diseño y Administración de Datos. Prof. Coordinador: Mgter. David Luís la Red Martínez

Más detalles

Los modelos que permite construir el ANOVA pueden ser reducidos a la siguiente forma:

Los modelos que permite construir el ANOVA pueden ser reducidos a la siguiente forma: Ignacio Martín Tamayo 25 Tema: ANÁLISIS DE VARIANZA CON SPSS 8.0 ÍNDICE --------------------------------------------------------- 1. Modelos de ANOVA 2. ANOVA unifactorial entregrupos 3. ANOVA multifactorial

Más detalles

DYANE Versión 4 Diseño y Análisis de Encuestas

DYANE Versión 4 Diseño y Análisis de Encuestas DYANE Versión 4 Diseño y Análisis de Encuestas Miguel Santesmases Mestre 1. DESCRIPCIÓN GENERAL DEL PROGRAMA DYANE 1. FINALIDAD Y MÉTODO DEL PROGRAMA DYANE (Diseño y Análisis de Encuestas) es un programa

Más detalles

Precio del alquiler de pisos durante una serie de meses. Evolución del índice del precio del trigo con mediciones anuales.

Precio del alquiler de pisos durante una serie de meses. Evolución del índice del precio del trigo con mediciones anuales. Series Temporales Introducción Una serie temporal se define como una colección de observaciones de una variable recogidas secuencialmente en el tiempo. Estas observaciones se suelen recoger en instantes

Más detalles

Sistema de Recuperación de Información Motor de Búsqueda: Innuendo

Sistema de Recuperación de Información Motor de Búsqueda: Innuendo Sistema de Recuperación de Información Motor de Búsqueda: Innuendo Epifanio Tula, Luis Gerónimo Medeot, Matías Daniel Universidad Tecnológica Nacional, Facultad Regional Córdoba Abstract El presente trabajo

Más detalles

Construcción de cubos OLAP utilizando Business Intelligence Development Studio

Construcción de cubos OLAP utilizando Business Intelligence Development Studio Universidad Católica de Santa María Facultad de Ciencias e Ingenierías Físicas y Formales Informe de Trabajo Construcción de cubos OLAP utilizando Business Intelligence Development Studio Alumnos: Solange

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente Agüero Martin Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.marin@gmail.com López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 12 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 12 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 12 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Fundamentos de clustering Ejemplo inicial Aplicaciones

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu Agüero Martín Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.martin@gmail.com

Más detalles

EJERCICIO. Clasificación No Supervisada

EJERCICIO. Clasificación No Supervisada EJERCICIO Clasificación No Supervisada Este ejercicio consiste en manejar las imágenes satelitales para hacer una interpretación del tipo de cobertura que representan. Basándose en la manipulación numérica

Más detalles

270028 - CAIM - Búsqueda y Análisis de Información Masiva

270028 - CAIM - Búsqueda y Análisis de Información Masiva Unidad responsable: 270 - FIB - Facultad de Informática de Barcelona Unidad que imparte: 723 - CS - Departamento de Ciencias de la Computación Curso: Titulación: 2015 GRADO EN INGENIERÍA INFORMÁTICA (Plan

Más detalles

Tema 2. Espacios Vectoriales. 2.1. Introducción

Tema 2. Espacios Vectoriales. 2.1. Introducción Tema 2 Espacios Vectoriales 2.1. Introducción Estamos habituados en diferentes cursos a trabajar con el concepto de vector. Concretamente sabemos que un vector es un segmento orientado caracterizado por

Más detalles

Planificación y Control de Proyectos de Software mediante MS Project

Planificación y Control de Proyectos de Software mediante MS Project Práctica 2 Planificación y Control de Proyectos de Software mediante MS Project E n esta práctica vamos a introducirnos en la Planificación y Control de Proyectos de Software mediante herramientas informáticas

Más detalles

Notas. Modelo conceptual para el diseño e implementación del sitio web de un museo regional * Resumen. 1. Introducción y formulación del problema

Notas. Modelo conceptual para el diseño e implementación del sitio web de un museo regional * Resumen. 1. Introducción y formulación del problema Notas Modelo conceptual para el diseño e implementación del sitio web de un museo regional * Resumen El presente artículo propone el modelo conceptual para la creación de un sitio Web de un museo regional

Más detalles

Lección n 5. Modelos de distribución n potencial de especies

Lección n 5. Modelos de distribución n potencial de especies Lección n 5. Modelos de distribución n potencial de especies 1. Elaboración de modelos de distribución de especies. a. Planteamiento. El modelado del nicho ambiental se basa en el principio de que la distribución

Más detalles

Espacios Vectoriales

Espacios Vectoriales Espacios Vectoriales Departamento de Matemáticas, CCIR/ITESM 4 de enero de 2 Índice 3.. Objetivos................................................ 3.2. Motivación...............................................

Más detalles

www.bvbusiness-school.com

www.bvbusiness-school.com Gráficos de Control de Shewart www.bvbusiness-school.com GRÁFICOS DE CONTROL DE SHEWART Una de las herramientas estadísticas más importantes en el Control Estadístico de Procesos son los Gráficos de Control.

Más detalles

Aritmética finita y análisis de error

Aritmética finita y análisis de error Aritmética finita y análisis de error Escuela de Ingeniería Informática de Oviedo (Dpto. de Matemáticas-UniOvi) Computación Numérica Aritmética finita y análisis de error 1 / 47 Contenidos 1 Sistemas decimal

Más detalles

ANÁLISIS DISCRIMINANTE

ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE 1. Introducción 2. Etapas 3. Caso práctico Análisis de dependencias introducción varias relaciones una relación 1 variable dependiente > 1 variable dependiente

Más detalles

Algoritmos exactos y heurísticos para minimizar el adelantamiento y retraso ponderados en una máquina con una fecha de entrega común

Algoritmos exactos y heurísticos para minimizar el adelantamiento y retraso ponderados en una máquina con una fecha de entrega común Algoritmos... en una máquina con una fecha de entrega común Algoritmos exactos y heurísticos para minimizar el adelantamiento y retraso ponderados en una máquina con una fecha de entrega común R. Alvarez-Valdés,

Más detalles

Sistemas operativos avanzados. 1.3 Algoritmos de planificación del procesador

Sistemas operativos avanzados. 1.3 Algoritmos de planificación del procesador Sistemas operativos avanzados 1.3 Algoritmos de planificación del procesador Parámetros Cuando tenemos más de un proceso en condiciones de ejecutar, debemos escoger uno de entre ellos. Para escogerlo empleamos

Más detalles

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales Elkin García, Germán Mancera, Jorge Pacheco Presentación Los autores han desarrollado un método de clasificación de música a

Más detalles

SESIÓN PRÁCTICA 6: CONTRASTES DE HIPÓTESIS PROBABILIDAD Y ESTADÍSTICA. PROF. Esther González Sánchez. Departamento de Informática y Sistemas

SESIÓN PRÁCTICA 6: CONTRASTES DE HIPÓTESIS PROBABILIDAD Y ESTADÍSTICA. PROF. Esther González Sánchez. Departamento de Informática y Sistemas SESIÓN PRÁCTICA 6: CONTRASTES DE HIPÓTESIS PROBABILIDAD Y ESTADÍSTICA PROF. Esther González Sánchez Departamento de Informática y Sistemas Facultad de Informática Universidad de Las Palmas de Gran Canaria

Más detalles

Un ejemplo de ACP paso a paso

Un ejemplo de ACP paso a paso Un ejemplo de ACP paso a paso Francesc Carmona Departament d Estadística 13 de enero de 2014 1. Introducción Para ilustrar el procedimiento de cálculo, partamos de un ejemplo en el que disponemos de la

Más detalles

TEMA 4: Introducción al Control Estadístico de Procesos

TEMA 4: Introducción al Control Estadístico de Procesos TEMA 4: Introducción al Control Estadístico de Procesos 1 Introducción 2 Base estadística del diagrama de control 3 Muestreo y agrupación de datos 4 Análisis de patrones en diagramas de control 1. Introducción

Más detalles

SISTEMAS INTELIGENTES

SISTEMAS INTELIGENTES SISTEMAS INTELIGENTES T11: Métodos Kernel: Máquinas de vectores soporte {jdiez, juanjo} @ aic.uniovi.es Índice Funciones y métodos kernel Concepto: representación de datos Características y ventajas Funciones

Más detalles

Modeling the Retrieval Process for an Information Retrieval System using an Ordinal Fuzzy Linguistic Approach

Modeling the Retrieval Process for an Information Retrieval System using an Ordinal Fuzzy Linguistic Approach JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 52(6):460-475, 2001 Modeling the Retrieval Process for an Information Retrieval System using an Ordinal Fuzzy Linguistic Approach

Más detalles

Empresa o Entidad C.A Electricidad de Valencia. Autores del Trabajo Nombre País e-mail Jimmy Martínez Venezuela jmartinez@eleval.

Empresa o Entidad C.A Electricidad de Valencia. Autores del Trabajo Nombre País e-mail Jimmy Martínez Venezuela jmartinez@eleval. Título Estudio Estadístico de Base de Datos Comercial de una Empresa Distribuidora de Energía Eléctrica. Nº de Registro 231 Empresa o Entidad C.A Electricidad de Valencia Autores del Trabajo Nombre País

Más detalles

El diseño de la base de datos de un Data Warehouse. Marta Millan millan@eisc.univalle.edu.co www.eisc.univalle.edu.co/materias

El diseño de la base de datos de un Data Warehouse. Marta Millan millan@eisc.univalle.edu.co www.eisc.univalle.edu.co/materias El diseño de la base de datos de un Data Warehouse Marta Millan millan@eisc.univalle.edu.co www.eisc.univalle.edu.co/materias El modelo Multidimensional Principios básicos Marta Millan millan@eisc.univalle.edu.co

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

INDICADORES POR ENCUESTA. Cuaderno Práctico -1 -

INDICADORES POR ENCUESTA. Cuaderno Práctico -1 - INDICADORES POR ENCUESTA Cuaderno Práctico -1 - ÍNDICE Elaboración del CUESTIONARIO...- 4 - Selección de la MUESTRA...- 5 - APLICACIÓN del cuestionario...- 7 - MECANIZACIÓN de datos...- 8 - Cálculo de

Más detalles

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. 2.1 Revisión sistema reconocimiento caracteres [9]: Un sistema de reconocimiento típicamente esta conformado por

Más detalles

Conjuntos y Sistemas Difusos (Lógica Difusa y Aplicaciones)

Conjuntos y Sistemas Difusos (Lógica Difusa y Aplicaciones) Departamento de enguajes y Ciencias de la Computación Universidad de Málaga Conjuntos y Sistemas Difusos (ógica Difusa y Aplicaciones) 5. Variables ingüísticas E.T.S.I. Informática J. Galindo Gómez VARIABES

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases.

BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases. BASES Y DIMENSIÓN Definición: Base. Se llama base de un espacio (o subespacio) vectorial a un sistema generador de dicho espacio o subespacio, que sea a la vez linealmente independiente. β Propiedades

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

ANÁLISIS ESTADÍSTICO DE ALGUNAS CARACTERÍSTICAS DEL MAGISTERIO FISCAL DE LA PROVINCIA DE CHIMBORAZO

ANÁLISIS ESTADÍSTICO DE ALGUNAS CARACTERÍSTICAS DEL MAGISTERIO FISCAL DE LA PROVINCIA DE CHIMBORAZO ANÁLISIS ESTADÍSTICO DE ALGUNAS CARACTERÍSTICAS DEL MAGISTERIO FISCAL DE LA PROVINCIA DE CHIMBORAZO Pablo Alejandro Wong Murillo (1) Gudencio Zurita Herrera (2) (1) Ingeniero en Estadística Informática

Más detalles

INSTRUCTIVO PARA LA CUENTA DE PUNTOS FUNCIÓN

INSTRUCTIVO PARA LA CUENTA DE PUNTOS FUNCIÓN INSTRUCTIVO PARA LA CUENTA DE PUNTOS FUNCIÓN INDICE Introducción...2 Frontera de la aplicación...3 Cuenta de Puntos Función sin ajustar...3 Funciones de Datos...4 Funciones Transaccionales...4 Mecanismo...5

Más detalles

Organización del Computador. Prof. Angela Di Serio

Organización del Computador. Prof. Angela Di Serio Punto Flotante Muchas aplicaciones requieren trabajar con números que no son enteros. Existen varias formas de representar números no enteros. Una de ellas es usando un punto o coma fijo. Este tipo de

Más detalles

Proyecto de Innovación Docente: Guía multimedia para la elaboración de un modelo econométrico.

Proyecto de Innovación Docente: Guía multimedia para la elaboración de un modelo econométrico. 1 Primeros pasos en R. Al iniciarse R (ver Figura 16), R espera la entrada de órdenes y presenta un símbolo para indicarlo. El símbolo asignado, como puede observarse al final, es > Figura 16. Pantalla

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

Ejemplos de conversión de reales a enteros

Ejemplos de conversión de reales a enteros Ejemplos de conversión de reales a enteros Con el siguiente programa se pueden apreciar las diferencias entre las cuatro funciones para convertir de reales a enteros: program convertir_real_a_entero print

Más detalles

Una heurística para la asignación de máquinas a trabajos fijos

Una heurística para la asignación de máquinas a trabajos fijos VIII Congreso de Ingeniería de Organización Leganés, 9 y 10 de septiembre de 2004 Una heurística para la asignación de máquinas a trabajos fijos José Manuel García Sánchez, Marcos Calle Suárez, Gabriel

Más detalles