Clasificación Bayesiana de textos y páginas web

Save this PDF as:
 WORD  PNG  TXT  JPG

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Clasificación Bayesiana de textos y páginas web"

Transcripción

1 Clasificación Bayesiana de textos y páginas web Curso de doctorado: Ingeniería Lingüística aplicada al Procesamiento de Documentos Víctor Fresno Fernández

2 Introducción Enorme cantidad de información en formato digital Web creciente y heterogénea Aplicación de técnicas desde diferentes ámbitos Data Mining (Web Mining) Bases de datos Recuperación de Información Inteligencia Artificial (AI) (especialmente desde el Procesamiento de Lenguaje Natural) Aprendizaje Automático...

3 Introducción El acceso a la información web se realiza principalmente Motores de búsqueda (search engines). Se basan en la secuencia de fases: crawler, procesado e indexado, aplicación de un algoritmo de ranking. Metabuscadores Directorios Web preclasificados o portales web. La mayoría de estos portales tienen un mantenimiento manual [Barfoursh, 2002].

4 Aprendizaje Automático (Machine Learning) El uso de la experiencia de modo que el desempeño de una tarea dada resulte mejor con experiencia que sin ella [Mitchell, 1997]

5 Aprendizaje Automático (Machine Learning) Diferentes enfoques en el Aprendizaje Automático: Ap. Supervisado Clasificación Automática Ap. semi-supervisado Clasificación con pocos datos de entrenamiento y función de bondad Ap. No Supervisado Clustering

6 Clasificación automática de textos (I) La clasificación automática de textos se puede entender como aquella tarea en la que un documento, o una parte del mismo, es etiquetado como perteneciente a un determinado conjunto o grupo

7 Clasificación automática de textos (II) Necesidades de cualquier sistema de clasificación: Base matemática que derive del sistema de clasificación y que permita representar el documento - Representación Procedimientos por los cuales los documentos puedan ser clasificados automáticamente - Algoritmos de clasificación Métodos de evaluación Evaluación del sistema

8 Fase de Representación (I) La base de cualquier sistema de clasificación Automática son las palabras que contiene un documento y los significados asociados a ellas.

9 Métodos de Representación de un texto para procesamiento automático VSM (vector space model) Binary model (1,0,0,1,1,1,0 ) Bag-of-words Term weighting functions (s1,s2,s3,,sn) Binary-IDF TF-IDF LSI (latent semantic indexing) Matriz de correlación entre términos Hypernyms de WorNet Conjunto de palabras con semántica similar

10 Clasificación Naive Bayes (I) Algoritmo basado en la Teoría de la decisión de Bayes... P ( c d ) = j l P( d l c j P( d ) P( c l ) j ) Por el Principio de Independencia... P d l c j = P t i c j Y así... P c j d l = P c j P t i c j = P c j P t P d l P d l i c j La clase más probable será... c=argmax P c j d l =argmax P c j P d l P t i c j

11 Clasificación Naive Bayes (II) Como buscamos un máximo, podemos aplicar logaritmos c=argmax P c j P d l P t i c j =argmax log P c j log P d l log P t i c j El problema ahora radica en encontrar la función P(t i c j ) Modelo basado en eventos (M-estimate, multinomial,..) Modeo Gaussiano (función Normal,..)

12 Clasificación Naive Bayes (III) Modelo basado en eventos M-estimate Multinomial

13 Clasificación Naive Bayes (III) Modelo Gaussiano Normal Weighted LogNormal

14 Fase de aprendizaje (I) Aprendizaje a partir de un conjunto de textos de entrenamiento En el caso de los modelos basados en eventos se reduce a contar las frecuencias de cada palabra en el documento a clasificar, en la colección y en cada una de las clases a considerar

15 Fase de aprendizaje (II) Aprendizaje estadístico a partir de un conjunto de textos de entrenamiento Los modelos gaussianos se apoyan en una hipótesis basada en el Teorema central del límite el peso relativo de un término dentro de una página y de una determinada clase seguirá una distribución gaussiana, con valor medio µ y una desviación típica σ. Estimación paramétrica (máxima verosimilitud) N ij Nij 1 1 µ = s σ ij = ( sijk µ ij Nij k = 1 ijk N k = 1 ij ij )

16 Fase de aprendizaje (III) Aprendizaje estadístico a partir de un conjunto de textos de entrenamiento Como resultado del aprendizaje se obtiene un descriptor de clase para cada categoría La dimensión del descriptor de una clase es igual al vocabulario encontrado en el total de ejemplos pertenecientes a esa determinada clase y cada componente a su vez está formada por (palabra, µ, σ2) matriz de dim(vx3)

17 Ejemplo + + = = = )) ( log (log ) ( log arg 1 1 j k N k N m ml k j j c w P s s c P max c + + = = = ]) 2 1 exp 2 1 log[ (log ) ( log arg kj kj k kj N k N m ml k j j s s s c P max c σ µ πσ

18 Evaluación (I) Se basa en 4 cantidades, que dependiendo de cómo se combinen constituyen diferentes medidas: b) Verdaderos positivos c) Verdaderos negativos d) Falsos positivos e) Falsos negativos Algunos ejemplos de medidas: Precision, p = a / (a + b) Recall, r = a / ( a + c ) Fallout, f = b / ( b + d ) Accuracy, Acc = ( a + d ), n = ( a + b + c + d )>0 Error, Err = ( b + c ) / n, n = ( a + b + c + d )>0

19 Evaluación (II) Las medidas deben combinarse para no llevarnos a conclusiones erróneas Existen medidas que combinan estas cantidades: 11-point average precision, el punto en que la Precision y el Recall son iguales Medida F (f-measure) que combina Precision y Recall

20 Bibliografía [Barfoursh, 2002] A. Abdollahzadeh Barfourosh and H.R. Motahary Nezhad and M. L. Anderson and D. Perlis. Information Retrieval on the World Wide Web and Active Logic: A Survey and Problem Definition. [Mitchell, 1997] Tom M. Mitchell. Machine Learning. McGraw-Hill International Editions.

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Mestrado Universitario Língua e usos profesionais Miguel A. Alonso Jesús Vilares Departamento de Computación Facultad

Más detalles

Procesamiento de Texto y Modelo Vectorial

Procesamiento de Texto y Modelo Vectorial Felipe Bravo Márquez 6 de noviembre de 2013 Motivación Cómo recupera un buscador como Google o Yahoo! documentos relevantes a partir de una consulta enviada? Cómo puede procesar una empresa los reclamos

Más detalles

Método Supervisado orientado a la clasificación automática de documentos. Caso Historias Clínicas

Método Supervisado orientado a la clasificación automática de documentos. Caso Historias Clínicas Método Supervisado orientado a la clasificación automática de documentos. Caso Historias Clínicas Roque E. López Condori 1 Dennis Barreda Morales 2 Javier Tejada Cárcamo 2 Luis Alfaro Casas 1 1 Universidad

Más detalles

Deep Learning y Big Data

Deep Learning y Big Data y Eduardo Morales, Enrique Sucar INAOE (INAOE) 1 / 40 Contenido 1 2 (INAOE) 2 / 40 El poder tener una computadora que modele el mundo lo suficientemente bien como para exhibir inteligencia ha sido el foco

Más detalles

Clasificación Automática de Textos de Desastres Naturales en México

Clasificación Automática de Textos de Desastres Naturales en México Clasificación Automática de Textos de Desastres Naturales en México Alberto Téllez-Valero, Manuel Montes-y-Gómez, Olac Fuentes-Chávez, Luis Villaseñor-Pineda Instituto Nacional de Astrofísica, Óptica y

Más detalles

340455 - REIN-I7P23 - Recuperación de la Información

340455 - REIN-I7P23 - Recuperación de la Información Unidad responsable: 340 - EPSEVG - Escuela Politécnica Superior de Ingeniería de Vilanova i la Geltrú Unidad que imparte: 723 - CS - Departamento de Ciencias de la Computación Curso: Titulación: 2015 GRADO

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.ar/ laura SADIO 12, 13 y 14 de Marzo de 2008 grupo de PLN en FaMAF http://www.cs.famaf.unc.edu.ar/ pln/

Más detalles

PLANIFICACIÓN DE LA DOCENCIA UNIVERSITARIA GUÍA DOCENTE. Datamining y Aprendizaje Automático

PLANIFICACIÓN DE LA DOCENCIA UNIVERSITARIA GUÍA DOCENTE. Datamining y Aprendizaje Automático CENTRO UNIVERSITARIO DE TECNOLOGÍA Y ARTE DIGITAL PLANIFICACIÓN DE LA DOCENCIA UNIVERSITARIA GUÍA DOCENTE Datamining y Automático 1. DATOS DE IDENTIFICACIÓN DE LA ASIGNATURA. Título: Facultad: Grado en

Más detalles

Algoritmos y Estructuras de Datos 2. Web Mining Esteban Meneses

Algoritmos y Estructuras de Datos 2. Web Mining Esteban Meneses Algoritmos y Estructuras de Datos 2 Web Mining Esteban Meneses 2005 Motivación La Web contiene miles de millones de documentos con información sobre casi cualquier tópico. Es la Biblioteca de Alejandría

Más detalles

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Emmanuel Anguiano-Hernández Abril 29, 2009 Abstract Tratando de mejorar el desempeño de un clasificador Naive

Más detalles

Aprendizaje Computacional. Eduardo Morales y Jesús González

Aprendizaje Computacional. Eduardo Morales y Jesús González Aprendizaje Computacional Eduardo Morales y Jesús González Objetivo General La capacidad de aprender se considera como una de los atributos distintivos del ser humano y ha sido una de las principales áreas

Más detalles

Clasificación de Documentos usando Naive Bayes Multinomial y Representaciones Distribucionales

Clasificación de Documentos usando Naive Bayes Multinomial y Representaciones Distribucionales Clasificación de Documentos usando Naive Bayes Multinomial y Representaciones Distribucionales Juan Manuel Cabrera Jiménez 1 and Fabricio O. Pérez Pérez 1 Instituto Nacional de Astrofísica Óptica y Electrónica,

Más detalles

Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web

Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web A Comparison of Approaches to Semi-supervised Multiclass SVM for Web Page Classification Arkaitz Zubiaga,

Más detalles

270028 - CAIM - Búsqueda y Análisis de Información Masiva

270028 - CAIM - Búsqueda y Análisis de Información Masiva Unidad responsable: 270 - FIB - Facultad de Informática de Barcelona Unidad que imparte: 723 - CS - Departamento de Ciencias de la Computación Curso: Titulación: 2015 GRADO EN INGENIERÍA INFORMÁTICA (Plan

Más detalles

ASIGNATURA FECHA HORA AULA. Matemática Discreta 25-ene 16,00-19,00 LAB. 7. Álgebra Lineal 06-feb 09,00-12,00 LAB. 7

ASIGNATURA FECHA HORA AULA. Matemática Discreta 25-ene 16,00-19,00 LAB. 7. Álgebra Lineal 06-feb 09,00-12,00 LAB. 7 EXÁMENES FEBRERO - CURSO 2015-2016 PRIMER CURSO - GRUPO B Matemática Discreta 25-ene 16,00-19,00 LAB. 7 Álgebra Lineal 06-feb 09,00-12,00 LAB. 7 EXÁMENES JUNIO - CURSO 2015-2016 PRIMER CURSO - GRUPO B

Más detalles

Google: Una oportunidad para la evolución de las Bibliotecas

Google: Una oportunidad para la evolución de las Bibliotecas Google: Una oportunidad para la evolución de las Bibliotecas Elizabeth Cañón Acosta elizadavaes@gmail.com Universidad de la Salle Resumen El uso generalizado de Google como herramienta de búsqueda de información

Más detalles

Ordenamiento de imágenes Web de acuerdo a su relevancia utilizando un enfoque de fusión multimodal

Ordenamiento de imágenes Web de acuerdo a su relevancia utilizando un enfoque de fusión multimodal Ordenamiento de imágenes Web de acuerdo a su relevancia utilizando un enfoque de fusión multimodal Reporte final Ricardo Omar Chávez García Instituto Nacional de Astrofísica Óptica y Electrónica, 72840

Más detalles

Tesis doctoral. Método general de Extracción de Información basado en el uso de Lógica Borrosa. Aplicación en portales web.

Tesis doctoral. Método general de Extracción de Información basado en el uso de Lógica Borrosa. Aplicación en portales web. ESCUELA TÉCNICA SUPERIOR DE INGENIERÍA INFORMÁTICA Departamento de Tecnología Electrónica Tesis doctoral Método general de Extracción de Información basado en el uso de Lógica Borrosa. Aplicación en portales

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Guía docente de la asignatura

Guía docente de la asignatura Guía docente de la asignatura Asignatura Materia Módulo Titulación TÉCNICAS DE APRENDIZAJE AUTOMÁTICO COMPUTACIÓN TECNOLOGÍAS ESPECÍFICAS GRADO EN INGENIERÍA INFORMÁTICA Plan 545 Código 46932 Periodo de

Más detalles

Recuperación de Información en el Contexto de la Ciencia de la Computación

Recuperación de Información en el Contexto de la Ciencia de la Computación Recuperación de Información en el Contexto de la Ciencia de la Computación Edgar Casasola Murillo Universidad de Costa Rica Escuela de Ciencias de la Computación edgar.casasola@ecci.ucr.ac.cr Temas tratados

Más detalles

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos Anteproyecto de Tesis de Magíster en Ingeniería del Software Tesista: Lic. Matilde

Más detalles

Inteligencia Artificial en Redes Sociales: la IA 2.0. Carlos A. Iglesias Univ. Politécnica Madrid. Santiago de Compostela, 2010

Inteligencia Artificial en Redes Sociales: la IA 2.0. Carlos A. Iglesias Univ. Politécnica Madrid. Santiago de Compostela, 2010 Inteligencia Artificial en Redes Sociales: la IA 2.0 Carlos A. Iglesias Univ. Politécnica Madrid Santiago de Compostela, 2010 Índice Inteligencia Colectiva Recomendación colectiva Minería de Opiniones

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Universidad Rey Juan Carlos. Representación Autocontenida de Documentos HTML: una propuesta basada en Combinaciones Heurísticas de Criterios

Universidad Rey Juan Carlos. Representación Autocontenida de Documentos HTML: una propuesta basada en Combinaciones Heurísticas de Criterios Universidad Rey Juan Carlos Representación Autocontenida de Documentos HTML: una propuesta basada en Combinaciones Heurísticas de Criterios TESIS DOCTORAL Víctor Diego Fresno Fernández 2006 Universidad

Más detalles

Evolución de la IR Web e Integración de PLN y Web Semántica en los modelos clásicos de IR

Evolución de la IR Web e Integración de PLN y Web Semántica en los modelos clásicos de IR El futuro de los buscadores: Nuevas tendencias en Recuperación de Información Evolución de la IR Web e Integración de PLN y Web Semántica en los modelos clásicos de IR FESABID 2007 José Ramón Pérez Agüera

Más detalles

Capítulo 1. Introducción

Capítulo 1. Introducción Capítulo 1. Introducción El WWW es la mayor fuente de imágenes que día a día se va incrementando. Según una encuesta realizada por el Centro de Bibliotecas de Cómputo en Línea (OCLC) en Enero de 2005,

Más detalles

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA Enrique Puertas epuertas@uem.es Francisco Carrero fcarrero@uem.es José María Gómez Hidalgo jmgomez@uem.es Manuel de Buenaga buenga@uem.es

Más detalles

Las Matemáticas En Ingeniería

Las Matemáticas En Ingeniería Las Matemáticas En Ingeniería 1.1. Referentes Nacionales A nivel nacional se considera que el conocimiento matemático y de ciencias naturales, sus conceptos y estructuras, constituyen una herramienta para

Más detalles

Ranking y Filtro. 3.1. Recuperación de Información

Ranking y Filtro. 3.1. Recuperación de Información Capítulo 3 Ranking y Filtro 3.1. Recuperación de Información En los sistemas de motores de búsqueda de la Web, así como en los sistemas de recuperación de información clásicos, se define un documento como

Más detalles

Cómo se usa Data Mining hoy?

Cómo se usa Data Mining hoy? Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta

Más detalles

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.ar/~laura SADIO 26 de Marzo, 9 y 23 de Abril y 7 de mayo de 2010 grupo de PLN en FaMAF http://www.cs.famaf.unc.edu.ar/~pln/

Más detalles

Detección de perfiles de liderazgo en Sistemas Colaborativos Soportados por Computadoras

Detección de perfiles de liderazgo en Sistemas Colaborativos Soportados por Computadoras Detección de perfiles de liderazgo en Sistemas Colaborativos Soportados por Computadoras María Florencia Bugarini Directora: Dra. Silvia Schiaffino Codirector: Mg. Patricio García UNICEN Abril 2011 Motivación

Más detalles

http://swoogle.umbc.edu/

http://swoogle.umbc.edu/ Sistemas de Representación y Procesamiento Automático del Conocimiento http://swoogle.umbc.edu/ ://swoogle.umbc.edu Consuelo Barberá Mercé Millet Emiliano Torres Valencia, 22 de mayo de 2006 Qué es? Un

Más detalles

Minería de texto para la categorización automática de documentos

Minería de texto para la categorización automática de documentos Minería de texto para la categorización automática de documentos M. Alicia Pérez Abelleira y Carolina A. Cardoso * aperez@ucasal.net Resumen La clasificación de documentos de texto es una aplicación de

Más detalles

EXPERTO EN DATA SCIENCE

EXPERTO EN DATA SCIENCE POSTgrado Ingeniería EXPERTO EN DATA SCIENCE Machine Learning (Aprendizaje Automático) Data Analytics Data Science RStudio Caret Storm Spark Random Forest IPython NumPy Recall F-Measure A/B Testing Active

Más detalles

Curso de Inteligencia Artificial

Curso de Inteligencia Artificial Curso de Inteligencia Artificial Introducción al Aprendizaje Automático Gibran Fuentes Pineda IIMAS, UNAM Definición El aprendizaje automático es el estudio de los metodos para programar las computadoras

Más detalles

Sistema categorizador de ofertas de empleo informáticas

Sistema categorizador de ofertas de empleo informáticas Diego Expósito Gil diegoexpositogil@hotmail.com Manuel Fidalgo Sicilia Manuel_fidalgo@hotmail.com Diego Peces de Lucas pecesdelucas@hotmail.com Sistema categorizador de ofertas de empleo informáticas 1.

Más detalles

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013 VivaMéxico sin PRI Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres Facultad de Ciencias de la Computación Benemérita Universidad Autónoma de Puebla Otoño 2013 IMAGENESpemexmorena Adquisición

Más detalles

Extracción de Información con Algoritmos de Clasificación

Extracción de Información con Algoritmos de Clasificación Extracción de Información con Algoritmos de Clasificación Por ALBERTO TÉLLEZ VALERO Tesis sometida como requisito parcial para obtener el grado de Maestro en Ciencias en la especialidad de Ciencias Computacionales

Más detalles

GUÍA DOCENTE TITULACIONES DE GRADO

GUÍA DOCENTE TITULACIONES DE GRADO GUÍA DOCENTE TITULACIONES DE GRADO TITULACIÓN: GRADO EN INGENIERIA INFORMATICA DE SISTEMAS DE INFORMACIÓN CURSO 2015/2016 ASIGNATURA: MINERÏA DE DATOS Nombre del Módulo o Materia al que pertenece la asignatura.

Más detalles

Introducción. Qué es machine learning? Algunos Tipos de Machine Learning. Generalización & Exploración. Ejemplos de aplicaciones en Machine Learning

Introducción. Qué es machine learning? Algunos Tipos de Machine Learning. Generalización & Exploración. Ejemplos de aplicaciones en Machine Learning Introducción Qué es aprendizaje automatizado e inferencia inductiva"? Para qué sirve? (ejemplos/aplicaciones) Tareas de aprendizaje Representación de datos Enfoques usados Concept learning: algoritmos

Más detalles

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Francisco J. Martín Mateos Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Qué es la (KE)? Definición de Wikipedia: La es una disciplina cuyo objetivo es integrar conocimiento

Más detalles

PROYECTO FIN DE CARRERA

PROYECTO FIN DE CARRERA PROYECTO FIN DE CARRERA Filtro anti-spam basado en máquinas de vectores soporte (SVM) y su integración en la herramienta MailScanner Carlos Rubio Prieto Ingeniería de Telecomunicación 01/09/2012 Desarrollo,

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

El cerebro estadístico. Guillermo Solovey. 22 de Octubre de 2014 clase 3 / 4

El cerebro estadístico. Guillermo Solovey. 22 de Octubre de 2014 clase 3 / 4 El cerebro estadístico Guillermo Solovey de Octubre de 04 clase 3 / 4 Escuela de Modelado en Neurociencias Instituto Balseiro - Centro Atómico Bariloche Plan de la clase Comparar un modelo bayesiano con

Más detalles

Similaridad y Clustering

Similaridad y Clustering Similaridad y Clustering 1 web results motivación Problema 1: ambigüedad de consultas Problema 2: construcción manual de jerarquías de tópicos y taxonomías Problema 3: acelerar búsqueda por similaridad

Más detalles

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático?

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático? Ingeniería del conocimiento Sesión 1 Por qué estudiar aprendizaje automático? 1 Agenda Qué vamos a ver en la asignatura? Para qué sirve todo esto? Cómo aprobar la asignatura? 2 Extracción del conocimiento

Más detalles

LA GESTIÓN DEL CONOCIMIENTO

LA GESTIÓN DEL CONOCIMIENTO Plan de Formación 2006 ESTRATEGIAS Y HABILIDADES DE GESTIÓN DIRECTIVA MÓDULO 9: 9 LA ADMINISTRACIÓN ELECTRÓNICA EN LA SOCIEDAD DE LA INFORMACIÓN LA GESTIÓN DEL CONOCIMIENTO José Ramón Pereda Negrete Jefe

Más detalles

TEMA 1. Introducción

TEMA 1. Introducción TEMA 1. Introducción Francisco José Ribadas Pena, Santiago Fernández Lanza Modelos de Razonamiento y Aprendizaje 5 o Informática ribadas@uvigo.es, sflanza@uvigo.es 28 de enero de 2013 1.1 Aprendizaje automático

Más detalles

Minería de Datos. Universidad Politécnica de Victoria

Minería de Datos. Universidad Politécnica de Victoria Minería de Datos Universidad Politécnica de Victoria 1 Motivación Nuevas Necesidades del Análisis de Grandes Volúmenes de Datos El aumento del volumen y variedad de información que se encuentra informatizada

Más detalles

Objetivos Generales. Objetivos específicos. Que el estudiante:

Objetivos Generales. Objetivos específicos. Que el estudiante: ASIGNATURA: MÉTODOS NUMPERICOS I (ANÁLISIS Y PROCESAMIENTO DE LOS DATOS EXPERIMENTALES CON INTRODUCCIÓN A LA COMPUTACIÓN) Objetivos Generales Comprender y manejar los conceptos relacionados con el manejo,

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

Recuperación de información desde diferentes perspectivas

Recuperación de información desde diferentes perspectivas Recuperación de información desde diferentes perspectivas Grupo de Ingeniería Telemática Facultad de Informática Universidade de A Coruña Diego Fernández, Víctor Carneiro, Francisco Novoa, Xacobe Macía

Más detalles

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial Universidad del Cauca Facultad de Ingeniería Electrónica y Telecomunicaciones Programas de Maestría y Doctorado en Ingeniería Telemática Seminario de Investigación Evaluación, limpieza y construcción de

Más detalles

Generación Automática de Resúmenes de Múltiples Documentos

Generación Automática de Resúmenes de Múltiples Documentos Generación Automática de Resúmenes de Múltiples Documentos por Esaú Villatoro Tello Lic., BUAP Tesis sometida como requisito parcial para obtener el grado de MAESTRO EN CIENCIAS EN LA ESPECIALIDAD DE CIENCIAS

Más detalles

Introducción a la Recuperación de información Information Retrieval

Introducción a la Recuperación de información Information Retrieval Introducción a la Recuperación de información Information Retrieval Raquel Trillo Lado (raqueltl@unizar.es) Sistemas de Información Curso 2012-2013 Guión: Recuperación de Información! Recuperación de información

Más detalles

Técnicas Clásicas de Segmentación de Imagen

Técnicas Clásicas de Segmentación de Imagen Técnicas Clásicas de Segmentación de Imagen Marcos Martín 21 de mayo de 2002 1. Introducción El primer paso en cualquier proceso de análisis de imagen es la segmentación. Mediante la segmentación vamos

Más detalles

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA M.ª del Pilar Cantero Blanco Jefa de Servicio de Sistemas Informáticos. Subdirección General de Planificación

Más detalles

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile.

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile. Los futuros desafíos de la Inteligencia de Negocios Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile.cl El Vértigo de la Inteligencia de Negocios CRM: Customer

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP Universidad Politécnica de Puebla UPP JESÚS ANTONIO GONZÁLEZ BERNAL 1 2 Evolución de la Tecnología BD 1960 s y antes Creación de las BD en archivos primitivos 1970 s hasta principios de los 1980 s BD Jerárquicas

Más detalles

Evaluación del clustering de páginas web mediante funciones de peso y combinación heurística de criterios

Evaluación del clustering de páginas web mediante funciones de peso y combinación heurística de criterios Procesamiento del Lenguaje Natural, núm. 35 (2005), pp. 417-424 recibido 29-04-2005; aceptado 01-06-2005 Evaluación del clustering de páginas web mediante funciones de peso y combinación heurística de

Más detalles

Recuperación de información visual utilizando descriptores conceptuales

Recuperación de información visual utilizando descriptores conceptuales Recuperación de información visual utilizando descriptores conceptuales J. Benavent, X. Benavent y E. de Ves Departament d Informàtica (Universitat de València) {esther.deves,xaro.benavent}@uv.es Abstract.

Más detalles

HACIA LA RECUPERACION DE INFORMACIÓN ESPECIFICA DE LA WEB

HACIA LA RECUPERACION DE INFORMACIÓN ESPECIFICA DE LA WEB a HACIA LA RECUPERACION DE INFORMACIÓN ESPECIFICA DE LA WEB Delia Irazú Hernández Farías a, Luis Ernesto Mancilla Espinoza a, J. Guadalupe Ramos Díaz b División de Estudios de Posgrado e Investigación,

Más detalles

Tema 5.2: Tecnología Comercio Electrónico B2C

Tema 5.2: Tecnología Comercio Electrónico B2C Tema 5.2: Tecnología Comercio Electrónico B2C Tecnologías B2C (1) Se han desarrollado diversas herramientas tecnológicas para ayudar a compradores y/o vendedores durante el proceso de compra B2C. A menudo,

Más detalles

Taxonomía de los principales temas de I A Por: Luis Guillermo Restrepo Rivas

Taxonomía de los principales temas de I A Por: Luis Guillermo Restrepo Rivas Taxonomía de los principales temas de I A Por: Luis Guillermo Restrepo Rivas 1. DEFINICIONES, UBICACIÓN CONCEPTUAL E HISTORIA DE LA I.A. 2. COMPLEJIDAD COMPUTACIONAL, EXPLOSIÓN COMBINATORIA, DOMINIOS NO

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Big Data & Machine Learning. MSc. Ing. Máximo Gurméndez Universidad de Montevideo

Big Data & Machine Learning. MSc. Ing. Máximo Gurméndez Universidad de Montevideo Big Data & Machine Learning MSc. Ing. Máximo Gurméndez Universidad de Montevideo Qué es Big Data? Qué es Machine Learning? Qué es Data Science? Ejemplo: Predecir origen de artículos QUÉ DIARIO LO ESCRIBIÓ?

Más detalles

Minería de Datos en Observatorios Virtuales

Minería de Datos en Observatorios Virtuales Aprendizaje Estadístico L.M. Sarro 1 Universidad Nacional de Educación a Distancia Departmento de Inteligencia Artificial Abril de 2006 / 1 a Reunión de la Red Temática SVO Outline 1 Clasificación Supervisada

Más detalles

Minería de la Web Tema 1

Minería de la Web Tema 1 Minería de la Web Tema 1 71454586A Minería de la Web Máster en Lenguajes y Sistemas Informáticos Tecnologías del Lenguaje en la Web UNED 07/12/2010 Tema 1 1. Problemas que surgen al interactuar con la

Más detalles

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión.

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión. TEMA 9 TÉCNICAS DE INTELIGENCIA ARTIFICIAL PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE 9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de

Más detalles

Inteligencia Artificial II Propuesta de trabajo Detección de correo basura (anti-spam) mediante técnicas de Inteligencia Artificial

Inteligencia Artificial II Propuesta de trabajo Detección de correo basura (anti-spam) mediante técnicas de Inteligencia Artificial Inteligencia Artificial II Propuesta de trabajo Detección de correo basura (anti-spam) mediante técnicas de Inteligencia Artificial José F. Quesada 1 Introducción La idea de detección o filtrado de correo

Más detalles

LA clasificación o caracterización de páginas Web es el

LA clasificación o caracterización de páginas Web es el 1 Un Algoritmo Simple y Eficiente para la Clasificación Automática de Páginas Web Enrique V. Carrera María del Cisne García Fausto Pasmay Abstract Este artículo propone un simple pero eficiente clasificador

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

Proceso del KDD (minería de datos o DataMining)

Proceso del KDD (minería de datos o DataMining) Qué es el KDD? Es un proceso no trivial que identifica patrones validos, previamente desconocidos, potencialmente utiles y fundamentalmente entendibles en los datos. es como se reconoce de manera teoria

Más detalles

Tema 7. Introducción al reconocimiento de objetos

Tema 7. Introducción al reconocimiento de objetos Tema 7. Introducción al reconocimiento de objetos En resumen, un sistema de reconocimiento de patrones completo consiste en: Un sensor que recoge las observaciones a clasificar. Un sistema de extracción

Más detalles

Weka como herramienta de data mining

Weka como herramienta de data mining Weka como herramienta de data mining Lic. Aldave Rojas Isaac Alberto Instituto Tecnológico Superior de Ciudad Serdán Abstract El presente trabajo muestra un ejemplo introductorio a la herramienta de Data

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Introducción al Data Mining Clases 5 Cluster Analysis Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Cluster Análisis 1 El término cluster analysis (usado por primera

Más detalles

Texto, imágenes, video Hiperenlaces Archivo log

Texto, imágenes, video Hiperenlaces Archivo log Web Mining Web Mining Aplicación técnicas data mining sobre datos que Web Descubrimiento automático información útil de documentos y servicios Web Texto, imágenes, video Hiperenlaces Archivo log Netcraft

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu Agüero Martín Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.martin@gmail.com

Más detalles

Los modelos clásicos de Recuperación de información y su vigencia

Los modelos clásicos de Recuperación de información y su vigencia Los modelos clásicos de Recuperación de información y su vigencia Juan Antonio Martínez Comeche Departamento de Biblioteconomía y Documentación Universidad Complutense de Madrid comeche@ccdoc.ucm.es Introducción

Más detalles

USO DE LA TECNOLOGIA COMO RECURSO PARA LA ENSEÑANZA. Sistema de búsqueda en Internet. Mtro. Julio Márquez Rodríguez

USO DE LA TECNOLOGIA COMO RECURSO PARA LA ENSEÑANZA. Sistema de búsqueda en Internet. Mtro. Julio Márquez Rodríguez USO DE LA TECNOLOGIA COMO RECURSO PARA LA ENSEÑANZA Sistema de búsqueda en Internet Mtro. Julio Márquez Rodríguez SISTEMA DE BUSQUEDA EN INTERNET Por el tipo de tecnología que utilizan, los sistemas de

Más detalles

María del Cisne García Muñoz

María del Cisne García Muñoz UNIVERSIDAD SAN FRANCISCO DE QUITO Módulo para Clasificación Automática y Temática de Páginas Web María del Cisne García Muñoz Tesis de Grado presentada como requisito para la obtención del título de Ingeniera

Más detalles

Sumario Agentes inteligentes Agentes para Recuperación de Información Rubén Fuentes Fernández Dep. de Ingeniería del Software e Inteligencia Artificial http://grasia.fdi.ucm.es Recuperación de información

Más detalles

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source Inteligencia Artificial y Seguridad Informática en plataformas Open Source Jornadas de Software Libre y Seguridad Informática Santa Rosa La Pampa 4 y 5 de Diciembre de 2009 AGENDA Primera Parte Definiciones

Más detalles

El Libro del posicionamiento en buscadores Por David de Ugarte

El Libro del posicionamiento en buscadores Por David de Ugarte El Libro del posicionamiento en buscadores Por David de Ugarte Índice Introducción: Verdad y mentira del posicionamiento en buscadores Parte I: Cómo funcionan los grandes motores de búsqueda? 1. Buscadores,

Más detalles

DOBLE GRADO EN INGENIERÍA INFORMATICA Y ADMINISTRACIÓN DIRECCION DE EMPRESA

DOBLE GRADO EN INGENIERÍA INFORMATICA Y ADMINISTRACIÓN DIRECCION DE EMPRESA DOBLE GRADO EN INGENIERÍA INFORMATICA Y ADMINISTRACIÓN DIRECCION DE EMPRESA RESUMEN INFORME ANUAL DE RESULTADOS CURSO ACADÉMICO 2013-14 INGRESO Y MATRICULACIÓN NOTA DE CORTE 2013-14 JUNIO 9.77 9.92 (Nota:

Más detalles

Aprendizaje Automatizado

Aprendizaje Automatizado Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto

Más detalles

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre.

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre. Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre. Tema: Sistemas Subtema: Base de Datos. Materia: Manejo de aplicaciones

Más detalles

Tema 5. Reconocimiento de patrones

Tema 5. Reconocimiento de patrones Tema 5. Reconocimiento de patrones Introducción al reconocimiento de patrones y a la clasificación de formas Un modelo de general de clasificador Características discriminantes Tipos de clasificación Clasificadores

Más detalles

Explotando el Conocimiento de Dominio para mejorar la Recuperación de Información: El Modelo de Índices Ontológicos

Explotando el Conocimiento de Dominio para mejorar la Recuperación de Información: El Modelo de Índices Ontológicos UNIVERSIDAD POLITÉCNICA DE MADRID FACULTAD DE INFORMÁTICA Explotando el Conocimiento de Dominio para mejorar la Recuperación de Información: El Modelo de Índices Ontológicos Miguel García Remesal Departamento

Más detalles

Aplicaci n de los Mapas Autoorganizativos al campo de la Documentaci n

Aplicaci n de los Mapas Autoorganizativos al campo de la Documentaci n Aplicaci n de los Mapas Autoorganizativos al campo de la Documentaci n SRP Carlos Carrascosa Casamayor Vicente J. Julián Inglada Introducci n Objetivo: Cubrir necesidades de: Organizar, explorar y buscar

Más detalles

Minería de Datos. Preprocesamiento: Reducción de Datos - Discretización

Minería de Datos. Preprocesamiento: Reducción de Datos - Discretización Minería de Datos Preprocesamiento: Reducción de Datos - Discretización Dr. Edgar Acuña Departamento de Ciencias Matemáticas Universidad de Puerto Rico-Mayaguez E-mail: edgar.acuna@upr.edu, eacunaf@gmail.com

Más detalles

GOOGLE COMO HERRAMIENTA ALTERNA PARA LOS PROFESIONALES DE CIENCIAS DE INFORMACIÓN? 1 Diego Andrés Campos Gómez 2

GOOGLE COMO HERRAMIENTA ALTERNA PARA LOS PROFESIONALES DE CIENCIAS DE INFORMACIÓN? 1 Diego Andrés Campos Gómez 2 GOOGLE COMO HERRAMIENTA ALTERNA PARA LOS PROFESIONALES DE CIENCIAS DE INFORMACIÓN? 1 Diego Andrés Campos Gómez 2 RESUMEN La Internet ha abierto nuevas oportunidades para la creación, publicación y/o difusión

Más detalles

Los modelos clásicos de Recuperación de información y su vigencia

Los modelos clásicos de Recuperación de información y su vigencia Los modelos clásicos de Recuperación de información y su vigencia Juan Antonio Martínez Comeche Departamento de Biblioteconomía y Documentación Universidad Complutense de Madrid comeche@ccdoc.ucm.es Introducción

Más detalles

Documentación científica

Documentación científica Documentación científica Unidad 4: Tecnologías de la información y la comunicación en la recuperación de la documentación científica Tema 11. Gestión de la información: las bases de datos bibliográficas

Más detalles