Data Mining en el Periodismo



Documentos relacionados
ETL: Extractor de datos georreferenciados

MINING SOLUTIONS LIMITADA

Parte I: Introducción

Semana de la Informática y la Tecnología. Laureate International Universities

Gestión del Conocimiento. Gestión del Conocimiento. Herramientas para la

BUSINESS INTELLIGENCE

Gestión de Información en Cuentas Nacionales de Chile

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CAPÍTULO I FORMULACIÓN DEL PROBLEMA

Desarrollo de una Plataforma de Gestión de Conocimiento para la Innovación en Tecnología Educativa

El almacén de indicadores de proceso de negocio en ejecución

Plataformas virtuales

Trabajo final de Ingeniería

Incorpora la localización en tu compañía. Mejora la rentabilidad con la solución Location Analytics de Esri

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

PUBLICACIÓN INFORMATIVA DE LA ASOCIACIÓN ESPAÑOLA DE FINANCIEROS DE EMPRESA N 64. MARZO

UNIVERSIDAD TECNICA DEL NORTE


activuspaper Text Mining and BI Abstract

El procedimiento de concesión de estos premios está regulado por las siguientes bases:

Primer Foro Universitario de Software Libre

SÍNTESIS Y PERSPECTIVAS

Programa de Gestión Documental

CAPITULO I 1. FORMULACIÓN DEL PROBLEMA

forma de entrenar a la nuerona en su aprendizaje.

Data Mining Técnicas y herramientas

La innovación como valor diferencial. Las TIC, vehículo de transformación

Convertimos lo complicado en sencillo, lo fácil en operativo y eliminamos lo ineficaz

Sistema Inteligente de Exploración

e-commerce vs. e-business

Está creado como un organizador y gestor de tareas personalizables para generar equipos de alto desempeño en diferentes rubros de empresas.

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Programa FRIDA INFORME DE FINAL

Prezi: editor de presentaciones

HERRAMIENTAS TECNOLOGICAS DE GESTION EMPRESARIAL. Profesor: Dr.Alberto Un Han Alumnos: Enrique Huaco, Lino Mejia y Jaime Ballon

Sistemas de información

PROPUESTA METODOLOGICA PARA LA EDUCCIÓN DE REQUISITOS EN PROYECTOS DE EXPLOTACIÓN DE INFORMACIÓN

Tabla Tabla de equivalencia entre asignaturas de Ingeniería Técnica en Informática de Gestión al Grado en Ingeniería Informática. Créd LRU.

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Día :00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

Servicios y aplicaciones clave de la web 2.0

Dossier de empresa. > La empresa > Nuestros servicios > Trabajos realizados > Información de contacto. Más información disponible en:

Plan de estudios Maestría en Sistemas de Información y Tecnologías de Gestión de Datos

El Impacto. Económico De Las Industrias Creativas En Las Américas. A report prepared by

REGISTRO DE EMPRESAS Y PERSONAS BASE DE INFORMACIÓN DE CLIENTES & CONTACTOS

Artículos > Cuál es el Futuro de los Sistemas ERP. Artículo. Cuál es el futuro de los sistemas ERP?

Sistema de Información Gerencial de la Superintendencia de Servicios de Salud, soporte de decisión para el Seguro Nacional de Salud Argentino

A continuación, se incluyen algunas sugerencias que le ayudarán a empezar a trabajar con tareas comunes. Serie de introducción

5.2. PROYECTO RODA. (6/07/04).

Soluciones Tecnológicas

Este proyecto propone la investigación referente al modelado y desarrollo de agentes para

determinar la competencia necesaria de las personas que realizan, bajo su control, un trabajo que afecta a su desempeño ambiental;

6 Razones para asistir al


SESIÓN 1: POWER POINT 2013

Sistema de Gestión de Proyectos Estratégicos.

Introducción. Informe de la encuesta. Joseph Bradley Jeff Loucks Andy Noronha James Macaulay Lauren Buckalew

Software de Simulación aplicado a entornos de e-learning

LA MINERÍA DE DATOS, Y SU LUGAR EN LA GESTIÓN DE LA INFORMACIÓN DE UNA CIUDAD INTELIGENTE

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO. 1er. Seminario de Administración de Centros de Cómputo

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA

DÍA MUNDIAL DE INTERNET

DIPLOMADO EN MULTIMEDIOS

CURSO COORDINADOR INNOVADOR

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

Management del nuevo siglo. James W. Cortada

Unidad 1: Componentes del sistema

Qué es bluebottlebiz. El por qué de nuestro nombre. 1

CAPÍTULO VI CONCLUSIONES Y RECOMENDACIONES

MANUAL DE PREVENCION Y CONTROL DE OPERACIONES CON RECURSOS ILICITOS DE LA BOLSA DE PRODUCTOS DE CHILE BOLSA DE PRODUCTOS AGROPECUARIOS S. A.

Visión global del KDD

ERP Una inversión que rendirá frutos. FASCÍCULO

Comité de Aspectos Contables y Presupuestales del CEMLA. Julio de 2009

Usos de los Mapas Conceptuales en Educación

FUENTES SECUNDARIAS INTERNAS

Especificaciones de la oferta Administración de dispositivos distribuidos Administración de activos

NOSOTROS. Centrado en ofrecer soluciones para agilizar la toma de decisiones y maximizar el uso de sus datos.

Estado actual del patentamiento y licenciamiento en Chile

NORMATIVA ESPECÍFICA SOBRE MEMORIAS DE TÍTULO DEL ÁREA COMUNICACIÓN DIGITAL Y PERIODISMO MULTIMEDIA

ÍNDICE MUNDIAL DE PIRATERÍA

El Desempleo. A. Los tipos. 1. Friccional-cuando los trabajadores están cambiando sus trabajos.


Presentación realizada por Juan Carlos Camus el 28 de junio de 2007, para un evento realizado por la empresa Inter-Media Ltda. En Santiago de Chile.

Sistemas de Información Geográficos (SIG o GIS)

CURSO DE ESPECIALIZACIÓN EN DESARROLLO DE APLICACIONES EMPRESARIALES CON SQL SERVER 2012

Curso del Data Mining al Big Data

Cuando se escribe un documento, una de las cosas más importantes que puedes hacer es formatear el documento.

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Stella Maris Zoppi, Lucrecia Guarrera

El futuro del trabajo y del espacio

ARIS Process Performance Manager

Antecedentes de GT Consultores

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

Curso Data Mining y Aplicaciones en Riesgo de Crédito

Comunicación: Herramientas Informáticas de Apoyo a la Educación: Experiencias. Autor: Ing. Hernán Mariño hernanmarino@uca.edu.ar

CoNaIISI do Congreso Nacional de Ingeniería Informática / Sistemas de Información

DATA WAREHOUSE PARA LA PRESTACIÓN DEL SERVICIO PÚBLICO DE INFORMACIÓN ESTADÍSTICA

Transcripción:

Data Mining en el Periodismo Raymond Colle Dr. en Ciencias de la Información Analista de Sistemas Qué es la Minería de Datos ing )? ( Data Min Es un método de investigación propio de la ingeniería de sistemas destinado a explorar grandes conjuntos de datos para sacar de ellos conocimientos nuevos que, de otro modo, permanecerían por siempre escon didos.

A qué conjuntos de datos se aplica? A cualquier tipo de Base de Datos con grandes can tidades de registros cuyos contenidos sean principalmente numéricos (También hay técnicas para explorar bases de textos ) En qué se usa? Para investigar fraudes y el crimen organizado En análisis financiero (bancos, bolsas) En telecomunicaciones (operación de redes) En medicina (influencias de la interacción de medicamentos) Etc...

En qué consiste la Data Mining? Esencialmente en encontrar ciertas RELACIONES entre los objetos representados, que serían imposible de encontrar de otra forma Qué relaciones? Características comunes inesperadas Secuencias temporales Divergencias o inconsistencias En suma: conocimiento nuevo que es producto de las INTERRELACIONES de todos los elementos que forman el conjunto.

Puede el Periodismo beneficiarse de la "Minería de Datos"? Considerando que: El Periodismo es un gran consumidor de datos que recopila información la procesa de diversas formas (P.informativo, P.interpretativo...) la conserva en sistemas documentales (bases de datos) Puede el Periodismo beneficiarse de la "Minería de Datos"? El Periodismo es un gran consumidor y productor de información Pero la información que más interesa y más valor tien e, hoy, es la que permite relacionar entre sí múltiples hechos. Ésta es INFORMACION CON VALOR AGREGADO y CO N VALOR DE USO para el destinatario.

Puede el Periodismo beneficiarse de la "Minería de Datos"? Por lo tanto, si el Medio Periodístico utiliza mejor su SISTEMA DOCUMENTAL y explota adecuadamente sus Bases de Datos, será capaz de entregar MÁS Y MEJOR INFORMACION CON VALOR AGREGADO y CON VALOR DE USO Qué exige la Data Mining? Bases de Datos adecuadas Esto puede requerir un tratamiento previo (traspaso con o sin codificación) Software adecuado No se trata de UNA aplicación, sino de un conjunto de aplicaciones (suite), unas siendo más útiles que otras, según lo que vaya desvelando la investigación

Qué método usa la Data Mining? Un método recursivo, que avanza y retrocede repetidamente, yendo de menor a mayor complejidad Qué método usa la Data Mining? Un método recursivo apoyado por Visualización de Datos basado en tratamiento multimensional de los datos ( OL AP:OnLine Analytical Processing ) o en técnicas de Inteligencia Artificial ( KDD: Knowledge Discovery in Databases ).

El Análisis Visual de Datos ("VDA") es una técnica emergente que usa en forma intensiva l as innovaciones en el campo de la gráfica computarizada para ayudar al usuario a explorar los datos y "navegar" a través de ellos Desarrollo de un ejemplo: 1766 Noticias sobre Tecnologías Digitales de Comunicación

Modelo de datos 1ª Etapa: Adaptación de la BD 1. Revisión de la consistencia 2. Reducción de la dispersión ( Implicados ) 3. Normalización de la BD

2ª Etapa: Estudio inicial Estadísticas de frecuencias Ejemplo Suiza Francia Argentina Brasil Desconocido Latinoamérica Inglaterra Alemania Internacional Europa Japón Internet España Chile Estados Unidos 0 10 20 30 40 % 5 2ª Etapa: Estudio inicial Estadísticas de frecuencias Gráfico VDA de descriptores 70000 60000 50000 40000 30000 20000 10000 0 0 200 400 600 800 1000 1200 1400 1600

2ª Etapa: Estudio inicial Estadísticas de frecuencias VDA de frecuencias Gráfico VDA de descriptores reordenado (Rango 50000 = Comunicación ) 2ª Etapa: Estudio inicial Cálculo de coeficientes de asociación Lugar Lugar 0.03 0.03 Descriptores Descriptores 0.10 0.10 Fuente Fuente 0.04 0.04 0.11 0.11 0.19 0.19 Implicados 0.13 Implicados 0.13 COEFICIENTE Lambda de Guttman

3ª Etapa: Análisis de coocurrencias internas Coocurrencia: Aparición simultánea de dos datos en un espacio predel imitado (p.ej.: dos palabras en una frase, dos descriptores temáticos para una misma noticia, etc.) 3ª Etapa: Análisis de coocurrencias internas Entre Descriptores temáticos Copyright Software 26 Seguridad 18 26 46 26 25 Ética 43 69 18 Industria 19 20 Derecho Internet 53 Economía 61 Música 19 25 81 21 Digital 58 Estadística e-comercio 22 19 Trabajo Sitio web 24 30 Televisión

3ª Etapa: Análisis de coocurrencias internas Entre tipos de Implicados Organismos Públicos 40 Personas 13 Empresas Telecomun. 12 25 31 30 14 18 Empresas TI 54 Empresas Informáticas 17 16 42 20 41 42 11 Empresas Ases./Inv. Empresas Comerciales 13 MCM 4ª Etapa: Análisis de coocurrencias externas Entre lugares y temas Estados Unidos Educación Sitio Web Telecomunicación Internet Estadística Chile

4ª Etapa: Análisis de coocurrencias externas Entre lugares y tipos de implicados Personas Estados Unidos Empresas Telecomunic. Asociac.de Empresas MCM Empresas TI Chile Empresas Informáticas España Org.Públicos Instituciones Enseñanza 5ª Etapa: Análisis de tríadas Tríada Lugar-Implicado-Tema Estados Unidos Microsoft Napster Empresa de Investigación Sitio Web Fabricante de software AOL Time Warner Tribunal Fabricante de hardware Seguridad Software Internet Música Digital Sistema Operativo Copyright Sitio Web Derecho Hardware

5ª Etapa: Análisis de tríadas Tríada Fecha-Lugar-Tema 2000-08 2000-09 2000-10 2000-11 2000-12 2001-01 2001-02 2001-03 2001-04 2001-05 2001-06 2001-07 Estados Unidos Chile España Hardware Economía Derecho Sitio Web Sistema Operativo Música Digital Software Comercio E-comercio Internet Telecomunicación Tecnología 5ª Etapa: Análisis de tríadas Tríada Fecha-Lugar-Tema Chile Estados Unidos España 2000-08 2000-09 2000-10 2000-11 2000-12 2001-01 2001-02 2001-03 2001-04 2001-05 2001-06 2001-07 Tecnología Hardware Economía Derecho Sitio Web Sistema Operativo Música Digital Software Comercio E-comercio Internet Telecomunicación

6ª Etapa: VDA multidimensional Las 1.766 noticias dieron origen a 8.127 filas de datos en un cubo de 5 dimensiones (40.635 datos) 6ª Etapa: VDA multidimensional Gráfico de masa (5 dimensiones superpuestas).

6ª Etapa: VDA multidimensional Gráfico parcial mejorado (zoom). 6ª Etapa: VDA multidimensional Vistas parciales de la animación

6ª Etapa: VDA multidimensional Extracción de casos extremos Resumen de Resultados 27 hallazgos: 9 basados en las estadísticas simples 3 basados en las coocurrencias internas 10 basados en las coocurrencias externas 4 basados en las tríadas 1 no desarrollado, basado en VDA multi-dimensional (Sin rotación arroja 4 casos especiales)

CONCLUSION Dificultades: requiere un sistema documental adecuadamente diseñado requiere software adecuado implica numerosos cálculos y reiteraciones para aislar in formación relevante requiere profesionales capacitados CONCLUSION Ventajas La Visualización (y los cálculos que esconde) ayuda tanto a descubrir como a exhibir los resultados ayuda a determinar áreas que requieren mayor profun dización del análisis permite descubrir agrupaciones inesperadas de casos pone en evidencia los casos excepcionales

CONCLUSION En síntesis: La Data Mining arroja pistas importantes para la in vestigación periodística y la producción de n uevas informaciones con un altísimo valor agregado CONCLUSION En síntesis: La Data Mining arroja pistas importantes... Para el analista de un sector determinado, podría transformarse en una herramienta de la mayor utilidad para comprender lo que está ocurriendo y tratar de visualizar los posibles derroteros de una determinada secuencia de hechos o encontrar relaciones entre hechos aparentemente inconexos.

CONCLUSION En síntesis: La Data Mining arroja pistas importantes... Para el analista de un sector determinado, podría transformarse en una herramienta de la mayor utilidad... Pero, para ello, es esencial un trabajo de equipo, en que colaboren estrechamente periodistas (editores) y analistas de sistemas famil iarizados con los métodos de Data Mining. Para Finalizar: Estamos pasando de la Era de la Información a la Era del Conocimiento. En esta evolución, métodos como la Data Mining ofrecen oportunidades de enormes proyecciones.