Data Mining en el Periodismo Raymond Colle Dr. en Ciencias de la Información Analista de Sistemas Qué es la Minería de Datos ing )? ( Data Min Es un método de investigación propio de la ingeniería de sistemas destinado a explorar grandes conjuntos de datos para sacar de ellos conocimientos nuevos que, de otro modo, permanecerían por siempre escon didos.
A qué conjuntos de datos se aplica? A cualquier tipo de Base de Datos con grandes can tidades de registros cuyos contenidos sean principalmente numéricos (También hay técnicas para explorar bases de textos ) En qué se usa? Para investigar fraudes y el crimen organizado En análisis financiero (bancos, bolsas) En telecomunicaciones (operación de redes) En medicina (influencias de la interacción de medicamentos) Etc...
En qué consiste la Data Mining? Esencialmente en encontrar ciertas RELACIONES entre los objetos representados, que serían imposible de encontrar de otra forma Qué relaciones? Características comunes inesperadas Secuencias temporales Divergencias o inconsistencias En suma: conocimiento nuevo que es producto de las INTERRELACIONES de todos los elementos que forman el conjunto.
Puede el Periodismo beneficiarse de la "Minería de Datos"? Considerando que: El Periodismo es un gran consumidor de datos que recopila información la procesa de diversas formas (P.informativo, P.interpretativo...) la conserva en sistemas documentales (bases de datos) Puede el Periodismo beneficiarse de la "Minería de Datos"? El Periodismo es un gran consumidor y productor de información Pero la información que más interesa y más valor tien e, hoy, es la que permite relacionar entre sí múltiples hechos. Ésta es INFORMACION CON VALOR AGREGADO y CO N VALOR DE USO para el destinatario.
Puede el Periodismo beneficiarse de la "Minería de Datos"? Por lo tanto, si el Medio Periodístico utiliza mejor su SISTEMA DOCUMENTAL y explota adecuadamente sus Bases de Datos, será capaz de entregar MÁS Y MEJOR INFORMACION CON VALOR AGREGADO y CON VALOR DE USO Qué exige la Data Mining? Bases de Datos adecuadas Esto puede requerir un tratamiento previo (traspaso con o sin codificación) Software adecuado No se trata de UNA aplicación, sino de un conjunto de aplicaciones (suite), unas siendo más útiles que otras, según lo que vaya desvelando la investigación
Qué método usa la Data Mining? Un método recursivo, que avanza y retrocede repetidamente, yendo de menor a mayor complejidad Qué método usa la Data Mining? Un método recursivo apoyado por Visualización de Datos basado en tratamiento multimensional de los datos ( OL AP:OnLine Analytical Processing ) o en técnicas de Inteligencia Artificial ( KDD: Knowledge Discovery in Databases ).
El Análisis Visual de Datos ("VDA") es una técnica emergente que usa en forma intensiva l as innovaciones en el campo de la gráfica computarizada para ayudar al usuario a explorar los datos y "navegar" a través de ellos Desarrollo de un ejemplo: 1766 Noticias sobre Tecnologías Digitales de Comunicación
Modelo de datos 1ª Etapa: Adaptación de la BD 1. Revisión de la consistencia 2. Reducción de la dispersión ( Implicados ) 3. Normalización de la BD
2ª Etapa: Estudio inicial Estadísticas de frecuencias Ejemplo Suiza Francia Argentina Brasil Desconocido Latinoamérica Inglaterra Alemania Internacional Europa Japón Internet España Chile Estados Unidos 0 10 20 30 40 % 5 2ª Etapa: Estudio inicial Estadísticas de frecuencias Gráfico VDA de descriptores 70000 60000 50000 40000 30000 20000 10000 0 0 200 400 600 800 1000 1200 1400 1600
2ª Etapa: Estudio inicial Estadísticas de frecuencias VDA de frecuencias Gráfico VDA de descriptores reordenado (Rango 50000 = Comunicación ) 2ª Etapa: Estudio inicial Cálculo de coeficientes de asociación Lugar Lugar 0.03 0.03 Descriptores Descriptores 0.10 0.10 Fuente Fuente 0.04 0.04 0.11 0.11 0.19 0.19 Implicados 0.13 Implicados 0.13 COEFICIENTE Lambda de Guttman
3ª Etapa: Análisis de coocurrencias internas Coocurrencia: Aparición simultánea de dos datos en un espacio predel imitado (p.ej.: dos palabras en una frase, dos descriptores temáticos para una misma noticia, etc.) 3ª Etapa: Análisis de coocurrencias internas Entre Descriptores temáticos Copyright Software 26 Seguridad 18 26 46 26 25 Ética 43 69 18 Industria 19 20 Derecho Internet 53 Economía 61 Música 19 25 81 21 Digital 58 Estadística e-comercio 22 19 Trabajo Sitio web 24 30 Televisión
3ª Etapa: Análisis de coocurrencias internas Entre tipos de Implicados Organismos Públicos 40 Personas 13 Empresas Telecomun. 12 25 31 30 14 18 Empresas TI 54 Empresas Informáticas 17 16 42 20 41 42 11 Empresas Ases./Inv. Empresas Comerciales 13 MCM 4ª Etapa: Análisis de coocurrencias externas Entre lugares y temas Estados Unidos Educación Sitio Web Telecomunicación Internet Estadística Chile
4ª Etapa: Análisis de coocurrencias externas Entre lugares y tipos de implicados Personas Estados Unidos Empresas Telecomunic. Asociac.de Empresas MCM Empresas TI Chile Empresas Informáticas España Org.Públicos Instituciones Enseñanza 5ª Etapa: Análisis de tríadas Tríada Lugar-Implicado-Tema Estados Unidos Microsoft Napster Empresa de Investigación Sitio Web Fabricante de software AOL Time Warner Tribunal Fabricante de hardware Seguridad Software Internet Música Digital Sistema Operativo Copyright Sitio Web Derecho Hardware
5ª Etapa: Análisis de tríadas Tríada Fecha-Lugar-Tema 2000-08 2000-09 2000-10 2000-11 2000-12 2001-01 2001-02 2001-03 2001-04 2001-05 2001-06 2001-07 Estados Unidos Chile España Hardware Economía Derecho Sitio Web Sistema Operativo Música Digital Software Comercio E-comercio Internet Telecomunicación Tecnología 5ª Etapa: Análisis de tríadas Tríada Fecha-Lugar-Tema Chile Estados Unidos España 2000-08 2000-09 2000-10 2000-11 2000-12 2001-01 2001-02 2001-03 2001-04 2001-05 2001-06 2001-07 Tecnología Hardware Economía Derecho Sitio Web Sistema Operativo Música Digital Software Comercio E-comercio Internet Telecomunicación
6ª Etapa: VDA multidimensional Las 1.766 noticias dieron origen a 8.127 filas de datos en un cubo de 5 dimensiones (40.635 datos) 6ª Etapa: VDA multidimensional Gráfico de masa (5 dimensiones superpuestas).
6ª Etapa: VDA multidimensional Gráfico parcial mejorado (zoom). 6ª Etapa: VDA multidimensional Vistas parciales de la animación
6ª Etapa: VDA multidimensional Extracción de casos extremos Resumen de Resultados 27 hallazgos: 9 basados en las estadísticas simples 3 basados en las coocurrencias internas 10 basados en las coocurrencias externas 4 basados en las tríadas 1 no desarrollado, basado en VDA multi-dimensional (Sin rotación arroja 4 casos especiales)
CONCLUSION Dificultades: requiere un sistema documental adecuadamente diseñado requiere software adecuado implica numerosos cálculos y reiteraciones para aislar in formación relevante requiere profesionales capacitados CONCLUSION Ventajas La Visualización (y los cálculos que esconde) ayuda tanto a descubrir como a exhibir los resultados ayuda a determinar áreas que requieren mayor profun dización del análisis permite descubrir agrupaciones inesperadas de casos pone en evidencia los casos excepcionales
CONCLUSION En síntesis: La Data Mining arroja pistas importantes para la in vestigación periodística y la producción de n uevas informaciones con un altísimo valor agregado CONCLUSION En síntesis: La Data Mining arroja pistas importantes... Para el analista de un sector determinado, podría transformarse en una herramienta de la mayor utilidad para comprender lo que está ocurriendo y tratar de visualizar los posibles derroteros de una determinada secuencia de hechos o encontrar relaciones entre hechos aparentemente inconexos.
CONCLUSION En síntesis: La Data Mining arroja pistas importantes... Para el analista de un sector determinado, podría transformarse en una herramienta de la mayor utilidad... Pero, para ello, es esencial un trabajo de equipo, en que colaboren estrechamente periodistas (editores) y analistas de sistemas famil iarizados con los métodos de Data Mining. Para Finalizar: Estamos pasando de la Era de la Información a la Era del Conocimiento. En esta evolución, métodos como la Data Mining ofrecen oportunidades de enormes proyecciones.