Universidad Técnica Federico Santa María

Documentos relacionados
Análisis Inteligente de Datos: Introducción

Universidad Técnica Federico Santa Mar ía

Reconocimiento de Patrones (Pattern Recognition) en minería de datos

Estadística Computacional

Lingüística computacional

Introducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Asignaturas Temas Asignaturas Temas

Índice general. Introducción... 23

Minería de Datos. Índice. Raquel M. Crespo García. Julio Villena Román. Definición y conceptos Técnicas y modelos

11. FUENTES DE INFORMACIÓN

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

DATA MINING CONCEPTOS Y EXPERIENCIA EN LA FISCALIZACIÓN DEL MERCADO DE VALORES DE CHILE

Línea de Especialización Inteligencia Computacional y Robótica

Inteligencia Artificial II

PROPUESTA DE MINOR CIENCIA DE LOS DATOS. DATA SCIENCE Resultados de Aprendizaje del Minor

Sistemas Inteligentes en Ingenieria. Antonio Morán, Ph.D.

Asignaturas antecedentes y subsecuentes

FACULTAD DE INGENIERÍA MECÁNICA Y ELÉCTRICA

Reconocimiento Automático de Voz

Inteligencia Artificial

Aplicaciones de Técnicas de IA. Ana Lilia Laureano-Cruces UAM-A

Introducción Aprendizaje de Máquina. Gerardo Gutiérrez Gutiérrez Alexis Rodríguez Gutiérrez

Secretaría de Educación de la Ciudad de México Dirección Ejecutiva de Educación Media Superior y Superior

Intensificación en "Lenguajes e Inteligencia Artificial"

5. PLANIFICACIÓN DE LAS ENSEÑANZAS

PROYECTO DOCENTE ASIGNATURA "Sistemas multiagente e inteligencia distribuida"

240AR022 - Reconocimiento de Formas y Aprendizaje Automático

Maritza Correa Valencia, PhD Informática

CARACTERÍSTICAS GENERALES

Índice general. Prefacio...5

Tema 4: Introducción al Aprendizaje Automático

INVESTIGACIÓN OPERATIVA Redes Neuronales Artificiales y Aplicaciones INTEGRANTES: Armijos Mauricio Jara Iza Rony

2. Modelado, tipos de modelos, etapas del modelado

Solución al parcial 14

Reconocimiento de Patrones

Inteligencia Artificial: Su uso para la investigación

07 Estimación puntual e introducción a la estadística inferencial

POSGRADO EN CIENCIAS EXACTAS Y SISTEMAS DE LA INFORMACIÓN PLAN: 2005

CONCEPTOS Y ECOSISTEMA BIG DATA

1. ANÁLISIS EXPLORATORIO DE DATOS

Conceptos básicos de Estadística J U A N C A R L O S C O L O N I A P.

INTELIGENCIA ARTIFICAL COMO HERRAMIENTA EN LA TOMA DE DECISIONES. Tecnología i3b

2021: Odisea del Ciberespacio

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS MAESTRÍA EN CIENCIAS DE LA INFORMACIÓN Y LAS COMUNICACIONES MINERÍA DE DATOS

Contenido Capítulo 1 Introducción Capítulo 2 Conceptos Básicos Capítulo 3 Procesamiento de Imágenes en el Dominio Espacial

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

CAPÍTULO Inteligencia Artificial y Redes Neuronales Artificiales

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Grupo de Física de la Información y Sistemas Complejos (F.I.S.C.O.)

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO DIRECCIÓN GENERAL DE PLANEACIÓN DIRECCIÓN DE GESTIÓN DE LA CALIDAD ELABORACIÓN DE INDICADORES

DIPLOMADO EN DATA MINING

Dr. Jorge Alberto Pardo Torres MIS. Homero Alpuín Jiménez. Resumen

Línea de Especialización Control de Sistemas

Modelos de Mercadotecnia Tema 1: Dimensión del Marketing

PROFESOR: José Pimentel

Metodología de la Investigación en Administración

PROGRAMA DE CURSO. Código Nombre INTRODUCCIÓN A LA MINERÍA DE DATOS Nombre en Inglés Introduction to Data Mining Unidades

INTELIGENCIA DE NEGOCIO

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN APRENDIZAJE DE MÁQUINA

Estadística Descriptiva - Tema 1. Conceptos Básicos

Asignatura: Horas: Total (horas): Obligatoria X Teóricas 3.0 Semana 3.0 de elección Optativa Prácticas Semanas 48.0

La Inteligencia Artificial:

PROYECTO DOCENTE ASIGNATURA: "Aprendizaje Automático"

Universidad de Costa Rica Facultad de Ingeniería Escuela de Ciencias de la Computación e Informática Licenciatura en Computación e Informática

Introducción a los métodos Cuantitativos Dra. Alma Rosa Saldierna Salas

Inteligencia Artificial e Ingeniería del Conocimiento

INTRODUCTION TO MACHINE LEARNING ISABELLE GUYON

Nuevo plan de estudios. Especialización en Inteligencia de Negocios. Marzo de Curso Descripción Corta Contenidos

Introducción a la minería de datos

Computación distribuida e inteligencia computacional aplicadas a ciudades inteligentes

Análisis de imágenes digitales

Itinerario: Inteligencia Computacional

Técnicas de Minería de Datos

Redes Neuronales Artificiales El Perceptrón

Indique la respuesta correcta (d=ninguna de las anteriores, e=todas las anteriores)

Nombre de la Unidad de Aprendizaje. Seminario de solución de problemas de Inteligencia Artificial II

Modelos de Scoring para Riesgo de Crédito

Introducción a las Ciencias de la Computación

Inteligencia Artificial

Métodos de Inteligencia Artificial

LICENCIATURA LICENCIATURA EN CIENCIAS DE LA COMPUTACIÓN PLAN: 2052 OPCIÓN: Horas Teo.

Coeficientes Cepstrales en Frecuencia Mel y Dynamic Time Warping para Reconocimiento Automatico del Habla

Reconocimiento de Patrones DRA. LETICIA FLORES PULIDO

EL ALMACENAMIENTO DE LA INFORMACIÓN

UNIDAD NO. 01 CONCEPTOS INFORMÁTICOS BÁSICOS

LA MINERÍA DE DATOS APLICADA A LA BÚSQUEDA DE PATRONES DE SUPERVIVIENCIA EN LA NEOPLASIA MALIGNA DE TRÁQUEA, BRONQUIOS Y PULMÓN

Reconocimiento visual de ademanes usando MS Kinect - Introducción. Dr. Héctor Avilés Escuela de Invierno de Robótica 2015

Estadística. Estadística 1

CURSO CORTO DE MONITOREO ESTRUCTURAL DICTADO POR CHARLES FARRAR Y MICHAEL TODD. EXPERTOS DE LOS ALAMOS DYNAMICS.

Mcal. Antonio José de Sucre

Identificación de variables asociadas al éxito académico en Estudiantes de la Facultad de Informática Mazatlán

Capitulo 1: Introducción al reconocimiento de patrones (Secciones )

Búsqueda por Contenido de Imágenes y Videos

(Reconocimiento de Formas)

Tópicos Avanzados: Inteligencia Computacional I

Transcripción:

Universidad Técnica Federico Santa María Departamento de Informática Preguntas Relevantes del Análisis de Datos Capítulo 1: Introducción: Análisis Inteligente de Datos II Semestre 2005 Profesor: Héctor Allende (hallende@inf.utfsm.cl) Página: www.inf.utfsm.cl/~hallende Porqué análisis Inteligente de Datos? Existe alguna estructura en los datos? Existe algún dato anómalo? Se puede sintetizar los datos de manera conveniente? Es éste grupo diferente de este otro? Este atributo cambia en el tiempo? Se puede predecir el valor del atributo basado en las mediciones de otros valores? Diapositiva desarrollada por Prof. Héctor Allende y Prof. Rodrigo Salas 2 Qué es el análisis de Datos? Área dedicada al estudio sistemático de los datos Transforma datos en información Contribuye al descubrimiento de nuevo conocimiento (KDD) Ayuda al Reconocimiento de Formas ( PR) Papel de las Máquinas de Aprendizaje: Métodos para aprender de los datos Desarrollo de métodos automáticos 3 Nivel de Información Inteligencia Información Datos Procesos Operacionales Sistemas Estratégicos Sistemas de Gestión (Estrategia Funcional) Energía Materiales Información Factores Claves Desempeño Indicadores de Gestión Datos Operacionales Qué es un dato? Dato es: un número un vector un nombre una dirección una cualidad, etc Pero también podemos entender Qué es un dato? una imagen una foto un símbolo un jeroglífico una señal acustica un electrocardiograma un documento un libro una función una matriz un tensor, etc. Profesor: Rodrigo Salas 1

Estructurados Tipos de datos Cuantitativos Cualitativos Simbólicos Ordenados jerárquicamente Bloques de datos binarios Imágenes Sonido No Estructurados Textos Problemas que están relacionados con AIDA : Identificar un rostro en una imagen Convertir un texto hablado en uno escrito Establecer un diagnóstico médico a partir de un ECG En cada uno de ellos se tienen propósitos específicos. Estos propósitos determinan la forma en que los datos deben ser procesados. Esto implica que todo proceso de datos está precedido por un proceso de modelación del problema que necesitamos resolver. 7 Pronóstico de magnitudes máxima de terremotos Pronóstico de perspectividad de yacimientos minerales Pronóstico de tormentas ionosféricas Regionalización sísmica Diagnóstico diferencial de enfermedades Evaluación de pacientes Lectura diagnóstica de señales (EEG, ECG,IC, etc.) Clasificación automática de hongos Clasificación automática de Clientes Identificación de huellas digitales Identificación de caligrafías Identificación de rostros (estáticos, en movimiento, enmascarados, etc.) Identificación de interlocutores Identificación de objetos mediante sonidos (aviones, vehículos) Identificación de objetos mediante rastros (balística) Dispositivos de acceso por identificación iriológica Reconocimiento de placas de vehículos 9 10 Caracterización socio política de colectivos sociales Pronóstico de surgimiento de fenómenos sociales Caracterización del modus operandi de un terrorista Caracterización del modus operandi de un delincuente Análisis de las causas de la delincuencia juvenil (u otro fenómeno social) Clasificación jerárquica de delitos Evaluación de la gravedad delictiva En la práctica, casi siempre tenemos que vernos con datos difusos con el propósito de extraer de ellos información que nos sea útil. En el caso particular del AIDA, aunque no haya una división exacta en el procesamiento desde los datos difusos por un lado hasta las conclusiones por el otro, un modelo útil de AIDA ser dividido en cuatro etapas. 11 Profesor: Rodrigo Salas 2

4 Etapas del procesamiento de datos : E1) Adquisición E2) Preprocesamiento E3) Representación-descripción, y E4) Análisis de datos E1) Adquisición Este proceso está caracterizado por el hecho que la entrada esta constituida por los datos originales tomados de las fuentes originales y la salida son los datos difusos de los que extraemos la información que nos puede ser útil. La adquisición de datos puede ser tan simple como tomar los datos sin ruidos, limpios, listos para ser procesados. Observe que en la entrada de esta etapa del proceso tenemos una fuente, por ejemplo un electrocardiógrafo, a partir del cual tomamos una señal, el ECG del paciente. Esa señal ECG casi siempre tiene ruidos, no está lo suficientemente limpia por lo que no es siempre posible la lectura de lo queremos extraer sin errores. E2) Preprocesamiento La etapa del Preprocesamiento está caracterizada por el hecho que ambas, la entrada y la salida son datos de la misma naturaleza, es decir, significa casi la misma cosa. Por ejemplo, ambas son señales, imágenes, jeroglíficos, matrices, n-tuplos de valores de un cierto rasgo o caracteristica etc. Filtrado de señales o imágenes, incrementar la resolución o el contraste de una imagen, restaurar una imagen, eliminarle el ruido, ajustar los datos de una variable, validar los datos, escalarlos, transformarlos etc. Son ejemplos de procesamiento de datos. Observe que en la entrada de esta estapa tenemos por ejemplo una señal, el ECG de un paciente, y en la salida casi que el mismo ECG sólo que quizás sin ruidos, más limpio, más claro, en el cual es más simple leer la información relevante que estamos buscando. E3) Representación En la etapa de Representación-descripción los datos originales preprocesados son transformados en una nueva forma que es la adecuada para el procesamiento posterior. Esta etapa está caracterizada por el hecho que las entrada y salida son diferentes, al menos en su significado. Este es un proceso en el que los objetos involucrados en los datos originales son descritos. Profesor: Rodrigo Salas 3

Segmentación (particionar la imagen o la señal en regiones similares disjuntas) Selección de Características Representación de una imagen mediante wavelets Representación de una imagen mediante una matriz digital Representación de la voz mediante una señal de audio Son ejemplos de representacióndescripción de datos. Por ejemplo, una Imagen la podemos describir en términos complejos como una señal bidimensional : Amplitud, Intensidad, Compleja Polarimétrica etc, y podemos decir que el Imagen de intensidad es normal, pero que la Imagen de amplitud no lo es etc. En este caso, la salida es una secuencia de atributos de la mencionada Imagen. 19 E4) Análisis Finalmente, la etapa del Análisis es un proceso en el cual encontramos el significado de los datos originales o al menos a una parte de ellos. Podemos reconocer la ocurrencia de cierta información previamente almacenada y podemos tomar una decisión, una conclusión. Feedback Data Bases Requiremientos de Información Datos Externos Selección de Datos Depuración: Inconsistencias duplicación Outliers Enrichment Coding Alg. Data Mining Association Clustering Classification Regression Forecasting Action 22 Problemas de Asociación, de Interpretación, de Caracterización, de Clasificación, de Clusterización de Reconocimiento de Predicción Estos son ejemplos de análisis de datos. AIDA es una disciplina con un marcado carácter aplicado e interdisciplinario, que tiene que ver con la Ingeniería, la Estadística y la Ciencia Computación para el procesamiento de datos acerca de objetos fisicos (fotos, escrituras, jeroglíficos, símbolos, señales etc.) y/o objetos abstractos ( vectores de un cierto producto Cartesiano de conjuntos de ciertos tipos: duros, difusos, ruidosos ) con el propósito de mediante algoritmos obtener la información relevante y no evidente que nos permita establecer propiedades de ciertos subconjuntos no vacíos de objetos. Profesor: Rodrigo Salas 4

Disciplinas del Análisis Inteligente de Datos Esquema constituyente de AIDA Estadística Ciencias de la Computación Procesamiento de Señales Visión por Computadora Máquinas de Aprendizaje Redes Neuronales Inteligencia Artificial Morfología Matemática Reconocimiento de patrones etc C. Sociales C. Tierra C. Matemáticas Ciencias de la Información Máquinas de Estadística Aprendizaje Análisis Inteligente de Datos Ciencias de la computación Medicina C. Ingeniería Economía 25 26 Convergencia de Múltiples Disciplinas Análisis inteligente de la Información Database Technology Computational Statistics Visualization Neural Computing Data Mining Otras... Machine Learning Pattern Recognition Artificial Intelligence Estadística: Cómo develar y optimizar la información extraída de los datos Cómo recolectar los datos para maximizar la información Cómo hacer inferencias de los datos para obtener nuevo conocimiento Ciencias de la Computación, Máquinas de Aprendizaje: Cómo calcular y procesar de manera óptima los datos Cómo medir el costo asociado al procesamiento de la información Cómo la información y el conocimiento pueden ser útilmente representados Cómo comprender los límites de lo que puede ser computar etc. 27 28 Inteligencia Computacional Máquinas de Aprendizaje: Capacidad del computador para aprender de la experiencia, es decir, modificar su procesamiento en base a la nueva información adquirida. (Oxford English Dictionary). Proceso que causa que el sistema mejore con la experiencia (Mitchell 1997). Uso de algoritmos computacionales para aprender de los datos. (Hutchinson 1995). Programa de computación que puede aprender de la experiencia respecto a algún tipo de tarea y medida de desempeño (Mitchell 1997). Aprendizaje Consiste en inducir funciones generales a partir de un conjunto específico de formas denominado patrones de entrenamiento Tipos de Aprendizaje: Aprendizaje Supervisado Aprendizaje Reforzado Aprendizaje No-supervisado 29 30 Profesor: Rodrigo Salas 5

Validación de las Reglas de aprendizaje Experiencias Concretas o Simuladas Proceso de Aprendizaje Conceptualización Búsqueda de patrones (Estructuras, Meta-modelos, parámetros) Observación Preparación y Depuración de datos Data Mining (DM) Etapa de reconocimiento de patrones, a través de algoritmos automáticos o semiautomáticos de grandes bases de datos con el objeto de apoyar a la toma de decisiones dentro de una organización. Bigus( 1996) : DM es el descubrimiento eficiente de información valiosa (nuevos hechos y relaciones) no evidente desde una gran base de datos. 32 Machine Learning Estadística v/s Máquinas de Aprendizaje Estadística moderna Modelo Generador de Datos X Operador de Target Machine Learning Y Máquinas de Aprendizaje Algoritmos Modelo: Estructura propuesta, o una aproximación a una estructura de la cual se obtuvieron los datos. Los Modelos pueden ser Empíricos o Mecanicistas. Modelos Empíricos: Busca modelar las relaciones sin basarlas en alguna teoría subyacente. Modelos Mecanicistas: Se construyen en base a algún mecanismo supuesto del proceso de generación de los datos. Los Modelos pueden ser de Predicción o de Entendimiento. 33 34 Modelos v/s Patrones Análisis Descriptivo v/s Inferencial Modelo: Consiste en una estructura en gran escala que resume las relaciones sobre muchos casos. Patrón: Consiste en una estructura local satisfecha por algunos pocos casos o en una pequeña región del espacio de los datos. El objetivo del análisis descriptivo es realizar una afirmación acerca de los datos que se tienen. El objetivo del análisis inferencial es obtener conclusiones que poseen una validez más general. 35 36 Profesor: Rodrigo Salas 6

Por qué Inteligente? Puesto que para poder extraer la estructura que subyace en los datos, entender lo que está sucediendo, aplicar en forma reiterada diversos métodos, refinar las preguntas que el investigador trata de responder requiere de mucho cuidado y sobre todo INTELIGENCIA. El análisis inteligente de datos no es un método poco sistemático de aplicación de las herramientas estadísticas y de Data Mining, no es un paseo aleatorio a través del espacio de las técnicas analíticas, sino que un proceso cuidadosamente planeado para decidir lo que será más útil y revelador. Temas de trabajo Durante el transcurso del curso se analizarán una serie de técnicas modernas: Modelos Bayesianos Métodos de Kernel y CP Máquinas de Vector de Soporte Series Temporales Reglas de Inducción Redes Neuronales Artificiales (FANN, autoorganizativas) Ensemble de ANN Redes MANN Lógica Difusa y Análisis de Clustrering Cadenas de Markov Ocultas Visualización 37 38 Universidad Técnica Federico Santa María Departamento de Informática Fin -- Capítulo 1: Introducción Preguntas? Profesor: Héctor Allende (hallende@inf.utfsm.cl) Página: www.inf.utfsm.cl/~hallende Diapositiva desarrollada por Prof. Héctor Allende y Prof. Rodrigo Salas Profesor: Rodrigo Salas 7