Data Mining. Data Mining Machine Learning Tools and Techniques. Ph.D. José Aldo Díaz-Prado
|
|
- Héctor Blázquez San Segundo
- hace 7 años
- Vistas:
Transcripción
1 Data Mining Data Mining Machine Learning Tools and Techniques Ph.D. José Aldo Díaz-Prado
2 Raw Data Data Mining es la extracción de conocimiento desconocido, previamente implícito e información potencialmente útil a partir de datos. Fuertes patrones, pueden ser encontrados y generalizados, para realizar predicciones seguras para datos futuros. Machine learning provee la técnica básica para el Data Mining. ML es usado para extraer información raw data de las bases de datos.
3 Raw Data Para aplicar las tecnicas de machine learning de manera productiva, es necesario conocer como es que trabaja esta técnica. Machine Learning, no es una tecnología que se puede aplicar ciegamente y obtener buenos resultados. A problemas diferentes corresponden a técnicas de solución diferentes.
4 Machine Learning Actualmente estamos sobre abrumados con los datos. La cantidad de datos en el mundo, en nuestras vidas, se ve que se incrementan y no se ve señales de terminar. Conforme los volúmenes de datos se incrementan, inexorablemente, la proporción de estos que la gente entiende decrece. La mentira oculta en todos estos datos es información, información potencialmente útil, que es raramente explicita. La gente ha buscado patrones desde los inicios de la humanidad.
5 Machine Learning Los cazadores ven patrones en el ambiente de migración de los animales. Los agricultores ven patrones en el crecimiento del maíz. Los políticos ven patrones en los votos de opinión. Los enamorados ven patrones en la respuesta o reacción de su pareja. El trabajo de los emprendedores es identificar oportunidades o patrones que puedan traducir en negocios rentables.
6 Machine Learning En la minería de datos, los datos son almacenados electrónicamente y la búsqueda es automática o por lo menos ejecutado por computadoras. Se estima que la cantidad de datos almacenado en bases de datos mundiales, se duplica cada 20 meses. Conforme el mundo crece en complejidad, nos abruma con los datos que este genera. Data Mining viene ha ser nuestra única opción para visualizar los patrones subyacentes.
7 Machine Learning La minería de datos es definida como el proceso de descubrir patrones en datos. El proceso puede ser: Automático (Más común) Semi-automático Patrones utiles, permiten realizar prediciones no-triviales sobre nuevos datos. Hay dos extremos para la expresión de un patrón: 1. Black box.- su estructura es incomprensible 2. Transparent box.- su estructura revela la estructura del patrón Asumimos que ambas realizan buenas predicciones. Deseamos encontrar y describir patrones de estructuras en datos
8 Structural Patterns Que significa Patrones estructurales Structural Patterns? Como describimos estos? Que forma toman las entradas? Datos de lentes de contacto La tabla muestra las condiciones, sobre las cuales un optometrista puede prescribir lentes de contacto suaves, lentes duros o no usar lentes.
9
10 Descripción estructural (regla) If tear production rate= reduce then recomendation = none Otherwise, if age = young and astigmatic = no then recommendation = soft Los decisión trees árboles de decisión, especifican la secuencia de decisiones que necesitan ser realizadas para una recomendación resultante.
11 Structural Patterns Los árboles de decisión, explican la secuencia de decisiones que son necesarias ejecutar para obtener la recomendación resultante. Hay 24 renglones, que representan los tres valores posibles de la edad y dos valores (miopia y hipermetropia) para cada una de las prescripciones presentadas, astigmatismo y taza de producción de lagrimeo (3*2*2*2=24). Los conjuntos de datos (datasets), invariablemente contienen ejemplos de algunas caracteristicas o por lagunas razones son: desconocidos (quizás las médiciones fuerón tomadas o se perdieron).
12 Machine Learning Aprendizaje maquina, el diccionario define el aprender como: Obtener conocimiento por información, experiencia o por aprendizaje. Ser precavido por la información o la observación. Comprometerse con la memoria. Recibir instrucciones. Podemos definir data mining, operacionalmente, como el proceso de descubrir patrones automáticamente o semiautomáticamente, en grandes volúmenes de datos.
13 Data Mining Data mining, es la técnica para encontrar y describir patrones estructurales en datos y realizar predicciones de estos. Los datos tomarán la forma de un set of examples. La salida tomará la forma de predicciones acerca de nuevos datos en ciertas circunstancias. La salida también puede incluir una descripción actual de la estructura que pueda ser usada para clasificar los ejemplos desconocidos, para explicar la decisión. La gente frecuentemente usa data mining para adquirir conocimiento, no para predecir.
14 Weather Problem Aplicaciones serias de data mining involucran miles, cientos de miles o quízas millones de casos individuales. Para explicar que hacen los algoritmos y como trabajan ellos, necesitamos ejemplos simples que capturan la esencia del problema. Otro problema, es que los datasets de la vida real son propietarios. Nadie va a compartir su base de datos de clientes o productos. Los datos corporativos son un activo valioso.
15 Weather Problem Las instancias en un dataset son caracterizadas por los valores de sus características ó atributos, que miden diferentes aspectos de la instancia. En el ejemplo del clima hay 4 atributos: 1. Outlook (perspectiva) 2. Temperature (temperatura) 3. Humidity (humedad) 4. Windy (viento) El resultado es si jugar o no
16 Todos los atributos tienen valores que son categorías simbólicas más que números. Outlook: sunny, overcast, rainy. Temperature: hot, mild, cool Humidity: high, normal Windy: true, false Esto crea 36 posibles combinaciones (3X3X2X2=36), Conjunto de reglas de aprendizaje: If outlook=sunny and humidity=high then play=no If outlook=rainy and windy=true then play=no If outlook=overcast then play=yes If humidity= normal then play=yes If none of the above then play=yes Las reglas son aplicadas en orden secuencial y a esto se le denomina decision list Hay algunas reglas inconsistentes tales como: If humidity= normal then play=yes
17 Numeric-attribute problem Si los atributos de humedad y temperatura, tomarán valores numéricos, esto generaría desigualdad (problema atributos-numéricos). La primera regla tomaría la forma siguiente: If outlook=sunny and humidity>83 then play=no Un procesos un poco más complejo es requerido para elaborar reglas que invoquen pruebas numéricas.
18 Reglas de clasificación.- Predice la clasificación en términos de cuando o no jugar. Reglas de asociación.- reglas que asocian diferentes valores de atributos. Reglas de asociación: If temperature=cool If humidity=normal and windy=false If outlook=sunny and play=no If windy=false and play=no then humidity=normal then play=yes then humidity=high then outlook=sunny and humidity=high. Todas las reglas son 100% correctas sobre los datos dados. La regla 4 predice que perspectiva puede ser soleado y la humedad alta.
19 Contact Lenses Primera columna, es la edad del paciente. Presbyopia, es una forma de padecimiento que acompaña a la mediana edad. Segunda columna, es el tratamiento aplicado Tercera columna, muestra cuando el paciente tiene astigmatismo Cuarta columna, producción de lagrimas ( las lagrimas lubrican el lente de contacto) Ultima columna, tipo de lente a recetar.
20 Contact Lenses Ejemplos de reglas de la información en la tabla anterior son: If tear production rate= reduced then recommendation = none If age= young and astigmatism=no and tear production rate=normal then recommendation=soft If age=pre-presbyonic and astigmatism=no and tear production rate=normal then recommendation=soft If age=presbyonic and spectacle prescription0myope and astigmatism=no then recommendation=none GENERAR UN DATA SET DE 4 REGLAS VALIDAS. En algunas ocasiones, hay situaciones en las cuales no aplica ninguna regla, otra veces más de una regla puede aplicar resultando un conflicto en la recomendación. Algunas veces asignar probabilidades o pesos, pueden ser asociadas a la regla para asociar el nivel de importancia entre reglas.
21 Contact Lenses Frecuentemente se utilizan técnicas de machine learning para conocer mejor la estructura de los datos, más que realizar predicciones para nuevos casos. La descripción estructural, para los datos de los lentes de contacto en forma de árbol de decisión se muestra a continuación: Tear production rate reduced normal none astigmatism test branch leaf soft no yes Spectacle prescription myope hypermetrope hard none Para muchos propósitos es una representación más consisa de las reglas y tiene la ventaja que puede ser visualizada más fácilmente.
22 Conjunto de datos númericos clasico El conjuto de datos de Lirios, proporcionado por el estadístico R.A. Fisher a mediados de 1930 en un seminario de trabajo, es uno de los datasets más famosos usados en data mining. Este contiene datos de tres tipos de plantas: lirios sestosa, lirios versicolor y lirios virginia. Todos los atributos tiene valores numéricos
23 Conjunto de datos númericos clasico El siguiente conjunto de reglas puede ser inferido del dataset anterior: If ancho sepalo < 2.55 longitud del petalo < 4.95 and ancho del petalo < 1.55 then Lirio versicolor If longitud del petalo > and longitud del petalo <4.95 and ancho del petalo < 1.55 then lirio versicolor El dataset para Lirio involucra atributos numéricos, la salida tipo de lirio- es una categoría, no un valor numérico. ACTIVIDAD: GENERAR OTRAS 4 REGLAS DEL DATASET El conjunto de datos de los lirios, contenía atributos numéricos y la salida -el tipo de lirio- es una categoría que contiene un valor no numérico.
24 Predición numérica Analizaremos el desempeño relativo al poder de procesamiento computacional de 209 diferentes configuraciones de computadoras. La forma clásica de hacer frente a la predicción continua, es escribir la salida como una suma lineal de los valores de los tributos con sus apropiados pesos, por ejemplo: Performance PRP = MYCT MMIN MMAX CACH CHMIN CHMAX. Esta es llamada una ecuación de regresión múltivariable. El proceso de determinación de pesos es llamado regresión (método estádistico). El método básico de regresión es incapaz de descubrir relaciones no lineales.
25 Negociación Laboral La siguiente tabla contiene información de contratos colectivos para negocios y servicios profesionale, con menos de 500 empleados ( maestros, enfermeras, staff universitario, pólicias, etc). Cada caso corresponde a un contrato, el resultado de salida es evaluar si el contrato es aceptado o no aceptado. Tipo de contratos Información presentada en columnas. Este es un conjunto de datos, más realista que los anteriores que hemos visto, ya que contiene muchos datos perdidos u omitidos.
26 Decision Trees Bad Wage increase first year <- 2.5 good > 2.5 Statutory holidays >10 Bad <-10 Wage increase first year <- 4 Good >4 - El árbol es simple y aproximado: No representa los datos de manera exacta -Puede predecir mal para algunos contratos que son marcados como buenos. - Un contrato es malo, si el incremento de salario el primer año es muy pequeño (menos del 2.5%), si este es mayor que eso, es bueno si las vacaciones obligatorias son más de 10 días. Wage increase first year > 2.5 <- 2.5 Statutory holidays Working hours Per week >10 >36 <-36 Health plan Good bad contribution none half full Bad Good Bad <-10 Wage increase first year Bad <- 4 -Árbol más complejo, representa al mismo conjunto de datos. - Esta es una representación más segura del conjunto de datos actuales. - >4 Si trabajamos más de 36 horas el contrato es malo si no hay un plan de salud o un plan completo de salud, pero es bueno si solo se otorga la mitad del plan de salud. Good
27 A Clasical Machine Learning Success Clasificación de Soya: Una historia exitosa en la aplicación de aprendizaje maquinal a problemas prácticos es la identificación de reglas para el diagnóstico de enfermedades de la soya. Los datos fueron tomados de cuestionarios que describen la enfermedad de la planta.
28 A Clasical Machine Learning Success La tabla anterior da los atributos, los diferentes valores numéricos que cada uno puede tener y un ejemplo de registro para una planta en particular., los atributo se han colocado en diferentes categorías. Estos son dos ejemplos de reglas, aprendidos de estos datos. If [ leaf condition is normal and stem condition is abnormal] and stem cankers is below soil line and canker lesion color is brown] then diagnosis is rhizoctonia root rot If [leaf malformation is absent] and steam condition is abnormal and stema cakers is below soil line and canker lesion color is brown] then diagnosis is rhizoctonia root rot Estas reglas el rol potencial de conocimiento previo, comúnmente llamado domain knowledge
29 Campo de Aplicación Es importante aplicar sistemas de aprendizaje, para obtener conocimiento de estructuras de decisión que pueden ser inferidas de los datos. Decisiones basadas en juicio: Solicitar un préstamo (aceptado/rechazado) - Métodos estadísticos son usados para determinar si es aceptado o rechazado. - 90% de los casos son analizados por sistemas inteligentes, el otro 10% son referidos a expertos. Para el análisis de información crediticia, es importante contar con atributos tales como: edad, antigüedad con el banco, antigüedad laboral, otras tarjetas de crédito, etc.
30 Campo de Aplicación Imágenes La tecnología satelital, científicos ambientales han tratado de localizar petroleó a partir de imágenes satelitales. Las manchas negras aparecen como regiones obscuras en la imagen y la forma depende del las condiciones del mar. La entrada de es un conjunto de pixeles de imágenes del radar satelital y la salida es un número más pequeño de imágenes, con marcas coloreadas en su bordes -Primero se normaliza la imagen - Regiones obscuras sospechosas son identificadas. - Docena de atributos son extraidos de cada región - Caracterizar su tamaño, forma, área, intensidad, forma, etc. - Finalmente, técnicas de aprendizaje estandar son aplicas aplicadas.
31 Campo de Aplicación Pronóstico Precio de una acción en el mercado Diagnóstico Detección de tumores - El diagnóstico es una de las principales áreas de aplicación de los Sistemas expertos
32 Machine learning and statistics Cual es la diferencia entre aprendizaje maquinal y estadística? No se puede ver una línea divisoria entre aprendizaje maquinal y estadística por que hay un continuo, una multidimesionalidad de técnicas de análisis de datos.. Estadística, esta más relacionado con pruebas de hipotesis. Modelo de aprendizaje maquinal Modelo de aprendizaje estadístico Aprendizaje maquinal, esta más relacionado con formular el proceso de generalización, como una búsqueda de posibles hipotesis
33 Machine learning and statistics Search es una buena técnica a explorar en el procesos de aprendizaje. El espacio de búsqueda, aunque infinito, es extremado grande y es impráctico, para enumerar todas las posibles descripciones y luego ver cuales son las acertadas. En el caso del problema del clima, hay 4 X 4 X 3 X 3 X 2 = 228 posibilidades para cada regla. Hay 4 posibilidades para el atributo de outlook : sunny, overcast, rainy y otras. Similarmente, hay 4 para la temperatura, tres para la humedad y tres para el viento.
34 Sesgo Visualizando la generalización como la búsqueda de espacios posibles, hace claro que las decisiones más importantes en sistemas de aprendizaje maquinal son: 1. El lenguaje de descripción del concepto 2. El orden en el cual el espacio es buscado 3. El camino, para evitar el overfitting en el entrenamiento de datos en partícular. Overfitting.- Es estadística, overfitting es montar un modelo estadístico que tenga muchos parámetros. Un modelo absurdo y falso, puede embonar perfectamente si el modelo cuenta con suficiente complejidad en comparación con la cantidad de datos disponibles Estas tres propiedades son generalmente referidas como el bias sesgo de la búsqueda y es llamado: sesgo lingüistico, búsqueda de sesgo, overfittingavoidance bias
35 Sesgo Lingüistico La pregunta más importante para el sesgo lingüistico es cuando el concepto de descripción del lenguaje es universal o cuando este impone restricciones o que conceptos deben de ser aprendidos. En el ejemplo del clima, Si se hubieran enumerado todos los posibles condiciones del clima, el concepto de play es un subconjunto de las posibles condiciones climáticas. Un lenguaje universal, es aquel que es capaz de casi todos los posibles subconjuntos de ejemplos. Una posible representación de concepto es solamente enumerar los ejemplos: If outlook = overcast and temperature = hot and humidity= high and windy=false then pay =yes If outlook=rainy and temperature=mild and humidity= high and windy=false then play=yes If outlook=rainy and temperature=cool and humidity=normal and windy=false then play=yes If outlook=overcast and temperature=cool and humidity=normal and windy=true then play= yes.. If none of the above the play=no
36 Búsqueda de Sesgo En problemas realísticos de data mining, hay muchas alternativas de descripción de conceptos que se ajustan a los datos, y el problema es encontrar el mejor de acuerdo a ciertos criterios usualmente simplista. Es frecuentemente infactible buscar en la totalidad del espacio y garantizar que la descripción encontrada es realmente la mejor. El procedimiento de búsqueda es heurístico y no garantiza la optimización al final del resultado. Minería de Datos y Ética El uso de datos- particularmente datos de personas para data mining tiene serios implicaciones éticas y los practicantes de técnicas de data mining, tienen que actuar de manera responsable haciendolos conscientes de si mismos de los aspectos éticos que rodena la aplicación en especifica.
37 The point is that data mining is just a tool in the whole process: it is people who take the results, along with other knowledge, and decide what action to apply.
Aprendizaje Computacional y Extracción de Información
Aprendizaje Computacional y Extracción de Información Introducción Jose Oncina oncina@dlsi.ua.es Dep. Lenguajes y Sistemas Informáticos Universidad de Alicante 17 de octubre de 2005 J. Oncina (Universidad
Más detallesJesús García Herrero TÉCNICAS DE INDUCCIÓN-II
Jesús García Herrero TÉCNICAS DE INDUCCIÓN-II En esta clase se continúa con el desarrollo de métodos de inducción de modelos lógicos a partir de datos. Se parte de las limitaciones del método ID3 presentado
Más detallesInteligencia Artificial: Su uso para la investigación
Inteligencia Artificial: Su uso para la investigación Dra. Helena Montserrat Gómez Adorno Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas helena.adorno@iimas.unam.mx 1 Introducción
Más detallesAprendizaje Automatizado. Árboles de Clasificación
Aprendizaje Automatizado Árboles de Clasificación Árboles de Clasificación Estudiaremos un algoritmo para la creación del árbol. Selección de atributos comenzando en el nodo raíz. Proceso recursivo. Árboles
Más detallesAprendizaje Automatizado
Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto
Más detallesPráctica 3: Almacenamiento de modelos con WEKA.
PROGRAMA DE DOCTORADO INTERUNIVERSITARIO APRENDIZAJE AUTOMÁTICO Y DATA MINING Práctica 3: Almacenamiento de modelos con WEKA. Objetivos: Almacenar modelos creados con WEKA. Utilizar un modelo previo para
Más detallesFundamentos de Aprendizaje Automático
Facultad de Matemática, Astronomía y Física Universidad Nacional de Córdoba Fundamentos de Aprendizaje Automático Práctico N 1: Anatomía y Estructura de los datos Aprendizaje de Conceptos En un consultorio
Más detallesReconocimiento de Patrones DRA. LETICIA FLORES PULIDO
Reconocimiento de Patrones DRA. LETICIA FLORES PULIDO 2 CONTENIDO TEMA1: INTRODUCCIÓN TEMA2: APRENDIZAJE MÁQUINA TEMA3: REDES NEURONALES MULTICAPA TEMA4: PROGRAMACIÓN EVOLUTIVA 3 TEMA 2 : APRENDIZAJE MÁQUINA
Más detallesAprendizaje Automatizado
Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto
Más detallesTareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR
Tareas de la minería de datos: clasificación CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja
Más detallesRedes Bayesianas (1) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile
Redes Bayesianas (1) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile Referencia Bayesian networks without tears: making Bayesian networks more accessible to the probabilistically
Más detallesAprendizaje Automático
Regresión Lineal: Descenso de Gradiente Árboles de Regresión: M5 Ingeniería Informática Fernando Fernández Rebollo y Daniel Borrajo Millán Grupo de Planificación y Aprendizaje (PLG) Departamento de Informática
Más detalles1.-DATOS DE LA ASIGNATURA
1.-DATOS DE LA ASIGNATURA Nombre de la asignatura: Minería de Datos Carrera: Ingeniería en Sistemas Computacionales Clave de la asignatura: ADM-0701 Horas teoría-horas práctica-créditos: 3-2-8 2.-HISTORIA
Más detallesModelos de Mercadotecnia Tema 1: Dimensión del Marketing
Tema 1: Dimensión del Marketing Sesión 2: Bases de Datos Objetivo de la Sesión: Al concluir la sesión el alumno reconocerá el proceso para llevar a cabo la minería de datos y describirá cómo las herramientas
Más detallesLingüística computacional
Lingüística computacional Definición y alcance Escuela Nacional de Antropología e Historia (ENAH) Agosto diciembre de 2015 Lingüística Ciencias de la computación Lingüística computacional Estudio del lenguaje
Más detallesTRABAJO PRÁCTICO III: Minería de datos. PARTE 01: Arboles de decisión (J48)
TRABAJO PRÁCTICO III: Minería de datos PARTE 01: Arboles de decisión (J48) Introducción: En este trabajo se implementa el primero de una serie de algoritmos que se presentarán durante la materia para realizar
Más detallesArboles de Decisión (II) Carlos Hurtado L. Depto de Ciencias de la Computación, Universidad de Chile
Arboles de Decisión (II) Carlos Hurtado L. Depto de Ciencias de la Computación, Universidad de Chile Arboles de Decisión Algoritmo de Hunt (I) Nodo interior Nodo por expandir Nodo hoja Algoritmo de Hunt
Más detallesREGLAS DE ASOCIACIÓN por Claudia J iménez Jiménez R Semestre
REGLAS DE ASOCIACIÓN por Claudia Jiménez R Semestre 1-2012 1 Áreas de Aplicación Investigación de mercados Finanzas Biología Detección de fraude Medicina Sociología Y en muchas otras áreas!! ANALISIS DE
Más detallesal Aprendizaje Automático Breve Introducción con WEKA Procesamiento del Lenguaje Natural Índice José María Gómez Hidalgo Evaluación y visualización
Breve Introducción al Aprendizaje Automático con WEKA Procesamiento del Lenguaje Natural José María Gómez Hidalgo http://www.esp.uem.es/~jmgomez/ Índice Referencias Motivación Conceptos básicos El proceso
Más detallesAnálisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Desde la antigüedad, el problema de buscar patrones en datos es fundamental en diversas
Más detallesÁrboles de Decisión Árboles de Sintaxis
Árboles de Decisión Árboles de Sintaxis Estructuras de Datos Andrea Rueda Pontificia Universidad Javeriana Departamento de Ingeniería de Sistemas Árboles de Decisión Árbol de Decisión Forma gráfica de
Más detallesTema 2. El proceso del descubrimiento de conocimiento a partir de bases de datos (KDD)
Tema 2 El proceso del descubrimiento de conocimiento a partir de bases de datos (KDD) Tema 2. El proceso de extracción de conocimiento a partir de bases de datos Objetivos: Entender el objetivo del proceso
Más detallesTareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR
Tareas de la minería de datos: clasificación PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja o asocia datos
Más detallesAprendizaje Automatizado. Árboles de Clasificación
Aprendizaje Automatizado Árboles de Clasificación Árboles de Clasificación Entrada: Objetos caracterizables mediante propiedades. Salida: En árboles de decisión: una decisión (sí o no). En árboles de clasificación:
Más detallesIntroducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR
Introducción a la minería de datos CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Minería de datos Detección, interpretación y predicción de patrones cuantitativos y cualitativos
Más detallesEstadística Computacional
Estadística Computacional Profesor : Héctor Allende O. Departamento de Informática Universidad Técnica Federico Santa María Estructura del Curso 1.- Introducción. 2.- Análisis Exploratorio de Datos. 3.-
Más detallesInducción de Reglas Proposicionales
Inducción de Reglas Proposicionales Reglas de clasificación Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido 1. Motivación 2. Reglas de Clasificación 1. Reglas
Más detallesTema 4: Aprendizaje de conceptos
Inteligencia Artificial II Curso 2004 2005 Tema 4: Aprendizaje de conceptos José A. Alonso Jiménez Francisco Jesús Martín Mateos José Luis Ruiz Reina Dpto. de Ciencias de la Computación e Inteligencia
Más detallesCientífico de datos o data scientist
Científico de datos o data scientist La demanda de científicos de datos se ha incrementado de manera constante en los últimos años, existe en el mercado una amplia oferta para los científicos de datos.
Más detallesINTELIGENCIA DE NEGOCIO
INTELIGENCIA DE NEGOCIO 2016-2017 Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Minería de Datos. Ciencia de Datos Tema 3. Modelos de Predicción: Clasificación, regresión y series temporales
Más detallesClasificación de patrones Introducción
Clasificación de patrones Introducción Jordi Porta Zamorano Escuela Politécnica Superior Universidad Autónoma de Madrid jordi.porta@uam.es Dept. de Lingü ıstica Computacional Real Academia Española porta@rae.es
Más detallesMétodos Cuantitativos
Presenta: Olán Inferencia estadística Parámetros y estadísticos Una población o universo es una colección o totalidad de posibles individuos, objetos o medidas de interés sobre lo que se hace un estudio.
Más detallesTécnicas de Minería de Datos
Técnicas de Minería de Datos Act. Humberto Ramos S. 1 Qué es Minería de datos? El desarrollo de dispositivos tecnológicos para acumular datos a bajo costo. Acumulación o registro de gran cantidad de datos.
Más detallesAprendizaje Automático
id3 id3 como búsqueda Cuestiones Adicionales Regresión Lineal. Árboles y Reglas de Regresión Ingeniería Informática Fernando Fernández Rebollo y Daniel Borrajo Millán Grupo de Planificación y Aprendizaje
Más detallesIntroducción a los sistemas Multiclasificadores. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid
Introducción a los sistemas Multiclasificadores Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido 1. Combinación de modelos 2. Descomposición bias-varianza 3. Bagging
Más detallesIntroducción. Qué es Machine Learning?
Introducción Qué es Machine Learning? Introducción Hay problemas en Informática que se pueden definir concretamente y son simples de convertir en un algoritmo Ejemplo: Ordenar alfabéticamente una lista,
Más detallesTópicos Selectos en Aprendizaje Maquinal. Clasificación y Regresión con Datos Reales
Tópicos Selectos en Aprendizaje Maquinal Guía de Trabajos Prácticos N 2 Clasificación y Regresión con Datos Reales 18 de septiembre de 2014 1. Objetivos Introducir conceptos básicos de aprendizaje automático.
Más detallesAplicaciones: Herramientas clásicas, Redes Neuronales, control borroso
Indice Inteligencia Artificial Historia Revisión de Técnicas Control automático Jerarquía de control Necesidad de inteligencia Aplicaciones: Herramientas clásicas, Redes Neuronales, control borroso Control
Más detallesIntroducción a la minería de datos
Introducción a la minería de datos 1 Temario Qué es minería de datos? Quién usa minería de datos? Por qué de la minería de datos? Ciclo virtuoso de la minería de datos 2 Definición de minería de datos
Más detallesDATA MINING CONCEPTOS Y EXPERIENCIA EN LA FISCALIZACIÓN DEL MERCADO DE VALORES DE CHILE
VII Reunión sobre casos prácticos de inspección y vigilancia de mercados y entidades. Santiago de Chile DATA MINING CONCEPTOS Y EXPERIENCIA EN LA FISCALIZACIÓN DEL MERCADO DE VALORES DE CHILE Marcelo García
Más detallesPráctica 9. Árboles de decisión
Práctica 9 Árboles de decisión En esta práctica vamos a ver un sistema de aprendizaje basado en árboles de decisión capaz de generar un conjunto de reglas. Este sistema es el más utilizado y conocido.
Más detallesINTRODUCTION TO MACHINE LEARNING ISABELLE GUYON
INTRODUCTION TO MACHINE LEARNING ISABELLE GUYON 2008-02-31 Notas tomadas por: María Eugenia Rojas Qué es Machine Learning? El proceso de aprendizaje de maquina consiste en tener una gran base de datos
Más detallesTRABAJO FIN DE ASIGNATURA
INTELIGENCIA EN REDES DE COMUNICACIONES TRABAJO FIN DE ASIGNATURA Luis Javier Duque Cuadrado 1 Breve descripción de los algoritmos elegidos 1.1 Clasificación a) Árboles de decisión de un nivel (decision
Más detallesAprendizaje Automático Segundo Cuatrimestre de Árboles de Decisión
Aprendizaje Automático Segundo Cuatrimestre de 2015 Árboles de Decisión Aproximación de Funciones Ejemplo: Un amigo juega al tenis los sábados. Juega o no, dependiendo del estado del tiempo. Cielo: {Sol,
Más detallesRECONOCIMIENTO DE PATRONES DRA. LETICIA FLORES PULIDO
RECONOCIMIENTO DE PATRONES DRA. LETICIA FLORES PULIDO 2 CONTENIDO TEMA1: INTRODUCCIÓN TEMA2: APRENDIZAJE MÁQUINA TEMA3: RECONOCIMIENTO DE PATRONES TEMA4: PROGRAMACIÓN EVOLUTIVA 3 TEMA 4 : PROGRAMACIÓN
Más detallesSCAN WHITE PAPER CONSIDERACIONES BÁSICAS EN LA SUPERVISIÓN Y CONTROL DE PROCESOS INDUSTRIALES
SCAN WHITE PAPER CONSIDERACIONES BÁSICAS EN LA SUPERVISIÓN Y CONTROL DE PROCESOS INDUSTRIALES Septiembre, 2001 PARTE I 1. INTRODUCCION En el competitivo mercado de hoy, el éxito de cualquier negocio depende
Más detallesModelos de Mercadotecnia. SESIÓN # 2. Bases de datos.
Modelos de Mercadotecnia SESIÓN # 2. Bases de datos. Contextualización La definición de una base de datos se puede simplificar en una sola palabra: colección. Este concepto se define como la recopilación
Más detallesReconocimiento Automático de Voz
Reconocimiento Automático de Voz Presentación basada en las siguientes Referencias: [1] Rabiner, L. & Juang, B-H.. Fundamentals of Speech Recognition, Prentice Hall, N.J., 1993. [2] Rabiner, L. & Juang,
Más detallesTópicos Selectos en Aprendizaje Maquinal. Algoritmos para Reconocimiento de Patrones
Tópicos Selectos en Aprendizaje Maquinal Guía de Trabajos Prácticos N 1 Algoritmos para Reconocimiento de Patrones 18 de septiembre de 2014 1. Objetivos Introducir conceptos básicos de aprendizaje automático.
Más detallesIntroducción Aprendizaje de Máquina. Gerardo Gutiérrez Gutiérrez Alexis Rodríguez Gutiérrez
Introducción Aprendizaje de Máquina Gerardo Gutiérrez Gutiérrez Alexis Rodríguez Gutiérrez Qué es Aprendizaje de Máquina? "Field of study that gives computers the ability to learn without being explicitly
Más detallesTÓPICOS SELECTOS DE OTROS CURSOS
UNIVERSIDAD AUTÓNOMA DE CHIHUAHUA Clave: 08MSU007H Clave: 08USU4053W FACULTAD DE INGENIERÍA PROGRAMA DEL CURSO: TÓPICOS SELECTOS DE OTROS CURSOS DES: Ingeniería Ingeniería en Sistemas Programa(s) Educativo(s):
Más detallesGUÍA DE APRENDIZAJE ASIGNATURA SISTEMAS BASADOS EN APRENDIZAJE AUTOMATICO. CURSO ACADÉMICO - SEMESTRE Primer semestre
GUÍA DE APRENDIZAJE ASIGNATURA SISTEMAS BASADOS EN APRENDIZAJE AUTOMATICO CURSO ACADÉMICO - SEMESTRE 2015-16 - Primer semestre FECHA DE PUBLICACIÓN Julio - 2015 Datos Descriptivos Nombre de la Asignatura
Más detallesTécnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO
Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO 2 Objetivo El objetivo principal de las técnicas de clasificación supervisada es obtener un modelo clasificatorio válido para permitir tratar
Más detallesFuncionamiento, interfaz y formato de los datos en GARP
Grupo de investigación Ecología de Zonas Áridas CENTRO ANDALUZ PARA LA EVALUACIÓN Y SEGUIMIENTO DEL CAMBIO GLOBAL Funcionamiento, interfaz y formato de los datos en GARP Elisa Liras Dpto. Biología Vegetal
Más detallesDeep Learning Seminario Minería de Datos
Deep Learning Seminario Minería de Datos Álvaro Riascos Mónica Ribero 2 de mayo de 2017 Contenido 1 Introducción 2 Modelo Logit 3 Redes Neuronales 4 Aplicaciones 5 Redes en el contexto de NLP 6 Otras arquitecturas
Más detallesTópicos Selectos en Aprendizaje Maquinal. Algoritmos para Reconocimiento de Patrones
Tópicos Selectos en Aprendizaje Maquinal Guía de Trabajos Prácticos N 1 (2da. parte) Algoritmos para Reconocimiento de Patrones 20 de Octubre de 2010 1. Objetivos Introducir conceptos básicos de aprendizaje
Más detallesConjuntos de Clasificadores (Ensemble Learning)
Aprendizaje Automático Segundo Cuatrimestre de 2016 Conjuntos de Clasificadores (Ensemble Learning) Gracias a Ramiro Gálvez por la ayuda y los materiales para esta clase. Bibliografía: S. Fortmann-Roe,
Más detalles3. Árboles de decisión
3.1 Introducción Método para aproximación de funciones objetivo que tengan valores discretos (clasificación) Uno de los métodos mas extensamente usados para inferencia inductiva Capaz de aprender hipótesis
Más detallesConceptos básicos de la inferencia estadística
Conceptos básicos de la inferencia estadística Unidad 1. Introducción Javier Santibáñez IIMAS, UNAM jsantibanez@sigma.iimas.unam.mx Semestre 2019-1 Javier Santibáñez (IIMAS, UNAM) Introducción Semestre
Más detallesCAPÍTULO 1 INTRODUCCIÓN
CAPÍTULO 1 INTRODUCCIÓN En este capítulo, primero se introducirán algunos conceptos estadísticos básicos, luego se dará una definición y división de la estadística. Finalmente se hará una clasificación
Más detallesAplicaciones del Análisis estadístico multivariado - Ejercicios Clase EJERCICIOS CLASE 6. Arboles de Regresión
EJERCICIOS CLASE 6 Arboles de Regresión Ejercicio 1 - Presentación de datos Página 2 Ejercicio 1 - Consignas Página 2 Ejercicio 1 - Respuestas Página 3 Ejercicio 1 - Pasos en Infostat Página 4 Ejercicio
Más detallesInteligencia Artificial e Ingeniería del Conocimiento
Inteligencia Artificial e Ingeniería del Conocimiento I. A. Clásica Nuevos enfoques de la I. A. Agentes Inteligentes Aprendizaje Introducción Aprendizaje inductivo decisión Planteamiento conectivista.
Más detallesMétodos de Remuestreo en Aprendizaje Automático
Métodos de Remuestreo en Aprendizaje Automático en datos, en hipótesis, y algunos otros trucos: Cross-validation, Bootstrap, Bagging, Boosting, Random Subspaces Lo que sabemos hasta ahora: Hemos visto
Más detallesTema 8: Árboles de decisión
Introducción a la Ingeniería del Conocimiento Curso 2004 2005 Tema 8: Árboles de decisión Miguel A. Gutiérrez Naranjo Dpto. de Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla
Más detallesPráctica 2: Utilización de WEKA desde la línea de comandos.
PROGRAMA DE DOCTORADO TECNOLOGÍAS INDUSTRIALES APLICACIONES DE LA INTELIGENCIA ARTIFICIAL EN ROBÓTICA Práctica 2: Utilización de WEKA desde la línea de comandos. Objetivos: Utilización de WEKA desde la
Más detallesMASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.
MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión. 1 Objetivos del tema Conocer en qué consiste un árbol de decisión. Aprender los problemas que pueden
Más detallesCapítulo 2. disponibles las habilidades de los expertos a los no expertos. Estos programas tratan de
Capítulo 2 Sistemas Expertos y Lógica Difusa 2.1 Sistemas Expertos Los sistemas expertos son programas computacionales diseñados para tener disponibles las habilidades de los expertos a los no expertos.
Más detallesÍndice general. Prefacio...5
Índice general Prefacio...5 Capítulo 1 Introducción...13 1.1 Introducción...13 1.2 Los datos...19 1.3 Etapas en los procesos de big data...20 1.4 Minería de datos...21 1.5 Estructura de un proyecto de
Más detallesAprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur
Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA Ricardo Aler Mur EVALUACIÓN Evaluación: entrenamiento y test Una vez obtenido el conocimiento es necesario validarlo para
Más detallesIndique la respuesta correcta (d=ninguna de las anteriores, e=todas las anteriores)
Parcial 4. Indique la respuesta correcta (d=ninguna de las anteriores, e=todas las anteriores) 1. Inteligencia es: a. La capacidad para combinar información. c. El proceso que permite elaborar conocimiento.
Más detallesIntroducción a Minería de Texto. Fabián Latorre
Introducción a Minería de Texto Fabián Latorre fabian.latorre@quantil.com.co Contenido Qué es la minería de texto? Por qué es relevante? Por qué la estudiamos? Aplicaciones La complejidad del texto no
Más detallesPerceptrón Simple. Aspectos Prácticos y Algoritmos Redes Neuronales, DC-FCEyN-UBA. Rosana Matuk Primer Cuatrimestre 2018
Perceptrón Simple Aspectos Prácticos y Algoritmos Redes Neuronales, DC-FCEyN-UBA Rosana Matuk Primer Cuatrimestre 2018 Rosana Matuk (DC-FCEyN-UBA) Perceptrón simple Primer Cuatrimestre 2018 1 / 29 Objetivo
Más detallesAprendizaje de conceptos. El aprendizaje como generalización
Aprendizaje de conceptos. El aprendizaje como generalización 1 Aprendizaje de conceptos Consideraremos el problema de inferir automáticamente la definición general de un concepto o clase a partir de un
Más detallesDiagnóstico. Dirección de Cómputo para la Docencia. UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO Dirección General de Servicios de Cómputo Académico
TALLER DE APLICACIONES ESTADÍSTICAS CON EXCEL Diagnóstico Elaborado por Mónica Patricia Ballesteros Chávez 1. Es una expresión en Excel que puede incluir operadores, referencias a celdas, valores, funciones
Más detallesAprendizaje Supervisado Máquinas Vectoriales de Soporte
Aprendizaje Supervisado Máquinas Vectoriales de Soporte Tipos de Variables 10 10 Modelo general de los métodos de Clasificación Id Reembolso Estado Civil Ingresos Anuales 1 Sí Soltero 125K No 2 No Casado
Más detallesQué es machine learning? Algunos Tipos de Machine Learning. Generalización & Exploración. Aprendizaje a partir de Ejemplos. Inferencia Inductiva
Prof Carlos Iván Chesñevar Datamining y Aprendizaje Automatizado Introducción al Machine Learning Prof Carlos Iván Chesñevar Departamento de Cs e Ing de la Computación Universidad Nacional del Sur Qué
Más detallesEstadísticas Pueden ser
Principios Básicos Para iniciar en el curso de Diseño de experimentos, es necesario tener algunos conceptos claros en la parte de probabilidad y estadística. A continuación se presentan los conceptos más
Más detallesQué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y)
Gráfico de dispersión Qué es? Primer paso Representación en un sistema de coordenadas cartesianas de los datos numéricos Cada punto muestra el valor de cada pareja de datos (X e Y) Gráfico de dispersión
Más detalles5ª Jornada de Difusión Tecnológica
5ª Jornada de Difusión Tecnológica La Minería de Textos y Opinión, oportunidad para la adquisición de información no estructurada. 23 noviembre 2010 D. Antonio Moreno Profesor Titular e Investigador del
Más detallesÁrboles de Decisión. Tomás Arredondo Vidal 26/3/08
Árboles de Decisión Tomás Arredondo Vidal 26/3/08 Árboles de Decisión Contenidos Árboles de Decisión Sobreajuste Recorte (Pruning) Investigación Relacionada a los Árboles de Decisión William of Occam inventa
Más detallesPara llevar a cabo una simulación, se requiere implementar las siguientes etapas:
SIMULACIÓN: La simulación se define como una técnica numérica utilizada para representar un proceso o fenómeno mediante otro más simple que permite analizar sus características. Esta técnica emplea relaciones
Más detallesII. 2. Análisis manual de imágenes médicas: Análisis de la curva ROC (Receiver Operating Characteristic).
II. 2. Análisis manual de imágenes médicas: Análisis de la curva ROC (Receiver Operating Characteristic). Psicofísica: calidad física de una imagen médica y calidad del diagnóstico El análisis de la curva
Más detallesInteligencia de Negocios
Inteligencia de Negocios T E C N O L O G Í A S D E A P O Y O Claudio Henríquez Berroeta Modelamiento de la toma de decisión y sus procesos Temario Introducción Data Warehouse Data Mining Modelamiento del
Más detallesGLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.
GLOSARIO ESTADÍSTICO Fuente: Murray R. Spiegel, Estadística, McGraw Hill. CONCEPTOS Y DEFINICIONES ESPECIALES Es el estudio científico de los métodos para recoger, organizar, resumir y analizar los datos
Más detallesAprendizaje inductivo
Inteligencia Artificial Aprendizaje inductivo Ing. Sup. en Informática, 4º Curso académico: 2011/2012 Profesores: Ramón Hermoso y Matteo Vasirani Aprendizaje Resumen: 3. Aprendizaje automático 3.1 Introducción
Más detallesDesde hace algún tiempo los problemas más recurrentes con los que se enfrenta la industria
3 Sistemas Expertos 3.1 Introducción Desde hace algún tiempo los problemas más recurrentes con los que se enfrenta la industria son la falta de personas capacitadas en campos muy específicos y el elevado
Más detallesConceptos básicos estadísticos
Conceptos básicos estadísticos Población Población, en estadística, también llamada universo o colectivo, es el conjunto de elementos de referencia sobre el que se realizan las observaciones. El concepto
Más detallesModelo matemático. Lista de verificación de Hospitales Seguros
Modelo matemático El primer paso para obtener el índice de seguridad hospitalaria es evaluar el establecimiento de salud, aplicando la lista de verificación, la cual toma en consideración la ubicación
Más detallesModelo y Análisis 179
Modelo y Análisis 179 2.6 Análisis Funcional Por medio del análisis funcional: Se muestra las operaciones de los objetos y sus dependencia de datos por medio de los diagramas de flujo de datos. Se descompone
Más detallesComparación de dos Muestras - SnapStat
Comparación de dos Muestras - SnapStat Resumen La Comparación de Dos Muestras usando SnapStat crea un resumen de una página que compara dos muestras independientes de datos de variables. Calcula estadísticos
Más detallesJesús García Herrero METODOLOGÍA DE ANÁLISIS DE DATOS
Jesús García Herrero METODOLOGÍA DE ANÁLISIS DE DATOS En esta clase concluimos el curso de Análisis de Datos con una visión de las metodologías del análisis de datos. Como se ha visto, este es un campo
Más detallesCAPÍTULO 1 INTRODUCCIÓN
CAPÍTULO 1 INTRODUCCIÓN En este capítulo, primero se introducirán algunos conceptos estadísticos básicos, luego se dará una definición y división de la estadística. Finalmente se hará una clasificación
Más detallesAprendizaje Automatizado. Árboles de Clasificación
Aprendizaje Automatizado Árboles de Clasificación Árboles de Clasificación Estudiaremos un algoritmo para la creación del árbol. Selección de atributos comenzando en el nodo raíz. Proceso recursivo. Árboles
Más detallesAnálisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Reconocimiento de patrones (RP): clasificar objetos en un número de categorías o clases.
Más detallesComplejidad computacional (Análisis de Algoritmos)
Definición. Complejidad computacional (Análisis de Algoritmos) Es la rama de las ciencias de la computación que estudia, de manera teórica, la optimización de los recursos requeridos durante la ejecución
Más detallesExamen de Septiembre de TACCIII y TAI (Modelo 2)
Examen de Septiembre de TACCIII y TAI (Modelo 2) 12 de septiembre de 2008 1. La desordenación de la base de datos puede influir en el resultado obtenido mediante a) clasificación por distancia a las medias
Más detallesCapitulo. Describir la relación entre dos variables Pearson Prentice Hall. All rights reserved
Capitulo 34 Describir la relación entre dos variables Relación entre dos variables Al estudiar conjuntos de variables con más de una variable, una pregunta fundamental debe ser si podemos utilizar el valor
Más detalles