Cómo se usa Data Mining hoy?

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Cómo se usa Data Mining hoy?"

Transcripción

1 Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta de mailings Campañas de adquisición de clientes

2 El ciclo de data mining Identificar un problema Medir los resultados Usar data mining para transformar los datos en información Actuar basándonos en la información 2

3 Importante Meta de Data Mining: encontrar patrones Hallar patrones no es suficiente Necesidad entender patrones, responder a ellos, actuar sobre ellos y convertir los datos en información, información en acción y acción en valor para la organización 3

4 Data Mining es un proceso 4 proceso centrado en acciones derivadas del descubrimiento de conocimiento no en el mecanismo de en si mismo. algoritmos son importantes, la solución es más que un conjunto de técnicas y herramientas. técnicas aplicadas en el caso correcto sobre datos correctos

5 El Proceso de KDD INTERPRETACIÓN Y EVALUACIÓN DATA MINING Conocimiento CODIFICACIÓN Modelos LIMPIEZA Datos Transformados SELECCIÓN Datos Procesados Datos Datos objetivo 5

6 Estándar de proyecto de Data Mining: Crisp-DM Compresión del problema Compresión de los datos. Implantación Preparación de los datos Evaluación Modelado 6

7 Tipos de datos Cuantitativos Discretos (número de empleados) Continuos (sueldo,...) Cualitativos Nominales (estado civil, género) Ordinales (alto, medio, bajo) 7

8 Preparación de los datos Construcción conjunto final de datos (datos entrada de los algoritmos de Data mining. Posibilidad tareas múltiples veces y sin orden determinado. Algunas tareas: selección de tablas, atributos, registros, transformación y limpieza de los datos. 8

9 Preparación de los datos (II) Entradas Conjunto de datos Descripción del conjunto de datos Fases y Salidas: Selección de datos Informe de los motivos de la selección Limpieza de datos Informe de la limpieza de los datos 9

10 Preparación de los datos (III) Construir el conjunto de datos Atributos derivados Registros generados Integrar los datos Datos integrados Formato de los datos Datos con nuevo formato 10

11 Preparación de los datos Asegurar calidad de los datos Los datos no fueron recogidos para tareas de Data Mining Datos pobres, inconsistentes Numerosas fuentes, diferentes sistemas Funciones Revisión de los datos Tratamiento de Valores nulos e información incompleta 11

12 Preparación: Revisión de los datos 12 Métodos estadísticos y de visualización Variables categóricas: Este 40 Oeste 30 Norte Distribución de variables er trim. 2do trim. 3er trim. Histogramas 1e r Pie charts 2d o Variables cualitativas Este Media, varianza, moda 50 Oeste 40 Norte Scaterplots, boxplots

13 Preparación: Información incompleta Valores atípicos ( outliers ): tratamiento depende de su naturaleza Se pueden eliminar en el proceso de carga del data warehouse Valores nulos: (ninguna de las técnicas es perfecta) Eliminar las observaciones con nulos Eliminar las variables con muchos nulos Utilizar un modelo predictivo 13

14 Preparación Transformación Conseguir una la visión integrada, consistente y consolidada de los datos Refinar datos para que cumplan requisitos de entrada de algoritmos Conversión de variables Reducción /adición de variables Discretización / generalización 14

15 Clasificación

16 Clasificación vs. Predicción Clasificación Predicción de etiquetas categóricas Clasificar: construir un modelo a partir de un conjunto de datos de entrenamiento y valores de un atributo de clasificación. Utilizar modelo para clasificar nuevos datos 16

17 Clasificación vs. Predicción Predicción Modelos (funciones) para variables con valores continuos, i.e., predicción de valores desconocidos Aplicaciones típicas Concesión de créditos Campañas de marketing Diagnósticos médicos 17

18 Clasificación Similar a la experiencia de aprendizaje humana Utilización de la observación para formar un modelo Analizar un conjunto de datos para determinar sus características (creación de un modelo) 18

19 Clasificación Aprendizaje supervisado El modelo se forma a partir de datos clasificados correctamente de antemano Los modelos construidos en dos fases Entrenamiento Prueba 19

20 Clasificación Objetivo Obtener modelos que discrimine las instancias de entrada en clases de equivalencia por medio de los valores de diferentes atributos. Y X 20

21 Clasificación Requisitos Suministrar el atributo decisión o clase (label) El conjunto de valores de este atributo debe ser finito y no excesivamente grande Suministrar los atributos condición Podría requerir datos que no sean numéricos pero existen variedades que tratan con datos numéricos Número máximo de precondiciones Soporte mínimo de las reglas 21

22 Clasificación Entrada de los algoritmos Atributos condición: usados para describir las clases de equivalencia (por medio del proceso de inducción). Atributos decisión o label: usados para construir las clase de equivalencia en los métodos supervisados (una clase por cada valor o combinación de sus valores). 22

23 Clasificación Construcción del modelo Describir un conjunto de datos con base en una característica Cada tupla pertenece a una clase predefinida determinada por el atributo de decisión Se utiliza el conjunto de datos de entrenamiento El modelo se representa mediante reglas de clasificación, árboles de decisión o fórmulas matemáticas 23

24 Clasificación Utilización del modelo Clasificar objetos nuevos de los que se desconoce su clase Determinar precisión del modelo Utilizar modelo para clasificar conjunto de datos de prueba y comparar con etiqueta original Exactitud es el porcentaje de conjunto de datos de prueba que son clasificados correctamente por el modelo El conjunto de datos entrenamiento y el conjunto de datos de prueba disjuntos, para evitar el overfitting 24

25 Clasificación Representación del error Matriz de Confusión Representación en forma de tabla del número de instancias clasificadas correctamente Predicción A B A B Datos reales 25

26 Clasificación Construcción del modelo Datos de entrenamiento Algoritmos de clasificación Nombre Tipo Años Fijo Alberto Asociado 3 no Maria Asociado 7 si Nacho Titular 2 si Alvaro Asociado 7 si David Asociado 6 no Sonia Asociado 3 no Clasificador (Modelo) IF tipo = Titular OR años > 6 THEN fijo = si 26

27 Clasificación Técnicas Técnicas simbólicas: árboles de inducción Muy eficientes en tiempo de proceso Resultados intuitivos Particiones lineales Algunos presentan problemas con variables continuas 27

28 Clasificación Técnicas Redes neuronales Sólo entrada numérica Mas robusto Difícil de entender la salida 28

29 Clasificación Técnicas 29 Análisis discriminante Permite clasificar nuevas observaciones o elementos en grupos definidos El resultado es una fórmula lineal Interpretación muy intuitiva Variables numéricas o dicotómicas Disponibilidad de una medida del error del modelo

30 Clasificación Árboles de decisión Árboles de decisión La representación en forma de árbol Los nodos representan la verificación de una condición sobre un atributo Las ramas representan el valor de la condición comprobada en el nodo del cual derivan Los nodos hoja representan las etiquetas de clase 30

31 Clasificación Árboles de decisión La construcción de los árboles de decisión consta de dos fases Construcción del árbol Al principio, todos las tuplas del conjunto de entrenamiento está en la raíz Se dividen recursivamente en base al atributo seleccionado Poda del árbol Identificar y eliminar las ramas que presentan ruido o outliers 31

32 Clasificación Árboles de decisión Utilización de los árboles de decisión: clasificar una muestra desconocida Comprobar los valores de los atributos de la nueva muestra con las condiciones del árbol y descubrir su etiqueta de clase 32

33 Ejemplo Datos de entrenamiento Edad Estudia Crédito Compra alta no aceptable no alta no excelente no alta no aceptable si media no aceptable si baja si aceptable si baja si excelente no baja si excelente si media no aceptable no baja si aceptable si media si aceptable si media si excelente si media no excelente si alta si aceptable si media no excelente no 33

34 Ejemplo Árbol de decisión Edad? <=30 overcast >40 Estudia? si Crédito? no si aceptable excelente no si no si 34

35 Árbol de decisión: algoritmo 35 Algoritmo básico (voraz) El árbol se construye de forma top-down recursiva utilizando divide y vencerás Al principio, todas las tuplas se encuentran en la raíz Los atributos deben ser categóricos, si son valores continuos hay que discretizarlos previamente Las tuplas se van dividiendo recursivamente con base al atributo seleccionado Los atributos de condición se seleccionan con base en heurísticas o mediante medidas estadísticas, por ejemplo, ganancia de información

36 Árbol de decisión: algoritmo Condiciones de terminación n de división Todas las muestras en un nodo pertenecen a la misma clase No hay más atributos para futuras particiones. Se puede utilizar votación para clasificar el nodo hoja No quedan más ejemplos 36

37 Ganancia de información Seleccionar información Si hay dos clases, P y N (ID3/C4.5/C5.0) el atributo con mayor ganancia de Sea el conjunto de ejemplo S que contiene p elementos de la clase P y n elementos de las clase N La cantidad de información, que se necesita para decidir si una muestra cualquiera de S pertenece a P o a N se define como p p n n I( p, n) = log 2 log2 p + n p + n p + n p + n 37

38 Ganancia de información en árboles de decisión Si se utiliza un atributo A, un conjunto S se dividirá en conjuntos {S 1, S 2,, S v } Si S i contiene p i ejemplos de P y n i ejemplos de N, la entropía, o información necesaria para clasificar objetos en todos los subárboles S i es E( A) p + = ν i i= 1 p + n n i I( p i, n i ) 38

39 Ganancia de información en árboles de decisión La ganancia de información de la rama A es Gain( A) = I( p, n) E( A) 39

40 Selección de atributos mediante ganancia de información Clase P: compra = si Clase N: compra = no I(p, n) = I(9, 5) =0.940 Calcular la entropía para edad: edad p i n i I(p i, n i ) <= , > ,971 E ( edad Así: 5 4 ) = I ( 2,3 ) + I I ( 3, 2 ) = ( 4, 0 Gain( edad) = I( p, n) E( edad) Similitud Gain( ingresos) = Gain( estudia) = Gain( ratio de crédito) = ) 40

41 Extracción de reglas de árboles de decisión Si condición Entonces decisión Se crea una regla por cada camino de la raiz a las hojas Cada par atributo-valor a lo largo del camino representa una conjunción El nodo hoja representa la clase 41

42 Extracción de reglas de árboles de decisión Si condición Entonces decisión SI edad = <=30 Y estudiante = no ENTONCES compra_computador = no SI edad = <=30 Y estudiante = si ENTONCES compra_computador = SI 42

43 Evitar el overfitting 43 El árbol generado es posible que sea muy ajustado (exacto) para el conjunto de entrenamiento Demasiadas ramas puede significar que algunas son debidas a ruido o a outliers Poca exactitud en los ejemplos no vistos Dos enfoques para evitarlo Prepoda (Prepruning) Postpoda (Postpruning)

44 Evitar el overfitting (II) Evitar el crecimiento (Prepruning): no se divide un nodo si la medida de bondad está por debajo de un umbral Dificultad de elegir el umbral 44

45 Evitar el overfitting (II) Postpruning: Eliminar la ramas de un árbol una vez generado por completo. Utilizar un conjunto de datos diferente al de entrenamiento para decidir cuáles ramas podar. 45

46 Enfoques para determinar el tamaño final del árbol 46 Separar datos en conjuntos de entrenamiento (2/3) y prueba (1/3) Utilizar validación cruzada e.g. la validación 10-fold Utilizar todos los datos para entrenamiento Pero aplicar un test estadístico (e.g., chi-square) para estimar si expandir o podar un nodo

47 Enfoques para determinar el tamaño final del árbol Utilizar el principio de mínima longitud de las descripciones Parar el crecimiento cuando se minimice el código 47

48 Mejoras en los árboles 48 Permitir atributos con valores continuos Se definen dinámicamente los valores discretos que dividen los valores del atributo en un conjunto discreto de intervalos Tratamiento de valores nulos Se asigna el valor mas frecuente Se asigna una probabilidad a cada uno de los posibles valores Creación de nuevos atributos que reduzcan la repetición y la replicación

49 Clasificación bayesiana por qué? Aprendizaje probabilístico: Calcula hipótesis probabilísticas explícitas. Enfoque común para ciertos tipos de problemas Incremental: Cada ejemplo puede incrementar/decrementar la probabilidad de que una hipótesis sea correcta. La predicción probabilística predice múltiple hipótesis ponderadas 49

50 Teorema de Bayes Dado un conjunto de datos, la probabilidad a posteriori de una hipótesis h es: P ( h D) = P( D h) P( h) P( D) Dificultad: requiere conocimiento inicial de las probabilidades 50

51 Clasificador Naïve Bayes Classifier (I) Suposición simplificada: los atributos son condicionalmente independientes : n P( Cj V) P( Cj) P ( vi Cj) i= 1 Reduce costo computacional pues solo tiene en cuenta la distribución de la clase. 51

52 Clasificador Naive Bayes (II) Dado un conjunto de entrenamiento se puede calcular las probabilidades Tiempo P N Humedad P N soleado 2/9 3/5 alta 3/9 4/5 cubierto 4/9 0 normal 6/9 1/5 lluvia 3/9 2/5 Temperatura Viento calor 2/9 2/5 si 3/9 3/5 suave 4/9 2/5 no 6/9 2/5 fresco 3/9 1/5 52

53 Redes Neuronales 53 Ventajas La exactitud es generalmente alta Robusto, trabaja bien incluso cuando los datos contienen errores La salida puede ser discreta, valor real, un vector de valores reales Evaluación rápida de la función aprendida Crítica Largo tiempo de entrenamiento Dificultad de entender la función aprendida

54 Predicción de valores La predicción es similar a la clasificación Regresión lineal y múltiple Regresión no lineal Primero construye un modelo El modelo predice el valor desconocido 54

55 Predicción de valores La clasificación predice clases de valores categóricos Los modelos de predicción son funciones continuas 55

56 Algoritmos de Predicción de Valores Para un conjunto de atributos condición: c 1, c 2, c 3,..., c n Se pretende aproximar el atributo X como: X=w 1 c 1 + w 2 c 2 + w 3 c w n c n En otras palabras, calcular el vector de pesos (w 1, w 2, w 3,... w n ) 56

57 Algoritmos de Predicción de Valores (Regresión) X c1 57

58 Análisis de regresión 58 Regresión lineal: Y = α + β X Los parámetros α y β determinan la recta y se estiman utilizando los datos. Regresión múltiple: Y = b0 + b1 X1 + b2 X2. Modelos Log-linear: La tabla de probabilidades conjunta se aproxima por el producto de tablas de ordenes inferiores. Probabilidad: p(a, b, c, d) = αab βacχad δbcd

59 Estimación de los errores División: : Entrenamiento y prueba Conjuntos independientes (2/3), (1/3) Se utiliza cuando se tienen muchos datos Validación n cruzada (Cross-validation) Dividir el conjunto en K muestras Utilizar k-1 muestras como entrenamiento y la restante como prueba (k-fold crossvalidation) Datos con tamaño moderado Bootstrapping (dejar( uno fuera) Datos de tamaño pequeño 59

60 Boosting y Bagging El Boosting incrementa exactitud clasificación de la Aplicable a árboles de decisión o Clasificadores Bayesianos Se entrenan distintos clasificadores y cada uno aprende de su predecesor Bagging: entrenamiento donde se van eligiendo k elementos con reemplazamiento. Se puede utilizar en la predicción numérica 60

61 Resumen La clasificación es posiblemente una de las técnicas mas usada Dependiendo del tipo de datos y del tipo de la variable a estimar así se eligen las técnicas Conviene entrenar los datos con distintas técnicas 61

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

Minería de Datos. Preprocesamiento: Reducción de Datos - Discretización

Minería de Datos. Preprocesamiento: Reducción de Datos - Discretización Minería de Datos Preprocesamiento: Reducción de Datos - Discretización Dr. Edgar Acuña Departamento de Ciencias Matemáticas Universidad de Puerto Rico-Mayaguez E-mail: edgar.acuna@upr.edu, eacunaf@gmail.com

Más detalles

Aprendizaje automático mediante árboles de decisión

Aprendizaje automático mediante árboles de decisión Aprendizaje automático mediante árboles de decisión Aprendizaje por inducción Los árboles de decisión son uno de los métodos de aprendizaje inductivo más usado. Hipótesis de aprendizaje inductivo: cualquier

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013 VivaMéxico sin PRI Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres Facultad de Ciencias de la Computación Benemérita Universidad Autónoma de Puebla Otoño 2013 IMAGENESpemexmorena Adquisición

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. 2.1 Revisión sistema reconocimiento caracteres [9]: Un sistema de reconocimiento típicamente esta conformado por

Más detalles

TEMA 1. Introducción

TEMA 1. Introducción TEMA 1. Introducción Francisco José Ribadas Pena, Santiago Fernández Lanza Modelos de Razonamiento y Aprendizaje 5 o Informática ribadas@uvigo.es, sflanza@uvigo.es 28 de enero de 2013 1.1 Aprendizaje automático

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Aprendizaje Automatizado

Aprendizaje Automatizado Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

Tutorial - Parte 2: Scoring

Tutorial - Parte 2: Scoring Introducción Tutorial - Parte 2: Scoring En este segundo tutorial aprenderá lo que significa un modelo de Scoring, verá cómo crear uno utilizando Powerhouse Analytics y finalmente a interpretar sus resultados.

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

Otros aspectos. Procesado de la entrada Procesado de la salida. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

Otros aspectos. Procesado de la entrada Procesado de la salida. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Otros aspectos Procesado de la entrada Procesado de la salida Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido 1. Procesado de la entrada 1. Motivación y tareas

Más detalles

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Álvaro J. Méndez Services Engagement Manager IBM SPSS / Profesor Econometría UAM Jecas, 22 Oct 2010 Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Business Analytics software Agenda Minería

Más detalles

TEMA 4: Introducción al Control Estadístico de Procesos

TEMA 4: Introducción al Control Estadístico de Procesos TEMA 4: Introducción al Control Estadístico de Procesos 1 Introducción 2 Base estadística del diagrama de control 3 Muestreo y agrupación de datos 4 Análisis de patrones en diagramas de control 1. Introducción

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión.

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión. TEMA 9 TÉCNICAS DE INTELIGENCIA ARTIFICIAL PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE 9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de

Más detalles

Aplicación de Redes bayesianas usando Weka.

Aplicación de Redes bayesianas usando Weka. Aplicación de Redes bayesianas usando Weka. Cynthia Lorena Corso 1, Fabian Gibellini 1 1 Universidad Tecnológica Nacional, Facultad Regional Córdoba Laboratorio de Sistemas de Información Maestro M. López

Más detalles

Capítulo 10. Análisis descriptivo: Los procedimientos Frecuencias y Descriptivos

Capítulo 10. Análisis descriptivo: Los procedimientos Frecuencias y Descriptivos Capítulo 10 Análisis descriptivo: Los procedimientos Frecuencias y Descriptivos Al analizar datos, lo primero que conviene hacer con una variable es, generalmente, formarse una idea lo más exacta posible

Más detalles

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo 1 Algoritmos de minería de datos incluidos en SQL Server 2008 Los algoritmos que aquí se presentan son: Árboles de decisión de Microsoft, Bayes naive de Microsoft, Clústeres de Microsoft, Serie temporal

Más detalles

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Introducción al Data Mining Clases 5 Cluster Analysis Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Cluster Análisis 1 El término cluster analysis (usado por primera

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

TEMA 3: TRATAMIENTO DE DATOS EN MS. EXCEL (I)

TEMA 3: TRATAMIENTO DE DATOS EN MS. EXCEL (I) VARIABLES Variable: característica de cada sujeto (cada caso) de una base de datos. Se denomina variable precisamente porque varía de sujeto a sujeto. Cada sujeto tiene un valor para cada variable. El

Más detalles

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Amaro Camargo Erika, Reyes García Carlos A. Instituto Nacional de Astrofísica, Óptica

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

EPB 603 Sistemas del Conocimiento

EPB 603 Sistemas del Conocimiento EPB 603 Sistemas del Conocimiento Dr. Oldemar Rodríguez R. Maestría en Administración de la Tecnología de la Información Escuela de Informática EIA411 EPB 603 - Minería Sistemas de del Datos Conocimiento

Más detalles

ANÁLISIS DISCRIMINANTE

ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE 1. Introducción 2. Etapas 3. Caso práctico Análisis de dependencias introducción varias relaciones una relación 1 variable dependiente > 1 variable dependiente

Más detalles

Aprendizaje Basado en Similaridades (SBL) Árboles de Decisión (TDIDT) (INAOE) 1 / 65. Algoritmo ID3 Cómo le hace

Aprendizaje Basado en Similaridades (SBL) Árboles de Decisión (TDIDT) (INAOE) 1 / 65. Algoritmo ID3 Cómo le hace INAOE (INAOE) 1 / 65 Contenido 1 2 (INAOE) 2 / 65 SBL Atributos Peludo? Edad? Tamaño? Clase si viejo grande león no joven grande no león si joven mediano león si viejo pequeño no león si joven pequeño

Más detalles

Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida. Por: Prof. Elena del C. Coba

Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida. Por: Prof. Elena del C. Coba Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida Por: Prof. Elena del C. Coba Encuestas y estudios aplicados al VIH/sida Definir la fuente de los datos: Datos

Más detalles

Habilidades y Herramientas para trabajar con datos

Habilidades y Herramientas para trabajar con datos Habilidades y Herramientas para trabajar con datos Marcelo Ferreyra X Jornadas de Data Mining & Business Intelligence Universidad Austral - Agenda 2 Tipos de Datos Herramientas conceptuales Herramientas

Más detalles

Análisis de Datos. Práctica de métodos predicción de en WEKA

Análisis de Datos. Práctica de métodos predicción de en WEKA SOLUCION 1. Características de los datos y filtros Una vez cargados los datos, aparece un cuadro resumen, Current relation, con el nombre de la relación que se indica en el fichero (en la línea @relation

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Contenido del Curso. Descubrimiento de Conocimiento a partir de datos. Introducción. Motivación

Contenido del Curso. Descubrimiento de Conocimiento a partir de datos. Introducción. Motivación Contenido del Curso Descubrimiento de Conocimiento a partir de Datos ISISTAN UNCPBA sschia@exa.unicen.edu.ar http://www.exa.unicen.edu.ar/catedras/dbdiscov/ Introducción al KDD Etapas Pre-procesamiento

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

www.bvbusiness-school.com

www.bvbusiness-school.com Gráficos de Control de Shewart www.bvbusiness-school.com GRÁFICOS DE CONTROL DE SHEWART Una de las herramientas estadísticas más importantes en el Control Estadístico de Procesos son los Gráficos de Control.

Más detalles

Introducción general a la compresión de datos multimedia

Introducción general a la compresión de datos multimedia Introducción general a la compresión de datos multimedia Necesidad de la compresión La mayoría de las aplicaciones multimedia requieren volúmenes importantes de almacenamiento y transmisión. CD-ROM 640

Más detalles

4. MÉTODOS DE CLASIFICACIÓN

4. MÉTODOS DE CLASIFICACIÓN 4. MÉTODOS DE CLASIFICACIÓN Una forma de sintetizar la información contenida en una tabla multidimensional (por ejemplo una tabla léxica agregada), es mediante la conformación y caracterización de grupos.

Más detalles

Técnicas Multivariadas Avanzadas

Técnicas Multivariadas Avanzadas Regresión lineal Universidad Nacional Agraria La Molina 2014-2 Regresión lineal Regresión lineal simple Estimando los coecientes Evaluando la precisión de los coecientes estimados Evaluando la precisión

Más detalles

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) Autor: Lic. Manuel Ernesto Acosta Aguilera Entidad: Facultad de Economía, Universidad de La Habana Dirección: Edificio

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Apoyo a la toma de Decisiones. Carlos A. Olarte Bases de Datos II

Apoyo a la toma de Decisiones. Carlos A. Olarte Bases de Datos II Carlos A. Olarte Bases de Datos II Contenido 1 Introducción 2 OLAP 3 Data Ware Housing 4 Data Mining Introducción y Motivación Cómo puede analizarse de forma eficiente volúmenes masivos de datos? La consulta,

Más detalles

Minera de datos aplicada a la detección de Cáncer de Mama

Minera de datos aplicada a la detección de Cáncer de Mama Minera de datos aplicada a la detección de Cáncer de Mama Eugenio Hernández Martínez Universidad Carlos III de Madrid 100039081@alumnos.uc3m.es Rodrigo Lorente Sanjurjo Universidad Carlos III de Madrid

Más detalles

Los pronósticos pueden ser utilizados para conocer el comportamiento futuros en muchas fenómenos, tales como:

Los pronósticos pueden ser utilizados para conocer el comportamiento futuros en muchas fenómenos, tales como: TEMA 1: PRONÓSTICOS 1.1. Introducción Pronostico es un método mediante el cual se intenta conocer el comportamiento futuro de alguna variable con algún grado de certeza. Existen disponibles tres grupos

Más detalles

Las reglas de asociación tienen diversas aplicaciones como:

Las reglas de asociación tienen diversas aplicaciones como: Capítulo 4 Reglas de Asociación El objetivo de las reglas de asociación es encontrar asociaciones o correlaciones entre los elementos u objetos de bases de datos transaccionales, relacionales o datawarehouses.

Más detalles

Capítulo 2. Las Redes Neuronales Artificiales

Capítulo 2. Las Redes Neuronales Artificiales Capítulo 2. Las Redes Neuronales Artificiales 13 Capitulo 2. Las Redes Neuronales Artificiales 2.1 Definición Redes Neuronales Artificiales El construir una computadora que sea capaz de aprender, y de

Más detalles

Tests de hipótesis estadísticas

Tests de hipótesis estadísticas Tests de hipótesis estadísticas Test de hipótesis sobre la media de una población. Introducción con un ejemplo. Los tests de hipótesis estadísticas se emplean para muchos problemas, en particular para

Más detalles

Predicción de los ciclos de El Niño

Predicción de los ciclos de El Niño Predicción de los ciclos de El Niño Israel Cendrero Sánchez I.T.T.Telemática Universidad Carlos III de Madrid Leganes,Madrid,España 100055713@alumnos.uc3m.es Beatriz López Moreno I.T.T.Telemática Universidad

Más detalles

Programación Genética

Programación Genética Programación Genética Programación Genética consiste en la evolución automática de programas usando ideas basadas en la selección natural (Darwin). No sólo se ha utilizado para generar programas, sino

Más detalles

Evaluación de modelos para la predicción de la Bolsa

Evaluación de modelos para la predicción de la Bolsa Evaluación de modelos para la predicción de la Bolsa Humberto Hernandez Ansorena Departamento de Ingeniería Telemática Universidad Carlos III de Madrid Madrid, España 10003975@alumnos.uc3m.es Rico Hario

Más detalles

La calidad de los datos ha mejorado, se ha avanzado en la construcción de reglas de integridad.

La calidad de los datos ha mejorado, se ha avanzado en la construcción de reglas de integridad. MINERIA DE DATOS PREPROCESAMIENTO: LIMPIEZA Y TRANSFORMACIÓN El éxito de un proceso de minería de datos depende no sólo de tener todos los datos necesarios (una buena recopilación) sino de que éstos estén

Más detalles

TABLAS DE CONTINGENCIA (CROSS-TAB): BUSCANDO RELACIONES DE DEPENDENCIA ENTRE VARIABLES CATEGÓRICAS 1

TABLAS DE CONTINGENCIA (CROSS-TAB): BUSCANDO RELACIONES DE DEPENDENCIA ENTRE VARIABLES CATEGÓRICAS 1 TABLAS DE CONTINGENCIA (CROSS-TAB): BUSCANDO RELACIONES DE DEPENDENCIA ENTRE VARIABLES CATEGÓRICAS 1 rafael.dearce@uam.es El objeto de las tablas de contingencia es extraer información de cruce entre dos

Más detalles

MATEMÁTICAS CONTENIDOS MÍNIMOS DE 1º E.S.O.

MATEMÁTICAS CONTENIDOS MÍNIMOS DE 1º E.S.O. MATEMÁTICAS CONTENIDOS MÍNIMOS DE 1º E.S.O. Calcular el valor de posición de cualquier cifra en cualquier número natural. Aplicar las propiedades fundamentales de la suma, resta, multiplicación y división

Más detalles

Finanzas e Investigación de Mercados"

Finanzas e Investigación de Mercados DIPLOMATURA: "Análisis de Datos para Negocios, Finanzas e Investigación de Mercados" Seminario: Introducción a Data Mining y Estadística Dictado: Sábado 13, 20,27 de Abril, 04 de Mayo en el horario de

Más detalles

Curso de Inteligencia Artificial

Curso de Inteligencia Artificial Curso de Inteligencia Artificial Introducción al Aprendizaje Automático Gibran Fuentes Pineda IIMAS, UNAM Definición El aprendizaje automático es el estudio de los metodos para programar las computadoras

Más detalles

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial Universidad del Cauca Facultad de Ingeniería Electrónica y Telecomunicaciones Programas de Maestría y Doctorado en Ingeniería Telemática Seminario de Investigación Evaluación, limpieza y construcción de

Más detalles

Estudio comparativo de los currículos de probabilidad y estadística español y americano

Estudio comparativo de los currículos de probabilidad y estadística español y americano Estudio comparativo de los currículos de probabilidad y estadística español y americano Jaldo Ruiz, Pilar Universidad de Granada Resumen Adquiere las mismas capacidades en Probabilidad y Estadística un

Más detalles

Minería de datos (Introducción a la minería de datos)

Minería de datos (Introducción a la minería de datos) Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 14-I. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 24

Más detalles

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT REACCIONES ADVERSAS DE LOS MEDICAMENTOS Los fármacos por naturaleza

Más detalles

Las Matemáticas En Ingeniería

Las Matemáticas En Ingeniería Las Matemáticas En Ingeniería 1.1. Referentes Nacionales A nivel nacional se considera que el conocimiento matemático y de ciencias naturales, sus conceptos y estructuras, constituyen una herramienta para

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

Lección n 5. Modelos de distribución n potencial de especies

Lección n 5. Modelos de distribución n potencial de especies Lección n 5. Modelos de distribución n potencial de especies 1. Elaboración de modelos de distribución de especies. a. Planteamiento. El modelado del nicho ambiental se basa en el principio de que la distribución

Más detalles

Introducción. Qué es machine learning? Algunos Tipos de Machine Learning. Generalización & Exploración. Ejemplos de aplicaciones en Machine Learning

Introducción. Qué es machine learning? Algunos Tipos de Machine Learning. Generalización & Exploración. Ejemplos de aplicaciones en Machine Learning Introducción Qué es aprendizaje automatizado e inferencia inductiva"? Para qué sirve? (ejemplos/aplicaciones) Tareas de aprendizaje Representación de datos Enfoques usados Concept learning: algoritmos

Más detalles

ESCALAS DE MEDICIÓN ...

ESCALAS DE MEDICIÓN ... ESCALAS DE MEDICIÓN... Como la estadística analiza los datos y éstos son el resultado de las mediciones, necesitamos ocupar cierto tiempo para estudiar las escalas de medición. Este tema es de suma importancia,

Más detalles

FACULTAD DE ENFERMERIA MAESTRÌA EN ENFERMERIA PROGRAMA DEL CURSO ESTADÌSTICA AVANZADA CODIGO MC1114 REQUISITOS EG2113 CREDITO: 4

FACULTAD DE ENFERMERIA MAESTRÌA EN ENFERMERIA PROGRAMA DEL CURSO ESTADÌSTICA AVANZADA CODIGO MC1114 REQUISITOS EG2113 CREDITO: 4 FACULTAD DE ENFERMERIA MAESTRÌA EN ENFERMERIA PROGRAMA DEL CURSO ESTADÌSTICA AVANZADA CODIGO MC1114 REQUISITOS EG2113 CREDITO: 4 REQUISITO LICENCIATURA EN ENFERMERÌA PROFESOR 1. Justificación. Se requiere

Más detalles

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source Inteligencia Artificial y Seguridad Informática en plataformas Open Source Jornadas de Software Libre y Seguridad Informática Santa Rosa La Pampa 4 y 5 de Diciembre de 2009 AGENDA Primera Parte Definiciones

Más detalles

Introducción. Estadística aplic. A la Mercadotecnia. I.- Introducción y generalidades. Aplicaciones en los negocios y en la economía.

Introducción. Estadística aplic. A la Mercadotecnia. I.- Introducción y generalidades. Aplicaciones en los negocios y en la economía. Estadística aplic. A la Mercadotecnia Introducción Con frecuencia leemos o escuchamos el siguiente tipo información: de I.- Introducción y generalidades M. en C. Jesús Ocaña Zúñiga a)la asociación de agentes

Más detalles

Ingeniería en Informática

Ingeniería en Informática Departamento de Informática Universidad Carlos III de Madrid Ingeniería en Informática Aprendizaje Automático Junio 2007 Normas generales del examen El tiempo para realizar el examen es de 3 horas No se

Más detalles

Random Forests. Felipe Parra

Random Forests. Felipe Parra Applied Mathematics Random Forests Abril 2014 Felipe Parra Por que Arboles para Clasificación PERFIL DE RIESGO: definir con qué nivel de aversión al riesgo se toman decisiones Interpretación intuitiva

Más detalles

Aprendizaje Supervisado Análisis Discriminante (Lineal y Cuadrático)

Aprendizaje Supervisado Análisis Discriminante (Lineal y Cuadrático) Aprendizaje Supervisado Análisis Discriminante (Lineal y Cuadrático) 10 10 Modelo general de los métodos de Clasificación Id Reembolso Estado Civil Ingresos Anuales 1 Sí Soltero 125K No 2 No Casado 100K

Más detalles

Detección de perfiles de liderazgo en Sistemas Colaborativos Soportados por Computadoras

Detección de perfiles de liderazgo en Sistemas Colaborativos Soportados por Computadoras Detección de perfiles de liderazgo en Sistemas Colaborativos Soportados por Computadoras María Florencia Bugarini Directora: Dra. Silvia Schiaffino Codirector: Mg. Patricio García UNICEN Abril 2011 Motivación

Más detalles

Precio del alquiler de pisos durante una serie de meses. Evolución del índice del precio del trigo con mediciones anuales.

Precio del alquiler de pisos durante una serie de meses. Evolución del índice del precio del trigo con mediciones anuales. Series Temporales Introducción Una serie temporal se define como una colección de observaciones de una variable recogidas secuencialmente en el tiempo. Estas observaciones se suelen recoger en instantes

Más detalles

Clase 2: Estadística

Clase 2: Estadística Clase 2: Estadística Los datos Todo conjunto de datos tiene al menos dos características principales: CENTRO Y DISPERSIÓN Los gráficos de barra, histogramas, de puntos, entre otros, nos dan cierta idea

Más detalles

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Emmanuel Anguiano-Hernández Abril 29, 2009 Abstract Tratando de mejorar el desempeño de un clasificador Naive

Más detalles

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL Objetivo terminal: Calcular e interpretar medidas de tendencia central para un conjunto de datos estadísticos. Objetivos específicos: 1. Mencionar las características

Más detalles

Asesor de la Tesis. Dr. René Mac Kinney Romero. Sinodales

Asesor de la Tesis. Dr. René Mac Kinney Romero. Sinodales Minería Sobre Grandes Cantidades de Datos Para obtener el grado de MAESTRO EN CIENCIAS (Ciencias y Tecnologías de la Información) PRESENTA: Lic. Benjamín Moreno Montiel Asesor de la Tesis Dr. René Mac

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Extracción de conocimiento en bases de datos astronómicas

Extracción de conocimiento en bases de datos astronómicas Extracción de conocimiento en bases de datos astronómicas Memoria del periodo de investigación presentada por D. Miguel Ángel Montero Navarro monteronavarro@gmail.com para optar al Diploma de Estudios

Más detalles

Informática Aplicada a la Ingeniería de Procesos I (Orientación I) Data Mining

Informática Aplicada a la Ingeniería de Procesos I (Orientación I) Data Mining Universidad Tecnológica Nacional, Facultad Regional Rosario Departamento de Ingeniería Química Grupo de Investigación Aplicada a la ingeniería Química (GIAIQ) Informática Aplicada a la Ingeniería de Procesos

Más detalles

Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides

Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides Introducción La visión artificial, también conocida como visión por computador

Más detalles

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático?

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático? Ingeniería del conocimiento Sesión 1 Por qué estudiar aprendizaje automático? 1 Agenda Qué vamos a ver en la asignatura? Para qué sirve todo esto? Cómo aprobar la asignatura? 2 Extracción del conocimiento

Más detalles

Cualitativos Caso de Aplicación

Cualitativos Caso de Aplicación Validación n de Métodos M Cualitativos Caso de Aplicación Agenda Introducción Definiciones Clasificación Validación Evaluación de Métodos Cualitativos Caso de Aplicación Conclusiones Introducción La validación

Más detalles

Statgraphics Centurión

Statgraphics Centurión Facultad de Ciencias Económicas y Empresariales. Universidad de Valladolid 1 Statgraphics Centurión I.- Nociones básicas El paquete Statgraphics Centurión es un programa para el análisis estadístico que

Más detalles

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez Curso de Análisis de investigaciones con programas Informáticos 1 UNIVERSIDAD DE JAÉN Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos

Más detalles

Data Mining: Conceptos y Técnicas Preprocesamiento de Datos

Data Mining: Conceptos y Técnicas Preprocesamiento de Datos Cap. 3: Preprocesamiento de Datos Data Mining: Conceptos y Técnicas Preprocesamiento de Datos (Basado en material de Jiawei Han and Micheline Kamber) Intelligent Database Systems Research Lab School of

Más detalles

Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68.

Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68. Departamento de Economía Aplicada: UDI de Estadística. Universidad Autónoma de Madrid Notas sobre el manejo de Excel para el análisis descriptivo y exploratorio de datos. (Descriptiva) 1 1 Introducción

Más detalles

PROBABILIDAD Y ESTADÍSTICA

PROBABILIDAD Y ESTADÍSTICA PROBABILIDAD Y ESTADÍSTICA 1. Sean A y B dos sucesos y A, B sus complementarios. Si se verifica que p( B) = 2 / 3, p( A B) = 3 / 4 y p( A B) = 1/ 4, hallar: p( A), p( A B), y la probabilidad condicionada

Más detalles

Estadística. Conceptos de Estadística. Un individuo o unidad estadística es cada uno de los elementos que componen la población.

Estadística. Conceptos de Estadística. Un individuo o unidad estadística es cada uno de los elementos que componen la población. Estadística La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un estudio estadístico consta

Más detalles

Métodos y Diseños utilizados en Psicología

Métodos y Diseños utilizados en Psicología Métodos y Diseños utilizados en Psicología El presente documento pretende realizar una introducción al método científico utilizado en Psicología para recoger información acerca de situaciones o aspectos

Más detalles

VISION ARTIFICIAL APOYADA EN SISTEMAS HÍBRIDOS NEURO-SIMBÓLICOS

VISION ARTIFICIAL APOYADA EN SISTEMAS HÍBRIDOS NEURO-SIMBÓLICOS VISION ARTIFICIAL APOYADA EN SISTEMAS HÍBRIDOS NEURO-SIMBÓLICOS Dr. Gerardo Reyes Salgado Profesor-Investigador / Instituto Tecnológico de Cuautla gerardo.reyes@itcuautla.edu.mx www.itcuautla.edu.mx 1

Más detalles

Regresión de Poisson

Regresión de Poisson Regresión de Poisson -- Si la estructura de los errores es realmente de Poisson, entonces: devianza residual / grados de libertad residuales = 1 si el cociente es mayor que 1 estamos ante el fenómeno (incómodo)

Más detalles

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces

Más detalles

Matemáticas 2º BTO Aplicadas a las Ciencias Sociales

Matemáticas 2º BTO Aplicadas a las Ciencias Sociales Matemáticas 2º BTO Aplicadas a las Ciencias Sociales CONVOCATORIA EXTRAORDINARIA DE JUNIO 2014 MÍNIMOS: No son contenidos mínimos los señalados como de ampliación. I. PROBABILIDAD Y ESTADÍSTICA UNIDAD

Más detalles