Cómo se usa Data Mining hoy?
|
|
- Inés Correa Prado
- hace 8 años
- Vistas:
Transcripción
1 Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta de mailings Campañas de adquisición de clientes
2 El ciclo de data mining Identificar un problema Medir los resultados Usar data mining para transformar los datos en información Actuar basándonos en la información 2
3 Importante Meta de Data Mining: encontrar patrones Hallar patrones no es suficiente Necesidad entender patrones, responder a ellos, actuar sobre ellos y convertir los datos en información, información en acción y acción en valor para la organización 3
4 Data Mining es un proceso 4 proceso centrado en acciones derivadas del descubrimiento de conocimiento no en el mecanismo de en si mismo. algoritmos son importantes, la solución es más que un conjunto de técnicas y herramientas. técnicas aplicadas en el caso correcto sobre datos correctos
5 El Proceso de KDD INTERPRETACIÓN Y EVALUACIÓN DATA MINING Conocimiento CODIFICACIÓN Modelos LIMPIEZA Datos Transformados SELECCIÓN Datos Procesados Datos Datos objetivo 5
6 Estándar de proyecto de Data Mining: Crisp-DM Compresión del problema Compresión de los datos. Implantación Preparación de los datos Evaluación Modelado 6
7 Tipos de datos Cuantitativos Discretos (número de empleados) Continuos (sueldo,...) Cualitativos Nominales (estado civil, género) Ordinales (alto, medio, bajo) 7
8 Preparación de los datos Construcción conjunto final de datos (datos entrada de los algoritmos de Data mining. Posibilidad tareas múltiples veces y sin orden determinado. Algunas tareas: selección de tablas, atributos, registros, transformación y limpieza de los datos. 8
9 Preparación de los datos (II) Entradas Conjunto de datos Descripción del conjunto de datos Fases y Salidas: Selección de datos Informe de los motivos de la selección Limpieza de datos Informe de la limpieza de los datos 9
10 Preparación de los datos (III) Construir el conjunto de datos Atributos derivados Registros generados Integrar los datos Datos integrados Formato de los datos Datos con nuevo formato 10
11 Preparación de los datos Asegurar calidad de los datos Los datos no fueron recogidos para tareas de Data Mining Datos pobres, inconsistentes Numerosas fuentes, diferentes sistemas Funciones Revisión de los datos Tratamiento de Valores nulos e información incompleta 11
12 Preparación: Revisión de los datos 12 Métodos estadísticos y de visualización Variables categóricas: Este 40 Oeste 30 Norte Distribución de variables er trim. 2do trim. 3er trim. Histogramas 1e r Pie charts 2d o Variables cualitativas Este Media, varianza, moda 50 Oeste 40 Norte Scaterplots, boxplots
13 Preparación: Información incompleta Valores atípicos ( outliers ): tratamiento depende de su naturaleza Se pueden eliminar en el proceso de carga del data warehouse Valores nulos: (ninguna de las técnicas es perfecta) Eliminar las observaciones con nulos Eliminar las variables con muchos nulos Utilizar un modelo predictivo 13
14 Preparación Transformación Conseguir una la visión integrada, consistente y consolidada de los datos Refinar datos para que cumplan requisitos de entrada de algoritmos Conversión de variables Reducción /adición de variables Discretización / generalización 14
15 Clasificación
16 Clasificación vs. Predicción Clasificación Predicción de etiquetas categóricas Clasificar: construir un modelo a partir de un conjunto de datos de entrenamiento y valores de un atributo de clasificación. Utilizar modelo para clasificar nuevos datos 16
17 Clasificación vs. Predicción Predicción Modelos (funciones) para variables con valores continuos, i.e., predicción de valores desconocidos Aplicaciones típicas Concesión de créditos Campañas de marketing Diagnósticos médicos 17
18 Clasificación Similar a la experiencia de aprendizaje humana Utilización de la observación para formar un modelo Analizar un conjunto de datos para determinar sus características (creación de un modelo) 18
19 Clasificación Aprendizaje supervisado El modelo se forma a partir de datos clasificados correctamente de antemano Los modelos construidos en dos fases Entrenamiento Prueba 19
20 Clasificación Objetivo Obtener modelos que discrimine las instancias de entrada en clases de equivalencia por medio de los valores de diferentes atributos. Y X 20
21 Clasificación Requisitos Suministrar el atributo decisión o clase (label) El conjunto de valores de este atributo debe ser finito y no excesivamente grande Suministrar los atributos condición Podría requerir datos que no sean numéricos pero existen variedades que tratan con datos numéricos Número máximo de precondiciones Soporte mínimo de las reglas 21
22 Clasificación Entrada de los algoritmos Atributos condición: usados para describir las clases de equivalencia (por medio del proceso de inducción). Atributos decisión o label: usados para construir las clase de equivalencia en los métodos supervisados (una clase por cada valor o combinación de sus valores). 22
23 Clasificación Construcción del modelo Describir un conjunto de datos con base en una característica Cada tupla pertenece a una clase predefinida determinada por el atributo de decisión Se utiliza el conjunto de datos de entrenamiento El modelo se representa mediante reglas de clasificación, árboles de decisión o fórmulas matemáticas 23
24 Clasificación Utilización del modelo Clasificar objetos nuevos de los que se desconoce su clase Determinar precisión del modelo Utilizar modelo para clasificar conjunto de datos de prueba y comparar con etiqueta original Exactitud es el porcentaje de conjunto de datos de prueba que son clasificados correctamente por el modelo El conjunto de datos entrenamiento y el conjunto de datos de prueba disjuntos, para evitar el overfitting 24
25 Clasificación Representación del error Matriz de Confusión Representación en forma de tabla del número de instancias clasificadas correctamente Predicción A B A B Datos reales 25
26 Clasificación Construcción del modelo Datos de entrenamiento Algoritmos de clasificación Nombre Tipo Años Fijo Alberto Asociado 3 no Maria Asociado 7 si Nacho Titular 2 si Alvaro Asociado 7 si David Asociado 6 no Sonia Asociado 3 no Clasificador (Modelo) IF tipo = Titular OR años > 6 THEN fijo = si 26
27 Clasificación Técnicas Técnicas simbólicas: árboles de inducción Muy eficientes en tiempo de proceso Resultados intuitivos Particiones lineales Algunos presentan problemas con variables continuas 27
28 Clasificación Técnicas Redes neuronales Sólo entrada numérica Mas robusto Difícil de entender la salida 28
29 Clasificación Técnicas 29 Análisis discriminante Permite clasificar nuevas observaciones o elementos en grupos definidos El resultado es una fórmula lineal Interpretación muy intuitiva Variables numéricas o dicotómicas Disponibilidad de una medida del error del modelo
30 Clasificación Árboles de decisión Árboles de decisión La representación en forma de árbol Los nodos representan la verificación de una condición sobre un atributo Las ramas representan el valor de la condición comprobada en el nodo del cual derivan Los nodos hoja representan las etiquetas de clase 30
31 Clasificación Árboles de decisión La construcción de los árboles de decisión consta de dos fases Construcción del árbol Al principio, todos las tuplas del conjunto de entrenamiento está en la raíz Se dividen recursivamente en base al atributo seleccionado Poda del árbol Identificar y eliminar las ramas que presentan ruido o outliers 31
32 Clasificación Árboles de decisión Utilización de los árboles de decisión: clasificar una muestra desconocida Comprobar los valores de los atributos de la nueva muestra con las condiciones del árbol y descubrir su etiqueta de clase 32
33 Ejemplo Datos de entrenamiento Edad Estudia Crédito Compra alta no aceptable no alta no excelente no alta no aceptable si media no aceptable si baja si aceptable si baja si excelente no baja si excelente si media no aceptable no baja si aceptable si media si aceptable si media si excelente si media no excelente si alta si aceptable si media no excelente no 33
34 Ejemplo Árbol de decisión Edad? <=30 overcast >40 Estudia? si Crédito? no si aceptable excelente no si no si 34
35 Árbol de decisión: algoritmo 35 Algoritmo básico (voraz) El árbol se construye de forma top-down recursiva utilizando divide y vencerás Al principio, todas las tuplas se encuentran en la raíz Los atributos deben ser categóricos, si son valores continuos hay que discretizarlos previamente Las tuplas se van dividiendo recursivamente con base al atributo seleccionado Los atributos de condición se seleccionan con base en heurísticas o mediante medidas estadísticas, por ejemplo, ganancia de información
36 Árbol de decisión: algoritmo Condiciones de terminación n de división Todas las muestras en un nodo pertenecen a la misma clase No hay más atributos para futuras particiones. Se puede utilizar votación para clasificar el nodo hoja No quedan más ejemplos 36
37 Ganancia de información Seleccionar información Si hay dos clases, P y N (ID3/C4.5/C5.0) el atributo con mayor ganancia de Sea el conjunto de ejemplo S que contiene p elementos de la clase P y n elementos de las clase N La cantidad de información, que se necesita para decidir si una muestra cualquiera de S pertenece a P o a N se define como p p n n I( p, n) = log 2 log2 p + n p + n p + n p + n 37
38 Ganancia de información en árboles de decisión Si se utiliza un atributo A, un conjunto S se dividirá en conjuntos {S 1, S 2,, S v } Si S i contiene p i ejemplos de P y n i ejemplos de N, la entropía, o información necesaria para clasificar objetos en todos los subárboles S i es E( A) p + = ν i i= 1 p + n n i I( p i, n i ) 38
39 Ganancia de información en árboles de decisión La ganancia de información de la rama A es Gain( A) = I( p, n) E( A) 39
40 Selección de atributos mediante ganancia de información Clase P: compra = si Clase N: compra = no I(p, n) = I(9, 5) =0.940 Calcular la entropía para edad: edad p i n i I(p i, n i ) <= , > ,971 E ( edad Así: 5 4 ) = I ( 2,3 ) + I I ( 3, 2 ) = ( 4, 0 Gain( edad) = I( p, n) E( edad) Similitud Gain( ingresos) = Gain( estudia) = Gain( ratio de crédito) = ) 40
41 Extracción de reglas de árboles de decisión Si condición Entonces decisión Se crea una regla por cada camino de la raiz a las hojas Cada par atributo-valor a lo largo del camino representa una conjunción El nodo hoja representa la clase 41
42 Extracción de reglas de árboles de decisión Si condición Entonces decisión SI edad = <=30 Y estudiante = no ENTONCES compra_computador = no SI edad = <=30 Y estudiante = si ENTONCES compra_computador = SI 42
43 Evitar el overfitting 43 El árbol generado es posible que sea muy ajustado (exacto) para el conjunto de entrenamiento Demasiadas ramas puede significar que algunas son debidas a ruido o a outliers Poca exactitud en los ejemplos no vistos Dos enfoques para evitarlo Prepoda (Prepruning) Postpoda (Postpruning)
44 Evitar el overfitting (II) Evitar el crecimiento (Prepruning): no se divide un nodo si la medida de bondad está por debajo de un umbral Dificultad de elegir el umbral 44
45 Evitar el overfitting (II) Postpruning: Eliminar la ramas de un árbol una vez generado por completo. Utilizar un conjunto de datos diferente al de entrenamiento para decidir cuáles ramas podar. 45
46 Enfoques para determinar el tamaño final del árbol 46 Separar datos en conjuntos de entrenamiento (2/3) y prueba (1/3) Utilizar validación cruzada e.g. la validación 10-fold Utilizar todos los datos para entrenamiento Pero aplicar un test estadístico (e.g., chi-square) para estimar si expandir o podar un nodo
47 Enfoques para determinar el tamaño final del árbol Utilizar el principio de mínima longitud de las descripciones Parar el crecimiento cuando se minimice el código 47
48 Mejoras en los árboles 48 Permitir atributos con valores continuos Se definen dinámicamente los valores discretos que dividen los valores del atributo en un conjunto discreto de intervalos Tratamiento de valores nulos Se asigna el valor mas frecuente Se asigna una probabilidad a cada uno de los posibles valores Creación de nuevos atributos que reduzcan la repetición y la replicación
49 Clasificación bayesiana por qué? Aprendizaje probabilístico: Calcula hipótesis probabilísticas explícitas. Enfoque común para ciertos tipos de problemas Incremental: Cada ejemplo puede incrementar/decrementar la probabilidad de que una hipótesis sea correcta. La predicción probabilística predice múltiple hipótesis ponderadas 49
50 Teorema de Bayes Dado un conjunto de datos, la probabilidad a posteriori de una hipótesis h es: P ( h D) = P( D h) P( h) P( D) Dificultad: requiere conocimiento inicial de las probabilidades 50
51 Clasificador Naïve Bayes Classifier (I) Suposición simplificada: los atributos son condicionalmente independientes : n P( Cj V) P( Cj) P ( vi Cj) i= 1 Reduce costo computacional pues solo tiene en cuenta la distribución de la clase. 51
52 Clasificador Naive Bayes (II) Dado un conjunto de entrenamiento se puede calcular las probabilidades Tiempo P N Humedad P N soleado 2/9 3/5 alta 3/9 4/5 cubierto 4/9 0 normal 6/9 1/5 lluvia 3/9 2/5 Temperatura Viento calor 2/9 2/5 si 3/9 3/5 suave 4/9 2/5 no 6/9 2/5 fresco 3/9 1/5 52
53 Redes Neuronales 53 Ventajas La exactitud es generalmente alta Robusto, trabaja bien incluso cuando los datos contienen errores La salida puede ser discreta, valor real, un vector de valores reales Evaluación rápida de la función aprendida Crítica Largo tiempo de entrenamiento Dificultad de entender la función aprendida
54 Predicción de valores La predicción es similar a la clasificación Regresión lineal y múltiple Regresión no lineal Primero construye un modelo El modelo predice el valor desconocido 54
55 Predicción de valores La clasificación predice clases de valores categóricos Los modelos de predicción son funciones continuas 55
56 Algoritmos de Predicción de Valores Para un conjunto de atributos condición: c 1, c 2, c 3,..., c n Se pretende aproximar el atributo X como: X=w 1 c 1 + w 2 c 2 + w 3 c w n c n En otras palabras, calcular el vector de pesos (w 1, w 2, w 3,... w n ) 56
57 Algoritmos de Predicción de Valores (Regresión) X c1 57
58 Análisis de regresión 58 Regresión lineal: Y = α + β X Los parámetros α y β determinan la recta y se estiman utilizando los datos. Regresión múltiple: Y = b0 + b1 X1 + b2 X2. Modelos Log-linear: La tabla de probabilidades conjunta se aproxima por el producto de tablas de ordenes inferiores. Probabilidad: p(a, b, c, d) = αab βacχad δbcd
59 Estimación de los errores División: : Entrenamiento y prueba Conjuntos independientes (2/3), (1/3) Se utiliza cuando se tienen muchos datos Validación n cruzada (Cross-validation) Dividir el conjunto en K muestras Utilizar k-1 muestras como entrenamiento y la restante como prueba (k-fold crossvalidation) Datos con tamaño moderado Bootstrapping (dejar( uno fuera) Datos de tamaño pequeño 59
60 Boosting y Bagging El Boosting incrementa exactitud clasificación de la Aplicable a árboles de decisión o Clasificadores Bayesianos Se entrenan distintos clasificadores y cada uno aprende de su predecesor Bagging: entrenamiento donde se van eligiendo k elementos con reemplazamiento. Se puede utilizar en la predicción numérica 60
61 Resumen La clasificación es posiblemente una de las técnicas mas usada Dependiendo del tipo de datos y del tipo de la variable a estimar así se eligen las técnicas Conviene entrenar los datos con distintas técnicas 61
Data Mining Técnicas y herramientas
Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos
Más detallesParte I: Introducción
Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one
Más detallesAprendizaje Automático y Data Mining. Bloque IV DATA MINING
Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones
Más detallesFundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -
Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es
Más detallesCapítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.
Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. 2.1 Revisión sistema reconocimiento caracteres [9]: Un sistema de reconocimiento típicamente esta conformado por
Más detallesAprendizaje automático mediante árboles de decisión
Aprendizaje automático mediante árboles de decisión Aprendizaje por inducción Los árboles de decisión son uno de los métodos de aprendizaje inductivo más usado. Hipótesis de aprendizaje inductivo: cualquier
Más detallesTEMA 4: Introducción al Control Estadístico de Procesos
TEMA 4: Introducción al Control Estadístico de Procesos 1 Introducción 2 Base estadística del diagrama de control 3 Muestreo y agrupación de datos 4 Análisis de patrones en diagramas de control 1. Introducción
Más detallesAprendizaje Automatizado
Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto
Más detalles1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.
1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS
Más detallesCLASIFICACIÓN NO SUPERVISADA
CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL
Más detallesMinería de Datos. Preprocesamiento: Reducción de Datos - Discretización
Minería de Datos Preprocesamiento: Reducción de Datos - Discretización Dr. Edgar Acuña Departamento de Ciencias Matemáticas Universidad de Puerto Rico-Mayaguez E-mail: edgar.acuna@upr.edu, eacunaf@gmail.com
Más detallesPREPROCESADO DE DATOS PARA MINERIA DE DATOS
Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado
Más detallesLa calidad de los datos ha mejorado, se ha avanzado en la construcción de reglas de integridad.
MINERIA DE DATOS PREPROCESAMIENTO: LIMPIEZA Y TRANSFORMACIÓN El éxito de un proceso de minería de datos depende no sólo de tener todos los datos necesarios (una buena recopilación) sino de que éstos estén
Más detallesTEMA 1. Introducción
TEMA 1. Introducción Francisco José Ribadas Pena, Santiago Fernández Lanza Modelos de Razonamiento y Aprendizaje 5 o Informática ribadas@uvigo.es, sflanza@uvigo.es 28 de enero de 2013 1.1 Aprendizaje automático
Más detallesHabilidades y Herramientas para trabajar con datos
Habilidades y Herramientas para trabajar con datos Marcelo Ferreyra X Jornadas de Data Mining & Business Intelligence Universidad Austral - Agenda 2 Tipos de Datos Herramientas conceptuales Herramientas
Más detallesEPB 603 Sistemas del Conocimiento!"#$ %& $ %'
Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de
Más detallesMUESTREO TIPOS DE MUESTREO
MUESTREO En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una población), se selecciona una muestra, entendiendo por tal una parte representativa de
Más detallesAdministración de proyectos. Organizar, planificar y programar los proyectos de software
Administración de proyectos Organizar, planificar y programar los proyectos de software Administración de proyectos Trata de las actividades que hay que realizar para asegurar que el software se entregará
Más detallesMineria de datos y su aplicación en web mining data Redes de computadores I ELO 322
Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción
Más detallesTÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA
TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una
Más detallesMinería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/
Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy
Más detallesCLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)
CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE
Más detallesEvaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial
Universidad del Cauca Facultad de Ingeniería Electrónica y Telecomunicaciones Programas de Maestría y Doctorado en Ingeniería Telemática Seminario de Investigación Evaluación, limpieza y construcción de
Más detallesSe podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68.
Departamento de Economía Aplicada: UDI de Estadística. Universidad Autónoma de Madrid Notas sobre el manejo de Excel para el análisis descriptivo y exploratorio de datos. (Descriptiva) 1 1 Introducción
Más detallesCAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de
CAPITULO 4 JUSTIFICACION DEL ESTUDIO En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de estudios previos y los alcances que justifican el presente estudio. 4.1. Justificación.
Más detallesEPB 603 Sistemas del Conocimiento
EPB 603 Sistemas del Conocimiento Dr. Oldemar Rodríguez R. Maestría en Administración de la Tecnología de la Información Escuela de Informática EIA411 EPB 603 - Minería Sistemas de del Datos Conocimiento
Más detallesProgramación Genética
Programación Genética Programación Genética consiste en la evolución automática de programas usando ideas basadas en la selección natural (Darwin). No sólo se ha utilizado para generar programas, sino
Más detallesDATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT
DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT REACCIONES ADVERSAS DE LOS MEDICAMENTOS Los fármacos por naturaleza
Más detallesDiseño de un estudio de investigación de mercados
Diseño de un estudio de investigación de mercados En cualquier diseño de un proyecto de investigación de mercados, es necesario especificar varios elementos como las fuentes a utilizar, la metodología,
Más detallesCurso Comparabilidad de resultados
Curso Comparabilidad de resultados Director: Gabriel A. Migliarino. Docente: Evangelina Hernández. Agenda Introducción. n. Protocolos iniciales de comparación de métodos. m * EP9-A2. CLSI. * Comparación
Más detallesESTIMACIÓN. puntual y por intervalo
ESTIMACIÓN puntual y por intervalo ( ) Podemos conocer el comportamiento del ser humano? Podemos usar la información contenida en la muestra para tratar de adivinar algún aspecto de la población bajo estudio
Más detalles8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión...
Tema 8 Análisis de dos variables: dependencia estadística y regresión Contenido 8.1. Introducción............................. 1 8.2. Dependencia/independencia estadística.............. 2 8.3. Representación
Más detallesUNIVERSIDAD DEL SALVADOR PROGRAMA. UNIDAD ACADÉMICA: Campus San Roque González de Santa Cruz. CARRERA: Veterinaria. DIVISIÓN / COMISIÓN: Primer Año
UNIVERSIDAD DEL SALVADOR PROGRAMA UNIDAD ACADÉMICA: Campus San Roque González de Santa Cruz. CARRERA: Veterinaria DIVISIÓN / COMISIÓN: Primer Año TURNO: Único OBLIGACIÓN ACADÉMICA: ESTADÍSTICA Y DISEÑO
Más detallesMINERIA DE DATOS Y Descubrimiento del Conocimiento
MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de
Más detallesTema 7. Introducción al reconocimiento de objetos
Tema 7. Introducción al reconocimiento de objetos En resumen, un sistema de reconocimiento de patrones completo consiste en: Un sensor que recoge las observaciones a clasificar. Un sistema de extracción
Más detallesDeterminación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones
Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Introducción Las Compañías aseguradoras determinan sus precios basadas en modelos y en información histórica
Más detallesMatemáticas 2º BTO Aplicadas a las Ciencias Sociales
Matemáticas 2º BTO Aplicadas a las Ciencias Sociales CONVOCATORIA EXTRAORDINARIA DE JUNIO 2014 MÍNIMOS: No son contenidos mínimos los señalados como de ampliación. I. PROBABILIDAD Y ESTADÍSTICA UNIDAD
Más detallesv.1.0 Clase 5 Docente: Gustavo Valencia Zapata
v.1.0 Clase 5 Docente: Gustavo Valencia Zapata Temas Clase 5: Conceptos de Minería de Datos Herramientas de DM Referencias Minería de datos Proceso de DM www.gustavovalencia.com Minería de datos La minería
Más detallesAnálisis de Datos. Práctica de métodos predicción de en WEKA
SOLUCION 1. Características de los datos y filtros Una vez cargados los datos, aparece un cuadro resumen, Current relation, con el nombre de la relación que se indica en el fichero (en la línea @relation
Más detalles1.1. Introducción y conceptos básicos
Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................
Más detallesVisión global del KDD
Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento
Más detallesHERRAMIENTAS DE APOYO PARA LA IMPLEMENTACIÓN DE LA GESTIÓN POR PROCESOS EN EL MARCO DE LA POLÍTICA NACIONAL DE MODERNIZACIÓN DE LA GESTIÓN PÚBLICA
HERRAMIENTAS DE APOYO PARA LA IMPLEMENTACIÓN DE LA GESTIÓN POR PROCESOS EN EL MARCO DE LA POLÍTICA NACIONAL DE MODERNIZACIÓN DE LA GESTIÓN PÚBLICA Documento elaborado por la de la Presidencia del Consejo
Más detallesANÁLISIS DE RIESGOS EN LA GESTIÓN DE PROYECTOS. Los riesgos son eventos o condiciones inciertas que, si se producen, tienen un
ANÁLISIS DE RIESGOS EN LA GESTIÓN DE PROYECTOS Los riesgos son eventos o condiciones inciertas que, si se producen, tienen un efecto positivo o negativo sobre al menos un objetivo del proyecto, como tiempo,
Más detalleswww.bvbusiness-school.com
Gráficos de Control de Shewart www.bvbusiness-school.com GRÁFICOS DE CONTROL DE SHEWART Una de las herramientas estadísticas más importantes en el Control Estadístico de Procesos son los Gráficos de Control.
Más detallesCovarianza y coeficiente de correlación
Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también
Más detallesAnálisis y cuantificación del Riesgo
Análisis y cuantificación del Riesgo 1 Qué es el análisis del Riesgo? 2. Métodos M de Análisis de riesgos 3. Método M de Montecarlo 4. Modelo de Análisis de Riesgos 5. Qué pasos de deben seguir para el
Más detallesVivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013
VivaMéxico sin PRI Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres Facultad de Ciencias de la Computación Benemérita Universidad Autónoma de Puebla Otoño 2013 IMAGENESpemexmorena Adquisición
Más detallesANÁLISIS DE DATOS NO NUMERICOS
ANÁLISIS DE DATOS NO NUMERICOS ESCALAS DE MEDIDA CATEGORICAS Jorge Galbiati Riesco Los datos categóricos son datos que provienen de resultados de experimentos en que sus resultados se miden en escalas
Más detallesANALISIS MULTIVARIANTE
ANALISIS MULTIVARIANTE Es un conjunto de técnicas que se utilizan cuando se trabaja sobre colecciones de datos en las cuáles hay muchas variables implicadas. Los principales problemas, en este contexto,
Más detallesDiseño orientado al flujo de datos
Diseño orientado al flujo de datos Recordemos que el diseño es una actividad que consta de una serie de pasos, en los que partiendo de la especificación del sistema (de los propios requerimientos), obtenemos
Más detallesPROCEDIMIENTO ESPECÍFICO. Código S-VII-01 Edición 0
Índice 1. TABLA RESUMEN... 2 2. OBJETO... 2 3. ALCANCE... 2 4. RESPONSABILIDADES... 3 5. ENTRADAS... 3 6. SALIDAS... 3 7. PROCESOS RELACIONADOS... 3 8. DIAGRAMA DE FLUJO... 4 9. DESARROLLO... 5 9.1. PLANEACIÓN...
Más detallesMedidas de tendencia central o de posición: situación de los valores alrededor
Tema 10: Medidas de posición y dispersión Una vez agrupados los datos en distribuciones de frecuencias, se calculan unos valores que sintetizan la información. Estudiaremos dos grandes secciones: Medidas
Más detallesTEMA 3: TRATAMIENTO DE DATOS EN MS. EXCEL (I)
VARIABLES Variable: característica de cada sujeto (cada caso) de una base de datos. Se denomina variable precisamente porque varía de sujeto a sujeto. Cada sujeto tiene un valor para cada variable. El
Más detallesGráficas de caja. El borde derecho de la caja es el tercer cuartil, Q 3, que es la mediana de los valores que están por encima de la mediana.
LECCIÓN CONDENSADA 2.1 Gráficas de caja En esta lección crearás e interpretarás las gráficas de caja para conjuntos de datos usarás el rango intercuartil (IQR) para identificar valores extremos potenciales
Más detallesESTADISTICA GENERAL INTRODUCCIÓN CONCEPTOS BASICOS ORGANIZACIÓN DE DE DATOS
ESTADISTICA GENERAL INTRODUCCIÓN CONCEPTOS BASICOS ORGANIZACIÓN DE DE DATOS Profesor del del curso: curso: Ing. Ing. Celso Celso Gonzales INTRODUCCION OBJETIVOS Comprender qué es y porqué se estudia la
Más detallesCAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS. En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de
CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de inventarios para lograr un control de los productos.
Más detallesMEDICION DEL TRABAJO
MEDICION DEL TRABAJO Habíamos dicho al comenzar el curso que habían 4 técnicas que permiten realizar una medición del trabajo 1 Técnicas Directas: - Estudio de tiempos con cronómetro - Muestreo del trabajo
Más detallesFundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -
Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos
Más detallesIntroducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina
Introducción al Data Mining Clases 5 Cluster Analysis Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Cluster Análisis 1 El término cluster analysis (usado por primera
Más detallesIntroducción a la Minería de Datos
Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de
Más detallesAnálisis de Regresión Múltiple con Información Cualitativa: Variables Binarias o Ficticias
Análisis de Regresión Múltiple con Información Cualitativa: Variables Binarias o Ficticias Carlos Velasco 1 1 Departamento de Economía Universidad Carlos III de Madrid Econometría I Máster en Economía
Más detallesVISION ARTIFICIAL APOYADA EN SISTEMAS HÍBRIDOS NEURO-SIMBÓLICOS
VISION ARTIFICIAL APOYADA EN SISTEMAS HÍBRIDOS NEURO-SIMBÓLICOS Dr. Gerardo Reyes Salgado Profesor-Investigador / Instituto Tecnológico de Cuautla gerardo.reyes@itcuautla.edu.mx www.itcuautla.edu.mx 1
Más detalles6 Anexos: 6.1 Definición de Rup:
6 Anexos: 6.1 Definición de Rup: Es un producto del proceso de ingeniería de software que proporciona un enfoque disciplinado para asignar tareas y responsabilidades dentro de una organización del desarrollo.
Más detallesTítulo: Árboles de Decisión automáticos para el Pronóstico del Rendimiento Docente (aplicable al Control de Procesos).
Título: Árboles de Decisión automáticos para el Pronóstico del Rendimiento Docente (aplicable al Control de Procesos). Autores: - MsC. Ing. Mario L. Basulto Núñez (ETECSA) mario.basulto@etecsa.cu - Lic.
Más detallesTEMA 2: Representación de la Información en las computadoras
TEMA 2: Representación de la Información en las computadoras Introducción Una computadora es una máquina que procesa información y ejecuta programas. Para que la computadora ejecute un programa, es necesario
Más detallesRandom Forests. Felipe Parra
Applied Mathematics Random Forests Abril 2014 Felipe Parra Por que Arboles para Clasificación PERFIL DE RIESGO: definir con qué nivel de aversión al riesgo se toman decisiones Interpretación intuitiva
Más detallesSISTEMAS INTELIGENTES
SISTEMAS INTELIGENTES T11: Métodos Kernel: Máquinas de vectores soporte {jdiez, juanjo} @ aic.uniovi.es Índice Funciones y métodos kernel Concepto: representación de datos Características y ventajas Funciones
Más detallesMetodología de construcción de Indicadores MODELO 3
MODELO 3 El Departamento Administrativo de la Función Pública, elaboró el documento Guía para el Diseño de un Sistema de Evaluación y Control de gestión. El contiene las instrucciones para el diligenciamiento
Más detallesIngeniería en Informática
Departamento de Informática Universidad Carlos III de Madrid Ingeniería en Informática Aprendizaje Automático Junio 2007 Normas generales del examen El tiempo para realizar el examen es de 3 horas No se
Más detallesBoletín de Asesoría Gerencial* Modelo Credit Scoring: Un paso hacia una gestión diferenciada y eficiente del riesgo de crédito
Espiñeira, Sheldon y Asociados No. 22-2008 *connectedthinking Contenido Haga click en los enlaces para navegar a través del documento Haga click en los enlaces para llegar directamente a cada sección 4
Más detallesPortafolio de Servicios y Productos
Portafolio de Servicios y Productos Introducción Somos una empresa que se dedica a generar ventajas competitivas para nuestros clientes a través de desarrollos y consultoría en inteligencia de negocios
Más detallesControl Estadístico de Procesos
Control Estadístico de Procesos Gráficos de Control Los gráficos de control o cartas de control son una importante herramienta utilizada en control de calidad de procesos. Básicamente, una Carta de Control
Más detallesFACULTAD DE ENFERMERIA MAESTRÌA EN ENFERMERIA PROGRAMA DEL CURSO ESTADÌSTICA AVANZADA CODIGO MC1114 REQUISITOS EG2113 CREDITO: 4
FACULTAD DE ENFERMERIA MAESTRÌA EN ENFERMERIA PROGRAMA DEL CURSO ESTADÌSTICA AVANZADA CODIGO MC1114 REQUISITOS EG2113 CREDITO: 4 REQUISITO LICENCIATURA EN ENFERMERÌA PROFESOR 1. Justificación. Se requiere
Más detallesSistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides
Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides Introducción La visión artificial, también conocida como visión por computador
Más detallesEl Proceso Unificado de Desarrollo de Software
El Proceso de Desarrollo de Software Ciclos de vida Métodos de desarrollo de software El Proceso Unificado de Desarrollo de Software 1 Fases principales del desarrollo de software Captura de requisitos:
Más detallesSuplemento Control estadístico stico de procesos
Suplemento Control estadístico stico de procesos Contenido Control estadístico de procesos (CEP) Gráficos de control para variables El teorema central del límite Fijación de límites del gráfico de medias
Más detallesInteligencia de Negocio
UNIVERSIDAD DE GRANADA E.T.S. de Ingenierías Informática y de Telecomunicación Departamento de Ciencias de la Computación e Inteligencia Artificial Inteligencia de Negocio Guión de Prácticas Práctica 1:
Más detallesUnidad VI: Supervisión y Revisión del proyecto
Unidad VI: Supervisión y Revisión del proyecto 61. Administración de recursos La administración de recursos es el intento por determinar cuánto, dinero, esfuerzo, recursos y tiempo que tomará construir
Más detallesUNIVERSIDAD MINUTO DE DIOS PROGRAMA CONTADURÍA PÚBLICA
UNIVERSIDAD MINUTO DE DIOS PROGRAMA CONTADURÍA PÚBLICA COSTOS II Guía No. 1.- Conceptos Básicos OBJETIVO 1. Asimilar conceptos fundamentales de costos I. CONCEPTOS BASICOS DE COSTOS 1. CONTABILIDAD DE
Más detallesPARTE III OBTENCIÓN DE MODELOS OBTENCIÓN DE MODELOS MODELADO E IDENTIFICACIÓN ASPECTOS A TENER EN CUENTA MODELADO IDENTIFICACIÓN OBTENCIÓN DE MODELOS
OBTENCIÓN DE MODELOS PARTE III OBTENCIÓN DE MODELOS 1. INFORMACIÓN SOBRE EL SISTEMA 1. EL PROPIO SISTEMA (OBSERVACIÓN, TEST) 2. CONOCIMIENTO TEÓRICO (LEYES DE LA NATURALEZA, EXPERTOS, LITERATURA, ETC.)
Más detallesControl Estadístico del Proceso. Ing. Claudia Salguero Ing. Alvaro Díaz
Control Estadístico del Proceso Ing. Claudia Salguero Ing. Alvaro Díaz Control Estadístico del Proceso Es un conjunto de herramientas estadísticas que permiten recopilar, estudiar y analizar la información
Más detallesAnálisis e Interpretación de Datos Unidad XI. Prof. Yanilda Rodríguez MSN Prof. Madeline Fonseca MSN Prof. Reina del C.Rivera MSN
Análisis e Interpretación de Datos Unidad XI Prof. Yanilda Rodríguez MSN Prof. Madeline Fonseca MSN Prof. Reina del C.Rivera MSN Competencias de Aprendizaje Al finalizar la actividad los estudiantes serán
Más detallesCRM Gestión de Oportunidades Documento de Construcción Bizagi Process Modeler
Bizagi Process Modeler Copyright 2011 - Bizagi Tabla de Contenido CRM- Gestión de Oportunidades de Venta... 4 Descripción... 4 Principales Factores en la Construcción del Proceso... 5 Modelo de Datos...
Más detallesCredit scoring. por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar)
Credit scoring por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar) En base a que los bancos modernos otorgan tarjetas de crédito y créditos personales o los niegan? Qué límite de crédito le
Más detallesModelo de fuerza deportiva NOTA TÉCNICA
Modelo de fuerza deportiva NOTA TÉCNICA Contenido 1 Motivación 3 2 El modelo de fuerza deportiva 3 2.1 Supuestos del modelo 3 2.2 Críticas al modelo 4 2.3 Formulación 4 2.4 Estimación de los parámetros
Más detallesDetección de perfiles de liderazgo en Sistemas Colaborativos Soportados por Computadoras
Detección de perfiles de liderazgo en Sistemas Colaborativos Soportados por Computadoras María Florencia Bugarini Directora: Dra. Silvia Schiaffino Codirector: Mg. Patricio García UNICEN Abril 2011 Motivación
Más detallesHERRAMIENTAS Y TECNICAS DE LA PLANEACIÓN
HERRAMIENTAS Y TECNICAS DE LA PLANEACIÓN Análisis del Entorno. Es el análisis de grandes cantidades de información del medio ambiente para detectar tendencias emergentes y crear escenarios. Análisis del
Más detallesMATEMÁTICAS CONTENIDOS MÍNIMOS DE 1º E.S.O.
MATEMÁTICAS CONTENIDOS MÍNIMOS DE 1º E.S.O. Calcular el valor de posición de cualquier cifra en cualquier número natural. Aplicar las propiedades fundamentales de la suma, resta, multiplicación y división
Más detallesHERRAMIENTAS DE LA CALIDAD
HERRAMIENTAS DE LA CALIDAD Ayudan en la medición, análisis e implementación de mejoramientos. Para mejorar Las principales herramientas de la calidad se agrupan en dos categorías: las siete herramientas
Más detalles3. GESTIÓN DE CONFIGURACIÓN DE SOFTWARE
3. GESTIÓN DE CONFIGURACIÓN DE SOFTWARE Software Configuration Management (SCM) es una disciplina de la Ingeniería de Software que se preocupa de [Ber92] [Ber84] [Bou98] [Mik97]: Identificar y documentar
Más detallesTest de Idioma Francés. Manual del evaluador
Test de Idioma Francés Manual del evaluador 1 CONTENIDO Introducción Qué mide el Test de idioma francés? Qué obtienen el examinado y el examinador? Descripción de los factores Propiedades psicométricas
Más detallesEstadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL
1. Introducción ESTADÍSTICA CO EXCEL La estadística es la rama de las matemáticas que se dedica al análisis e interpretación de series de datos, generando unos resultados que se utilizan básicamente en
Más detallesANÁLISIS DE VARIANZA EMPLEANDO EXCEL y WINSTATS
ANÁLISIS DE VARIANZA EMPLEANDO EXCEL y WINSTATS 1) INTRODUCCIÓN El análisis de varianza es una técnica que se puede utilizar para decidir si las medias de dos o más poblaciones son iguales. La prueba se
Más detallesEstas visiones de la información, denominadas vistas, se pueden identificar de varias formas.
El primer paso en el diseño de una base de datos es la producción del esquema conceptual. Normalmente, se construyen varios esquemas conceptuales, cada uno para representar las distintas visiones que los
Más detallesIngeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007
Enunciado Se desea efectuar el testing funcional de un programa que ejecuta transferencias entre cuentas bancarias. El programa recibe como parámetros la cuenta de origen, la de cuenta de destino y el
Más detallesGeneralización como búsqueda. El problema de aprendizaje por generalización puede verse como un problema de búsqueda:
Generalización como búsqueda El problema de aprendizaje por generalización puede verse como un problema de búsqueda: El lenguaje de generalización corresponde a un espacio de hipótesis (espacio de búsqueda)
Más detallesTema 1: Test de Distribuciones de Probabilidad
Tema 1: Test de Distribuciones de Probabilidad 1.- Una compañía de seguros tiene 1000 asegurados en el ramo de accidentes. Si la el modelo mejor para el número de siniestros en un año es: a) Normal (5;,3).
Más detallesopinoweb el poder de sus datos Descubra LA NECESIDAD DE PREDECIR
opinoweb SOFTWARE FOR MARKET RESEARCH LA NECESIDAD DE PREDECIR Actualmente las empresas no sólo necesitan saber con exactitud qué aconteció en el pasado para comprender mejor el presente, sino también
Más detallesModelos de Puntuación Puntaje de Originación
Modelos de Puntuación Puntaje de Originación 1 INTRODUCCIÓN Concepto y Objetivo Mecanismo de Puntaje de Originación 2 Concepto y Objetivo Puntaje de Originación o de Solicitud Es la conversión de información
Más detallesPrácticas ITIL para un mejor flujo de trabajo en el helpdesk
Prácticas ITIL para un mejor flujo de trabajo en el helpdesk Se diferencia tres partes de gestión para mejorar la resolución de las incidencias de soporte técnico según el marco ITIL: 1. Gestión de Incidencias
Más detalles