Anexo 2. Te cnicas de Modelado y Disen o de Pruebas

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Anexo 2. Te cnicas de Modelado y Disen o de Pruebas"

Transcripción

1 Anexo 2. Te cnicas de Modelado y Disen o de Pruebas Contenido 1. Introducción Técnicas de Minería de Datos Seleccionadas Técnica de Reglas de Asociación Objetivo al aplicar la técnica Algoritmos de la técnica seleccionados Técnica de Agrupamiento (Clustering) Objetivo de la técnica Selección del Algoritmo Descripción de los parámetros del Algoritmo Técnica de Clasificación Objetivo al aplicar la técnica Enfoques de Clasificación seleccionados Algoritmo de Microsoft para Arboles de decisión Descripción de los parámetros del algoritmo Visor Árbol de Decisión Plan de Diseño de Pruebas Técnica de Clasificación y Clustering Datos de Entrenamiento y Prueba para el conjunto de datos perteneciente al O Datos de Entrenamiento y Prueba para el conjunto de datos perteneciente al PM Combatir problema del sobreajuste para la técnica de Clasificación Técnica de Reglas de Asociación Criterios para la selección de reglas de Asociación generadas... 13

2 1. Introducción En el presente documento se muestran los motivos en particular de la selección de cada técnica de minería que va hacer parte del trabajo de grado y que cumplen los requerimientos exigidos por el set de datos para aplicarlas. También se encuentran los criterios utilizados para probar la calidad y validez de los resultados arrojados por el modelo luego de su implementación. 2. Técnicas de Minería de Datos Seleccionadas Para seleccionar cuales son las técnicas más adecuadas para el conjunto de datos, fue necesario identificar el tipo de información que se obtuvo y cuál era el objetivo general de extraer los datos. Se puede observar más adelante que las técnicas escogidas cubren tanto la generación de modelos descriptivos como predictivos, dando así un análisis de minería de datos completo y profundo. El conjunto de datos obtenido por parte de la RMCAB en los datos se ha clasificado como conocimiento oculto, siendo información almacenada en el registro histórico, pero que a simple vista o con consultas SQL es imposible encontrar resultados de las propiedades de los datos. A continuación se presentan las técnicas de minería escogidas para cumplir la tarea descriptiva: 2.1 Técnica de Reglas de Asociación La utilización de esta técnica para el presente trabajo de grado es muy importante ya que las reglas de asociación buscan encontrar patrones y reglas útiles en conjuntos de datos con tamaño grande, estos patrones encontrados suelen tener un soporte y una confianza probabilística que buscan darle la confiabilidad a las reglas generadas para así ponerlas en práctica tomando decisiones al respecto, por medio de la generación de reglas de asociación se detectaron relaciones no esperadas entre los elementos de las bases de datos llegando así a satisfacer los objetivos propuestos para este trabajo de grado Objetivo al aplicar la técnica

3 Encontrar reglas de asociación útiles, explorando sus combinaciones e identificando las posibles relaciones entre ellos para que los expertos tomen acciones inmediatas Algoritmos de la técnica seleccionados Los algoritmos pertenecientes a las técnicas de reglas de asociación generaron modelos que confirmaron y crearon hipótesis nuevas, dando así un ámbito aplicativo a la minería de datos. Es por esto que para la técnica de reglas de asociación se seleccionaron y se probaron varios algoritmos como: Tertius, Apriori y PredictiveApriori con el conjunto de entrenamiento. Aunque los algoritmos anteriormente mencionados pueden realizar la misma tarea, cada uno de ellos generó un resultado diferente. El primer criterio de selección de algoritmos fue filtrar los algoritmos que cumplieran el objetivo de la tarea descriptiva y las Reglas de Asociación, para este caso se utilizaron algoritmos que buscaran grupos de elementos comunes en las transacciones, tuvieran una fácil representación, interpretación y una forma de evaluar los resultados generados. 2.2 Técnica de Agrupamiento (Clustering) La razón de utilizar esta técnica es debido a que tiene alta aplicabilidad a diversos contextos y es un buen paso para comenzar a conocer los datos y sus comportamientos, facilitando así el entendimiento de los datos, además es de gran utilidad para demostrar la hipótesis del presente trabajo de grado que busca encontrar relaciones entre las variables climatológicas, las variables temporales y los contaminantes PM 10 y O Objetivo de la técnica Obtener un numero K de clústeres o particiones que permita identificar y relacionar los rangos de los atributos pertenecientes a cada partición con los rangos de los atributo de PM 10 y O 3, con el fin de encontrar características entre los atributos Selección del Algoritmo En esta sección se pretende mencionar los diferentes tipos de algoritmos que tienen la técnica de Clustering y la justificación de la selección del algoritmo escogido para generar el modelo. Algoritmos Jerárquicos

4 Estos algoritmos no construyen una sola partición sino una jerarquía de particiones [41], no fueron motivo de selección para implementar el modelo ya que presentan un inconveniente y es que una vez que un paso en la implementación se realiza (unión o división de los datos), este no puede deshacerse, lo cual esta falta de flexibilidad e iteración es crucial para corregir errores. Algoritmos Categóricos Estos algoritmos van orientados a sistemas de recuperación de información [41][30]donde su principal fuente de datos son documentos que contengan palabras claves, por tanto se va por otra orientación utilizando otras fuentes de datos que la del presente trabajo de grado, ya que esta maneja bases de datos que contienen la información desplegada en registros históricos. Algoritmos basados en densidad Estos algoritmos se pueden usar en la vista minable para eliminar el ruido (outliers) y para descubrir clústeres de forma arbitraria [58] [30].Sin embargo su alto costo computacional y de preparación de los datos impide que sea una buena práctica en el proceso de creación de la vista minable para el presente trabajo de grado. Algoritmos por Partición Este método resulta ser el que encaja para explorar la vista minable creada. El algoritmo que implemento la técnica de Agrupamiento (Clustering) es el k-means Descripción de los parámetros del Algoritmo Para la ejecución del modelo, la herramienta tiene una interfaz para la configuración de los parámetros y la selección del algoritmo. En la siguiente imagen se presenta la vista general de la interfaz de configuración de parámetros:

5 Ilustración 1 Interfaz configuración de parámetros de la técnica seleccionada Fuente: Herramienta Visual Studio Data Tools 2012 A continuación se presenta la descripción de los parámetros que presenta el algoritmo k- means con el fin de generar el modelo acorde a la vista minable: Nombre del Parámetro CLUSTER_COUNT CLUSTER_SEED CLUSTERING_METHOD MAXIMUM_INPUT_ATTRINUTES MAXIMUM_STATES MINIMUM_SUPPORT Descripción Este parámetro especifica el número exacto de clústeres que quiere que genere el algoritmo. Este tal vez es un inconveniente del algoritmo ya que se define el conjunto de clústeres antes de analizar los datos. Este parámetro especifica el número de inicialización utilizado para generar clusters aleatoriamente como primera fase de la generación de los modelos. Este parámetro especifica el método de clusters que se va a seleccionar. El numero 3 fue seleccionado ya que corresponde al algoritmo mediana-k- escalable (K-means). Este parámetro establece el número máximo de atributos de entrada que puede utilizar el algoritmo antes de invocar el método. En este parámetro se establece el número máximo de estados de atributo que admite el algoritmo y tiene algo particular y es que si el número de estados de un atributo es mayor que el número máximo de estados, el algoritmo utiliza los estados más populares del atributo. Este parámetro establece el número mínimo de casos que pueden entrar en cada clúster. En este parámetro se establece el número de

6 MODELLING_CARDINALITY modelos ejemplo que se construyen durante el proceso de agrupación en clusters. Este parámetro establece el número de casos que utiliza el algoritmo en cada paso para la construcción del modelo. Si se establece el número SAMPLE_SIZE 0, todo el conjunto de datos de entrenamiento se agruparán en un {único paso lo que genera problemas de memoria y rendimiento. En este parámetro se determina el valor utilizado para determinar cuándo alcanza la convergencia y STOPPING_TOLERANCE en qué momento el algoritmo termina de generar el modelo. Tabla 1 Descripción de los parámetros de la técnica de Clustering 2.3 Técnica de Clasificación Las técnicas de clasificación [42] buscan utilizar el contenido de los registros históricos, representándolos en un modelo que podrá predecir comportamientos futuros. Fue importante generar un modelo de clasificación, que permitiera asignar las variables del conjunto de datos (incluyen variables derivadas) a los estados del atributo O 3 y PM 10. Es importante utilizar técnicas de clasificación en el presente trabajo de grado ya que el definir la probabilidad de que un nuevo registro que no esté en la base de datos histórica pertenezca a una de las clases predictivas, hace que los involucrados vean que las técnicas de minería de datos, también puede realizar estimaciones y utilicen dichas estimaciones para tomar decisiones con una medición de confianza apropiada de acuerdo a los criterios de cada usuario. Además en cuanto a los requerimientos no funcionales [39], esta técnica es eficiente en cuanto a tiempos de respuesta en la generación de los modelos, es escalable ya que maneja muy bien grandes volúmenes de datos, es tolerantes a atributos poco significativos y por su representación simbólica facilita el entendimiento para personas externas al proyecto Objetivo al aplicar la técnica Organizar y categorizar los registros históricos en clases que contienen los estados de los atributos objetivo, obteniendo así estimaciones de dicho atributo de acuerdo a entradas con valores específicos establecidos por el usuario.

7 2.3.2 Enfoques de Clasificación seleccionados La técnicas de clasificación tienen diversos enfoques [39]: Estadísticos, distancia, arboles de decisión, reglas y redes neuronales. Sin embargo el enfoque seleccionado es el de Arboles de decisión por dos razones: la primera es porque un enfoque de la clasificación es la estadística y los proyectos estadísticos se han realizado en distintos proyectos exitosos por ende no sería un ámbito diferenciador del presente trabajo de grado, los enfoques de distancia se aplicaron en la sección anterior cuya técnica fue Agrupamiento, las reglas de clasificación son similares a las técnicas de reglas de asociación aplicadas también en este trabajo de grado, así que solo queda por explorar este enfoque seleccionado. Además por ser una técnica perteneciente a la tarea predictiva, hace que dicha técnica se ajuste a los parámetros y requerimientos del prototipo Algoritmo de Microsoft para Arboles de decisión Una de las principales características por la que se escogió este algoritmo es que es robusto frente al ruido de los datos y los atributos de entrada de selección errónea (es decir que no tienen relación con el atributo predictivo) ya que no tiene en cuenta estos atributos para la construcción del árbol en el momento en que saca las relaciones entre las variables de entrada con la variable de predicción, además el algoritmo realiza predicciones basándose en la tendencia hacia un resultado en concreto, es decir que si 9 de 11 registros indican que si la radiación solar es mayor al promedio, el atributo ozono es desfavorable y solo pasa esto 2 veces con la radiación por debajo del promedio, el algoritmo infiere por su tendencia que la radiación solar es un buen atributo de predicción del Ozono. Otro aspecto importante por el cual se seleccionó este algoritmo es por su facilidad de interpretar los resultados para personas inexpertas en el tema de minería de datos ya que contiene herramientas de visualización muy fáciles de entender y de forma organizada, estas herramientas son creadas por Microsoft con el fin de trabajar con grandes volúmenes de datos lo que hace que la escalabilidad del algoritmo sea óptima. Herramientas como SPPS de IBM y Weka, trabajan con herramientas de visualización poco amigables para el usuario y el rendimiento en la ejecución de diversos algoritmos de Arboles de decisión no es la adecuada para este conjunto de datos, ya que el volumen de registros que se maneja es alto. Otro motivo de selección de dicho algoritmo es por la calidad y cantidad de

8 documentación por parte de Microsoft acerca de la generación de los modelos de clasificación y las herramientas a utilizar Descripción de los parámetros del algoritmo A continuación se presenta la descripción de los parámetros que presenta el algoritmo de árboles de decisión de Microsoft con el fin de generar el modelo acorde a la vista minable: Parámetro Descripción COMPLEXITY_PENALTY Este parámetro [63] controla el crecimiento del árbol con respecto al número de divisiones que debe tener dicho árbol de decisión. De 1 a 9 atributos el valor debe ser e 0.5. FORCE_REGRESSOR Este parámetro [63] no se utiliza en este ámbito ya que solo sirve para arboles de decisión que predicen atributos continuos. MAXIMUM_INPUT_ATRIBUTES Este parámetro [63] define el número de atributos de entrada que el algoritmo puede controlar antes de invocar la selección de características, el valor queda por defecto, así no llegue a ese máximo especificado. MAXIMUM_OUTPUT_ATRIBUTES Este parámetro [63] define el número de atributos de salida que puede controlar el algoritmo. Queda por defecto, así lo llegue a ese máximo especificado. MINIMUM_SUPPORT Este parámetro [63] determina el mínimo número de casos necesarios para crear una división en el árbol de decisión. SCORE_METHOD Este parámetro [63], define el método que se quiere utilizar para calcular el resultado de la división del árbol, los disponibles son: (1) Entropía, (2) Bayesiano con prioridad k2, (3) Equivalente Dirichlet bayesiano con prioridad uniforme. SPLIT_METHOD Este parámetro [63] define el método usado para dividir los nodos internos, los métodos disponibles son: (1) Binary que indica que el árbol debería dividirse en 2 bifurcaciones, (2) complete que indica que el árbol puede crear tantas divisiones como atributos de entrada existentes, (3) Both que indica que Analysis Services determina cuando usar una división Binary o Complete para ganar mejores resultados. Tabla 2 Descripción parámetros técnica de Clasificación

9 2.3.5 Visor Árbol de Decisión La herramienta Visual Studio Data Tools contiene un visor para los modelos de clasificación. Para los modelos generados por el algoritmo, se encuentra el modelo representado en un árbol que se compone de una serie de divisiones, determinadas por el algoritmo hasta llegar a la decisión de clasificación, a la izquierda del visor aparece un nodo llamado Todos que viene siendo el nodo raíz del árbol, las divisiones adicionales se muestran a la derecha de ese nodo. El nodo raíz es uno de los más importantes ya que contiene la condición más determinante del conjunto de datos que va hacer utilizada para la primera división del árbol. En cada nodo interno del árbol el visor muestra lo siguiente [66]: La condición que hace que se realice la división, dicha condición está compuesta por la etiqueta del nombre del atributo junto con el estado seleccionado. Un histograma que representa la distribución de los estados del atributo de predicción (para este caso el Ozono), ordenado por popularidad y representado cada estado por un color que los diferencie de los demás estados. Gráficamente la representación de un nodo interno del árbol con las especificaciones anteriores se ve de la siguiente manera: Ilustración 2 Representación de un nodo interno Fuente: Herramienta Visual Studio Data Tools 2012 Cuando se selecciona un nodo del árbol en la parte inferior derecha del visor se muestra un recuadro llamado leyenda de minería de datos que contiene la probabilidad de distribución para cada estado del atributo predictivo, junto con su respectivo escenario:

10 Ilustración 3 Leyenda de cada nodo interno Fuente: Herramienta Visual Studio Data Tools 2012 A continuación se muestra una vista general del visor del árbol: Ilustración 4 Vista general del modelo de Árboles de Decisión Fuente: Herramienta Visual Studio Data Tools Plan de Diseño de Pruebas En esta sección se presenta el plan ejecutado para probar la calidad y el contenido de los modelos de minería de datos que fueron generados a partir de las técnicas. A continuación se presentan los criterios aplicados de forma general para los modelos y más adelante los especiales dependiendo de cada técnica de minería de datos. 1. Se dividió el total de registros, en el conjunto de prueba y entrenamiento para conocer la precisión del modelo. (ver fase de evaluación).

11 2. Se algunos patrones generados por las técnicas con patrones encontrados por otra tesis de meteorología utilizando modelos estadísticos validados previamente. Esto fue teniendo en cuenta los patrones comunes generados en ambos proyectos. 3. Se preguntó al equipo de la RMCAB algunas relaciones frecuentes en los datos con el fin de comparar y revisar algunos patrones generados. 4. Se compararon los resultados de los modelos generados por las distintas técnicas implementadas entre ellos, teniendo en cuenta los patrones comunes y especiales (poco comunes). 5. Los patrones son revisados por la directora experta en meteorología. 6. Para la aplicación se realizaron pruebas con los posibles estados que podían tomar los contaminantes y en qué casos pasaban dichos contaminantes, además se revisó su funcionalidad por parte del equipo de la RMCAB. 7. Se reciben los registros históricos del 2013 para pasarlos como segundo conjunto de prueba y observar los resultados de precisión con un porcentaje mayor al 75%. 3.1 Técnica de Clasificación y Clustering Se dividió el total de registros, en el conjunto de prueba y entrenamiento para conocer la precisión del modelo. La selección del conjunto de datos de prueba y entrenamiento se realizó por medio de técnicas de muestreo aleatorio simple Datos de Entrenamiento y Prueba para el conjunto de datos perteneciente al O 3 Para el conjunto de entrenamiento se utilizó el 70% del conjunto de datos original que corresponde a registros y el 30% restante fue utilizado para probar los modelos y corresponde a registros, dando como el total de registros pertenecientes a la vista minable de Ozono la cantidad de registros Datos de Entrenamiento y Prueba para el conjunto de datos perteneciente al PM 10 Para el conjunto de entrenamiento se utilizó el 70% del conjunto de datos original que corresponde a registros y el 30% restante fue utilizado para probar los modelos y este corresponde a registros, dando como el total de registros pertenecientes a la vista minable de PM 10 la cantidad de registros.

12 3.1.3 Combatir problema del sobreajuste para la técnica de Clasificación Antes de explicar la forma de enfrentar el problema de sobreajuste que pueden presentar los arboles de decisión generados, es importante recordar las definiciones establecidas en la memoria de grado acerca de que es el sobreajuste, este término [39] se refiere a las reglas creadas en el proceso de partición del árbol que presentan casos textuales del conjunto de entrenamiento, son de carácter específico y no hacen parte del modelo aunque estén allí. Aunque el algoritmo de árboles de decisión de Microsoft contiene métodos que controlan y evitan el sobreajuste, es importante realizar la validación de las tareas que se sugieren para evitarlo de forma manual. El proceso para evitar el sobreajuste se divide en 2 partes [39]: Eliminando variables independientes: Las variables independientes lo que hacen es distorsionar el modelo, ya que no predicen a la variable dependiente por no tener ninguna relación entre ellas. Proceso de Poda del Árbol : Este proceso está basado en la confiabilidad del árbol y consiste en eliminar las reglas (hojas, ramas o subárboles) que no son de carácter general, es decir que son reglas textuales de los datos que no ocurren con frecuencia. La importancia de realizar el proceso de Poda (ya sea por parte del algoritmo o del usuario), es que va a mejorar el desempeño del árbol y clasificara de forma correcta tanto los registros del set de entrenamiento como los registros del set de prueba. Este proceso también se hizo con base en los patrones comunes obtenidos por los modelos de las otras técnicas aplicadas. Pre-poda: Como se mencionó anteriormente, el algoritmo de Arboles de decisión de Microsoft contiene métodos y parámetros que se encargan de evitar el sobreajuste. Uno de los métodos utilizados es feature selection [63] cuya función es identificar los atributos y estados de entrada del algoritmo que ofrecen la mayor cantidad de información y no tiene en cuenta los valores que son muy raros (es decir los textuales), mitigando

13 el riesgo de que exista sobreajuste. También se puede observar que el parámetro MINIMUN_SUPPORT entre más elevado esta, menor es el riesgo de sobreajuste del árbol, según el experto en minería de datos el soporte mínimo ideal que debe aceptar cada nodo interno es de 10 y se definió en los parámetros de dicho algoritmo. Después de observar detalladamente el árbol y los gráficos de precisión se encontró que las amenazas de sobreajuste no son significativas. 3.2 Técnica de Reglas de Asociación Cada regla de asociación está acompañada por unas medidas que evalúan la certeza y utilidad de cada regla de asociación. A continuación se muestran todas las medidas que se especifican en la generación de reglas junto con los algoritmos que la calculan debido a que dependiendo del algoritmo que se utilice para las reglas de asociación, las medidas son distintas Soporte: Calculada y presentada por el Algoritmo Apriori Confianza: Calculada y presentada por el Algoritmo Apriori Medida Predictiva : Calculada y presentada por el Algoritmo PredictiveApriori Mejora (Lift) : Calculada y presentada por el Algoritmo A priori Criterios para la selección de reglas de Asociación generadas El procedimiento de selección de las reglas de asociación para este proyecto no solo involucra las medidas de confianza de cada regla (como son el soporte y la confianza) sino unos criterios que hacen que las reglas sean de utilidad para analizar los resultados. Cada regla de asociación fue revisada con el fin de no encontrar los siguientes problemas: Reglas Redundantes: Son reglas que contienen 2 o más atributos antecedentes similares o que tienden a una deducción lógica simple. Por ejemplo una regla que tenga atributos antecedentes como: Trimestres del Año y Mes.

14 Reglas Innecesarias: Son las reglas que no cumplen el objetivo del trabajo de grado ya que contienen consecuentes diferentes o que acompañan al atributo Ozono. Por ejemplo la siguiente regla: Hora=3:00 PM, RadiacionS=CATEGORIA2 ==>Hora pico=no. Medida de Mejora (lift): Si el resultado es mayor e igual a uno, la regla sirve, de lo contrario la regla se descarta. Esta medida es exclusiva para el algoritmo A priori. Reglas con una confianza baja: Son reglas que contienen la medida probabilística de confianza por debajo del Cabe recalcar que si no se cumple alguno de los criterios de selección, la regla es descartada.

Pontificia Universidad Javeriana Bogotá

Pontificia Universidad Javeriana Bogotá Anexo 4 -Modalidad Practica Pontificia Universidad Javeriana Bogotá Proceso de construcción de los modelos Para los contaminantes Ozono y Material Particulado Alex Ariel Arias Ríos 2014-1 Contenido 1.

Más detalles

Análisis de resultados de los modelos

Análisis de resultados de los modelos Anexo 5 PONTIFICIA UNIVERSIDAD JAVERIANA Análisis de resultados de los modelos Alex Arias 2014-I 1. Introducción En el presente documento se muestran los patrones y tendencias obtenidas por los modelos

Más detalles

Minería de Datos Web. Cursada 2018

Minería de Datos Web. Cursada 2018 Minería de Datos Web Cursada 2018 Proceso de Minería de Texto Clustering de Documentos Clasificación de Documentos Es un método supervisado para dividir documentos en base a categorías predefinidas Los

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 11 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 11 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 11 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Resolución manual de clasificación bayesiana

Más detalles

Capítulo 5. Conclusiones

Capítulo 5. Conclusiones Capítulo 5 Conclusiones En este trabajo se desarrolló un sistema capaz de clasificar enunciados dependiendo de la opinión que cada uno expresa acerca de una película. Se cumplió entonces con el objetivo

Más detalles

Aprendizaje Automatizado

Aprendizaje Automatizado Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto

Más detalles

Aprendizaje Automatizado

Aprendizaje Automatizado Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto

Más detalles

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: clasificación CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja

Más detalles

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR Tareas de la minería de datos: clasificación PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja o asocia datos

Más detalles

ÍNDICE. Introducción... Capítulo 1. Técnicas de minería de datos y herramientas... 1

ÍNDICE. Introducción... Capítulo 1. Técnicas de minería de datos y herramientas... 1 ÍNDICE Introducción... XI Capítulo 1. Técnicas de minería de datos y herramientas... 1 Clasificación de las técnicas de minería de datos y herramientas más comunes... 1 Modelado originado por la teoría

Más detalles

Lingüística computacional

Lingüística computacional Lingüística computacional Definición y alcance Escuela Nacional de Antropología e Historia (ENAH) Agosto diciembre de 2015 Lingüística Ciencias de la computación Lingüística computacional Estudio del lenguaje

Más detalles

APLICACIONES DE MINERA DE DATOS EN ADUANA DE PERU. Luis Azaña Bocanegra

APLICACIONES DE MINERA DE DATOS EN ADUANA DE PERU. Luis Azaña Bocanegra APLICACIONES DE MINERA DE DATOS EN ADUANA DE PERU Luis Azaña Bocanegra TEMARIO CONCEPTOS DEFINICION DE MINERIA DE DATOS USOS DE LA MINERIA DE DATOS TECNICAS DE MINERIA DE DATOS ETAPAS DE UN PROYECTO DE

Más detalles

Analizando patrones de datos

Analizando patrones de datos Analizando patrones de datos SQL Server DM, Excel DM, Azure ML y R Ana María Bisbé York @ambynet http://amby.net/ Temario Introducción a Minería de datos MS Office Excel Herramientas de tabla y Minería

Más detalles

5. Los objetivos de la Calidad de los Datos (OCD) y la Evaluación de la

5. Los objetivos de la Calidad de los Datos (OCD) y la Evaluación de la 5. Los objetivos de la Calidad de los Datos (OCD) y la Evaluación de la Calidad de los Datos (ECD) en el Ciclo de Vida de los Datos de un Proyecto. Los objetivos de calidad de los datos, OCD, se mencionaron

Más detalles

Clasificación Supervisada. Métodos jerárquicos. CART

Clasificación Supervisada. Métodos jerárquicos. CART Clasificación Supervisada. Métodos jerárquicos. CART Ricardo Fraiman 2 de abril de 2010 Descripción del problema Muestra de entrenamiento (X 1, Y 1 ),..., (X n, Y n ) E {1,..., m}. Típicamente E = R d.

Más detalles

Minería de Datos, Análisis Predictivo con Microsoft Analysis Services y PowerPivot Excel (Data Mining, Predictive Analytics with Microsoft Analysis Services and Excel PowerPivot) Duración: 24 horas Código:

Más detalles

Reglas de Asociación en Weka

Reglas de Asociación en Weka Reglas de Asociación en Weka Este documento muestra cómo establecer reglas de asociación en Weka usando como ejemplo los datos de un banco "bank.arff". El punto de inicio consiste en discretizar los datos

Más detalles

CAPÍTULO 5 APLICACIÓN HEURÍSTICA

CAPÍTULO 5 APLICACIÓN HEURÍSTICA CAPÍTULO 5 APLICACIÓN HEURÍSTICA El presente capítulo muestra la aplicación de los conceptos teóricos mencionados en el capítulo anterior con el fin de obtener una solución inicial al problema de la clasificación

Más detalles

CRITERIOS DE SELECCIÓN DE MODELOS

CRITERIOS DE SELECCIÓN DE MODELOS Inteligencia artificial y reconocimiento de patrones CRITERIOS DE SELECCIÓN DE MODELOS 1 Criterios para elegir un modelo Dos decisiones fundamentales: El tipo de modelo (árboles de decisión, redes neuronales,

Más detalles

Índice general. Prefacio...5

Índice general. Prefacio...5 Índice general Prefacio...5 Capítulo 1 Introducción...13 1.1 Introducción...13 1.2 Los datos...19 1.3 Etapas en los procesos de big data...20 1.4 Minería de datos...21 1.5 Estructura de un proyecto de

Más detalles

10 EXÁMENES

10 EXÁMENES 10 EXÁMENES 2014-2018 Convocatoria Extraordinaria de Septiembre 1 de Septiembre de 2014 1. (1 pto.) a) Aunque por abuso del lenguaje hemos hablado de minería de datos y de KDD como sinónimos, indica las

Más detalles

Anexo I CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN

Anexo I CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN Anexo I CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN 165 ENCUESTA DE COMPORTAMIENTOS Y TIPOLOGÍAS DE VISITANTES EN EUSKADI 166 ANEXO I. CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN

Más detalles

Introducción a Aprendizaje no Supervisado

Introducción a Aprendizaje no Supervisado Introducción a Aprendizaje no Supervisado Felipe Suárez, Álvaro Riascos 25 de abril de 2017 2 / 33 Contenido 1. Motivación 2. k-medias Algoritmos Implementación 3. Definición 4. Motivación 5. Aproximación

Más detalles

Introducción a los sistemas Multiclasificadores. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

Introducción a los sistemas Multiclasificadores. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Introducción a los sistemas Multiclasificadores Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido 1. Combinación de modelos 2. Descomposición bias-varianza 3. Bagging

Más detalles

Inducción de Árboles de Decisión ID3, C4.5

Inducción de Árboles de Decisión ID3, C4.5 Inducción de Árboles de Decisión ID3, C4.5 Contenido 1. Representación mediante árboles de decisión. 2. Algoritmo básico: divide y vencerás. 3. Heurística para la selección de atributos. 4. Espacio de

Más detalles

Predicción de potencia en el parque eólico de Villonaco, Loja, Ecuador. Alberto Reyes y Tania Guerrero INER Ecuador

Predicción de potencia en el parque eólico de Villonaco, Loja, Ecuador. Alberto Reyes y Tania Guerrero INER Ecuador Predicción de potencia en el parque eólico de Villonaco, Loja, Ecuador Alberto Reyes y Tania Guerrero INER Ecuador INTRODUCCIÓN El comportamiento del viento presenta alto grado de aleatoriedad, incertidumbre

Más detalles

Técnicas de Minería de Datos

Técnicas de Minería de Datos Técnicas de Minería de Datos Act. Humberto Ramos S. 1 Qué es Minería de datos? El desarrollo de dispositivos tecnológicos para acumular datos a bajo costo. Acumulación o registro de gran cantidad de datos.

Más detalles

Instituto Tecnológico Superior De Acatlán de Osorio. Portafolio de evidencias

Instituto Tecnológico Superior De Acatlán de Osorio. Portafolio de evidencias Instituto Tecnológico Superior De Acatlán de Osorio Carrera: Ingeniería Informática Materia: Verificación y Validación de Software Portafolio de evidencias Elaborado por: Solano Agustín Carlos Profesor:

Más detalles

Posibles trabajos HIA

Posibles trabajos HIA Posibles trabajos HIA Posibles trabajos Comparar otras herramientas de Minería de Datos con Weka Estudiar la influencia del ruido en bagging y boosting Estudiar la influencia del parámetro de poda en J48

Más detalles

Técnicas de Pruebas de

Técnicas de Pruebas de Técnicas de Pruebas de Software Lecturas Pruebas de Unidades Pruebas Integración Docente Beatriz E. Florián bflorian@eisc.edu.co Mayo 3 de 2005 Pruebas Reglas de oro para pruebas Límites de Pruebas: Probar

Más detalles

Introducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Introducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Introducción a la minería de datos CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Minería de datos Detección, interpretación y predicción de patrones cuantitativos y cualitativos

Más detalles

METODOLOGÍAS PARA EL DESARROLLO DE SISTEMAS

METODOLOGÍAS PARA EL DESARROLLO DE SISTEMAS !387" APÉNDICE A, APARTADO 1 METODOLOGÍAS PARA EL DESARROLLO DE SISTEMAS DOCUMENTACIÓN 1. La necesidad de los diagramas Los diagramas o representaciones gráficas representan una parte fundamental en el

Más detalles

Identificación de variables asociadas al éxito académico en Estudiantes de la Facultad de Informática Mazatlán

Identificación de variables asociadas al éxito académico en Estudiantes de la Facultad de Informática Mazatlán Your logo Identificación de variables asociadas al éxito académico en Estudiantes de la Facultad de Informática Mazatlán Universidad Autónoma de Sinaloa M.C. Rogelio Estrada Lizárraga Abril 16, 2013 Introducción

Más detalles

Clasificadores Débiles - AdaBoost

Clasificadores Débiles - AdaBoost Capítulo 3 Clasificadores Débiles - AdaBoost El término boosting hace referencia a un tipo de algoritmos cuya finalidad es encontrar una hipótesis fuerte a partir de utilizar hipótesis simples y débiles.

Más detalles

Carteras minoristas. árbol de decisión. Ejemplo: Construcción de un scoring de concesión basado en un DIRECCIÓN GENERAL DE SUPERVISIÓN

Carteras minoristas. árbol de decisión. Ejemplo: Construcción de un scoring de concesión basado en un DIRECCIÓN GENERAL DE SUPERVISIÓN Carteras minoristas Ejemplo: Construcción de un scoring de concesión basado en un árbol de decisión Grupo de Tesorería y Modelos de Gestión de Riesgos Sergio Gavilá II Seminario sobre Basilea II Validación

Más detalles

Anexo 11. Manual de Administración

Anexo 11. Manual de Administración PONTIFICIA UNIVERSIDAD JAVERIANA Anexo 11. Manual de Administración Para mantenimiento a los modelos y código fuente Alex Arias 28/05/2014 El presente documento muestra los requerimientos necesarios para

Más detalles

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión. MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión. 1 Objetivos del tema Conocer en qué consiste un árbol de decisión. Aprender los problemas que pueden

Más detalles

TEMA 1: INTRODUCCIÓN N AL PROCESADO Y ANÁLISIS DE DATOS

TEMA 1: INTRODUCCIÓN N AL PROCESADO Y ANÁLISIS DE DATOS Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano TEMA 1: INTRODUCCIÓN N AL PROCESADO Y ANÁLISIS DE DATOS ÍNDICE Introducción. Selección de variables.

Más detalles

DISEÑO FÍSICO DE UNA BASE DE DATOS EDWIN FERNANDO PACHECO FIGUEROA LICENCIATURA EN INFORMÁTICA UNIVERSIDAD DE NARIÑO

DISEÑO FÍSICO DE UNA BASE DE DATOS EDWIN FERNANDO PACHECO FIGUEROA LICENCIATURA EN INFORMÁTICA UNIVERSIDAD DE NARIÑO DISEÑO FÍSICO DE UNA BASE DE DATOS QUÉ ES UN DISEÑO FISICO DE BASE DE DATOS. "Diseño físico de la base de datos" es el proceso de selección de una estructura física para una estructura lógica dada. El

Más detalles

ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)

ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS) ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS) AGRUPAMIENTOS Cuál agrupamiento es mejor? MÉTODOS DE AGRUPACIÓN Métodos jerárquicos: Los objetos se agrupan (dividen) i por partes hasta clasificar todos los

Más detalles

ANÁLISIS DE DATOS. Ricardo Aler Mur

ANÁLISIS DE DATOS. Ricardo Aler Mur ANÁLISIS DE DATOS Ricardo Aler Mur EXAMEN DE ANÁLISIS DE DATOS GRADO EN INFORMÁTICA ENERO 2014 10 puntos, 1 hora y media de duración. Responder cada pregunta con respuestas breves (unas pocas líneas).

Más detalles

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) Curso Académico: 2015-2016 Programa: Centro: Universidad: Máster Universitario en Ingeniería Informática Escuela Politécnica Superior

Más detalles

INSTITUTO LA PAZ. Tutorial Paso a Paso Tablas Dinámicas

INSTITUTO LA PAZ. Tutorial Paso a Paso Tablas Dinámicas INSTITUTO LA PAZ Tutorial Paso a Paso Tablas Dinámicas Las tablas dinámicas es una de las funciones interactivas más útiles y tecnológicamente avanzadas que nos ofrece Microsoft Excel, abriendo a todos

Más detalles

MANUAL DE USO PROGRAMA SENSIBAR

MANUAL DE USO PROGRAMA SENSIBAR MANUAL DE USO PROGRAMA SENSIBAR ANALSIS DE SENSIBILIDAD Y SIMULACION DE MONTECARLO JOSE FUENTES VALDES FACEA - UNIVERSIDAD DE CONCEPCION Facultad de Economía Universidad de Concepción 1 SensiBar. ANALSIS

Más detalles

Nombre de la asignatura: Probabilidad y Estadística. Créditos: Aportación al perfil

Nombre de la asignatura: Probabilidad y Estadística. Créditos: Aportación al perfil Nombre de la asignatura: Probabilidad y Estadística Créditos: 3-2-5 Aportación al perfil Seleccionar y aplicar herramientas matemáticas para el modelado, diseño y desarrollo de tecnología computacional.

Más detalles

GUÍA DE STATGRAPHICS 5.1

GUÍA DE STATGRAPHICS 5.1 UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA UNIVERSITARIA DE ARQUITECTURA TÉCNICA DEPARTAMENTO DE MATEMÁTICA APLICADA A LA ARQUITECTURA TÉCNICA GUÍA DE STATGRAPHICS 5.1 (Versión castellana) GUÍA DE STATGRAPHICS

Más detalles

Árboles de Decisión Árboles de Sintaxis

Árboles de Decisión Árboles de Sintaxis Árboles de Decisión Árboles de Sintaxis Estructuras de Datos Andrea Rueda Pontificia Universidad Javeriana Departamento de Ingeniería de Sistemas Árboles de Decisión Árbol de Decisión Forma gráfica de

Más detalles

Introducción: Data Mining

Introducción: Data Mining Introducción: Data Mining Qué es la minería de datos? Extracción de modelos y patrones interesantes, potencialmente útiles y no triviales desde bases de datos de gran tamaño. Conceptos de Data Mining Modelo:

Más detalles

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO 2 Objetivo El objetivo principal de las técnicas de clasificación supervisada es obtener un modelo clasificatorio válido para permitir tratar

Más detalles

Estadística Descriptiva - Tema 1. Conceptos Básicos

Estadística Descriptiva - Tema 1. Conceptos Básicos Estadística Descriptiva - Tema 1 Conceptos Básicos La estadística es una ciencia formal que estudia la recolección, análisis e interpretación de datos de una muestra representativa, ya sea para ayudar

Más detalles

INDICE Parte Uno Técnicas Básicas de Evaluación de Proyectos de Capital 1. Introducción y Conceptos de Costos 2. Cálculos que implica interés

INDICE Parte Uno Técnicas Básicas de Evaluación de Proyectos de Capital 1. Introducción y Conceptos de Costos 2. Cálculos que implica interés INDICE Prefacio XIX Parte Uno Técnicas Básicas de Evaluación de Proyectos de Capital 1. Introducción y Conceptos de Costos 1 1.1. Reconocimiento de una oportunidad o problema 1 1.2. Análisis de sistemas

Más detalles

Universidad nacional Autónoma de México Facultad de psicología. Matemáticas II

Universidad nacional Autónoma de México Facultad de psicología. Matemáticas II Universidad nacional Autónoma de México Facultad de psicología PROGRAMA DE ASIGNATURA Nombre de la Asignatura Matemáticas II Clave 0497 Semestre Segundo Número de créditos 8 Horas Teoría 4 Horas Práctica

Más detalles

DATA MINING CONCEPTOS Y EXPERIENCIA EN LA FISCALIZACIÓN DEL MERCADO DE VALORES DE CHILE

DATA MINING CONCEPTOS Y EXPERIENCIA EN LA FISCALIZACIÓN DEL MERCADO DE VALORES DE CHILE VII Reunión sobre casos prácticos de inspección y vigilancia de mercados y entidades. Santiago de Chile DATA MINING CONCEPTOS Y EXPERIENCIA EN LA FISCALIZACIÓN DEL MERCADO DE VALORES DE CHILE Marcelo García

Más detalles

Capítulo 5. Construcción de una Red Neuronal Artificial Asesora

Capítulo 5. Construcción de una Red Neuronal Artificial Asesora Capítulo 5. Construcción de una Red Neuronal Artificial Asesora 53 Capítulo 5. Construcción de una Red Neuronal Artificial Asesora 5.1 Construcción de la red A lo largo de las investigaciones realizadas

Más detalles

Gestión de los Riesgos del Proyecto basado en los estándares del PMI. Ing. Osvaldo Martínez Gómez, MSc, MAP

Gestión de los Riesgos del Proyecto basado en los estándares del PMI. Ing. Osvaldo Martínez Gómez, MSc, MAP Gestión de los Riesgos del Proyecto basado en los estándares del PMI Ing. Osvaldo Martínez Gómez, MSc, MAP San José, Costa Rica - 2012 1 Análisis Cualitativo de los Riesgos Evaluación de la Probabilidad

Más detalles

VIII Jornadas de Usuarios de R

VIII Jornadas de Usuarios de R VIII Jornadas de Usuarios de R Análisis del Abandono en el Sector Bancario Predicción del abandono de clientes Albacete, 17 de Noviembre de 2016 I. INDICE : Modelo Abandonos I. COMPRENSIÓN DEL NEGOCIO

Más detalles

DEPARTAMENTO: Matemáticas NOMBRE DEL CURSO: Probabilidad y Estadística CLAVE: 1016M ACADEMIA A LA QUE PERTENECE: Probabilidad y Estadística

DEPARTAMENTO: Matemáticas NOMBRE DEL CURSO: Probabilidad y Estadística CLAVE: 1016M ACADEMIA A LA QUE PERTENECE: Probabilidad y Estadística PROGRAMA DE CURSO Modelo 2009 DEPARTAMENTO: Matemáticas NOMBRE DEL CURSO: Probabilidad y Estadística CLAVE: 1016M ACADEMIA A LA QUE PERTENECE: Probabilidad y Estadística PROFESIONAL ASOCIADO Y LICENCIATURA

Más detalles

Métodos de Inteligencia Artificial

Métodos de Inteligencia Artificial Métodos de Inteligencia Artificial L. Enrique Sucar (INAOE) esucar@inaoep.mx ccc.inaoep.mx/esucar Tecnologías de Información UPAEP Agentes que Aprenden: Clasificador Bayesiano Clasificación Clasificador

Más detalles

DESARROLLO APLICACIONES BUSINESS INTELLIGENCE CON MS SQL SERVER Big Data

DESARROLLO APLICACIONES BUSINESS INTELLIGENCE CON MS SQL SERVER Big Data DESARROLLO APLICACIONES BUSINESS INTELLIGENCE CON MS SQL SERVER 2016 + Big Data DESCRIPCIÓN Este curso está orientado a brindar a los alumnos los fundamentos necesarios en el campo del Business Intelligence

Más detalles

Minería de datos. Unidad 2. El proceso KDD Evaluación, difusión y uso. M en I Sara Vera Noguez

Minería de datos. Unidad 2. El proceso KDD Evaluación, difusión y uso. M en I Sara Vera Noguez Minería de datos Unidad 2. El proceso KDD Evaluación, difusión y uso M en I Sara Vera Noguez El proceso KDD Hernández, 2008 p.20 La parte iterativa Una vez obtenido el modelo se debe evaluar Si satisface

Más detalles

Temario CURSO CON IBM SPSS STATISTICS ONLINE

Temario CURSO CON IBM SPSS STATISTICS ONLINE Centro Analítico Latinoamericano Servicios de capacitación nline Una división de INFÓRMESE Temario CURSO CON IBM SPSS STATISTICS ONLINE Curso: Estadística con IBM SPSS Statistics Duración: 2 Nivel: Medio

Más detalles

MÉTODO DE MONTE CARLO MÉTODO DE BOOTSTRAP HEINZ ROQUE

MÉTODO DE MONTE CARLO MÉTODO DE BOOTSTRAP HEINZ ROQUE Programa de Capacitación y Actualización de las Mejores Prácticas en Materia de Asociaciones Público Privadas MÉTODO DE MONTE CARLO MÉTODO DE BOOTSTRAP HEINZ ROQUE MÉXICO DF, MÉXICO, OCTUBRE, 2013 ÍNDICE

Más detalles

Taller Minería de datos aplicados a la educación

Taller Minería de datos aplicados a la educación Taller Minería de datos aplicados a la educación 2ª parte Presentación del software PASW Modeler 27 de junio de 2011 Mercedes Torrado Departamento Métodos de Investigación y Diagnóstico en Educación (MIDE)

Más detalles

Pruebas de Software. Escuela de Ingeniería de Sistemas y Computación Desarrollo de Software II Agosto Diciembre 2008

Pruebas de Software. Escuela de Ingeniería de Sistemas y Computación Desarrollo de Software II Agosto Diciembre 2008 Pruebas de Software Objetivos de las Pruebas Demostrar al desarrollador y al cliente que el software satisface los requerimientos. Descubrir defectos en el software en que el comportamiento de éste es

Más detalles

DISEÑO DE EXPERIMENTOS INTRODUCCIÓN

DISEÑO DE EXPERIMENTOS INTRODUCCIÓN DISEÑO DE EXPERIMENTOS INTRODUCCIÓN QUE SON LOS DISEÑOS DE EXPERIMENTOS? El diseño de experimentos consiste en la preparación de una prueba o una serie de pruebas donde se hacen cambios intencionales a

Más detalles

Análisis de Datos. Validación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Validación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores Análisis de Datos Validación de clasificadores Profesor: Dr. Wilfrido Gómez Flores 1 Introducción La mayoría de los clasificadores que se han visto requieren de uno o más parámetros definidos libremente,

Más detalles

Array Development. Array Development Plan de Pruebas de Aceptación Versión 1.0

Array Development. Array Development Plan de Pruebas de Aceptación Versión 1.0 Array Development Array Development Versión 1.0 Array Development Versión 1.0 Historia de Revisión Fecha Versión Descripción Autor 27/06/2007 1.0 Versión Final Array Development Pág. 2 de 15 Array Development

Más detalles

Clustering. Departamento de Ingeniería Informática y de Sistemas Universidad de La Laguna

Clustering. Departamento de Ingeniería Informática y de Sistemas Universidad de La Laguna Clustering Christopher Expósito Izquierdo Airam Expósito Márquez Israel López Plata Belén Melián Batista J. Marcos Moreno Vega {cexposit, aexposim, ilopezpl, mbmelian, jmmoreno}@ull.edu.es Departamento

Más detalles

1.-DATOS DE LA ASIGNATURA

1.-DATOS DE LA ASIGNATURA 1.-DATOS DE LA ASIGNATURA Nombre de la asignatura: Minería de Datos Carrera: Ingeniería en Sistemas Computacionales Clave de la asignatura: ADM-0701 Horas teoría-horas práctica-créditos: 3-2-8 2.-HISTORIA

Más detalles

ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA

ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA ANALISIS DE CLUSTER EN SPSS Opción: Analizar Clasificar ANALISIS DE CLUSTER EN SPSS Tres posibles OPCIONES 1.- Cluster en dos etapas 2.- K-means 3.- Jerárquicos

Más detalles

Métodos Cuantitativos

Métodos Cuantitativos Presenta: Olán Inferencia estadística Parámetros y estadísticos Una población o universo es una colección o totalidad de posibles individuos, objetos o medidas de interés sobre lo que se hace un estudio.

Más detalles

Modelos de Churn Bancarios con R Trabajo Final de la Maestría en Data Mining

Modelos de Churn Bancarios con R Trabajo Final de la Maestría en Data Mining Modelos de Churn Bancarios con R Trabajo Final de la Maestría en Data Mining Presentado por Diego Ariel Oppenheim Director Martin Volpacchio Fecha: 31/7/2017 Objetivos del trabajo final Entender la situación

Más detalles

Aprendizaje Automático

Aprendizaje Automático id3 id3 como búsqueda Cuestiones Adicionales Regresión Lineal. Árboles y Reglas de Regresión Ingeniería Informática Fernando Fernández Rebollo y Daniel Borrajo Millán Grupo de Planificación y Aprendizaje

Más detalles

Introducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada

Introducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada Clustering Clasificación no supervisada Javier G. Sogo 10 de marzo de 2015 1 Introducción 2 Clustering jerárquico 3 Clustering particional 4 Clustering probabilista 5 Conclusiones Introducción Objetivos

Más detalles

INTELIGENCIA DE NEGOCIO

INTELIGENCIA DE NEGOCIO INTELIGENCIA DE NEGOCIO 2016-2017 Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Minería de Datos. Ciencia de Datos Tema 3. Modelos de Predicción: Clasificación, regresión y series temporales

Más detalles

Prefacio... xvii. 1 La imaginación estadística... 1

Prefacio... xvii. 1 La imaginación estadística... 1 ÍNDICE Prefacio... xvii 1 La imaginación estadística... 1 Introducción... 1 Pensamiento proporcional... 3 La imaginación estadística... 8 Enlace de la imaginación estadística con la imaginación sociológica...

Más detalles

Fase de Pruebas Introducción.

Fase de Pruebas Introducción. Fase de Pruebas Introducción. El desarrollo de sistemas de software implica una serie de actividades de producción en las que las posibilidades de que aparezca el fallo humano son enormes. Los errores

Más detalles

ARBOLES DE DECISION. Miguel Cárdenas-Montes. 1 Introducción. Objetivos: Entender como funcionan los algoritmos basados en árboles de decisión.

ARBOLES DE DECISION. Miguel Cárdenas-Montes. 1 Introducción. Objetivos: Entender como funcionan los algoritmos basados en árboles de decisión. ARBOLES DE DECISION Miguel Cárdenas-Montes Los árboles de decisión son estructuras lógicas con amplia utilización en la toma de decisión, la predicción y la minería de datos. Objetivos: Entender como funcionan

Más detalles

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016 ANEXO ESTADÍSTICO 1 : COEFICIENTES DE VARIACIÓN Y ERROR ASOCIADO AL ESTIMADOR ENCUESTA NACIONAL DE EMPLEO (ENE) INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 9 de Abril de 016 1 Este anexo estadístico es una

Más detalles

Nombre de la Asignatura ESTADISTICA GENERAL INFORMACIÓN GENERAL Escuela. Departamento Unidad de Estudios Básicos

Nombre de la Asignatura ESTADISTICA GENERAL INFORMACIÓN GENERAL Escuela. Departamento Unidad de Estudios Básicos Código 0082023 UNIVERSIDAD DE ORIENTE ESTADISTICA GENERAL INFORMACIÓN GENERAL Escuela Departamento Unidad de Estudios Básicos Ciencias Horas Semanales 05 Horas Teóricas 02 Pre-requisitos Matemática I (0081714)

Más detalles

ANÁLISIS DE DATOS. Jesús García Herrero

ANÁLISIS DE DATOS. Jesús García Herrero ANÁLISIS DE DATOS Jesús García Herrero ANALISIS DE DATOS EJERCICIOS Una empresa de seguros de automóviles quiere utilizar los datos sobre sus clientes para obtener reglas útiles que permita clasificar

Más detalles

INFORME TAREA N 4 CLUSTERING

INFORME TAREA N 4 CLUSTERING Universidad de Chile Facultad de Ciencias Físicas y Matemáticas Departamento de Ingeniería Eléctrica EL4106 Inteligencia Computacional INFORME TAREA N 4 CLUSTERING Nombre Alumno : Profesor : Profesor Auxiliar

Más detalles

MATRIZ DE ARBOLES DE DECISION

MATRIZ DE ARBOLES DE DECISION MATRIZ DE ARBOLES DE DECISION Los árboles son un subconjunto importante de los grafos, y son una herramienta útil para describir estructuras que presentan algún tipo de jerarquía. Las dificultades de las

Más detalles

EVALUACIÓN EN APRENDIZAJE. Eduardo Morales y Jesús González

EVALUACIÓN EN APRENDIZAJE. Eduardo Morales y Jesús González EVALUACIÓN EN APRENDIZAJE Eduardo Morales y Jesús González Significancia Estadística 2 En estadística, se dice que un resultado es estadísticamente significante, cuando no es posible que se presente por

Más detalles

SCAN WHITE PAPER CONSIDERACIONES BÁSICAS EN LA SUPERVISIÓN Y CONTROL DE PROCESOS INDUSTRIALES

SCAN WHITE PAPER CONSIDERACIONES BÁSICAS EN LA SUPERVISIÓN Y CONTROL DE PROCESOS INDUSTRIALES SCAN WHITE PAPER CONSIDERACIONES BÁSICAS EN LA SUPERVISIÓN Y CONTROL DE PROCESOS INDUSTRIALES Septiembre, 2001 PARTE I 1. INTRODUCCION En el competitivo mercado de hoy, el éxito de cualquier negocio depende

Más detalles

ANX-PR/CL/ GUÍA DE APRENDIZAJE

ANX-PR/CL/ GUÍA DE APRENDIZAJE PROCESO DE COORDINACIÓN DE LAS ENSEÑANZAS PR/CL/001 ASIGNATURA 615000365 - PLAN DE ESTUDIOS 61SI - CURSO ACADÉMICO Y SEMESTRE 2017/18 - Segundo semestre Índice Guía de Aprendizaje 1. Datos descriptivos...1

Más detalles

Minería de Datos. Índice. Raquel M. Crespo García. Julio Villena Román. Definición y conceptos Técnicas y modelos

Minería de Datos. Índice. Raquel M. Crespo García. Julio Villena Román. Definición y conceptos Técnicas y modelos Inteligencia en Redes de Comunicaciones Minería de Datos Raquel M. Crespo García Julio Villena Román {rcrespo, jvillena}@it.uc3m.es Índice Definición y conceptos Técnicas y modelos IRC - JVR, RCG - 1 1

Más detalles

Aprendizaje Automatizado. Árboles de Clasificación

Aprendizaje Automatizado. Árboles de Clasificación Aprendizaje Automatizado Árboles de Clasificación Árboles de Clasificación Estudiaremos un algoritmo para la creación del árbol. Selección de atributos comenzando en el nodo raíz. Proceso recursivo. Árboles

Más detalles

White paper Un método para hacer corresponder entre candidatos y un puesto de trabajo Posiciones basadas en un modelado predictivo Presentado por:

White paper Un método para hacer corresponder entre candidatos y un puesto de trabajo Posiciones basadas en un modelado predictivo Presentado por: White paper Un método para hacer corresponder entre candidatos y un puesto de trabajo Posiciones basadas en un modelado predictivo Presentado por: Introducción Si pregunta a dos directores de recursos

Más detalles

Planeación experimental

Planeación experimental Planeación experimental Diseño de Experimentos Diseño de Experimentos Ventajas Identifica uno o más factores influyen dentro de la variable de respuesta. Permite establecer la combinación adecuada de tratamientos

Más detalles

Para llevar a cabo una simulación, se requiere implementar las siguientes etapas:

Para llevar a cabo una simulación, se requiere implementar las siguientes etapas: SIMULACIÓN: La simulación se define como una técnica numérica utilizada para representar un proceso o fenómeno mediante otro más simple que permite analizar sus características. Esta técnica emplea relaciones

Más detalles

INDICE. Prólogo a la Segunda Edición

INDICE. Prólogo a la Segunda Edición INDICE Prólogo a la Segunda Edición XV Prefacio XVI Capitulo 1. Análisis de datos de Negocios 1 1.1. Definición de estadística de negocios 1 1.2. Estadística descriptiva r inferencia estadística 1 1.3.

Más detalles

ANÁLISIS DE SISTEMAS. Prof. Eliz Mora

ANÁLISIS DE SISTEMAS. Prof. Eliz Mora ANÁLISIS DE SISTEMAS Prof. Eliz Mora Programa Fundamentos del Análisis de Sistemas Estilos Organizacionales y su impacto en los Sistemas de Información Rol del Analista de Sistema Determinación de Factibilidad

Más detalles

xn, y a su vez existen variables que no son determinadas o incontrolables z1, z2 zn.

xn, y a su vez existen variables que no son determinadas o incontrolables z1, z2 zn. CAPÍTULO 4 CONSIDERACIONES PARA EL DISEÑO DE EXPERIMENTOS Todos los investigadores realizan experimentos en todos los campos del saber con el objetivo de descubrir algo acerca de un proceso. Un experimento

Más detalles

NEWTON TREES. Árboles de Estimación Estocástica de Probabilidades:

NEWTON TREES. Árboles de Estimación Estocástica de Probabilidades: Tesis de Máster en Ingeniería del Software, Métodos Formales y Sistemas de Información Árboles de Estimación Estocástica de Probabilidades: NEWTON TREES Autor: Fernando Martínez Plumed 1 Directores: Cèsar

Más detalles

Inteligencia de Negocio

Inteligencia de Negocio UNIVERSIDAD DE GRANADA E.T.S. de Ingenierías Informática y de Telecomunicación Departamento de Ciencias de la Computación e Inteligencia Artificial Inteligencia de Negocio Guión de Prácticas Práctica 3:

Más detalles

La Identificación de Stakeholders en la Ingeniería de Requisitos

La Identificación de Stakeholders en la Ingeniería de Requisitos La Identificación de Stakeholders en la Ingeniería de Requisitos Trabajo de investigación tutelado. Doctorando: Carla Leninca Pacheco Agüero. Tutor: Dr. Edmundo Tovar Caro. S I N T E S I S La primera medida

Más detalles