D A N I E L A U G U S T O S O A L N O O V I E D O

Documentos relacionados
PROPUESTA PARA TRABAJO DE GRADO

1.-DATOS DE LA ASIGNATURA

Módulo Minería de Datos Diplomado. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

TÓPICOS SELECTOS DE OTROS CURSOS

BENEMÉRITA UNIVERSIDAD AUTÓNOMA DE PUEBLA FACULTAD CIENCIAS DE LA COMPUTACIÓN

GUÍA DOCENTE Minería de Datos

Programa Educativo (PE): Ingeniería en Ciencias de la Computación. Área: Tecnología. Programa de Asignatura: Minería de Datos.

Universidad Autónoma del Estado de México. La minería de datos en el proceso de KDD ( Knowledge Discovery and Data Mining)

Programa Educativo (PE): Licenciatura en Ciencias de la Computación. Área: Tecnología. Programa de Asignatura: Minería de Datos.

Manual de Instalación

Minería de Datos aplicada a la Detección de factores para la prevención de incidentes informáticos.

ANX-PR/CL/ GUÍA DE APRENDIZAJE

Aprendizaje Automático

CARTA DE AUTORIZACIÓN DE LOS AUTORES. (Licencia de uso)

GUÍA DE APRENDIZAJE ASIGNATURA SISTEMAS BASADOS EN APRENDIZAJE AUTOMATICO. CURSO ACADÉMICO - SEMESTRE Primer semestre

TÉCNICO SUPERIOR UNIVERSITARIO EN ADMINISTRACIÓN ÁREA FORMULACIÓN Y EVALUACIÓN DE PROYECTOS EN COMPETENCIAS PROFESIONALES

ANX-PR/CL/ GUÍA DE APRENDIZAJE. ASIGNATURA Data warehousing y data mining. CURSO ACADÉMICO - SEMESTRE Segundo semestre

Minería de datos (Presentación del curso)

GUÍA DOCENTE. Ingeniería Informática en Sistemas de Información. Ingeniería del Software, Sistemas de Información y Sistemas Inteligentes

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS MAESTRÍA EN CIENCIAS DE LA INFORMACIÓN Y LAS COMUNICACIONES MINERÍA DE DATOS

FACULTAD DE INGENIERÍA. Ingeniería Industrial y Comercial

Guía docente de la asignatura

ANX-PR/CL/ GUÍA DE APRENDIZAJE

INGENIERÍA EN PROCESOS BIOALIMENTARIOS EN COMPETENCIAS PROFESIONALES ASIGNATURA DE DISEÑO DE EXPERIMENTOS

Analizando patrones de datos

Aseguramiento de la calidad y pruebas de software

INGENIERÍA INDUSTRIAL

PROPUESTA DE MINOR CIENCIA DE LOS DATOS. DATA SCIENCE Resultados de Aprendizaje del Minor

Ejemplo aplicación Guía

Programa(s) Educativo(s): Clave de la materia: Semestre:

TÉCNICO SUPERIOR UNIVERSITARIO EN ENERGÍAS RENOVABLES ÁREA ENERGÍA SOLAR EN COMPETENCIAS PROFESIONALES ASIGNATURA DE FORMULACIÓN DE PROYECTOS

UNIVERSIDAD ABIERTA PARA ADULTOS UAPA LICENCIATURA EN EDUCACIÓN BÁSICA PROGRAMA DE LA ASIGNATURA METODOLOGÍA DE LA INVESTIGACIÓN II

INGENIERÍA EN ENERGÍAS RENOVABLES EN COMPETENCIAS PROFESIONALES ASIGNATURA DE MATEMÁTICAS PARA INGENIERÍA II

DIPLOMADO EN DATA MINING

INGENIERÍA EN DESARROLLO E INNOVACIÓN EMPRESARIAL

PROGRAMA DE CURSO. Código Nombre INTRODUCCIÓN A LA MINERÍA DE DATOS Nombre en Inglés Introduction to Data Mining Unidades

INGENIERÍA EN AGRICULTURA SUSTENTABLE Y PROTEGIDA EN COMPETENCIAS PROFESIONALES ASIGNATURA DE MATEMÁTICAS PARA INGENIERÍA II

Aux 1. Introducción a la Minería de Datos

PROYECTO: Plataforma inalámbrica para alertar a los conductores de emergencias vehiculares

PROYECTO: Plataforma inalámbrica para impulsar la competitividad en zonas urbanas y rurales

MAESTRÍA EN INGENIERÍA DE SOFTWARE TERCERA PROMOCIÓN

PROYECTO DOCENTE ASIGNATURA: "Aprendizaje Automático"

INVESTIGACION CONSTRUCCIÓN DE MODELOS MATEMÁTICOS PARA DETERMINAR EL NIVEL DE DESERCIÓN EN LOS PROGRAMAS DE PREGRADO DE LA UNIVERSIDAD MARIANA.

METODOLOGÍA DE LA INVESTIGACION Prácticas:

RESUMEN ANALÍTICO EN EDUCACIÓN - RAE - FACULTAD DE INGENIERÍA PROGRAMA DE INGENIERÍA CIVIL BOGOTÁ D.C.

TÓPICOS AVANZADOS DE BASES DE DATOS

Nombre de la Unidad de Aprendizaje. Seminario de solución de problemas de Inteligencia Artificial II

Inteligencia Artificial II

Diplomado Análisis de negocio, preparación para Certificación

Carrera: AQC

INGENIERÍA MECATRÓNICA EN COMPETENCIAS PROFESIONALES

LOGO Investigación Científica

POLÍTICAS DE PRIVACIDAD DE BASE DE DATOS AGERAUDIT S.A

FACULTAD DE INGENIERÍA

INVESTIGACIÓN DE MERCADOS

UNIVERSIDAD ABIERTA PARA ADULTOS UAPA CARRERA LICENCIATURA EN LENGUAS MODERNAS PROGRAMA DE LA ASIGNATURA METODOLOGÍA DE LA INVESTIGACIÓN II

TÉCNICO SUPERIOR UNIVERSITARIO EN ENERGÍAS RENOVABLES ÁREA CALIDAD Y AHORRO DE ENERGÍA EN COMPETENCIAS PROFESIONALES

SECUENCIA DIDÁCTICA. Módulo III Competencia de Módulo:

SERVICIO NACIONAL DE APRENDIZAJE SENA SISTEMA INTEGRADO DE GESTIÓN Procedimiento Ejecución de la Formación Profesional Integral GUÍA DE APRENDIZAJE

INSTITUTO POLITÉCNICO NACIONAL SECRETARÍA ACADÉMICA DIRECCIÓN DE EDUCACIÓN SUPERIOR PROGRAMA SINTÉTICO

TÉCNICO SUPERIOR UNIVERSITARIO EN OPERACIONES COMERCIALES INTERNACIONALES

CARACTERIZACIÓN DEL PROCESO Laboratorio clínico

TÉCNICO SUPERIOR UNIVERSITARIO EN QUÍMICA

QUE ES UN PROYECTO. FASES DE UN PROYECTO 1. Evaluación inicial: 2. Planificación: 3. Puesta en marcha del proyecto: 4.

UNIVERSIDAD LIBRE SECCIONAL PEREIRA

Aprendizaje Automatizado

I. DATOS DE IDENTIFICACIÓN INGENIERÍA EN ELECTRÓNICA. 7. Etapa de formación a la que pertenece: Optativa Disciplinaria

MICROCURRÍCULO(SYLLABUS)

RESUMEN ANALÍTICO EN EDUCACIÓN - RAE - FACULTAD DE INGIENERIA CIVIL PROGRAMA DE INGIENERIA ESPECIALIZACIÓN EN GERENCIA DE OBRAS BOGOTÁ D.C.

Plantilla Documento de casos de prueba

INC SATCA: Carrera: La aportación que esta asignatura le da al perfil profesional es la siguiente:

RESUMEN ANALÍTICO EN EDUCACIÓN - RAE FACULTAD DE INGENIERIA PROGRAMA DE INGENIERIA INDUSTRIAL PREGRADO EN INGENIERIA INDUSTRIAL BOGOTÁ D.C.

TÉCNICO SUPERIOR UNIVERSITARIO EN ADMINISTRACIÓN ÁREA FORMULACIÓN Y EVALUACIÓN DE PROYECTOS EN COMPETENCIAS PROFESIONALES ASIGNATURA DE INTEGRADORA I

Sistemas de Información para Negocios

Realizado por: Ing. Amelia Vásquez

Introducción a los sistemas Multiclasificadores. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

Agenda. Problemática. Pregunta generadora. Objetivo general y objetivos específicos. Desarrollo del trabajo de grado. Conclusiones.

Plantilla SVVP (Software Verification & Validation Plan) Trabajo de grado Ingeniería de Sistemas Pontificia Universidad

Programa Internacional. Programa Certificado en. Big Data

Esta metodología es reconocida en todo el mundo como una eficaz herramienta de gestión empresarial en una triple dimensión:

MEF-1807 SATCA 1 : ( ) Carrera:

Perfil Profesional en formato de la SETEC

Asignaturas antecedentes y subsecuentes

TÉCNICO SUPERIOR UNIVERSITARIO EN TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIÓN

RECUPERACIONES. Importante: Para realizar este proceso se recomienda realizar previa copia de seguridad de los directorios de las empresas instaladas.

Carrera: FOT Participantes Representante de las academias de Ingeniería Forestal de Institutos Tecnológicos. Academias Ingeniería Forestal

Instituto Tecnológico Superior De Acatlán de Osorio. Portafolio de evidencias

UNIVERSIDAD LIBRE SECCIONAL PEREIRA

FACULTAD DE INGENIERÍA Y ARQUITECTURA ESCUELA PROFESIONAL DE INGENIERÍA CIVIL

CAPITULO V CONCLUSIONES Y RECOMENDACIONES. Índice Verificación de hipótesis Conclusiones Recomendaciones.

Sesión No. 1. Contextualización. Nombre: Pedagogía PEDAGOGÍA

Transcripción:

APLICACIÓN DE MINERÍA DE DATOS PARA LA IDENTIFICACIÓN DE PATRONES DE COMPORTAMIENTO EN LAS ORGANIZACIONES ENFOCADO EN PRÁCTICAS DE IMPRESIÓN: CASO DE ESTUDIO 1 D A N I E L A U G U S T O S O A L N O O V I E D O

AGENDA Presentación Introducción Objetivos del proyecto Cómo se cumplieron los Objetivos: Metodología? Desarrollo del Trabajo de Grado Resultados y Reflexión Conclusiones y Trabajos Finales Bibliografía 2

PRESENTACIÓN Universidad: Pontificia Universidad Javeriana Facultad: Ingeniería de Sistemas Título: Aplicación de Minería de Datos para la Identificación de Patrones de comportamiento en las organizaciones enfocado en Prácticas de Impresión: Caso de Estudio Autor: Daniel Augusto Solano Oviedo Modalidad: Aplicación Práctica Grupo de Investigación: ISTAR - Sistemas de Información e Ingeniería de Software Código: CIS1310IS02 Director: Álvaro Fernando Quintero González Jurados del Trabajo de Grado: Blanca Elvira Oviedo Torres Julio Ernesto Carreño Vargas Página web del Trabajo de Grado: http://pegasus.javeriana.edu.co/~cis1310is02 3

INTRODUCCIÓN Oportunidad, Problemática, Antecedentes Consumos excesivo de Recursos Grandes y Medianas Empresas Pérdidas Económicas Contaminación Ambiental 4

INTRODUCCIÓN Formulación del problema Es posible mejorar el consumo de recursos relacionados a prácticas de impresión, identificando conductas o patrones de comportamiento en las organizaciones a través de estudios de minería de datos? 5

INTRODUCCIÓN Justificación 6

OBJETIVOS Objetivo General Realizar un estudio de minería de datos con el fin de identificar si existen o no patrones de consumo relacionados con prácticas de impresión dentro de medianas y grandes empresas. 7

OBJETIVOS Objetivos Específicos Estudiar y analizar cuál es la naturaleza del negocio, cuál es la situación actual y qué se desea solucionar con la presente investigación. Realizar el proceso de abstracción, recopilación y familiarización de datos. Realizar actividades que filtren y organicen los datos relevantes para la investigación. Seleccionar una o varias técnicas de modelado para el estudio de minería de datos. Evaluar y verificar que el modelo construido para el análisis de los datos sea el indicado. Organizar y presentar los resultados obtenidos a partir del estudio de minería de datos realizado. 8

CÓMO SE CUMPLIERON LOS OBJETIVOS? La metodología CRISP-DM. [1] Fase 1 Entendimiento del Negocio Determinar los objetivos del negocio Evaluar la situación Elaborar el plan del proyecto Fase 2 Entendimiento de los Datos Recopilar los Datos iníciales Descripción de los Datos Revisar los Datos Verificar la calidad de datos Fase 3 Preparación de los datos Seleccionar los Datos Limpieza de los datos Construcción de los datos Aplicar formatos a los datos Fase 4 Modelamiento Seleccionar la técnica de modelamiento Construcción del modelo de pruebas Implementación del modelo Evaluación del modelo Fase 5 Evaluación Evaluación de los resultados Revisión del proceso Determinar los próximos pasos Fase 6 Transferencia Plan de transferencia Producción del reporte final. Revisión del Proyecto 9

DESARROLLO DEL TRABAJO DE GRADO 10

FASE 1 ENTENDIMIENTO DEL NEGOCIO Entendimiento de los objetivos del proyecto. Se verifica cuáles son los requisitos desde la perspectiva del negocio y de ese modo poder plantear cuál sería la posible solución o hipótesis desde el campo de la minería de datos. [2] Determinar los Objetivos del Negocio Evaluar la Situación Elaborar el Plan del Proyecto 11

FASE 1 ENTENDIMIENTO DEL NEGOCIO Determinar los objetivos del negocio Evaluar la situación Elaborar el plan del proyecto Determinar cuál es el problema que queremos resolver. Situación actual desde el punto de vista del negocio. Realización de una plan de trabajo. Por qué usamos minería de datos para este propósito? Situación actual desde el punto de vista de la minería de datos. Cuáles son los criterios de éxito? 12

FASE 2 ENTENDIMIENTO DE LOS DATOS Recopilación de datos y la familiarización de los mismos. Este es el primer acercamiento a los datos, se revisó con detenimiento la calidad en la información, [2] vale la pena resaltar que la herramienta utilizada para este procedimiento es la de MegaTrack. Recopilación los Datos Iníciales Descripción de los Datos Revisión los Datos Verificación la Calidad de Datos 13

FASE 2 ENTENDIMIENTO DE LOS DATOS TABLA DE HECHOS MODELO DIMENSIONAL 14

INCONVENIENTES PARA EL PROYECTO Ley de Protección de datos La ley estatutaria 1581 de 2012, por la cual se dictan disposiciones generales para la protección de datos personales y el objeto de la ley es el siguiente: La presente ley tiene por objeto desarrollar el derecho constitucional que tienen todas las personas a conocer, actualizar y rectificar las informaciones que se hayan recogido sobre ellas en bases de datos o archivos, y los demás derechos, libertades y garantías constitucionales a que se refiere el artículo 15 de la Constitución Política; así como el derecho a la información consagrado en el artículo 20 de la misma [3] 15

FASE 3 PREPARACIÓN DE LOS DATOS Se realizan todas las actividades que filtren y organicen los datos relevantes para la investigación. Estas actividades probablemente se repitan varias veces hasta obtener los mejores datos. [2] Selección de los Datos Limpieza de los Datos Construcción de los Datos Aplicación Formatos a los Datos 16

FASE 3 PREPARACIÓN DE LOS DATOS Selección de los Datos Construcción de los Datos SELECCIÓN IMPRESORA DATOS NO RELEVANTES FECHA Limpieza de los Datos Construcción de los Datos 17

FASE 3 PREPARACIÓN DE LOS DATOS Aplicar formatos a los datos 18

FASE 4 MODELAMIENTO Esta fase de modelamiento es una de las más importantes y fundamentales en la investigación, ya que es en este punto donde se selecciona una o varias técnicas de modelamiento para el estudio de minería de datos. [2] Selección de la Técnica de Modelado Construcción del Modelo de Pruebas Implementación del Modelo Evaluación del Modelo 19

FASE 4 MODELAMIENTO Qué queremos? 1. Determinar si es posible reducir el consumo de impresión en una compañía mejorando la utilización del servicio. 2. Identificar como los empleados de una compañía utiliza el servicio de impresión. 3. Determinar que es una buena práctica de impresión. 4. Determinar que es una mala práctica de impresión. 5. Definir que usuarios deben tener acceso al servicio de impresión. 6. Determinar en qué casos se debe realizar una impresión en Color y en qué caso se debe realizar en Blanco y Negro. 7. Determinar si debe existir un límite de páginas impresas al mes por centro de costos. 8. Definir si todos los centros de costos deben tener límite de páginas impresas por mes. 9. Determinar si debe existir un límite de páginas impresas al mes por usuario. 10. Definir si todos los usuarios deben tener un límite de páginas por mes. 20

FASE 4 MODELAMIENTO Parámetros de impresión Cantidad de páginas color Cantidad de páginas blanco/negro Modo simple Modo dúplex Precio total Tamaño documento Modo económico Modo full color Tipo papel Media: tamaño del papel Pixeles negros Pixeles amarillos Pixeles magenta 21

FASE 4 MODELAMIENTO Escenario 1 Identificar patrones de comportamiento desconocidos. Para esto utilizaremos todos los datos mencionados anteriormente y aplicaremos técnicas no dirigidas o no supervisadas. Identificar y validar Patrones desconocidos Técnicas no dirigidas Detección automática de clúster 22

FASE 4 MODELAMIENTO Escenario 2 Para este escenario surgen dos cuestionamientos fundamentales, cuando una impresión es buena y cuando es mala. La segunda es a qué perfiles de usuarios se les debe asignar el servicio de impresión. Identificar y validar Cuestionamientos establecidos Técnicas dirigidas Árboles de decisión 23

FASE 4 MODELAMIENTO WEKA Herramienta Minería de Datos 24

FASE 5 EVALUACIÓN Se realiza la evaluación del modelo construido para posteriormente realizar el análisis de los datos de la mejor manera. Es importante hacer esta evaluación antes de pasar a las conclusiones de los resultados obtenidos a partir del presente modelo. Al finalizar esta etapa se debe tener la certeza que los objetivos de negocio fueron alcanzados. [2] Evaluación de los Resultados Revisión del Proceso Determinación Próximos Pasos 25

FASE 5 EVALUACIÓN Según los resultados anteriores podemos identificar que en las dos primeras iteraciones los atributos que están en todas las reglas son tipo de papel, tamaño de papel y si el dia es festivo o no. La razón de estos resultados es que el porcentaje de repetición de valores es muy alto, más del 90%. Lo que ocasionó que no se encuentre ninguna relación relevante para la investigación. Podemos ver que los datos no son constantes, los registros están distribuidos de manera no uniforme por lo que los resultados en diferentes clúster pueden ser totalmente diferentes. 26

FASE 5 EVALUACIÓN Podemos identificar un incremento en las prácticas de impresión en los últimos días del mes, con un gran porcentaje de actividad en las horas de la mañana, los picos más altos de impresión son por parte del departamento de finanzas según la información extraída en las diferentes iteraciones del clúster. El 97% de la impresiones que se realizan son en modo full color, en los estándares de papel establecidas por la compañía; lo que podemos deducir de esta información es que no existe una cultura por el ahorro y reciclaje. 27

FASE 6 TRANSFERENCIA Esta etapa final consiste en la organización y presentación de los resultados obtenidos a partir del estudio de minería de datos realizado de forma que el cliente pueda utilizarlos de la mejor manera posible. Es importante interpretar y analizar los datos que arroja la investigación para determinar si la hipótesis planteada en un inicio se cumple o si por el contrario después del estudio no se llega a una conclusión exitosa. [2] Plan de Transferencia Producción del Reporte Final Revisión del Proyecto 28

FASE 6 TRANSFERENCIA Plan de transferencia Respuesta a los cuestionamientos. Qué queremos? Producción del Reporte Final REVISIÓN DEL PROYECTO 29

RESULTADOS Y REFLEXIÓN La limitación en la recolección y manipulación de los datos relacionados con la información personal de los usuarios perjudicó el desarrollo del estudio de minería de datos. Lo anterior, considerando que la mayor cantidad de información que podría ser relevante para el estudio provenía de esos datos. Se puede determinar después de la revisión de los datos que en la gran mayoría de éstos, sus valores se repetían constantemente lo que no permitía un correcto desarrollo para el estudio. Después de realizar el análisis de resultados se evidenció que no se identificaron patrones ocultos de conducta relacionados a prácticas de impresión. Los resultados extraídos y posteriormente analizados son evidentes y predecibles tanto para la empresa que administra el software de impresión como para la empresa misma. 30

CONCLUSIONES Se encontró una gran oportunidad de negocio por la problemática planteada. Se cumplió con el objetivo del trabajo de grado, aportar una solución a la problemática planteada. Fue de gran importancia para la investigación la fase de recolección, análisis y preparación de los datos. Excelente toma de decisiones respecto a las técnicas y herramientas de minería de datos. Es muy satisfactorio como ingeniero Javeriano poder contribuir con el mejoramiento de la calidad de vida de las personas. 31

TRABAJOS FUTUROS La continuación con este estudio de minería de datos, solucionando el inconveniente de la limitación de los datos correspondientes a los usuarios, seguramente se podrán identificar muchas situaciones y casos que no podemos imaginarnos. Existe una gran oportunidad para realizar una propuesta de negocio, creando un módulo adicional al software de control de impresión como MegaTrack con una aplicación de minería de datos. Plantear una propuesta de trabajo de grado que no solo incluya el estudio y la identificación de conductas, sino que vaya más allá, que pueda llegar hasta el planteamiento de soluciones por medio de un estudio como el realizado. 32

BIBLIOGRAFÍA [1] Ramón García-Martínez. Metodología CRISP-DM; 2000 [Citado 2013 Octubre 20] Disponible en: http://www.iidia.com.ar/rgm/cd-tipei/tei-2-crisp-dm-gdp-material.pdf [2] Metodología para proyectos de Minería de Datos; 2008 [Citado 2013 Octubre 20] Disponible en: http://jpgarcia.cl/2008/07/25/metodologia-para-proyectos-de-mineria-dedatos/ [3] Ley 1581 de 2012 Nivel Nacional [ Régimen Legal de Bogotá D.C.]; 2012 [Citado 2013 Octubre 3] Disponible en: http://www.alcaldiabogota.gov.co/sisjur/normas/norma1.jsp?i=49981 Ian H. Witten, Eibe Frank, Mark A. Hall. Data Mining Practical Machine Learning Tools and Techniques. 3rd ed; 2011. Mario Castillo Hernández. Toma de Decisiones en las empresas. 1ra Ed; 2008. Peter Rob, Carlos Coronel. Sistemas de Bases de datos; 5ta Ed. Michael J. A. Berry, Gordon S. Linoff. Mastering data mining the art and science of customer relationship management; 2da Ed; 2004. J. Bigus, Mc GrawHill.Data Mining with neural networks; 1996. 33