Universidad Austral de Chile

Transcripción

1 Universidad Austral de Chile Facultad de Ciencias de la Ingeniería Escuela de Ingeniería Civil en Informática CREACIÓN DE PERFILES DE DEUDORES DE CRÉDITO UNIVERSITARIO, PARA MEJORAMIENTO DE CAMPAÑAS DE COBRANZA, USANDO MINERÍA DE DATOS Tesis para optar al título de: Ingeniero Civil en Informática P : V I C I P C -P : J P M O I C I M I I D I P I : G M M G I M A S M E CAROLINA VERÓNICA LAGOS VERA VALDIVIA - CHILE 201

2

3

4

5 Agradecimientos A mi madre por su dedicación y apoyo en mi vida y carreras universitarias. A mis compañeros de EFT Group, en particular a mi Patrocinante de Tesis, Virginia Scheihing, por su disposición y apoyo en todo el proyecto de tesis. También a mi profesor Co-Patrocinante, Jorge Maturana, por el soporte en la realización de este trabajo. Al profesor Juan Pablo Salazar por sus aportes en la realización de este trabajo de título y por su orientación en los procesos importantes a lo largo de mi carrera. Además de su disposición y ayuda en que las barreras arquitectónicas sean cada vez un menor obstáculo en la carrera universitaria para quienes padecemos una discapacidad física.

6 ÍNDICE ÍNDICE.....I ÍNDICE DE TABLAS... V ÍNDICE DE FIGURAS... VIII RESUMEN... XI ABSTRACT... XII 1. INTRODUCCIÓN Antecedentes de la educación superior en chile y el crédito universitario El fondo solidario de crédito universitario (FSCU) Crédito interno UFRO o crédito institucional Crédito con garantía estatal o con aval del estado Crédito Universitario en otros países Problemática del crédito universitario Nivel Actual (trabajos o proyectos similares) Campañas en la UFRO Objetivos Objetivo General Objetivos Específicos MINERÍA DE DATOS MODELO DE PROCESOS CRISP-DM TIPOS DE PROBLEMAS DE MINERÍA DE DATOS Clasificación Modelos de respuesta Agrupamiento (clustering) I

7 4.2.1 Análisis de perfiles TÉCNICAS DE MINERÍA DE DATOS Árboles de decisión Inducción de reglas Clustering Técnicas de clustering Redes Neuronales Artificiales Reglas de asociación COMPARACIONES DE TÉCNICAS Y MODELOS Comparación de modelos de minería de datos Comparación de técnicas de minería de datos HERRAMIENTAS DE MINERÍA DE DATOS Herramientas de licencia comercial Herramientas Open Source KNIME Orange Rapid Miner Pentaho - Weka Comparación de herramientas de minería de datos DESARROLLO DEL ESTUDIO DE MINERÍA DE DATOS: CONOCIMIENTO Y PREPARACIÓN DE LOS DATOS Conocimiento de los datos Datos recolectados/extraídos Tablas o archivos de interés utilizados Historial utilizado Descripción de los datos Preparación de los datos Limpieza de datos II

8 8.3.2 Construcción de datos Integración de datos Combinación de datos Resultados obtenidos Exploración de datos. Variables a utilizar Exploración de datos. Comportamiento de pago y variables relevantes Campañas crédito fiscal y pagos Conclusiones resultados obtenidos MODELAMIENTO Selección de la técnica de modelado Suposiciones de modelado Modelos obtenidos Resultados del estudio realizado Evaluación del modelo Evaluación respecto a criterios establecidos (diseño de pruebas) Comparación de resultados de evaluación e interpretación Selección de modelos EVALUACIÓN Revisión de resultados por parte de los expertos de la UFRO CONCLUSIONES Y RECOMENDACIONES Revisión del éxito del proyecto Determinación de próximos pasos Sugerencias para trabajos futuros Proyectos futuros GLOSARIO REFERENCIAS ANEXOS Anexo 1: Resumen fases, tareas, salidas y actividades de CRISP-DM [Cri00] III

9 14.2 Anexo Anexo Anexo 4: Algoritmo básico de un árbol de clasificación Anexo 5: Listado de componentes de KNIME [Kni] Anexo 6: Componentes más relevantes de Orange Anexo 7: Características de Rapid Miner Anexo 8: Resumen de algoritmos presentes en Weka Anexo Anexo Anexo Anexo IV

10 ÍNDICE DE TABLAS Tabla... Página Tabla 1: Tipos de crédito universitario... 3 Tabla 2: Comparación tipos de modelos de minería de datos Tabla 3: Comparación de técnicas de minería de datos Tabla 4: Comparación de herramientas open source Tabla 5: Métricas de responsabilidad en crédito fiscal de acuerdo a rangos de edad de término en los estudios de los deudores Tabla 6: Métricas de responsabilidad en el crédito universitario de acuerdo a género del deudor Tabla 7: Métricas de responsabilidad en pago del crédito y región de procedencia Tabla 8: Métricas de responsabilidad sobre pago del crédito universitario de acuerdo a tipo de colegio del deudor Tabla 9: Métricas pago de crédito Universitario y situación académica del alumno Tabla 10: PGA y métricas de responsabilidad de crédito universitario Tabla 11: Métricas de pago de comportamiento de pago de crédito universitario y campaña de vencimiento de cuota año Tabla 12: Métricas de pago de comportamiento de pago de crédito universitario y campaña de Declaración de Renta año Tabla 13: Resultados campaña vencimiento de cuota 2008, considerando género del deudor Tabla 14: Resultados campaña vencimiento de cuota 2008, considerando región de origen del deudor V

11 Tabla 15: Resultados campaña vencimiento de cuota 2008, considerando rendición de PCE de Cs. sociales, por el deudor Tabla 16: Resultados campaña vencimiento de cuota 2008, considerando rendición de PCE de matemática por el deudor Tabla 17: Resultados campaña vencimiento de cuota 2008, considerando rendimiento académico en la universidad (PGA), del deudor Tabla 18: Clústeres obtenidos con K-means y EM y cuatro nodos Tabla 19: Valores de bondad para los modelos realizados Tabla 20: Resultado encuesta Tabla 21: Resumen fases, tareas, salidas y actividades de CRISP-DM [Cri00] Tabla 22: Tabla alumnos (Información personal de alumnos con crédito universitario) Tabla 23: Tabla ingresos (ingresos a carreras de la UFRO de alumnos con crédito) Tabla 24: Tabla postulaciones (postulaciones a UFRO de alumnos con crédito) Tabla 25: Tabla matriculas (datos académicos universitarios de alumnos con crédito) 104 Tabla 26: Tabla estudiossuperiores (alumnos con crédito y con estudios superiores declarados) Tabla 27: Tabla cuentacorriente Tabla 28: Tabla eft_creditos (detalles financieros de alumnos con crédito) Tabla 29: Unidades monetarias crédito universitario Tabla 30: Tabla de campañas Tabla 31: Tabla eft_carreras (carreras impartidas en la UFRO) Tabla 32: Antecedentes personales, luego de preparación Tabla 33: Antecedentes académicos Tabla 34: Cuenta corriente resumida VI

12 Tabla 35: Créditos resumidos Tabla 36: Campañas resumidas Tabla 37: Modelo de agrupamiento con 4 nodos empleando algoritmo K-means Tabla 38: Resultados obtenidos al aplicar EM con 4 nodos Tabla 39: Resultados modelo EM con 5 nodos Tabla 40: Resultado modelo K-means, con 5 nodos VII

13 ÍNDICE DE FIGURAS Figura... Página Figura 1 Criterios de asignación de créditos y becas [Kre07] Figura 2: Gráfico tasa de deserción 2006 [Cse09b]... 6 Figura 3: Gráfico tasa de deserción 2006 [Cse09b]... 7 Figura 4: Gráfico recuperaciones de créditos Anuales... 9 Figura 5: Gráfico de disponibilidad de recursos v/s la asignación de estos, por año Figura 6: Gráfico porcentaje recaudación respecto a cobranza por año Figura 7: Proceso de minería de datos dentro del proceso de descubrimiento de conocimiento Figura 8: Modelo de procesos CRISP-DM Figura 9: Árbol de decisión [Han00] Figura 10: Diagrama típico de un clúster Figura 11: Diagrama de Venn de varios clústeres Figura 12: Dendograma Figura 13: Ejemplo red Neuronal Figura 14: Captura de pantalla de KNIME Figura 15: Captura de pantalla de un workflow en orange Figura 16: Captura de pantalla de RapidMiner Figura 17: Módulos de Pentaho Figura 18: Captura de pantalla de la ventana principal de Weka VIII

14 Figura 19: Weka Explorer Figura 20: Opciones de clasificación en weka Figura 21: Opciones de Clustering en weka Figura 22: Visualizador de Weka Figura 23: Captura de pantalla de Weka KnoweldgeFlow Figura 24: Ranking de herramientas de minería de datos más populares Figura 25: Extracción de datos a estudiar de las fuentes de la UFRO Figura 26: Diagrama tablas iniciales Figura 27: Transformación de copia y limpieza de la tabla ingresos Figura 28: Proceso de extracción y preparación de datos Figura 29: Datos antes de la limpieza Figura 30: Datos luego de la limpieza Figura 31: UML tablas finales Figura 32: Género Figura 33: Regiones Figura 34: Tipo colegio Figura 35: Situación académica Figura 36: PGA de los deudores Figura 37: Carreras Figura 38: Gráfico de frecuencias de pérdida de beca Figura 39: Porcentaje créditos fiscal (universitario) y UFRO (especial) Figura 40: Porcentaje de becas y pago de arancel Figura 41: Estado de llamada (resultado obtenido luego de llamar) Figura 42: Ejecutiva que realiza las llamadas IX

15 Figura 43: Estado de llamada v/s ejecutiva que la realiza Figura 44: Campaña v/s ejecutiva que la realiza Figura 45: Año de realización de la campaña Figura 46: Archivo de configuración weka Figura 47: Conexión a base de datos con weka Figura 48: Flujo en Orange para análisis en comportamiento de pago por deudor de acuerdo a género Figura 49: Workflow para análisis de efectos de campañas en el pago del crédito Universitario (fiscal) Figura 50: Árbol generado por cobweb Figura 51: Resultado evaluación clases algoritmo EM Figura 52: Resultado evaluación clases, algoritmo K-means Figura 53: Perfiles de deudores de crédito Universitario o fiscal Figura 54: Algoritmos de aprendizaje no supervisado en weka [Wit05] Figura 55: Algoritmos de aprendizaje supervisado en weka [Wit05] X

16 RESUMEN Título: Creación de Perfiles de Deudores de Crédito Universitario, para Mejoramiento de Campañas de Cobranza, Usando Minería de datos. La recaudación de los fondos de crédito universitario es un tema que preocupa muchísimo a las universidades chilenas, pues debido al déficit que se tiene en esta materia se hace muy necesario mejorar la asignación y cobranza de estos. En este contexto se ubica la Universidad de la Frontera (UFRO), la cual producto de su gran déficit en recaudación ha iniciado una serie de mejoras en su sistema de cobranza, entre las cuales se incluyen campañas de llamados y cartas a clientes, además de la implementación de Medios de Pago electrónicos y Mejoras en la red de recaudación externa desarrollado por la empresa EFT Group. De esta forma, el objetivo del presente proyecto de título es apoyar el mejoramiento de las campañas a través de la identificación de perfiles de deudores de crédito universitario, empleando técnicas de minería de datos, con la metodología CRISP-DM. Con la implementación de un proyecto como este se logrará tener perfiles de alumnos de acuerdo a sus características académicas, socio-económicas, demográficas, entre otras, los cuales ayudarán a establecer qué campaña es más adecuada para un perfil en particular, optimizando el proceso de cobranza. Actualmente, la única alternativa que se ha encontrado, y que maneja la UFRO, es la realización de campañas intuitivas de cobranza, donde se aplican los mismos métodos a todos los deudores y no se han realizado mayores estudios sobre qué campaña puede ser ineficiente. Así, la gran ventaja del proyecto es lograr segmentar a los deudores a través de perfiles para así, en estudios e implementaciones posteriores, lograr predecir el comportamiento de los deudores y adelantarse a éste mediante un estudio formal. Los impactos económicos de este proyecto corresponden al logro de una recaudación más eficiente, con menores costos en cobranza y con mayores fondos recaudados anualmente. XI

17 ABSTRACT Title: Creation of University Credit Debtors Profiles, for fundraising campaign Improvement, using Data Mining The fundraising of university credit is a warning issue for Chilean universities, because given the deficit in this matter it is very necessary to improve the assignment and billing. Universidad de la Frontera (UFRO), situates in this context, which due to its large deficit in fundraising has started a series of improvements in its billing system, including call campaigns and letters to customers, besides the implementation of an electronic payment system the and improvement of billing network, developed by the company EFT Group. The goal of this project billing is to support the campaign improvement through the identification of debtor profiles, using data mining techniques, with CRISP-DM methodology. Through the implementation of this project we aim to the obtention of student profiles according to their academic, socio-economic, demographic, and other characteristics, that will help to determine which campaign is best suited for a particular profile, optimizing the billing process. Currently, the only alternative used by UFRO, is to do intuitive billing, applying the same methods to all debtors and there have been no major studies about the efficiency of campaigns. Thus, the main advantage of this project is to segment the debtors through profiles and, in subsequent studies and implementations, be able to predict debtor behavior and to anticipate it by a formal study. The economic impacts of this project relate to achieving more efficient incomes, with lower costs in billing and higher funds collected annually. XII

18 1. INTRODUCCIÓN En América Latina hay 3675 universidades para un colectivo cercano a los 8 millones de estudiantes. Ningún otro sector del continente tiene un número de productores tan elevado para un universo de consumidores/inversores" tan reducido [Rui]. Por su parte, el sistema de educación superior en Chile está compuesto tanto por Universidades como por institutos y centros de formación técnica. De esto, el 45 % corresponden sólo a universidades [Cse09a], las que son de especial relevancia en cuanto a sus aranceles, que son considerablemente mayores que en las demás instituciones y van en constante aumento [Ocd09]. Según la OECD 1 los aranceles de las universidades chilenas se encuentran dentro de los 30 países más caros del mundo y son lejos los más costosos, si se los compara con el ingreso per cápita nacional [Sim09]. Debido a esto, se han creado créditos universitarios, que son otorgados a los alumnos con menores recursos del país y que aspiran al derecho de una educación completa, al igual que alumnos de estratos socioeconómicos más altos. 1.1 Antecedentes de la educación superior en hile y el crédito universitario Hasta 1980, la educación superior chilena contaba con financiamiento público, pudiendo ingresar en ella todo alumno que cumpliera con los requisitos académicos, mediante el pago de una matrícula. Sin embargo, a partir de ese mismo año, los alumnos deben pagar aranceles, lo cual genera una selectividad socioeconómica importante. Esto sumado a un explosivo aumento de instituciones de educación superior, ocasionaba problemas de desigualdad, pues habiendo más oferta, los puntajes de ingreso disminuyeron, brindando acceso a la educación superior a quienes poseían los medios económicos, pero no a aquellos que no lo poseían, incluso teniendo el mismo o un superior mérito académico. Esto puso de manifiesto la necesidad de otorgar facilidades a los alumnos para poder financiar sus estudios [Cse]. Creándose en 1981 el Crédito Fiscal Universitario. El Crédito Fiscal Universitario era financiado por un aporte fiscal directo efectuado a las universidades y su cobranza correspondía al Estado. Los pagos del crédito se programaban en cuotas anuales iguales a 10 años, si la deuda era menor a 40 UTM, ó a 15 años si ésta era superior a 40 UTM [Bcn09], sin considerar situación económica. 1 OECD: Organisation for Economic Co-operation and Development (Organización para la Cooperación y el Desarrollo Económico) 1

19 En 1988, la ley reemplazó el crédito fiscal por el Crédito Universitario, el cual debía ser administrado por las propias universidades, tanto en asignación como en cobranza. Este sistema se mantuvo hasta la publicación de la ley 19287, en 1994 (continuadora de la ley 18591), donde se crearon los fondos solidarios de crédito universitario [Leo95]. Con motivo de ordenar y dar opciones a los numerosos deudores morosos existentes, se llamó a la reprogramación de los créditos antes descritos. Sin embargo no todos la realizaron, manteniéndose hasta la actualidad deudores de los distintos créditos. A continuación se revisarán los tipos de créditos universitarios vigentes actualmente El fondo solidario de crédito universitario (FSCU) El FSCU fue creado con el objetivo de que sea devuelto por los beneficiarios que estén en condiciones de hacerlo, luego de iniciar su actividad laboral, y redistribuido a nuevos estudiantes que también lo necesiten. Se introduce un sistema único de acreditación socio-económica, el cual constituiría una garantía sobre la proporción del beneficio a mantener a lo largo de la carrera, a menos que exista un cambio en dicha situación. Los requisitos y condiciones de cobranza se pueden ver en la tabla 1. Aún teniendo carácter de solidario, el no pago por una parte importante de los deudores ocasiona que las universidades no logren recaudar lo necesario, a pesar de que el Estado exige una meta menor al 100% de recaudación de fondos, para dar nuevos aportes (esta se desconoce). Para paliar esta situación se estimula a los deudores a pagar sus deudas condonando sus intereses penales o morosos. Hasta el año 2005 las universidades estuvieron encargadas de la asignación. Esto ocasionaba resultados distorsionados", pues distintas universidades asignaban distinta cantidad de crédito a personas con igual situación económica. Por esto, a partir del 2006 el gobierno es quién realiza la asignación de los créditos, la cual considera el arancel de referencia como el 100% a otorgar. Esto causa otro problema debido a que el arancel de referencia generalmente es menor al arancel real (difiriendo hasta en un 50%, considerando Universidades públicas y privadas [Coq09].), por lo que el alumno no puede optar a cubrir el total del arancel de su carrera. 2

20 Tabla 1: Tipos de crédito universitario Crédito/ Características FSCU 2 Crédito con aval del estado 3 Crédito interno (UFRO) 4 Requisitos Asignación Características cobranza 1) Ser chileno/a 2) Completar adecuadamente el Formulario de Postulación 3) Pertenecer a los cuatro primeros quintiles de ingreso socioeconómico 4) Obtener un puntaje promedio en la PSU igual o superior a 475 puntos (en pruebas de lenguaje y de matemáticas) 5) Matricularse en primer año, en alguna carrera de las Universidades del Consejo de Rectores. 6) Matricula en Medicina o Pedagogía deben estar acreditadas o en proceso de acreditación ante la CNA. 7) Preferencia para quienes hayan formado parte del sistema de ahorro para la educación superior Monto expresado en UTM, sujeto a una tasa de interés del 2% anual + IPC, el egresado lo cancela de 5% de sus ingresos Se paga hasta por 12 años, sin embargo, si la deuda excede 200 UTM el plazo es 15 años No se paga si el sueldo es menor a 7 UTM o si es menor de 8 UTM y se está casado Se paga luego de 18 meses de egresar Deuda pactada a 12 años si al inicio del pago es menor de 200 UTM, sino en 15 años Incluye seguro de desgravamen 1) Ser chileno o extranjero con residencia definitiva en el país 2) Condiciones socioeconómicas acordes. 3) Matricula en institución inscrita en el sistema de créditos con garantía estatal 4) Alumno no egresado ni titulado de una carrera universitaria financiada con FSCU y/o con este mismo crédito 5) Exigencias académicas: a. Primer año: Puntaje promedio PSU mayor o igual a 475 puntos b. Curso superior: 70% del total de créditos o cursos inscritos en los últimos dos semestres aprobados y respaldo de la Universidad en la que se estudia. La Universidad puede sumar requisitos académicos Se paga a 10, 15 o 20 años, dependiendo del monto total adeudado, con una tasa de interés cercana aproximada de 6% y con un monto expresado en UF. El alumno no está obligado a pagar nada mientras estudia y hasta 18 meses después de egresar. Se suspende hasta en un año si la cuota supera la mitad de los ingresos del alumno o si está cesante. Incluye seguro de desgravamen Es un préstamo otorgado excepcionalmente por la UFRO cuando el Fondo Solidario de Crédito Universitario no es suficiente, por lo tanto su postulación es la misma del Fondo El plazo de la devolución es de 36 hasta 168 cuotas, con un interés del 1% anual con reajustabilidad en UF La devolución se realiza después de dos años de no registrar matrícula, en cuotas fijas determinadas de acuerdo al monto de la deuda

21 Para poder ayudar a alumnos de menos recursos (tres primeros quintiles) que no pueden cubrir esta diferencia, muchas universidades crean créditos internos Crédito interno UFRO o crédito institucional En el caso de la Universidad de la Frontera, el crédito interno o crédito institucional, es un préstamo otorgado excepcionalmente por ésta cuando el FSCU no es suficiente, razón por la cual se basa en la misma postulación al crédito solidario utilizando la misma información socio-económica (formulario). Este crédito se entrega sólo a quienes tienen crédito solidario. Requisitos y condiciones de cobranza se pueden ver en la tabla Crédito con garantía estatal o con aval del estado En el año 2006 se crea el crédito con garantía estatal, el cual es un beneficio del Estado otorgado a estudiantes de probado mérito académico que necesiten apoyo financiero para iniciar o continuar sus estudios en alguna institución de educación superior que forme parte del Sistema de Crédito con Garantía Estatal. Los fondos de este crédito pertenecen a una entidad bancaria; participando como avales la universidad, mientras el deudor es estudiante (por riesgo de deserción académica) y luego el estado (Ley ). El rendimiento académico (notas de enseñanza media, puntaje promedio PSU y avance curricular de la carrera) es el criterio principal de selección de los postulantes. Posteriormente, quienes cumplen con los requisitos académicos, son organizados en estricto orden socioeconómico, priorizando a los de condiciones más precarias [Ing09]. Se puede modificar cada año, de acuerdo a la situación económica del momento de cada deudor, el monto solicitado de crédito al momento de renovar el beneficio. Requisitos y condiciones de cobranza se pueden ver en la tabla 1, mostrada anteriormente. Es importante tener en cuenta que, actualmente, en caso de no pago de la deuda anual, en cualquier tipo de crédito, esta situación es informada a Dicom y posteriormente se inicia Cobranza Judicial (por morosidad). La figura 1, que se muestra a continuación, indica qué opciones se tiene de optar a crédito o becas dependiendo del nivel socio-económico y del puntaje PSU. 4

22 Figura 1 Criterios de asignación de créditos y becas [Kre07] Crédito Universitario en otros países. La educación es crucial y determinante al trazar la trayectoria social y económica de las sociedades, por lo cual es un tema en que se han ocupado los diferentes países alrededor del mundo, asignándole distintos niveles de importancia, de acuerdo a su capacidad financiera o visión político-cultural. Encontrándose países como Argentina, Australia [Man] o Canadá [Gra09] que exigen sólo el pago de matriculas. Sin embargo, la gratuidad de la educación es un privilegio de algunos pocos países; en EEUU o la mayoría de los países de América Latina, si bien se reconoce la importancia de la educación, no se proporciona un acceso tan expedito como en los países anteriormente citados, existiendo altos aranceles y matriculas que constituyen una carga económica importante para los estudiantes y sus familias. Créditos y becas educativas han sido creados para alivianar este problema. En algunos países de Europa, conocidos por su educación superior gratuita, se está comenzando también a cobrar aranceles, a través del Proceso de Bolonia que busca, entre otras cosas, que la Universidad se encargue más de su financiamiento y el Estado pueda desligarse de esta responsabilidad [Ped08]. Debido a esto se están generando créditos para cubrir los aranceles, que aún son bajos comparándolos con los de Chile. Estados Unidos es un país interesante de revisar, por sus programas de créditos universitarios, normas y mecanismos para concientizar a los estudiantes en el pago de sus créditos. En este país el programa de crédito educativo más importante es el FFELP 5, que corresponde a una alianza/asociación entre prestatario, universidad, prestamista y gobierno, el cual actúa como garante. Los bancos y demás entidades financieras (prestamistas) otorgan los préstamos usando capital privado. Si un prestatario no paga su préstamo la entidad garante asume la responsabilidad de cobranza y reembolso 5 FFELP: Federal Family Education Loan Program (Programa Federal de Préstamos para la Educación Familiar). 5

23 correspondientes. Las universidades asumen la responsabilidad de la asignación de los préstamos y de controlar la matrícula de los estudiantes e informar a los prestamistas cuando éstos se gradúan o abandonan los estudios. Además, las universidades deben guiar a los estudiantes asesorándolos, al comienzo de su solicitud e inmediatamente antes de graduarse, para que comprendan claramente los términos y condiciones del préstamo, en especial los montos y cuotas a pagar. Al graduarse o retirarse permanentemente de la institución, el prestatario tiene seis meses antes de empezar a realizar los pagos. Posteriormente, el prestamista le da a conocer la programación de los pagos, junto con las alternativas disponibles en caso de que la cuota no le resulte manejable. Luego se pone en marcha el proceso de cobranza. En caso de no pago el prestamista acude a la agencia estatal garante. Un prestatario de un préstamo estudiantil, en EEUU, es considerado moroso cuando deja de cancelar una sola cuota de amortización. En la primera etapa de morosidad, la meta del prestamista es lograr que el prestatario aproveche las opciones de pagos flexibles y aplazamiento del préstamo [May09], por lo que se intenta animar al prestatario (por correo o teléfono) a realizar sus pagos. 1.2 Problemática del crédito universitario Al ver la realidad en Chile y en otros países, se pueden advertir grandes diferencias que en muchos casos constituyen las causas del desequilibrio al que se ha llegado en el sistema de los créditos universitarios chilenos. Estas causas son: Deserción estudiantil. Las tasas de deserción (del 2006) al término del primer año universitario, de acuerdo al CSE 6, en Chile, son de un 16% promedio en las universidades del Consejo de Rectores y 22% promedio en las universidades privadas sin Aporte Fiscal Directo, como se puede ver en la figura 2. 6 Consejo Superior de Educación. Figura 2: Gráfico tasa de deserción 2006 [Cse09b] 6

24 En ambos tipos de universidades continuaría aumentando la deserción en los años siguientes pero a menores tasas (figura 3). Las causas determinantes de esto, con 70% de coincidencia de los encuestados, son: problemas vocacionales, situación económica y rendimiento académico [Uch08]. Figura 3: Gráfico tasa de deserción 2006 [Cse09b] Debilidad del sistema financiero fiscal y desigualdad social. Según datos de la CEPAL 7, la probabilidad que tiene un individuo de los cuartiles tercero y cuarto de seguir estudiando cuando cumpla 24 años es de menos de un tercio de la probabilidad que tiene un joven que pertenece al primer cuartil. Esta desigualdad es originada porque el financiamiento descansa sobre recursos públicos en países con sistemas fiscales tan débiles y regresivos como los de América Latina [Rui]. Políticas, leyes y normas deficientes y/o escasas. Las leyes, normas y alianzas existentes no facilitan el trabajo de las entidades recaudadoras (universidades o empresas externas contratadas por éstas), como sí ocurre en otros países como Estados Unidos (según lo visto sobre el FFELP). Mejorar las políticas de asignación y cobranzas en las universidades son dos alternativas en las que se puede trabajar. Efectos del problema de la recaudación en las universidades. El déficit en recaudación de los créditos trae tanto consecuencias directas, y algo obvias, como el desequilibrio financiero ocasionado en el propio sistema de créditos por no ser sustentable económicamente, y esto afecta también a las universidades, que ven mermados sus recursos por tener que suplir con éstos los montos que no alcanzan a ser recaudados. Además se tienen consecuencias tal vez más graves socialmente hablando. Al no tener mayor holgura económica, las universidades no pueden realizar inversiones en infraestructura, en mejoramiento de la calidad de la educación e incluso deben aumentar los aranceles más allá de lo normal para poder suplir en alguna medida la deuda. Esto genera un aumento en las deudas debido a que se necesitan más recursos 7 CEPAL: Comisión económica para América Latina y el Caribe 7

25 para cubrir esos créditos de aranceles mayores. Este círculo vicioso trae consigo el problema causado por el descontento social de no recibir buena educación, pagando altos aranceles. Este descontento se traduce finalmente en protestas, tomas, paros y movilizaciones como es la costumbre en las Universidades Chilenas. Problemática La deserción y el problema económico ocasionado por las dificultades de financiamiento de las carreras universitarias son una de las causas identificadas de que la recaudación del crédito universitario sea difícil, en esto coinciden encargados del crédito de diversas universidades, en particular la UFRO. Para que estas causas no afecten en demasía la recaudación del crédito, se tiene la opción de mejorar las políticas de asignación y cobranzas de éstos. Debido a que la asignación, en su mayoría, no depende de las universidades, los mayores esfuerzos que éstas deben realizar se deben centrar en la cobranza. Problemática en la UFRO Al año 2003, la recaudación de la UFRO no alcanzaba a cubrir el 50% del dinero cobrado. La deuda total, considerando el crédito fiscal y el crédito UFRO (los que otorga la Universidad con recursos propios), ascendía a millones de pesos ( millones de deuda capital y millones de pesos en intereses penales) [Ufro03]. Debido al déficit, la Universidad de la Frontera ha implementado mejoras en su sistema de cobranza, a través de la implementación de Medios de pago electrónicos y mejoras en la red de recaudación externa realizado por EFT Group [Eft09], lo cual la ha llevado a recaudar mayor cantidad de fondos (entre el 2004 y el 2008 se recaudaron 2000 millones más, incluyendo los créditos fiscal y UFRO) [Tva09]. Junto a esto, también se han realizado campañas de cobranza, destinadas a aquellos ex alumnos que presentan atrasos en sus pagos, sin embargo a la fecha no se sabe cuál es el beneficio que han aportado estas campañas o cuáles producen los mejores resultados. En los gráficos que se muestran a continuación, se puede observar la evolución de la deuda y asignación de los créditos por año en la UFRO, tanto de los créditos fiscales (FSCU y demás créditos entregados con anterioridad por el estado) como del crédito institucional o crédito UFRO. El gráfico de la figura 4 describe cómo ha evolucionado la recuperación de los créditos, donde se puede apreciar el sostenido aumento en los retornos desde el año 2005 al

26 Figura 4: Gráfico recuperaciones de créditos Anuales Luego, el gráfico de la figura 5, indica la disponibilidad de recursos versus las colocaciones. La disponibilidad de recursos corresponde a la suma de los aportes fiscales o universitarios y las recuperaciones (pagos de cuotas de ex alumnos) por año. Mientras que las colocaciones corresponden a asignaciones del crédito que cada año se ha efectuado a los alumnos, ya sean del crédito fiscal o institucional. En este último gráfico se puede apreciar claramente que, en los primeros años considerados, los recursos disponibles eran mucho menores que los recursos asignados debido al no pago de las deudas, mientras que desde el 2005 se ve que, debido a una mayor recuperación, hay más recursos disponibles que recursos asignados, sobre todo en los años 2008 y Figura 5: Gráfico de disponibilidad de recursos v/s la asignación de estos, por año. Si bien en los gráficos anteriores se puede observar que la recaudación ha aumentado y que se cuenta con mayores recursos disponibles, el gráfico de la figura 6 muestra que el porcentaje de recuperación de los dineros de los créditos respecto a los montos cobrados 9

27 aún es bajo. Por ejemplo, en el 2008 se recaudó un 60% del dinero del crédito UFRO y crédito fiscal, respecto a los montos cobrados ese año. Figura 6: Gráfico porcentaje recaudación respecto a cobranza por año De esta forma, un estudio que mejore las campañas de cobranza, el cuál es el objetivo del presente trabajo de título, aportará al menos en: Conocer los perfiles del universo de deudores existentes, para así orientar de manera más efectiva las campañas de cobranza. Conocer el verdadero aporte de cada campaña realizada. Eliminar, mejorar o reemplazar campañas existentes. Aumentar el porcentaje de dineros recaudados, lo cual no sólo traerá beneficios financieros sino también sociales, como se explicó anteriormente. Para poder generar los perfiles de deudores de crédito universitario se emplearán técnicas de minería de datos, en particular clustering o segmentación. 1.3 Nivel Actual (trabajos o proyectos similares) Como la minería de datos es un proceso muy utilizado actualmente para la extracción de conocimiento, existen muchos trabajos similares para la creación de perfiles en especial para campañas de marketing. También se han encontrado estudios de minería de datos asociados a los créditos o prestamos educativos en Estados Unidos, los cuales son generados para realizar una asignación menos riesgosa de éstos. Otra aplicación destacada de la minería de datos que se encuentra dentro del área de la educación es la creación de perfiles de estudiantes para evaluar el rendimiento de éstos en una comunidad virtual destinada al apoyo del aprendizaje [Tal]. 10

28 A la fecha, en las fuentes y bibliografías consultadas no se han encontrado estudios de minería de datos para campañas de cobranza del crédito en Chile ni tampoco en otros países, ya que como se explicó, en otros lugares se enfocan básicamente en la asignación del crédito, pues ésta no está en manos del Estado como sucede en Chile, y además la cobranza es regulada por leyes más explícitas que las existentes en el país. En cuanto a la UFRO, ésta ha instaurado dos mejoras que la han llevado a tener mayor éxito en la recaudación, las cuales se comentaron anteriormente, éstas son: Mejoramiento de sus formas de pago, mediante la implementación de medios de pago electrónicos y mejoras en la red de recaudación externa con EFT Group, posibilitando a los deudores mayores opciones de pago y comodidad. Mejoramiento de las campañas de cobranza por medio de un contact center desde donde se han realizado llamadas a unas 7000 personas [Tva09] además del envío de cartas. En general, las campañas mediante llamados y cartas han tenido buenos resultados, los encargados han podido deducir que hay ciertas campañas que funcionaron mejor, pero no existe claridad respecto a cuáles no son necesarias o por qué unas dan más resultados que otras. Por esto la creación de perfiles de deudores para aplicarlos en las campañas sería un paso importante en esta serie de medidas que se han tomado para superar el déficit. 1.4 Campañas en la UFRO Como se mencionó, la UFRO realizó campañas de llamados para lograr con esto una mayor recaudación del crédito universitario (tanto crédito UFRO como crédito universitario o fiscal). Estas campañas de llamados fueron registradas por diferentes ejecutivos quienes indicaban si las llamadas eran contestadas, si salía buzón de voz, si el número no existía, entre otros; cada una asociada al deudor correspondiente. Destacan tres tipos de campañas importantes, que se realizaron: - Campañas de Vencimiento de cuotas: Se efectuaba a los deudores con anterioridad a que sus cuotas vencieran y así no continuaran incurriendo en deudas. - Campañas de declaración de renta: Se realizaba previamente a la fecha reglamentaria para la declaración de renta. 11

29 - Campaña de deudor que entra en cobro: Se realizaba a todos los deudores, que pasando sus 2 años de gracia, debían comenzar a pagar su deuda del crédito universitario. Cada una de estas campañas se realizaron, en los años 2007, 2008 y Objetivos Objetivo General. Diseñar e implementar un modelo de minería de datos para la creación de perfiles de deudores de crédito universitario para su posterior aplicación en campañas de cobranza efectivas en la Universidad de la Frontera Objetivos Específicos 1. Describir el marco legal y los procesos que rigen el otorgamiento y cobranza de los créditos universitarios, así como también el comportamiento de los deudores de la UFRO. 2. Identificar y describir tipos de problemas y técnicas utilizados en minería de datos que tengan aplicaciones cercanas al tema en cuestión, junto con hacer un estudio sobre herramientas relevantes para realizar minería de datos. 3. Revisar los datos disponibles para realizar el proceso de minería de datos, identificando, analizando y evaluando las fuentes de datos y su estructura, calidad y pertinencia, generando posteriormente el modelo de datos a utilizar. 4. Seleccionar y aplicar las técnicas de minería de datos más adecuadas para este estudio, junto con la herramienta escogida, analizando e interpretando, posteriormente, los modelos obtenidos. 5. Evaluar cualitativa y cuantitativamente el modelo obtenido, a través de un informe realizado para la Universidad de la Frontera y la evaluación de éste (por parte de ellos) y de los resultados del estudio, considerando mejoras futuras. 12

30 2. MINERÍA DE DATOS La minería de datos o Data mining es una etapa de extracción de conocimiento dentro de un proceso global denominado descubrimiento del conocimiento en bases de datos 8, el cual se puede apreciar en forma ilustrativa en la figura 7. Esta etapa consiste en la exploración y el análisis de grandes cantidades de datos con el propósito de descubrir relaciones útiles representadas como patrones/modelos y reglas significativas, a partir de los datos pre-procesados. Sin embargo, en muchas ocasiones se le denomina minería de datos a todo el proceso, que incluye el pre procesamiento y la evaluación de los modelos obtenidos, en lugar de la sola fase de extracción de modelos. Figura 7: Proceso de minería de datos dentro del proceso de descubrimiento de conocimiento 9 Es importante tener en cuenta que la minería de datos está ampliamente relacionada con la construcción de modelos. Un modelo es simplemente un algoritmo o conjunto de reglas que conectan una colección de entradas (frecuentemente en forma de campos) con un objetivo particular o salida. La obtención de éstos se realiza mediante el empleo de técnicas de minería de datos, como los árboles de decisión, clústeres, reglas, entre otros, las cuales se detallarán más adelante. Estas técnicas, a su vez, son implementadas mediante algoritmos, por lo que para cada técnica puede haber distintas opciones de algoritmos a utilizar. Para una mayor comprensión de la terminología usada, se sugiere consultar el glosario de términos que se encuentra al final de este documento. 8 Knowledge Discovery in Databases (KDD) 9 Extraída de: 13

31 3. MODELO DE PROCESOS CRISP-DM Para la realización de esta tesis fue escogido el modelo de procesos CRISP-DM 10 (figura 8), por lo que a continuación se detallarán sus características más importantes. 3.1 Historia CRISP-DM En 1996 precursores y expertos de empresas que utilizaban minería de datos, tales como DaimlerChrysler, SPSS y NCR concibieron el modelo de procesos estándar CRISP- DM[Cri00], por lo que el conocimiento plasmado en éste no es meramente teórico, sino que está basado en la experiencia práctica en la conducción de este tipo de proyectos. 3.2 Características Datos Figura 8: Modelo de procesos CRISP-DM CRISP-DM está definido en términos de un modelo de proceso jerárquico consistente en un conjunto de tareas descritas en cuatro niveles de abstracción, de lo general a lo específico: fase, tarea genérica, tarea especializada, e instancia de procesos. Existen seis fases que se dividen en un cierto número de tareas (tarea genérica), estas tareas a su vez se dividen en actividades (tareas especializadas) y cada actividad da origen a instancias de procesos que son dependientes del problema a generar. Por otro lado, cada tarea en CRISP-DM puede tener asociada una salida (documentación, informes, modelos, etc.). A continuación se explican las fases y tareas genéricas correspondientes, de CRISP-DM (para mayores detalles ver anexo 1): 1. Comprensión del negocio. Se deben realizar las siguientes tareas: o Comprensión de los objetivos del negocio: incluye contexto y requerimientos. o Evaluación de la situación: indagación más detallada que la anterior. o Determinación de objetivos de minería de datos. 10 CRISP-DM: Cross-Industry Standard Process for Data Mining 14

32 o Generación de plan del proyecto: incluye plan, herramientas, equipo y técnicas. 2. Comprensión de los datos. Con el objetivo de familiarizarse con los datos, considerando los objetivos del negocio, se realiza: o Recopilación inicial de datos. o Descripción de los datos: análisis de las propiedades generales de los datos. o Exploración de los datos: mediante consultas, visualización o reportes. o Verificación de la calidad de los datos. 3. Preparación de los datos. Con el fin de obtener datos coherentes con formato único y libre de errores, obteniendo la lista minable o dataset a utilizar en la fase de modelado, se realiza: o Selección de los datos: se debe decidir qué datos serán usados para el análisis. o Limpieza de datos: eliminación y/o filtrado de errores o inconsistencias. o Construcción de datos: incluye operaciones de preparación, como producción de atributos derivados, ingreso de nuevos registros o transformación de valores. o Integración de datos: combinación de múltiples tablas o registros. o Formateo de datos: modificaciones sintácticas primarias, sin modificar el significado de los datos, para compatibilizar con la herramienta a utilizar. 4. Modelado. La fase de modelado consiste en aplicar las técnicas de minería de datos a los dataset. Corresponde a la minería de datos propiamente tal. Incluye: o Selección de la técnica de modelado y herramienta a utilizar. o Diseño de la evaluación y pruebas. o Construcción del modelo: aplicación de la herramienta de modelado al conjunto de datos preparados para crear uno o más modelos. o Evaluación del modelo: interpretación de resultados según conocimiento previo, aquí se pueden utilizar diferentes métodos de validación. 5. Evaluación. Para determinar si los modelos son útiles a las necesidades del negocio. Incluye: o Evaluación de resultados: se evalúa el grado en que el modelo responde a los objetivos del negocio y se determinan deficiencias respecto a éstos. o Revisar el proceso: se revisa si hay algún factor o tarea importante que no se haya tomado en cuenta. o Determinación de próximos pasos: según los resultados de la evaluación y de la revisión se decide cómo proceder. Se elabora una lista de posibles acciones. 6. Despliegue. o Planificación del desarrollo: se determina una estrategia para el desarrollo. 15

33 o Plan de supervisión y mantenimiento. o Generación del informe final: se resumen del proyecto y experiencias. o Revisión del proyecto: se resumen y documentan las experiencias importantes. Para más detalles ver anexo 1. 16

34 4. TIPOS DE PROBLEMAS DE MINERÍA DE DATOS Para abordar un proyecto de minería de datos, se encuentran en la bibliografía consultada muchas sugerencias de clasificaciones de tipos de problemas o perfiles de proyecto. Éstas son muy útiles, ya que al estudiarlos se puede definir cuál de estos perfiles se adapta mejor al proyecto que se quiere realizar. Luego de estudiar y analizar estas clasificaciones se ha optado por la más sencilla y práctica que se ha encontrado [Her04]: Modelos predictivos: Los modelos predictivos pretenden estimar valores futuros o desconocidos asociados a variables de interés. Para estudiarlos se pueden agrupar en dos tipos importantes: o o Clasificación: Se busca identificar registros pertenecientes a una clase. Regresión: consiste en inferir una función que asigna a cada instancia observada un valor real. La principal diferencia con la clasificación es que el valor a predecir es numérico. El objetivo en este caso es minimizar el error entre el valor predicho y el valor observado. Modelos descriptivos: Los modelos descriptivos identifican patrones que explican o resumen los datos. Los tipos más relevantes de modelos descriptivos son: o o o Agrupamiento (clustering): generar subconjuntos de datos (se detalla en la sección 4.2). Correlaciones: usada para examinar el grado de similitud de los valores de dos variables numéricas. Con el objetivo de ver la relevancia de atributos, detectar atributos redundantes, dependencias entre atributos, o seleccionar un subconjunto de ellos [Her04]. Análisis de dependencias (Reglas de asociación): El objetivo es similar a los estudios correlacionales, pero para atributos nominales, muy frecuentes en las bases de datos. Se denominan también análisis de asociaciones, análisis de dependencias o vínculos [Her04]. Consiste en encontrar un modelo que describe dependencias significativas (o asociaciones) entre datos de artículos o 17

35 acontecimientos. Las dependencias pueden ser usadas también para predecir el valor de ciertos ítems de datos, dada la información sobre otros ítems [Cri00]. De entre los mencionados, se detallarán a continuación el modelo predictivo de clasificación y el modelo descriptivo de agrupamiento. 4.1 Clasificación La clasificación consiste en examinar los rasgos de un objeto recientemente presentado y asignarlo a un conjunto de clases predefinido. Formalmente estos objetos se presentan como un conjunto de pares de elementos de dos conjuntos, δ={<e,s>; e ϵ E, s ϵ S}, donde E es el conjunto de valores de entrada y S es el conjunto de valores de salida. Los pares <e,s> se denominan objetos o ejemplos etiquetados. De esta forma, el objetivo es inferir o aprender una función λ: E S, denominada clasificador, que represente la correspondencia existente entre los objetos e y s. S es nominal por ende discreto, pudiendo tomar un valor desde un conjunto c 1, c 2,, c m, denominados clases. La función aprendida será capaz de determinar la clase para cada nuevo ejemplo sin etiquetar, es decir, dará un valor de S para cada nuevo valor de e [Her04]. Los objetos mencionados corresponden a registros de una tabla, los cuales se denominan también muestras o ejemplos, denominándose datos de entrenamiento a los objetos analizados para construir el modelo [Han00]. Así, en la clasificación se agrega una nueva columna, denominada etiqueta de clase, teniendo como objetivo construir modelos (clasificadores), que asignan etiquetas de clase correcta a objetos sin etiquetas [Ber04]. Las etiquetas de clase pueden ser entregadas anteriormente, o derivadas de un proceso de segmentación. Por esto, la clasificación corresponde a un aprendizaje supervisado. Algunos ejemplos de clasificación incluyen: Identificar desviaciones y valores atípicos (outliers) y otros problemas con los datos. Clasificar tipos de medicamentos determinando el mejor para una patología dada. Identificar cobros fraudulentos de seguros. Un caso particular de modelo predictivo (y clasificación) son los modelos de respuestas, los cuales están relacionados con posibles implicaciones del presente trabajo de título, por esto se detallan a continuación. 18

36 4.1.1 Modelos de respuesta Corresponden a modelos predictivos cuyo objetivo es predecir quiénes son sensibles a la oferta de un producto o servicio, mediante una probabilidad de respuesta, basándose en el comportamiento pasado de una población similar o en un sustituto lógico [Par01]. Un modelo de respuesta puede proveer gran ayuda para la eficiencia de una campaña de marketing ya sea por incremento de respuestas y/o reducción de los gastos de correo. El conjunto de datos utilizados para construir un modelo de respuesta debe incluir a los clientes que responden y los que no. Es útil usar estos modelos para optimizar la rentabilidad de una campaña y no sólo para la elección de quienes serán incluidos en las campañas de correo o listas de llamados, teniendo en cuenta que los resultados son dependientes de los costos de la campaña, de la tasa de respuesta y del ingreso por personas que responden. El objetivo de una campaña de marketing es cambiar el comportamiento. Esta premisa es muy importante, ya que al planear estas campañas se busca alcanzar a personas que no comprarían el producto o servicio, ya sea por conformidad con lo que les da la competencia o porque están cansados de los mensajes publicitarios, predispuestos a rechazar las ofertas. Así, la verdadera influencia de una campaña de marketing no está en lograr mayor atención de los clientes habituales, sino en captar nuevos clientes. Esto explica por qué los segmentos con alto porcentaje de respuesta no proveen el mejor retorno en una inversión de marketing. Así, si se guarda un registro de cómo los buenos clientes fueron captados y qué les gustaba ver, previo a su captación, este comportamiento puede extrapolarse a potenciales clientes. De esta forma, idealmente se debería [Ber04]: Comenzar investigando a los actuales clientes, antes de que ellos llegasen a ser clientes. Recoger información de los nuevos clientes en el momento en que son adquiridos. Modelar las relaciones entre tiempo y captación para aplicar en campañas futuras. 4.2 Agrupamiento (clustering) Los ejemplos se presentan como un conjunto de δ={e: e ϵ E},sin etiquetar ni ordenar de ninguna manera. El objetivo por tanto no es predecir nuevos datos sino que describir los existentes. 19

37 El agrupamiento es la tarea de dividir una población heterogénea (δ en este caso) en un número más homogéneo de grupos o clústeres significativos. Todos los miembros de un subgrupo comparten características comunes. Por ejemplo, en el análisis de canasta de compras, se podrían definir los segmentos según los artículos que contienen [Ber04]. Lo importante del agrupamiento respecto a la clasificación es que son precisamente los grupos y la pertenencia a ellos lo que se quiere determinar, ya que a priori no se sabe qué define estos grupos ni cuantos hay (la cual es una característica del aprendizaje no supervisado que lo distingue del aprendizaje supervisado como la clasificación) [Her04]. La función a obtener es idéntica a la clasificación λ: E S, pero los valores de S y sus miembros se crean o inventan, durante el proceso de aprendizaje. De esta forma, al realizar el agrupamiento, los registros son agrupados, en base a similaridades, que ayudan a determinar su significado. Por ejemplo, clústeres de síntomas indican diversas enfermedades, clústeres de atributos de consumidores corresponden a segmentos de mercado. El agrupamiento frecuentemente puede ser un problema de minería de datos en sí mismo, donde la detección de segmentos es el objetivo principal. Por ejemplo, las direcciones de código postal, la edad superior al promedio y el ingreso, podrían ser seleccionadas como variables para enviar publicidad para un seguro de atención médica a domicilio. Sin embargo, a menudo el agrupamiento es un paso hacia la solución de otros problemas de minería de datos o modelamiento. En este caso, el objetivo es mantener manejable el tamaño del conjunto de datos o encontrar subconjuntos homogéneos que sean más fáciles de analizar. Típicamente, al tener grandes conjuntos de datos variados se ve afectado el alcance de cada uno y se oscurecen los patrones interesantes, por lo que, un agrupamiento apropiado hace la tarea más fácil. Por ejemplo, analizar las dependencias entre millones de artículos de canastas de compras es muy difícil, es mucho más simple (y más significativo, generalmente) identificar dependencias en los segmentos más interesantes de dichas canastas [Cri00]. Citando otro ejemplo, la segmentación puede ser el primer paso en una segmentación de mercado: en vez de llegar con ajustes por reglas para responder a la pregunta " qué tipo de promoción hace que los clientes respondan mejor?" se divide primero a los clientes en base a clústeres o personas con similares hábitos de compra y entonces se pregunta qué promoción es mejor para cada segmento?. Para desarrollar estos modelos es importante conocer a los clientes actuales, lo que puede realizarse mediante análisis de perfiles. 20

38 4.2.1 Análisis de perfiles El análisis de perfiles es de gran ayuda para conocer a clientes actuales y futuros y aprender de ellos, beneficiándose al incrementar la selección y desarrollo de productos. Este conocimiento considera descubrir características comunes dentro de una población de interés, tales como la edad promedio, género o estado civil, entre otros (que pueden ser más específicos del negocio) y que son típicamente incluidas en un análisis de perfil. Los perfiles son más útiles cuando se usan dentro de segmentos de la población de interés [Par01], esto porque un camino para determinar si un cliente se ajusta a un perfil es midiendo la similaridad o distancia entre el cliente y el perfil [Ber04]. De esta forma, el análisis de perfiles puede ser realizado empleando técnicas de clustering y si se quiere algo más específico añadiendo técnicas de clasificación [Par01]. 21

39 5. TÉCNICAS DE MINERÍA DE DATOS En el capítulo anterior se presentaron los tipos de problemas de minería datos más relevantes que se conocen. Para cada uno de ellos se deben emplear técnicas idóneas, por lo que a continuación se presentan las técnicas más relevantes y aplicables a dichos problemas. Se dará énfasis en las técnicas que se usaron en el trabajo de título, o podrían ser usadas en trabajos posteriores. 5.1 Árboles de decisión Un árbol de decisión es un conjunto de condiciones organizadas en una estructura jerárquica (como se puede ver en la figura 9), de tal manera que la decisión final a tomar se puede determinar siguiendo las condiciones que se cumplen desde la raíz del árbol hasta alguna de sus hojas. Estas condiciones se denominan reglas. Así, los árboles de decisión son conjuntos de reglas que dividen una población grande y heterogénea en grupos pequeños y homogéneos respecto a una variable objetivo. La tarea de aprendizaje a la cual los árboles de decisión se adecuan mejor es a la clasificación, donde son apropiados para expresar procedimientos médicos, legales comerciales, estratégicos, matemáticos, lógicos, entre otros [Her04]. Figura 9: Árbol de decisión [Han00] El mayor atractivo de los modelos generados es que representan reglas, las cuales pueden ser expresadas en algún idioma, siendo entendidas por seres humanos y además pueden ser expresadas en lenguajes de acceso a bases de datos, como SQL [Ber04]. 5.2 Inducción de reglas. Consiste en derivar un conjunto independiente de reglas para clasificar casos, que no necesariamente formarán un árbol. Debido al diferente funcionamiento de un inductor de reglas, comparado con los árboles de decisión, éste puede ser capaz de encontrar 22

40 diferentes y en algunos casos mejores patrones de clasificación. A diferencia de los árboles, las reglas generadas pueden no cubrir todas las posibles situaciones, y estas pueden tener conflictos en sus predicciones, en cuyo caso es necesario elegir una regla para seguir [Esc08]. 5.3 Clustering En los problemas de segmentación o agrupamiento generalmente se utilizan técnicas de clustering, sin embargo esto no siempre es así, por eso es importante estudiar las técnicas de clustering aparte de los problemas de segmentación que son más generales. Como se comentó en la sección 4.2, el clustering o segmentación puede ser definido como el proceso de agrupar una colección de N patrones en distintos segmentos (o clústeres) basados en una adecuada noción de cercanía o similaridad entre los patrones [Ye03]. Buenos clústeres muestran alta similaridad dentro de un grupo y baja similaridad entre patrones de grupos distintos [Ye03]. Las aproximaciones clásicas de clústeres incluyen diversos métodos, debido a que aunque los problemas de segmentación son fáciles de conceptualizar puede ser bastante difícil resolverlos en instancias específicas. Además, la calidad del clúster obtenido es muy dependiente de los datos, por lo que si bien algunos métodos son menos eficientes, no hay métodos que trabajen mejor bajo todos los tipos de data sets y situaciones 11. Los resultados de un clúster se pueden representar mediante diagramas, como el mostrado en la figura 10, que muestran cómo las instancias caen dentro de grupos. Figura 10: Diagrama típico de un clúster Algunos algoritmos permiten que una instancia pertenezca a más de un clúster, así se pueden bosquejar las instancias en dos dimensiones y dibujar el solapamiento de subconjuntos representados en un diagrama de Venn, como en la figura Teorema No free lunch (NFL): Ningún algoritmo es óptimo para resolver todos los problemas. 23

41 Figura 11: Diagrama de Venn de varios clústeres Otros algoritmos están asociados a instancias en clústeres probabilísticos, donde para cada instancia hay un grado o probabilidad de pertenencia, representado con una tabla. Existen también algoritmos que producen una estructura jerárquica de clústeres, de tal forma que haya una rigurosa división de instancias de grupos de alto nivel y cada uno de estos grupos sea refinado hasta las instancias más bajas, en este caso se utilizan diagramas denominados dendogramas, como el mostrado en la figura 12. Figura 12: Dendograma Para escoger entre estas posibilidades es necesario basarse en la naturaleza del problema estudiado y también es determinante la herramienta de clustering disponible [Wit05] Técnicas de clustering Típicamente la obtención de clústeres de patrones involucra los siguientes pasos [Ye03]: 2. Caracterizar adecuadamente los patrones 3. Definir la proximidad entre objetos, usando una medida de similaridad o distancia adecuada 3. Clustering 4. Abstracción de los datos 5. Evaluar la salida Los tres primeros pasos son obligatorios, mientras que los últimos dependen de la situación específica. El primer paso es obtener las características o atributos para representar cada patrón en forma aproximada. Estas características pueden ser binarias, cuantitativas (tomando valores continuos o discretos) o cualitativas. Aunque se pueden tratar de usar todas las 24

42 características durante el proceso de clustering, puede ser prudente usar un subconjunto de las características originales, o usar un pequeño número de características derivadas. Estos procesos son denominados selección y extracción de características, respectivamente. Cada patrón es representado por un punto en el espacio d-dimensional (donde d es el número de características que se consideran en cada patrón). En el siguiente paso se utiliza una medida de distancia entre dos puntos, la cual toma valores entre cero e infinito. Esta medida es necesaria para tener una métrica de similaridad o disimilaridad entre los elementos, para con ello formar los grupos. Existen distintos tipos de distancia, a continuación se listan las más usadas: Distancia euclídea o euclideana: distancia clásica, corresponde a la longitud de la recta que une dos puntos. Esta distancia se explica en la ecuación 1, donde se tiene que los puntos x e y son vectores x=(x 1,,x), y=(y 1, y n ). d( x, y) n i 1 ( x i y i ) 2 Ecuación 1: distancia euclídea Distancia de Manhattan: distancia por cuadras. Se recorre un camino zigzagueando, no en diagonal. Es recomendable al realizar clustering con variables que contienen outliers, debido a que los valores no van al cuadrado y el valor de los outliers es amortiguado. La ecuación 2 define esta distancia, considerando también puntos x e y, vectores x=(x 1,,x), y=(y 1, y n ). d( x, y) n i 1 x i y i Ecuación 2: Distancia de Manhattan. Distancia de Chebychev: calcula la discrepancia más grande en alguna de las dimensiones. Es definida en la ecuación 3, considerando x e y vectores. d ( x, y) max i.. x y 1 n i i Ecuación 3: Distancia de Chebychev. Distancia de Mahalanobis: Es una distancia más robusta, no considera que los atributos son independientes, sino que considera una matriz de covarianzas. Definida en la ecuación 4. 25

43 d( x, y) ( x y) T S 1 ( x y) Ecuación 4: Distancia de Mahalanobis. Un aspecto que es importante a la hora de aplicar estos algoritmos de distancia (que generalmente se aplican dentro de los algoritmos de agrupamiento) es normalizar los atributos. Además, los valores atípicos pueden afectar los cálculos de distancias. Posteriormente, para el paso tres se tienen dos tipos de aproximaciones para el proceso de clustering [Ye03]: 1) Método de partición: se realiza una partición en k clústeres, donde el valor de k debe ser indicado por el usuario en la aplicación. Se tienen las siguientes técnicas para realizarlo: Métodos de clustering basado en distancias iterativas. Dado un conjunto de n objetos en un espacio d-dimensional y un parámetro de entrada k, se organizan los objetos en k clústeres, mediante un algoritmo de partición, tales que la desviación total de cada objeto en su clúster representativo sea mínima. En esta categoría, los algoritmos K-means y K-median son los más representativos. K- means (o K medias) es un algoritmo iterativo para minimizar el criterio del error al cuadrado. En este caso, un clúster c i, es representado por su centro u i (que corresponde a la media de todas las muestras de c i ). Los centros o representaciones de clúster son inicializados típicamente con una selección aleatoria de k número de clústeres y son etiquetados con índices i, correspondientes a los ejemplos más cercanos o similares al centro. A cada objeto restante se le asigna el clúster con el cual es más cercano, basándose en la distancia entre el objeto y la media del clúster. La cercanía es determinada basándose en la distancia (que puede ser euclidiana) más pequeña, de esta forma se itera el algoritmo hasta encontrar la menor media y ajustar los puntos a un centro real [Mor09]. Normalmente la medida de similaridad es basada en el error cuadrático, para esto ver ecuación 5, donde: p representa al objeto y m i a la media del cluster c i (ambos objetos multidimensionales). Ecuación 5: Error cuadrático 26

44 Selecciona k objetos aleatoriamente Repeat Re(asigna) cada objeto al cluster más similar con el valor medio; Actualiza el valor de las medias de los clústers Until no hay cambio Una vez que los resultados de la iteración se vuelven estables (ver recuadro), cada punto es asignado al centro del clúster más próximo, así el efecto en conjunto es de minimizar el total del cuadrado de la distancia de todos los puntos a sus centros del clúster. Sin embargo, aunque el método es simple y efectivo, no garantiza un mínimo global, sólo local. Los clústeres finales son muy sensibles a los centros de los clústeres iniciales (escogidos aleatoriamente). Se pueden lograr resultados muy diferentes con pequeños cambios en la elección inicial, que es aleatoria. Para incrementar las opciones de encontrar un mínimo global, generalmente se ejecuta el algoritmo varias veces, y se escoge el mejor resultado: aquel con la mínima distancia total al cuadrado. Métodos basados en densidad (density based methods): Se estiman clústeres de acuerdo a la densidad de regiones de objetos en el espacio que son separadas por regiones de relativamente baja densidad. Estos métodos pueden usarse para filtrar ruido y descubrir clústeres de formas arbitrarias. Son usados principalmente en aplicaciones de pocas dimensiones tales como los clústeres espaciales. Uno de estos es el algoritmo EM que es descrito a continuación. EM (expectation maximization o esperanza- maximización) Es un método de clustering probabilístico. Se trata de obtener una función de densidad de probabilidad desconocida a la que pertenecen el conjunto completo de datos. Esta función se puede aproximar mediante una combinación lineal de componentes [Garr07]. Así el algoritmo asigna a cada instancia una distribución de probabilidad de pertenencia a cada clúster. Además, el algoritmo puede decidir cuántos clústeres crear basándose en la validación cruzada (utilización de una porción de los datos para entrenamiento y la porción restante para evaluación) o se le puede especificar a priori cuantos debe generar. Utiliza el modelo gaussiano finito de mezclas, asumiendo que todos los atributos son variables aleatorias independientes. Requiere muchas más operaciones que K- means, es más elaborado [Gar07]. El ajuste de los parámetros del modelo requiere alguna medida de su bondad, es decir, cuán bien encajan los datos sobre la distribución que los representa. Este 27

45 valor de bondad se conoce como el likelihood o verosimilitud. Generalmente se utiliza el logaritmo de likelihood, que al igual que éste debe ser maximizado [Garr07]. El algoritmo EM procede en dos pasos que se repiten en forma iterativa: - Expectation: El modelo EM es apropiado cuando se sabe que los datos tienen una variabilidad estadística de modelo conocido. - Maximization: Obtiene nuevos valores de los parámetros a partir de los datos proporcionados por el paso anterior. Métodos basados en grafos (Graph based methods): Transforman problemas de clúster en un problema de optimización combinatoria el cual es resuelto usando algoritmos de grafos y heurísticas relacionadas. La elección de la similaridad o medida de distancia depende del dominio del problema. Clustering blando (Soft clustering): En el soft clustering, un patrón puede pertenecer a múltiples clústers con diferentes grados de asociación. Este es el punto de vista natural en el fuzzy clustering donde los grados de pertenencia de un patrón, en un cluster dado, decrecen a medida que su distancia al centro del clúster aumenta, destacando el algoritmo Fuzzy C-means que es ampliamente aplicado [Jar05]. 2) Método jerárquico: crea una descomposición jerárquica de objetos de datos dados. Los resultados son frecuentemente desplegados por un dendograma (figura 12). Las hojas de cada árbol son un clúster por sí mismas, y el nivel al que dos sublclústers son mezclados corresponde a la distancia entre ellos; esta distancia determina la estabilidad del clúster. Los métodos jerárquicos se basan en la construcción de un árbol en el que las hojas son los elementos del conjunto de ejemplos y el resto de los nodos son subconjuntos de ejemplos que pueden ser utilizados como particionamiento del espacio (gráfico dendograma). Dependiendo de la manera de construir el árbol, los métodos se dividen en: 28

46 Aglomerativos: El árbol se construye empezando por las hojas hasta llegar a la raíz. Desaglomerativos o divisivos: Se parte de la raíz y se realizan divisiones paulatinas hasta llegar a las hojas. Un ejemplo de algoritmo jerárquico es Cobweb, presente en la herramienta weka [Her04]. Este algoritmo va incorporando los ejemplos incrementalmente al dendograma, a continuación se describe mayor detalle de este algoritmo. Cobweb [Garr07] Es un algoritmo que utiliza aprendizaje incremental, que consiste en iniciar con un único nodo raíz desde al cual se van añadiendo instancias una a una, actualizando el árbol en cada paso. La actualización consiste en encontrar el mejor sitio donde incluir la nueva instancia, operación que puede necesitar de la reestructuración de todo el árbol (incluyendo la generación de un nuevo nodo anfitrión para la instancia y/o la fusión/partición de nodos existentes) o simplemente la inclusión de la instancia en un nodo que ya existía. Cobweb pertenece a los métodos de aprendizaje conceptual o basados en modelos, lo que significa que cada clúster se considera como un modelo que puede describirse, más que un ente formado por una colección de puntos. 5.4 Redes Neuronales Artificiales Las redes neuronales artificiales dan origen a modelos de aprendizaje cuya finalidad inicial era la de emular los procesadores biológicos de información (red neuronal biológica). Éstas tienen la característica de aprender a través de entrenamiento, lo que es aplicado a predicción, clasificación y clustering. Las redes neuronales artificiales poseen dos formas de aprendizaje: supervisado y no supervisado. El entrenamiento de una red es un proceso iterativo a través de conjuntos de datos de entrenamiento para ajustar pesos. Los pesos no proveen información sobre porqué la solución es válida, a diferencia de la capacidad del cerebro humano para explicar procesos; esto constituye una dificultad pues, en algunas aplicaciones del negocio, como las aseguradoras, se debe tener información de la forma en que opera el modelo para demostrar qué variables son utilizadas, de acuerdo a requisitos legales [Ber04]. Sin embargo en otras aplicaciones, la utilización de clasificación o predicción 29

47 es lo único que importa; si se descubre que un conjunto de clientes potenciales responden a una campaña, a una compañía no le es necesario saber cómo o de qué forma trabaja este modelo. Si bien algunas técnicas se han desarrollado para extraer reglas comprensibles por humanos, desde redes neuronales, la mayor parte de las veces éstas son usadas como cajas negras (figura 13). 5.5 Reglas de asociación Figura 13: Ejemplo red Neuronal. Las asociaciones son un caso especial de dependencias, que se estudiaron como tipo de problemas de minería de datos en el capítulo anterior. Éstas describen las afinidades de ítems de datos (ítems o eventos que con frecuencia ocurren juntos). Un típico escenario de aplicación para asociaciones es el análisis de cestas de compras, donde se encuentran expresiones del tipo: Si X entonces Y (X => Y). X e Y son conjuntos de elementos que pueden tomar valores binarios y permiten formar una expresión lógica compuesta de conjunciones, disyunciones y negaciones [Dat]. Los algoritmos para detectar asociaciones son muy rápidos y producen muchas de ellas. 30

48 6. COMPARACIONES DE TÉCNICAS Y MODELOS 6.1 Comparación de modelos de minería de datos Como se pudo ver, realizar una comparación entre los tipos de modelos es algo compleja, debido a que estos no se excluyen sino que generalmente se complementan o tienen nombres diferentes dependiendo del alcance de negocio al que se les destina. Por esto, más que una tabla comparativa, la tabla 2 comprende un resumen útil de consultar a la hora de elegir un modelo de minería de datos. Tabla 2: Comparación tipos de modelos de minería de datos Modelo\ Característica Tipo Técnica de minería que utiliza Agrupamiento Descriptivo Redes neuronales, Redes de kohonen, Clustering (Kmeans), Vecino más próximo, Algoritmos genéticos Clasificación Predictivo Árboles de decisión (ID3, C4.5, C5.0, CART), redes neuronales, Naive Bayes, Vecino más próximo, Algoritmos genéticos Regresión Predictivo Árboles de decisión (CART), redes neuronales, Regresión lineal y logarítmica, Vecino más próximo, Algoritmos genéticos Análisis de Descriptivo Árboles de dependencias decisión, Regresión logística, A priori, Algoritmos genéticos Aplicado a modelos Análisis de perfiles Riesgos, Análisis perfiles de Respuesta, Abandono, Riesgos, Valor actual neto, valor tiempo de vida cliente Cross-sell, up-sell Objetivo División de una población en subconjuntos con características comunes Examen de los atributos de un objeto revisado y asignarlo a un conjunto de clases o etiquetas, discreto, predefinido Similar a la clasificación sólo que las etiquetas toman valores continuos Describe dependencias o asociaciones significativas entre datos de artículos o acontecimientos Correlaciones/ Factorizaciones Descriptivo Análisis factorial y de comp. principales, Regresión lineal y logarítmica, Algoritmos genéticos Respuesta, abandono Ven la relevancia de atributos, detectan atributos redundantes o dependencias entre atributos, o seleccionan un subconjunto de ellos La tabla 2 realiza una comparación cualitativa de los tipos de problemas de minería de datos con el objetivo de ser de utilidad a la hora de tener que realizar una elección de tipo de problema a realizar. 31

49 6.2 Comparación de técnicas de minería de datos Las técnicas de minería de datos presentadas anteriormente tienen distintas características y aplicaciones que las distinguen unas de otras, por esto, para un mejor estudio de ellas se ha realizado una comparación, mostrada en la siguiente tabla: Tabla 3: Comparación de técnicas de minería de datos Técnica Modelos de aplicación Algoritmo s genéticos Árboles de decisión Clustering Redes bayesianas (no definida pero Selección de variables es difícil, no todas tienen la misma importancia Se requiere conocer muchas probabil idades. Aprendi zaje bayesian o es computa cionalm ente caro anteriormente, investigada) Clasificación Predicción Clasificación Estimación Predicción Segmentació n Clasificación Análisis de dependencia Clasificación Predicción Imitan evolución especies Proporcionan programas de y optimizaciones que pueden ser usadas en construcción y entrenamiento de otras estructuras como redes neuronales Aprendizaje supervisado Aprendizaje no supervisado Usan criterios de distancia o similitud para agrupar datos. Origina clases similares entre sí y distintas con las otras Se puede estimar la probabilidad posterior de las variables no conocidas, en base a las variables conocidas, lo que se conoce como inferencia bayesiana No necesitan conocimiento específico del problema resolver Operación simultánea a con varias soluciones Maximizació n poco afectada por máximos locales Fácil ejec. en arquitecturas paralelas Facilidad de interpretación Combinan exploración y modelamient o de datos Debido a su naturaleza flexible se puede combinar fácilmente con otro tipo de técnica de minería de datos Aprendizaje sobre relaciones de dependencia y causalidad. Combinan conocimiento con datos. Evitan sobreajuste datos. Manejo bases datos incompletas de de de Características Ventajas Desventajas Algoritmos asociados Pueden tardar mucho en converger, o no converger en absoluto Pueden converger prematu ramente Necesitan entrenamiento previo ID3 C4.5 J4.8 CART k- media n k- meloid s fuzzy c- means EM ML PC NPC Score & Search AIC BIC K2 LK2 Monte carlo 32

50 Tabla 3 (Continuación): Comparación de técnicas de minería de datos Técnica Modelos de aplicación Redes Clasificación neuronales Predicción artificiales Clustering (RNA) Reglas asociación Reglas inducción de de Análisis de dependencia Predicción Clasificación Análisis de dependencias Aprendizaje no supervisado Reglas independientes que no necesariame nte forman un árbol. Aprendizaje supervisado a fallos. Debido a que almacena la información de forma redundante Flexibilidad Respuestas en tiempo real, por su estructura paralela Los algoritmos para detectarlas son muy rápidos y producen muchas de ellas Pueden ser capaces de encontrar diferentes y en algunos casos mejores patrones para la clasificación Características Ventajas Desventajas Algoritmos asociados Aprendizaje Tienen la No son Percep- habilidad fáciles de trón supervisado de aprender interpretar Percep- y no Crea su Tienden a trón supervisado propia saturar los Multica representa- datos de pa ción de la SOM información Kohone (auto- n organiza- ción) Tolerancia entrenamiento Tiempo de entrenamie nto grande, aunque luego entregan prediccione s rápidament e Requieren datos cuidadosam ente preparados Requieren conjunto de datos grande, para buen desempeño A diferencia de los árboles, pueden no cubrir todas las posibles situaciones, además de que estas pueden tener conflictos en sus predicciones Apriori Partition Eclat 33

51 7. HERRAMIENTAS DE MINERÍA DE DATOS Existen diversas herramientas de software para realizar los procesos de minería de datos. Algunas de ellas de muy buen rendimiento, otras que además cuentan con interfaces gráficas amigables y que en general ofrecen diversos algoritmos de minería de datos para trabajar, incluso permitiendo realizar pre-procesamiento de los datos. Para efectos de este trabajo, es muy importante el tipo de licencia, pues se encuentran herramientas de uso comercial, las cuales presentan licencias monetariamente muy costosas y luego herramientas de tipo open source que permiten que sean utilizadas sin costo alguno. Esto con algunas diferencias en cuanto a sus prestaciones y usabilidad. A continuación se presentan las herramientas investigadas. 7.1 Herramientas de licencia comercial Se investigaron las herramientas Oracle Data miner, DB2 Intelligent Miner, SPSS Clementine y SQL Server Sin embargo, todas tenían licencias muy costosas y no tenían funcionalidades que las hicieran especialmente mejores para el estudio a realizar. 7.2 Herramientas Open Source Las herramientas mostradas a continuación son de tipo Open source, la mayoría desarrollada bajo licencia GPL. Se han elegido las más completas, estables y conocidas KNIME KNIME (o Konstanz Information Miner) 12 es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual, como puede verse en la figura 14 Figura 14: Captura de pantalla de KNIME

52 Características KNIME está desarrollado sobre la plataforma Eclipse y programado esencialmente en java, por lo que puede ser ejecutado en diferentes Sistemas Operativos. Está concebido como herramienta gráfica pudiéndose diseñar un workflow, para representar un proceso de minería de datos, incluyendo nodos, que encapsulan distintos algoritmos. KNIME tiene posibilidades de visualización (histogramas, gráfico de torta, gráfico de nube de puntos, matrices, etc.) y de creación de modelos estadísticos y de minería de datos, como árboles de decisión, regresiones, clústeres, etc., así como validación de modelos por ejemplo mediante curvas ROC. Al ser open source es posible extender esta herramienta mediante la creación de nuevos nodos que implementen algoritmos a la medida del usuario. Además, existe la posibilidad de llamar directa y transparentemente a Weka y/o de incorporar de manera sencilla código desarrollado en R o Python. Para más detalles ver anexo Orange Orange 13 es una herramienta integral, escrita en C++, basada en un entorno de trabajo para experiencias de usuarios y desarrolladores de minería de datos y aprendizaje computacional. Además puede importarse desde python como librería. Orange Widgets son componentes GUI que implementan tareas de minería de datos tales como manejo y procesamiento, visualización, modelamiento, evaluación y otros. Los Widgets pueden ser ensamblados en una aplicación de minería de datos a través de programación visual en el Orange Canvas. Esto puede verse en la figura 15, donde se señala el espacio del canvas, los widgets de la barra de herramientas y los que fueron desplazados al canvas. Cada widget representa tareas o procesos que son aplicados a los datos, y la unión entre uno y otro corresponden a un flujo de datos. Además se pueden agregar nuevos widgets, debido a la disponibilidad del código y su distribución libre (licencia GPL)

53 Figura 15: Captura de pantalla de un workflow en orange. Para ver más detalles de los componentes ver anexo Rapid Miner RapidMiner 14 es otra herramienta de minería de datos que forma parte de una Suite de inteligencia de negocios open source desarrollada por la empresa alemana Rapid-i. De esta suite el único componente gratuito (licencia AGPL) es RapidMiner. La herramienta permite el desarrollo de procesos de análisis de datos mediante el encadenamiento de operadores a través de un entorno gráfico. Las cajas o nodos, mostradas en la figura 16, que corresponden a componentes en el flujo o workflow, son denominados operadores. RapidMiner proporciona más de 500 operadores para análisis de datos, incluyendo los de entrada y salida, pre-procesamiento de datos y visualización. También permite utilizar algoritmos incluidos en Weka. Figura 16: Captura de pantalla de RapidMiner

54 Para ver más detalles de características ver anexo Pentaho - Weka Pentaho corresponde a una suite de inteligencia de negocios, la cual tiene una versión Community 15, que es gratuita, y una versión Enterprise. Las diferencias más importantes de estas versiones es que la edición Enterprise presenta mantención, garantía y soporte de los equipos de Pentaho, además de proveer mayor integración de todas sus partes, a diferencia de la versión community. Las herramientas con las que cuenta esta suite se pueden ver en la figura 17. En general, las más importantes son: Kettle (ETL 16 ) Mondrian (OLAP) Report Designer (para generar reportes) Weka (minería de datos) Figura 17: Módulos de Pentaho De todas las herramientas se revisará con detalle la herramienta de minería de datos. Weka 17 es una herramienta de minería de datos desarrollada por la universidad de Waikato (Nueva Zelanda), y es distribuida bajo licencia GNU-GPL. Fue adquirida el 2006 por Pentaho Corporation, manteniendo su licencia libre. Contiene una colección de algoritmos de aprendizaje automático para tareas de minería de datos, escritos en java ETL: Proceso de extracción, transformación y carga de datos. Realizado en la etapa de preprocesamiento

55 Weka presenta cuatro opciones en su primera pantalla o Weka GUI chooser (figura 18) [Weka]: Explorer: sirve para explorar datos Experimenter Knowledge flow: es similar a explorer pero permite construir un workflow del proceso de minería de datos, como ocurría en KNIME Sample: Línea de comandos para directa ejecución de weka Esta revisión se centrará en los entornos Knowledge flow y particularmente en Explorer. Dentro del entorno Explorer (figura 18), existen seis sub-entornos de ejecución [Her06]: Figura 18: Captura de pantalla de la ventana principal de Weka Preprocess: Incluye herramientas y filtros para cargar y manipular datos. En este componente es posible cargar archivos o conectarse a una base de datos, al realizar esto se pueden ver las propiedades de los datos cargados, por medio de una tabla que muestra los atributos y gráficos de características de ellos (figura 19). Figura 19: Weka Explorer. Classification: Acceso a técnicas de clasificación y regresión. Weka presenta muchas opciones para algoritmos de clasificación, como se muestra en la figura 20, donde destacan las más usadas como redes bayesianas, reglas o árboles de decisión. 38

56 Teniendo el modelo se pueden ver los resultados como un informe y si se trata de un árbol de decisión, se puede revisar el diagrama del árbol. Figura 20: Opciones de clasificación en weka Cluster: Integra varios métodos de agrupamiento. En el caso del clustering es similar al caso anterior, se tienen varios algoritmos disponibles como EM, Cobweb o simplek-means, como muestra la figura 21, y configuraciones que se pueden seleccionar para ejecutar estos algoritmos. Luego de la ejecución se puede ver el resultado por medio de gráficos o un reporte. Figura 21: Opciones de Clustering en weka Associate: Este panel contiene esquemas para poder aprender reglas de asociación Para esto se pueden elegir los algoritmos apropiados y configuraciones, en forma similar a la clasificación y clustering. Select Attributes: La selección de atributos involucra la búsqueda de todas las posibles combinaciones de atributos en los datos, para encontrar qué subconjunto de atributos trabaja mejor en predicciones. Visualize: Permite estudiar el comportamiento de los datos mediante técnicas de visualización. No es gráficamente amigable (figura 22), cuesta ver los puntos en el visualizador individual. Es una de las grandes falencias que se han encontrado en este software respecto a los otros open source que han sido revisados, en particular orange, que muestra gráficas muy nítidas y cómodas para analizar los datos visualmente. 39

57 Figura 22: Visualizador de Weka. Por otro lado, para trabajar con el otro entorno de weka, Knowledge flow, se tienen funcionalidades similares a Explorer, pero la interfaz trabaja con un workflow (figura 23), donde cada actividad se representa con un ícono y las flechas que unen cada ícono determinan el camino que siguen los datos pasando de un estado a otro. Este camino que los datos siguen, pasando por las diferentes actividades o procesos, es denominado flujo. Y es un flujo de conocimiento (knowledge flow) porque luego de pasar por los diferentes procesos se extrae conocimiento de estos datos, ya sea un análisis estadístico o un modelo de minería de datos, entre otros. Figura 23: Captura de pantalla de Weka KnoweldgeFlow Por otro lado, incluidos en la herramienta se pueden encontrar los siguientes métodos (o técnicas) de clasificación [Her06], agrupados a grandes rasgos en familias de métodos: Bayes: basados en el paradigma del aprendizaje de Bayes Funciones: Métodos matemáticos : Redes neuronales, regresiones, SVM, etc. Lazy: emplean el paradigma de aprendizaje perezoso (no construyen un modelo). Meta: permiten combinar diferentes métodos de aprendizaje Trees: aprenden mediante la generación de árboles de decisión Rules: aprenden modelos que se pueden expresar como reglas 40

58 Además, se puede establecer el tipo de validación o evaluación a usar para el modelo aprendido. Use training set: Con esta opción Weka entrena el método con todos los datos disponibles y a posteriori realiza la evaluación sobre los mismos datos. Supplied test set: Con esta opción podemos cargar un conjunto de datos (normalmente diferentes a los de aprendizaje) con los que se realizará la evaluación. Cross-validation: Se realiza la evaluación mediante la técnica de validación cruzada. En este caso podemos establecer el número de pliegues a utilizar. Percentage Split: Se define un porcentaje con el que se aprende el modelo. La evaluación se realiza con los datos restantes. En el anexo 8 se muestran tablas con un resumen de algoritmos presentes en Weka. 7.3 Comparación de herramientas de minería de datos Como se puede ver, en cuanto a sus funcionalidades las herramientas open source no difieren tanto de las herramientas de licencia comercial. Sus mayores diferencias son en cuanto a la ausencia de soporte técnico especializado (ya que hay que dirigirse a foros de la comunidad que las desarrolla) y a la integralidad de las soluciones, pues las herramientas propietarias constituyen una suite integrada con otros módulos como la base de datos, el modulo de análisis, de reportes, etc. La herramienta más cercana a esta integralidad es Weka, al ser parte de una plataforma de Inteligencia de Negocios que es Pentaho. A continuación se muestran comparaciones y estudios realizados en distintos sitios de internet. La figura 24 presenta el resultado de una encuesta realizada en un sitio dedicado a la minería de datos, donde los votantes eligieron las herramientas de su preferencia. 41

59 Figura 24: Ranking de herramientas de minería de datos más populares 18. Finalmente, en la tabla 4 se muestra una comparación realizada a las herramientas de minería de datos open source revisadas. Basándose en los resultados de la figura 24 y los de la tabla 4, se puede concluir que Weka y Orange son los más satisfactorios de usar. En un comienzo se pensó en elegir la herramienta durante el desarrollo del estudio, de acuerdo a cuál era la más cómoda, sin embargo, finalmente se trabajó con las dos, ya que Weka resultó ser muy buena para adquirir datos y generar modelos, pero muy mala para visualizar los resultados

60 Tabla 4: Comparación de herramientas open source 19 Procedimiento KNIME RapidMiner Weka Orange Particionamiento de dataset en conjuntos de pruebas y entrenamiento Aprueba (Pero limitada por los métodos de partición) Aprueba (Pero limitada por los métodos de partición) Aprueba (Pero limitada por los métodos de partición) Descriptor de escalamiento (Descriptor scaling) Descriptor de selección Parámetro de optimización de aprendizaje automático/métod os estadísticos Validación de modelo usando cross-validation y/o conjunto independiente de validación Interfaz Aprueba Aprueba Falla (no puede guardar parámetros de escalamiento para aplicar a futuros datasets) Falla (no cuenta con métodos wrapper) Falla (no es automático) Aprueba (pero está limitado por los métodos de medición de error) GUI con interfaz relativamente intuitiva Aprueba Aprueba Aprueba GUI, pero funcionamie nto menos intuitivo Aprueba (pero no es parte del KnoweldgeFlow ) Falla (no es automático) Aprueba (pero no puede guardar el modelo así es que debe ser reconstruido por cada futuro dataset) GUI bastante intuitiva, con opciones de trabajar con workflows. Pocas opciones de despliegue de resultados y visualizaciones, los gráficos no son claros Aprueba (Pero limitada por los métodos de partición) Falla (no tiene métodos de escalamiento) Falla (no cuenta con métodos wrapper) Falla (no es automático) Aprueba ( no puede guardar el modelo, debe ser reconstruido por cada futuro dataset) GUI, bastante intuitiva. Gráficos de despliegue de resultados y visualización claros Facilidad de uso Media Media Media Media-Alta Observaciones Lee y escribe en bases de datos y archivos Puede ser accedida como librería Lee y escribe bases de datos y archivos Parte de una suite open source de inteligencia de negocios (pentaho) Disponbile como librería Lee y escribe en archivos con C4.5, assistant(.dat), weka(.arff) Puede ser accedida como librería desde otras herramientas 19 Particionamiento, descriptor, parámetro y validación, provienen de la siguiente fuente: 43

61 8. DESARROLLO DEL ESTUDIO DE MINERÍA DE DATOS: CONOCIMIENTO Y PREPARACIÓN DE LOS DATOS. 8.1 Conocimiento de los datos Datos recolectados/extraídos Para la recolección de los datos se envió un listado de los que se requerían para el estudio y se contrastaron con los datos existentes y la experiencia de los encargados de la UFRO. Como resultado de esto se obtuvieron los datos que se muestran las tablas del anexo 2. Estas tablas fueron recopiladas desde el registro académico, DAE y departamento de finanzas, y fueron entregadas por los encargados de la UFRO en formato Access, como muestra la figura 25. Figura 25: Extracción de datos a estudiar de las fuentes de la UFRO Tablas o archivos de interés utilizados Para el estudio se cuenta con las tablas mostradas en la figura 26, entregadas por encargados de la UFRO en un período de aproximadamente un mes a partir del 21 de abril de Estas tablas se definen y detallan en el anexo Historial utilizado El historial utilizado está en función de los registros que tiene la UFRO en su base de datos (y no en las antiguas fichas en papel), por lo que se restringió a los años Sin embargo las tablas de cuentas corrientes (montos de crédito, becas y aranceles de los alumnos mientras estudiaron) tienen registros de Descripción de los datos Se considerarán nueve tablas de origen, para ser utilizadas en el proceso de preparación de datos, tomando en cuenta sólo aquellos deudores que tengan crédito universitario y que tengan cobros asociados también. 44

62 Figura 26: Diagrama tablas iniciales A continuación se describen brevemente las tablas, para mayor detalle consultar anexo 2. Antecedentes académicos y personales del alumno: Tabla de alumnos: contiene datos personales del alumno como su fecha de nacimiento, género, domicilio, entre otros. Tabla de Estudios superiores: contiene datos de aquellos alumnos que han declarado haber realizado estudios superiores. Tabla de Ingresos: almacena antecedentes académicos del alumno previo a su ingreso a la Universidad. Estos datos pueden ser: puntaje PAA/PSU, tipo de colegio en el que estudió, notas de enseñanza media, entre otros. Tabla de Matriculas: contiene antecedentes académicos del alumno dentro de la universidad. Estos datos pueden ser: PGA, carrera en la que está matriculado, año de ingreso a la universidad, N de asignaturas reprobadas, entre otros. 45

63 Tabla de postulaciones: almacena datos de todas las postulaciones realizadas a la UFRO desde Contiene tanto aquellas postulaciones de quienes quedaron en una carrera de la UFRO posteriormente, como de aquellos que no. Datos financieros: Tabla de Cuentas corrientes: almacena datos financieros de los alumnos durante el período que estos están estudiando. Algunos datos importantes que están en esta tabla son: año de estudio, arancel de la carrera, monto de crédito universitario, monto de crédito UFRO, monto de alguna beca, entre otros. Tabla de Créditos: almacena datos financieros de los alumnos deudores de crédito universitario, desde el momento en que deben comenzar a realizar los pagos. Datos importantes que se encuentran en esta tabla son: monto total a pagar, cuota anual a pagar, año de la cuota, monto pagado, intereses anuales, saldo restante, tipo de crédito que se adeuda, entre otros. Tabla de Campañas: corresponde a campañas de llamados realizadas desde 2007 a 2009 por la UFRO. En esta tabla se tienen todas las llamadas realizadas a un alumno en particular, considerando el resultado de la llamada (si se ubicó al alumno, si se le da el recado, si no coincidía el número, etc.), la fecha en la que se realizó la llamada, el tipo de campaña que se realiza, entre otros. Los tres tipos de campañas que se identifican son: Campañas de vencimiento de cuota (correspondiente al vencimiento anual de las cuotas de cada deudor), de deudores que entran a cobro (cuando vence el período de gracia otorgado) y de declaración de renta (útil para poder asignar el monto a cobrar anualmente, el cual puede ser muy alto si no se hace declaración). Cada una de estas fue realizada del año 2007 al 2009, por lo que se tienen nueve campañas diferentes. 8.3 Preparación de los datos En esta fase, se migraron los datos entregados desde la base de datos Access entregada a una base de datos Oracle, lo que permitió una manipulación más efectiva, pues muchas consultas y actualizaciones en Access se desarrollaban con un rendimiento poco eficiente, además de que el lenguaje SQL que se puede manejar en Access es más limitado que el SQL estándar, manejado en Oracle. 46

64 La migración realizada se efectuó con todos los datos ya entregados por la UFRO y algunos cambios de formato (como estandarización) y limpieza previos, a una base de datos Oracle (express) usando la herramienta, de ETL, Pentaho Data Integration o Kettle [Ket]. En su versión libre, Kettle presenta un asistente muy sencillo para realizar copias de tablas de una base de datos a otra, lo que facilitó mucho el trabajo de migración de los datos. Un ejemplo de esto se puede ver en la figura 27. Figura 27: Transformación de copia y limpieza de la tabla ingresos Un dibujo esquemático del proceso completo de extracción, migración y posterior análisis, se muestra en la figura 28. Figura 28: Proceso de extracción y preparación de datos. La selección de datos correspondió a aquellos alumnos que tenían crédito universitario y cobros asociados. Para ver tablas resultantes del proceso de preparación ver anexo Limpieza de datos Se realizó limpieza en las distintas tablas. Entre los más importantes, se pueden listar: Corrección de tipos en datos de años de tablas de campañas, alumnos y matriculas. 47

65 Se corrigieron nombres de comuna que estaban escritos en forma distinta a los datos encontrados en el campo regiones en la tabla alumnos. Se reemplazan años de nacimiento con valores 1900, que eran erróneos, por la media de dicha variable, considerando todos los alumnos con crédito. En la tabla Ingresos se realizaron las siguientes modificaciones: o Tipo de colegio: Se dejaron sólo con valores Fiscal, Particular o Subvencionado y sin considerar Particular mixto, Particular Masculino, etc. o Se considera la ciudad donde está ubicado el colegio (variable ciudad_colegio): Se corrigen los caracteres extraños, se eliminan celdas con espacios (" ") y se dejan como nulas o vacías, además se revisa que los nombres de las ciudades estén escritos de una sola forma posible, se corrigen los que están mal escritos o no se ajustan al formato elegido (ver figuras 29 y 30). o Se reemplazan por nulos fechas de año de egreso de enseñanza media que son incorrectas ( 193, 194, 0, entre otros similares). o Se dejan como 0 todas las celdas vacías de puntajes de pruebas. o Se cambian valores '-1' de puntajes de pruebas por '0'. Figura 29: Datos antes de la limpieza 48

66 Figura 30: Datos luego de la limpieza En la tabla matriculas se agrega des_carrera (descripción de la carrera, la cual está en la tabla carreras) de acuerdo a cod_carrera. Se corrigen campos con comas en des_carrera (en tabla original). En la tabla cuenta corriente se agregaron 0 en celdas vacías, de forma similar a lo realizado en la tabla ingresos Construcción de datos Si bien se realizaron varias operaciones de construcción de datos, la más importante es la realizada en la tabla de créditos, donde se creó una nueva variable, denominada responsabilidad, que reflejaría el comportamiento de pago. La variable de responsabilidad se define como lo muestra la ecuación 6. En esta ecuación i corresponde al año de cada cuota pagada y toma los valores i=1, n; a su vez, n corresponde al número total de cuotas pagadas por un alumno. 49

67 responsabi lidad i cuota pago i i int i Ecuación 6: responsabilidad total en el pago del crédito. Se crearon además variables de responsabilidad de acuerdo a pago, saldo e interés, donde se divide pago, saldo e interés, respectivamente por el número de cuotas del deudor en un año i. Todas toman la forma de la ecuación 7, donde se obtiene particularmente la responsabilidad en pago en la cuota i. responsabi lidad_ 50 pago i pago i cuota Ecuación 7: Responsabilidad en pago La responsabilidad total por alumno (considerando todos sus pagos y cuotas) sería, por lo tanto la mostrada en la ecuación 8. responsabilidad n i 1 responsabilidad Ecuación 8: responsabilidad total Las responsabilidades totales de pago, saldo e interés se obtienen de forma similar a la ecuación 8. De todas formas de entre estas variables de responsabilidad la más importante es la responsabilidad total. La razón es que la variable de responsabilidad total permite realizar comparaciones independientemente de las diferencias de pago de los alumnos, involucra las tres variables relevantes de comportamiento de pago (saldo, intereses y pagos) y además al estar dividido el pago por la cuota más los intereses se genera una variable que toma valores entre cero y uno lo que la vuelve más adecuada para estudiar en los modelos que posteriormente se realizarán. Al realizar el proceso de integración se empleó esta ecuación, pues se creó una tabla de créditos resumida Integración de datos Se realizó la creación de las tablas de antecedentes académicos, créditos resumidos, campañas resumidas (por deudor), entre otras Combinación de datos La combinación de datos fue una de las tareas más importantes junto con la construcción de datos, ya que como se tenían tablas cuya clave primaria se componía de un año y un identificador de alumno se tenía más de un registro por tabla para hacer referencia a un n i i

68 mismo alumno (esto en todas las tablas, exceptuando la tabla de alumnos, que contiene los antecedentes personales de éstos) y esto dificultaría la tarea de la técnica de minería de datos que se empleará posteriormente. Por esto, se decidió lograr tablas que tuvieran un solo registro por alumno. 8.4 Resultados obtenidos Mediante los procesos de construcción e integración descritos anteriormente, se obtuvieron cuatro tablas con datos resumidos, limpios y formateados, preparados para comenzar a realizar el modelado de minería de datos. Estas tablas corresponden a créditos, cuenta corriente, antecedentes personales (alumnos) y antecedentes académicos. Estas tablas finales y tablas intermedias se pueden ver en el diagrama de la figura 31. Figura 31: UML tablas finales En este diagrama, se pueden apreciar en naranjo o café las tablas originales y luego las vistas (en verde), vistas materializadas (en amarillo) y los packages (celeste) que fueron usados para la construcción y combinación de datos. Finalmente, la tabla principal, en azul, corresponde a la vista minable, desde donde se trabajará para la construcción de modelos. 51

69 8.4.1 Exploración de datos. Variables a utilizar. A continuación se muestra un resumen de los resultados más importantes obtenidos del análisis de las variables de cada tabla entregada por la UFRO o algunas creadas en el proceso de preparación. Se consideraron los registros de deudores disponibles, considerando a aquellos con crédito universitario y con cobros realizados. Se emplearon las herramientas Weka y Orange para todo el proceso. Tabla de Alumnos El estado civil predominante es Soltero (más del noventa por ciento), por lo que no se tomará en cuenta esta variable (al realizar el proceso de clustering no es una variable significativa). Género: el gráfico de la figura 32 muestra que un 56,1% de los alumnos de la UFRO con crédito universitario son hombres, un 43,9% son mujeres y existe un solo caso en el que no se especificó el género del alumno. Figura 32: Género Regiones: el número de deudores de la IX región corresponde a un 63,3 %, y a un 36,4% de otras regiones, como muestra la figura 33 (izq.). Luego, considerando separadamente a gente de Temuco o de la IX pero sin Temuco, se obtienen las frecuencias del gráfico figura 33 (der). Figura 33: Regiones. Tabla de Ingresos Tipo de colegio: en la figura 34 se muestran la distribución de deudores de acuerdo a los distintos tipos de colegio. 52

70 Figura 34: Tipo colegio Tabla de Matriculas: Situación académica: de acuerdo a la figura 35, se puede ver que existen 33 estados posibles. Los más frecuentes son Alumno Titulado, Alumno eliminado y Alumno con Plan de Estudios Completo. Además es importante tener presente que esta variable no presenta valores perdidos y sólo un 2% de los alumnos tienen un estado que se desconoce. Figura 35: Situación académica PGA: Se clasificó el PGA (promedio general acumulado) de los deudores en tres niveles, por carrera. Estos rangos se establecieron al encontrar la nota mínima y la nota máxima por carrera y a partir de esto el intervalo formado entre estos dos extremos se divide en 3 rangos, correspondientes a Bajo, Medio y Alto. En este caso, se puede ver que la mayor frecuencia se da en PGA medio (figura 36). Figura 36: PGA de los deudores Carreras: La figura 37 muestra las carreras cursadas y su distribución. 53

71 Figura 37: Carreras Tabla de Postulaciones: La tabla postulaciones corresponde a una tabla con pocas variables, que básicamente indica cual fue la prioridad de un alumno al ingresar a la carrera, y cuál fue su puntaje de ingreso. En caso de que no haya ingresado a la carrera a la cual postuló este puntaje se asigna como 0. Esta variable no se consideró significativa, debido a que más de un 90% de los deudores ingresaban a carreras a las que habían postulado en segunda opción, además de que no presentaba relevancia cuando se realizaron modelos posteriormente. Tabla de Estudios superiores: La tabla de deudores con estudios superiores previos, contiene información de un 3% aprox., de los deudores a considerar, por lo que no se tomará en cuenta. Tabla de Cuenta corriente: Tomando en cuenta sólo los alumnos a analizar con crédito Universitario, se encontró que en promedio los alumnos tenían un 42% de crédito Universitario, 14% de crédito UFRO, 11% de becas y 32% de pago de arancel. Pérdida de becas: En la figura 38 se muestra un gráfico que indica el número de deudores que perdieron su beca a lo largo de la carrera, el cual fue de un 12,8% 54

72 Figura 38: Gráfico de frecuencias de pérdida de beca Crédito Universitario y UFRO: La figura 39 muestra gráficos 20 que indican que el porcentaje promedio de asignación de crédito universitario de los deudores es de un 41% y que el de crédito UFRO de un 15%. Además, se puede ver en este tipo de gráficos el valor de la mediana (que en el caso del crédito universitario es 0,37 y en el caso del crédito especial es de 0,06) y además los valores para cada cuartil. Figura 39: Porcentaje créditos fiscal (universitario) y UFRO (especial) Becas y pago de arancel: En la figura 40, se muestran gráficos que indican que el porcentaje promedio de becas otorgado a los alumnos es de un 11% y el porcentaje de arancel pagado por éstos es de un 33%. En este caso también se pueden apreciar los valores de la mediana y los cuartiles respectivos asociados a las variables. 20 Gráfico estadístico de atributos: Es una opción de la herramienta Orange para poder estudiar el comportamiento de atributos continuos. En este gráfico se pueden apreciar los valores mínimos y máximos alcanzados, la mediana, la media (en rojo) y percentiles (25% y 75%). 55

73 Figura 40: Porcentaje de becas y pago de arancel Tabla de Campañas: La tabla campañas, de gran relevancia en el estudio, presenta originalmente registros, correspondientes a alumnos, e indica quiénes han sido contactados para realizar sus pagos y que respuesta se tuvo. Al analizar esta tabla (sin realizar consideraciones del tipo de crédito del alumno) los resultados más importantes encontrados son: Estados de llamadas: Los estados de las llamadas encontrados son los mostrados en la figura 41, éstos indican si los deudores fueron contactados, si el número telefónico es correcto, hubo buzón de voz, entre otros. Aquí se muestra que un 50,4% de las llamadas no tuvieron asignado estado, por lo que en más de la mitad de las llamadas no se sabe si contactaron o no al deudor. Este dato es muy importante a la hora de analizar si las campañas afectaron el comportamiento de pago. 56

74 Figura 41: Estado de llamada (resultado obtenido luego de llamar) Ejecutiva: La figura 42 muestra que el 50% de las llamadas fueron realizadas por la ejecutiva ADM. Este dato, que no parece muy relevante, es de gran importancia, ya que, como se ve en la figura 43 ADM es justamente quien realiza la gran mayoría de las llamadas sin estado asignado. Figura 42: Ejecutiva que realiza las llamadas Por otro lado, ADM participa en casi todas las campañas, como muestra la figura 44. Lo que significa que todas las campañas se vieron afectadas por el ingreso incompleto de datos. Las figuras 43 y 44 corresponden a gráficos de dispersión, donde se indican las ocurrencias de los valores entre dos variables. En el caso de la figura 43, es entre la ejecutiva que realiza la llamada y el estado asignado por esta, luego en la figura 44, es un gráfico entre la ejecutiva y la campaña realizada. 57

75 Figura 43: Estado de llamada v/s ejecutiva que la realiza Figura 44: Campaña v/s ejecutiva que la realiza Finalmente, la figura 45 muestra los años en los que se han realizado las campañas: Figura 45: Año de realización de la campaña 58

76 8.4.2 Exploración de datos. Comportamiento de pago y variables relevantes. En la exploración realizada, posteriormente a la preparación de datos, se tomó como métricas para el crédito la responsabilidad, definida anteriormente. Los datos se obtuvieron de la base de datos Oracle, creada a partir de la extracción transformación y carga desde la base de datos entregada originalmente por la UFRO. Para poder leer desde una base de datos Oracle, se debió establecer configuraciones previas en un archivo específico, propio de la herramienta, el que se puede ver en la figura 46, en este archivo se especificó la ruta que debía considerar Weka para acceder a los datos. Figura 46: Archivo de configuración weka Al ingresar a Weka, teniendo configurado el archivo mencionado y el driver (jdbc) específico para la conexión a la base de datos, se puede acceder mediante la opción open DB, donde se obtiene una ventana similar a la de la figura 47. Allí se ingresan los parámetros que aparecen en la figura, como el usuario y la contraseña. Luego de esto se pueden realizar consultas en SQL, las que retornarán los datos que se desean analizar. 59

77 Figura 47: Conexión a base de datos con weka. Posteriormente, luego de realizar la consulta con Weka y seleccionar los atributos que son de interés para el análisis, se guardan estos datos en un archivo, el que puede ser leído por la herramienta Orange, donde se usa un flujo, para realizar el análisis, como el observado en la figura 48. Figura 48: Flujo en Orange para análisis en comportamiento de pago por deudor de acuerdo a género. A continuación se muestran los resultados más importantes de la exploración realizada, en gráficos y cifras estadísticas. Antecedentes personales y crédito fiscal o universitario. Se estudió como influían en el comportamiento de pago los atributos de antecedentes personales más importantes. En las tablas que se muestran a continuación se muestran los atributos que, de acuerdo al análisis realizado, tenían asociados cambios claros en el comportamiento de pago. La tabla 5 muestra los resultados obtenidos al analizar la edad de término de los deudores y su comportamiento de pago. Se utilizó para generar los intervalos la edad 60

78 media de término, es decir se tienen los deudores cuya edad de término es menor a la media y cuya edad de término es mayor o igual. Tabla 5: Métricas de responsabilidad en crédito fiscal de acuerdo a rangos de edad de término en los estudios de los deudores. Responsabilidad/ Edad término Responsabilidad Pago Responsabilidad interés Responsabilidad saldo Responsabilidad <25 0,61 0,43 0,82 0,52 >=25 0,61 0,31 0,7 0,54 La tabla 6 muestra promedios obtenidos de las métricas elegidas para estudiar el comportamiento de pago, en este caso de acuerdo al género del deudor y la 7 de acuerdo a la procedencia Tabla 6: Métricas de responsabilidad en el crédito universitario de acuerdo a género del deudor. Responsabilidad Responsabilidad Responsabilidad Responsabilidad pago interés saldo total Mujeres 0,49 0,23 0,64 0,44 Hombres 0,44 0,32 0,78 0,37 Tabla 7: Métricas de responsabilidad en pago del crédito y región de procedencia Responsabilidad pago Responsabilidad interés Responsabilidad saldo Responsabilidad Otra 0,67 0,4 0,73 0,57 IX 0,62 0,33 0,71 0,55 En el caso de la tabla 7, se discriminó en IX región u otra debido a que gran parte de los deudores a estudiar son de la IX región, por lo que considerarlas todas no generaba una comparación significativa, no así al comparar los deudores de la IX con deudores de otras regiones. Así de estas tres tablas se puede ver que, la responsabilidad total es mayor para las personas con más edad, para las mujeres y además para las personas de regiones distintas a la IX. Antecedentes académicos y crédito fiscal o universitario. En esta sección se explorará como afectan en el comportamiento de pago los atributos que corresponden a antecedentes académicos de los alumnos, ya sea antes de la universidad o mientras estuvo en ésta. 61

79 A continuación se muestran resultados de esta misma exploración en las tablas de la Tabla 8: Métricas de responsabilidad sobre pago del crédito universitario de acuerdo a tipo de Responsabilidad pago colegio del deudor. Responsabilidad interés Responsabilidad saldo Responsabilidad Fiscal 0,43 0,3 0,77 0,37 Subvencionado 0,42 0,22 0,69 0,37 Particular 0,62 0,32 0,63 0,53 Tabla 9: Métricas pago de crédito Universitario y situación académica del alumno Situación/ Reponsabilidad Responsabilidad pago Responsabilida d interés Responsabilidad saldo Responsabilida d (total) Alumno titulado 0,54 0,16 0,55 0,49 Alumno eliminado 0,22 0,43 1,01 0,17 Alumno plan completo 0,71 0,3 0,55 0,61 En la tabla 10 se muestra como está relacionado el comportamiento de pago con el rendimiento académico en la universidad. Aquí se revisa utilizando la variable PGA dividida en tres intervalos de notas respecto a la carrera: bajo, medio y alto (como se vio en la sección 8.4.1). Tabla 10: PGA y métricas de responsabilidad de crédito universitario. PGA /Responsabilidad Responsabilidad Pago Responsabilidad Interés Responsabilidad Saldo Responsabilidad (total) BAJO 0,45 0,59 1,14 0,35 MEDIO 0,67 0,3 0,64 0,59 ALTO 0,82 0,18 0,36 0,75 De estas tres últimas tablas se tiene que la responsabilidad total es mayor para colegios particulares, alumnos con plan completo (egresados) y para PGA alto. Mayores conclusiones de todas estas tablas se presentan en la sección

80 8.4.3 Campañas crédito fiscal y pagos Para poder estudiar el comportamiento de las campañas en el pago de los deudores de crédito fiscal se consideraron campañas mirando sus efectos a corto plazo (se revisó el comportamiento de pago un año antes de la campaña y un año después). Estos resultados se muestran en las tablas 11 y 12. La descripción de cada campaña se puede encontrar en la sección 8.2. La herramienta para llevar a cabo el análisis es Orange, y se empleó un flujo como el mostrado en la figura 49, aquí se extrajeron los datos de los archivos, mostrados a la izquierda (en naranjo), se seleccionaron los atributos por cada archivo, se seleccionaron los rangos de datos que se quería estudiar y finalmente (al lado derecho) se dejaron las formas de visualización (gráficos). Cada uno de estos archivos iniciales correspondía a los datos luego de la campaña (abajo) y antes de la campaña (arriba), de esta forma se pudieron contrastar, al revisar los gráficos entregados por los íconos en el extremo derecho de cada flujo. Figura 49: Workflow para análisis de efectos de campañas en el pago del crédito Universitario (fiscal). Tabla 11: Métricas de pago de comportamiento de pago de crédito universitario y campaña de vencimiento de cuota año Comportamiento Pago/Campaña Antes de la campaña (2007) Después de la campaña (2008) Responsabilidad Pago 0,24 0,46 Responsabilidad Interés 0,38 0,17 Responsabilidad Saldo 1,15 0,72 Responsabilidad (total) 0,2 0,43 63

81 Tabla 12: Métricas de pago de comportamiento de pago de crédito universitario y campaña de Declaración de Renta año Comportamiento Pago/Campaña Antes de campaña (2007) Después de la campaña Responsabilidad Pago 0,78 0,67 Responsabilidad Interés 0,15 0,11 Responsabilidad Saldo 0,37 0,43 Responsabilidad (total) 0,74 0,65 Como se puede advertir en estas tablas, la campaña del vencimiento de la cuota del año 2008 parece haber surtido efecto, la responsabilidad (total) aumentó en un 23% respecto a la responsabilidad que se tenía un año antes de la campaña. Por otro lado, la campaña de declaración de renta parece no haber dado resultados en el comportamiento de pago. Fuera de esta revisión general realizada de las campañas de vencimiento de cuota y de declaración de renta, se estudió cómo variaba la responsabilidad en el pago, con las dos campañas, pero considerando además variables que se usarán para generar los perfiles (como género, región de origen, rendimiento académico). A continuación se exponen los resultados más relevantes: Campaña: Vencimiento de cuota año 2008 (realizada el año 2007) Debido a que se tienen campañas realizadas para los años 2007, 2008 y 2009 se procedió a considerar las campañas de 2008 porque es la campaña que tiene más datos. Al analizar el comportamiento de pago antes y después de la campaña, tomando en cuenta como respondieron los deudores de acuerdo a su género, se obtuvieron los resultados mostrados en la tabla 13. Tabla 13: Resultados campaña vencimiento de cuota 2008, considerando género del deudor Responsabilidad Antes de la campaña Mujeres Después de la campaña Antes de la campaña Hombres Después de la campaña Pago 0,32 0,53 0,17 0,38 Interés 0,35 0,16 0,42 0,19 Saldo 1,02 0,62 1,24 0,84 Total 0,29 0,51 0,13 0,36 (aum.22%) (aum. 23%) 64

82 Los resultados de la tabla 13 indican que las mujeres aumentan su responsabilidad un 1% menos que los hombres, al participar en esta campaña; esto a pesar que las mujeres parecen ser más responsables que los hombres a la hora de pagar sus créditos. Luego, en la tabla 14, se muestran los resultados de la misma campaña obtenidos, considerando la región de origen del deudor. Tabla 14: Resultados campaña vencimiento de cuota 2008, considerando región de origen del deudor Responsabilidad Antes de la campaña Región: IX Después de la campaña Antes de la campaña Región: Otra Después de la campaña Pago 0,27 0,46 0,19 0,44 Interés 0,38 0,16 0,39 0,19 Saldo 1,11 0,7 1,2 0,75 Total 0,23 0,44 0,17 0,42 (aum.21%) (aum. 25%) Como se puede ver en la tabla 14, personas de otras regiones respondieron mejor a la campaña, mostrando un aumento de un 4% más que los de la novena región. También es importante saber cómo afecta el área de estudio del deudor en su comportamiento de pago y su respuesta a las campañas. Para esto, se analizó su comportamiento dependiendo si rendía o no la prueba de ciencias sociales. Estos resultados se muestran en la tabla 15. Tabla 15: Resultados campaña vencimiento de cuota 2008, considerando rendición de PCE de Cs. Responsabilidad Antes de la campaña sociales, por el deudor Rinde PCE Soc. Después de la campaña 65 Antes de la campaña No Rinde PCE Soc. Después de la campaña Pago 0,28 0,45 0,21 0,46 Interés 0,36 0,17 0,4 0,18 Saldo 1,09 0,72 1,2 0,71 Total 0,24 0,42 0,17 0,44 (aum.18%) (aum. 27%) Aquellos que no rindieron la prueba de ciencias sociales aumentaron en mayor grado su responsabilidad (9% más que quienes rinden la prueba), al participar en campañas. En la tabla 16, por otro lado, se muestra un análisis similar, pero para aquellos que rindieron la PCE de matemáticas.

83 Tabla 16: Resultados campaña vencimiento de cuota 2008, considerando rendición de PCE de matemática por el deudor Responsabilidad Antes de la campaña Rinde PCE Mat Después de la campaña Antes de la campaña No Rinde PCE Mat Después de la campaña Pago 0,22 0,46 0,26 0,45 Interés 0,4 0,18 0,36 0,16 Saldo 1,18 0,73 1,1 0,7 Total 0,18 0,43 0,23 0,44 (aum.18%) (aum. 27%) De esta última tabla, se puede ver que responden mejor aquellos que rinden la prueba (un 4% de mayor responsabilidad). En el caso de la PCE de biología se obtuvieron resultados similares con o sin rendimiento de la prueba (sólo un 1% de mayor responsabilidad de quienes no la rindieron). Finalmente, en la tabla 17 se consideró la clasificación realizada al PGA del deudor. Tabla 17: Resultados campaña vencimiento de cuota 2008, considerando rendimiento académico en la universidad (PGA), del deudor PGA Bajo PGA Medio PGA Alto Responsabilidad Antes de la campaña Después de la campaña Antes de la campaña Después de la campaña Antes de la campaña Después de la campaña Pago 0,12 0,23 0,27 0,47 0,32 0,67 Interés 0,4 0,22 0,39 0,17 0,35 0,14 Saldo 1,27 0,98 1,12 0,69 1,03 0,47 Total 0,11 0,22 0,23 0,45 0,28 0,63 (aum.11%) (aum 22%) (aum.35%) Se puede observar que, mientras mejor fue el rendimiento en la universidad mejor respondió a las campañas. Campaña declaración de renta año 2008: Al estudiar los resultados de la campaña para la declaración de renta del año 2008, se pudo ver que no hubo un aumento en la responsabilidad, lo mismo ocurrió al estudiar las variables por separado, razón por la cual no se muestran en este documento. 66

84 8.4.4 Conclusiones resultados obtenidos Posterior a la exploración realizada sobre las variables involucradas y las campañas, además de su repercusión en el comportamiento de pago del crédito fiscal o universitario, se puede concluir lo siguiente: Aunque las diferencias no son tan grandes, las mujeres parecen tener un comportamiento de pago más responsable que los hombres, ya que su pago promedio es mayor y tienen menos saldo e intereses acumulados. Además, porcentualmente (usando la medida de responsabilidad creada para estudiar de forma más equitativa a individuos de distintas carreras y con tiempos de pagos diferentes) las mujeres continúan teniendo un comportamiento de pago mejor. Es de destacar también, que el monto a cobrar promedio (es decir, su deuda inicial) es menor en el caso de las mujeres, lo que puede deberse a que estudian, en promedio, carreras menos costosas que los hombres. Se pudo determinar, también, de acuerdo a estos datos, que deudores provenientes de regiones distintas a la IX tienen mejor comportamiento de pago y además responden mejor a las campañas de cobranza. En cuanto al colegio, los deudores provenientes de colegios particulares parecen tener la menor morosidad, mientras que los más morosos parecen provenir de colegios fiscales. Sobre las carreras, como era de esperar, las carreras con mayores montos de crédito son medicina, enfermería e ingenierías civiles, y con menores montos las pedagogías, Ing. Ejecución, licenciaturas y carreras técnicas. Carreras como medicina u odontología tienen mayor morosidad pero parecen pagar montos más altos que otras, esto probablemente por la estabilidad y sueldos mayores que tienen. Por otro lado, carreras con menos pagos son pedagogías y licenciaturas, las cuales se caracterizan por tener sueldos inferiores. Como se esperaba también, los alumnos con un comportamiento más moroso corresponden a alumnos eliminados. Luego, al parecer, según las variables de responsabilidad creadas, los alumnos con plan completo (egresados) pagan mejor incluso que los titulados. 67

85 Respecto a las campañas, éstas se estudiaron considerando sólo el estado contactado de los deudores. Es importante tener en cuenta que la mitad de los deudores en campaña no tenían asignado un estado, lo cual puede requerir mejoras en el seguimiento de las campañas o también en el almacenamiento y extracción de los datos. Sin embargo, fuera de esto, se pudo observar que las campañas de vencimiento de cuota del año 2008 sí dieron resultados positivos. Los deudores sí mejoraron su comportamiento de pago al año siguiente. De acuerdo al análisis realizado, se pueden determinar las siguientes conclusiones, que son de gran utilidad a la hora de orientar campañas de cobranza: 1) Mujeres y hombres responden de forma similar a las campañas de vencimiento de cuotas. A pesar de que, según estos datos, los hombres son menos responsables en promedio. 2) Personas de otras regiones responden mejor a las campañas que personas de la IX (aumentan en un 4% su responsabilidad promedio). 3) Personas que rinden PCE de ciencias sociales aumentan su responsabilidad en menor grado que quienes no la rinden (un 9%, menos). 4) Además, personas de PGA alto aumentan su responsabilidad en un 24% más, en promedio que personas de PGA bajo. Es importante tener en cuenta, que cuando se realizó el primer análisis del resultado de las campañas los resultados fueron negativos debido a que se consideraron todas las cuotas pagadas antes de la campaña y todas las cuotas pagadas posteriormente. Los efectos de la campaña no se pudieron visualizar debido a que éstas generalmente muestran un efecto a corto plazo (al año siguiente, en este caso). Estas variables a tener en cuenta, se deberán considerar en la siguiente fase de modelamiento, sin embargo se debe mencionar que la importancia que se le dé a una u otra, a la hora de orientar campañas de cobranza, dependerá del número de gente involucrada. Por ejemplo, si la gente que rinde la PCE de ciencias sociales equivale a un 2% de la población y sabemos que la gente que la rinde aumenta un 9% menos que quienes no la rinden, no tiene sentido enfocarnos en quienes no la rinden ya que es una porción de la población que tal vez es poco relevante. Estas ideas se ahondarán con más detalle en las sesiones posteriores. 68

86 9. MODELAMIENTO Este capítulo presenta los resultados y procedimientos realizados al generar los modelos de minería de datos. 9.1 Selección de la técnica de modelado Como ya se había previsto, la técnica a utilizar es clustering o agrupamiento. Dado que existe una gran variedad de algoritmos para realizar modelos de agrupamiento se probó con los más importantes y que además estaban implementados en las herramientas elegidas (Orange y Weka), estos son K-means (o simple K-means en Weka) cobweb (agrupamiento jerárquico) y EM, agrupamiento de tipo probabilístico. En general los modelos, como se explicará en detalle, se obtendrán con la ayuda de estos tres algoritmos, dado a que dan información complementaria. K-means es el más simple y necesita de algunos detalles entregados por EM, como la desviación estándar de cada variable en el clúster y el nivel de ajuste que tiene el modelo. Por otro lado, si bien EM logra sugerir el número de nodos óptimo, Cobweb permite decidir esto de forma numérica y además gráfica. El agrupamiento, como ya se vio en la investigación del objetivo 1, se utiliza para obtener grupos o subconjuntos, entre los elementos de un conjunto total (todos los datos o una muestra de estos); de tal manera que los mismos elementos asignados al mismo grupo sean similares. Lo distintivo del agrupamiento, respecto de las técnicas de clasificación, es que son los grupos y pertenencia a estos lo que se quiere determinar. A priori no se sabe ni como son los grupos ni cuántos hay. Por esta razón, al agrupamiento se le cataloga como Aprendizaje no supervisado (en contraste con la clasificación que es supervisada). Para la realización del agrupamiento se emplean las llamadas técnicas basadas en distancia, que fueron explicadas en la sección Estas medidas calculan distancias entre los elementos de conjunto, ya sea directamente, como los vecinos más próximos (k nn) o de una manera más sofisticada mediante estimación de funciones de densidad (como EM). Si bien en la sección fueron descritos los algoritmos de agrupamiento más relevantes, a continuación se describirán los algoritmos a utilizar y en relación a su implementación en las herramientas escogidas. 69

87 Algoritmos de agrupamiento a estudiar: K-means Método de agrupamiento por vecindad en el que se parte de un número determinado de prototipos y de un conjunto de ejemplos a agrupar sin etiquetar. Este método únicamente se puede aplicar a atributos numéricos, y los outliers le pueden afectar muy negativamente. Sin embargo, la representación mediante centroides tiene la ventaja de que tiene un significado gráfico y estadístico inmediato [Garr07]. Cada ejemplo nuevo, luego de que los prototipos fueron correctamente situados es comparado con éstos y asociado al más cercano de acuerdo a una distancia previamente elegida. En el caso de weka puede ser distancia euclideana o distancia de manhattan. El método tiene una fase de entrenamiento que puede ser lenta, dependiendo del mínimo de puntos a clasificar y la dimensión del problema. Pero luego la clasificación de nuevos datos es muy rápida. En este algoritmo es muy importante el número de clústeres indicados (k), que debe ser asignado manualmente. Dentro de las opciones y parámetros que se deben asignar al algoritmo en la herramienta weka, los más importantes son la distancia (que en este caso se usó distancia de Manhattan), el máximo de iteraciones (que se usó un valor por defecto), el número de clústeres (donde se seleccionaron cinco) y el número de semillas que se utilizarán, que corresponden a los centroides iniciales, el cual se dejó en diez. Debido a que el número de clústeres debe ser establecido manualmente, se deben comparar los resultados y además aplicar otros algoritmos, como por ejemplo el agrupamiento jerárquico que muestra de qué forma se pueden agrupar, ya que no necesita que se establezca un número de clústeres por defecto, sino que el algoritmo los encuentra y muestra los subconjuntos de ellos EM (expectation maximization o esperanza- maximización) Como se comentó en secciones anteriores, EM tiene la particularidad de buscar automáticamente el número de clústeres más útil, esto se puede hacer en la herramienta weka ingresando el valor -1 como número de clústeres, que es la opción que viene por defecto [Mar]. 70

88 Cobweb [Garr07]. Es un algoritmo que utiliza aprendizaje incremental, que consiste en iniciar con un único nodo raíz desde al cual se van añadiendo instancias una a una, actualizando el árbol en cada paso. Para actualizar el árbol es clave la medida utilidad de categoría, la que mide la calidad general de una partición de instancias en un segmento. Además de este parámetro son importantes otros dos: Acuity: Este parámetro representa la medida de error de un nodo con una sola instancia, es decir, establece la varianza mínima de un atributo. Cut-off: Valor que se utiliza para evitar el crecimiento desmesurado del número de segmentos. Indica el grado de mejoría que se debe producir en la utilidad de categoría para que la instancia sea tenida en cuenta de manera individual. 9.2 Suposiciones de modelado Se consideraron alumnos, considerando sólo aquellos con créditos donde se hayan efectuado cobros, ya que en caso de que esto no se cumpla, el alumno no tiene antecedentes de su comportamiento de pago e incluir estos datos puede llevar a resultados y conclusiones erróneas. Las variables o atributos a considerar en el proceso de minería de datos se considerarán como datos fidedignos, luego de los procesos de descripción, exploración y limpieza realizados. Se considerará como atributos claves para determinar el comportamiento de pago las variables generadas en el objetivo de preparación (anterior) correspondientes a responsabilidad pago, responsabilidad interés, responsabilidad saldo y responsabilidad total, en particular se le dará mayor énfasis a la revisión de ésta última debido a que expresa más fielmente la morosidad del deudor. Se supondrá que el comportamiento de pago para crédito fiscal, crédito fiscal universitario, crédito del fondo solidario, y demás créditos antecesores es similar y sólo se distinguirá entre el crédito otorgado por la UFRO (crédito especial o crédito UFRO) y el crédito otorgado por el estado, que se denominará crédito fiscal. El proceso de modelamiento consistió en probar con distintos algoritmos de clustering y parámetros asociados a ellos para llegar a uno o varios modelos optimales. Se emplearon, además, diversos mecanismos de evaluación, como validación cruzada, 71

89 evaluación del ajuste de modelos y algoritmos jerárquicos, de tal forma de asegurarse de llegar a una buena solución. Fuera de elegir un buen modelo, de acuerdo a los criterios antes mencionados, se buscó que el número de clústeres escogidos sea manejable para el estudio realizado y que además los resultados arrojados sean coherentes con los objetivos del negocio (en este caso perfilar a los alumnos de acuerdo a su comportamiento de pago y características académicas y demográficas). 9.3 Modelos obtenidos Al correr los algoritmos EM y K-Means se obtenía que el número óptimo de clústeres estaba entre cuatro o cinco. Por otro lado por el algoritmo COBWEB se obtuvo que el número óptimo de clústeres era cinco (pues el árbol generado tiene cinco nodos hoja), lo cual se muestra gráficamente en la figura 50. Figura 50: Árbol generado por cobweb. De acuerdo a los criterios mencionados en la sección anterior, y empleando K-means y EN (que coincidieron en la mayoría de las variables) se estableció como óptimo un modelo de cuatro segmentos o clústeres bien diferenciados, los cuales se muestran en la tabla

90 En dicha tabla se muestran los clústeres ordenados del cero al tres, donde el cero es el de mejor comportamiento y el tres es el peor. Tabla 18: Clústeres obtenidos con K-means y EM y cuatro nodos. Comport amiento de pago de crédito Clús -ter 0 Comport amiento de pago muy bueno 1 Comporta miento de pago bueno Edad inicio Edad de términ o Géner o Regi ón Coleg io Fem. Otra Fiscal o partic ular subv Masc. IX Partic ular subv. OBS Sólo Rinden PCE mat. Área de estudio Biología o salud(m edicina, agrono mía, enferme ría, entre otros, ingenier ía comerci al, contador ) Ingenier ías, contador auditor Rendim iento académi co* Muy bueno en la escuela, PAA y universi dad. Bueno en escuela, PAA y univ. Cré dito Univ ersit ario 21 Bajo % Medi o- bajo % Cré dito UFR O SI SI (may or %) Be cas SI alt o% SI Pa go de ar an cel Si, alt o % Me dio % 2 Comporta miento de pago Medio. 3 Los más morosos (mal comporta miento) Fem. IX u otra Masc. IX u otra Fiscal o partic ular subv. Fiscal o muni cipal Son los únicos que rinden PCE ciencias sociales Elimina dos de la carrera Humani stas (pedago gía, servicio social, sociolog ía, periodis mo), biólogos Ingenier ías y contador auditor. Bueno en escuela y universi dad, regular en PAA Malo (escuela, universi dad y PAA) Alto % Alto % (el may or) Si (bajo %) NO Si alt o% Mu y baj o Me dio - baj o % Alt o % (el má s alt o) 21 Los rangos bajo, medio alto, son solo referenciales, de acuerdo a los valores de los clusteres en general, esto para hacer una tabla más sencilla de entender, sin incluir los porcentajes de arancel o créditos. 73

91 9.4 Resultados del estudio realizado Los resultados y potencialidades asociadas de este proyecto de título son: 1) El análisis de datos llevó a la conclusión de que las campañas realizadas por la UFRO están dando buenos resultados a corto plazo, pero deben ser revisadas en cuanto a su plan, enfoque y seguimiento en su realización. En vista a este escenario, se tiene un gran potencial de mejoramiento de la recaudación al mejorar las campañas, de las cuales hasta el momento no se sabía su efectividad en términos de respuesta de los deudores objetivo. El hecho de comprobar que al menos una campaña está dando resultados positivos en el mejoramiento del comportamiento de pago de los deudores, sugiere que al aplicar campañas mejor diseñadas (en su ejecución y control) y enfocadas en perfiles específicos pueden derivar en resultados mucho mejores en términos de recaudación, lo que ayudará a cumplir las metas impuestas. 2) La creación de perfiles constituye el mayor resultado, ya que podrán ser útiles para el desarrollo de mejores campañas de recaudación del crédito, aportando en la generación del plan de acción, enfoque más preciso en las campañas y posteriormente poder generar modelos predictivos para estudiar la respuesta de los deudores a implementación de nuevas y mejores campañas. 74

92 9.5 Evaluación del modelo Evaluación respecto a criterios establecidos (diseño de pruebas). 1) Utilizando el wrapper MakeDensityBasedClusterer se obtuvieron los valores de bondad mostrados en la tabla 19. Tabla 19: Valores de bondad para los modelos realizados. Algoritmo Log-likelihood K-means 3Nodos -65,422 K-means 4Nodos -64,348 K-means 5Nodos -63,366 K-means 7Nodos -62,854 EM 3Nodos -62,962 EM 4Nodos -62,254 EM 5Nodos -61,167 EM 7Nodos -59,18 EM 9Nodos -59,1 Como se puede ver en la tabla 19, las diferencias en el índice de verosimilitud (loglikelihood) de K-means con tres, cuatro, cinco o siete nodos no son muy grandes dado que K-means con cuatro nodos presenta grupos más diferenciados o reconocibles (tienen características más marcadas que hace más fácil identificar deudores de uno u otro grupo) se preferirá este modelo. Por otro lado, las diferencias de EM con tres, cuatro, cinco, siete, e incluso nueve nodos, no varían significativamente, por lo cual, al igual que con K-means, se preferirá el modelo de cuatro nodos que produce segmentos más diferenciados y manejables. Fuera de esto, se obtuvieron resultados a la hora de realizar el proceso de entrenamiento y evaluación. Los resultados con 4 nodos tanto en K-means como EM se pueden ver en detalle en los anexos 9 y 10. Mientras que los resultados con 5 nodos con K-means y EM se pueden ver en los anexos 11 y 12. 2) Entrenamiento y evaluación usando la opción percentage split 22 de weka: 22 Opción de la herramienta Weka en la que se divide el conjunto de datos en datos de entrenamientos y datos para evaluación o testeo. 75

93 Se realizó evaluación de K-means y EM con 4 y 5 nodos, sin embargo el mejor resultado fue con cuatro nodos, reafirmando el resultado del método de evaluación anterior. Por lo que se listan estos resultados en las tablas de los anexos Se hicieron pruebas considerando el 55%, 60% y 66% de los datos para evaluación, pero los mejores resultados se dieron con 50%. Los resultados de esta evaluación indican que EM responde algo mejor al realizar evaluación, manteniéndose las características de los grupos al emplear otra muestra de datos, a diferencia de K-means donde hay mayores variaciones, como el caso de la carrera en el clúster 2. 3) Evaluación mediante clases. Si bien no se estableció un modelo de clasificación previo, una forma de evaluar que los segmentos estén bien ubicados es especificando clases de antemano y luego verificando si los algoritmos de clustering coinciden con estas clases. Como se contaba con 4 clústeres, estos se dividieron de acuerdo a su responsabilidad en las siguientes clases: - Muy bueno (MB): responsabi lidad_ f 1/ 4 - Bueno (B): 1/ 4 responsabi lidad_ f 2/ 4 - Medio (med): 2/ 4 responsabi lidad_ f 3/ 4 - Malo (M): responsabi lidad_ f 3/ 4 Para definir estas clases se tomaron los valores de responsabilidad y se agregó como nuevo atributo a la vista minable el atributo comportamiento_pago, que especifica una de estas cuatro categorías. 76

94 Al realizar las comparaciones, para ver que tan bien clasificaba el algoritmo, se utilizó la opción classes to cluster evaluation de weka, que consiste en que el algoritmo es ejecutado a un modo de entrenamiento normal, pero al finalizar se hacen comparaciones con los clusteres obtenidos y las clases definidas previamente. La evaluación para los algoritmos EM y k-means entregó los resultados que se pueden ver en las figuras 51 y 52. Figura 51: Resultado evaluación clases algoritmo EM Figura 52: Resultado evaluación clases, algoritmo K-means De esto se concluye que con este tipo de evaluación los algoritmos no parecen funcionar del todo bien Comparación de resultados de evaluación e interpretación Los resultados de la evaluación utilizando el índice de verosimilitud y la utilización de la validación cruzada son complementarios, como se pudo ver anteriormente. Por un lado, usando el wrapper Make Density Based clusterer se obtuvieron valores de verosimilitud para los modelos más útiles, mostrados en la tabla 20, los cuales indicaban que no habían grandes diferencias en cuanto a su confiabilidad, para modelos de 3 a 9 nodos, por lo cual, en vista a los resultados de estos modelos, es de mayor relevancia considerarlo con cuatro nodos, solamente. 77

95 Finalmente, usando datos para entrenamiento y evaluación se pudo verificar, que con cuatro nodos la evaluación funcionaba mejor y que además el algoritmo EM producía mejores resultados que K-means. Esto debido a que los resultados de la evaluación con K-means difieren con los de entrenamiento, vistos anteriormente Selección de modelos Ya que el algoritmo K-means con cuatro nodos es bien evaluado, a pesar de que numéricamente no está dentro de los mejores (pues COBWEB indica cinco nodos y EM nueve), será elegido debido a que en la práctica resulta mucho más útil que un modelo de cinco o más nodos, donde el comportamiento de los deudores de un segmento a otro se vuelve muy poco diferenciado. La sugerencia de nueve nodos indicada por EM no se tomará en cuenta debido a que se generan muchos grupos que no pueden ser diferenciables de acuerdo a su comportamiento de pago y además, como se indica en la tabla 20, la diferencia del índice de verosimilitud entre EM de cuatro nodos y nueve nodos es muy pequeña. Para que los perfiles obtenidos sean fiables, se considerarán además los resultados obtenidos en EM de cuatro nodos, ya que EM entrega información más detallada de la ocurrencia de algunos valores, por ejemplo el hecho de mostrar la frecuencia de cada valor de los atributos nominales es de gran utilidad para realizar los perfiles (por ejemplo en el caso del área de estudio, donde se deben identificar las carreras predominantes, cosa que no se puede ver en la implementación de K-means en Weka). 78

96 10. EVALUACIÓN Recordando que el objetivo primordial, que motiva este trabajo, es lograr una mayor recaudación del crédito universitario por parte de la Universidad de la Frontera (UFRO). Para el mejoramiento de la recaudación, la UFRO ha implementado campañas de cobranza por medio de un contact center donde, mediante llamadas se les recuerda a los deudores que sus cuotas vencen en poco tiempo o que deben comenzar a pagar el crédito, luego de los dos años que se les da posterior a su salida de la universidad. Estas campañas se han implementado desde el año 2006, pero previo a este trabajo no se habían analizado en detalle sus resultados, ni tampoco habían sido enfocadas de acuerdo a perfiles. Lo que sí se ha verificado, es que la recaudación desde estos años ha comenzado a aumentar, pero no se tiene certeza si es debido a la implementación de campañas, por alguna de ellas en especial, o por otra medida adoptada, como la opción de múltiples modos de pago. Así, el presente trabajo tiene el objetivo de crear perfiles de deudores de crédito universitario, los que aportarán a un mejoramiento de las campañas de cobranza y esto a su vez debería derivar en un aumento de recaudación de los dineros del crédito. La creación de perfiles que segmenten a los deudores, de acuerdo a sus características y comportamiento de pago, permitirá generar campañas más eficientes y focalizadas en aquellos deudores de interés. Estos perfiles permitirán identificar a quiénes no pagan para producir un cambio en su comportamiento o para dirigirse a quienes pagan regularmente y solicitarles una mayor responsabilidad. Un esquema de los resultados obtenidos se puede ver en la figura 53. En esta figura se pueden ver los cuatro perfiles identificados al realizar los modelos de minería de datos, empleando clustering o agrupamiento. Con los perfiles generados, a partir de modelos de minería de datos, se consigue responder a los objetivos de negocio, pues se han generado cuatro perfiles que segmentan a los deudores en su comportamiento de pago (malo, medio, bueno y muy bueno). 79

97 Figura 53: Perfiles de deudores de crédito Universitario o fiscal El análisis de respuesta a las campañas, realizado como parte de la exploración, sugiere que el empleo de estos perfiles daría muy buenos resultados en el enfoque de campañas, porque son coherentes en resultados, tales como: 1) Se indica que los deudores que rinden la PCE de ciencias sociales no tienen muy buena respuesta a las campañas. De esta forma, se podría deducir que el segmento de pagadores de comportamiento promedio puede no ser un muy buen objetivo a la hora de realizar campañas de cobranza, ya que, aunque tengan mal comportamiento de pago y se busque mejorarlo, el hecho de que su respuesta a campañas sea mala indica que es un segmento en que se deberían implementar nuevas campañas o modificarlas. 2) Se indica, por otro lado que aquellos deudores que rindieron la PCE de matemática sí tienen buena respuesta a las campañas, por lo que enfocarse en el segmento de buenos pagadores (en azul) sería probablemente una buena opción. 3) Luego, considerando aquellos deudores de buen rendimiento, se puede elegir al segmento en verde y/o azul, ya que mientras mejor rendimiento es mejor la respuesta a campañas, por lo que se vio al analizar la variable PGA. De esta forma, con estos perfiles se podrán al menos realizar dos acciones generales: 80

98 1) Enfocar campañas para que aquellos deudores de buen comportamiento sean más conscientes y responsables de sus deudas. Logrando mayores porcentajes de recaudación entre estos segmentos, que correspondería a resultados a corto plazo. 2) Enfocar campañas para lograr mayor responsabilidad en los posibles futuros deudores morosos. Teniendo como objetivo la concientización del beneficio que se les otorga, desde el momento en que esto se realiza. Posteriormente, se debería reforzar esta idea en el momento en el que el alumno se retira (probablemente eliminado) de la carrera. Tal como se ha mencionado anteriormente, este tipo de campañas de concientización ha sido implementado exitosamente en el cobro de préstamos universitarios que se realiza en EEUU. Campañas de esta clase, unidas a leyes más rigurosas, generarían muy buenos resultados Revisión de resultados por parte de los expertos de la UFRO. Los resultados expuestos en este documento fueron presentados al director del departamento de finanzas de la UFRO, al encargado del crédito universitario y otras personas relacionadas, estos se mostraron conformes con éstos. Junto a la realización de esta presentación de resultados se realizó una encuesta en que se obtuvieron los resultados mostrados en la tabla 20. Para evaluar cada aspecto importante del trabajo se consideró una escala de 1 a 5, siendo 1 la peor y 5 la mejor. Como se puede ver en la tabla 20, los puntajes promedios obtenidos en cada una de las preguntas son bastante buenos. La puntuación más baja que se obtuvo fue un 4,25. Las mejores puntuaciones (5) se marcaron en verde, y las peores (4,25) se marcaron en rojo, en dicha tabla. El promedio obtenido de la encuesta fue de 4,72. 81

99 Tabla 20: Resultado encuesta Encuestado Pregunta Encuestado1 Encuestado2 Encuestado3 Encuestado4 Eval (total/ max) 1. Las indicaciones referentes a la calidad de datos son de utilidad para mejorar procesos futuros ,75 2. Los resultados del análisis y exploración son coherentes al negocio ,25 3. Los resultados del análisis y exploración señalan asociaciones o frecuencias que eran desconocidas antes del desarrollo de este estudio Los resultados del análisis y exploración muestran resultados lógicos pero que son de gran utilidad al ser respaldados por un estudio cuantitativo ,75 5. El análisis de campañas y efecto en el pago del crédito presenta resultados útiles para mejoramiento de próximas campañas ,75 6. El análisis y exploración de datos realizado presenta utilidad para proyectos futuros ,75 7. Los perfiles encontrados contienen variables o características que antes del estudio eran desconocidas ,25 8. Los perfiles encontrados satisfacen las expectativas del estudio de minería de datos Los resultados de modelamiento y análisis contienen gran potencialidad para el mejoramiento de las campañas

100 De estos puntajes, los resultados peor evaluados fueron los resultados de análisis y exploración de datos (debido a que existían inconsistencias que no se reconocen como errores de los datos sino falta de estos o errores al enviarlos) y además las características de los clústeres encontrados, se consideran que no son desconocidas, como es de suponer. Luego, los resultados mejor evaluados son los que corresponden al modelamiento y perfiles encontrados. Además de las asociaciones encontradas al realizar el análisis de datos (por ejemplo: rendimiento académico y mejor respuesta a campañas). De esta forma se puede ver, que las sugerencias de mejores enfoques de campañas de acuerdo a los perfiles y análisis realizados, son de gran relevancia para los expertos. No así las apreciaciones que se hicieron de la calidad de los datos. 83

101 11. CONCLUSIONES Y RECOMENDACIONES 11.1 Revisión del éxito del proyecto El proyecto cumplió su objetivo de la creación de perfiles de deudores, mediante minería de datos. La efectividad de éstos en la mejora de campañas de cobranza se comprobará cuando estas campañas se puedan probar en la UFRO. No obstante, se debe tener en cuenta que el perfilamiento de los deudores no se pudo realizar considerando variables relacionadas con la aplicación de campañas, y esto es debido a la escasez de datos válidos con los que se contaba. Los perfiles generados, luego de varias mejoras en el proceso de preparación de datos y modelamiento son mucho más sencillos y diferenciados de lo que se esperaba, pues se logran distinguir cuatro grupos muy distintos de deudores, considerando tanto características personales como académicas y financieras. Otro aspecto importante a considerar en el éxito de este proyecto es el empleo de herramientas open source para realizar el análisis y modelado de datos. Si bien no se mencionaron como objetivo del trabajo, sí estaba dentro de sus requisitos y se pudo comprobar que son sencillas de emplear y bastante estables, en particular la herramienta Weka. Además, si bien es cierto que Orange presentaba más limitaciones y menos estabilidad que Weka, fue un excelente apoyo para la visualización de gráficos y para ejecutar el análisis de datos, empleando workflows. Todos los gráficos mostrados en los documentos de objetivos anteriores fueron obtenidos con Orange. Además, es de considerar como éxito del proyecto la evaluación realizada por los expertos, los cuales de una nota máxima de 5 dieron un promedio de 4,72 a todos los resultados que les fueron mostrados, lo que muestra su satisfacción en el logro de los objetivos y cumplimiento de las expectativas. Si bien se sabe que se sólo comprobará totalmente que el trabajo realizado es satisfactorio luego de realizar la implementación de estos resultados, se deben considerar algunos aspectos que son importantes de mencionar: 1) Preparación y descripción de datos: el empleo de datos que en algunos casos no presentaban valores coherentes. Muchos de ellos se limpiaron, utilizando valores medios, eliminando dichos registros o atenuando sus efectos en el modelado empleando las opciones de normalización que ofrecían las herramientas. 84

102 Por otro lado, se utilizó parte de los atributos disponibles pues muchos de ellos tenían valores perdidos o repetidos y no eran relevantes a la hora de generar los modelos. Los atributos disponibles en este estudio fueron en su mayoría los solicitados inicialmente más los sugeridos por entendidos de la UFRO. Solamente no se pudieron obtener los atributos sueldo, estado civil (actual) y número de hijos (actual), lo cual probablemente hubiera contribuido a generar perfiles mucho más precisos. 2) Tipos de campañas: sólo se cuenta con información de las campañas de llamados, no así de campañas publicitarias (afiches, volantes, otros), ni cartas o mails enviados. Las llamadas contestadas por los deudores corresponden a la mitad del total de datos de campañas obtenidos. 3) Los datos con los que se trabajó en el presente estudio se asumen como fiables. No obstante, existen dudas pendientes sobre comprensión de los datos que no pudieron ser revisadas con los encargados de la UFRO. Por lo que las inconsistencias o falta de conocimiento de la metadata pueden tener implicancias negativas en los resultados obtenidos, aunque esto se minimizó reemplazando estos datos por los valores medios o no considerando los registros, entre otros recursos Determinación de próximos pasos Como próximos pasos se tienen los siguientes: 1) El paso más inmediato a realizar, luego de terminado este estudio, es la evaluación de sus resultados, por parte de los entendidos de la UFRO, los cuales deberán indicar si el análisis de datos obtenido y los perfiles encontrados satisfacen sus necesidades en su búsqueda de mejorar las campañas de cobranza del crédito y de no ser así, qué cambios realizarían. 2) El siguiente paso, al ser aprobados los modelos obtenidos (que corresponden a los resultados de esta tesis), es implementar campañas que incluyan enfoques de acuerdo a los perfiles encontrados y posteriormente verificar sus resultados. Si se desea seguir este paso se deberían considerar las sugerencias dadas a continuación y listar otras posibles sugerencias y acciones que se estimen necesarias. 85

103 Sugerencias para trabajos futuros Al momento de implementar campañas usando perfiles se sugiere lo siguiente: 1) Revisar la descripción de datos realizada, pues en el caso de varios atributos éstas no concordaban con la realidad. 2) Una consideración para proyectos futuros es tener datos fiables a la hora de estudiar las campañas. Si no se establece un control y mayor rigurosidad en el ingreso de estos datos ningún análisis de resultados de campañas será confiable. Al momento de implementar una campaña de cobranza, realizar un plan que permita al menos: a. Tener certeza de que el deudor fue contactado. b. Deudores no contactados tengan un estado claro. c. Establecer a qué deudores se quiere llegar ( A quienes pagan muy poco?, A quienes pagan bastante pero de forma irregular?, A quienes tienen comportamiento medio de pago y se sabe que mejorarían?). Luego, dirigir la campaña a ellos y no necesariamente a todo el universo de deudores. d. Analizar si hay más atributos que se podrían obtener de los deudores a la hora de realizar una campaña telefónica. De ser así, habilitar un sistema que obligue a llenar estos datos y no se produzcan ambigüedades. Luego, todos estos datos servirán para analizar los resultados de las campañas. e. Luego de realizada la campaña, recopilar los datos y comprobar que son consistentes y útiles para efectuar un análisis. De encontrar problemas listarlos y considerarlos para campañas futuras. 3) Teniendo una descripción de datos clara verificar si hay datos que necesiten ser limpiados. (Por ejemplo, en el caso de promedios de enseñanza media, PAA o PGA). 4) Estudiar con entendidos (sociólogos, académicos, psicólogos etc.) las razones de que ciertas características de los deudores sean determinantes en ciertos 86

104 comportamientos. Esto puede también ayudar a realizar mejores campañas futuras y además a considerar nuevos atributos para generar los perfiles Proyectos futuros De los resultados mencionados en la sección anterior se derivan también ideas para proyectos futuros. 1) Creación e implementación de campañas empleando los perfiles encontrados. Esto incluye considerar el enfoque que se le desea dar a la campaña: si se busca concientizar a los deudores más morosos, recaudar fondos a corto plazo, de aquellos segmentos que responden mejor, entre otros posibles enfoques que deberían ser analizados en un proyecto futuro. 2) Considerando la fiabilidad de los datos a utilizar, y la creación de campañas que contengan un enfoque en base a los perfiles generados, se deben analizar los resultados de dichas campañas. Recién en este punto se podrá decidir si los perfiles contribuyen en el aumento de la recaudación de dineros del crédito universitario. 3) Realizar un estudio a un nivel mayor de detalle, temporal, y no realizar sólo agregaciones o resúmenes de las tablas (donde se considera sólo un promedio de todos los años de pagos, deudas, entre otros), sino que ver estos datos por años o por períodos de años (3 años, 5 años). Esto consideraría una visión más realista, ya que las personas varían su comportamiento en el tiempo, debido a diversas variables, como la edad, los hijos, el matrimonio, el sueldo, cambio de domicilio, entre otros (no disponibles en este momento, pero de gran utilidad si se desea generar un estudio más profundo y detallado). Además se pueden considerar campañas que no sean solo llamadas, las cuales por supuesto deben contar con un registro asociado a cada deudor al que se le aplica. 4) Asumiendo el éxito de la aplicación de perfiles, ya sea en forma general, como la que se realiza en este estudio o más detallada, se debería poder aplicar el mismo procedimiento para otros créditos universitarios, como es el caso del crédito UFRO o crédito especial. 5) Otro proyecto futuro muy significativo, es la creación de modelos de respuesta a campañas. Si se comprueba la efectividad de la creación y utilización de clústeres 87

105 dentro de las campañas, se podrán sacar resultados de las respuestas de cada clúster en particular. Teniendo estos datos es factible generar un modelo predictivo, correspondiente a un modelo de respuesta, donde se puedan simular los resultados de futuras campañas o de cambios en éstas, a priori. 88

106 12. GLOSARIO Algoritmo: Conjunto finito de instrucciones para llevar a cabo una tarea. Constan de pasos finitos, no ambiguos y, de ser posible, eficientes. Actividad: división de una tarea en CRISP. Aprendizaje supervisado: El algoritmo produce una función que establece una correspondencia entre las entradas y las salidas deseadas del sistema. Un ejemplo de este tipo de algoritmo es el problema de clasificación, donde el sistema de aprendizaje trata de etiquetar (clasificar) una serie de vectores utilizando una entre varias categorías (clases). La base de conocimiento del sistema está formada por ejemplos de etiquetados anteriores. Aprendizaje no supervisado: Todo el proceso de modelado se lleva a cabo sobre un conjunto de ejemplos formado tan sólo por entradas al sistema. No se tiene información sobre las categorías de esos ejemplos. Arancel de referencia: El arancel de referencia es el valor que le asigna el Estado a cada una de las profesiones tomando diferentes pautas para definirlo. En otras palabras, este es el monto máximo que se le puede entregar a los beneficiados por becas o créditos [Univ10]. Fase: Se le denomina fase al asunto o paso dentro del proceso. CRISP-DM consta de 6 fases: comprensión del negocio, comprensión de los datos, preparación de los datos, modelación, evaluación y explotación. FSCU: Fondo solidario de crédito Universitario Herramienta: Instrumento / Recurso que se utiliza para realizar una actividad. Instancias de proceso: Las instancias de proceso son las acciones y resultados de las actividades realizadas dentro de cada fase del proyecto. Lista minable o dataset: es un conjunto o colección de datos, usualmente presentados en forma tabular. Cada valor de la tabla se conoce como datum. Método: Modo ordenado y sistemático de proceder para lograr un fin / conjunto de reglas Metodología: Conjunto de métodos que se siguen en una disciplina científica / ciencia del método y de la sistematización científica. Minería de datos: Descubrimiento de relaciones en grandes conjuntos de datos. Conjunto de técnicas aplicadas al proceso de extracción y presentación de conocimiento que yace implícito en grandes conjuntos de datos, que es desconocido y útil en términos de negocios, y que permite predecir en forma automatizada el comportamiento de los clientes. 89

107 Modelo: Representación /esquema teórico que representa una realidad compleja y facilita su comprensión. La capacidad de aplicar algoritmos a un conjunto de datos para predecir atributos objetivos. Poda (de un árbol de clasificación): Proceso de cortar o suprimir nodos de un árbol. Se puede realizar una pre-poda o post poda que difieren en que la primera se produce antes de terminar de crear el árbol y la segunda se realiza después. Proceso: Conjunto de diferentes fases o etapas que tiene una acción compleja. Ruido: Desviaciones en los datos que no tienen causas relevantes, son producto de errores. Salida: Resultado tangible de una tarea realizada. Tarea: En CRISP-DM, una serie de actividades para producir una o más salidas que forman parte de una fase. Tarea genérica: En CRISP-DM, cada fase está formada por tareas genéricas, o sea, la tarea genérica es la descripción de las actividades que se realizan dentro de cada fase. Por ejemplo, la tarea Limpiar los datos es una tarea genérica. Tarea especializada: En CRISP-DM la tarea especializada describe cómo se pueden llevar a cabo las tareas genéricas en situaciones específicas. Por ejemplo, la tarea Limpiar los datos tiene tareas especializadas, como limpiar valores numéricos, y limpiar valores categóricos. Técnica: Aplicación práctica de métodos y conocimientos relativos a diversas ciencias. Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un pre-procesado diferente de los datos. Las técnicas de minería de datos provienen de la Inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. 90

108 13. REFERENCIAS [Alf] Alfaro E. (n.d.). Algoritmos Genéticos. Disponible en Consultado el 27 de enero de [Ber04] Berry M. & Linoff G. (2004). Data Mining Techniques. For Marketing, Sales and Customer Relationship Management. Willey Publishing. [Bcn09] Biblioteca Congreso Nacional (2009). Cómo Pagar un Crédito Universitario, Disponible en Consultado el 15 de Noviembre de [Cse] Consejo Superior de Educación (n.d.). Educación superior en Chile. Información del contexto, Disponible en xto.aspx, Consultado el 13 de Noviembre de [Cse09a] Consejo Superior de Educación (2009). Matricula Total de Pregrado, Disponible en _2009.pdf, Consultado el 14 de Noviembre de [Cse09b] Consejo Superior de Educación (2009). Índices: Estadísticas y Base de Datos, Disponible en encion.aspx, Consultado el 15 de Enero de [Cri00] Chapman P., Clinton J., Kerber R., Khabaza T. Reinartz T., Shearer C. & Wirth R. CRISP-DM 1.0 Step-by-step data mining guide (2000), Disponible en Consultado el 7 de enero de

109 [Dat] Dataprix (n.d). Reglas de asociación. Disponible en Consultado el 5 de febrero de [Eft09] EFT Group (2009). Universidad de La Frontera implementa sistema de recaudación integrado, Disponible en Consultado el 6 de diciembre de [Gar07] García M & Álvarez A. Análisis de datos en WEKA Pruebas de selectividad (2007). Disponible en Consultado el 8 de julio de [Garr07] Garre M., Cuadrado J., Sicilia M., Rodríguez D., Rejas R. Comparación de diferentes algoritmos de clustering en la estimación de coste en el desarrollo de software. Consultado el 23 de julio de [Han00] Han J. & Kamber M. (2000). Data mining: Concepts and Techniques. Morgan Kaufmann Publishers. [Her04] Hernández J., Ramírez Q. & Ferri C. (2004). Introducción a la minería de datos. Pearson Prentice Hall. Consultado el 1 de julio de [Her06] Hernández J. & Ferri C. (2006). Curso de Doctorado Extracción Automática de Conocimiento en Bases de Datos e Ingeniería del Software. Universidad Politécnica de Valencia. Disponible en Consultado el 4 de febrero de [Ing09] Sistema de Crédito para Estudios Superiores (2009). Ingresa, Disponible en Consultado el 14 de Noviembre de [Jar05] Jaramillo P. (2005). Diseño de un Modelo Parametrizado, usando Data Mining, que permita a Telefónica Del Sur segmentar por valor a los clientes de prepago. Tesis de Grado. 92

110 [Ket] Sitio Pentaho Data Integration o Kettle (2009). Disponible en Consultado el 1 de junio de [Ora] Orange (n.d.). Sitio oficial Orange. Disponible en Consultado el 5 de Febrero de [Kre07] Kremerman M. (2007). El desalojo en la Universidad Pública, Disponible en Consultado el 18 de enero de [Leo95] León J. (1995). Serie documentos de trabajo C.P.U. [Man] Manns R. (n.d). El Programa Australiano de Crédito para la Educación Superior, Disponible en material-56/material-dc-exp.html, Consultado el 3 de diciembre de [May09] Mayes C. (2009). Crédito Educativo en EEUU, Disponible en Consultado el 6 de diciembre de [Mar] Martí L. Técnicas de análisis de datos en weka (n.d.). Disponible en Consultado el 15 de julio de [Mor09] Morales E. & González J. (2009). Aprendizaje Computacional. Disponible en Consultado el 21 de enero de [Ocd09] OCDE & Banco Mundial (2009). La Educación Superior en Chile, pp55, Disponible en Consultado el 5 de Diciembre de

111 [Pat03]Patel N. (2003). Comparación de técnicas de minería de datos. Disponible en MiningSpring2003/21399C69-6DB8-4F42-9A2B-4D1C1FAE0E78/0/comparison.pdf, Consultado el 8 de febrero de [Par01] Parr O. (2001). Data Mining Cookbook. Willey Computer Publishing. [Ped08] Pedrote I. (2008). Reportaje: Hagamos de la Universidad un negocio Diario El País, Disponible enhttp:// elpepisoc_1/Tes, Consultado el 5 de enero de [Rui] Ruiz J.J (N.D.) El Banco Santander y el crédito educativo en América Latina Disponible en Consultado el 8 de enero de [Sim09] Simonsen E. & Herrera J. (2009). Diario La Tercera. Aranceles universitarios en Chile son los más caros entre más de treinta naciones, Disponible en Consultado el 6 de enero de [Tal] Talavera L. & Gaudioso E. (n.d). Mining Student Data To Characterize Similar Behavior Groups In Unstructured Collaboration Spaces, Disponible en Consultado el 11 de enero de [Uch08] Centro Microdatos U.Chile (2008). Estudio sobre causas de deserción Universitaria, Disponible en a.pdf, Consultado el 5 de enero de

112 [Ufro03] Universidad de la Frontera (2003). Nueva ley facilita devolución de crédito universitario, Disponible en Consultado el 10 de Noviembre de [Univ10] Universia Chile. Qué es el arancel de referencia, Disponible en Consultado el 3 de diciembre de [Weka] Weka. Sitio web de Weka. Disponible en Consultado el 4 de Febrero de [Wit05 ]Witten I.& Frank E. (2005). Data mining. Practical machine learning tools and techniques. Morgan Kaufmann Publishers. [Tva09] Pardo M. (2009). Video Desafíos de Recaudación en Universidades, Disponible en Consultado el 2 de noviembre de [Ye03] Ye N. (2003). The Handbook of Data Mining. Lawrence Erlbaum Associates, Publishers. 95

113 14. ANEXOS 14.1 Anexo 1: Resumen fases, tareas, salidas y actividades de CRISP- DM [Cri00] Tabla 21: Resumen fases, tareas, salidas y actividades de CRISP-DM [Cri00] Fase Tareas Actividades Salidas Comprensión Determinar Contexto del negocio objetivos de Objetivos de negocio negocio Criterios de negocio Evaluar Inventario de situación recursos Requerimientos, supuestos y restricciones Terminología Costos y beneficios Determinar Objetivos objetivos de minería de datos Producir plan de proyecto Plan Evaluación inicial de herramientas y técnicas Comprensión de los datos Recolectar datos iniciales Ver información necesaria. Elegir tablas/archivos de interés Elegir datos dentro de las tablas o archivos Decidir largo de historial a usar Informe o reporte de colección de datos inicial Describir datos Explorar datos los los Verificar calidad de los datos Identificar datos y métodos de captura Acceder a las fuentes de datos Analizar relaciones claves. Usar análisis estadísticos si es apropiado Actualizar la lista de suposiciones, si es necesario Reportar tablas y sus relaciones Revisar datos con entradas de texto libre Revisar volumen y complejidad de los datos Analizar en detalle propiedades de atributos interesantes Formar suposiciones para análisis futuros Identificar valores especiales y catalogar su significado. Revisar atributos claves. Comprobar las claves. Verificar coherencia de significados y valores de los atributos Identificar atributos omitidos y campos en blanco Comprobar mayúsculas/minúsculas Comprobar desviaciones 96 Reporte de descripción de los datos Reporte de exploración de datos Informe de calidad de los datos:

114 Tabla 21 (continuación): Resumen fases, tareas, salidas y actividades de CRISP-DM [Cri00] Fase Tareas Actividades Salidas Comprensión de los datos Preparación de los datos Selecciona r datos Limpieza de datos Construir datos Comprobar plausibilidad de valores Repasar atributos que están en desacuerdo con el sentido común En archivos planos, revisar correcto uso de delimitadores y comprobar número de campos en cada registro Analizar si es necesario excluir algunos datos Recoger datos adicionales Realizar pruebas de significancia y correlación para decidir inclusión Comprobar técnicas disponibles para muestreo Reconsiderar criterios de selección de datos por pasos anteriores Considerar uso de técnicas de muestreo Documentar razonamiento para exclusión/inclusión Corregir, remover o ignorar el ruido Decidir cómo tratar con valores especiales y su significado Reconsiderar criterios de selección de datos según experiencia de datos limpiados Decidir si cualquier atributo puede ser normalizado Agregar nuevos atributos para acceder a los datos Especificar pasos de transformaciones Realizar pasos de transformación Comprobar por técnicas disponibles si es necesario generar registros Conjunto de datos Informe de descripción del conjunto de datos, incluye: o Descripción preproceso o Descripción detallada (tablas, campos) del conjunto de datos resultante o Razonamientos inclusión/ exclusión o Descubrimientos o Resumen y conclusiones Razonamientos para la inclusión/exclusión: Listado de los datos incluidos y los motivos para utilizarlos Reporte de la limpieza de datos realizada Atributos derivados Generación de registros 97

115 Tabla 21 (continuación): Resumen fases, tareas, salidas y actividades de CRISP-DM [Cri00] Fase Tareas Actividades Salidas Preparación de Integrar datos Comprobar si las aplicaciones Combinación de datos los datos disponibles son capaces de integrar las fuentes de entrada como se requiere Integrar fuentes y resultados almacenados Reconsiderar criterios de selección de datos Formatear datos Reordenado de registros Datos formateados Reformateado de valores internos (cambios sintácticos) Reconsiderar criterios de selección de datos Modelado Seleccionar la Elegir técnica de modelado a Documentar técnicas técnica de utilizar de modelado escogida modelado Definir cualquier suposición incorporada Informe suposiciones de de Comparar suposiciones con modelado aquellas del informe de descripción de datos. Asegurarse de que estas suposiciones son válidas, de no ser así volver a la preparación Generar diseño pruebas Construir modelo Evaluar modelo el de el el de datos. Comprobar que existen pruebas separadas para cada objeto de minería de datos Decidir pasos necesarios Preparar los datos requeridos para la prueba Listar parámetros y valores escogidos, junto con la herramienta, incluyendo los motivos de esta elección Modelos reales obtenidos por la herramienta, no son informes Describir cualquier característica del modelo actual que puede ser útil a futuro Descripción detallada del modelo Listar información técnica Evaluar resultados respecto a los criterios de evaluación Comparar resultados de evaluación e interpretación Seleccionar mejores modelos Interpretar resultados de acuerdo al negocio Informe de diseño de pruebas: Describir el plan elegido para el entrenamiento, la prueba, y la evaluación de los modelos Configuración de parámetros Modelos Informe de descripción del modelo: Este informe describe los modelos entregados y las descripciones del proceso por el que ellos fueron producidos Informe de evaluación de modelos: El informe de evaluación debe contener descripciones del proceso de evaluación y los resultados 98

116 Tabla 21 (continuación): Resumen fases, tareas, salidas y actividades de CRISP-DM [Cri00] Fase Tareas Actividades Salidas Modelado Evaluar el modelo Evaluación Evaluar los resultados Proceso revisión de Determinar próximos pasos Desarrollo Desarrollo del plan Chequear credibilidad del modelo Comprobar fiabilidad de los resultados Analizar potencial para el desarrollo de cada resultado Evaluar resultados Ajustar los parámetros para producir mejores modelos Comprender los resultados de minería de datos Interpretar resultados de acuerdo a su aplicación Comprobar los resultados de minería con base en el conocimiento Evaluar y estimar los resultados respecto a los criterios de éxito de negocio. Expresar recomendaciones para proyectos futuros Describir el proceso de minería de datos usado Analizar el proceso de minería de datos usado Identificar fracasos Analizar potencial para desarrollo de cada resultado Estudiar potencial para mejora de proceso actual Reformar plan de proceso Recomendar posibles alternativas Clasificar acciones posibles Seleccionar una de las acciones posibles Documentar razones para la elección Identificar posibles problemas o peligros de la implementación Resumir resultados utilizables Construir y evaluar los planes alternativos para el desarrollo Decidir cómo serán usados los resultados y medidos sus beneficios Establecer cómo serán desplegados los resultados 99 Se debe repetir la construcción y evaluación de modelos hasta encontrar el o los mejores. Revisión de parámetros de configuración Informe de evaluación de los resultados de minería de datos en base a los criterios de éxito de negocio. Incluye: Revisión de objetivos y criterios de éxito de negocio (que podrían haber cambiado). Revisión del éxito de proyecto Conclusiones para futuros proyectos de minería de datos Modelos aprobados (luego de su aprobación de acuerdo a los criterios de éxito del negocio) Realizar un informe de estas actividades Lista de posibles acciones Decisiones Informe de plan de desarrollo. Incluye: Resumen de los resultados desarrollados (derivado de los informes de Próximos Pasos) Descripción de plan de desarrollo

117 Tabla 21 (continuación): Resumen fases, tareas, salidas y actividades de CRISP-DM [Cri00] Fase Tareas Actividades Salidas Desarrollo Plan de supervisión y mantenimiento Generación del informe final Resumir la estrategia de supervisión y mantenimiento incluyendo los pasos necesarios y como realizarlos Analizar que tan bien se han logrado los objetivos de minería de datos. Seleccionar conclusiones para ser incluidas en los informes Escribir el informe Informe Incluye: final. o Resumen de la comprensión del negocio. o Resumen de proceso de minería de datos o Resumen de resultados de minería de datos o Resumen de evaluación de resultados o Resumen del desarrollo y de los planes de mantenimiento o Análisis Costo/Beneficio o Conclusiones para el negocio o Conclusiones para aplicaciones futuras de minería de datos Presentación final (se presentan verbalmente los resultados al cliente) Revisión proyecto del Entrevistar a usuarios finales Resumir retroalimentación y escribir documentación de la experiencia Analizar el proceso Documentar el proceso de minería de datos específico Generalizar desde los detalles para producir experiencia útil para proyectos futuros Documentación de la experiencia 100

118 14.2 Anexo 2 Datos personales alumno: Tabla: alumnos Descripción: Contiene información personal del alumno: como sexo, fecha de nacimiento, ciudad de origen, nacionalidad, estado civil, y ascendencia mapuche registros 12 campos 8 seleccionados Tabla original: eft_alumnos Tabla 22: Tabla alumnos (Información personal de alumnos con crédito universitario) Campos Descripción Tipo Vacías (si/no) Id Identificador de alumno Texto libre Número No No Observación genero Código género Número No No des_genero Descripción tipo No No género fec_nacimiento Fecha de nacimiento Texto Si No Formato de campo DD/MM/YYYY, existen fechas de nacimiento 1900 anio_nacimiento Año de nacimiento Texto Si No dom_ciudad Ciudad de origen Texto Si Si dom_comuna Texto Si Si Se considerará región, pero se aprovechará la comuna para asociar la región. cod_nacionalidad Nacionalidad: Número No No 99,9% chilenos 1=chilena, 2=otra cod_estado_civil Código estado civil: Número No No 7 opciones des_estado Contiene el estado Texto No 96.4% soltero, 3,6% asc_mapu civil en palabras Ascendencia mapuche (declarada): si o no otro Texto No No 88,8% no mapuche nro_hijos Número de hijos Número No Si 99,4% sin hijos. 101

119 Datos académicos del alumno, antes de entrar a la universidad: Tabla ingresos Descripción: Almacena datos del alumno al ingresar a la universidad. En esta tabla está toda la información académica previa a su ingreso a la universidad (colegio, PSU o PAA, carrera a la que ingresa, entre otros) registros 28 campos 25 seleccionados Tabla original: EFT_Ingresos Tabla 23: Tabla ingresos (ingresos a carreras de la UFRO de alumnos con crédito) Campo Descripción Tipo Vacías (si/no) Id varios_ingresos ano_inguni cod_coleg Identificador de alumno Identifica si un alumno ingresó más de una vez Año de ingreso a la universidad Código del ministerio de educación Texto libre (si/no) Observación Número No No Funciona como clave primaria compuesta junto a ano_inguni Texto Si Número No Si Texto Si No Puede tener errores de ingreso, ya que son los alumnos los que escriben estos códigos. nom_coleg Nombre colegio Texto Si No ciudad_col Ubicación del Texto Si No Existen celdas vacías y. colegio. cod_tipcol Código tipo de Número Si No Científico, humanista, etc. colegio des_tipcol Descripción tipo de Texto Si No colegio cod_regedu Código tipo de establecimiento Número Si No Particular, subvencionado, municipal. des_regedu Descripción tipo de Texto Si No establecimiento ano_egr_em Año de egreso de Número Si Si enseñanza media prom_e_med Promedio de notas Número Si Si NEM (Notas enseñanza media) enseñanza media ptj_e_med Puntaje equivalente (PSU, PAA) prom. E. media Número Si Si Tabla de equivalencias de NEM y puntaje de acuerdo a carrera paa_verbal Puntaje PAA Verbal Número Si Si Si rindió PSU, PAA es cero o vacía paa_matema Puntaje PAA matemática Número Si Si Valores PAA =-1 significa PSU (no hay integridad, hay también 0s) paa_hyg Puntaje PAA Número Si Si historia y geografía pce_biolog Puntaje prueba conocimiento específicos biolog. Número Si Si 102

120 Tabla 23(continuación): Tabla ingresos Campo Descripción Tipo Vacías (si/no) Texto libre (si/no) Observación pce_social Puntaje prueba Número Si Si conocimiento esp. Sociales pce_fisica Puntaje prueba Número Si Si conocimientos esp. Física pce_matema Puntaje prueba Número si Si conocimiento esp. Matemática pce_quimic Puntaje prueba Número si Si conocimientos esp. Química ptj_psulen Puntaje PSU Lenguaje Número si Si Si rindio PAA, PSU es cero o vacía ptj_psumat Puntaje PSU Número si Si Matemática ptj_psuhis Puntaje PSU Número si Si historia ptj_psuccs Puntaje PSU Número si Si ciencias paa_promed Promedio PAA Número si Si o PSU cod_carrera Código carrera Número si No Los códigos son sólo de la UFRO. des_carrera Descripción carrera Texto no No Creada a partir de la tabla carreras. Tabla: postulaciones Descripción: Contiene las postulaciones a las carreras de la UFRO Las postulaciones se almacenan desde 1997 en la BD de la UFRO. Si algún alumno no aparece en esta tabla tendría que ser un postulante anterior a este año o un alumno con ingreso especial (no requieren rendir prueba) como los ingresos con titulo anterior, traslados de otra universidad, alumno trabajador, etc registros 5 campos Tabla original: EFT_Postulaciones 103

121 Tabla 24: Tabla postulaciones (postulaciones a UFRO de alumnos con crédito) Campos Descripción Tipo Vacías (si/no) id Identificador de alumno Número No no Texto libre (si/no) Observación ano_inguni Año de ingreso a la universidad Número No no nro_postul cod_carrer a post_ptj Número de postulación Carrera a la que se postula Puntaje ingreso carrera (proveniente de PAA o PSU + NEM) Número No no Existen 8 opciones de postulación, corresponde al orden de las prioridades de las carreras que postula. En los datos hay hasta 12 opciones. Esto se debía a cambios de número máximo de postulaciones Número no no Códigos que no están en la tabla carrera corresponden a otras universidades Número no no "Puntaje de ingreso a la carrera" que va a variar según ponderaciones de cada carrera y universidad. Post_ptj = 0 significa que el alumno no ingresó a esa carrera. Datos académicos del alumno, en la universidad: Tabla: matriculasalumconcred Descripción: Contiene los alumnos que cursan o han terminado sus estudios en la UFRO. Si un alumno ingresa 2 veces, no aparece 2 veces en matricula ni en ingreso registros 14 campos 11 seleccionados Tabla original: EFT_Matriculas Tabla 25: Tabla matriculas (datos académicos universitarios de alumnos con crédito) Campo Descripción Tipo Vacías (si/no) id cod_carrera des_carrera nro_plan Identificador de alumno Código de la carrera Descripción de la carrera Número de plan: corresponde a la malla curricular del alumno. 104 Texto libre (si/no) Observaciones Número no no Esta se replica en todas las tablas indicando a una sola persona. Número no no Texto no n Creada a partir de la tabla carreras Número no no Números 0 al 53

122 Tabla 25 (continuación): Tabla matriculasalumconcred Campo Descripción Tipo Vacías (si/no) ano_inguni Año ingreso a la universidad ano_ingcar cod_estalu des_estalu nota_pga f_inicio anio_inicio tot_asignatur as tot_asi_apro b tot_asi_repro b Año de ingreso a la carrera Código del estado de alumno Situación del alumno, eliminado, titulado, etc. Promedio general acumulado a la fecha de la extracción de datos Fecha completa del inicio de carrera Sólo año de la fecha de inicio Total de asignaturas cursadas Total de asignaturas aprobadas Total de asignaturas reprobadas ano_nivel La variable ano_nivelcursa, principalmente permite indicar hasta que año de la malla curricular el alumno obtuvo avances. Número no no Número no no Número no no Texto no no Texto libre (si/no) Observaciones Número si no PGA<4 se da en casos de alumnos antiguos, cuyos datos están en fichas, que terminaron su carrera y solicitan algún certificado de titulo o alguna copia en la actualidad. Texto si no Número si no Número no no Número no no Total asignaturas aprobadas pueden ser menores al total, en caso de titulados, ya que se produjeron cambios de malla y además por alumnos antiguos. Número no no Número no no Esta variable indicar la cantidad de alumnos que desertan a las carreras y en qué año de la malla. La duración de la carrera se informa en la tabla de carrera que se está enviando. Tabla: estudiossuperiores Descripción: Contiene a los alumnos que ya se han titulado o graduado 752 registros 6 campos 4 seleccionados Tabla original: EFT_EstudiosSuperiores 105

123 Tabla 26: Tabla estudiossuperiores (alumnos con crédito y con estudios superiores declarados) Campo Descripción Tipo Vacías (si/no) Texto libre (si/no) id identificador de alumno Número no no correlativ El correlativo Número no no corresponde al número de estudios o títulos que tiene el alumno. Es de diferentes universidades. tipo_titulo_g T=titulo, g=grado, Texto no no rado I=título intermedio descripcion titulo o grado Texto no no año_egreso solo año Número no no glosa_titulo_ Nombre título alumno Texto no si grado Observación Datos financieros del alumno, en la universidad: Tabla: cuentacorriente Descripción: Contiene información financiera del alumno, mientras este se encuentra estudiando. Cada monto de valor de carrera, crédito o beca es anual. Incluye Datos desde 1992 al registros 20 campos Tabla original EFT_CuentaCorriente Tabla 27: Tabla cuentacorriente Campo Descripción Tipo Vacías Texto Observación libre id Identificador de alumno Número No No ano_inguni Año de ingreso a la universidad Número No No ano Año Cuenta Corriente (1992- Número No No 2009) cod_carrer Código Carrera Número No No val_carrer Monto Arancel Anual de Carrera Número No No mto_creesp Monto Crédito Especial Número Si Si Universitario anual mto_creava Monto Crédito con Aval del Número Si Si Datos desde mto_gmilla Estado Monto Beca Juan Gómez Millas. Para estudiantes con situación socioeconómica deficitaria y provenientes de colegios municipales, particulares subvencionados o corporaciones Número Si Si Datos desde 1998 mto_bgalse Monto Beca Galo Sepúlveda Número Si Si No hay datos mto_bpedag Monto Beca Pedagogía Número Si Si Datos desde 1999 mto_hprofe Monto Beca Hijo Profesores Número Si Si Datos desde 1999 mto_bicent Monto Beca Bicentenario. Beca dirigida a estudiantes de escasos recursos que hayan tenido 106 Número Si Si datos desde 1996

124 un buen rendimiento académico Tabla 27(continuación): Tabla cuentacorriente Campo Descripción Tipo Vacías Texto libre mto_mileni mto_becsla mto_becval mto_becmea mto_becpna mto_bedael mto_bproen mto_bsalmu mto_bchait Monto Beca Milenio. Beca para estudiantes pertenecientes a los dos primeros quintiles de ingreso socioeconómico, matriculados en 1er. Año. Monto Beca Silvia Labraña. Financiamiento total del arancel como convenio docente asistencial existente entre la UFRO y Servicio de Salud Araucanía Sur y fue creada el 2005 Monto Beca Valech. Destinada a reparar a quienes fueron víctimas de prisión política y tortura. Monto Beca Mineduc Excelencia Académica. Reemplaza beca bicentenario. Monto Beca Puntaje Nacional. Para quienes obtienen el mejor puntaje a nivel nacional o regional en la PSU. Monto Beca DAEL. Para estudiantes de escasos recursos de la X y XI, XIV región. Monto Beca Arancel Proenta. Consiste en el 100% de exención del pago de la diferencia entre el arancel real de la carrera y su arancel de referencia. Monto Beca Depto. Salud Municipal. Exención de hasta un 20% del Arancel Anual de toda la carrera. Para postulantes con 750 puntos promedio, mínimo, en las tres pruebas (obligatorias y electiva) requeridas. Monto Beca Chaiten. Para estudiantes que pertenecen a una familia desplazada de Chaitén. Beca de arancel de acuerdo al arancel de referencia. Observación Número Si Si Pocos datos. Datos desde 2005 Número Si Si Pocos datos. Datos desde Número Si Si Pocos datos. Datos desde 2005 Número Si Si Datos desde 2007 Número Si Si Pocos datos, datos desde 2007 Número Si Si No hay datos Número Si Si Datos desde 2008 Número Si Si No hay datos Número Si Si No hay datos mto_exetes Monto Exenciones de Tesistas Número Si Si Datos desde 2005 mto_exemat Monto Exenciones de Matricula (Ptj. Ingresos, Ptj. Nacionales, Olimpiadas, etc.) Número Si Si mto_exeadm Monto Exenciones Administrativas (Hijos de Funcionarios) Número Si si 107

125 Tabla: EFT_Creditos Descripción: Corresponde a la cobranza de los créditos de los alumnos cuando estuvo en la Universidad, la cobranza corre después de 2 años de haber salido de la Universidad registros distintos registros 13 campos 10 seleccionados Tabla 28: Tabla eft_creditos (detalles financieros de alumnos con crédito) Campo Descripción Tipo Vacías Texto Observación libre id Identificador del alumno Numero No no rut_deudor Rut del deudor Texto No no No se considera cod_tipcre Código del tipo de crédito Numero No no des_tipcre Descripción del tipo de Texto No no crédito restipocred Distingue entre crédito Texto no no UFRO o crédito fiscal (incluye crédito universitario, fiscal, solidario) cod_estdeu Código del estado de la Numero no no des_estdeu deuda Descripción del estado de la deuda Texto no no Estados: si está en cobro, reprogramada, no exigible (no cumple periodo de 2 años fuera de la UFRO) mto_a_cobr Monto total a cobrar. Numero no no Corresponde a la deuda total del crédito, es la suma de los pagares que firmo el deudor mientras estuvo en la Universidad ano_cuota Año de la cuota Numero no no Ano_cuota = 0 significa no exigible, está en periodo de gracia (2 años) o estudiando. mto_cuota int_penal mto_pagado sld_cuota El campo mto_cuota corresponde al valor de la deuda que cancelara en el año, se obtiene mediante un proceso que estipula cada crédito o se calcula mediante su declaración de renta. Intereses penales o moratorios que se han aplicado a las cuotas no pagadas Monto pagado por el alumno en ese año (ano_cuota) Saldo cuota: porción de la cuota que no se canceló en el año Numero no Si mto_cuota=0 significa NO exigible, aun no se define la cuota ya que esta en el periodo de gracia (2 años) o estudiando Numero no no Numero no no Es el monto que cancela de la cuota, Moneda depende del Crédito Numero no no Es la deuda que le queda de la cuota( si es 0 canceló la cuota) 108

126 Las Unidades monetarias de los distintos tipos de crédito se muestran en la tabla 14. Tabla 29: Unidades monetarias crédito universitario Código Crédito unidad Datos sobre campañas: 1 CREDITO FISCAL U.T.M 2 CREDITO UNIVERSITARIO U.T.M 5 CREDITO E.84 U.T.M 6 C.UNIV.Ley Declaraciones U.T.M 7 C.UNIV.Ley Cta. Fija U.T.M 8 C.FISCAL.Ley U.T.M 9 C.UNIV. ley U.T.M 3 CREDITO ESPECIAL U.F. 4 CREDITO FASE U.F. 10 Reprog. Crédito Especial U.F. Tabla: campanias Descripción Contiene datos de alumnos participantes en campanias registros 12 campos 11 seleccionados Vista: Tabla original: EFT_DETALLECAMPANIA + eft_campanias + eft_estadollamada Tabla 30: Tabla de campañas Campo Descripción Tipo Vacías Texto libre Id Identificador de alumno Número No No nro_campania Número de campaña Número No No des_campania Texto No No Fecha_Campania Fecha de realización de Texto No No la campaña anio_campania Año de la realización de Número No No la campaña fecha_llamada Fecha de realización de Texto No No la llamada anio_llamada Año de la realización de Número No No la llamada Ejecutiva Persona que realiza la Texto No No estado_llamada llamada código del estado de la llamada Observación Texto no Si Un 50% de llamadas tienen estado "no asignado" des_estllamada Indica si el deudor fue contactado, si no existía el número, entre otros. Texto si No Se agregó estado NA, para los que no tenían valor Persona_Comunica Persona que contesta Texto Si Si Muchos valores. Observacion Observación Texto Si Si 109

127 Datos sobre carreras: Tabla: EFT_Carreras Descripción: Contiene información sobre las carreras de la UFRO * Fue entregada por la UFRO en un documento Excel aparte. 75 registros 4 campos 3 Seleccionados Tabla 31: Tabla eft_carreras (carreras impartidas en la UFRO) Campos Descripción Tipo Vacías (si/no) Texto libre (si/no) Código código carrera Número no No descripcion_corta descripción corta carrera Texto no No Descripción descripción carrera Texto no No duracion_anio duración de la carrera Número no No 14.3 Anexo 3 Tablas obtenidas durante el proceso de preparación de datos y a ser utilizadas en la fase de modelamiento. Antecedentes personales: Tabla 32: Antecedentes personales, luego de preparación. Campos Descripción Tipo_oracle Id Identificador alumno Integer des_genero descripción tipo género Varchar(255) anio_nacimiento Año de nacimiento Integer edad_actual Edad que el alumno tiene a la fecha de su último pago del Number crédito. edad_termino Edad en la que el alumno cursa el último año de carrera (antes Number de titularse, se eliminado, egresar, entre otros Edad_ultimo_pag Edad que tenía el alumno al realizar el último pago, según la Number o tabla de créditos dom_comuna Comuna de origen Varchar(25) dom_reg Región de origen Varchar(255) dom_num_reg Número de la región Varchar(255) ecivil contiene el estado civil en palabras Varchar(255) asc_mapu Ascendencia mapuche (declarada): si o no Varchar(1) 110

128 Tabla 33: Antecedentes académicos Campo Descripción Tipo id Identificador de alumno Integer varios_ingresos Identifica si un alumno ingresó más de una vez Varchar(255) ciudad_col Ciudad donde se encuentra el colegio Varchar(40) des_regedu Descripción tipo de establecimiento Varchar(30) ano_egr_em Año de egreso de enseñanza media Integer prom_e_med Promedio de notas enseñanza media Number(3,2) ptj_e_med puntaje equivalente (PSU, PAA) prom. E. media Number(5,2) paa_verbal Puntaje PAA Verbal Number(5,2) paa_matema Puntaje PAA matemática Number(5,2) paa_hyg Puntaje PAA historia y geografía Number(5,2) pce_biolog Puntaje prueba conocimiento específicos biolog. Number(5,2) pce_social Puntaje prueba conocimiento esp. Sociales Number(5,2) pce_fisica Puntaje prueba conocimientos esp. Física Number(5,2) pce_matema Puntaje prueba conocimiento esp. Matemática Number(5,2) pce_quimic Puntaje prueba conocimientos esp. Química Number(5,2) ptj_psulen Puntaje PSU Lenguaje Integer ptj_psumat Puntaje PSU Matemática Integer ptj_psuhis Puntaje PSU historia Integer ptj_psuccs Puntaje PSU ciencias Integer paa_promed Promedio PAA o PSU Number(5,2) nro_postul Número de postulación Integer cod_carrera Carrera a la que se postula Integer post_ptj Puntaje ingreso carrera (proveniente de PAA o PSU Number(5,2) + NEM) varias_matriculas Varias matriculas Varchar2(255) cod_carrera Código de la carrera Integer des_carrera Descripción de la carrera Varchar2(255) ano_inguni Año ingreso a la universidad Integer ano_ingcar Año de ingreso a la carrera Integer cod_estalu Código del estado de alumno des_estalu Situación del alumno, eliminado, titulado, etc. Varchar2(40) nota_pga Promedio general acumulado a la fecha de la extracción de datos Number(3,2) anio_inicio Sólo año de la fecha de inicio Integer tot_asignaturas Total de asignaturas cursadas Integer tot_asi_aprob Total de asignaturas aprobadas Integer tot_asi_reprob Total de asignaturas reprobadas Integer ano_nivelcursa Indica último año cursado por el alumno. Integer num_carreras Número de estudios (títulos o grados) que tiene el alumno. Integer año_egreso Sólo año egreso Integer 111

129 Cuenta corriente_res: Tabla 34: Cuenta corriente resumida. Campo Descripción Tipo_oracle id Identificador de alumno integer ano_inguni_min Indica el primer año de ingreso a la universidad que Number registra el alumno ano_inguni_max Indica el último año de ingreso a la universidad que Number registra el alumno ano_cuenta_inicio Primer Año Cuenta Corriente ( incluye desde 1992 al Number 2009) ano_cuenta_final Último Año Cuenta Corriente ( incluye desde 1992 al Number 2009) Total_anios Total de años con cuenta corriente Number codcarrer_final Última carrera que cursa el alumno. Number val_promcarrer Monto Arancel promedio Anual de Carrera Number val_totalcarrer Monto Arancel total de Carrera Number Total_creditos Monto total de los créditos universitarios Number Total_becas Monto total de las becas Number Total_pag_alumno Monto total pagado por el alumno a la fecha Number Total_cre_uni Monto total del crédito universitario Number Total_creesp Monto total crédito especial Number Total_creava Monto total crédito con aval del estado Number Porc_cre_uni Porc_cre_esp Porc_becas Porc_pago_alum Porcentaje de crédito universitario total asignado al alumno en su carrera(s) Porcentaje de crédito UFRO total asignado al alumno en su carrera(s) Porcentaje de becas total asignadas al alumno en su carrera(s) Porcentaje de pago total realizado por el alumno en su carrera(s) Number Number Number Number Creditos_res: Tabla 35: Créditos resumidos. Campo Descripción Tipo_oracle Id identificador del alumno NUMBER Tiene_cred_fiscal Indica si el alumno paga o no alguna cuota de VARCHAR2(255) crédito fiscal Tiene_cred_ufro Indica si el alumno no paga crédito UFRO. VARCHAR2(255) cant_cobro_f cant_repactada_f cant_noexigible_f cant_canc_f Indica la cantidad de veces que el estado de la deuda de crédito fiscal es en cobro Indica la cantidad de veces que el estado de la deuda de crédito fiscal es repactada Indica la cantidad de veces que el estado de la deuda de crédito fiscal es no exigible Indica la cantidad de veces que el estado de la deuda de crédito fiscal es cancelada 112 NUMBER NUMBER NUMBER NUMBER

130 cant_cond_f Indica la cantidad de veces que el estado de la NUMBER deuda de crédito fiscal es condonada cant_anulada_f Indica la cantidad de veces que el estado de la NUMBER deuda de crédito fiscal es anulada cant_cobro_u Indica la cantidad de veces que el estado de la NUMBER deuda de crédito fiscal es en cobro Cuotas_fiscal Cuotas de crédito fiscal NUMBER mto_cobr_prom_f Monto promedio a cobrar de crédito fiscal NUMBER min_anocuota_f Año de primera cuota de crédito fiscal NUMBER max_anocuota_f Año final de cuota de crédito fiscal (a la fecha) NUMBER sum_mto_cuota_(f) Monto total de cuotas NUMBER veces_ipenal_fiscal Número de veces con interés penal NUMBER int_total_f Interés penal total de crédito fiscal NUMBER int_prom_f Interés promedio de crédito fiscal NUMBER total_pagado Total de crédito fiscal pagado NUMBER prom_pagado Promedio de crédito fiscal pagado NUMBER veces_sld_f Veces con saldo en crédito fiscal (veces no NUMBER pagado completo) saldo_total Saldo total de crédito fiscal NUMBER saldo_prom_f Saldo promedio de crédito fiscal NUMBER Respons_Pago_F Responsabilidad en pago de crédito Fiscal NUMBER Respons_int_F Responsabilidad en interés de crédito Fiscal NUMBER Respons_saldo_F Responsabilidad en saldo de crédito Fiscal NUMBER Responsabilidad Responsabilidad total en crédito fiscal NUMBER Campanias_res Tabla 36: Campañas resumidas. Campo Descripción Tipo_oracle id_campania Identificador de alumno Number cant_buzon_de_voz cant_contactado cant_llamadda_rechazada cant_sin_llamar Cantidad de veces que el estado de la llamada fue buzón de voz Cantidad de veces que el estado de la llamada fue contactado Cantidad de veces que el estado de la llamada fue llamada rechazada Cantidad de veces que el estado de la llamada fue contactado 113 Number Number Number Number cant_volver_a_llamar Cantidad de veces que el estado de la llamada Number fue volver a llamar prom_anio_camp_1 Año promedio de la campaña Number des_campania_1 Descripción campaña Number contador_campania_1 Veces que el alumno fue agregado a la campaña Number prom_anio_camp_2 Año promedio de la campaña Number des_campania_2 Descripción campaña Number contador_campania_2 Veces que el alumno fue agregado a la campaña Number prom_anio_camp_4 Año promedio de la campaña Number des_campania_4 Descripción campaña Number

131 Tabla 21 (continuación): Campañas resumidas. Campo Descripción Tipo_oracle contador_campania_4 Veces que el alumno fue agregado a la campaña Number prom_anio_camp_5 Año promedio de la campaña Number des_campania_5 Descripción campaña Number contador_campania_5 Veces que el alumno fue agregado a la campaña Number prom_anio_camp_6 Año promedio de la campaña Number des_campania_6 Descripción campaña Number contador_campania_6 Veces que el alumno fue agregado a la campaña Number prom_anio_camp_7 Año promedio de la campaña Number des_campania_7 Descripción campaña Number contador_campania_7 Veces que el alumno fue agregado a la campaña Number contador_campania_7 Veces que el alumno fue agregado a la campaña Number prom_anio_camp_8 Año promedio de la campaña Number des_campania_8 Descripción campaña Number contador_campania_8 Veces que el alumno fue agregado a la campaña Number prom_anio_camp_9 Año promedio de la campaña Number des_campania_9 Descripción campaña Number contador_campania_9 Veces que el alumno fue agregado a la campaña Number prom_anio_camp_10 Año promedio de la campaña Number des_campania_10 Descripción campaña Number contador_campania_10 Veces que el alumno fue agregado a la campaña Number prom_anio_camp_11 Año promedio de la campaña Number des_campania_11 Descripción campaña Number contador_campania_11 Veces que el alumno fue agregado a la campaña Number NRO_ADM Veces que al ejecutiva contactó al alumno NUMBER NRO_CAA Veces que al ejecutiva contactó al alumno NUMBER NRO_GSC Veces que al ejecutiva contactó al alumno NUMBER NRO_IMR Veces que al ejecutiva contactó al alumno NUMBER NRO_YFC Veces que al ejecutiva contactó al alumno NUMBER 114

132 14.4 Anexo 4: Algoritmo básico de un árbol de clasificación. Entrada: D, conjunto de N patrones etiquetados, cada uno caracterizado por n variables predictoras X 1.,X n y a variable clase C Salida: Árbol de clasificación Begin TDIDT If todos los patrones de D pertenecen a la misma clase c Then Result nodo simple (hoja), etiquetado como c; Else BEGIN Seleccionar variable más informativa X r con valores x r 1,..,x r nr ; Particionar D de auerdo con n r valores de X r en D 1..D nr ; Construir n r subárbles T 1.T nr para D 1..D nr ; Unir X r y n r subárboles T 1.T nr con x r 1,..,x r nr ; END EndIf End TDIDT 14.5 Anexo 5: Listado de componentes de KNIME [Kni] Entrada y salida. o o Lectura: txt (File reader), ARFF, PMML, tablas, modelos. Escritura: CSV, ARFF, PMML, XLS, tablas, modelos. Base de datos: lee y escribe de bases de datos, crea conexiones a bases de datos, tiene un filtro de filas (row filter), modifica la entrada de consultas SQL de una conexión de base de datos entrante. Manipulación de datos o Columnas : Binning Conversión y reemplazo: conversión de tipos renombra columnas,etc. Filtros Divisiones y combinaciones de celdas Transformaciones: comparación, filtros, reemplazo de valores perdidos, normalización, entre otros o Filas: Filtros: algunos sencillos como filtrar por el ID y otros más específicos Transformaciones: ordenación, particionamiento, uso de group by, etc. Visualización de datos o Librerías JFreeChart : Bar Chart, Histogram Chart, Pie Chart, XY Chart 115

133 o o o o o o o o Statistics o o o Histograma Tabla interactiva Gráfico de línea Coordenadas paralelas Gráfico de torta Visor de reglas Gráfico de nube de puntos Curva Lift Regresión Correlación lineal Filtro de correlación Minería de datos o Reglas de asociación (Association Rules) o Bayes Naive Bayes Learner Asignador de clústeres - Asigna datos a un conjunto de prototipos. Fuzzy c-means Cluster jerárquico SOTA K-means o o o o o o o Inducción de reglas: Fuzzy Rules Redes neuronales: MLP (perceptrón multicapa, PNN) Árboles de decisión Clasificadores misceláneos: K Nearest Neighbor (K-nn), MDS PCA (Análisis del componente principal) SVM (máquinas de vector soporte) Scoring: evaluación de modelos mediante curvas de ROC u otros gráficos Reporting Series de tiempo Weka: redes bayesianas (BayesNet, HNB, NaiveBayes, entre otros), funciones (procesos gausianos, regresión isotonica, regresión lineal, regresión logística, SMO), clasificadores (bagging, clasificación vía regresión, ADTree, BFTree, ID3, J48, SimpleCART, etc), reglas de inducción, algoritmos de clústeres (EM, DBScan, SimpleK-means, entre otros). 116

134 14.6 Anexo 6: Componentes más relevantes de Orange Entrada/Salida de datos: formatos C4.5, assistant(.dat), Retis, weka(.arff), libsvm. Preprocesado de datos o Seleccionar atributos o Rank (clasificaciones) o Limpieza de valores: remueve valores redundantes y atributos, ordena valores o Mezcla de datos (merge): mezcla de acuerdo a atributos seleccionados o Concatenación o Muestreo de datos o Selección de datos o Discretización y Continuización o Outliers: Identificación de valores atípicos Técnicas de visualización: o Distribuciones o Estadísticas de atributos o Nube de puntos (scatterplot) o Proyección lineal. o Radviz, polyviz: ayudan a representar interdependencias en datasets de varias variables o Coordenadas paralelas o Survey Plot (multiatributo) o Análisis de correspondencia o Despliegue de mosaico o Diagramas de Sieve Clasificación o Naive Bayes o Regresión logística o K Nearest Neighbours (k-nn) o Árbol de clasificación C4.5 Constructor interactivo de árboles SVM (Support Vector machine) Bosque aleatorio (Random forest) 117

135 Visor de clasificación Gráfico de clasificación o Nonograma (para redes bayesianas, regresión logística y clasificadores SVM) Regresión: o Árboles de regresión o Gráfico del árbol de regresión o Pade: Calcula derivadas parciales locales No supervisados: o Matriz de transformación o Mapa de distancia o Clúster jerárquico o Gráfico de interacción o K-means clustering o MDS: multi dimensional scaling o Explorador de red o SOM Kohonen: visualizador Asociaciones: o Reglas de asociación, además de filtro y explorador de reglas de asociación o Itemset y explorador de itemsets Evaluación o Curva ROC o Matriz de confusión o Gráfico de calibración o Curva de lift 14.7 Anexo 7: Características de Rapid Miner Desarrollado en Java (por lo que es multiplataforma) Representación interna de los procesos de análisis de datos en ficheros XML Permite el desarrollo de programas a través de un lenguaje de script Puede usarse de diversas maneras: o o o o A través de un GUI En línea de comandos En batch Desde otros programas a través de llamadas a sus bibliotecas 118

136 Incluye gráficos y herramientas de visualización de datos Los componentes más importantes que se encuentran en esta herramienta son: Control de procesos Acceso a repositorio Importación o o o o Datos: Lectura de archivos CSV, Excel, Access, AML, ARFF, XRFF, SPSS, C4.5 Leer desde una base de datos Modelos Atributos Resultados Exportación o Datos: Escribir archivos CSV, Excel, Access, AML, Arff, XRFF. Escribir en base de datos Modelos Atributos Resultados Transformación de datos o o o o o o o o o o Modificaciones de nombres y roles Conversión de tipos: discretización, conversión de numérico a binomial, real, etc. Parseo, conversión de fecha a número, texto a nominal, nominal a texto, etc. Reducción de atributos y transformación Modificación de valores Data cleansing (consistencia y registro perfeccionado): detección de outliers, reemplazo de valores perdidos, reemplazo de valores infinitos, etc. Filtros Ordenación Rotación Agregación Operaciones de conjunto: Join, intersección, unión, producto cartesiano, etc. Modelamiento o Clasificación y regresión 119

137 o o o o o Lazy modeling: Modelo por defecto, k-nn Modelamiento bayesiano. Naive Bayes Árboles de inducción: Árbol de decisión, ID3, CHAID, Árbol aleatorio, Bosque aleatorio Inducción de reglas: Reglas de inducción, árbol de reglas Entrenamiento de redes neuronales. Perceptrón, red neuronal Ajuste de funciones: regresión lineal y polinomial, proceso gaussiano Regresión logística Análisis de discriminante Meta modelamiento: regresión aditiva, relativa y transformada, Bagging, Stacking, MetaCost Ponderación de atributos: Ponderación por ganancia, regla, valor promedio, desviación, correlación, índice de gini y relieve Optimización Clustering y segmentación K-means K-medoids Random clustering Agglomerative clustering Top down clustering Flatten clustering Asociación y minería de conjuntos de ítems Correlación y dependencia: Matrices de correlación, covarianza, ANOVA y transición Similaridad Aplicación de modelos Evaluación 120

138 14.8 Anexo 8: Resumen de algoritmos presentes en Weka. Figura 54: Algoritmos de aprendizaje no supervisado en weka [Wit05] 121