UNIVERSIDAD CENTROCCIDENTAL "LISANDRO ALVARADO" DECANATO DE CIENCIAS Y TECNOLOGIA



Documentos relacionados
Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

EJEMPLO DE REPORTE DE LIBERTAD FINANCIERA

Análisis y cuantificación del Riesgo

Unidad VI: Supervisión y Revisión del proyecto

LA METODOLOGÍA DEL BANCO PROVINCIA

FASES DEL PROCESO DE RESOLUCIÓN DE PROBLEMAS

NIFBdM A-4 CARACTERÍSTICAS CUALITATIVAS DE LOS ESTADOS FINANCIEROS

Caso práctico de Cuadro de Mando con Tablas Dinámicas

Actividades para mejoras. Actividades donde se evalúa constantemente todo el proceso del proyecto para evitar errores y eficientar los procesos.

INTRODUCCIÓN A LOS SISTEMAS GESTORES DE BASE DE DATOS

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA FORMULACIÓN Y EVALUACIÓN DEL PROYECTO: BLUMEN: CENTRO DE ESTIMULACIÓN TEMPRANA Y PROBLEMAS DE APRENDIZAJE

NORMA ISO DE RIESGOS CORPORATIVOS

Las razones financieras ayudan a determinar las relaciones existentes entre diferentes rubros de los estados financieros

GUÍA DE SEGURIDAD DE LA INFORMACIÓN GUÍA GOBIERNO CORPORATIVO PARA EMPRESAS SEP

ASEGURAMIENTO DE LA CALIDAD EN LABORATORIO

Además se recomienda su uso como herramienta de trabajo dentro de las actividades habituales de gestión.

CAPITULO VI ESTRATEGIAS DE OUTSOURCING

IAP ENTORNOS INFORMATIZADOS CON SISTEMAS DE BASES DE DATOS

Seguimiento Académico de los. Estudiantes en Prácticas en Empresa

4 Teoría de diseño de Experimentos

CAPÍTULO 1: INTRODUCCIÓN. El presente capítulo muestra una introducción al problema de Optimizar un Modelo de

Criterios para seleccionar tecnología de Modelos de Toma de Decisiones

Los estados financieros proporcionan a sus usuarios información útil para la toma de decisiones

Estudio Técnico INTRODUCCIÓN

CAPÍTULO 5. CONCLUSIONES. objetivo descrito inicialmente, el que consistió en establecer las bases necesarias para aplicar

Parte I: Introducción

ISO 17799: La gestión de la seguridad de la información

Aprendizaje Automatizado

Su éxito se mide por la pertinencia y la oportunidad de la solución, su eficacia y eficiencia.

CAPÍTULO 2 IMPORTANCIA DE LA ASIGNATURA OUTSOURCING EN TECNOLOGÍAS DE INFORMACIÓN

ANALISIS MULTIVARIANTE

Asignaturas antecedentes y subsecuentes

LA PLANIFICACIÓN ESTRATÉGICA EN MATERIA TIC EN EL ÁMBITO DE LA AGE

Por qué es importante la planificación?

Qué es lo que su empresa necesita? Productividad? Organización? Eficiencia? Ahorro? Control? Seguridad?

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES

El Rol Estratégico de los Sistemas de Información. Aplicaciones de sistemas clave en la organización (1)

Mejorando las ventas utilizando el conocimiento sobre nuestros clientes

PROCEDIMIENTO DE AUDITORIA INTERNA

Cómo Desarrollar un plan Estratégico

COMO REALIZAR UN DIAGNÓSTICO INICIAL Y DEFINIR LA POLITICA DE SEGURIDAD PARA EL SISTEMA DE GESTIÓN EN CONTROL Y SEGURIDAD BASC

Introducción a la estadística y SPSS

Programa de Criminología UOC

En este capítulo se describe las herramientas, así como los procesos involucrados en el análisis y desarrollo de sistemas de información, por otro

Inter American Accreditation Cooperation. Grupo de prácticas de auditoría de acreditación Directriz sobre:

BASES CONVOCATORIA EMPRENDIMIENTOS SOCIALES INNOVADORES EN LA REGION DEL BIOBÍO

EL PORTAL DEL EMPRENDEDOR DE LA COMUNIDAD DE MADRID

FINANZAS: Gestionando para el emprendimiento

La calidad de los datos ha mejorado, se ha avanzado en la construcción de reglas de integridad.

El reto de la Gestión Documental

Capítulo 6: Conclusiones

Capítulo 4. Sistemas de recomendación

CAPÍTULO III 3. MÉTODOS DE INVESTIGACIÓN. El ámbito de los negocios en la actualidad es un área donde que cada vez más

CAPÍTULO 4: ALGORITMOS DE APRENDIZAJE

8. CONCERTACIÓN MULTISECTORIAL PARA LA LUCHA CONTRA LAS DROGAS EN EL

Normas de Auditoría de Proyectos de Inversión Pública

ESPECIFICACIONES TÉCNICAS DEL PROCESO DE ATENCIÓN AL CIUDADANO

1 Organizaciones no gubernamentales

Capítulo 11. Conclusiones y trabajo futuro

TEMA 1. Introducción

2. LOS SISTEMAS DE COSTOS

Deberemos escoger de nuestro equipo humano un responsable de la implementación (si no queremos hacerlo personalmente).

Planeación y evaluación: desarrollo de Indicadores

PAUTA ENTREVISTA SELECCIÓN DE PERSONAL

Elementos requeridos para crearlos (ejemplo: el compilador)

MINISTERIO DE CULTURA SECRETARÍA GENERAL GRUPO DE GESTIÓN HUMANA PLAN ESTRATÉGICO 2015 GRUPO DE GESTIÓN HUMANA

ISO Anexo A OBJETIVOS DE CONTROL Y CONTROLES DE REFERENCIA DANIELA RAMIREZ PEÑARANDA WENDY CARRASCAL VILLAMIZAR

REGULACIÓN DE LOS SERVICIOS DE AGUA POTABLE Y SANEAMIENTO EN EL PERÚ

Operación 8 Claves para la ISO

RECOMENDACIONES DE INVESTIGACIÓN FUTURA.

El Futuro de la Computación en la Industria de Generación Eléctrica

ORGANISMO COORDINADOR DEL SISTEMA ELÉCTRICO NACIONAL INTERCONECTADO DE LA REPÚBLICA DOMINICANA

Diseño y desarrollo de una aplicación informática para la gestión de laboratorios

Es necesario mencionar esta proporción, debido a la importancia de. evaluar la inversión que se hará para implantar un programa de capacitación, ya

DD4 CRITERIOS DE ACREDITACIÓN PARA LABORATORIOS DE ENSAYO Y DE CALIBRACION

ADMINISTRACIÓN DE BASES DE DATOS DISTRIBUIDAS

Para llegar a conseguir este objetivo hay una serie de líneas a seguir:

1. Introducción al evaluación de proyectos

IMPAKTO CONSULTORA EN RECURSOS HUMANOS. Consultora en RRHH enfocada en proyectos de Desarrollo Organizacional,

ÍNDICE. Introducción. Alcance de esta NIA Fecha de vigencia

TALLERES DE SOCIALIZACIÓN 2012

AUTORA: SUSANA REYES BENÍTEZ DNI: C LA IMPORTANCIA DE LOS RECUROS HUMANOS. Introducción:

Cuáles son las funciones y desempeño asociadas del equipo en su contexto operativo?, o un poco mas coloquialmente;

4. METODOLOGÍA. 4.1 Materiales Equipo

LINEAMIENTOS PARA LA ELABORACIÓN DEL PROGRAMA ANUAL DE TRABAJO

Conclusiones. Particionado Consciente de los Datos

Adopción SÍ NO PRÁCTICA. 1.- Del funcionamiento del Directorio.

PARA COMERCIANTES Y AUTÓNOMOS. INFORMACIÓN SOBRE TARJETAS DE CRÉDITO.

Data Mining Técnicas y herramientas

Guía para la elaboración de Proyectos de Formación Sindical Ambiental e Investigación en Trabajo y Desarrollo Sustentable

Conceptos Básicos y Definiciones

Experiencia en la IMPLANTACIÓN DE UN SISTEMA DE CALIDAD en la Facultad de Ciencias Agrotecnológicas de la Universidad Autónoma de Chihuahua

CAPÍTULO III MARCO TEÓRICO. Cada día cambian las condiciones de los mercados debido a diferentes factores como: el

Creación de una guia de tutorias de carrera para el profesorado de fisioteràpia.

1. Métodos para ubicación y localización fija de los productos en el almacén

Auditoría administrativa

CARACTERISTICAS DE LA INFORMACION FINANCIERA. 1. CONCEPTO DE CONTABILIDAD.

MODELOS DE SIMULACIÓN

Planificación, Administración n de Bases de Datos. Bases de Datos. Ciclo de Vida de los Sistemas de Información. Crisis del Software.

CONCEPTO NÚMERO de Hoja No. x

Transcripción:

UNIVERSIDAD CENTROCCIDENTAL "LISANDRO ALVARADO" DECANATO DE CIENCIAS Y TECNOLOGIA MODELO DE APRENDIZAJE AUTOMÁTICO PARA LA DETECCION DE FRAUDES ELECTRONICOS EN TRANSACCIONES FINANCIERAS FREDDY MIGUEL SILVA SOTO Barquisimeto, Junio de 2011

UNIVERSIDAD CENTROCCIDENTAL "LISANDRO ALVARADO" DECANATO DE CIENCIAS Y TECNOLOGÍA POSTGRADO EN CIENCIAS DE LA COMPUTACION MODELO DE APRENDIZAJE AUTOMÁTICO PARA LA DETECCION DE FRAUDES ELECTRONICOS EN TRANSACCIONES FINANCIERAS Trabajo de grado para optar al grado de Magíster Scientiarum en Inteligencia Artificial Por: FREDDY MIGUEL SILVA SOTO Barquisimeto, Junio de 2011

Dedico este trabajo A mis hijas Rebeca y Ruth Por ser mi fuente de inspiración y motor de vida A mi esposa Reannys Por su paciencia y compañía en todo momento iii

AGRADECIMIENTOS A Dios todopoderoso por ser fuente pura de mis fuerzas, perseverancia y fe para alcanzar mis metas. A mi esposa Reannys y mis hijas Rebeca y Ruth por su amor, paciencia y apoyo siempre. A mi hermana, mi madre y mi padre, que han estado allí para darme su respaldo y colaboración. A toda mi familia, numerosa y grande en gente como en apoyo incondicional. A mis compañeros de trabajo y de la maestría por su colaboración. A mi casa de estudios, Universidad Centroccidental Lisandro Alvarado, por las herramientas y conocimientos impartidos durante estos años de estudio. A mi tutora, profesora Msc. María Auxiliadora Pérez, al igual que a la empresa Casa Propia EAP., por brindarme todo su apoyo, tiempo y conocimientos sin restricciones de tiempo y horario. A todos Muchas Gracias por permitirme la oportunidad de llegar hasta aquí. iv

INDICE DEDICATORIA AGRADECIMIENTO INDICE INDICE DE ILUSTRACIONES RESUMEN INTRODUCCIÓN CAPITULO I EL PROBLEMA Planteamiento del Problema Objetivos Generales Específicos Justificación e Importancia Alcance y Limitaciones II MARCO TEORICO Antecedentes Bases Teóricas Proceso de Descubrimiento del Conocimiento Técnicas y Tareas de Minería de Datos Aprendizaje Automático Aprendizaje No Supervisado Aprendizaje Supervisado Teorema de Bayes Inferencia Bayesiana Algoritmos Bayesianos Naive Bayes Redes Bayesianas PAG. iii iv v vii ix 01 04 04 06 06 06 07 08 10 10 13 14 20 22 23 24 28 29 29 29 30 v

Sistema WEKA Términos Básicos 31 32 III IV V MARCO METODOLOGICO Naturaleza del Estudio Fases del Estudio Fase Diagnóstica Fase Estudio de Factibilidad PROPUESTA DEL ESTUDIO Justificación Descripción de la Propuesta EJECUCION DE LA PROPUESTA Aplicación de la Fase Limpieza e Integración de datos Aplicación de la Fase Selección de datos Aplicación de la Fase Transformación de datos Aplicación de la Fase Minería de datos Aplicación de la Fase Interpretación de Resultados 34 34 35 35 37 39 39 41 43 43 47 49 54 69 VI CONCLUSIONES Y RECOMENDACIONES 71 REFERENCIAS BIBLIOGRÁFICAS 73 vi

INDICE DE ILUSTRACIONES Figura 1. Proceso de Descubrimiento de Conocimiento. 2. Sentencia SQL para eliminar transacciones no propias de la entidad. 3. Sentencia SQL para reemplazar valores nulos de la variable CODRESP. 4. Sentencia SQL para integrar los datos a una única fuente. 5. Limpieza e Integración a una única fuente, MINABLE. 6. Construcción de la variable o atributo ATMFRECUENTE 7. Construcción de la variable o atributo OPERA3 8. Construcción de la variable o atributo RETIRO5 9. Construcción del atributo CLASE 10. Sentencia SQL para la generación del archivo de datos 11. Vista del archivo de datos 12. Vista del grafo de la red bayesiana 13. Vista del grafo de la red bayesiana, aplicando filtro AttributeSelection. 14. Errores absolutos medios obtenidos en las pruebas Página 15 44 45 46 47 50 50 51 51 53 53 63 65 68 Cuadros 1. Tareas de Modelación y Técnicas de Minería de Datos 2. Técnicas de Minería de Datos Página 21 22 Ecuaciones 1. Teorema de Bayes 2. Redes Bayesianas Página 28 31 vii

Tablas 1. Descripción de la Tabla TRAZAS_ATMPOMMAAAA 2. Descripción de la tabla MINABLE luego de la selección de Datos. 3. Descripción de la tabla MINABLE luego de la Transformación de Datos. 4. Diseño de Pruebas para el Modelo Naive Bayes 5. Diseño de Pruebas para el Modelo Redes Bayesianas. 6. Valoración del Indice Kappa 7. Resultados de pruebas para el Modelo Naive Bayes 8. Distribución de probabilidad de la variable LIMITEEXC 9. Distribución de probabilidad de la variable OPERACION 10. Resultados de pruebas para el Modelo Redes Bayesianas. Página 44 48 52 55 55 57 61 65 65 68 viii

MODELO DE APRENDIZAJE AUTOMÁTICO PARA LA DETECCION DE FRAUDES ELECTRONICOS EN TRANSACCIONES FINANCIERAS Autor: Freddy Miguel Silva Soto Tutor. María Auxiliadora Pérez Año: 2011 RESUMEN Los avances tecnológicos han permitido que las empresas puedan gestionar grandes volúmenes de datos, resultando el valor estratégico de los mismos en proporción directa con la capacidad de analizarlos, producir información y descubrir conocimientos. Actualmente existen desarrollos investigativos y aplicaciones comerciales en el área de descubrimiento de conocimientos en bases de datos, este proceso se caracteriza por el análisis de grandes cantidades de datos, que por lo general, se encuentran estructurados en almacenes de datos, brindando un gran apoyo a la toma de decisiones en la organización. La ejecución iterativa de pasos que involucran el preprocesamiento de datos, la aplicación eficiente de técnicas de minería de datos, y la interpretación y evaluación de resultados, representa un área de estudio en permanente evolución. La presente investigación permite potenciar, por medio de la aplicación de un proceso de descubrimiento de conocimientos en bases de datos en el ámbito financiero, un modelo de aprendizaje automático que permite clasificar transacciones electrónicas bancarias en ATM o POS como fraudulentas o integras, mediante la comparación de dos modelos de acuerdo al que mejor se adapte como solución al problema planteado, en términos de exactitud usando la tasa de error, dichos modelos se obtendrán por medio de los algoritmos probabilísticos de clasificación supervisada Naïve Bayes y Redes Bayesianas. Determinar los atributos, relaciones existentes entre estos, que permitan clasificar las transacciones electrónicas bancarias como fraudulentas o integras, y obtener el modelo para hacer más perfectible el proceso de gestión de reclamos por fraude en entidades financieras, representan el nuevo conocimiento aportado por este trabajo. Palabras Clave: Redes Bayesianas, Clasificación Bayesiana, Descubrimiento de Conocimiento en Bases de Datos, Minería de Datos, Detección de Fraude. ix

INTRODUCCION Durante las últimas décadas la evolución del mercado y los avances tecnológicos han permitido que las empresas puedan gestionar grandes volúmenes de datos, procesar cada vez más operaciones, generando gran cantidad de información a diario, produciendo como consecuencia un aumento considerable en el tamaño y cantidad de los almacenes de datos. Más allá del tamaño de los almacenes y repositorios de datos, el valor estratégico de los mismos, se encuentra en proporción directa con la capacidad de analizarlos y producir información. En tal sentido, en las organizaciones existe la necesidad de respaldarse cada vez más en el desarrollo de los sistemas de información, gestión y almacenamiento, como herramientas necesarias para cargar, extraer, transformar, analizar los datos y presentar información correcta y oportuna a los usuarios indicados. Los sistemas de información, por lo general, se enfocan en los datos de forma tradicional, es decir, realizan análisis de datos dirigido a la verificación, a través de comparaciones lógicas y métodos estadísticos. Sin embargo, el procesamiento avanzado de datos y análisis detallado de los mismos de forma automática, ha ido progresando con los años, con técnicas de minería de datos, cuyo objetivo fundamental es encontrar conocimiento útil, válido, relevante y nuevo sobre un fenómeno o actividad por medio de algoritmos eficientes aplicados a los datos. La minería de datos ha dado lugar a una paulatina sustitución del análisis dirigido a la verificación, originando un enfoque dirigido al descubrimiento de conocimiento. La principal diferencia entre ambos enfoques, se encuentra en que en este último se descubre información sin necesidad de formular previamente una hipótesis. 1

El descubrimiento de conocimiento es el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de los datos. Fayyad y otros (1996), dicho proceso consiste en la aplicación iterativa de diversos pasos o metodología, tales como limpieza e integración de datos, selección de datos, transformación de los datos, minería de datos, interpretación y evaluación. La fase de minería, permite detectar patrones y relaciones entre los datos procedentes de repositorios de gran tamaño y complejidad elevada, por medio de la aplicación de técnicas y algoritmos de inteligencia artificial, Existen diversas técnicas o algoritmos de minería de datos, entre los cuales se pueden mencionar árboles de decisión, redes neuronales, k vecinos más cercanos, clasificadores bayesianos, algoritmos genéticos, destacando que ninguno es aplicable genéricamente a todo tipo de problemas, sino que va a depender del problema planteado, de los datos con los que se cuente y de la metodología aplicada. Entre las aplicaciones de minería de datos se pueden mencionar: detección de fraudes, optimización de campañas de mercadeo, análisis de riesgos en créditos, descripción y segmentación de clientes, clasificación de cuerpos celestes, clasificación de las alteraciones respiratorias durante el sueño, clasificación del llanto del bebé, minería de texto, minería web, entre otros. En esta oportunidad el área a estudiar es la industria bancaria nacional, la cual posee un interés operativo por explotar y analizar la información almacenada en sus bases de datos, con la finalidad de convertir dicha información en conocimiento apropiado, para satisfacer las necesidades de seguridad en las transacciones electrónicas de sus clientes, de manera que este nuevo conocimiento sea estratégico a la hora de diagnosticar y prevenir fraudes. El fraude electrónico, visto como una estafa, consiste en un delito que trae como consecuencia la disminución del patrimonio o activo por la aparición súbita de un pasivo, utilizando los canales electrónicos de las entidades. En sus diversas formas y modalidades, el fraude constituye una fuerte amenaza para las empresas financieras, debido a que esto representa una fuente de pérdidas de capital y confianza por parte de los clientes. 2

La naturaleza del fraude, ha ido evolucionando a medida que progresan tecnológicamente las instituciones bancarias, en la actualidad existen diversos tipos de fraudes, los cuales varían dependiendo de la fuente o procedencia, ya sea de terceros, de clientes o del personal de la institución. La gestión de reclamos por fraude se fundamenta en una revisión metódica de cada detalle de los movimientos y transacciones fraudulentas producto del mismo, como también del historial de consumos del cliente perjudicado, para poder tomar la decisión correcta acerca de la veracidad del mismo. Para llevar a cabo tal gestión, en un tiempo corto de respuesta al cliente, bajo los lineamientos que dicta la Ley de Tarjetas de Crédito, Débito, Prepagadas y demás Tarjetas de Financiamiento o Pago Electrónico (2008) en nuestro país, y con la premisa de revisar gran cantidad de información de elevada complejidad, resulta beneficioso contar con una herramienta o modelo de aprendizaje automático, que permita obtener conocimiento, clasificando las transacciones como fraudulentas o integras por medio de la aplicación de algoritmos de minería de datos. 3

CAPITULO I EL PROBLEMA Planteamiento del Problema Las empresas y entidades financieras producen información a tal punto que en ciertas circunstancias les resulta difícil procesarla y producir conocimiento útil. Esta situación les genera la necesidad de mejorar los procesos, sistemas de control interno, y potenciar su infraestructura tecnológica en general. A medida que este tipo de empresas procesan operaciones con gran rapidez, producen transacciones electrónicas con mayor comodidad y facilidad para el cliente, dejando de lado en algunos casos la seguridad, reduciendo los mecanismos de protección contra fraudes, lo que a su vez aumenta los riesgos por abusos de delincuentes. En tal sentido, en Venezuela, la situación descrita anteriormente, conlleva a unos de los mayores problemas que atraviesa actualmente la industria financiera, denominado fraude electrónico. Según Ricardo Noreña y David Espejo (2006), los riesgos de fraude a los que se enfrenta una entidad financiera pueden ser diversos: algunos pueden proceder de terceros, como por ejemplo, robo de identidades, clonación, otros pueden proceder de clientes, tales como casos de fraudes relacionados con préstamos, otros pueden proceder del personal, entre los que destaca el uso indebido de información confidencial, y otros pueden ser genéricos del sector financiero o específicos de los productos de la entidad. El proceso de comprender a qué riesgos se enfrenta una organización puede dividirse en dos fases: mirar hacia atrás para analizar los fraudes sufridos y mirar hacia delante para analizar riesgos futuros. 4

Una vez identificados los riesgos de fraude a los que se enfrenta la entidad, resulta imprescindible utilizar herramientas informáticas, que permitan identificar dentro de miles o millones de transacciones y registros, patrones de comportamiento que son inusuales y/o que corresponden a actividades potencialmente fraudulentas. Detectar las situaciones de fraude conlleva a evitar daños, proteger la reputación, los activos corporativos e incrementar la confianza por parte de los clientes. En tal sentido, se propone realizar un estudio, que dada las características de una transacción y el historial de transacciones fraudulentas obtenidas en el pasado, permita clasificarla como fraudulenta o integra, mediante la obtención de un modelo de aprendizaje, a partir de la base de datos de transacciones de una entidad financiera, y la aplicación automatizada de algoritmos de minería de datos. Existen diversas implementaciones de procesos de minería de datos en empresas financieras, enfocadas por ejemplo a la segmentación de clientes, mediante modelos basados en agrupamiento borrosos. En cuanto a la detección de fraude electrónico, se puede hacer mención a un modelo basado en rutinas de captura de transacciones electrónicas, las cuales se comparan contra las reglas que un usuario auditor ha definido previamente en una base de datos, trabajo realizado por Arias, F. y Cerpa, N. (2008), denominado Extendiendo el Modelo e-scarf de Detección de Fraude en Sistemas de Comercio Electrónico. No obstante, la implementación de procesos de minería de datos inteligentes en empresas financieras en el ámbito nacional, orientando el estudio al análisis de las características de las transacciones electrónicas fraudulentas e integras, con el objetivo de generar un modelo que permita clasificarlas y prevenir fraudes es un área de carácter novedoso, debido al uso de técnicas de clasificación basadas en razonamiento probabilístico. 5

Objetivos de la Investigación Objetivo General Desarrollar un modelo de aprendizaje automático que permita clasificar transacciones electrónicas financieras en ATM o POS como fraudulentas o integras, por medio de la aplicación de un proceso de descubrimiento de conocimientos en bases de datos. Objetivos Específicos Obtener el conjunto de datos con las características relevantes del problema y prepararlo utilizando técnicas de preprocesamiento de datos. Aplicar el algoritmo probabilístico Naïve Bayes para la obtención de un modelo de aprendizaje automático que clasifique transacciones electrónicas financieras como fraudulentas ó integras. Aplicar el algoritmo probabilístico Redes Bayesianas para la obtención de un modelo de aprendizaje automático que clasifique transacciones electrónicas financieras como fraudulentas ó integras. Comparar y evaluar los modelos de aprendizaje obtenidos, para determinar el que mejor detecte fraude en términos de exactitud usando la tasa de error. 6

Justificación e Importancia Según Ricardo Noreña y David Espejo (2006), evitar daños, proteger los activos corporativos, e incrementar la confianza por parte de los clientes, son metas fundamentales de alcanzar y mantener para el éxito de toda entidad financiera. De acuerdo a este planteamiento, puede definirse también el fraude como un tipo de daño a los activos corporativos. En la actualidad, para poder determinar la existencia de fraudes, se debe realizar la verificación de grandes cantidades de información de registros de transacciones electrónicas, lo que resulta una tarea que puede consumir considerables cantidades de recursos computacionales y personales, lo que se traduce en largos tiempos de respuesta, además de la incertidumbre producto de la calidad de la data. Llevar a cabo procesos de algoritmos y técnicas inteligentes para el análisis de los datos almacenados por los sistemas de información, constituyen investigaciones ampliamente estudiadas, sin embargo en el ámbito financiero son pocos los trabajos realizados, de acuerdo a una búsqueda realizada en lo concerniente al tema de la detección de fraudes electrónicos en transacciones financieras ATM o POS en la industria bancaria nacional, no se encuentran investigaciones. Existen diversas herramientas o productos comerciales en el mercado internacional para la detección de fraude electrónico, que pueden adquirir las instituciones financieras, las mismas deben realizar el proceso de adaptación y configuración consumiendo un tiempo considerable, representando altos costos. Por las razones antes expuestas, se propone como solución a tal problemática un modelo de aprendizaje automático que permita clasificar transacciones electrónicas financieras en ATM o POS como fraudulentas o integras, por medio de la aplicación de un proceso de descubrimiento de conocimientos en base de datos, procurando favorecer considerablemente los procesos de gestión del área de seguridad de las entidades bancarias, ya sea en el tema operativo, gestión de reclamos, como en lo gerencial, en la toma de decisiones. 7

La propuesta de obtener tal modelo de aprendizaje automático basándose en clasificación supervisada, es debido a que primeramente, la clasificación supervisada de clases a partir de un conjunto, provee como ventaja, iniciar el estudio a partir de un conjunto de transacciones etiquetadas como integras y otras etiquetadas como fraude. A su vez, se eligió la inferencia estadística bayesiana, debido a que consiste en descubrir conocimientos implícitos, estudiando grandes cantidades de datos a partir de una muestra de estos, empleando las evidencias u observaciones para actualizar o inferir la probabilidad de que una hipótesis pueda ser cierta, además de poder conocer como una variable o atributo puede incidir en otros. Precisamente, se consideran entre los clasificadores bayesianos, las técnicas Naïve Bayes y Redes Bayesianas. Según Bonilla y otros (2006), Naïve Bayes es el modelo más simple de clasificación con Redes Bayesianas, ya que asume independencia entre todos los atributos dada una clase. Por su parte, las Redes Bayesianas proveen una forma compacta de representar el conocimiento y métodos flexibles de razonamiento basados en las teorías probabilísticas, capaces de predecir el valor de variables no observadas y explicar las observadas. Además las Redes Bayesianas permiten aprender sobre relaciones de dependencia y causalidad, lo que proporcionará posibles relaciones probabilísticas entre los hechos que anteceden un fraude en transacciones electrónicas financieras en ATM o POS. La falta de estudios avanzados de descubrimiento de conocimientos aplicados al área financiera, permitirá la aplicación de los conocimientos obtenidos a través de esta investigación en otras áreas del negocio, generando a su vez posibles nuevos trabajos y estudios. Alcances y Limitaciones El estudio consistirá en la aplicación de un proceso de descubrimiento de conocimientos, con la finalidad de generar un modelo de aprendizaje automático para la clasificación de transacciones electrónicas financieras en ATM o POS como 8

fraudulentas o integras, se determinará si el modelo puede resolver el problema propuesto o se adapta a la solución. El proceso de descubrimiento de conocimiento involucra la aplicación iterativa de las fases de selección y preparación de los datos, la aplicación de los algoritmos y técnicas de aprendizaje de minería de datos, y la interpretación de los resultados obtenidos para dar significado a los patrones encontrados. Los algoritmos a utilizar durante el desarrollo de este modelo pertenecen al grupo de clasificación supervisada con modelos probabilísticos, tales como los clasificadores Naïve Bayes y Redes Bayesianas. Para determinar si el modelo resuelve el problema, se realizará la validación del mismo, comprobando que las conclusiones que arroja son válidas en términos de exactitud, utilizando como métrica la tasa de error. También la presente investigación procura facilitarle al analista de seguridad, y reclamos por fraude, un modelo que haga más perfectible la gestión de tales situaciones, puesto que ofrece conocimientos acerca de las transacciones electrónicas fraudulentas de operaciones en cajeros automáticos y punto de ventas. Frawley y otros (1991), señala que las bases de datos suelen ser dinámicas, incompletas, ruidosas y muy grandes. Esto representa una limitación, debido a que son estas características de las bases de datos los contratiempos que pudieran encontrarse en esta investigación, los datos están almacenados en función del tiempo, y el conocimiento inducido varía según el instante en el que se obtenga. Entre los inconvenientes de negocio que pudieran presentarse en el desarrollo de este trabajo, se encuentra el relacionado con la criticidad y confidencialidad de la información, datos relacionados con cuentas financieras, clientes y sus hábitos de consumo. Para tal fin, durante las etapas de preparación, limpieza y selección de variables, se determinará los datos que no sean críticos ni identificadores del cliente, y que aporten mayor ganancia de información, sin afectar la investigación. 9

CAPITULO II MARCO TEORICO En este capítulo se detallan los antecedentes, que representan algunos estudios previos de esta investigación. Asimismo se desarrollan las bases teóricas, en las cuales se tratan los siguientes aspectos: (a) Proceso de Descubrimiento del Conocimiento, (b) Técnicas y Tareas de Minerías de Datos, (c) Aprendizaje Automático, (d) Aprendizaje No Supervisado, (e) Aprendizaje supervisado, (f) Teorema de Bayes, (g) Inferencia Bayesiana, (h) Algoritmos Bayesianos, (i) Sistema WEKA. Antecedentes En el ámbito internacional, existen estudios e investigaciones basadas en técnicas de clasificación supervisada aplicados en diversas áreas distintas al ramo de interés de este trabajo, se puede hacer mención del trabajo realizado por Fernández A. y Salmerón A. (2008), en el cual se presenta un programa de ajedrez capaz de adaptar su estrategia al usuario al que se enfrenta, y de refinar la función de evaluación que guía el proceso de búsqueda, el cual se emplea para explorar el árbol de jugadas en base a su propia experiencia de juego. La funcionalidad adaptativa y de aprendizaje automático del programa fue implementada usando redes bayesianas con estructura tipo Naïve Bayes, utilizando dos variables clases: la fase actual de la partida y el resultado de la misma. El proceso de adaptación depende de la estrategia utilizada, cuando la estrategia es atacante, se eligen aquellos parámetros que minimizan la probabilidad de perder, y cuando la estrategia es defensiva, elige aquellos parámetros que maximizan la probabilidad de ganar. 10

Según Fernández A. y Salmerón A. (2008), las redes bayesianas se han convertido en los últimos años en una herramienta adecuada para la modelización de situaciones en las que interviene un gran número de variables, y existe incertidumbre asociada al valor de las mismas en un momento dado. En dicha investigación, se concluye que el uso de las redes bayesianas aporta un valor añadido en la construcción de sistemas adaptables al usuario. Además de permitir hacer inferencias acerca de las variables de forma eficiente donde el número de variables es alto. Por otro lado, Álvarez (2009), estudia el desempeño que puede alcanzar la técnica Naïve Bayes en clasificación de textos. Dado que según el autor mencionado, la clasificación automática de textos tiene como objetivo asignar una clase a cada documento nuevo, de una lista de clases previamente definidas, su proposición consiste en reducir el problema inicial multi-clase a un problema donde el clasificador solo tenga que distinguir entre dos clases, es decir un problema binario. Para tal reducción se utiliza un esquema que asigna un peso a cada atributo de acuerdo a la importancia que este tiene para cada clase. Adicionalmente se propone una medida de similitud que se basa en la intersección pesada de atributos. Según Álvarez (2009), resultó que una vez reducido el problema inicial de clasificación de textos de múltiples clases a un problema de dos clases, el clasificador pudo distinguir de manera más sencilla, las características que distinguen entre sí las clases. En otro orden de ideas, se encuentran diversos estudios y artículos relacionados con la detección de fraude, tal es el caso de Bolton, R. y Hand, D. (2002), en el cual se enuncia unas primeras etapas de investigación para la detección de fraude cometidos en tarjetas de crédito por medio de métodos no supervisados, a partir de comportamientos inusuales en las transacciones o consumos del cliente. El objetivo de esta investigación es la comparación del método Peer Group Analysis (PGA) ó Análisis de Grupos Pares, contra el método Break Point Analysis o Análisis del Punto de Quiebre. Por medio de PGA se detecta uno a uno, los objetos en base de datos que comienzan a comportarse de una manera distinta de objetos a las que previamente 11

habían sido similares, utilizando criterios de comparación y patrones que resumen el comportamiento de cada objeto contra su grupo de pares. Para este método, se utilizan una serie de aspectos a considerar como el tamaño de los grupos de pares, las medidas de las diferencias entre objetos y la función de distinción. En cuanto al Break Point Analysis, se específica como una herramienta no supervisada de detección de valores atípicos, para ello se compara un rango o ventana de secuencias de operaciones de una cuenta, cantidad, frecuencia, montos, para determinar así existe algún comportamiento inusual. En este método, también se establecen algunos parámetros tales como, la longitud de la ventana, la proporción de transacciones antiguas y nuevas a comparar. Bolton, R. y Hand, D. (2002), concluyen que es necesario plantearse como objetivo continuar con la investigación, incorporando más información concerniente a las transacciones, que no sea simplemente el monto del gasto el elemento introducido en el proceso de detección de anomalías, e identificar métodos mas útiles y prácticos para la detección de fraude. De igual manera se puede mencionar el trabajo de Arias, F. y Cerpa, N. (2008), donde se extiende un modelo existente de detección de fraude en sistemas de comercio electrónico, el cual está basado en una técnica de auditoria concurrente, que consiste en la inserción de rutinas dentro de un programa de aplicación por parte de un auditor, es un modelo basado en una técnica denominada variante de reglas incrementales. Tal técnica, sirve al usuario auditor como estrategia para evidenciar transacciones sospechosas de fraude. Dada la naturaleza de las transacciones de comercio electrónico y su composición en variables, en esta investigación de Arias, F. y Cerpa, N. (2008), se implementa una versión modificada de Reglas Incrementales, utilizada para reducir la complejidad de la creación de reglas. La estructura es semejante a un árbol binario invertido que se recorre evaluando las condiciones de cada nodo y, dependiendo del cumplimiento o no cumplimiento de la condición, se sigue la arista correspondiente al resultado de la evaluación. El resultado de este trabajo es un prototipo implementado para una plataforma de comercio electrónico. 12

En el contexto nacional, de acuerdo a búsquedas realizadas en bibliotecas de la Universidad Centrooccidental Lisando Alvarado (UCLA), entre otras, no se pueden referenciar investigaciones y trabajos relacionados con el proceso de descubrimiento de conocimientos, aplicando clasificación supervisada para la detección de fraude en transacciones electrónicas financieras realizadas en ATM o POS, En tal sentido, los trabajos antes mencionados y otros ensayos y publicaciones, pueden servir desde el punto de vista documental o marco referencial a la presente investigación, sin representar un antecedente a la misma. Bases Teóricas Surgimiento y Conceptualización de Descubrimiento de Conocimientos Desde los años 1960, científicos y estadísticos comenzaban a manejar términos como data fishing o Data dredging, definidos como dragado o pesca de datos, y data archaeology, el cual se refiere a la ciencia de recuperación de datos informáticos cifrados en medios o formatos que han quedado obsoletos, con la intención de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido y de gran tamaño. Cuando se habla de una hipótesis previa, se trata de que el conocimiento se obtiene por el clásico método hipotético-deductivo de la ciencia. En dicho método, el investigador a partir de un conjunto de observaciones y conocimientos previos formula una hipótesis. Pero esto resulta inoperante cuando se trata de millones de datos almacenados. Las técnicas tradicionales de análisis estadístico, permiten obtener ciertas informaciones útiles, pero no inducir relaciones cualitativas generales, ni conocimientos en bases de datos. Como consecuencia de la situación antes planteada, a principios de los años 1980, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos descubrimiento de conocimientos y minería de datos, por la creciente necesidad y surgimiento de nuevas técnicas y 13

herramientas, con la habilidad de asistir inteligente y automáticamente a las personas en el análisis de grandes cantidades de datos. Una definición de Descubrimiento de Conocimientos en Bases de Datos o Knowledge Discovery in Databases (KDD), según Fayyad y otros (1996), es un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en las bases de datos. Según Molina y otros (2001), la minería de datos consiste en la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión. En las definiciones anteriores, se menciona el término base de datos (BD), el cual puede definirse según Marques (2001), como un conjunto de datos almacenados, entre los que existen relaciones lógicas, y ha sido diseñada para satisfacer los requerimientos de información de una empresa u organización. A su vez, el término datos, representa un conjunto de hechos, sucesos u objetos. En tal sentido, el descubrimiento de conocimientos en BD se caracteriza por el análisis de grandes cantidades de datos, que por lo general, se encuentran estructurados en almacenes de datos, estos almacenes pueden ser definidos como una colección de datos orientada a un determinado ámbito, integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Proceso de Descubrimiento del Conocimiento en BD Resulta importante destacar, que según Vallejos (2006) el descubrimiento de información oculta es posible gracias a la minería de datos, que entre otras sofisticadas técnicas aplica la inteligencia artificial para encontrar patrones y relaciones dentro de los datos, permitiendo la generación de modelos, pero es el descubrimiento del conocimiento en bases de datos (KDD) el proceso que se encarga de la preparación de los datos y la interpretación de los resultados obtenidos, dando significados a los patrones encontrados. 14

En tal sentido, el proceso de KDD consiste en usar métodos de minería de datos para extraer lo que se considera conocimiento, a partir de una base de datos preprocesada y post-procesada, dicho proceso consiste en la aplicación iterativa de los siguientes pasos: (a) limpieza e integración de datos, (b) selección de datos, (c) transformación de los datos, (d) minería de datos, (e) interpretación y evaluación. En la figura 1 se muestran los pasos del proceso de descubrimiento de conocimiento en bases de datos. Figura 1. Proceso de Descubrimiento de Conocimiento. Han y Kamber (2001). 1. Limpieza e Integración de Datos Es el procesamiento de tratamiento de los datos ruidosos, erróneos, faltantes o irrelevantes, y la integración de múltiples fuentes de datos en una única fuente. 15

Limpieza de Valores Nulos Existen diversas técnicas para el tratamiento de valores ausentes o nulos, tales como: Ignorar la tupla Se puede aplicar cuando el valor de la etiqueta clase es nulo, ignorando todo una fila ó registro. Este método generalmente no es muy efectivo, solo cuando el porcentaje de valores nulos para varios atributos es considerable. Llenar manualmente el valor ausente Este método no es factible cuando se trabaja con grandes volúmenes de datos, debido a que puede consumir gran cantidad de tiempo. Usar una constante global para llenar el valor ausente Consiste en reemplazar el valor nulo por alguna constante, no es muy recomendable debido a que el algoritmo de minería puede tender erróneamente a la solución. Usar el valor más probable Se puede obtener el valor más probable mediante la aplicación de regresión, inducción a árboles de decisión para predecir los valores nulos. También, se puede utilizar este método combinando otros atributos para la estimación de los valores nulos. Disminución de Ruido e Inconsistencia en la Data Según Han y Kamber (2001), el ruido en los datos consiste en un error aleatorio o variación en la medida de la variable. Existen diversos métodos de disminución del ruido en la data, entre los cuales se pueden mencionar: 16

Suavización por media Cada valor en un grupo es reemplazado por el valor promedio del grupo. Suavización por mediana Cada valor en un grupo es reemplazado por la mediana del grupo. Suavización por límites Consiste en reemplazar por el valor límite a cada valor, a excepción de los valores límites de cada grupo. Por otro lado, la inconsistencia que exista en la data, puede ser detectada por medio del concepto de normalización de la data, en la verificación de violaciones en la dependencia funcional entre atributos y valores contradictorios en los mismos. Integración de la Data El proceso de KDD puede utilizar datos de diversas fuentes, las cuales deben combinarse en único repositorio de datos, tales fuentes pueden ser múltiples bases de datos, cubos de datos o archivos. Esta etapa o paso del proceso KDD, contempla ciertos aspectos a considerar como el hecho de cruzar la información entre las diversas fuentes, donde es crucial el conocimiento de la metadata de las mismas, debido a que a través de esta es que se puede conocer la descripción de los datos. Adicionalmente, existe otro aspecto a considerar, la redundancia de datos, la cual puede ser detectada mediante la aplicación de análisis de correlación, para determinar los casos cuando un atributo implica otro. También en esta fase de integración, es importante detectar y resolver conflictos en valores de atributos, para casos en los que valores de atributos difieran en representación, escala o codificación entre las diversas fuentes. 17

2. Selección de Datos No es más que la extracción de los datos relevantes o de interés al área de análisis del almacenamiento de los datos, eligiendo las variables más determinantes en el problema. La selección de datos puede ser de forma horizontal, en el sentido de que sólo se eligen instancias completas representativas del total de los datos disponibles. Un aspecto que suele ser muy importante en estos casos es la forma en que se realiza el muestreo de las instancias. Entre los tipos de muestreo se pueden mencionar a) el aleatorio simple (con o sin reemplazamiento), b) aleatorio estratificado, c) de grupos y d) exhaustivo. En el caso que se realice una selección vertical, es decir, de atributos, la idea es seleccionar los atributos más relevantes en base a algún criterio o al problema en particular. En el mismo sentido, otro criterio general de selección de atributos, puede ser el de la eliminación de claves candidatas, estas son variables de códigos de identificación, nombres y apellidos, teléfonos, etc. Por otro lado, existen criterios particulares de selección de la data, como lo es la aplicación de filtros basados en índices estadísticos. Dicha aplicación de filtros a atributos supervisados permite determinar la ganancia de información, la cual consiste en la relevancia de un atributo respecto a alguna clase que se intenta predecir. 3. Transformación de los Datos La transformación consiste en consolidar los datos en formas apropiadas para ser introducidos en el algoritmo de minería. Este paso, tiene como una de sus tareas la construcción de nuevos atributos, por medio de la aplicación de alguna operación o 18

función a los atributos originales, solo en los casos en que estos últimos no aporten suficiente poder predictivo por si solos. Discretizar En esta etapa también puede realizarse modificaciones en los tipos de los datos, para facilitar el uso de las técnicas que requieran tipos de datos específicos. Para ello, existe el proceso de discretizar los atributos continuos, es decir, transformar valores numéricos en atributos discretos o nominales. 4. Minería de Datos Según Fayyad et al., (1996). Es el paso esencial donde se aplican diversos métodos para extraer patrones, en este caso, como algoritmos de minería se aplicarán técnicas de aprendizaje para obtener un modelo de conocimiento, el cual representa patrones de comportamiento observados en los valores de las variables del problema. Es la etapa de descubrimiento en el proceso de KDD, paso consistente en el uso de algoritmos concretos que generan una enumeración de patrones a partir de los datos preprocesados, Fayyad et al., (1996). Es en esta etapa, donde se determina la relevancia y calidad de la data preprocesada. La selección de un algoritmo acorde al problema va a ser determinante en la validez total del modelo. Todas las técnicas de modelación tienen un conjunto de parámetros que determinan las características del modelo a generar. La selección de los parámetros óptimos para la técnica de modelación es un proceso iterativo y se basa exclusivamente en los resultados generados. Es importante mencionar, que en la construcción del modelo de una tarea supervisada como la clasificación, según Zamarrón Sanz et al., (2006), se separan los datos en dos conjuntos, que son uno de entrenamiento y otro de prueba y validación, esto es necesario para garantizar que la validación de la precisión del modelo sea una medida independiente. 19

5. Interpretación y Evaluación En la fase de interpretación y evaluación, se procede a la validación del modelo obtenido, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. Si el modelo no alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar un nuevo modelo. Vallejos (2006). Según Pérez M. (2005), para probar la calidad y validez del modelo obtenido en una tarea supervisada como la clasificación, se puede usar la rata de error como métrica de la calidad. Al estar generados los modelos, durante esta fase estos son interpretados de acuerdo al conocimiento preexistente del dominio y los criterios de éxito establecidos. Técnicas y Tareas de Minerías de Datos Cuando se escoge una técnica apropiada entre numerosas técnicas, disponibles en la minería de datos, se debe tener en cuenta el objetivo principal del estudio. Una primera división de las técnicas de minería de datos, puede basarse en el tipo de tarea de descubrimiento de conocimiento que se desea conseguir, tales tareas pueden ser la predicción o descripción. La predicción, intenta basándose en los resultados del análisis, adelantarse a ciertos eventos que tengan relación con el objeto de estudio. Las tareas de descripción por su parte, pretenden crear un panorama sobre el estado actual del objeto o fenómeno estudiado. A continuación se muestran algunas clases de tareas de modelación y las técnicas de minerías de datos utilizadas. 20

Cuadro 1 Tareas de Modelación y Técnicas de Minería de datos TAREA DESCRIPCION TECNICAS DE MINERIA DE DATOS Clasificación A partir de Métodos de inducción de reglas, Arboles observaciones hechas de decisión, K vecinos más cercanos, en una base de datos, clasificadores bayesianos, redes se buscan patrones neuronales, algoritmos genéticos, que nos indiquen el razonamiento basado en casos, comportamiento de clasificadores difusos, etc. una variable respecto a otras. Segmentación o Dado un conjunto de Técnicas de agrupación, redes neuronales Agrupamiento casos, el objetivo es autoorganizativas, técnicas de agruparlos dentro de visualización, K medias, entre otros. un número de clases preestablecidas, de acuerdo a criterios de distancias o similitud. Predicción Consiste en la Análisis de regresión, Arboles de predicción de la regresión, redes neuronales, K vecinos evolución en el futuro más cercanos. de una variable o conjunto de variables, a partir de datos históricos sobre su comportamiento en el pasado. Análisis de Según (Bramer, Análisis de correlación, análisis de Dependencia 2007), la dependencia regresión, reglas de asociación, redes 21

puede ser probabilística, es decir a partir de un valor se puede predecir el de otro elemento. Fuente: (El Autor) bayesianas, programación con lógica inductiva. Según Moreno et al., (2001), las técnicas de minería de datos pueden clasificarse de acuerdo a dos grandes grupos, como se observa en el siguiente cuadro: Cuadro 2 Técnicas de Minería de datos Supervisados Arboles de Decisión Inducción Neuronal Regresión Series Temporales Clasificación No Supervisados Detección de Desviaciones Segmentación Agrupamiento Reglas de Asociación Patrones Secuenciales Fuente: Moreno et al. (2001) Aprendizaje Automático Consiste en la aplicación de algoritmos capaces de generalizar comportamiento a partir de una información no estructurada suministrada en forma de ejemplos, es en tal sentido, un proceso de inducción del conocimiento. También denominado aprendizaje de máquina. Según Nilsson, N. (1996), aprendizaje de máquina se refiere a los cambios en el sistema, en el desarrollo de tareas asociadas con la 22

inteligencia artificial, tales tareas implican, reconocimiento, diagnóstico, planeación, control, etc. También según Weiss e Indurkhya (1998), los problemas a resolver en minería de datos se dividen en estas dos grandes categorías generales: no supervisados y supervisados. Aprendizaje No Supervisado El aprendizaje no supervisado, es un método de aprendizaje automático, donde no hay conocimiento a priori. El conjunto de datos de entrada es tratado como un conjunto de variables aleatorias, construyendo un modelo de densidad para el conjunto de datos. Entre las técnicas de aprendizaje automático no supervisado que existen actualmente, se pueden describir las siguientes: Agrupamiento El objetivo de los algoritmos de agrupamiento, consiste en que dados n puntos en un espacio n-dimensional, particionar los mismos en k grupos tales que los puntos dentro de un grupo son más similares entre sí que cada uno de los puntos de los otros grupos, dicha similitud se mide atendiendo a alguna función distancia (función de disimilaridad) o alguna función de similaridad. Algunas técnicas muy utilizadas son: K Medias, Redes Autoorganizativas, Teoría de Resonancia Adaptativa, entre otros. Reglas de Asociación Las reglas de asociación, describen las relaciones de ciertos atributos respecto de otros en una base de datos. Estas reglas identifican implicaciones de causa y efecto entre los diferentes atributos de la base de datos. Son expresiones del tipo si X entonces Y, donde X e Y son conjuntos de elementos que pueden tomar valores 23

binarios y permiten formar una expresión lógica compuesta de conjunciones, disyunciones y negaciones. Aprendizaje supervisado Los algoritmos de tipo supervisados o predictivos predicen el valor de un atributo (etiqueta de un conjunto de datos), conocidos otros atributos, estos últimos denominados como atributos descriptivos. A partir de la etiqueta que se conoce, se induce una relación con otra serie de atributos, esta forma de trabajar se conoce como aprendizaje supervisado. Redes Neuronales Esta técnica de inteligencia artificial se ha convertido en una herramienta de uso frecuente para descubrir categorías comunes en los datos, ya que son capaces de detectar y aprender patrones complejos y sus características. Una de las características principales de las redes neuronales es su capacidad de trabajar con datos incompletos, incluso paradójicos. Hernández et al., (2007). Las redes neuronales, dentro de los modelos conexionistas, son sistemas formados por un conjunto sencillo de elementos llamados neuronas artificiales. A su vez, estas neuronas están interconectadas a través de unas conexiones con unos pesos asociados, que representan el conocimiento en la red. Las redes neuronales han sido utilizadas con éxito en diferentes tipos de problemas entre los que se pueden mencionar: auto-asociación, clasificación de patrones, detección de regularidades. 24

Cuadro 3 Ventajas y Desventajas de Redes Neuronales Ventajas El procesado de la información es local. Los pesos pueden tener la función de activación o de inhibición, es decir, que son parte importante en la determinación de si una neurona esta activa o no. Las neuronas son tolerantes a fallos, si parte de la red no trabaja, solo dejará de funcionar la parte para la que dicha neurona sea significativa, el resto tendrá su funcionamiento normal. Las neuronas pueden reconocer patrones que no han sido aprendidos, solo deben tener cierto parecido con el conocimiento que tenga la red. Desventajas Complejidad de aprendizaje para grandes tareas, cuanto más cosas se necesite que aprenda una red, más complicado será enseñarle. Tiempo de aprendizaje elevado, lo cual depende de si se incrementa la cantidad de patrones a identificar o clasificar y si se requiere mayor flexibilidad de adaptación de la red a reconocer patrones que sean sumamente parecidos. No permite interpretar lo que se ha aprendido, la red por si sola proporciona una salida, un número que no puede ser interpretado por ella misma. Elevada cantidad de datos para el entrenamiento, cuanto más flexible se requiere que sea la red neuronal, mas información tendrá que enseñársele. Fuente: Rivera (2005) Arboles de Decisión En este tipo de representación cada nodo es una decisión que, a su vez, genera reglas para la clasificación de un conjunto de datos. Los árboles de decisión son de fácil interpretación y admiten atributos de tipo discreto y continuo. Sánchez, Miranda y Cerda, (2004). Consisten en una forma de representación utilizada en los sistemas de aprendizaje supervisado, para clasificar ejemplos en un número finito de clases, por medio de la creación de un modelo de clasificación a partir de un conjunto de entrenamiento y de un inductor. Los registros del conjunto de entrenamiento deben pertenecer a un pequeño grupo de clases predefinidas, cada clase corresponde a un valor de la 25

etiqueta. El modelo inducido consiste en una serie de patrones que son útiles para distinguir las clases. Entre las ventajas de los arboles de decisión, se puede mencionar que, pueden ser aplicados a cualquier tipo de variable, discreta o continua, los resultados son fáciles de entender e interpretar. Como desventajas, se puede decir que el proceso de selección es sesgado hacia las variables con más valores diferentes y la superficie de predicción no es muy suave. Acuña (2000). Clasificación La clasificación trata de encontrar las características que identifican a un grupo para ser identificado dentro de cierta clase, y luego de cierta forma predecir la clase a la que pertenecerá una nueva instancia. Según Robles, V. (2003), la tarea de un algoritmo de clasificación supervisada es generar un buen clasificador a partir de un conjunto de ejemplos etiquetados. A continuación, este clasificador puede ser utilizado para identificar casos no etiquetados, con el objetivo de predecir la clase correcta. Un clasificador puede ser evaluado por su exactitud, comprensibilidad u otras propiedades deseables que determinen qué tan apropiado es para la tarea a realizar. En la clasificación supervisada, una instancia es un caso o ejemplo, una lista fija de valores de atributos. Una instancia describe la entidad básica con la que se trabajará, tal es el caso de estudio, una instancia es una transacción electrónica ATM ó POS. En la definición anterior se menciona el término atributo, el cual se puede definir como alguna propiedad de una instancia. Se utilizan dos tipos de atributos: discretos, que a su vez pueden ser nominales u ordinales, por ejemplo un atributo discreto nominal puede ser operación {consulta, retiro, cambio clave }, y por otro lado, + los atributos continuos, por ejemplo, monto R. Por otro lado, en la clasificación supervisada, se puede emplear un método de estimación predicativa de error denominado validación cruzada, donde se separa el conjunto de datos en n partes de igual tamaño, se construye el clasificador con las 26