MÁ QUINÁ DE ÁPRENDIZÁJE HI BRIDO PÁRÁ EL DIÁGNO STICO TEMPRÁNO DE CÁ NCER DE MÁMÁ



Documentos relacionados
Elementos requeridos para crearlos (ejemplo: el compilador)

MÁQUINA DE VECTORES DE SOPORTE

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

CAPITULO III A. GENERALIDADES

Parte I: Introducción

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos

Gestión y Desarrollo de Requisitos en Proyectos Software

Data Mining Técnicas y herramientas

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Una investigación australiana reveló que posiblemente la disminución

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

CAPÍTUL07 SISTEMAS DE FILOSOFÍA HÍBRIDA EN BIOMEDICINA. Alejandro Pazos, Nieves Pedreira, Ana B. Porto, María D. López-Seijo

DE VIDA PARA EL DESARROLLO DE SISTEMAS

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Las 10 preguntas más habituales sobre los Sistemas de Captación de Datos en planta

App para realizar consultas al Sistema de Información Estadística de Castilla y León

RESUMEN CUADRO DE MANDO

Verdadero o falso? Marca los cuadros y luego revisa las respuestas en las siguientes páginas

MARCO METODOLÓGICO CAPITULO III

CRM Gestión de Oportunidades Documento de Construcción Bizagi Process Modeler

7. Conclusiones. 7.1 Resultados

Inteligencia de Negocio

forma de entrenar a la nuerona en su aprendizaje.


GANTT, PERT y CPM. Figura 5.3: Carta GANTT 3.

Conozca los rostros del Alzheimer. Lo que necesitas saber de la enfermedad de Alzheimer y otras demencias afines

SISTEMAS INTELIGENTES

Impacto de la Acreditación en Salud en Colombia

Figura 4.1 Clasificación de los lenguajes de bases de datos

PRODUCTIVIDAD DE PROYECTOS DE DESARROLLO DE SOFTWARE: FACTORES DETERMINANTES E INDICADORES

PROPUESTA METODOLOGICA PARA LA EDUCCIÓN DE REQUISITOS EN PROYECTOS DE EXPLOTACIÓN DE INFORMACIÓN

Experiencia i de las mujeres con cáncer de mama en España. Octubre 2012

Capítulo 5. Cliente-Servidor.

Validation. Validación Psicométrica. Validation. Central Test. Central Test. Centraltest CENTRAL. L art de l évaluation. El arte de la evaluación

El cáncer de mama. se puede curar si se detecta a tiempo

Mantenimiento de Sistemas de Información

Gestión de Permisos. Bizagi Suite. Copyright 2014 Bizagi

Unidad 1. Fundamentos en Gestión de Riesgos

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

SCREENING DEL CARCINOMA DE MAMA

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

ADT CONSULTING S.L. PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS

Para poder controlar se tiene que medir! Por qué desarrollar una cultura de la medición en la empresa?

MONITOR. Guía de Apoyo Abreviada

E Evaluación de pilotos. : Versión: 0.1 Fecha: 07/02/13 Autor: Pablo Martín Pablo.martin@logica.com

Base de datos en Excel

ANALIZANDO GRAFICADORES

Capítulo 2. Metodologías de selección de personal

Funcionalidades Software PROYECTOS GotelGest.Net Software para la gestión de Proyectos GotelGest.Net

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

INFORME DE PATOLOGIA ONCOLOGICA EN DOCENTES EN LA PROVINCIA DE MISIONES. AÑO 2011.

CAPÍTULO 3 Servidor de Modelo de Usuario

DISEÑOS DE INVESTIGACIÓN

ISO9001:2015. Todos los certificados emitidos en este periodo tienen una fecha de caducidad de 15 de septiembre de 2018.

Mejores prácticas para el éxito de un sistema de información. Uno de los problemas de información dentro de las empresas es contar con datos

Capitulo 3. Desarrollo del Software

ANÁLISIS DINÁMICO DEL RIESGO DE UN PROYECTO

Cómo definir un Catálogo de Servicios de TI

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre.

3. GESTIÓN DE CONFIGURACIÓN DE SOFTWARE

Carrera: IFM Participantes. Representantes de la academia de sistemas y computación de los Institutos Tecnológicos.

Caso práctico de Cuadro de Mando con Tablas Dinámicas

Test de Idioma Francés. Manual del evaluador

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

Interoperabilidad de Fieldbus

4 Pruebas y análisis del software

UNIVERSIDAD DE SALAMANCA

Capítulo 9. Archivos de sintaxis

CAPITULO 1 INTRODUCCIÓN. Puesta en Evidencia de un circulo virtuoso creado por los SRI entre los Mercados Financieros y las Empresas

Seis Sigma. Nueva filosofía Administrativa.

Empresa Financiera Herramientas de SW Servicios

Modelos de Ciclo de Vida de Desarrollo de Software en el Contexto de la Industria Colombiana de Software

INGENIERÍA DEL SOFTWARE

TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones.

H E R R A M I E N T A S D E A N Á L I S I S D E D A T O S HERRAMIENTAS DE ANÁLISIS DE DATOS

Resumen General del Manual de Organización y Funciones

ESTUDIO PRELIMINAR DE ALGUNOS FACTORES INFLUYENTES EN EL RENDIMIENTO ACADÉMICO DE ALUMNOS DEL GRUPO EXECUTIVE FISIOTERAPIA

Resumen. Tesis Doctoral Evaluación por competencias del profesional de enfermería y su marco

En nuestro capitulo final, daremos las conclusiones y las aplicaciones a futuro

Principios de Privacidad y Confidencialidad de la Información

CASO PRÁCTICO. ANÁLISIS DE DATOS EN TABLAS DINÁMICAS

ANÁLISIS DE LA ENCUESTA DE SATISFACCIÓN DE USUARIOS MARZO 2014

II. Estudio de satisfacción de los titulados y empleadores respecto al desempeño laboral de los profesionales de la UBB Introducción

Instituto Tecnológico de Costa Rica

Gestión de la Configuración

Preguntas más frecuentes sobre PROPS

Copyright bizagi. Gestión de Cambios Documento de Construcción Bizagi Process Modeler

Sistemas de Gestión de Documentos Electrónicos de Archivo (SGDEA)

Administración del conocimiento y aprendizaje organizacional.

Estimación de una probabilidad

CAPITULO I El Problema

IDEA DE NEGOCIO EDUGER LOGISTIC GERMAN EDUARDO BALSERO MORALES PROFESOR: GERARDO ANDRES ARCOS CELIS

PROYECTO GESTIÓN POR PROCESOS: INFORME DE AUTOEVALUACIÓN MEDIANTE CUESTIONARIO

Registro de OsteoPorosis en España

código Java Solicitudes Reportes AJI resultados API

Preguntas que se hacen con frecuencia sobre los estudios clínicos

Covarianza y coeficiente de correlación

Transcripción:

MÁ QUINÁ DE ÁPRENDIZÁJE HI BRIDO PÁRÁ EL DIÁGNO STICO TEMPRÁNO DE CÁ NCER DE MÁMÁ CENTENO LEGUÍA, James, CORTEZ VÀSQUEZ, Augusto Parcemón Members Universidad Nacional Mayor de San Marcos - Peru, jamescentenoleguia@gmail.com, acortezv@unmsm.edu.pe Abstract Breast cancer is a disease with high number of cases in the country, also is cancer that has a higher rate than people who are cured if detected the disease in early stages of the disease, but is now the third cancer generating more number of deaths in women of Peru. This research is an effort to contribute to a diagnosis of Breast Cancer more effective, building a tool to support the medical diagnosis, which allows a more efficient analysis of mammography, contributing to reduce the error rate in the diagnosis of Breast Cancer. This tool uses the technique of multilevel support vector machine for being the best performance is based on an analysis of several studies that have been conducted, surpassing classical statistical techniques, techniques of neural networks, genetic algorithms.. Keywords: Support Vector Machine, Breast Cancer, Machine Learning, hybrid machine learning E I. INTRODUCCION L cáncer es una enfermedad bastante antigua, pero no reconocida por la baja expectativa de vida. Pero que hoy, los niveles de calidad de vida han aumentado y con ello las posibilidades de que una persona pueda vivir mucho más tiempo, es en este escenario en donde el cáncer se vuelve protagonista puesto que la degeneración celular es un síntoma de la vejez y en una causa muy probable de cáncer, haciendo que hoy en día se encuentre entre las primeras causas de muerte [Who04]. Las máquinas de aprendizaje híbrido han sido implementadas para resolver el problema de diagnóstico de cáncer en diferentes investigaciones, en cada una con diferentes resultados y técnicas utilizadas, consiste básicamente en coger lo bueno de cada técnica que podamos integrar y obtener una mejor técnica. De esta manera se abre un conjunto de posibilidades con relación a las técnicas que se pueden aplicar. 1.1 Antecedentes del problema La tarea de diagnóstico que actualmente se realiza en los hospitales del Perú, requiere del análisis de un conjunto de diversas variables que requiere que el médico tenga que realizar muchos análisis de una muestra en un tiempo corto, por lo que este diagnóstico no garantiza ser completamente eficiente y confiable, en especial en estadios de la enfermedad donde no es muy apreciable su presencia y donde se podría curar con una mayor facilidad. El número de casos de cáncer de mama diagnosticados en un estadio avanzado en el Perú es demasiado alto [MINSA12], esto causado principalmente a que la tarea de diagnóstico de cáncer de mama que realiza el médico no cuenta con una herramienta que garantice un diagnóstico efectivo en las primeras etapas de la enfermedad, donde se puede acceder a tratamientos Fig. 1 Muestra la distribución de muertes por diversas enfermedades que se dieron entre los años 1999 y 2001 [Lopez+01]

menos invasivos y que menos secuelas dejan en comparación a los tratamientos para prolongar la vida a las que son sometidos los pacientes de etapas más En el año 2001 se muestra un estudio realizado a toda un población entre los años 1999 y 2001 el cual dio los resultados de la Figura 1. Donde se puede apreciar que el cáncer es una enfermedad que más muertes ha ocasionado considerando los diversos órganos en los que se ha presentado. El año 2004 se realizó un estudio de la mortalidad tal lo muestra la Figura 2, que tienen las enfermedades tanto transmisibles, no transmisibles y otros, en este documento menciona el impacto que tiene el cáncer en estas estadísticas, siendo mencionado recurrentemente por las enfermedades con mayores muertes en diferentes campos y listas. Perú con 130 muertes por 100000 personas [WHS12]. En el 2013 en el informe publicado menciona a Perú con 130 personas fallecidas por cada 100000. [WHS1]. Estos reportes nos muestran que año tras año el cáncer ha estado afectando a la población peruana dando como resultado la muerte de entre un 0.5% 1% de la población del Perú anualmente, estas estadísticas hacen que desde el año 2012 el Ministerio de Salud apoyado por instituciones como la Liga de Lucha Contra el Cáncer y ONGs, promueva y establezca al Cáncer como problema de Salud Pública, por repercusiones que tiene en la población peruana, desempeñándose principalmente en promover las prácticas saludables y la generación de costumbre de visita médica, de tal manera que se pueda detectar los inicios de Cáncer en Fases tempranas de la enfermedad, donde se tiene un mayor posibilidad de cura y prolongamiento de la vida con una mejor calidad de vida. Aspecto medico II. MARCO TEÓRICO 2.1 Diagnóstico Médico El diagnóstico se basa en el análisis de datos seguros. El razonamiento solo será válido cuando descanse sobre nociones exactas y hechos precisos, pero cuando no se cumplen estos principios los resultados siempre serán erróneos. La validez de una deducción depende de la calidad de las observaciones en que ella se basa, como lo mencionan en [Diaz+06]Teniendo en cuenta estos principios, es indispensable exponer algunas premisas básicas sobre las que se apoya el diagnóstico médico. Fig. 2 Muestra la mortalidad a nivel mundial, registrada en el 2004[Who04]. 1.2 Problema General El problema es la baja precisión del diagnóstico médico a partir de mamografías de Cáncer de Mama. 1.3 Objetivo General Desarrollar una herramienta basada en una máquina de soporte vectorial que sirva de apoyo al diagnóstico médico a partir de mamografías en casos de cáncer de mama. 1.4 Justificación Llegado a este punto, tenemos que analizar el impacto que tuvo el cáncer a los largo de los años en Perú, basándonos en la misma organización que realiza el reporte a nivel mundial. Es importante mencionar que según un estudio estadístico realizado por World Health Stadistic señala que el Perú fallecieron por causas de cáncer 175 personas por cada 100000 personas [WHS06]. Esta cifra de 175 personas se mantuvo en el año 2007 según la misma organización [WHS07]. Para el 2008 la cifra continua constante en 175 [WHS08]. En el año 2009 esta cifra cambio descendiendo a 163 personas [WHS09]. Hacia el 2012 el formato volvió y reconoció al 2.2 Mama Las glándulas mamarias caracterizan, entre otros rasgos, a los mamíferos. Aparecen muy precozmente en el embrión, y a lo largo de la vida de la mujer van sufriendo las distintas fases evolutivas que se corresponden con los ciclos biológicos femeninos como lo menciona [Gonzales08] al indicar que están presentes con diferentes funciones en el paso de la vida. Al terminar la actividad sexual de la mujer, en la menopausia, la glándula involuciona y tiende a la atrofia. Aspecto tecnológico 2.3 Inteligencia artificial Definida en 1956 por el informático del MIT John McCarthy como : la ciencia e ingeniería de hacer máquinas inteligentes, especialmente programas de cómputo inteligente. Se puede simplificar diciendo que la inteligencia artificial (IA) [Borrajo09] [AEPIA15] está conformada por las inteligencias no naturales en especímenes no vivos. Dentro del ámbito de la inteligencia artificial podemos distinguir distintos tipos de conocimientos y de sistemas de representación de dichos conocimientos, los cuales pueden ser aprendidos por la máquina o introducidos en su memoria por un agente experto. 2.4 Inteligencia computacional La inteligencia computacional es la rama de la I.A.

conocida como subsimbólica-inductiva que implica aprendizaje interactivo basado en datos empíricos. Se centra en el estudio de mecanismos adaptativos que permitan al sistema comportarse de manera inteligente sin emplear algoritmos heurísticos, como hace la inteligencia artificial convencional. Combina elementos de aprendizaje, evolución, adaptación y lógica difusa, sin dejar de lado elementos estadísticos, pero siempre en segundo plano, que aportan un soporte complementario para los programas y algoritmos.. 2.5 Máquina de aprendizaje híbrido Es un concepto que resume a las máquinas de aprendizaje automático que hacen uso de más de una técnica convencional y clásica en uno o varios de sus procesos de análisis de datos. Algunas técnicas importantes que se harán revisión en este documento son las siguientes: 2.5.1 Máquina de Soporte Vectorial Son un conjunto de algoritmos de aprendizaje supervisado desarrollados por Vladimir Vapnik y su equipo en los laboratorios AT&T. Estos métodos están propiamente relacionados con problemas de clasificación y regresión. Dado un conjunto de ejemplos de entrenamiento (de muestras) podemos etiquetar las clases y entrenar una SVM para construir un modelo que prediga la clase de una nueva muestra. Intuitivamente, una SVM es un modelo que representa a los puntos de muestra en el espacio, separando las clases por un espacio lo más amplio posible. Cuando las nuevas muestras se ponen en correspondencia con dicho modelo, en función de su proximidad pueden ser clasificadas a una u otra clase. Más formalmente, una SVM construye un hiperplano o conjunto de hiperplanos en un espacio de dimensionalidad muy alta (o incluso infinita) que puede ser utilizado en problemas de clasificación o regresión. Una buena separación entre las clases permitirá una clasificación correcta[cortez+2011], [Hernandez+2011]. 2.5.2 Máquina de Soporte Vectorial Multinivel Los vectores de soporte determinan la información de conocimiento que tiene una muestra. De esta manera se construye una distribución en donde un Vector de Soporte puede guardar la información necesaria para almacenar el conocimiento que la muestra de datos provee. El trabajo de entrenamiento de esta máquina de aprendizaje radica en la modificación de la posición de los vectores de soporte de tal manera que necesariamente se tenga una de las muestras como posible plantilla para poder comparar nuevas muestras que pertenezcan a una misma población con características similares por la técnica de validación de datos que está utilizando. de las cuáles se obtuvo el análisis en razón de métricas de sus mamografías anonimizadas. 3.2 Metodología Methodologies CRISP-DM (CRoss-Industry Standard Process for Data Mining) La metodología CRISP-DM es un estándar es la industria de la minería de datos el cual es bastante utilizado con buenos resultados tal como lo manifiestan en la referencia [Palacios10], Presenta las siguientes actividades: Comprensión del Negocio o Problema. Comprensión de los Datos Preparación de los Datos Modelado de Datos Evaluación del Modelo Despliegue e Implementación 3.3 Herramienta Se utilizó: Lenguaje de Programación: Java (JDK 1.8) Entorno de Desarrollo: Netbeans 8.0 Estas tecnologías sustentadas en que se puedan realizar posteriores estudios con facilidad y puesto que se encuentra extendido en el mercado actual del Perú IV. DESARROLLO DE LA SOLUCIÓN Se utilizó la metodología CRISP-DM es un estándar es la industria de la minería de datos el cual es bastante utilizado con buenos resultados tal como lo manifiestan en la referencia [Palacios10], es por ello que se determina utilizar esta metodología para la presente investigación. 4.1 Comprensión del Negocio o Problema. El negocio en el cuál se va aplicar en el Seguro Social de Salud - ESSALUD, específicamente en la Oficina de Planeamiento e Inteligencia Sanitaria, en donde se realizan los análisis epidemiológicos y se proponen medidas de acción para el tratamiento de las enfermedades. Esta oficina se encuentra en el organigrama de ESSALUD en la gerencia de línea: Prestaciones de Salud, la cual se aprecia mejor en la Figura 3, donde se muestra el organigrama interno de la Gerencia de Central de Prestaciones de Salud. III. METODOLGIA Y HERRAMIENTAS 3.1 Población y muestra La población estuvo conformada por 1250 mujeres, el cual es el promedio mensual de pacientes, a partir de los 35 años, atendidas en el servicio de mamografía del Hospital Nacional Edgardo Rebagliati Martins. Para fines de la presente investigación se consideró una muestra de 487 mujeres a razón del mejor desempeño del algoritmo, Fig. 3 Estructura Orgánica de la Gerencia de

Prestaciones de Salud. En la Oficina de Planeamiento e Inteligencia Sanitaria actualmente se tiene una base de datos de muestras de Cáncer de Mama, que se encuentra construida de tal manera que la organización de los datos de la muestra estén organizados de manera semejante a la base de datos pública de la Universidad de Wisconsin. Esto garantiza que sea posible desarrollar un aplicativo que utilice técnicas que se probaron en un escenario distinto pero que por la estructura puedan tener un desempeño superior. 4.2 Comprensión de los Datos Los datos para la investigación proceden de las mamografías anónimas las cuales son proveídas y analizadas por personal de ESSALUD efectuando un informe el cual contenga variables a nivel de datos numéricos que permitan aplicar una técnica de minería de datos sobre los mismos. Las variables estarán codificadas con valores enteros entre 1 y 10 siendo las siguientes: Clump thickness Uniformity of cell size Uniformity of cell shape Marginal adhesion Single epithelial cell size Bare nuclei Bland chromatin Normal nucleoli Mitosis 4.3 Preparación de los Datos La preparación de los datos se encuentra a partir del diagnóstico que emita un médico con ayuda de un software denominado Kateron Pacs (Fig 4)el cuál permite obtener datos con una alta exactitud a partir de las Imágenes Médicas. Fig. 4 Software de análisis de imágenes médicas. Actualmente se realiza un estudio sobre 532 muestras que se han tomado del año 2005 de las cuales se tiene un holgura para la limpieza en caso de imágenes defectuosas de 32 imágenes, teniendo finalmente un conjunto de imágenes de prueba de 500 muestras para estudio. 4.4 Modelado de Datos El modelado de los datos se realiza con validación cruzada que permita mayor precisión de los datos. Utilizando la revisión del estado del arte realizada se procede a seleccionar el modelo utilizado por [Nasser+10] donde se tiene un modelo completo para el abordaje de los diversos tipos de cáncer(fig 5). Fig. 5 Modelo de Análisis de Datos 4.5 Evaluación del Modelo La validación del modelo aplicado según [Nasser+10] es preferible una validación cruzada que estratificado puesto que la precisión de los datos es más confiable para muestras médicas que se utilicen. 4.6 Despliegue e Implementación Luego de la fase de evaluación del modelo se desarrolla el despliegue en donde se tiene planificado un primer programa piloto en el Hospital Rebagliati donde se tiene el mayor índice de pacientes más constantes. Como segunda etapa se procederá a implementar en los hospitales nacionales y nivel IV que cuenten con los profesionales para realizar el levantamiento de la información. En esta etapa se procederá a evaluar la situación del proyecto y definir si se desarrolla para otros tipos de cáncer o en su defecto se despliegue sólo a nivel de cáncer de mama. 4.7 Consideraciones técnicas con relación al desarrollo de los algoritmos. Se utilizó un conjunto de datos de la universidad de Winsconsin Breast Data Set. El conjunto de datos que estamos utilizando contiene los detalles de biopsia tomadas de Wisconsin Hospitales. Se recogió por Wolberg y Mangasarian en la Universidad del Hospital de Wisconsin-Madison en 1990 y está disponible en la UCL repositorio de aprendizaje automático. Hay nueve atributos con uno variable de clase. El resultado se representa como clase 2 para una benigna celular y 4 para la célula maligna. Los valores no son originales como todos los valores se escalan intervalo 1-10. Hay 478 casos fuera de los cuales 16 casos fueron incompletos. Hemos eliminado las 16 instancias y los casos restantes se distribuyeron de la 315 para casos benignos y 147 para maligna. Los nueve atributos son las siguientes. Clump thickness Uniformity of cell size Uniformity of cell shape Marginal adhesion Single epithelial cell size Bare nuclei Bland chromatin Normal nucleoli Mitosis Class variable Se han realizado diversos estudios en el campo de clasificación de cáncer de mama utilizando estos atributos [18].

4.8 Validaciones y pruebas del Sistema. El desarrollo que se realizó fue en base a los requerimientos formulados por profesionales de medicina a los cuales se les consulto sobre los resultados que se deberían poder observar quedando descrito de la siguiente manera: Secciones Desarrolladas del Sistema. 4.8.1 Sección de presentación de datos. En donde se presentan los datos correspondientes a las 272 muestras que se tienen estudiadas y catalogadas. Actualmente se encuentra compuesto del total de los campos requerido y adicionado por 3 campos de control que se utiliza para realizar un análisis de corrección de las variables y de los cambios que se vean recomendados según la obtención de datos. En esta sección se presentan también un análisis del conjunto total de los datos que se requieren y que posteriormente se analizan, permitiendo brindar una auditoría interna de los datos. Originalmente se presenta esta interface para organizar el conjunto de épocas que se requiere para tener una red entrenada y que permita determinar según un conjunto de parámetros cuales son las conclusiones respecto a un conjunto de datos. 4.8.2 Sección de leyenda. En donde se presenta la descripción de cada uno de los campos de la presentación, los mismos que se tienen a partir de los atributos de información que se tienen (Fig 6): # Attribute Domain -- ----------------------------------------- 1. Sample code number id number 2. Clump Thickness 1-10 3. Uniformity of Cell Size 1-10 4. Uniformity of Cell Shape 1-10 5. Marginal Adhesion 1-10 6. Single Epithelial Cell Size 1-10 7. Bare Nuclei 1-10 8. Bland Chromatin 1-10 9. Normal Nucleoli 1-10 10. Mitoses 1-10 11. Class: (2 for benign, 4 for malignant) Fig 6 Tabla de valores de las variables.. 4.8.3 Sección de predicción En donde se realizan los cálculos de los datos y se generan los reportes en Excel para que sean analizados finalmente por médicos. Esta es el área que nos genera y nos reporta la mayor carga de procesamiento en la que se encarga del entrenamiento de la red y que de esta manera se pueda calcular los vectores de soporte. 4.8.4 Sección de Restricciones Sirve para poder modificar ligeramente los análisis de tal manera que se ajuste a las características específicas de un paciente. La sección de características permite eliminar y/o incluir una variable para el tema de la explotación de la Red Neuronal o Máquina de Soporte Vectorial. Esta es una opción que es agregada a razón de la recomendación de un usuario del sistema que opina que en caso de presentarse una determinada combinación o valor de un valor entonces se tiene una conclusión muchísimo más rápida y probablemente mucho más exacta que lo que puede diagnosticar una sistemas por sí solo. De esta manera se eliminan datos que puedan interferir negativamente con los datos de la entrada y los mismos puedan afectar a las variables sensibles de los algoritmos haciendo que los mismos sean mucho más consistentes. Como criterio propio no se recomienda para las tareas de entrenamiento puesto que hace que el sesgo fruto de esa restricción manipule negativamente la fuente de datos para mostrar un hiperplano que no necesariamente sea el que presente la mayor distancia. 4.8.5 Validación Cruzada Aleatoria. Consiste en el método derivado de utilizar la validación cruzada pero en esta prueba se necesita que se tengan dos subconjuntos de datos de tal manera que el dimensionamiento que tienen estos mismos sea aleatorio e independiente del total de muestras que se haya realizado en una época anterior de entrenamiento. Fig 7 Explicación gráfica de la validación cruzada. La validación cruzada es una técnica ampliamente usada [Zhong+12] que principalmente se caracteriza por ser mucho más fina con la construcción del modelo de prueba y la obtención de la función de clasificación. Independientemente de cualquier herramienta que se utilice ha probado ser de los mejores métodos de pruebas que se han utilizado y probado en otros estudios anteriormente referenciados y que han demostrado de esta manera que este método es efectivo. Como mayor ventaja que posee es que el afinamiento a la muestra obtenida es la más óptima para el conjunto de entrada puesto que se enfoca en la atención de un solo conjunto de datos y su propia optimización sin esperar posible variaciones en la muestra que se tiene Entre las desventajas que tiene este método es que en caso de no tener una buena muestra de datos, los mismos no pueden ser utilizados porque la función de clasificación que se obtiene es específica para la muestra de entrenamiento no siendo adaptable para otras muestras. 4.9 Pruebas del Sistema. Las pruebas del sistema se realizaran por los siguientes parámetros, siendo estos los que determinen cuál de los algoritmos tiene un mayor desempeño. Especificidad: La especificidad puede ser definida

como la relación del número de los verdaderos positivos (El resultado) y el número total de registros, es decir, el número de benigna que ha sido correctamente clasificados / número total de benigna instancias. TP/(TP+FN) Sensibilidad: La sensibilidad puede ser definida como la relación del número de correctos registros malignos clasificados y número total de maligno registros. es decir, TN / (TN + FP) Precisión: Es la relación del número total de benigna clasificado como benigna y maligna clasificado como malignos con el número total de instancias. es decir, (TP + TN) / (TP + TN + FP + FN) Las pruebas al sistema se realizaron en un ambiente determinando los siguientes resultados para los datos de entrada que se tienen siendo la Sensibilidad (capacidad para detectar la ausencia de la enfermedad en sujetos enfermos) y la Especificidad (capacidad de la prueba para detector la ausencia de la enfermedad en sujetos sanos) Esta prueba generó la siguiente curva ROC que básicamente es la intersección de la Especificidad y la Sensibilidad en una curva que registra el conjunto de comportamientos que han tenido según un determinado medio. Finalmente se complete el algoritmo que determina que tan preciso ha sido el sistema determinando los casos positivos y casos negativos. Para el caso del usuario lo que se elige es una prueba muy sensible porque se prefiere obtener falsos positivos en lugar de falsos negativos, es decir que el número de enfermos sin detector sea mínimo. Este es un ejemplo claro para las campañas de epidemiología en donde se busca una mayor sensibilidad. Es importante determinar que se requiere o no un valor alto en especificidad puesto que es variable según la época de entrenamiento. V. RESULTADOS Actualmente se hicieron pruebas con un total de 478 muestra, a través de las cuales se obtuvieron los resultados de la Figura 5.3, donde se puede concluir que se tiene un sistema con una alta tasa de acierto en comparación otros estudios se encuentra altamente posicionado. MLS VM Specifi city Figura 5.1. Sensiti vity Accur acy 97.25 91.23 95.75 Resultados obtenidos Especificidad del sistema Es la probabilidad de clasificar correctamente a un individuo sano, es decir es la proporción de verdaderos negativos identificados por la prueba del total de sanos. En relación a la especificidad del sistema, se puede comentar que la capacidad para determinar si una persona sana tiene ausencia de cáncer es bastante alta. Lo cual lo sitúa como una herramienta de descarte de cáncer de mamá muy eficiente y comparable con estudios que se han realizado siendo muy superior a los métodos estadísticos o sometidos al riesgo del diagnóstico humano. Sensibilidad de sistema Sensibilidad (fracción de verdaderos positivos). Es la probabilidad de clasificar correctamente a un caso como enfermo, es decir es la proporción de verdaderos positivos identificados por la prueba del total de enfermos. En relación a la Sensibilidad del sistema es media/baja en comparación de estudios que se han realizado en otras ramas, pero que aún eso es muchísimo más superior que los métodos estadísticos actualmente utilizados y aun siendo mucho mejor que el juicio de expertos a los que se someten las imágenes actualmente. Este porcentaje refleja el número de casos de personas enfermas a las cuales se les diagnostique cáncer, más conocido como los falsos negativos, siendo personas que se encuentran desarrollando la enfermedad pero su diagnóstico fue errado y no se tiene clara la situación que actualmente se tiene. VI. CONCLUSIONES Uno de los problemas que se reviste de real interés es el cáncer de mama dado el alto número de casos registrados en el país así como el que tiene un mayor índice de curación en caso de detectarse la enfermedad en etapas tempranas. En esta investigación se pone de relieve que hemos puesto en la práctica la implementación de la técnica MLSVM (Máquina de Soporte Vectorial Multinivel) caracterizándolo como un máquina de aprendizaje automático, logrando que tenga un porcentaje de acierto 95.75% lo que al ser utilizado por un médico reduciría el número de falsos positivos actualmente. La máquina de aprendizaje híbrido MLSVM, es una técnica que ha demostrado obtener resultados altos, competentes a la de investigaciones de vanguardia que actualmente se utilizan. Para esta investigación se comprueba que la utilización de una técnica proveniente de publicaciones en revistas indexadas que aún no se muestra en su etapa comercial mejora los resultados esperados. Esta investigación ha demostrado que se puede utilizar un origen de datos construidos en similares características con el Breast Cancer Winsconsin Data Set, de manera satisfactoria para su posterior aplicación. La herramienta desarrollada permitió incrementar la precisión del diagnóstico médico a partir de mamografías de Cáncer de Mama. En relación a la especificidad del sistema, es decir la proporción de verdaderos negativos identificados por la prueba del total de sanos, se concluye que la capacidad para determinar si una persona sana tiene ausencia de cáncer es bastante alta. Lo cual lo sitúa como una herramienta de descarte de cáncer de mamá muy eficiente y comparable con estudios que se han realizado siendo muy superior a los métodos estadísticos o sometidos al riesgo del diagnóstico humano. En relación a la sensibilidad de sistema, se concluye que la proporción de verdaderos positivos identificados por la prueba del total de enfermos es media/baja en comparación de estudios que se han

realizado en otras ramas, pero que aún eso es muchísimo más superior que los métodos estadísticos actualmente utilizados y aun siendo mucho mejor que el juicio de expertos a los que se someten las imágenes actualmente. Este porcentaje refleja el número de casos de personas enfermas a las cuales se les diagnostique cáncer, más conocido como los falsos negativos. VII. REFERENCIAS [1] [Arroyo+05] jorge arroyo,mahabir prashad, yelkaira vásquez, elena li, gloria tomás c, actividad citotóxica in vitro de la mezcla de annona muricata y krameria lappacea sobre células cancerosas de glándula mamaria, pulmón y sistema nervioso central, rev peru med exp salud publica 22(4), 2005. [2] [Austin+13] Peter c. Austin, jack v. t., Jennifer e. h, Daniel Levye, Douglas s. lee, using methods from the data-mining and machinelearning literature for disease classification and prediction: a case study examining classification of heart failure subtypes of the sdjournal of clinical epidemiology 66 (2013) 398e407. [3] [Cortez+11] Áugusto Cortez Maquina de Soporte vectorial Algorithmic 2011 ( 2) 2, 2011 43-47. [4] [Drier+11] Yotam Drier, do two machine-learning based prognostic signatures for breast cancer capture the same biological processes? of the plos one march 2011 volume 6 issue 3 e17795. [5] [Gonzales08] antonio gonzales martin, estudio descriptivo de la implantación de un programa de detección precoz de cáncer de mama en el distrito sevilla sur, universidad de sevilla tesis doctoral. [6] [Hernandez+2009] Jose Hernández Introducción a la minería de datos Edit Prentice Hall Madrid 2009. [7] [Ilhan+13] ilhan ilhan, gülay tezel a genetic algorithm support vector machine method with parameter optimization for selecting the tag snps of the sd-journal of biomedical informatics 46 (2013) 328 340. [8] [Lopez+01]alan d. lopez, colin d. mathers, majid ezzati, dean t. jamison, and christopher j. l. murray, measuring the global burden of disease and risk factors, who library cataloguing-in-publication data. [9] [Murray00] christopher j.l. murray1y julio frenk, un marco para evaluar el desempen o de los sistemas de salud, bulletin of the world health organization 2000, 78 (6): 717 731 [10] [Oms_ent10] dr ala alwan,*, global status report on no communicable diseases 2010, library cataloguing-in-publication dataglobal status report on no communicable diseases 2010. [11] [Oms_ent10] dr ala alwan,*, global status report on no communicable diseases 2010, library cataloguing-in-publication dataglobal status report on no communicable diseases 2010 [12] [Pan+12] song pan, serdar iplikci, kevin warwick, tipu z. aziz, parkinson s disease tremor classification a comparison between support vector machines and neural networks, of the sd-expert systems with applications 39 (2012) 10764 10771. [13]. [Re+11] matteo re y giorgio valentini, cancer module genes ranking using kernelized score functions of the bmc bioinformatics 2012, 13(suppl 14):s3 [see http://www.biomedcentral.com/1471-2105/13/s14/s3]. [14] [Santomé01] santomé l, baselga j. actualización en cáncer de mama: aspectos clínicos y terapéuticos. fmc 2001; 8 (9): 597-605. 15. [Vanneschi+11] leonardo vanneschi, antonella farinaccio, giancarlo mauri, mauro antoniotti1, paolo provero y mario giacobini a comparison of machine learning techniques for survival prediction in breast cancer of the biodata mining 2011, 4:12[see http://www.biodatamining.org/content/4/1/12] 16. [Weboms05] world health organization, organizacion mundial de la salud 2013, who library cataloguing-in-publication data 17. [Who04] world health organization, the global burden of disease, who library cataloguing-in-publication data,isbn 978 92 4 156371 0 (nlm classification: w 74) 18. [Who04] world health organization, global health risks : the global burden of disease, who, isbn 978 92 4 156371 0 (nlm classification: w 74) 19. [Who08] department of health statistics and informatics who, causes of death 2008: data sources and methods, who library cataloguing-in-publication data world health organization, global health risks : causes of death 2008: data sources and methods, who library cataloguing-in-publication data. 20. [Who09] world health organization, global health risks : mortality and burder of disease attributable to selected major risks, who, isbn 978 92 4 156387 1,(classification 105) 21. [Whs06] world health organization, world health statistics 2006, who library cataloguing-in-publication data 22. [Whs07] world health organization, world health statistics 2007, who library cataloguing-in-publication data 23. [Whs08] world health organization, world health statistics 2008, who library cataloguing-in-publication data 24. [Whs09] world health organization, world health statistics 2009, who library cataloguing-in-publication data 25. [Whs10] world health organization, world health statistics 2010, who library cataloguing-in-publication data 26. [Whs11] world health organization, world health statistics 2011, who library cataloguing-in-publication data 27. [Whs12] world health organization, world health statistics 2012, who library cataloguing-in-publication data 28. [Whs13] world health organization, world health statistics 2013, who library cataloguing-in-publication data 29. [Zaharia13] mayer zaharia, cancer as a public health problem in peru, rev peru med exp salud publica-ins 30. [Zhong+12] wei zhong, rick chow, jieyue he, clinical charge profiles prediction for patients diagnosed with chronic diseases using multi-level support vector machine, of the sd-expert systems with applications 39 (2012) 1474 1483 31. [Bibliteca+15] Biblioteca Nacional de Medicina de Estados Unidos [see http://www.nlm.nih.gov/medlineplus/spanish/ency/article/000913.ht m] 32. [INC+15] Instituto Nacional del Cancer de Estados Unidos [see www.cancer.gov] 33. [BCW2015] Breast Cancer Wisconsin Data Set [see https://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+(dia gnostic)] 34. [Bennett+92] K. P. Bennett y OL Mangasarian: "robusta Programación Lineal Discriminación de dos conjuntos linealmente Inseparable", Métodos de Optimización y Software 1, 1992, 23-34 35. [Diaz+06] José Díaz Novás, Bárbara Gallego Machado, Aracelys León González; El diagnóstico médico: bases y procedimientos; Rev Cubana Med Gen Integr 2006;22(1) 36. [Borrajo09] BORRAJO, Daniel. Apuntes de la asignatura Inteligencia Artificial curso 2008-2009. Departamento de informática, Universidad Carlos III 37. [AEPIA15] Asociación española de inteligencia artificial (AEPIA). http://www.aepia.org/ 38. [Puelles+15] PUELLES, Luis, SÁNCHEZ CÁNOVAS, José, ALBERTOS, Pedro. Inteligencia artificial e inteligencia humana. 39. [IA15] Inteligencia Artificial y temas relacionados. Wikipedia. http://es.wikipedia.org/wiki/inteligencia_artificial 40. [Sánchez15] SÁNCHEZ G., PÉREZ H., NAKANO M. Growing Cell Neural Network using Simultaneous Perturbation. Inst. Politécnico Nacional, Secc. de Estudios de Posgrado e Investigación, Esc. Superior de Ingeniería Mecánica y y Eléctrica. México D. F. 41. [Sanchez06] SÁNCHEZ-MONTAÑÉS ISLA, Manuel A. Métodos Avanzados en Aprendizaje Artificial. Redes neuronales. Universidad Autónoma de Madrid, 2006 42. [CSULB15] History of the perceptron. http://www.csulb.edu/~cwallis/artificialn/history.htm 43. [Perce15] Perceptrón. Wikipedia http://es.wikipedia.org/wiki/perceptr%c3%b3n 44. [MulPe15] Multilayer perceptrons. http://users.ics.tkk.fi/ahonkela/dippa/node41.html 45. [PerMu15] Perceptrón multicapa. Wikipedia http://es.wikipedia.org/wiki/perceptr%c3%b3n_multicapa 46. [JIANGSHENG02] YU JIANGSHENG. Method of k-nearest Neighbors. Institute of Computational Linguistics Peking University, China, 2002 47. [DeLaEscalera+15] DE LA ESCALERA, Arturo, ARMINGOL, José maría. Apuntes de la asignatura Sistemas de percepción (proveniente Del libro Visión por Computador, fundamentos y métodos, Arturo de la Escalera Hueso. Prentice Hall). Departamentos de ingeniería de sistemas y automática, Universidad Carlos III 48. [Fernández+15] FERNÁNDEZ REBOLLO, Fernando, BORRAJO MILLÁN, Daniel, GARCÍA DURÁN, Rocío. Apuntes de la asignatura Aprendizaje automática. Departamento de informática, Universidad Carlos III 49. [HSU15] CHIH-WEI HSU, CHIH-CHUNG CHANG AND CHIH-JEN LIN. A Practical Guide to Support Vector Classification.