LA MINERÍA DE DATOS APLICADA A LA BÚSQUEDA DE PATRONES DE SUPERVIVIENCIA EN LA NEOPLASIA MALIGNA DE TRÁQUEA, BRONQUIOS Y PULMÓN

Documentos relacionados
Itinerario: Inteligencia Computacional

Universidad de Costa Rica Sistema de Aplicaciones Estudiantiles SAE

Técnicas de Minería de Datos

Guía docente 2007/2008

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

Encuesta de Morbilidad Hospitalaria

LECTURA CRÍTICA DE LA LITERATURA MÉDICA

Especialidades en GII-TI

UNIVERSIDAD ABIERTA PARA ADULTOS (UAPA) Maestría en Dirección Financiera. Asignatura: Método Cuantitativo Empresarial

INDICE. Prólogo a la Segunda Edición

CONCEPTOS BÁSICOS (Freeman capt.1; Neural Nets capt. 4,5 y 7)

ESTADÍSTICA E INTRODUCCIÓN A LA ECONOMETRÍA

Los Grupos de Morbilidad Ajustados (GMA): nuevo agrupador de morbilidad poblacional

ESTADÍSTICA, SISTEMAS DE INFORMACIÓN Y NUEVAS TECONOLOGÍAS Código de la Asignatura Créditos

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

Aprendizaje Automatizado

SEMINARIOS DE INNOVACIÓN EN ATENCIÓN PRIMARIA 2009

ESTADÍSTICA I PRESENTACIÓN DE LA ASIGNATURA

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

MINERIA DE TEXTOS EN R: VIA UN MODELO DE ESPACIO VECTORIAL Y ANÁLISIS CLUSTER. Resumen

Facultad de Ciencias e Ingeniería. Escuela Académico Profesional de Comunicación SÍLABO

Computación Evolutiva Algoritmos Genéticos

T4. Modelos con variables cualitativas

Matemáticas Aplicadas a las Ciencias Sociales

28/08/ :52:22 Página 1 de 5

Tema 15: Combinación de clasificadores

INTELIGENCIA ARTIFICAL COMO HERRAMIENTA EN LA TOMA DE DECISIONES. Tecnología i3b

UNIVERSIDAD AUTÓNOMA DE QUERÉTARO FACULTAD DE MEDICINA

Números reales. Valor absoluto. Desigualdades. Distancias entre la recta real. Intervalos y entornos.

Big Data, metaconcepto. Una herramienta útil, un concepto defectuoso.

matemáticas como herramientas para solución de problemas en ingeniería. PS Probabilidad y Estadística Clave de la materia: Cuatrimestre: 4

TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN

Centro Universitario de Tonalá. Clave Horas-teoría Horas-práctica Horas-AI Total-horas Créditos I

Formación Médica Continuada y Curso de Doctorado de la ULPGC. Metodología de la Investigación en Medicina

Obligatoria Optativa Extracurricular Curso Seminario Taller. Clave seriación 45 Laboratorio. Horas prácticas de campo

Capítulo 8. Análisis Discriminante

UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO ESCUELA PREPARATORIA TEXCOCO

Guía docente MÉTODOS ESTADÍSTICOS PARA LA EMPRESA

REDES NEURONALES. Una esquema simplificado de una neurona se muestra en la siguiente figura. Cuerpo celular. Dendrita. Axón.

INTRODUCCIÓN AL ANÁLISIS DE DATOS

Andres Felipe Rojas / Nancy Gelvez. UNESCO UNIR ICT & Education Latam Congress 2016

CRITERIOS DE SELECCIÓN DE MODELOS

CURSO: Métodos estadísticos de uso frecuente en salud

Introducción a las Redes Neuronales

UNIVERSIDAD DE MÁLAGA FACULTAD DE CIENCIAS ECONÓMICAS Y EMPRESARIALES DEPARTAMENTO DE ECONOMÍA APLICADA (ESTADÍSTICA Y ECONOMETRÍA) TESIS DOCTORAL

El número de altas con internamiento en los hospitales españoles descendió un 1,3% en 2010

INDICE 1. Introducción 2. Recopilación de Datos Caso de estudia A 3. Descripción y Resumen de Datos 4. Presentación de Datos

T2. El modelo lineal simple

SISTEMA INTEGRAL PARA LA PROYECCIÓN Y DETECCIÓN DE LA PREVENCIÓN DEL DELITO, MEDIANTE MINERÍA DE DATOS.

FACULTAD DE CIENCIAS ECONOMICAS LIC. EN ADMINISTRACION CONTADOR PUBLICO ESTADISTICA

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Total tumores malignos por año

MÉTODOS CUANTITATIVOS APLICADOS A LA ADMINISTRACIÓN

LIBRO GUIA: INVESTIGACIÓN DE OPERACIONES Hamdy A. Taha. Editorial Pearson Prentice Hall, 2004

El número de altas hospitalarias aumentó un 0,1% en 2013 tras cuatro años de descensos

>> Tecnologías clave << Captura de de información. Infraestructura. Técnicas de de Prototipado rápido

LICENCIATURA EN ECONOMÍA Y LICENCIATURA EN ADMINISTRACIÓN DE EMPRESAS

CLASIFICACIÓN DE LA IMAGEN. Escuela de Ingeniería Civil y Geomática Francisco Luis Hernández Torres

El número de altas hospitalarias descendió un 1,1% en los hospitales públicos y un 0,1% en los privados durante 2012

ENCUESTA DE MORBILIDAD HOSPITALARIA

Reconocimiento Automático de Voz

PERFIL PROFESIOGRÁFICO PARA IMPARTIR LAS ASIGNATURAS DE LA LICENCIATURA EN INFORMÁTICA (PLAN DE ESTUDIOS 2005)

Planificación didáctica de MATEMÁTICAS 4º E.S.O.

INGENIERÍA EN TECNOLOGÍAS DE LA INFORMACIÓN

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

Bioestadística I. Carrera: BIM Participantes Representante de las. Academia de Biología. de los Institutos Tecnológicos.

UC I. Rest. Ciclo Tipo UCR

Asignaturas antecedentes y subsecuentes Probabilidad y Estadística Matemática

ESTADÍSTICA APLICADA AL TURISMO

ESCUELA SUPERIOR POLITECNICA DEL LITORAL

Qué modelo elegir? BIOCLIM. DOMAIN GARP MaxEnt. Elisa Liras Dpto. Biología Vegetal y Ecología Universidad de Almería

Intensificación en "Lenguajes e Inteligencia Artificial"

BIOESTADISTICA ( ) Evaluación de pruebas diagnósticas. 1) Características del diseño en un estudio para evaluar pruebas diagnósticas.

LA EVALUACIÓN DEL PSA EN EL DIAGNÓSTICO DEL CÁNCER DE PRÓSTATA

MATEMÁTICAS APLICADAS A LAS CCSS II (2º BACHILLERATO)

Aplicación de Modelos Matemáticos en el Tratamiento de Imágenes de Ultrasonido

MATEMÁTICAS APLICADAS A LAS CCSS II. 1. Resolver sistemas de ecuaciones lineales mediante el método de Gauss.

Primera aproximación al aprendizaje automático.

Minería de Datos. Índice. Raquel M. Crespo García. Julio Villena Román. Definición y conceptos Técnicas y modelos

1º CURSO BIOESTADÍSTICA

PROGRAMA DE ESTUDIO. - Nombre de la asignatura : ESTADISTICA I. - Pre requisitos : Matemática III

ÍNDICE CAPÍTULO 1. INTRODUCCIÓN

Análisis Factorial clásico. Análisis de Correlación Canónica. Análisis Discriminante. Modelos Lineales multivariantes.

DIPLOMADO EN ESTADÍSTICA APLICADA

Tema 1 OBJETO Y METODO CIENTIFICO DE LA PSICOLOGÍA SOCIAL DE LA COMUNICACIÓN

SISTEMA DE INFORMACIÓN ESTADISTICO DE LAS TECNOLOGIAS DE LA INFORMACIÓN Y LA COMUNICACIÓN. GUIA PARA LA UTILIZACIÓN DEL SISTEMA.

PROJECT GLASS : REALIDAD AUMENTADA, RECONOCIMIENTO DE IMÁGENES Y RECONOCIMIENTO DE VOZ.

Contenidos Programáticos

Técnicas Avanzadas de Análisis Predictivo. En Software R

ANÁLISIS DISCRIMINANTE

Análisis y predicción de la demanda de transporte de pasajeros

UNIVERSIDAD AUTÓNOMA DE CHIAPAS FACULTAD DE INGENIERÍA CAMPUS I PROBABILIDAD Y ESTADÍSTICA

Estadística FAD - 15 Galaz Lorca, Mirtha Kazmier, Leonard Hanke, John; Wichern, Dean

UNIDAD 12: ESTADISTICA. OBJETIVOS

1. Los números racionales. 2. Operaciones con racionales. 3. Clasificación de los decimales. 4. Irracionales. (representación, orden).

GUÍA PARA EL ANÁLISIS DE LAS ESTADÍSTICAS VITALES, DE MORBILIDAD Y RECURSOS DE SALUD

Modelo Predictivo del Crimen para la Región Metropolitana

Nombre de la asignatura: Investigación de Operaciones II. Créditos: Aportación al perfil

Análisis Inteligente de Datos: Introducción

FRECUENCIAS DE BÚSQUEDAS EN WIKIPEDIA COMO ESTRATEGIA VII Jornadas DEde INVERSIÓN Usuarios deenr EL IBEX35 1 / 14

Transcripción:

LA MINERÍA DE DATOS APLICADA A LA BÚSQUEDA DE PATRONES DE SUPERVIVIENCIA EN LA NEOPLASIA MALIGNA DE TRÁQUEA, BRONQUIOS Y PULMÓN Miguel Ángel Negrín; Christian González; Jaime Pinilla; Francisco-José Vázquez-Polo Departamento de Métodos Cuantitativos en Economía y Gestión. Universidad de Las Palmas de Gran Canaria

Guía de la presentacíon Objetivo Minería de datos y Big Data Aprendizaje automático Análisis descriptivo Resultados Conclusiones

Guía de la presentacíon Objetivo Minería de datos y Big Data Aprendizaje automático Análisis descriptivo Resultados Conclusiones

Objetivos Caracterizar y clasificar la población de pacientes de neoplasia de pulmón mediante técnicas de minería de datos, esperando encontrar relaciones subyacentes que no pueden encontrarse mediante un estudio estadístico clásico.

Guía de la presentacíon Objetivo Minería de datos y Big Data Aprendizaje automático Análisis descriptivo Resultados Conclusiones

Minería de datos y Big Data La minería de datos se define como el proceso que trata de encontrar patrones dentro de grandes volúmenes de información. Es decir, convertir datos sin aparente utilidad en conocimiento. Estadística Aprendizaje automático Computación paralela Sistema de toma de decisiones Minería de datos Recuperación de información Visualización Procesamiento Base de Datos Inteligencia artificial

Minería de datos y Big Data Volumen de datos Minería de datos Complejidad de los datos BIG DATA Velocidad de análisis explotación y decisión

Guía de la presentacíon Objetivo Minería de datos y Big Data Aprendizaje automático Análisis descriptivo Resultados Conclusiones

Aprendizaje automático Limitaciones de los modelos Logit Se asume que los individuos tienen la misma respuesta ante una variación de las explicativas El cociente de las probabilidades de elección de dos alternativas no depende de las restantes alternativas No se admiten correlación entre las observaciones. Ventajas aprendizaje automático Algoritmos computacionales que se mejoran automáticamente a través de la experiencia. Modelos no paramétricos. Pueden detectar relaciones no lineales entre las variables Tienen la habilidad de detectar todas la posibles relaciones entre las variables predictivas

Redes neuronales artificiales Sistema no paramétrico que simula una red neuronal biológica. Es una función matemática que obtiene una salida en función de unas entradas. Esta función se puede descomponer en diferentes funciones que representarían cada una de las capas de la red. Aunque hay diferentes tipos de RNA, se trabajó con una red feedfoward donde los parámetros se ajustaron mediante aprendizaje supervisado Ventajas: Habilidad de aprender mediante la etapa de aprendizaje Crea su propia representación de la información. Desventajas La interpretación de los parámetros no es inmediata.

Redes Neuronales Capa oculta Capa salida X b 4x7 + M F 4x1 a 1x5 + y G 1x1 7x1 x 0 =1 b 0 4x1 m 0 =1 a 0 1x1 M = F( b X + b 0 ) y = G( a M + a 0 )

Naive Bayes Es un clasificador probabilístico basado en el teorema de Bayes.

Paralelización

Guía de la presentacíon Objetivo Minería de datos y Big Data Aprendizaje automático Análisis descriptivo Resultados Conclusiones

Datos Microdatos de encuesta de morbilidad hospitalaria (EMH) entre 1996 y 20012 La EHM ofrece información sobre las altas hospitalarias con internamiento y las estancias medias de las mismas en función del diagnóstico principal asociado al alta, en nuestro caso la neoplasia de pulmón (CIE-9=62)

Análisis descriptivo Provincia de hospitalización Edad Estancia Madrid 13.60% Mínimo 0 Mínimo 1 Barcelona 13.11% Máximo 105 Máximo 336 Valencia 7.64% Media 66 Media 11.32 A Coruña 3.79% Desv. Típica 11.48 Desv. Típica 10.19 Año de ingreso Sexo Urgente 2012 7.73% Mujer 14.05% Sí 41.25% 2011 7.54% Hombre 85.95% No 58.75% 2010 7.34% 2009 7.31% Mes del alta Motivo del alta Marzo 8.84% Otros 77.70% Julio 8.76% Fallecimiento 22.30% Mayo 8.70% Junio 8.69%

Análisis descriptivo

Análisis descriptivo

Guía de la presentacíon Objetivo Minería de datos y Big Data Aprendizaje automático Análisis descriptivo Resultados Conclusiones

Resultados Probit Logit Red Naive Bayes Sexo Urgencia Media DT Media DT Mujer 0,2127 0,0017 No urgente 0,1641 0,0009 Probit Hombre 0,2245 0,0007 Urgente 0,264 0,0009 Mujer 0,2126 0,0016 No urgente 0,1656 0,0009 Logit Hombre 0,2247 0,007 Urgente 0,2632 0,0009 Mujer 0,2142 0,0015 No urgente 0,18 0,0005 Red Hombre 0,2244 0,007 Urgente 0,2705 0,001 Mujer 0,2114 0,0013 Naive No urgente 0,1683 0,0006 Hombre 0,2238 0,005 Bayes Urgente 0,2584 0,0013

Resultados Modelo Precisión Sensibilidad Especificidad Logit 58,44% 60,97% 57,71% Probit 56,96% 58,06% 58,06% Redes Neuronales 63,61% 58,68% 65,02% Naive Bayes 62,79% 54,44% 65,19%

Resultados Modelo Precisión Sensibilidad Especificidad Logit 58,44% 60,97% 57,71% Probit 56,96% 58,06% 58,06% Redes Neuronales 63,61% 58,68% 65,02% Naive Bayes 62,79% 54,44% 65,19% Especificidad Especificidad Especificidad Especificidad Sensibilidad Sensibilidad Sensibilidad Sensibilidad Precisión Precisión Precisión Precisión

Guía de la presentacíon Objetivo Minería de datos y Big Data Aprendizaje automático Análisis descriptivo Resultados Conclusiones

Conclusiones La aplicación de nuevas técnicas de minería de datos nos han permitido encontrar resultados consistentes con la realidad observada basándose únicamente en los datos disponibles. Una de las grandes dificultades que se presentan en esta clase de estudios es la ausencia de alguna de las variables relevantes o la mala calidad de los datos. Aún así los modelos basados en minerías de datos son capaces de superar a los modelos clásicos si atendemos a los criterios de especificidad y sensibilidad. Como trabajos futuros se espera aplicar otras técnicas de minería de datos como los SVM, los árboles de decisión y clustering con el fin de encontrar similitudes entre factores socioeconómicos y clínicos.