UNIVERSIDAD DE ALMERÍA. Facultad de Ciencias Experimentales Departamento de Estadística y Matemática Aplicada

Tamaño: px
Comenzar la demostración a partir de la página:

Download "UNIVERSIDAD DE ALMERÍA. Facultad de Ciencias Experimentales Departamento de Estadística y Matemática Aplicada"

Transcripción

1 UNIVERSIDAD DE ALMERÍA Facultad de Ciencias Experimentales Departamento de Estadística y Matemática Aplicada Memoria presentada por Antonio Fernández Álvarez como requisito para obtener el Diploma de Estudios Avanzados Almería, Noviembre de 2007

2

3 UNIVERSIDAD DE ALMERÍA Facultad de Ciencias Experimentales Departamento de Estadística y Matemática Aplicada Memoria presentada por Antonio Fernández Álvarez como requisito para obtener el Diploma de Estudios Avanzados Jurado Calificador Dr. Serafín Moral Callejón Presidente Dr. Antonio Salmerón Cerdán Vocal y Director Dr. José del Sagrado Martínez Secretario Almería, Noviembre de 2007

4

5 . Agradecimientos. Es de obligado cumplimiento agradecer el apoyo de todas aquellas personas que de alguna forma me han ayudado en la realización de este trabajo, que para mí supone mejorar y descubrirme día a día. En especial citaré a las más importantes. En primer lugar, el artifice, el que pone las herramientas y el orden es Antonio Salmerón Cerdán, mi director de tesis. Agradecerle su apoyo y amabilidad durante todo este tiempo. Por otro lado, Jens Dalgaard Nielsen es una persona sencilla que me ha ayudado en aquellas pequeñeces que hacen que el trabajo diario fluya lentamente pero sin pausa. A él le agradezo su calidad humana y paciencia conmigo. También he de agradecer a Rafael Rumí Rodríguez y a Fernando Reche Lorite sus sabios consejos que han sido útiles para solucionar problemas que se han ido presentando. Por último, a mi familia, amigos y novia por respetar mis ideas y apostar por mí.

6

7 A todos aquellos que luchan por sus sueños.

8

9 Índice general 1. Introducción 1 I Período de docencia 3 2. Metodología de la investigación científica Conceptos relacionados con la investigación Medios de divulgación científica Búsqueda de información Redacción de artículos científicos Presentaciones Los tónicos de la voluntad. Reglas y consejos sobre investigación científica Aspectos positivos Aspectos negativos Fundamentos de modelos gráficos Recordatorio de teoría de la probabilidad Repaso de la teoría de grafos Independencia y su representación gráfica i

10 ii ÍNDICE GENERAL 3.4. Modelos gráficos probabilísticos Concepto de causalidad y construcción de redes bayesianas Modelos de decisión Modelos temporales Aplicaciones de los MGP Inferencia en MGPs Algoritmos exactos Algoritmos aproximados de tipo Monte-Carlo Algoritmos aproximados deterministas Abducción (MAP) Evaluación de diagramas de influencia Inferencia con variables continuas (CG y MTE) Aprendizaje de MGPs Aprendizaje de redes bayesianas Aprendizaje de clasificadores Aprendizaje con datos perdidos Evaluación y comparación de modelos de clasificación supervisada Clasificadores con variables predictoras continuas Análisis estadístico de datos Análisis de la varianza Estadística no paramétrica

11 ÍNDICE GENERAL iii 6.3. Estadística bayesiana Análisis cluster, discriminante y de componentes principales Metaheurísticas y modelos gráficos probabilísticos Uso de MGPs en metaheurísticas: Algoritmos de estimación de distribuciones (EDAs) Resolución de problemas complejos en MGPs usando metaheurísticas. 27 II Período de investigación Redes bayesianas Concepto d-separación El modelo MTE Redes bayesianas para regresión Validación cruzada Validación holdout Validación cruzada en k-pasos Validación cruzada leave-one-out Selección de variables Modelos para regresión usando MTEs Introducción Naive Bayes (NB) NB selectivo (SNB)

12 iv ÍNDICE GENERAL 9.4. Tree Augmented Naive Bayes (TAN) TAN selectivo (STAN) Forest Augmented Naive Bayes (FAN) FAN selectivo (SFAN) Clasificación supervisada incremental usando MTEs: Un estudio preliminar Introducción Reaprendizaje de redes bayesianas según su tipo de variables Clasificación incremental supervisada Clasificación incremental en k-pasos Modelo 1: El clasificador principal actuando como hijo Modelo 2: El clasificador principal actuando como padre Modelos de clasificación incremental naive Bayes Algoritmos de clasificación y aprendizaje Conclusión Experimentación Precisión de los modelos de regresión para los modelos NB, SNB, TAN, STAN, FAN y SFAN Análisis de los resultados Comportamiento de los modelos TAN y STAN usando distinta raíz en el MST formado con los descriptores Precisión del modelo de clasificación incremental

13 ÍNDICE GENERAL v A. Implementación en el entorno Elvira 79 B. Publicaciones científicas 81 C. Avance de proyecto de tesis 83 D. Adscripción a un área de conocimiento 85 Bibliografía 87

14

15 Índice de Tablas 1.1. Listado de los cursos de doctorado realizados Resultados I de los experimentos realizados con los modelos de regresión en términos de rmse Resultados I de los experimentos realizados con los modelos de regresión en términos de lcc Resultados II de los experimentos realizados con los modelos de regresión en términos de rmse Resultados II de los experimentos realizados con los modelos de regresión en términos de lcc Experimentos realizados para reflejar el comportamiento del modelo TAN y STAN referente a la selección de la raíz entre las variables descriptoras Modelo 1: 10 variables aleatorias binarias, n o estados variable clase = 2, 30% conjunto datos para testeo, conocimiento no dividido Modelo 1: 10 variables aleatorias binarias, n o estados variable clase = 2, 30% conjunto datos para testeo, conocimiento dividido Modelo 1: 10 variables aleatorias binarias, n o estados variable clase = 4, 30% conjunto datos para testeo, conocimiento no dividido vii

16 viii ÍNDICE DE TABLAS Modelo 1: 10 variables aleatorias binarias, n o estados variable clase = 2, 30% conjunto datos para testeo, conocimiento dividido Modelo 2: conocimiento no dividido Modelo 2, conocimiento dividido I Modelo 2, conocimiento dividido II

17 Índice de figuras 8.1. Ejemplo de red bayesiana Conexión en serie. Cuando B se instancia, se bloquea la comunicación entre A y B Conexión divergente. Si se instancia A se bloquea la comunicación entre sus hijos Conexión convergente. Si cambia la certeza de A se abre la comunicación entre sus padres Ejemplo de modelo de regresión usando redes bayesianas Estructura de un modelo naive Bayes Ejemplo de selección de variables en un modelo naive Bayes Una estructura TAN con X 2 como raíz del árbol de expansión máximo entre los descriptores Ejemplo de selección de variables en un modelo tree augmented naive Bayes Estructura FAN con k = 3 y 2 bosques Ejemplo de selección de variables en un modelo forest augmented naive Bayes ix

18 x ÍNDICE DE FIGURAS Propuesta 1 para el modelo de clasificación incremental en 2-pasos usando estructuras naive Bayes Propuesta 2 para el modelo de clasificación incremental en 2-pasos usando estructuras naive Bayes

19 Capítulo 1 Introducción Este trabajo está enmarcado dentro del programa de doctorado interuniversitario con mención de calidad Modelos Probabilísticos para la Inteligencia Artificial y la Minería de Datos. Su impartición está justificada debido a la importancia de los modelos gráficos probabilísticos (MGPs) como herramienta para el tratamiento de la incertidumbre y toma de decisiones en problemas que manejan grandes cantidades de información, como son la Inteligencia Artificial y la Minería de Datos. Es un campo en continuo auge y muchas empresas y centros de investigación están demandando personal con una formación específica en este campo. Como objetivos básicos de este programa de doctorado pueden establecerse: Desarrollo de las habilidades básicas para la investigación, tanto desde el punto de vista del análisis y resolución de problemas como de la metodología instrumental necesaria (en este caso computacional y estadística), incluyendo aspectos como la búsqueda de información y la presentación y difusión de resultados. Dominio de los aspectos teóricos fundamentales de los MGPs, en lo concerniente a representación, aprendizaje y razonamiento. Conocimiento de las aplicaciones más destacadas de los MGPs en la ciencia y la industria. 1

20 2 Curso Carácter Duración (horas) Metodología de la investigación científica Obligatorio 30 Fundamentos de modelos gráficos Obligatorio 30 Inferencia en MGPs Obligatorio 40 Aprendizaje de MGPs Obligatorio 50 Análisis estadístico de datos Optativo 30 Metaheurísticas y modelos gráficos probabilísticos Optativo 30 Tabla 1.1: Listado de los cursos de doctorado realizados. Capacitación para el desarrollo de nuevas técnicas y la resolución de problemas usando MGPs. El período docente de este programa consta de distintos cursos. En la Tabla 1 enumero aquéllos que he realizado y se especifica el carácter y duración de los mismos. En sucesivos capítulos se comentarán brevemente los conceptos básicos tratados en cada curso, así como algunas puntualizaciones de lo más importante de cara a mi labor durante el período de investigación en el segundo año.

21 Parte I Período de docencia 3

22

23 Capítulo 2 Metodología de la investigación científica Los conceptos vistos en este curso han sido de gran utilidad para familiarizarme con el mundo de la investigación y para enfocar de forma más fácil la comprensión de conceptos del resto de cursos y tareas de investigación realizadas. Veamos de forma más detallada lo que se ha visto Conceptos relacionados con la investigación Medios de divulgación científica Se presentan en este punto las posibilidades de divulgar nuestro trabajo de investigación realizado. Para ello, se explica en qué consiste un congreso y los distintos tipos de actividades que en él se realizan. Se especifican, además, sus elementos principales, sus ventajas e inconvenientes, las personas que intervienen y el papel de cada una de ellas. Además, se nombran los congresos más importantes dentro del área de los modelos gráficos probabilísticos. Otro medio de divulgación importante son las revistas. Se ha explicado su concepto y en qué se diferencia este medio de los congresos, viendo sus ventajas e inconvenientes 5

24 CONCEPTOS RELACIONADOS CON LA INVESTIGACIÓN con respecto a él. Se han detallado los tipos de revistas existentes, así como los miembros componentes. Además, se ha indicado cómo se mide la calidad de una revista a la hora de valorarla. Al igual que para los congresos, se especifican cuáles son las revistas más importantes relacionadas con el campo de los modelos gráficos probabilísticos. También se presentan otros medios de divulgación científica como son los libros, las tesis doctorales y los informes internos Búsqueda de información En este punto se explica cómo realizar una búsqueda eficiente de la información y se hace hincapié en su importancia a la hora de desarrollar una labor investigadora. Al comienzo de toda investigación científica es necesario, una vez seleccionado el tema objeto de estudio, buscar la mayor cantidad de información posible relacionada con el mismo, para evitar realizar algo ya desarrollado y para conocer hasta qué punto se sabe del entorno de investigación en el que te vas a introducir. Para ello son necesarias algunas recomendaciones básicas: es importante conocer los tipos de documentos a los que tenemos que acceder en cada momento, así como las fuentes de información para cada uno de ellos (bibliotecas, librerías, bases de datos electrónicas, páginas web de los autores,...). Algunos datos sobre los documentos, como por ejemplo su antiguedad y su impacto hay que tenerlos muy en cuenta para saber valorar su calidad Redacción de artículos científicos La finalidad esencial de un artículo científico es comunicar los resultados de investigaciones, ideas y debates de una manera clara, concisa y fidedigna. Por ello, es muy importante conocer cómo se redactan. En este punto se explican las partes más importantes de un artículo (título, autores, institución, resumen, introducción, cuerpo, conclusión, referencias), así como algunas recomendaciones básicas, muchas de ellas dadas en [25].

25 CAPÍTULO 2. METODOLOGÍA DE LA INVESTIGACIÓN CIENTÍFICA Presentaciones Se presentan las claves para realizar una buena presentación del trabajo realizado. En concreto, es importante preparar y estructurar muy bien la presentación y ensayarla cuantas más veces mejor, para eliminar el miedo e inseguridad que podamos tener. Hay que tener en cuenta el contexto de la presentación (objetivo, tipo de público, entorno físico,...). Es interesante exponer ideas claras, conectadas y no muy difíciles de comunicar (ignorar los detalles). Hay que dirigirse siempre al público y hablar con la voz clara y alta. El uso de un tamaño de letra adecuado, así como los colores deberán ser tenidos en cuenta para una correcta visualización. Entre otros, éstos son a grandes rasgos los consejos que no debemos olvidar para tener éxito en nuestra presentación Los tónicos de la voluntad. Reglas y consejos sobre investigación científica La actividad de este curso comienza meses antes de su docencia con la lectura del libro: Los tónicos de la voluntad. Reglas y consejos sobre investigación científica, escrito por el científico Santiago Ramón y Cajal. Se trata de una obra ejemplo que ofrece una serie de reglas y recomendaciones útiles a jóvenes interesados en la investigación científica. Tras la lectura de la misma, cada alumno ha realizado una exposición de aquellos aspectos positivos y negativos que considera más importantes, y que el autor expone como consejo a los futuros investigadores. Mi particular visión acerca del libro la presento a continuación: Aspectos positivos La constancia y la concentración en la investigación son fundamentales. La voluntad es tan educable como la inteligencia.

26 LOS TÓNICOS DE LA VOLUNTAD. REGLAS Y CONSEJOS SOBRE INVESTIGACIÓN CIENTÍFICA No es buena una actitud extremista por parte de los jóvenes investigadores a la hora de admirar grandes obras, ya que puede debilitar nuestra personalidad y pensar que todo está hecho. Las claves de todo investigador, dice el autor, son sentido común, educación, trabajo, atención,... El cerebro juvenil posee plasticidad exquisita, por lo que pueden surgir asociaciones raras de ideas que pueden ser inicio de un gran descubrimiento. Tratar algo nuevo por primera vez descartando información a priori (prejuicios sobre el tema) puede ser interesante en una investigación. El saber ocupa lugar, por lo que es importante la especialización del investigador. El apoyo económico de gobiernos e instituciones es importante en la investigación. La regla básica para la aportación de un científico es: Tener algo nuevo que decir, decirlo, callarse en cuanto queda dicho y dar a la publicación título y orden adecuados. Hay que ser justo y cortés en los juicios sobre trabajos pasados Aspectos negativos En general, la época del libro justifica en parte algunos pensamientos anticuados del autor, diversas opiniones sexistas y comentarios sobre la crisis de la investigación española. Comenta el autor que el novel hombre de ciencia debe huir de resúmenes y manuales, algo no muy acertado, ya que si en algún momento necesitamos una mayor formación o tenemos que relacionar varias materias de las que no somos expertos debemos acudir a estas publicaciones de divulgación no tan específica.

27 CAPÍTULO 2. METODOLOGÍA DE LA INVESTIGACIÓN CIENTÍFICA 9 No es muy acertado decir que para la obra científica los medios son poco importantes y el aspecto humano lo es casi todo, ya que ambas cosas son imprescindibles. Algunos comentarios acerca del papel de la mujer en la vida del investigador son bastante sexistas y por tanto inaceptables en la sociedad actual.

28

29 Capítulo 3 Fundamentos de modelos gráficos Este curso ha sido esencial, ya que gracias a él se han asentado los conceptos básicos sobre modelos gráficos probabilísticos, necesarios para el resto de cursos. Veamos los contenidos tratados agrupados por puntos y una descripción básica de los mismos. Al final del curso cada alumno ha realizado una relación de ejercicios que cubre en su mayoría los conceptos tratados durante la docencia Recordatorio de teoría de la probabilidad En este punto se hace un recorrido por los aspectos básicos sobre la teoría de la probabilidad. Se explica el concepto de variable aleatoria y de probabilidad, así como los tipos de probabilidades que existen (conjunta, marginal y condicional). Se define el teorema de la probabilidad total y la regla de la cadena como dos pilares básicos en este ámbito. Más adelante se tratan el concepto de independencia y correlación, tanto para variables como para valores, lo que sirve para introducir y explicar el concepto de independencia condicional (también muy importante). Por último, se enuncia el teorema de Bayes, que permite relacionar la probabilidad a posteriori con la probabilidad a priori cuando tenemos evidencias sobre las variables de un problema. 11

30 REPASO DE LA TEORÍA DE GRAFOS 3.2. Repaso de la teoría de grafos Se explica el concepto de grafo como base de la estructura de un modelo probabilístico. Se detallan los tipos de grafos existentes, así como una serie de restricciones en los modelos gráficos relacionadas con los ciclos y bucles de un grafo Independencia y su representación gráfica En esta sección se profundiza en el concepto de separación entre variables para grafos no dirigidos (u-separación) y dirigidos (d-separación), usando para ello su representación gráfica y los conceptos de camino activo y camino bloqueado. Esto nos lleva al concepto de independencia entre variables, y se recalca la importancia del hecho de que dos variables sean independientes y las posibilidades que de ello pueden obtenerse Modelos gráficos probabilísticos Se introduce el concepto general y las propiedades de los modelos gráficos probabilísticos, y se da una clasificación de los mismos en base a ciertas características que deben cumplir: redes de Markov, redes bayesianas, redes en cadena, modelos de decisión de Markov, diagramas de influencia, redes de análisis de decisiones,... Se centra la atención de las redes bayesianas detallando sus principales propiedades, haciendo hincapié en la propiedad de Markov como la más importante. Por último, se explica en qué consiste la factorización de redes bayesianas, y las ventajas que nos aporta al tratamiento de estos modelos.

31 CAPÍTULO 3. FUNDAMENTOS DE MODELOS GRÁFICOS Concepto de causalidad y construcción de redes bayesianas Se explica el concepto de relación causal entre dos variables en una red, y las interpretaciones de independencia probabilística y de causalidad que pueden deducirse a partir de la misma. Se recalca la importancia de este concepto a la hora de crear relaciones entre variables en la construcción manual de redes bayesianas. Se explican, además las distintas formas para construir una red bayesiana: a partir de una base de datos, con la ayuda de un experto o una combinación de ambas Modelos de decisión Se presentan los modelos de decisión como una herramienta o sistema de apoyo a la toma de decisiones en problemas altamente complejos y en donde no es posible resolverlos de forma intuitiva. Para ello se proponen tres tipos de modelos: Tablas de decisión: se trata de la forma más elemental de representación y se compone de una serie de estados (con su probabilidad asociada) y decisiones que determinan la utilidad esperada para el problema en cuestión. Árboles de decisión: Surgen para suplir las deficiencias de las tablas de decisión. La filosofía es la misma, pero este modelo permite encadenar más de una decisión con lo que se aplica a problemas más complejos. Diagramas de influencia (DIs): Se platean como un método de representación más compacto que los dos anteriores. Se dan las reglas para su construcción y sus propiedades más importantes.

32 MODELOS TEMPORALES 3.7. Modelos temporales Una limitación de los modelos de decisión es que son estáticos. Para suplir esto surgen los modelos temporales. Permiten representar la progresión del tiempo y una interacción continua del decisor con un sistema dinámico. Se explican las características de los siguientes modelos: Procesos de decisión markovianos (PDMs) PDMs parcialmente observables Redes bayesianas dinámicas Redes temporales DIs dinámicos 3.8. Aplicaciones de los MGP Por último y para motivar aún más la comprensión de los conceptos teóricos tratados en el curso, se presentan algunas de las aplicaciones reales de los MGPs.

33 Capítulo 4 Inferencia en MGPs Este curso ha sido uno de los más complicados, y a su vez útil, ya que me ha hecho conocer lo complejo de la propagación en redes bayesianas y lo importante que puede llegar a ser optimizar pequeñas operaciones para que la eficiencia del proceso mejore en su globalidad Algoritmos exactos Vemos en esta sección todo lo referente a la propagación exacta de probabilidades en redes bayesianas. En primer lugar, se justifica el problema y se explican las operaciones básicas asociadas y algunas indicaciones para mejorar el proceso. Se detalla el algoritmo de eliminación de variables, el paso de mensajes, la construcción de árboles de cliques. Se muestran diferentes arquitecturas de propagación en árboles de cliques (algoritmo de Shenoy-Shafer y algoritmo de Hugin). Por último, se expone la técnica de propagación perezosa. 15

34 ALGORITMOS APROXIMADOS DE TIPO MONTE-CARLO 4.2. Algoritmos aproximados de tipo Monte-Carlo Se trata aquí los algoritmos aproximados de tipo Monte-Carlo como una alternativa a la imposibilidad de usar algoritmos exactos a la hora de propagar en redes bayesianas. Se introduce el tema, detallando su concepto y complejidad. Se explica el concepto de simulación de variables aleatorias, propagación por simulación (muestreo lógico probabilístico, Markov Chain Monte Carlo). Por último, vemos en qué consiste el método basado en muestreo por importancia y el método de ponderación por verosimilitud Algoritmos aproximados deterministas Otro tipo de algoritmos aproximados son los deterministas, cuya principal característica es que obtienen la misma aproximación para cualquier ejecución, a diferencia de los basados en Monte-Carlo (basados en la aleatoriedad). Se explica en qué consisten, estableciendo una clasificación: basados en la simplificación del modelo y basados en métodos de búsqueda. A continuación, se trata la propagación Penniless, viendo sus características, algoritmo que la define y algunas variantes del mismo. Tomando como base este algoritmo se presenta la propagación Lazy-Penniless como una variante en la que ciertas exigencias del algoritmo original se relajan. Otro tipo de propagación abordado es la Mini-Buckets Abducción (MAP) A grandes rasgos, mediante la abducción tratamos de encontrar la configuración que maximiza la probabilidad de un conjunto de variables dada una evidencia. Para ello se presentan la abducción total (MPE) y la parcial (MAP). Dentro de la MAP se muestran algunas de sus aplicaciones. Profundizando más en los conceptos, se estudian las variantes que se plantean a la hora de realizar MAP: adaptación de árboles generales, creación de árboles con restricciones, árboles de probabilidad. Se identifica la compleji-

35 CAPÍTULO 4. INFERENCIA EN MGPS 17 dad de MAP. Por último, se resuelve MAP de forma aproximada con búsqueda y, por otro lado, de forma exacta Evaluación de diagramas de influencia Se contempla en esta sección otro tipo de modelo gráfico probabilístico: los diagramas de influencia (DIs). En un primer punto, se estudia los elementos básicos para su construcción. Posteriormente se justifica el uso de este tipo de modelos y se marcan sus objetivos básicos. A continuación se explica en qué consiste la evaluación cualitativa, por un lado, y cuantitativa, por otro, de los DIs. Se presentan los algoritmos más usuales en la evaluación de diagramas de influencia: método de inversión de arcos, método de eliminaciónde variables. Junto a ellos se dan algunas indicaciones acerca de la complejidad de los mismos, y a colación algunas pinceladas de cómo se puede reducir ésta usando aproximación (adaptación de algoritmos exactos o simulación Monte-Carlo) Inferencia con variables continuas (CG y MTE) En esta sección se afronta el problema de la inferencia en aquellos casos en donde aparecen variables continuas. En una primera aproximación se propone la discretización de las variables como una posible solución al problema. Las deficiencias que de ello se obtienen, obliga a proponer otros métodos más avanzados, como usar una distribución condicional gaussiana o una mixtura de exponenciales truncadas. Se explican ambas de forma detallada viendo sus propiedades y características.

36

37 Capítulo 5 Aprendizaje de MGPs En este curso he aprendido cuáles son los métodos existentes para el aprendizaje de modelos gráficos probabilísticos, en concreto, las redes bayesianas, y a saber evaluar la calidad de un modelo de clasificación. Estos conceptos han sido básicos para aplicarlos a mi labor investigadora en el segundo año, en concreto al apredizaje de modelos de clasificación y regresión usando MTEs Aprendizaje de redes bayesianas Esta parte del curso supone una introducción al problema del aprendizaje en redes bayesianas. Se presenta el aprendizaje inductivo como el pilar básico de este campo. Se explican los métodos de aprendizaje en redes bayesianas distinguiendo entre: aprendizaje de parámetros y aprendizaje de la estructura. Para esta última, se proponen varios métodos: basados en independencias, basados en funciones de evaluación y búsqueda, y técnicas híbridas. 19

38 APRENDIZAJE DE CLASIFICADORES 5.2. Aprendizaje de clasificadores En esta sección se introduce el problema de la clasificación y cómo se aborda usando redes bayesianas. Se explican los dos tipos de clasificación existentes: supervisada y no supervisada. Se hace distinción entre variables discretas y continuas como base del entrenamiento de los clasificadores, y de la posibilidad de discretización de datos continuos para un mejor tratamiento. Para una percepción más real, se muestran las aplicaciones de estos modelos de clasificación. A continuación se muestra el problema del aprendizaje de una red bayesiana como clasificador, y cómo el uso de métricas específicas y la selección de variables son interesantes para guiar el proceso de búsqueda de la mejor estructura. Se presenta el modelo naive Bayes como punto de partida de la estructura del modelo. A partir de aquí se estudian diversos tratamientos a dicha estructura con el objetivo de mejorar calidad de la clasificación: métricas de calidad, selección de características, agrupación de características, modelo naive Bayes aumentado, tree-augmented naive Bayesian network (TAN), forest-augmented naive Bayesian network (FAN), Bayesian network augmented naive Bayesian clasifier (BAN) y otros modelos híbridos. Además se presenta el concepto de Manto de Markov como característica útil en el proceso de búsqueda de la mejor estructura Aprendizaje con datos perdidos Se presenta el problema del aprendizaje cuando tratamos con bases de datos en las que desconocemos el valor de ciertas variables. En primer lugar se aborda el problema del aprendizaje paramétrico y se proponen varios métodos sencillos para solucionarlo: eliminar la fila o columna del dato, ignorarlo, sustituirlo por la media o mediana del resto de valores,... Otros más complejos consisten en reaprender el valor perdido usando una aproximación frecuentista (maximización de la verosimilitud de los datos, algoritmo EM) o, por otro lado, una aproximación

39 CAPÍTULO 5. APRENDIZAJE DE MGPS 21 bayesiana (método Monte-Carlo, aproximación gaussiana). Posteriormente, nos centramos en el aprendizaje estructural con datos perdidos. En este caso, se plantea buscar aquella estructura que maximice algún score bayesiano. Para resolver el problema, se propone, al igual que antes, una aproximación frecuentista y una aproximación bayesiana Evaluación y comparación de modelos de clasificación supervisada Esta etapa se realiza una vez aprendido el modelo, para obtener medidas que nos indiquen la calidad en la clasificación. En cuanto a la evaluación del clasificador, se realiza un estudio exhaustivo de algunas medidas de éxito: matriz de confusión, tasa de acierto, tasa de error, sensibilidad, especifidad, precisión, recall, f-measure e índice kappa. Además, se explican técnicas para estimar la probabilidad de acierto o error de un clasificador: no honesto, holdout, holdout repetidas veces, k-fold cross-validation, jackknife, bootstrap y bolstered. También se tratan otras medidas que nos ayudarán a saber más sobre la calidad de un clasificador: brier score, área bajo la curva ROC y descomposición del error en sesgo y varianza. Por último, veremos cómo es la comparación de dos o más clasificadores. Para ello se usa un test de hipótesis que determina si existen diferencias estadísticas significativas entre los resultados obtenidos. Se detalla el estudio para los siguientes casos: Dos clasificadores en una misma base de datos Más de dos clasificadores en una misma base de datos Dos clasificadores en múltiples bases de datos Más de dos clasificadores en múltiples bases de datos

40 CLASIFICADORES CON VARIABLES PREDICTORAS CONTINUAS 5.5. Clasificadores con variables predictoras continuas En esta sección se plantea el problema de tratar con variables continuas. Una primera solución rápida es discretizar las variables, pero esto conlleva el problema de la pérdida de información. Para ello se propone el uso de una aproximación gaussiana para el tratamiento de variables continuas. Se muestra toda la base teórica de esta aproximación junto con algunos resultados de experimentos realizados para varios tipos de clasificadores.

41 Capítulo 6 Análisis estadístico de datos Los métodos estadísticos de análisis de datos estudiados en este curso han sido muy interesantes desde el punto de vista de su aplicabilidad a problemas reales. En mi labor investigadora los he usado para establecer si existen diferencias significativas entre los resultados obtenidos con distintas técnicas de clasificación y regresión Análisis de la varianza Se presenta el análisis de la varianza (ANOVA) como una herramienta básica para el análisis de los modelos estadísticos, ya que permite descomponer la variablidad de un experimento en componentes independientes que pueden asignarse a diferentes causas y de este modo, contrastar el efecto de los factores sobre la respuesta. Se estudian algunos conceptos básicos relacionados con el diseño de experimentos y con el análisis de la varianza: residuos, varianza residual, suma de cuadrados total, suma de cuadrados de tratamientos, suma de cuadrados de error y coeficiente de determinación. Centrándonos en el análisis de la varianza se profundiza en sus propiedades y características, a la vez que se presentan distintos métodos de análisis y de contraste: mínima diferencia significativa (LSD), métodos de Bonferroni, Tukey, Duncan, Newman-Kewls, 23

42 ESTADÍSTICA NO PARAMÉTRICA Scheffé, Dunnet para comparaciones con un control, contrastes de bondad de ajuste, test de bondad de ajuste χ 2, test de Kolmogorov-Smirnov, test de Kolmogorov-Smirnov- Lilliefors, contraste de normalidad de Shapiro-Wilks, contrastes de de homogeneidad, test de Bartlett, test de Cochran, test de Hartley, método de Levene, contraste de rachas para la aleatoriedad,... Además, se dan algunas indicaciones sobre el análisis de gráficos Estadística no paramétrica La estadística no paramétrica estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, ya que son los datos observados los que la determinan. Se explican los conceptos de test estadístico o contraste de hipótesis, así como las principales pruebas no paramétricas estudiadas: Contrastes de bondad de ajuste: test χ 2, test Kolmogorov-Smirnov, test específico para la normal, test de normalidad multivariante, test de Lilliesfors. Tests de independencia: test χ 2, test de independencia condicionada (más de dos variables). Tests de aleatoriedad: test de rachas y test de huecos. Test de normalidad: univariantes y multivariantes. Estimación de densidades: histograma, polígono de frecuencia y kernels Estadística bayesiana La estadística bayesiana se presenta como una alternativa al paradigma frecuentista a la hora de realizar inferencia. Se tratan los conceptos de inferencia estadística y las

43 CAPÍTULO 6. ANÁLISIS ESTADÍSTICO DE DATOS 25 diferencias entre los métodos bayesianos y los clásicos. Por otro lado, se hace una crítica y justificación de la inferencia bayesiana. Se continúa con los conceptos de distribución a priori y a posteriori de los parámetros a estimar, distribución conjugada (variables de Bernoulli, normales y multinomiales) y estimadores de Bayes Análisis cluster, discriminante y de componentes principales En primer lugar, tratamos el análisis cluster como un conjunto de técnicas orientadas principalmente a la clasificación de los elementos de una población o muestra en distintos grupos homogéneos. Para ello se estudian los conceptos de proximidad, matriz de proximidad, medidas de disimilaridad (distancia euclídea, distancia euclídea estandarizada, distancia de Mahalanobis, distancia de Manhattan, distancia de Minkowski), medidas de similaridad (medida del coseno). Se explican, además, algunas medidas de proximidad entre grupos (vecino más lejano, vecino más cercano, media/mediana de los grupos, centroide, método de Ward). Por último, se presentan algunos de los algoritmos jerárquicos y no jerárquicos para realizar análisis cluster (dendograma, k-medias). A continuación, se plantea el análisis discriminante como una técnica para analizar si existen diferencias significativas entre grupos de individuos respecto a un conjunto de variables medidas sobre los mismos. Se presenta la posiblidad de usar esta técnica para fines descriptivos o predictivos. Por último, se explica el análisis de componentes principales como una técnica estadística de síntesis de la información, o reducción de la dimensión (número de variables), perdiendo la menor cantidad de información posible. Se estudiará su concepto, propiedades y las características de la primera y segunda componente principal.

44

45 Capítulo 7 Metaheurísticas y modelos gráficos probabilísticos 7.1. Uso de MGPs en metaheurísticas: Algoritmos de estimación de distribuciones (EDAs) El uso de metaheurísticas se plantea como una mejora en el proceso de optimización en problemas de computación evolutiva. En esta sección se introduce los MGPs como modelo base para este cometido. En concreto, se profundiza en los algoritmos de estimación de distribuciones (EDAs) y las mejoras que éste proporciona a las técnicas clásicas de computación evolutiva. Se verán distintas variantes de EDAs para optimización combinatoria y numérica clasificadas en: modelos univariados o sin dependencias, dependencias bivariadas y dependencias múltiples o n-variadas Resolución de problemas complejos en MGPs usando metaheurísticas En esta otra sección se plantean las metaheurísticas como una técnica para mejorar ciertas tareas en redes bayesianas: aprendizaje, triangulación, abducción, propagación 27

46 RESOLUCIÓN DE PROBLEMAS COMPLEJOS EN MGPS USANDO METAHEURÍSTICAS de probabilidades imprecisas,... Se detallan las características de cada una de ellas y los procedimientos a seguir para su aplicación.

47 Parte II Período de investigación 29

48

49 Capítulo 8 Redes bayesianas 8.1. Concepto Las redes bayesianas se consideran como una de las herramientas más potentes a la hora de diseñar sistemas expertos localizados en un entorno de incertidumbre, comúnmente llamados sistemas expertos probabilísticos. Gráficamente una red bayesiana es un grafo dirigido acíclico, donde los nodos representan las variables del problema y los arcos una relación entre éstas. Más concretamente, la estructura de grafo nos permite expresar información del problema desde dos puntos de vista: Cualitativo: La presencia o no de arcos entre nodos y su disposición dentro del grafo nos indicará las relaciones de dependencia e independencia entre las variables del problema. Cuantitativo: Expresa de forma cuantitativa la incertidumbre acerca de la ocurrencia de los sucesos, en situaciones en donde poseemos algunas evidencias sobre las variables del problema. Esta información se expresa mediante un conjunto de distribuciones de probabilidad condicionadas, ligada íntimamente a la estructura del modelo. 31

50 D-SEPARACIÓN Formalmente se expresa el concepto de red bayesiana mediante la siguiente definición: Definición 8.1. Una red bayesiana es un par (G, P) en donde: G es un grafo dirigido acíclico con un conjunto de vértices X y aristas A. Los vértices representan variables aleatorias del problema y las aristas, relaciones de dependencia e independencia existentes en la red. P representa un conjunto de funciones de probabilidad condicionadas para cada variable dados sus padres, esto es, P = {p(x 1 π 1 ),...,p(x n π n )}. Teorema 8.1. Según [27], dada una red bayesiana (G, P), el conjunto P define una función de probabilidad asociada mediante la factorización n p(x) = p(x i π i ) x Ω X. (8.1) donde Ω X es el conjunto de posibles valores de la variable X. En la figura 8.1 se puede ver un ejemplo de red bayesiana. i=1 (a) Grafo dirigido acíclico X 1 X 2 X 3 X 4 X 5 (b) Funciones de probabilidad p(x 1 = 0) = 0,20 p(x 2 = 0 X 1 = 0) = 0,80 p(x 2 = 0 X 1 = 1) = 0,80 p(x 3 = 0 X 1 = 0) = 0,20 p(x 3 = 0 X 1 = 1) = 0,05 p(x 4 = 0 X 2 = 0, X 3 = 0) = 0,80 p(x 4 = 0 X 2 = 1, X 3 = 0) = 0,80 p(x 4 = 0 X 2 = 0, X 3 = 1) = 0,80 p(x 4 = 0 X 2 = 1, X 3 = 1) = 0,05 p(x 5 = 0 X 3 = 0) = 0,80 p(x 5 = 0 X 3 = 1) = 0,60 Figura 8.1: Ejemplo de red bayesiana d-separación Para entender el concepto de d-separación es importante conocer los tipos de conexiones de variables que pueden darse en una red. Todas ellas pueden agruparse en tres básicas:

51 CAPÍTULO 8. REDES BAYESIANAS 33 Conexiones en serie: Se puede ver en la figura 8.2 cómo A incide sobre B y ésta última sobre C. De esta estructura pueden obtenerse varias conclusiones. La primera de ellas, es que si tenemos alguna evidencia sobre A, esto cambiará la información que poseemos sobre B y C. De la misma forma, si tenemos certeza de C ello repercutirá en nuestra información sobre B y A. Por último y muy importante, si conocemos el valor de la variable B, A y C se vuelven independientes, es decir, un cambio en una no repercute en la otra. En este último caso, A y C están d-separadas dado B y se dice que el camino está bloqueado. Como conclusión, podemos decir que una evidencia puede ser transmitida a través de una conexión en serie, siempre y cuando no haya una variable intermedia evidenciada que lo prohiba. A B C Figura 8.2: Conexión en serie. Cuando B se instancia, se bloquea la comunicación entre A y B. Conexiones divergentes: En la figura 8.3 podemos ver este tipo de conexión. En este caso las variables B, C y D están conectadas a priori, en el sentido de que un cambio en la evidencia de una de ellas repercute en las demás, excepto cuando el valor de A es conocido, en cuyo caso la transmisión de información entre éstas se bloquea. Por tanto, podemos decir que la evidencia se puede transmitir a través de una conexión divergente siempre y cuando no se instancie la variable enlazante. Conexiones convergentes: Este tipo de conexión se muestra en la figura 8.4. En este caso si no se tiene ninguna evidencia acerca de A, excepto lo que puede inferirse acerca del conocimiento de sus padres, entonces éstos son independientes, es decir una evidencia en uno no tiene ningún efecto sobre los otros. Sin embargo, si tenemos información acerca de A, una evidencia en uno de sus padres tendrá repercusión en los otros. Como conclusión, podemos decir que la evidencia en una

52 D-SEPARACIÓN A B C D Figura 8.3: Conexión divergente. Si se instancia A se bloquea la comunicación entre sus hijos. conexión convergente sólo puede ser transmitida si la variable enlazante o alguno de sus descendientes ha recibido información. B C D A Figura 8.4: Conexión convergente. Si cambia la certeza de A se abre la comunicación entre sus padres. Definición 8.2. (d-separación)[15, 16, 17]: Dos variables distintas A y B en una red bayesiana están d-separadas si para todos los caminos entre A y B, hay una variable intermedia V (distinta de A y B) tal que: La conexión es en serie o divergente y V está instanciada La conexión es convergente y ni V ni ningún descendiente de V ha recibido evidencia. Mediante el concepto de d-separación podemos conocer qué partes de una red son inpendientes entre sí, y de esta forma, mejorar la eficiencia de los algoritmos de inferencia y aprendizaje en redes bayesianas, de ahí su importancia.

53 CAPÍTULO 8. REDES BAYESIANAS El modelo MTE La presencia de variables discretas y continuas en una misma red requiere el uso de algún modelo en el que basarnos para construir y manipular de forma correcta la red. Una de las soluciones propuesta para ello es el modelo MTE [19] que se define como sigue: Definición 8.3. (Potencial MTE) Sea X un vector aleatorio mixto n-dimensional. Sean Y = (Y 1,..., Y d ) y Z = (Z 1,...,Z c ) la parte discreta y continua de X, respectivamente, con c + d = n. Se dice que una función f : Ω X R + 0 es un potencial tipo Mixtura de Exponenciales Truncadas (potencial MTE) si se cumple alguna de las siguientes condiciones: i. Y = y f se puede expresar como f(x) = f(z) = a 0 + { m c a i exp i=1 j=1 b (j) i z j } (8.2) para todo z Ω Z, donde a i, i = 0,..., m y b (j) i, i = 1,..., m, j = 1,...,c son números reales. ii. Y = y hay una partición D 1,..., D k de Ω Z en hipercubos tal que f se define como f(x) = f(z) = f i (z) si z D i, donde cada f i, i = 1,..., k se puede expresar en los términos de la ecuación (8.2). iii. Y y para cada valor fijado y Ω Y, f y (z) = f(y,z) puede definirse como en ii. Ejemplo 8.1. La función f definida como 2 + e 3z 1+z 2 + e z 1+z 2 si 0 < z 1 1, 0 < z 2 < e z 1+z 2 si 0 < z 1 1, 2 z 2 < 3 f(z 1, z 2 ) = e2z 1+z 2 si 1 < z 1 < 2, 0 < z 2 < ez 1+2z 2 si 1 < z 1 < 2, 2 z 2 < 3

54 EL MODELO MTE es un potencial MTE ya que todas sus partes lo son. Definición 8.4. (Densidad MTE) Un potencial MTE f es una densidad MTE si y Ω Y Ω Z f(y,z)dz = 1. Una densidad condicionada MTE se puede especificar dividiendo el dominio de las variables condicionantes y especificando una densidad MTE para la variable condicionada para cada uno de los intervalos de la variable condicionante. Moral et al. [19] proponen una estructura de datos para representar los potenciales MTE, que es especialmente adecuada para este tipo de densidades condicionadas: Se denominan árboles de probabilidad mixtos o simplemente árboles mixtos. La definición formal es la siguiente: Definición 8.5. (Árbol mixto) Se dice que un árbol T es un árbol mixto si se satisfacen las siguientes condiciones: i. Cada nodo interior representa una variable aleatoria (discreta o continua). ii. Cada arco que sale desde una variable continua se etiqueta con un intervalo de valores, formando la unión de todos ellos el dominio completo de dicha variable. iii. Cada variable discreta tiene un número de arcos salientes igual a su número de estados. iv. Cada nodo hoja contiene un potencial MTE definido sobre las variables en el caminio desde la raíz a dicha hoja. Los árboles mixtos pueden representar potenciales MTE definidos por partes. Cada rama completa en el árbol determina una subregión del espacio donde el potencial se define, y la función almacenada en la hoja de dicha rama es la definición del potencial en la correspondiente subregión.

55 CAPÍTULO 8. REDES BAYESIANAS 37 Figura 8.5: Ejemplo de modelo de regresión usando redes bayesianas Redes bayesianas para regresión En los ultimos años, las redes bayesianas [3, 15, 16, 17] se han convertido en una herramienta popular para resolver problemas de clasificación, donde la meta es obtener un modelo capaz de asignar un valor de una clase a un individuo particular descrito en términos de un conjunto de variables aleatorias [10], tambián llamados descriptores. El problema de la clasificación se aplica a modelos en donde la variable clase es discreta y con un conjunto finito de valores. De la misma forma, esta filosofía puede extenderse a problemas de regresión, en donde la variable clase sigue una distribución continua de probabilidad. La regresión es una técnica estadística utilizada para simular la relación existente entre dos o más variables. Por lo tanto, se puede emplear para construir un modelo que permita predecir el comportamiento de una variable dependiente Y, en nuestro caso, la variable clase, a partir de n variables independientes. En la figura 8.5 podemos ver un ejemplo de un modelo de regresión usando redes bayesianas con MTEs. Por tanto, para resolver el problema de regresión planteado, haremos uso de clasificadores bayesianos usando el modelo MTE expuesto en la sección 8.3, que posibilitará la presencia de una variable clase continua. En el capítulo 9 se presentan distintos modelos

Matemáticas 2º BTO Aplicadas a las Ciencias Sociales

Matemáticas 2º BTO Aplicadas a las Ciencias Sociales Matemáticas 2º BTO Aplicadas a las Ciencias Sociales CONVOCATORIA EXTRAORDINARIA DE JUNIO 2014 MÍNIMOS: No son contenidos mínimos los señalados como de ampliación. I. PROBABILIDAD Y ESTADÍSTICA UNIDAD

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Las Matemáticas En Ingeniería

Las Matemáticas En Ingeniería Las Matemáticas En Ingeniería 1.1. Referentes Nacionales A nivel nacional se considera que el conocimiento matemático y de ciencias naturales, sus conceptos y estructuras, constituyen una herramienta para

Más detalles

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez Curso de Análisis de investigaciones con programas Informáticos 1 UNIVERSIDAD DE JAÉN Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos

Más detalles

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3 Capítulo 3 1. Introducción El análisis de regresión lineal, en general, nos permite obtener una función lineal de una o más variables independientes o predictoras (X1, X2,... XK) a partir de la cual explicar

Más detalles

Cómo se usa Data Mining hoy?

Cómo se usa Data Mining hoy? Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta

Más detalles

Socioestadística I Análisis estadístico en Sociología

Socioestadística I Análisis estadístico en Sociología Análisis estadístico en Sociología 1. INTRODUCCIÓN. Definición e historia. 1.1. Que es la Sociestadística?. La estadística es la ciencias de las regularidades que se observan en conjuntos de fenómenos

Más detalles

GUÍA DOCENTE TITULACIONES DE GRADO

GUÍA DOCENTE TITULACIONES DE GRADO GUÍA DOCENTE TITULACIONES DE GRADO GRADO EN MARKETING CURSO 2015/2016 ASIGNATURA: ESTADÍSTICA Nombre del Módulo al que pertenece la materia Métodos cuantitativos para las ciencias sociales ECTS Carácter

Más detalles

Los pronósticos pueden ser utilizados para conocer el comportamiento futuros en muchas fenómenos, tales como:

Los pronósticos pueden ser utilizados para conocer el comportamiento futuros en muchas fenómenos, tales como: TEMA 1: PRONÓSTICOS 1.1. Introducción Pronostico es un método mediante el cual se intenta conocer el comportamiento futuro de alguna variable con algún grado de certeza. Existen disponibles tres grupos

Más detalles

STATMEDIA: UN CURSO MULTIMEDIA DE ESTADÍSTICA

STATMEDIA: UN CURSO MULTIMEDIA DE ESTADÍSTICA 27 Congreso Nacional de Estadística e Investigación Operativa Lleida, 8-11 de abril de 2003 STATMEDIA: UN CURSO MULTIMEDIA DE ESTADÍSTICA M. Calvo, A.Villarroya, A.Miñarro, S.Vives, A.Arcas Departamento

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Introducción Las Compañías aseguradoras determinan sus precios basadas en modelos y en información histórica

Más detalles

Statgraphics Centurión

Statgraphics Centurión Facultad de Ciencias Económicas y Empresariales. Universidad de Valladolid 1 Statgraphics Centurión I.- Nociones básicas El paquete Statgraphics Centurión es un programa para el análisis estadístico que

Más detalles

Estimar, descomponer y comparar el error de mala clasificación

Estimar, descomponer y comparar el error de mala clasificación Estimar, descomponer y comparar el error de mala clasificación Evaluando y analizando el comportamiento de algoritmos de inducción de clasificadores Aritz Pérez, Pedro Larrañaga e Iñaki Inza Intelligent

Más detalles

Estudio comparativo de los currículos de probabilidad y estadística español y americano

Estudio comparativo de los currículos de probabilidad y estadística español y americano Estudio comparativo de los currículos de probabilidad y estadística español y americano Jaldo Ruiz, Pilar Universidad de Granada Resumen Adquiere las mismas capacidades en Probabilidad y Estadística un

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL Objetivo terminal: Calcular e interpretar medidas de tendencia central para un conjunto de datos estadísticos. Objetivos específicos: 1. Mencionar las características

Más detalles

Programación General Anual Curso 2011/12 MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II ÍNDICE

Programación General Anual Curso 2011/12 MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II ÍNDICE MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II ÍNDICE ÍNDICE...1 CONTENIDOS... 2 CRITERIOS DE EVALUACIÓN... 4 TEMPORALIZACIÓN... 5 METODOLOGÍA DIDÁCTICA... 6 PROCEDIMIENTOS DE EVALUACIÓN... 7 ACTIVIDADES

Más detalles

Estadística (Gr. Biología-09) (2010-2011)

Estadística (Gr. Biología-09) (2010-2011) Estadística (Gr. Biología-09) (2010-2011) PRESENTACIÓN OBJETIVOS PROGRAMA METODOLOGÍA EVALUACIÓN BIBLIOGRAFÍA HORARIO ATENCIÓN http://www.unav.es/asignatura/estadisticabio/ 1 de 10 PRESENTACIÓN Descripción

Más detalles

Análisis multivariable

Análisis multivariable Análisis multivariable Las diferentes técnicas de análisis multivariante cabe agruparlas en tres categorías: «Análisis de dependencia» tratan de explicar la variable considerada independiente a través

Más detalles

Estimación de parámetros, validación de modelos y análisis de sensibilidad

Estimación de parámetros, validación de modelos y análisis de sensibilidad Tema 6 Estimación de parámetros, validación de modelos y análisis de sensibilidad 6.1 Calibración Una vez que se ha identificado el modelo y se ha programado, necesitamos aplicarlo al problema concreto

Más detalles

Deep Learning y Big Data

Deep Learning y Big Data y Eduardo Morales, Enrique Sucar INAOE (INAOE) 1 / 40 Contenido 1 2 (INAOE) 2 / 40 El poder tener una computadora que modele el mundo lo suficientemente bien como para exhibir inteligencia ha sido el foco

Más detalles

MATEMÁTICA NM4 4º EM

MATEMÁTICA NM4 4º EM MATEMÁTICA NM4 4º EM UNIDADES TEMÁTICAS UNIDAD Nº 01: ESTADÍSTICA Y PROBABILIDAD Conceptos generales : Población, muestra, parámetro y estadístico Variables y su clasificación Medición y escalas Organización

Más detalles

ANÁLISIS DISCRIMINANTE

ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE 1. Introducción 2. Etapas 3. Caso práctico Análisis de dependencias introducción varias relaciones una relación 1 variable dependiente > 1 variable dependiente

Más detalles

ESTADÍSTICA (ING.INFORMÁTICA/ING.TI)

ESTADÍSTICA (ING.INFORMÁTICA/ING.TI) ASIGNATURA DE GRADO: ESTADÍSTICA (ING.INFORMÁTICA/ING.TI) Curso 2015/2016 (Código:7190105-) 1.PRESENTACIÓN DE LA ASIGNATURA Esta asignatura es una introducción a la Modelización probabilística, la Inferencia

Más detalles

Alvaro J. Riascos Villegas Universidad de los Andes y Quantil. Marzo 14 de 2012

Alvaro J. Riascos Villegas Universidad de los Andes y Quantil. Marzo 14 de 2012 Contenido Motivación Métodos computacionales Integración de Montecarlo Muestreo de Gibbs Rejection Muestreo Importante Metropolis - Hasting Markov Chain Montecarlo Method Complemento ejemplos libro: Bayesian

Más detalles

Tema 3: Variables aleatorias y vectores aleatorios bidimensionales

Tema 3: Variables aleatorias y vectores aleatorios bidimensionales Estadística 38 Tema 3: Variables aleatorias y vectores aleatorios bidimensionales El concepto de variable aleatoria surge de la necesidad de hacer más manejables matemáticamente los resultados de los experimentos

Más detalles

ORIENTACIONES PARA LA PRUEBA DE APTITUD PARA EL ACCESO A LA UNIVERSIDAD

ORIENTACIONES PARA LA PRUEBA DE APTITUD PARA EL ACCESO A LA UNIVERSIDAD ORIENTACIONES PARA LA PRUEBA DE APTITUD PARA EL ACCESO A LA UNIVERSIDAD MODALIDAD CIENTÍFICO-TÉCNICO 1. NOMBRE DE LA MATERIA: Matemáticas II 2. NOMBRE DEL COORDINADOR: Miguel Delgado Pineda (mdelgado@mat.uned.es,

Más detalles

Introducción a la Teoría de Probabilidad

Introducción a la Teoría de Probabilidad Capítulo 1 Introducción a la Teoría de Probabilidad Para la mayoría de la gente, probabilidad es un término vago utilizado en el lenguaje cotidiano para indicar la posibilidad de ocurrencia de un evento

Más detalles

Dr. D. Juan Antonio. García Ramos Dª. Carmen D. Ramos González. Objetivos:

Dr. D. Juan Antonio. García Ramos Dª. Carmen D. Ramos González. Objetivos: Curso 2002-2003 Asignatura: ESTADÍSTICA APLICADA 1 Curso: Segundo Carácter: Troncal Créditos: 4.5 Área: Estadística e Investigación Operativa Profesores: García Ramos Dª. Carmen D. Ramos González. Dr.

Más detalles

EL DISEÑO FACTORIAL COMPLETO 2 k

EL DISEÑO FACTORIAL COMPLETO 2 k EL DISEÑO FACTORIAL COMPLETO 2 k Joan Ferré Grupo de Quimiometría y Cualimetría Departamento de Química Analítica y Química Orgánica Universidad Rovira i Virgili (Tarragona) INTRODUCCIÓN En el primer artículo

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Emmanuel Anguiano-Hernández Abril 29, 2009 Abstract Tratando de mejorar el desempeño de un clasificador Naive

Más detalles

I.E.S.MEDITERRÁNEO CURSO 2015 2016 DPTO DE MATEMÁTICAS PROGRAMA DE RECUPERACIÓN DE LOS APRENDIZAJES NO ADQUIRIDOS EN MATEMÁTICAS DE 3º DE E.S.O.

I.E.S.MEDITERRÁNEO CURSO 2015 2016 DPTO DE MATEMÁTICAS PROGRAMA DE RECUPERACIÓN DE LOS APRENDIZAJES NO ADQUIRIDOS EN MATEMÁTICAS DE 3º DE E.S.O. PROGRAMA DE RECUPERACIÓN DE LOS APRENDIZAJES NO ADQUIRIDOS EN MATEMÁTICAS DE 3º DE E.S.O. Este programa está destinado a los alumnos que han promocionado a cursos superiores sin haber superado esta materia.

Más detalles

Aprendizaje de redes bayesianas híbridas con mixturas de funciones base truncadas

Aprendizaje de redes bayesianas híbridas con mixturas de funciones base truncadas Aprendizaje de redes bayesianas híbridas con mixturas de funciones base truncadas Doctoranda: Inmaculada Pérez-Bernabé Director: Antonio Salmerón Cerdán Departamento de Matemáticas, Universidad de Almería,

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

guía para LOS PADRES APOYANDO A SU HIJO EN LA PREPARATORIA (HIGH SCHOOL) MATEMÁTICAS

guía para LOS PADRES APOYANDO A SU HIJO EN LA PREPARATORIA (HIGH SCHOOL) MATEMÁTICAS guía para LOS PADRES APOYANDO A SU HIJO EN LA PREPARATORIA (HIGH SCHOOL) MATEMÁTICAS HS Las escuelas de los Estados Unidos de América están trabajando para brindar una enseñanza de mayor calidad nunca

Más detalles

Lección n 5. Modelos de distribución n potencial de especies

Lección n 5. Modelos de distribución n potencial de especies Lección n 5. Modelos de distribución n potencial de especies 1. Elaboración de modelos de distribución de especies. a. Planteamiento. El modelado del nicho ambiental se basa en el principio de que la distribución

Más detalles

TEORÍA CLÁSICA DE MEDICIÓN TC Y TEORÍA DE RESPUESTA AL ITEM TRI

TEORÍA CLÁSICA DE MEDICIÓN TC Y TEORÍA DE RESPUESTA AL ITEM TRI TEORÍA CLÁSICA DE MEDICIÓN TC Y TEORÍA DE RESPUESTA AL ITEM TRI UNIVERSIDAD DE CHILE VICERRECTORÍA DE ASUNTOS ACADÉMICOS Departamento de Evaluación, Medición y Registro Educacional DEMRE ABRIL DE 2005

Más detalles

INDICADORES POR ENCUESTA. Cuaderno Práctico -1 -

INDICADORES POR ENCUESTA. Cuaderno Práctico -1 - INDICADORES POR ENCUESTA Cuaderno Práctico -1 - ÍNDICE Elaboración del CUESTIONARIO...- 4 - Selección de la MUESTRA...- 5 - APLICACIÓN del cuestionario...- 7 - MECANIZACIÓN de datos...- 8 - Cálculo de

Más detalles

Teoría de Probabilidad

Teoría de Probabilidad Matemáticas Discretas L. Enrique Sucar INAOE Teoría de Probabilidad Considero que la probabilidad representa el estado de la mente con respecto a una afirmación, evento u otra cosa para las que no existe

Más detalles

INTRODUCCIÓN A LA ECONOMETRÍA E INFORMÁTICA MODELOS ECONOMÉTRICOS E INFORMACIÓN ESTADÍSTICA

INTRODUCCIÓN A LA ECONOMETRÍA E INFORMÁTICA MODELOS ECONOMÉTRICOS E INFORMACIÓN ESTADÍSTICA INTRODUCCIÓN A LA ECONOMETRÍA E INFORMÁTICA MODELOS ECONOMÉTRICOS E INFORMACIÓN ESTADÍSTICA Eva Medina Moral (Febrero 2002) EXPRESIÓN DEL MODELO BASICO DE REGRESIÓN LINEAL La expresión formal del modelo

Más detalles

Métodos y Diseños utilizados en Psicología

Métodos y Diseños utilizados en Psicología Métodos y Diseños utilizados en Psicología El presente documento pretende realizar una introducción al método científico utilizado en Psicología para recoger información acerca de situaciones o aspectos

Más detalles

REGRESIÓN LINEAL MÚLTIPLE

REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN LINEAL MÚLTIPLE.- Planteamiento general....- Métodos para la selección de variables... 5 3.- Correlaciones parciales y semiparciales... 8 4.- Multicolinealidad en las variables explicativas...

Más detalles

MATEMÁTICAS aplicadas a las Ciencias Sociales II

MATEMÁTICAS aplicadas a las Ciencias Sociales II MATEMÁTICAS aplicadas a las Ciencias Sociales II UNIDAD 1: SISTEMAS DE ECUACIONES. MÉODO DE GAUSS Sistemas de ecuaciones lineales Sistemas equivalentes. Transformaciones que mantienen la equivalencia.

Más detalles

EXPERIENCIA DIDÁCTICA DE FÍSICA PARA DETERMINAR LA CONSTANTE ELÁSTICA DE UN MUELLE

EXPERIENCIA DIDÁCTICA DE FÍSICA PARA DETERMINAR LA CONSTANTE ELÁSTICA DE UN MUELLE EXPERIENCIA DIDÁCTICA DE FÍSICA PARA DETERMINAR LA CONSTANTE ELÁSTICA DE UN MUELLE AUTORÍA MARÍA FRANCISCA OJEDA EGEA TEMÁTICA EXPERIMENTO FÍSICA Y QUÍMICA, APLICACIÓN MÉTODO CIENTÍFICO ETAPA EDUCACIÓN

Más detalles

Análisis Estadístico de Datos Climáticos

Análisis Estadístico de Datos Climáticos Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) (Wilks, Cap. 14) Facultad de Ciencias Facultad de Ingeniería 2013 Objetivo Idear una clasificación o esquema de agrupación

Más detalles

Desarrollar y aplicar estrategias para resolver problemas Determinar si un gráfico es lineal dibujando puntos en una situación dada

Desarrollar y aplicar estrategias para resolver problemas Determinar si un gráfico es lineal dibujando puntos en una situación dada MANEJO DE DATOS Analizar gráficos o diagramas de situaciones dadas para identificar información específica Recoger datos, dibujar los datos usando escalas apropiadas y demostrar una comprensión de las

Más detalles

Credit scoring. por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar)

Credit scoring. por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar) Credit scoring por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar) En base a que los bancos modernos otorgan tarjetas de crédito y créditos personales o los niegan? Qué límite de crédito le

Más detalles

Relación de competencias. Resultado de aprendizaje REQUISITOS PREVIOS: MATERIA 2: Estadística 12 créditos (300 horas) 6 Básicos y 6 Obligatorios

Relación de competencias. Resultado de aprendizaje REQUISITOS PREVIOS: MATERIA 2: Estadística 12 créditos (300 horas) 6 Básicos y 6 Obligatorios Planificación del Módulo 4 Denominación: MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA 39 créditos ECTS -21básicos y 18 obligatorios- Este módulo está integrado por tres materias que se imparten en tres cursos

Más detalles

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT REACCIONES ADVERSAS DE LOS MEDICAMENTOS Los fármacos por naturaleza

Más detalles

MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II

MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II 2º BACHILLERATO (Modalidad: Humanidades y Ciencias Sociales) Desarrollado en Decreto 67/2008, de 19 de junio. B.O.C.M.: 27 de junio de 2008. PROGRAMACIÓN

Más detalles

Evaluación de modelos para la predicción de la Bolsa

Evaluación de modelos para la predicción de la Bolsa Evaluación de modelos para la predicción de la Bolsa Humberto Hernandez Ansorena Departamento de Ingeniería Telemática Universidad Carlos III de Madrid Madrid, España 10003975@alumnos.uc3m.es Rico Hario

Más detalles

ASIGNATURA: MATEMÁTICAS APL.CIENC.SOCIALES 1º BACHILLERATO. Unidad 1 Números Reales

ASIGNATURA: MATEMÁTICAS APL.CIENC.SOCIALES 1º BACHILLERATO. Unidad 1 Números Reales ASIGNATURA: MATEMÁTICAS APL.CIENC.SOCIALES 1º BACHILLERATO Unidad 1 Números Reales Utilizar los números enteros, racionales e irracionales para cuantificar situaciones de la vida cotidiana. Aplicar adecuadamente

Más detalles

Métodos de la Minería de Datos

Métodos de la Minería de Datos This is page i Printer: Opaue this Métodos de la Minería de Datos Dr. Oldemar Rodríguez Rojas de noviembre de 2005 ii Contents This is page iii Printer: Opaue this iv This is page v Printer: Opaue this

Más detalles

FACULTAD DE ENFERMERIA MAESTRÌA EN ENFERMERIA PROGRAMA DEL CURSO ESTADÌSTICA AVANZADA CODIGO MC1114 REQUISITOS EG2113 CREDITO: 4

FACULTAD DE ENFERMERIA MAESTRÌA EN ENFERMERIA PROGRAMA DEL CURSO ESTADÌSTICA AVANZADA CODIGO MC1114 REQUISITOS EG2113 CREDITO: 4 FACULTAD DE ENFERMERIA MAESTRÌA EN ENFERMERIA PROGRAMA DEL CURSO ESTADÌSTICA AVANZADA CODIGO MC1114 REQUISITOS EG2113 CREDITO: 4 REQUISITO LICENCIATURA EN ENFERMERÌA PROFESOR 1. Justificación. Se requiere

Más detalles

- se puede formular de la siguiente forma:

- se puede formular de la siguiente forma: Multicolinealidad 1 Planteamiento Una de las hipótesis del modelo de regresión lineal múltiple establece que no existe relación lineal exacta entre los regresores, o, en otras palabras, establece que no

Más detalles

Búsqueda heurística Prof. Constantino Malagón

Búsqueda heurística Prof. Constantino Malagón Búsqueda heurística Prof. Constantino Malagón Area de Computación e Inteligencia Artificial 1 Búsqueda heurística Los métodos de búsqueda heurística disponen de alguna información sobre la proximidad de

Más detalles

Capítulo 2. Las Redes Neuronales Artificiales

Capítulo 2. Las Redes Neuronales Artificiales Capítulo 2. Las Redes Neuronales Artificiales 13 Capitulo 2. Las Redes Neuronales Artificiales 2.1 Definición Redes Neuronales Artificiales El construir una computadora que sea capaz de aprender, y de

Más detalles

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Introducción al Data Mining Clases 5 Cluster Analysis Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Cluster Análisis 1 El término cluster analysis (usado por primera

Más detalles

ESTIMACIÓN. puntual y por intervalo

ESTIMACIÓN. puntual y por intervalo ESTIMACIÓN puntual y por intervalo ( ) Podemos conocer el comportamiento del ser humano? Podemos usar la información contenida en la muestra para tratar de adivinar algún aspecto de la población bajo estudio

Más detalles

Curso: Métodos de Monte Carlo. Unidad 1, Sesión 2: Conceptos básicos

Curso: Métodos de Monte Carlo. Unidad 1, Sesión 2: Conceptos básicos Curso: Métodos de Monte Carlo. Unidad 1, Sesión 2: Conceptos básicos Departamento de Investigación Operativa Instituto de Computación, Facultad de Ingeniería Universidad de la República, Montevideo, Uruguay

Más detalles

UNIVERSIDAD DEL SALVADOR PROGRAMA. UNIDAD ACADÉMICA: Campus San Roque González de Santa Cruz. CARRERA: Veterinaria. DIVISIÓN / COMISIÓN: Primer Año

UNIVERSIDAD DEL SALVADOR PROGRAMA. UNIDAD ACADÉMICA: Campus San Roque González de Santa Cruz. CARRERA: Veterinaria. DIVISIÓN / COMISIÓN: Primer Año UNIVERSIDAD DEL SALVADOR PROGRAMA UNIDAD ACADÉMICA: Campus San Roque González de Santa Cruz. CARRERA: Veterinaria DIVISIÓN / COMISIÓN: Primer Año TURNO: Único OBLIGACIÓN ACADÉMICA: ESTADÍSTICA Y DISEÑO

Más detalles

5. DISTRIBUCIONES DE PROBABILIDADES

5. DISTRIBUCIONES DE PROBABILIDADES 5. DISTRIBUCIONES DE PROBABILIDADES Dr. http://academic.uprm.edu/eacunaf UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ DISTRIBUCIONES DE PROBABILIDADES Se introducirá el concepto de variable

Más detalles

NIVEL: CICLO SUPERIOR DE GESTIÓN COMERCIAL Y MARKETING

NIVEL: CICLO SUPERIOR DE GESTIÓN COMERCIAL Y MARKETING ETAPA: FORMACIÓN PROFESIONAL DEPARTAMENTO DE COMERCIO NIVEL: CICLO SUPERIOR DE GESTIÓN COMERCIAL Y MARKETING MATERIA: POLITICAS DE MARKETING OBJETIVOS - Analizar los precios y costes de productos, relacionando

Más detalles

1. Introducción a la estadística 2. Estadística descriptiva: resumen numérico y gráfico de datos 3. Estadística inferencial: estimación de parámetros

1. Introducción a la estadística 2. Estadística descriptiva: resumen numérico y gráfico de datos 3. Estadística inferencial: estimación de parámetros TEMA 0: INTRODUCCIÓN Y REPASO 1. Introducción a la estadística 2. Estadística descriptiva: resumen numérico y gráfico de datos 3. Estadística inferencial: estimación de parámetros desconocidos 4. Comparación

Más detalles

MÁSTER UNIVERSITARIO EN ANÁLISIS ECONÓMICO Y EMPRESARIAL

MÁSTER UNIVERSITARIO EN ANÁLISIS ECONÓMICO Y EMPRESARIAL MÁSTER UNIVERSITARIO EN ANÁLISIS ECONÓMICO Y EMPRESARIAL Centro Responsable: Facultad de Ciencias Económicas y Empresariales Orientación: Investigadora y Profesional Especialidades: Análisis Económico.

Más detalles

Tema 4:Segmentación de imágenes

Tema 4:Segmentación de imágenes Tema 4:Segmentación de imágenes La segmentación de imágenes divide la imagen en sus partes constituyentes hasta un nivel de subdivisión en el que se aíslen las regiones u objetos de interés. Los algoritmos

Más detalles

Asociación Bancaria de Panamá

Asociación Bancaria de Panamá EL INSTITUTO BANCARIO INTERNACIONAL I.B.I. Centro de Estudios Superiores Asociación Bancaria de Panamá OFRECE CURSO MODELACIÓN MATEMÁTICA: PROBABILÍSTICA, ESTADÍSTICA Y FINANCIERA PARA ENTIDADES FINANCIERAS

Más detalles

TRATAMIENTO DE BASES DE DATOS CON INFORMACIÓN FALTANTE SEGÚN ANÁLISIS DE LAS PÉRDIDAS CON SPSS

TRATAMIENTO DE BASES DE DATOS CON INFORMACIÓN FALTANTE SEGÚN ANÁLISIS DE LAS PÉRDIDAS CON SPSS Badler, Clara E. Alsina, Sara M. 1 Puigsubirá, Cristina B. 1 Vitelleschi, María S. 1 Instituto de Investigaciones Teóricas y Aplicadas de la Escuela de Estadística (IITAE) TRATAMIENTO DE BASES DE DATOS

Más detalles

Capítulo 12: Indexación y asociación

Capítulo 12: Indexación y asociación Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación

Más detalles

1. TEMPORALIZACIÓN POR EVALUACIONES DE LOS CONTENIDOS

1. TEMPORALIZACIÓN POR EVALUACIONES DE LOS CONTENIDOS 1. TEMPORALIZACIÓN POR EVALUACIONES DE LOS CONTENIDOS Primera Evaluación TEMA 1. NÚMEROS REALES Distintos tipos de números. Recta real. Radicales. Logaritmos. Notación científica. Calculadora. TEMA 2.

Más detalles

ANEXO I. MATERIAS DE BACHILLERATO

ANEXO I. MATERIAS DE BACHILLERATO El artículo 29 en su apartado 6 del R.D. 1892/2008, dice: El establecimiento de las líneas generales de la metodología, el desarrollo y los contenidos de los ejercicios que integran tanto la fase general

Más detalles

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama. Diagrama de Flujo La presentación gráfica de un sistema es una forma ampliamente utilizada como herramienta de análisis, ya que permite identificar aspectos relevantes de una manera rápida y simple. El

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

PROPUESTA DE ALTERNATIVAS PARA EL MODELADO DE USUARIO ESTADÍSTICO UNIVERSIDAD CARLOS III D E MADRID

PROPUESTA DE ALTERNATIVAS PARA EL MODELADO DE USUARIO ESTADÍSTICO UNIVERSIDAD CARLOS III D E MADRID PROPUESTA DE ALTERNATIVAS PARA EL MODELADO DE USUARIO ESTADÍSTICO LEONARDO C A STAÑO ZABALETA LCASTANO@INF.UC3M. ES D EPARTAMENTO D E INFORMÁTICA UNIVERSIDAD CARLOS III D E MADRID CONTENIDOS Introducción

Más detalles

DISEÑO DE UN MODELO DE APROXIMACIÓN TRIMESTRAL PARA LA ECONOMÍA DE MADRID

DISEÑO DE UN MODELO DE APROXIMACIÓN TRIMESTRAL PARA LA ECONOMÍA DE MADRID DISEÑO DE UN MODELO DE APROXIMACIÓN TRIMESTRAL PARA LA ECONOMÍA DE MADRID Ana López Yigal Montejo Instituto L. R. Klein, UAM Junio 2000 RESUMEN El presente trabajo estudia la economía madrileña basándose

Más detalles

Covarianza y coeficiente de correlación

Covarianza y coeficiente de correlación Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también

Más detalles

Curso de Estadística y Matemáticas Farmacéuticas

Curso de Estadística y Matemáticas Farmacéuticas Curso de Estadística y Matemáticas Farmacéuticas Titulación certificada por EUROINNOVA BUSINESS SCHOOL Curso de Estadística y Matemáticas Farmacéuticas Curso de Estadística y Matemáticas Farmacéuticas

Más detalles

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. 2.1 Revisión sistema reconocimiento caracteres [9]: Un sistema de reconocimiento típicamente esta conformado por

Más detalles

1 Introducción al SPSS

1 Introducción al SPSS Breve guión para las prácticas con SPSS 1 Introducción al SPSS El programa SPSS está organizado en dos bloques: el editor de datos y el visor de resultados. En la barra de menú (arriba de la pantalla)

Más detalles

Curso de Estadística no-paramétrica

Curso de Estadística no-paramétrica Curso de Estadística no-paramétrica Sesión 1: Introducción Inferencia no Paramétrica David Conesa Grup d Estadística espacial i Temporal Departament d Estadística en Epidemiologia i Medi Ambient i Investigació

Más detalles

DESCRIPCIÓN ESPECÍFICA

DESCRIPCIÓN ESPECÍFICA DESCRIPCIÓN ESPECÍFICA NÚCLEO: COMERCIO Y SERVICIO SUBSECTOR: PRODUCCION Y SALUD OCUPACIONAL Nombre del Módulo: Análisis estadístico de datos. total: 45 HORAS. Objetivo General: Analizar la conformidad

Más detalles

7. Conclusiones. 7.1 Resultados

7. Conclusiones. 7.1 Resultados 7. Conclusiones Una de las preguntas iniciales de este proyecto fue : Cuál es la importancia de resolver problemas NP-Completos?. Puede concluirse que el PAV como problema NP- Completo permite comprobar

Más detalles

TEMA 4: Introducción al Control Estadístico de Procesos

TEMA 4: Introducción al Control Estadístico de Procesos TEMA 4: Introducción al Control Estadístico de Procesos 1 Introducción 2 Base estadística del diagrama de control 3 Muestreo y agrupación de datos 4 Análisis de patrones en diagramas de control 1. Introducción

Más detalles

CATÁLOGO DE INFERENCIAS

CATÁLOGO DE INFERENCIAS Las inferencias son los elementos claves en los modelos de conocimiento o Son los elementos constitutivos de los procesos de razonamiento No existe ningún estándar CommonKADS ofrece un catálogo que cubre

Más detalles

Simulación Computacional. Tema 1: Generación de números aleatorios

Simulación Computacional. Tema 1: Generación de números aleatorios Simulación Computacional Tema 1: Generación de números aleatorios Irene Tischer Escuela de Ingeniería y Computación Universidad del Valle, Cali Typeset by FoilTEX 1 Contenido 1. Secuencias pseudoaleatorias

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida. Por: Prof. Elena del C. Coba

Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida. Por: Prof. Elena del C. Coba Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida Por: Prof. Elena del C. Coba Encuestas y estudios aplicados al VIH/sida Definir la fuente de los datos: Datos

Más detalles

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos V - ESTIMACION PUNTUAL E INTERVALOS DE CONFIANZA. 5.1 Introducción

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos V - ESTIMACION PUNTUAL E INTERVALOS DE CONFIANZA. 5.1 Introducción V - ESTIMACION PUNTUAL E INTERVALOS DE CONFIANZA 5.1 Introducción En este capítulo nos ocuparemos de la estimación de caracteristicas de la población a partir de datos. Las caracteristicas poblacionales

Más detalles

Repaso de conceptos. Tipos de RNA más utilizados. Técnicas de Clasificación con RNA. Contenido

Repaso de conceptos. Tipos de RNA más utilizados. Técnicas de Clasificación con RNA. Contenido Contenido Introducción al Diseño de Experimentos para el Reconocimiento de Patrones Capítulo 3: Redes Neuronales Artificiales Curso de doctorado impartido por Dr. Quiliano Isaac Moro Dra. Aranzazu Simón

Más detalles

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013 VivaMéxico sin PRI Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres Facultad de Ciencias de la Computación Benemérita Universidad Autónoma de Puebla Otoño 2013 IMAGENESpemexmorena Adquisición

Más detalles

Unidad 4: Ejecución de la investigación de mercado.

Unidad 4: Ejecución de la investigación de mercado. Unidad 4: Ejecución de la investigación de mercado. Aplicar los conocimientos adquiridos para realizar e interpretar el estudio de mercado que de solución a la(s) problemática(s) que presenta la organización

Más detalles

Cualitativos Caso de Aplicación

Cualitativos Caso de Aplicación Validación n de Métodos M Cualitativos Caso de Aplicación Agenda Introducción Definiciones Clasificación Validación Evaluación de Métodos Cualitativos Caso de Aplicación Conclusiones Introducción La validación

Más detalles

4. MÉTODOS DE CLASIFICACIÓN

4. MÉTODOS DE CLASIFICACIÓN 4. MÉTODOS DE CLASIFICACIÓN Una forma de sintetizar la información contenida en una tabla multidimensional (por ejemplo una tabla léxica agregada), es mediante la conformación y caracterización de grupos.

Más detalles

RESUMEN INFORMATIVO PROGRAMACIÓN DIDÁCTICA CURSO 2015 /2016

RESUMEN INFORMATIVO PROGRAMACIÓN DIDÁCTICA CURSO 2015 /2016 RESUMEN INFORMATIVO PROGRAMACIÓN DIDÁCTICA CURSO 2015 /2016 DEPARTAMENTO: MATEMÁTICAS MATERIA: MATEMÁTICAS ACADÉMICAS CURSO: 3º ESO OBJETIVOS DEL ÁREA DE MATEMÁTICAS A LAS ENSEÑANZAS ACADÉMICAS 3º ESO

Más detalles

Simulación y Modelos Estocásticos

Simulación y Modelos Estocásticos y Modelos Estocásticos Héctor Allende O!"# $# %#&' ( ) *+,-+,,*,/ ) -++,,*,/ ) 0 1 %*++,,*,/ $2,/ 04 %! 2! 5,,#6)5 1 Conceptos básicos: fundamentos de modelos de simulación y del modelado de sistemas complejos,

Más detalles

LA DISTRIBUCIÓN TRAPEZOIDAL COMO MODELO PROBABILÍSTICO PARA LA METODOLOGÍA PERT

LA DISTRIBUCIÓN TRAPEZOIDAL COMO MODELO PROBABILÍSTICO PARA LA METODOLOGÍA PERT LA DISTRIBUCIÓN TRAPEZOIDAL COMO MODELO PROBABILÍSTICO PARA LA METODOLOGÍA PERT JOSÉ CALLEJÓN CÉSPEDES EDUARDO PÉREZ RODRÍGUEZ ANTONIO RAMOS RODRÍGUEZ Facultad de Ciencias Económicas y Empresariales Universidad

Más detalles

Capítulo 4 MEDIDA DE MAGNITUDES. Autor: Santiago Ramírez de la Piscina Millán

Capítulo 4 MEDIDA DE MAGNITUDES. Autor: Santiago Ramírez de la Piscina Millán Capítulo 4 MEDIDA DE MAGNITUDES Autor: Santiago Ramírez de la Piscina Millán 4 MEDIDA DE MAGNITUDES 4.1 Introducción El hecho de hacer experimentos implica la determinación cuantitativa de las magnitudes

Más detalles

Aplicación de la inteligencia artificial a la resolución del problema de asignación de estudiantes del departamento de PDI

Aplicación de la inteligencia artificial a la resolución del problema de asignación de estudiantes del departamento de PDI Aplicación de la inteligencia artificial a la resolución del problema de asignación de estudiantes del departamento de PDI Ricardo Köller Jemio Departamento de Ciencias Exactas e Ingeniería, Universidad

Más detalles