IA y Robótica. Aprendizaje por Refuerzo. Instituto de Computación Facultad de Ingeniería Universidad de la República
|
|
- José Ángel Navarro Contreras
- hace 7 años
- Vistas:
Transcripción
1 IA y Robótica Aprendizaje por Refuerzo Instituto de Computación Facultad de Ingeniería Universidad de la República
2 Contenido Aprendizaje por refuerzo. Redes neuronales y aprendizaje por refuerzo.
3 Aprendizaje por Refuerzo Introducción y orígenes Decisiones secuenciales (MDP) Q Learning Convergencia Estratergias de exploración Generalización
4 Introducción (1/2) Pensar el Comportamiento como el problema de la toma secuencial de decisiones. Por qué necesitamos Aprendizaje? Tenemos que tomar decisiones en ambientes desconocidos y cambiantes. Algunas cosas que no sabemos: Forma en la que funciona el mundo. Efecto de nuestras acciones sobre el mundo. Qué cosas nos resultan beneficiosas.
5 Aprendizaje (y Refuerzos) Primeras teorías Condicionamiento clásico o Pavloviano. Pavlov no explica todo el aprendizaje, pero demuestra que funciona. Ivan Pavlov ( )
6 Aprendizaje por Condicionamiento
7 Qué aprendemos? Depende de donde se lo mire...
8 Modelo: Rescorla & Wagner (1972) Aprendizaje guiado por errores: el cambio en una asociación es proporcional a la diferencia entre nuestra predicción y lo observado. Vnuevo = Vviejo + Δ Δ = μ (R-V) (predicción del error)
9 Condicionamiento instrumental Los animales no solo pueden aprender relaciones estímulo-respuesta arbitrarios, sino, comportamientos arbitrarios en base a dichos estímulos.
10 Elementos de aprendizaje El diseño de un elemento de aprendizaje se ve afectado mayoritáriamente por tres aspectos: QUÉ componentes del elemento de acción QUÉ retroalimentación está disponible QUÉ tipo de representación se usa
11 Tipos de aprendizaje Dependiendo del tipo de realimentación disponible suele categorizarse la naturaleza del problema de aprendizaje que enfrenta el agente: Supervisado No supervisado Por refuerzos
12 Aprendizaje por Refuerzos AR o RL Cómo un agente autónomo, que percibe y actúa en un entorno dinámico, puede aprender a elegir acciones óptimas de modo de alcanzar sus objetivos? La idea detrás del aprendizaje por refuerzo es tan simple como atractiva: aprender del ensayo y el error mediante la interacción con el entorno.
13 Principales características Unifica varias ideas de la sicología cognitiva. Se usa mucho en IA y Robótica. Modela muy bien algunos procesos que ocurren en nuestro cerebro. Ensayo y error. Recompensas y penalizaciones. Dilema exploración explotación. Qué y no cómo.
14 Protocolo general estado s t recompensa r t Agente acción a t r t+1 Entorno s t+1
15 Hipótesis de AR La idea es que nuestros agentes aprendan a comportarse de manera (cuasi-)óptima solamente guiados por su afán de maximizar una señal de refuerzo, pero sin la presencia de un experto que les indica que acción ejecutar en cada momento.
16 Podemos aprender sin un maestro? Ejemplo de aprendizaje por refuerzos puro.
17 Decisiones secuenciales Supuestos Entorno Totalmente observable Estocástico Transiciones Cumplen la propiedad de Markov Utilidad de los estados Recompensas aditivas
18 Proceso de Decisión de Markov Un especificación de un problema de decision secuencial que cumpla los supuestos anteriores se denomina: MDP. Un MDP está compuesto por: S: conjunto de estados. A: conjunto de acciones. Estado inicial: S 0 Modelo de Transiciones: δ(s, a, s') Función de recompensa: R(s)
19 La tarea a aprender Política: solución que indica al agente qué debe hacer en cada estado que pueda alcanzar. π: S->A π(s) = a Representa la función del agente. Política óptima π*(s) Es una política que presenta la mayor utilidad esperada.
20 Optimalidad (1/3) Horizontes para la toma de decisiones Finito U h ([S 0, S 1,..., S n+k ]) = U h ([S 0, S 1,..., S n ]) π*(s) es no estacionaria Infinito π*(s) es estacionaria Más simples (en entornos Tobs)
21 Optimalidad (2/3) Preferencias estacionarias Recompensas aditivas U h ([S 0, S 1, S 2,...]) = R(S 0 ) + R(S 1 ) + R(S 2 ) +... Recompensas depreciativas U h ([S 0, S 1, S 2,...]) = R(S 0 ) + γr(s 1 ) + γ 2 R(S 2 ) +... Factor de descuento 0 γ 1 Bioinspirado Suma finita si existe R max y γ < 1
22 Optimalidad (3/3) Valor acumulado V π (S) = E π {R t s t = s} = E π {Σ k=0 γ κ r t+k+1 s t = s} Política ótima * π π = arg maxv s, ( ) s Ecuación de Bellman π V(s) = R(s) + γ máx a Σ s' δ(s, a, s') V(s')
23 Tres aproximaciones... Con T y R Computar Q/V Determinar π Métodos Model-based (aprender T y R) Métodos Model-free (aproximar Q, familia Q-Learing) Policy Search (Métodos de gradiente decreciente sobre π)
24 Fuentes de Complejidad Adquisición de experiencia Cantidad de interacciones con el mundo real para alcanzar un desempeño (cuasi-)óptimo. Planificación Cantidad de esfuerzo computacional por cada experiencia adquirida. Espacio Cantidad de memoria requerida para almacenar la experiencia adquirida y datos.
25 Q Learning Cómo puede aprender el agente la política óptima en un entorno arbitrario? * π ( s) = arg max +γ a [ (, ) ( (, ))] * r s a V δ s a Por lo cual el agente obtiene la política óptima aprendiendo V*, proporcionando conocimiento perfecto de refuerzos inmediatos y la función de transición de estados.
26 La función Q Definamos la función evaluación Q(s,a) Q( s, a) = r( s, a) +γv * ( δ ( s, a) ) Observar que Q es el valor que se desea maximizar en la ecuación de la política óptima * π ( s) = arg max a [ Q( s, a) ]
27 Un algoritmo para Q (1/2) Notemos la estrecha relación entre Q y V V * ( s) = maxq( s, a') a' Permite rescribir la ecuación de la siguiente manera Q( s, a) = r( s, a) +γ maxq( δ ( s, a), a') Regla de actualización del estimador para Q a' ^ Q( s, a) = r +γ maxq( s', a') a' ^
28 Un algoritmo para Q (2/2)
29 Convergencia Se ha demostrado la convergencia del estimador de Q bajo ciertas circunstancias al utilizar el algoritmo desarrollado por Watkins en Condiciones 1.El sistema se puede modelar como un MDP determinista. 2.Los refuerzos inmediatos están acotados. 3.El agente selecciona acciones de modo de visitar infinitamente a menudo los pares estado-acción. Esta es una restricción muy fuerte para dominios grandes (o infinitos).
30 Estrategias de exploración El algoritmo propuesto no especifica de que forma se eligen las acciones. Ejemplos Codicioso y Codicioso-ε Otra opción que asigna a toda acción una probabilidad de ser elegida Q( s, ai ) k P ( ai s) = Q( s, a j ) k j
31 Generalización Una de las restricciones más fuertes en procedimiento de Q Learning es que la función objetivo es representada en una tabla. Las hipótesis de convergencia requieren que todos los pares sean visitados infinitamente a menudo. Podemos tratar de estimar el valor Q de pares estado-acción no visitados generalizando a partir de los pares visitados. Clusterización. Redes neuronales.
32 Algunas aplicaciones exitosas TD-gammon (Tesauro, 1994) RLGO (Silver et al, 2007) Autonomic computing (Tesauro, 2005) Control de elevadores (Crites y Barto, 1996) Valuación de productos financieros (Tsitsiklis y Roy, 2000) Tratamiento de epilepsia! (Guez et al, 2008) Optimización en controladores de memoria (Ipek et al, 2008)
33 Aprendizaje por Refuerzo y Redes Neuronales Motivación Uso de RN en RL Ejemplos
34 Motivación El objetivo del aprendizaje por refuerzo en robótica es sintetizar comportamientos que maximicen las recompensa en el tiempo. Problemas Memoria (sensores y acciones continuas) Generalización Exploración
35 Uso de RN en RL (1/2) Las redes neuronales se utilizan como funciones. Principalmente para aproximar Q. También se utilizan para atacar el inmenso espacio de búsqueda situaciónacción.
36 Uso de RN en RL (2/2) Memoria para Q Consultas realizadas sobre Q valor Q(s,a) arg max a Q(s,a) Actualización de Q (regla de aprendizaje)
37 Ventaja Dada las situación responde rápidamente con la acción a realizar. Memoria Desventaja Para una determinada situación existen varias acciones a tomar y sus respectivos valores Q. Red Ideal
38 Ventaja Permite manejar varias acciones y valores Q para una misma situación Desventaja No generaliza entre acciones. Acciones fijas Cantidad Sentido QCON
39 Q-KOHON
40 Redes RBF a 1 a 2 w a... w s w Q s 1 s 2 Q
41 Algoritmo Q
42 Usando la red como memoria asociativa Entrada: situación (s) y Q valor (q) Paso 1. elegir el valor i* según: Paso 2. si y i *>acceptance_threshold else i* = arg max y action i = w a i ( i *) = t ( s w ) ( s w ) + ( q w ) agregar una neurona oculta (s,0,random) e s s Q 2 2 / σ 2
43 Algoritmo Q
44 Actualización de los pesos Entrada: situación (s), acción (a), máximo Q para la nueva situación (q) y el refuerzo (r) Paso 1. elegir el valor i* según: Paso 2. ( ) ( ) ( ) = / arg * σ a s t s w a w s w s i e max i ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) agregar neuron oculta lse * 1 * * 0 r if * * * 0 r if * * * * * * acceptance_threshold 2 2 / e i w a i w i w i w a i w i w i w s i w i w i w q r i w i w e if a a a a a a a a s s s s Q Q Q Q w a w s w s a s t s + = < + = > + = + + = > + η η η γ η σ (s,r,a)
45 Algoritmo Q
46 Obtener Q-max de la red Entrada: nueva situación (s) Paso 1. elegir el valor i* según: i* = arg max yi i = t ( s w ) ( s w ) + ( 1 w ) 2 2 / σ Paso 2. retornar como Q-max el valor de w Q ( i *) e s s Q 2
47 Algunas recetas Valores usuales η a =0.2 η s =0.01 η q =0.5 σ=0.4 acceptance_thereshold=0.1 Neuronas ocultas ~150
48 Referencias Libros Russell S. y P. Norvig, Inteligencia Artificial: un enfoque moderno, Prentice Hallm, Second Edition, Sutton R. S. y Barto A. G., Reinforcement Learning: an introduction, MIT Press, Mitchell T., Machine Learning, McGraw Hill, Artículos Santos J. M. y C. Touzet, "Dynamic Update of the Reinforcement Function during Learning", Connection Science Journal. Special Issue on Adaptive Robotics, Volume 11, Number 3-4, page , Kaelbling L. P., M. L. Littman y A. W. Moore. Reinforcement learning: A survey. Journal of Articial Intelligence Research, 4: , Dayan P. y Niv Y., Reinforcement learning: The Good, The Bad and The Ugly, Science Direct Journal issue on Cognitive Neuroscience, Volume 18, pages , Seminarios Diuk C., AR: Teoría y aplicaciones en Robótica, Neurociencia y Psicología, Escuela de Ciencias Informáticas, UBA, 2010.
49 Preguntas
Aprendizaje por Refuerzos
Aprendizaje Automático Segundo Cuatrimestre de 2015 Aprendizaje por Refuerzos Gracias a Carlos Greg Diuk por los materiales para las transparencias. Aprendizaje por Condicionamiento Primeras teorías: Condicionamiento
Introducción al Aprendizaje Reforzado
Introducción al Conceptos básicos y métodos tabulares Julio Waissman Vilanova Departamento de Matemáticas Universidad de Sonora Universidad Autónoma de Baja California, marzo 2010 Plan de la presentación
Aprendizaje por Refuerzo
Sesiones del Curso Máster en Ciencia y Tecnología Informática Grupo de Planificación y Aprendizaje (PLG) Departamento de Informática Escuela Politécnica Superior Universidad Carlos III de Madrid 30 de
Decisiones Secuenciales
Decisiones Secuenciales CI5438 - Inteligencia rtificial 2 Clases 4 y 5 Cap 17. Russel & Norvig: Inteligencia rtificial. Un enfoque estructurado genda Motivación Qué son los MDPs? Modelos Recompensas Lifetime
Aprendizaje por Refuerzo
Aprendizaje por Refuerzo Ciencias de la Computación e Inteligencia Artificial Índice 6.1 Introducción 6.2 Elementos del aprendizaje 6.4 Definición del problema 6.5 Programación Dinámica 6.6 Método de Monte
Métodos de Inteligencia Artificial
Métodos de Inteligencia Artificial L. Enrique Sucar (INAOE) esucar@inaoep.mx ccc.inaoep.mx/esucar Tecnologías de Información UPAEP Agentes que Aprenden: Aprendizaje por Refuerzo (RL) Introducción MDPs
Aprendizaje por Refuerzo
Aprendizaje por Refuerzo Víctor Uc Cetina Facultad de Matemáticas Universidad Autónoma de Yucatán, uccetina@uady.mx 29 de noviembre de 2012 Resumen Uno de los primeros sueños de los investigadores en Inteligencia
Aprendizaje por Refuerzos
Aprendizaje por Refuerzos Teoría y Aplicaciones en Robó8ca, Neurociencia y Psicología Carlos Greg Diuk Department of Psychology Princeton Neuroscience Ins8tute Princeton University Para qué tenemos cerebro?
Aprendizaje por refuerzo
Aprendizaje por refuerzo Juan Carlos Gómez Claudio Verrastro juanca@inti.gob.ar cverra@cae.cnea.gov.ar Ilustración: Hernán Juárez www.secyt.frba.utn.edu.ar/gia/ Índice Contexto Aprendizaje, comportamiento,
Temporal Difference Learning and TD-Gammon. David Rodríguez de Dios, Raúl Cajías, Víctor Soto Martínez
Temporal Difference Learning and TD-Gammon David Rodríguez de Dios, Raúl Cajías, Víctor Soto Martínez Índice 1. Backgammon 2. Posibles Soluciones 3. Reinforcement Learning 4. Temporal Difference Learning
Aprendizaje por Refuerzos
Aprendizaje por Refuerzos Teoría y Aplicaciones en Robó8ca, Neurociencia y Psicología Carlos Greg Diuk Department of Psychology Princeton Neuroscience Ins8tute Princeton University Resumen final Estudiamos
Curso de Inteligencia Artificial
Curso de Inteligencia Artificial Modelos Ocultos de Markov Gibran Fuentes Pineda IIMAS, UNAM Redes Bayesianas Representación gráfica de relaciones probabilísticas Relaciones causales entre variables aleatorias
Tema 4: Aprendizaje de conceptos
Inteligencia Artificial II Curso 2004 2005 Tema 4: Aprendizaje de conceptos José A. Alonso Jiménez Francisco Jesús Martín Mateos José Luis Ruiz Reina Dpto. de Ciencias de la Computación e Inteligencia
Primera aproximación al aprendizaje automático.
APRENDIZAJE Introducción al aprendizaje algorítmico José M. Sempere Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia Aprender: Tomar algo en la memoria [...] Adquirir
Técnicas de inteligencia artificial. Aprendizaje: Perceptrón multi-capa
Técnicas de inteligencia artificial Aprendizaje: Perceptrón multi-capa Índice Regla delta Modelo computacional Neuronas e hiperplanos Entrenamiento como ajuste supervisado No-separabilidad lineal Backpropagation
Redes Neuronales Artificiales
Red de Hopfield Almacenar un conjunto de p patrones de forma tal que cuando se presente un nuevo patrón, la red responda produciendo alguno de los patrones previamente almacenados que más se parezca al
APRENDIZAJE. Jairo Alfaro / María Fernanda Jiménez / Mauricio Pandolfi / Cristian Vargas
APRENDIZAJE Jairo Alfaro / María Fernanda Jiménez / Mauricio Pandolfi / Cristian Vargas Qué es aprendizaje? Aprendizaje denota cambios en un sistema que permite al sistema hacer la misma tarea más eficientemente
Aprendizaje: Perceptrón multi-capa
Técnicas de inteligencia artificial Asignatura troncal: 4.5cr, 4ºCurso Ing Inf Aprendizaje: Perceptrón multi-capa 2003-2004 F.Escolano, O.Colomina, M.A. Cazorla Perceptrón 1 Indice Regla delta Modelo computacional
Tema 2: Un poco de Historia
Introducción a la Inteligencia Artificial Curso 2006 2007 Tema 2: Un poco de Historia Miguel A. Gutiérrez Naranjo Dpto. de Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla IIA
Cuando el perro de Pavlov se robo0zó: aprendizaje por refuerzos en psicología, robó0ca, neurociencias y juegos de Atari
Cuando el perro de Pavlov se robo0zó: aprendizaje por refuerzos en psicología, robó0ca, neurociencias y juegos de Atari Carlos Greg Diuk Princeton Neuroscience Ins0tute Charla de borrachos 15 de junio
Luis Carlos Mendez Gonzalez
Robot Path planning using reinforcement learning and nonlinear approximation function (Planeación de trayetoria utilizando aprendizaje por reforzamiento y función de aproximación) Miguel Angel Rodriguez
Tema 2: Un poco de Historia
Introducción a la Inteligencia Artificial Curso 2006 2007 Tema 2: Un poco de Historia Miguel A. Gutiérrez Naranjo Dpto. de Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla IIA
Tema 2: Un poco de Historia
Introducción a la Inteligencia Artificial Curso 2008 2009 Tema 2: Un poco de Historia Miguel A. Gutiérrez Naranjo Dpto. de Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla IIA
Bases Formales de la Computación: Sesión 3. Modelos Ocultos de Markov
Bases Formales de la Computación: Sesión 3. Prof. Gloria Inés Alvarez V. Departamento de Ciencias e Ingeniería de la Computación Pontificia Universidad Javeriana Cali Periodo 2008-2 Contenido 1 Introducción
Redes neuronales con funciones de base radial
Redes neuronales con funciones de base radial Diego Milone y Leonardo Rufiner Inteligencia Computacional Departamento de Informática FICH-UNL Organización: RBF-NN Motivación y orígenes RBF Arquitectura
Universidad Nacional de San Agustín VICE RECTORADO ACADÉMICO SILABO
Universidad Nacional de San Agustín VICE RECTORADO ACADÉMICO SILABO CODIGO DEL CURSO: CS360 1 Datos Generales FACULTAD : Ingeniería de Producción y Servicios DEPARTAMENTO :Ingeniería de Sistemas e Informática
Procesos de decisión de Markov en un agente simulador de brazo robótico para búsqueda y traslación hacia un objeto
Procesos de decisión de Markov en un agente simulador de brazo robótico para búsqueda y traslación hacia un objeto Luis Adrián León Alcalá. National Institute of Astrophisics, Optics and Electronics (INAOE)
Teoría 1 Introducción a la Inteligencia Artificial
Teoría 1 Introducción a la Inteligencia Artificial Sistemas Inteligentes 1 1 Universidad Nacional de San Luis, Argentina Carrera: Ingeniería en Informática Carrera: Ingeniería en Computación (Optativa)
Introducción a la programación dinámica estocástica
Introducción a la programación dinámica estocástica Hans Alayo 21 de diciembre de 2016 1. Introducción La programación dinámica brinda la teoría matemática necesaria para la toma secuencial de decisiones
MT 221 Modelado. Elizabeth Villota
MT 221 Modelado Elizabeth Villota Objetivos Definir que es un modelo y su uso para responder preguntas relacionadas a un sistema. Introducir los conceptos de estado, dinámica, entradas y salidas. Proveer
Mejoras a algoritmos genéticos. Inteligencia Computacional Blanca A. Vargas Govea Sep 25, 2012
Mejoras a algoritmos genéticos Inteligencia Computacional Blanca A. Vargas Govea vargasgovea@itesm.mx Sep 25, 2012 Conocer las mejoras usuales a algoritmos genéticos 2 1. Diseñar una representación 2.
Inteligencia artificial
Inteligencia artificial APRENDIZAJE DE MÁQUINAS (MACHINE LEARNING) Aprendizaje Construcción o modificación de representaciones de lo que se experimenta R. Michalski Lograr cambios útiles en nuestras mentes.
Inteligencia Artificial e Ingeniería del Conocimiento
Inteligencia Artificial e Ingeniería del Conocimiento Departamento de Ciencias de la Computación e Inteligencia Artificial Curso 2008/2009 Curso: 4 Cuatrimestre: 1 Tipo: Troncal Nº créditos: 4,5T + 4,5
IA Robótica. Agente y Entorno. Instituto de Computación Facultad de Ingeniería Universidad de la República
IA Robótica Agente y Entorno Instituto de Computación Facultad de Ingeniería Universidad de la República Agentes Introducción Paradigma Estructura Programas Introducción (1/4) Agente: es todo aquello que
Redes Neuronales Artificiales El Perceptrón
1 Sistemas Expertos e Inteligencia Artificial / Guía IX / Ciclo 01-2018 Facultad: Ingeniería Escuela: Computación Asignatura: Sistemas Expertos e Inteligencia Artificial Redes Neuronales Artificiales El
LOS SISTEMAS ADAPTATIVOS
0010100100100101010110010001 0101010001010100101000101 0010100011110010110010001 11111111111010100010101001010010100010101010101 0010100011110101010101011100101001001010101100100010010100011110101010001
Inteligencia Artificial. Carrera: Participantes. Representantes de la academia de sistemas y computación de los Institutos Tecnológicos.
1.- DATOS DE LA ASIGNATURA Nombre de la asignatura: Carrera: Clave de la asignatura: Horas teoría-horas práctica-créditos Inteligencia Artificial Ingeniería en Sistemas Computacionales SCB - 0416 4-0-8
Aplicaciones. Inteligencia Computacional Carrera de Ingeniería Informática
Aplicaciones Inteligencia Computacional Carrera de Ingeniería Informática Aplicaciones de IC Unidad VIII: Configuración del problema y aplicación de las técnicas de inteligencia computacional en: clasificación
Aprendizaje basado en ejemplos.
Aprendizaje basado en ejemplos. In whitch we describe agents that can improve their behavior through diligent study of their own experiences. Porqué queremos que un agente aprenda? Si es posible un mejor
PONTIFICIA UNIVERSIDAD CATOLICA DEL ECUADOR FACULTAD DE INGENIERIA ESCUELA DE SISTEMAS
PONTIFICIA UNIVERSIDAD CATOLICA DEL ECUADOR FACULTAD DE INGENIERIA 1. DATOS INFORMATIVOS MATERIA O MODULO: CODIGO: CARRERA: NIVEL: No. CREDITOS 4 CREDITOS TEORIA: 3 CREDITOS PRACTICA: 1 ESCUELA DE SISTEMAS
(V2.0) SILABO CS261T.
Sociedad Peruana de Computación Facultad de Computación Programa Profesional de (Ciencia de la Computación) (V2.0) SILABO CS261T. Inteligencia Artificial (Obligatorio) 2010-1 0. DATOS GENERALES 0.1 CARRERA
Introducción a la complejidad computacional
Introducción a la complejidad computacional definida sobre anillos arbitrarios 18 de junio de 2016 Fuente: http://www.utmmcss.com/ Por qué otro modelo? Continuo vs discreto. Intuición interiorizada del
INTELIGENCIA ARTIFICIAL I
ESCUELA SUPERIOR POLITÉCNICA AGROPECUARIA DE MANABÍ MANUEL FÉLIX LÓPEZ CARRERA INFORMÁTICA SEMESTRE SEXTO PERIODO OCT-2014/MAR-2015 INTELIGENCIA ARTIFICIAL I TEMA: RESUMEN#2: LOS FUNDAMENTOS DE LA INTELIGENCIA
Modelos de Markov Ocultos (HMM)
Modelos de Markov Ocultos (HMM) Miguel A. Alonso Jorge Graña Jesús Vilares Departamento de Computación, Facultad de Informática, Universidade da Coruña Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento
Programa de estudios por competencias Seminario de solución de problemas Inteligencia Artificial II
Programa de estudios por competencias Seminario de solución de problemas Inteligencia Artificial II 1. Identificación del curso Programa educativo: Licenciatura en Ingeniería en Computación Unidad de aprendizaje:
PSICOLOGÍA DEL APRENDIZAJE CÓDIGO: 203. Departamento de Psicología Básica I (Procesos Básicos) Profesor: AGUADO AGUILAR, Luis OBJETIVOS
PSICOLOGÍA DEL APRENDIZAJE CÓDIGO: 203 Departamento de Psicología Básica I (Procesos Básicos) Profesor: AGUADO AGUILAR, Luis OBJETIVOS Proporcionar al alumno los conocimientos básicos sobre la teoría y
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMÉRICA)
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMÉRICA) FACULTAD DE INGENIERIA DE SISTEMAS E INFORMATICA ESCUELA PROFESIONAL DE INGENIERÍA DE SISTEMAS 1. ESPECIFICACIONES GENERALES
UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN
UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN PRINCIPIOS Y TECNICAS DE INTELIGENCIA ARTIFICIAL OBJETIVOS Los objetivos específicos es el estudio
CONCLUSIONES. La teoría de Redes Neuronales Artificiales, presenta grandes ventajas con
319 CONCLUSIONES La teoría de Redes Neuronales Artificiales, presenta grandes ventajas con respecto a otros modelos típicos de solución de problemas de Ingeniería, una de ellas es su inspiración en modelos
Redes Neuronales. Introducción. José Manuel Quero Reboul Dpto. Ingeniería Electrónica Universidad de Sevilla
Redes Neuronales Introducción José Manuel Quero Reboul Dpto. Ingeniería Electrónica Universidad de Sevilla Indice Motivación Arquitectura Leyes de Aprendizae Aplicaciones DILEMA MEMORIA CALCULO Aritmética
ASIGNATURA: TENDENCIAS TECNOLOGICAS Cód: Régimen: Cuatrimestral Horas semanales: 4 horas Escuela: Sistemas 2011 FUNDAMENTOS:
1 ASIGNATURA: TENDENCIAS TECNOLOGICAS Cód: 33-508 Régimen: Cuatrimestral Horas semanales: horas Escuela: Sistemas 2011 FUNDAMENTOS: El rápido cambio que experimentan actualmente las tecnologías informáticas
Planificaciones Inteligencia Artificial. Docente responsable: CABRERA JOSE LUIS. 1 de 5
Planificaciones 7523 - Inteligencia Artificial Docente responsable: CABRERA JOSE LUIS 1 de 5 OBJETIVOS Enseñar los conceptos fundamentales de inteligencia artificial, sus paradigmas, métodos y técnicas.
APRENDIZAJE Y ENTRENAMIENTO. (Neural Nets Capt. 8; Hilera Capt. 3)
Tema 2: Aprendizaje y Entrenamiento Sistemas Conexionistas 1 2.- Aprendizaje o Entrenamiento. 2.1.- Aprendizaje Automático. 2.2.- Tipos de aprendizaje. APRENDIZAJE Y ENTRENAMIENTO. (Neural Nets Capt. 8;
NP-Completeness: Universidad Autónoma de Nuevo León Facultad de Ingeniería Mecánica y Eléctrica División de Posgrado en Ingeniería de Sistemas
Universidad Autónoma de Nuevo León Facultad de Ingeniería Mecánica y Eléctrica División de Posgrado en Ingeniería de Sistemas Complejidad del problema de la Mochila NP-Completeness: (Knapsack problem)
Procesos de Markov. José Luis Ruiz Reina Franciso J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial
Procesos de Markov José Luis Ruiz Reina Franciso J. Martín Mateos Dpto. Ciencias de la Computación e Inteligencia Artificial Ampliación de Inteligencia Artificial, 2014-2015 Contenido Cadenas de Markov
Optimización en Ingeniería
Optimización en Ingeniería Departamento de Computación CINVESTAV-IPN Av. IPN No. 2508 Col. San Pedro Zacatenco México, D.F. 07300 email: ccoello@cs.cinvestav.mx El Concepto de Penalización Un método de
Programa de estudios por competencias Inteligencia Artificial I
Programa de estudios por competencias Inteligencia Artificial I 1. Identificación del curso Programa educativo: Licenciatura en Ingeniería en Computación Unidad de aprendizaje: Inteligencia Artificial
APRENDIZAJE CONDUCTISTA VS COGNITIVO
APRENDIZAJE CONDUCTISTA VS COGNITIVO TPDV4 LIC. ANDREA VALLE APRENDIZAJE COGNITIVO Fenómenos internos --» conoce a un objeto --» modificará su estructura mental y su conducta El aspecto conductual es lo
Simulated Annealing & Tabu Search
Simulated Annealing & Tabu Search Arturo Díaz Pérez Sección de Computación Departamento de Ingeniería Eléctrica CINVESTAV-IPN Av. Instituto Politécnico Nacional No. 2508 Col. San Pedro Zacatenco México,
Uso de una red neuronal multicapa para el reconocimiento de caracteres griegos. Skynet Reloaded
Uso de una red neuronal multicapa para el reconocimiento de caracteres griegos: Skynet Reloaded...decided our fate in a microsecond... P. García H. Rajchert I. Scena Sistemas de Inteligencia Artificial
Aprendiendo a ensamblar operaciones mentales
Aprendiendo a ensamblar operaciones mentales Luciano Paz Tesis de Licenciatura en Ciencias Físicas Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires Marzo de 2011 TEMA: Neurociencia.
Introducción a la Computación Evolutiva
Introducción a la Computación Evolutiva Departamento de Computación CINVESTAV-IPN Av. IPN No. 2508 Col. San Pedro Zacatenco México, D.F. 07300 email: ccoello@cs.cinvestav.mx http: //delta.cs.cinvestav.mx/~ccoello
PROCESOS ESTOCÁSTICOS
CURSO: PROCESOS ESTOCÁSTICOS 1 SEMESTRE: VIII 2 CODIGO: 602804 3 COMPONENTE: 4 CICLO: 5 AREA: Profesional 6 FECHA DE APROBACIÓN: 7 NATURALEZA: Teórica 8 CARÁCTER: Obligatorio 9 CREDITOS (RELACIÓN): 3 (1-1)
Una Aplicación Exitosa de Deep Reinforcement Learning
Una Aplicación Exitosa de Deep Reinforcement Learning Conceptos relevantes - Proceso de Decisión de Markov (MDP): - Función de valor: - Función Q: - Método iterativo ("model-free" y "online") para aprender
Introducción a las Redes Neuronales Articiales
Inteligencia Humana como Inspiración Novena Sesión 24 de marzo de 2010 Inteligencia Humana como Inspiración Inteligencia Humana como Inspiración Sistema Nervioso Humano Características: Complejo No Lineal
Aprendizaje por Refuerzo en Robótica Autónoma
Aprendizaje por Refuerzo en Robótica Autónoma Javier de Lope 26 de mayo de 2008 $Id: rlearning.tex,v 1.1 2008-04-30 08:51:14 jdlope Exp $ Contenido Aprendizaje, Aprendizaje Automático y Robots. Aprendizaje
Ingeniería en Sistemas y Comunicaciones
Universidad Autónoma del Estado de México Centro Universitario UAEM Valle de México Ingeniería en Sistemas y Comunicaciones U N I D A D DE A P R E N D I Z A J E : I N T E L I G E N C I A A R T I F I C
Optimización. Escuela de Ingeniería Informática de Oviedo. (Dpto. de Matemáticas-UniOvi) Computación Numérica Optimización 1 / 19
Optimización Escuela de Ingeniería Informática de Oviedo (Dpto. de Matemáticas-UniOvi) Computación Numérica Optimización 1 / 19 Introducción Problema general de optimización (minimización) Dado f : Ω R
Sílabo de Optimización Económica
Sílabo de Optimización Económica I. Datos Generales Código Carácter UC0992 Obligatorio Créditos 4 Periodo Académico 2017 Prerrequisito Economía Matemática I Horas Teóricas: 2 Prácticas 4 II. Sumilla de
Estimación de variables no observables para la economía peruana
Estimación de variables no observables para la economía peruana XXX Encuentro de Investigación del BCRP Ismael Ignacio Mendoza Mogollón imendoza@mef.gob.pe Octubre 2012 XXX Encuentro de Economistas (Institute)
Pozos Parra Fecha de elaboración: 28 de mayo de 2010 Fecha de última actualización:
PROGRAMA DE ESTUDIO Programa Educativo: Área de Formación : Licenciatura en Sistemas Computacionales Integral Profesional Laboratorio de inteligencia artificial Horas teóricas: 2 Horas prácticas: 2 Total
Estado 3.2 (coste = 9)
Búsqueda heurística Fernando Berzal, berzal@acm.org Búsqueda heurística Búsqueda primero el mejor p.ej. búsqueda de coste uniforme [UCS] Heurísticas Búsqueda greedy El algoritmo A* Heurísticas admisibles
Clasificación Supervisada
Clasificación Supervisada Ricardo Fraiman 26 de abril de 2010 Resumen Reglas de Clasificación Resumen Reglas de Clasificación Descripción del problema Muestra de entrenamiento (X 1, Y 1 ),..., (X n, Y
Métodos de Inteligencia Artificial
Métodos de Inteligencia Artificial L. Enrique Sucar (INAOE) esucar@inaoep.mx ccc.inaoep.mx/esucar Tecnologías de Información UPAEP Objetivos Estudiar algunas de las metodologías de Inteligencia Artificial,
Profesor: Leonardo Franco Despacho Web:
Asignatura: MODELOS COMPUTACIONALES Ingeniería a técnica t en informática de gestión Horario Clases: Martes y Jueves 7:30-9:30 Aula: 3.05 Profesor: Leonardo Franco Despacho 3.2.29 Email: lfranco@lcc.uma.es
Modelos Gráficos Probabilistas L. Enrique Sucar INAOE. Sesión 5: Modelos Ocultos de Markov
Modelos Gráficos Probabilistas L. Enrique Sucar INAOE Sesión 5: Modelos Ocultos de Markov Modelos Ocultos de Markov Cadenas de Markov Preguntas básicas Aplicación: orden en Google Modelos Ocultos de Markov
PROGRAMA DE CURSO. Horas Docencia Horas de Trabajo Horas de Cátedra Docentes ,5 5,5. Resultados de Aprendizaje
PROGRAMA DE CURSO Código Nombre CC5113 Aprendizaje Automático Bayesiano Nombre en Inglés Bayesian Machine Learning SCT Unidades Horas Docencia Horas de Trabajo Horas de Cátedra Docentes Auxiliar Personal
Clase 12: El modelo básico de equilibrio general dinámico
Clase 12: El modelo básico de equilibrio general dinámico José L. Torres Universidad de Málaga Macroeconomía Avanzada José L. Torres (Universidad de Málaga) Clase 12: Equilibrio general dinámico Macroeconomía
2021: Odisea del Ciberespacio
2021: Odisea del Ciberespacio M.C. Romeo A. Sánchez López CISM CEH CISSP CCNA CCSI SCSA SCJP SCMAD ITIL MCP TOGAF Ingeniero en Seguridad Computacional Maestro en Educación Maestro en Ciencias en Sistemas
Procesos de Markov. José Luis Ruiz Reina Franciso J. Martín Mateos Carmen Graciani Díaz
Procesos de Markov José Luis Ruiz Reina Franciso J. Martín Mateos Carmen Graciani Díaz Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Contenido Cadenas de Markov Modelos
PROYECTO DOCENTE ASIGNATURA "Sistemas multiagente e inteligencia distribuida"
PROYECTO DOCENTE ASIGNATURA "Sistemas multiagente e inteligencia distribuida" DATOS BÁSICOS DE LA ASIGNATURA Titulación: MASTER EN INGENIERIA DE COMPUTADORES Y REDES Asignatura: Sistemas multiagente e
Universidad Nacional Autónoma de México Facultad de Psicología
Universidad Nacional Autónoma de México Facultad de Psicología Programa de la Asignatura: Teoría Computacional de la Mente Clave: 1105 Semestre: 1 Campo de conocimiento: Tradición: Tradición Cognoscitiva
Localización. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides
M.Sc. Kryscia Ramírez Benavides Problemas de Navegación de los Robots Dónde estoy?. Dónde he estado? Mapa de decisiones. A dónde voy? Planificación de misiones. Cuál es la mejor manera de llegar? Planificación
ASIGNATURA: INTELIGENCIA ARTIFICIAL
ASIGNATURA: INTELIGENCIA ARTIFICIAL Código: 33-505 Régimen: cuatrimestral Horas reloj semanales: 4 Horas teóricas: 26 Horas prácticas: 34 Carrera: Sistemas Año del programa: 2016 FUNDAMENTOS: La evolución
1. Cuáles de las siguientes afirmaciones acerca del algoritmo Q-learning son ciertas
Universidad Rey Juan Carlos Curso 2014 2015 Hoja de Problemas Tema 12 1. Cuáles de las siguientes afirmaciones acerca del algoritmo Q-learning son ciertas (a) Para garantizar la convergencia de los valores
Inteligencia Artificial
Inteligencia Artificial I Introducción a la IA Fundamentos Dr. Edgard Iván Benítez Guerrero cursofei@gmail.com 1 1. Fundamentos Definiciones de IA Contribuciones de otras áreas a la IA BrevehistoriadelaIA
Capítulo 1. Aspectos históricos, conceptuales y metodológicos en el estudio del aprendizaje y la conducta.
Capítulo 1. Aspectos históricos, conceptuales y metodológicos en el estudio del aprendizaje y la conducta. 1. Antecedentes históricos de la psicología del aprendizaje. 1.1. Aproximaciones teóricas y filosóficas
PROYECTO DOCENTE ASIGNATURA: "Aprendizaje Automático"
PROYECTO DOCENTE ASIGNATURA: "Aprendizaje Automático" Grupo: Aprendizaje Automático(937831) Titulacion: Máster Universitario en Lógica, Computación e Inteligencia Artificial Curso: 2015-2016 DATOS BÁSICOS
Carrera: INB Participantes. Representante de las academias de ingeniería industrial de. Academias Ingeniería Industrial.
1.- DATOS DE LA ASIGNATURA Nombre de la asignatura: Carrera: Clave de la asignatura: Horas teoría-horas práctica-créditos Investigación de Operaciones II Ingeniería Industrial INB-0412 4-0-8 2.- HISTORIA
SÍLABO DEL CURSO SISTEMAS INTELIGENTES
FACULTAD DE INGENIERÍA CARRERA DE INGENIERÍA DE SISTEMAS SÍLABO DEL CURSO SISTEMAS INTELIGENTES 1. DATOS GENERALES 1.1. Facultad : Ingeniería 1.2. Carrera Profesional : Ingeniería de Sistemas 1.3. Departamento
Aprendizaje Computacional y Extracción de Información
Aprendizaje Computacional y Extracción de Información Inferencia Gramatical Jose Oncina oncina@dlsi.ua.es Dep. Lenguajes y Sistemas Informáticos Universidad de Alicante 26 de septiembre de 2007 J. Oncina
Experiencia docente en la impartición de un curso de modelado y control de sistemas continuos usando herramientas interactivas
Grado en Ingeniería Electrónica Industrial Experiencia docente en la impartición de un curso de modelado y control de sistemas continuos usando herramientas interactivas 2 1. Asignatura Modelado y control
Mapeo. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides
M.Sc. Kryscia Ramírez Benavides Problemas de Navegación de los Robots Dónde estoy? Localización. Dónde he estado? Mapa de decisiones. A dónde voy? Planificación de misiones. Cuál es la mejor manera de
Tópicos Avanzados: Inteligencia Computacional I
Tópicos Avanzados: Inteligencia Computacional I V: 17-Ene-18 Instructoras (en orden alfabético) Dra. Ma. del Pilar Gómez Gil Dra. Alicia Morales Reyes Primavera 2018 pgomez@inaoep.mx (c) 2018. P. Gómez-Gil,