REINFORCEMENT LEARNING. Jesús Fernández Bes
|
|
- Concepción Alvarado Maldonado
- hace 8 años
- Vistas:
Transcripción
1 Jesús Fernández Bes Noviembre 2012
2 ÍNDICE 1. Qué es, qué no es y para qué sirve el RL? 2. Formulación: Markov Decision Processes 1. Dynamic Programming 2. Algoritmos clásicos de RL 3. Líneas de InvesWgación y otros aspectos de interés en RL. 1. Aproximación funcional 2. RL con GP 3. POMDP 4. Otros aspectos 2
3 DEFINICIÓN Reinforcement Learning is the problem faced by an autonomous agent that learns behavior through trial- and- error interac6ons with a dynamic environment. Kaelbling et al Interacción Recompensa Autonomía Muestreo 3
4 EL PROBLEMA DE REINFORCEMENT LEARNING r s a Environment s à s 1. El agente interactua con el entorno. 2. Acciones modifican el entorno y proporcionan una recompensa. 3. No se conoce la dinámica de estados. 4. Agente trata de aprer comportamiento ópwmo. Qué acción tomar en cada estado para maximizar una recompensa a largo plazo? 4
5 A QUÉ SE PARECE PERO NO ES RL? Supervised Learning. Hay par entrada/salida. No una recompensa inmediata. En RL no se sabe que acción es mejor a largo plazo. Ac=ve Learning. Elegir muestras de las que aprer. Siguen sio pares entrada/salida. Mul= Armed Bandits. En MAB no existe concepto estado. Dynamic Programming. Se conoce toda la dinámica de estados. 5
6 RL application APLICACIONES areas Survey by Csaba Szepesvari of 77 recent application papers, based on an IEEE.org search for the keywords RL and application aircraft control engine control bio/chemical reactors Process Control 23% Networking 21% sensor networks routing call admission control network resource management signal processing natural language processing web services brain-computer interfaces option pricing asset management Other 8% load balancing memory management algorithm tuning Finance 4% Autonomic Computing 6% Traffic 6% stoplight control, trains, unmanned vehicles Robotics 13% Resource Management 18% power systems inventory control supply chains customer service mobile robots, motion control, Robocup, vision Rick Suhon. Deconstruc6ng Reinforcement Learning. ICML 09 6
7 MARKOV DECISION PROCESSES Un Markov Decision Process (MDP) es un tupla <S,A,T,R> donde: S es un conjunto finito de estados, A es un conjunto finito de acciones, T es una función de transición definida como T : S A S [0, 1] R es una función de recompensa definida como R : S A S R Dado un MDP definimos una políwca π como una función: Determinista π : S A EstocásWca π : SxA [0, 1] π(s, a) 0 π(s, a) =1 a A 7
8 OBJETIVOS. CRITERIOS A OPTIMIZAR Cual es el objewvo del agente? Cómo tener en cuenta la recompensa a largo plazo? Principalmente hay tres modelos: E h t=0 r t E t=0 γ t r t lim E h 1 h h r t t=0 Horizonte Finito Horizonte Infinito Recompensa Promedio 8
9 FUNCIONES DE VALOR Discounted returns. Valor esperado de las recompensas futuras (con descuento). State Value func6on: V π (s) =E π { k=0 State- Ac6on Value func6on: Q π (s, a) =E π { γ k r t+k s t = s} k=0 γ k r t+k s t = s, a t = a} Value Func=on Assump=on: All efficient methods for solving sequenwal decision problems eswmate value funcwons as an intermidiate step. 9
10 ECUACIONES DE BELLMAN Richard Bellman Ambas funciones se pueden escribir de forma recursiva. V π (s) =E π {r t + γv π (s t+1 ) s t = s} = s T (s, π(s),s )[R(s, a, s )+γv π (s )] La solución ópwma sawsface: V (s) = max a A π (s) = arg max a T (s, a, s )[R(s, a, s )+γv (s )] s T (s, a, s )[R(s, a, s )+γv (s )] s 10
11 ECUACIONES DE BELLMAN (2) Desarrollo equivalente para Q Q (s, a) = s T (s, a, s ) R(s, a, s )+γ max Q (s,a ) a Existe una relación directa entre V* y Q*: V (s) = max a Q (s, a) Q (s, a) = s T (s, a, s )[R(s, a, s )+γv (s )] 11
12 DYNAMIC PROGRAMMING Model- Based. Entorno Determinista o estadíswca conocida. Modelo perfecto de MDP. ÚWl desde el punto de vista teórico y algorítmico. RelaWvamente eficientes pero poco úwles en RL o cuando el espacio de estados es muy grande. 12
13 ALGORITMOS BÁSICOS DE DP (1): POLICY ITERATION Initialize V (s), π(s) arbitrarily s S; POLICY EVALUATION while σ do for each s S do v := V π (s); V (s) := s T (s, π(s),s )(R(s, π(s),s )+γv (s )); := max(, v V (s) ); POLICY IMPROVEMENT for each s S do b := π(s); π(s) :=argmax a s T (s, a, s )(R(s, a, s )+γv (s )); if b = π(s) then policy-stable := true ; if policy-stable then stop ; goto POLICY EVALUATION ; Initialize V arbitrarily ; while σ do for each s S do 13
14 ALGORITMOS if policy-stable then BÁSICOS DE DP (2): stop ; VALUE ITERATION goto POLICY EVALUATION ; Initialize V arbitrarily ; while σ do for each s S do v := V (s); for each a A(s) do Q(s, a) := s T (s, a, s )(R(s, a, s )+γv (s )); V (s) :=max a Q(s, a); := max(, v V (s) ); 14
15 DE DYNAMIC PROGRAMMING A Model - Free EstadísWca desconocida y parcialmente desconocida. Necesidad de muestreo y exploración. Compromiso Explora8on vs. Exploita8on Necesario explorar el espacio de políwcas para encontrar buenas políwcas. Necesario usar las políwcas buenas el mayor Wempo posible para obtener mucha recompensa. 15
16 POLÍTICAS DE EXPLORACIÓN Hay políwcas sencillas de exploración. Se basan en las uwlizadas en problemas de bandits: ε greedy strategy Elegir acción a según π (mejor acción posible) con probabilidad 1- ε. Elegir acción a aleatoria con probabilidad ε. Boltzmann (so<max) strategy P (a) = e Q(s,a) T i e Q(s,a i ) T Op8mis8c Q ini8aliza8on T>0 16
17 MÉTODOS BÁSICOS DE RL Métodos de Monte Carlo Se eswman las funciones de valor como promedios observados durante la iteración. Sobretodo úwles en horizonte finito. Juegos. Temporal - Difference Learning Se apren las eswmaciones de los valores a parwr de otras eswmaciones. Online. No necesitan barrer todo el espacio de estado. 17
18 for each a A(s) do Q(s, a) := s T (s, a, s )(R(s, a, s )+γv (s )); V (s) :=max a Q(s, a); := max(, v V (s) ); TD (0) Sólo modifica la policy evalua6on. Initialize V (s) arbitrarily,π to the policy to be evaluated; for each episode do s is initialized as the starting state; while sisnotagoalstatedo a := action give by π for s ; perform a; observe reward r, andnextstates ; V (s) :=V (s)+α [r + γv (s ) V (s)]; s := s ; 1 18
19 SARSA On- policy. ÚWl en entornos no estacionarios. Initialize Q(s, a) arbitrarily; for each episode do Choose a from s according to Q and exploration ; while sisnotagoalstatedo perform a, observe the new state s and received reward r; choose a A(s )accordingtoqandexploration; Q(s, a) :=Q(s, a)+α (r + γ Q(s,a ) Q(s, a)); s s ; a a ; Data: discountfactorγ, learningparameterα initialize Q arbitrarily (e.g. Q(s, a) =0, s S, a A); for each episode do 19
20 Choose a from s according to Q and exploration ; while sisnotagoalstatedo perform a, observe the new state s Q - LEARNING and received reward r; choose a A(s )accordingtoqandexploration; Q(s, a) :=Q(s, a)+α (r + γ Q(s,a ) Q(s, a)); s s ; a a ; Algoritmo más popular con diferencia. Off- Policy. Data: discountfactorγ, learningparameterα initialize Q arbitrarily (e.g. Q(s, a) =0, s S, a A); for each episode do s is initialized as the starting state; while sisnotagoalstatedo choose a A(s) basedonq and exploration ; perform a, observe the new state s and received reward r; Q(s, a) :=Q(s, a)+α ( r + γ max a A(s ) Q(s,a ) Q(s, a) ) ; s := s ; 20
21 ACTOR- CRITIC LEARNING El agente se compone de dos partes. Actor: selecciona la políwca de acuerdo a las preferencias p(s t,a t ). Cri8c: Evalúa las acciones. Mediante el TD- error: δ t = r t + γv (s t+1 ) V (s t ) Se actualizan las Preferencias: p(s t,a t )=p(s t,a t )+βδ t 21
22 APROXIMACIÓN FUNCIONAL Si el número de estados es GRANDE o INFINITO. No se puede representar V o Q como una tabla. Aproximación Least Squares Se representa la Value funcwon ( V o Q ) como una combinación lineal de funciones. Se aproxima minimizando una norma LS ˆQ(s, a) =φ T (s, a)θ min ˆQ ˆQ ˆQ Π(B π Q( ˆQ)) 22
23 Reinforcement Learning con GP Bayesiano: Se manwene una distribución de probabilidad sobre diswntos valores. Permiten incluir conocimiento a priori, exploración, Existen otras aproximaciones bayesianas además de los GP: BQL, Rassmussen C.E., Kuss M. Distribución sobre discounted returns, no sólo Esperanza (V = E{D}) mediante un GP. Apre también las transiciones como GP. Solución cerrada para algunas distribuciones de recompensas. Engel Y., Mannor S., Mier R. TD + Aproximación de V con GP. Implementación online. Kernel Sparsifica6on. 23
24 PARTIALLY OBSERVABLE MDP Relajar asunción de los MDP: Parte del estado puede ser oculta. Estado S ya no es Markoviano. En POMDP además de <S,A,T,R> se define el conjunto de observaciones Ω y la función O. O : S A Ω [0, 1] R y T siguen depio de s, no de o, decidir acción en base a 1 observación ya no es ópwmo. Necesita memoria. Belief vector b(s). b ao (s )= p(o s,a) p(o b, a) s S p(s s, a)b(s) 24
25 POMDP En general se necesita modelo de T y R. DP o Model- based RL. Diferentes heuríswcos para obtener las políwcas a parwr de los b(s) Métodos de búsqueda de políwca basados en simulaciones. PEGASUS: Andrew Ng. & Michael Jordan. 25
26 OTROS ASPECTOS IMPORTANTES Conexiones con la Psicología Cogni=va y la Neurociencia. Los inicios de RL se basan en inveswgaciones en comportamiento animal. TD basado en condicionamiento clásico. Algunos mecanismos del cerebro son muy similares a los algoritmos RL. AcWvidad neuronal dopaminérgica. Resultados Teóricos. Resultados de convergencia asintówcos. Algoritmos básicos. Cotas de complejidad (muestras finitas): PAC- MDP. RL Mul=agente. Batch Reinforcement Learning. 26
27 ALGUNAS REFERENCIAS LIBROS Reinforcement Learning: An Introduc8on. Suhon R. S. & Barto A. G. (1998). Reinforcement Learning: State- of- the- art. Wiering M. & van Oherlo M. (2012). { Capítulo 1 } TUTORIALES Reinforcement Learning: A Survey. Leslie Pack Kaelbling, Michael L. Lihman, Andrew W. Moore. Journal of ArWficial Intelligence Research, 1996 A tutorial on reinforcement learning techniques. C. H. C. Ribeiro. Proceedings of InternaWonal Conference on Neural Networks, INNS Press, Washington, DC, USA, July
28 BIBLIOGRAFÍA EXTRA Engel, Y., Mannor, S., Meir, R. Reinforcement Learning with Gaussian Processes. In: Proceedings of the 22nd InternaWonal Conference on Machine Learning. Vol. 22. Bonn, Germany, pp , August C.E. Rasmussen and M. Kuss. Gaussian Processes in Reinforcement Learning. Advances in Neural Informa6on Processing Systems 16 Proc. Ann. Conf. Neural Informa6on Processing Systems, pp , Andrew Y. Ng, Michael I. Jordan. PEGASUS: A policy search method for large MDPs and POMDPs. Proceedings of the 16th Conference on Uncertainty in ArWficial Intelligence, p , June 30- July 03, 2000 VIDEOLECTURES.NET TALK. Rick Suhon. Deconstruc8ng Reinforcement Learning. ICML 2009 hhp://videolectures.net/icml09_suhon_itdrl/ 28
Aprendizaje por Refuerzos
Aprendizaje por Refuerzos Teoría y Aplicaciones en Robó8ca, Neurociencia y Psicología Carlos Greg Diuk Department of Psychology Princeton Neuroscience Ins8tute Princeton University Resumen final Estudiamos
Aprendizaje por refuerzo
Inteligencia Artificial Aprendizaje por refuerzo Ing. Sup. en Informática, 4º Curso académico: 2011/2012 Profesores: Ramón Hermoso y Matteo Vasirani Aprendizaje Resumen: 3. Aprendizaje automático 3.1 Introducción
Aprendizaje por Refuerzo
Sesiones del Curso Máster en Ciencia y Tecnología Informática Grupo de Planificación y Aprendizaje (PLG) Departamento de Informática Escuela Politécnica Superior Universidad Carlos III de Madrid 30 de
Introducción al Aprendizaje Reforzado
Introducción al Conceptos básicos y métodos tabulares Julio Waissman Vilanova Departamento de Matemáticas Universidad de Sonora Universidad Autónoma de Baja California, marzo 2010 Plan de la presentación
Aprendizaje por Refuerzo
Aprendizaje por Refuerzo Víctor Uc Cetina Facultad de Matemáticas Universidad Autónoma de Yucatán, uccetina@uady.mx 29 de noviembre de 2012 Resumen Uno de los primeros sueños de los investigadores en Inteligencia
Métodos Markov Chain Monte Carlo
Métodos Markov Chain Monte Carlo David J. Rios Optimización Combinatoria 19 de mayo del 2008 MCMC Introducción Que son Cadenas de Markov? Que es Monte Carlo? Que es Markov Chain Monte Carlo? Algoritmo
Decisiones Secuenciales
Decisiones Secuenciales CI5438 - Inteligencia rtificial 2 Clases 4 y 5 Cap 17. Russel & Norvig: Inteligencia rtificial. Un enfoque estructurado genda Motivación Qué son los MDPs? Modelos Recompensas Lifetime
IA y Robótica. Aprendizaje por Refuerzo. Instituto de Computación Facultad de Ingeniería Universidad de la República
IA y Robótica Aprendizaje por Refuerzo Instituto de Computación Facultad de Ingeniería Universidad de la República Contenido Aprendizaje por refuerzo. Redes neuronales y aprendizaje por refuerzo. Aprendizaje
CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de
CAPITULO 4 JUSTIFICACION DEL ESTUDIO En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de estudios previos y los alcances que justifican el presente estudio. 4.1. Justificación.
SIMULACIÓN DE LA NAVEGACIÓN DE LOS ROBOTS MÓVILES MEDIANTE ALGORITMOS DE APRENDIZAJE POR REFUERZO PARA FINES DOCENTES.
TCA2013 1 SIMULACIÓN DE LA NAVEGACIÓN DE LOS ROBOTS MÓVILES MEDIANTE ALGORITMOS DE APRENDIZAJE POR REFUERZO PARA FINES DOCENTES. Autor: Armando Plasencia Salgueiro Instituto de Cibernética, Matemática
Scheduling Problem. Cuándo y dónde debo hacer cada trabajo?
Scheduling Problem Cuándo y dónde debo hacer cada trabajo? Ejemplos de problemas de asignación de recursos Fabricación de varios tipos de productos Asignación de turnos de trabajo Inversión financiera
Aprendizaje Automatizado. Redes Neuronales Artificiales
Aprendizaje Automatizado Redes Neuronales Artificiales Introducción Una forma de emular características propias de los humanos: memorizar y asociar hechos. Se aprende de la experiencia. El cerebro humano
Luis Felipe Duque Álvarez. Estudiante de Ingeniería Electrónica. Grupo de Política y Gestión Tecnológica. Universidad Pontificia Bolivariana Medellín.
Bogotá 15 y 16 de Agosto de 2008 EXTRACCIÓN DE PATRONES DE LA ENCUESTA ANUAL MANUFACTURERA COLOMBIANA EMPLEANDO INTELIGENCIA ARTIFICIAL Luis Felipe Duque Álvarez. Estudiante de Ingeniería Electrónica.
Introducción al programa WinQSB
Introducción al programa WinQSB WinQSB es un sistema interactivo de ayuda a la toma de decisiones que contiene herramientas muy útiles para resolver distintos tipos de problemas en el campo de la investigación
Teleformación na sociedade do coñecemento
Teleformación na sociedade do coñecemento Profesora: Departamento de Tecnoloxías da Información OBJETIVO DEL CURSO Conocer el estado actual de la teleformación Analizar las posibilidades de mejora utilizando
SIMULACIÓN MCMC. Dr. Holger Capa Santos
SIMULACIÓN MCMC Dr. Holger Capa Santos Septiembre, 2009 CONTENIDO Integración Montecarlo Problema con la Integración Montecarlo Muestreo de Importancia Algoritmos de Metropolis y Metropolis-Hastings Muestreador
Demo. TDD desde Cero. Acceptance Test Driven Development. www.iwt2.org formacion@iwt2.org
Demo TDD desde Cero Acceptance Test Driven Development www.iwt2.org formacion@iwt2.org Objetivos Objetivos Conocer cómo desarrollar un sistema software combinando pruebas de aceptación y TDD. Aprender
Minería de datos (Introducción a la minería de datos)
Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 12-O. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 21
RECOMENDACIÓN PERSONALIZADA Y BIG DATA
1 RECOMENDACIÓN PERSONALIZADA Y BIG DATA Recomendaciones aplicadas a entornos de E-commerce Jornada Estadística y Big Data Societat Catalana d Estadística 3 Abril 2014 ÍNDICE 2 Caso práctico en recomendación
John E. Santos González Rubally Guzman Luis G Rios
John E. Santos González Rubally Guzman Luis G Rios Introducción: Planificación y Desarrollo de Sistemas Éste capítulo es bien importante para nosotros los IT, ya que en el mismo se cubren tópicos esenciales
ALGORITMOS DE OPTIMIZACIÓN BASADOS
ALGORITMOS DE OPTIMIZACIÓN BASADOS EN INTELIGENCIA COLECTIVA M. en C. Miriam Pescador Rojas Estudiante de Doctorado Departamento de Ciencias de la Computación Centro de Investigación y Estudios Avanzados
DIVISION DE ESTUDIOS DE POSGRADO E INVESTIGACION DOCTORADO EN CIENCIAS EN COMPUTACION SEDE: INSTITUTO TECNOLOGICO DE TIJUANA No 002206
DIVISION DE ESTUDIOS DE POSGRADO E INVESTIGACION DOCTORADO EN CIENCIAS EN COMPUTACION SEDE: INSTITUTO TECNOLOGICO DE TIJUANA No 002206 MEDIOS DE VERIFICACION 4. Infraestructura del Programa Criterio 9.
Aprendizaje por Refuerzos
Aprendizaje por Refuerzos Teoría y Aplicaciones en Robó8ca, Neurociencia y Psicología Carlos Greg Diuk Department of Psychology Princeton Neuroscience Ins8tute Princeton University Para qué tenemos cerebro?
Bayesian Image recovery for dendritic structures under low signal-to-noise conditions
Bayesian Image recovery for dendritic structures under low signal-to-noise conditions Fudenberg G, Paninski L. IEEE Transactions on Image Processing, 18(3), 2009 2 Introducción En neurociencia, lo que
MCDC Marketers & Consumers Digital & Connected. Resultados España
MCDC Marketers & Consumers Digital & Connected Resultados España EUROPEOS EN LA RED Completa información sobre los consumidores europeos online Actividades realizadas y actitudes; engagement Encuesta online
Aprendizaje por Refuerzo para la Toma de Decisiones Segura en Dominios con Espacios de Estados y Acciones Continuos
UNIVERSIDAD CARLOS III DE MADRID TESIS DOCTORAL Aprendizaje por Refuerzo para la Toma de Decisiones Segura en Dominios con Espacios de Estados y Acciones Continuos Autor Francisco Javier García Polo Director
Servicio de Apoyo a la Investigación. Tutorial EndNoteWeb
Servicio de Apoyo a la Investigación Tutorial EndNoteWeb I AÑADIR REFERENCIAS. LA PESTAÑA COLLECT Collect es la pestaña que se utiliza para añadir referencias a nuestra biblioteca. Se pueden añadir hasta
Juegos. Esquema. Introducción: juegos como búsqueda Decisiones perfectas Decisiones imperfectas Poda α β
Juegos Transparencias IA (F29) M.Marcos, 2002 (Figuras c S.Russell & P.Norvig, 1998) 1 Esquema Introducción: juegos como búsqueda Decisiones perfectas Decisiones imperfectas Poda α β Transparencias IA
CAPÍTULO 4: ALGORITMOS DE APRENDIZAJE
Capítulo 4 Algoritmos de Aprendizaje 26 CAPÍTULO 4: ALGORITMOS DE APRENDIZAJE En este capítulo se proporcionan las descripciones matemáticas de los principales algoritmos de aprendizaje para redes neuronales:
Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos
Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos Britos, P. 1,2 ; Fernández, E. 2,1 ; García Martínez, R 1,2 1 Centro de Ingeniería del Software e Ingeniería del Conocimiento.
CONTROL ÓPTIMO DE SISTEMAS DE INVENTARIOS. Joaquín Humberto López Borbón Departamento de Matemáticas Universidad de Sonora
Memorias de la XVII Semana Regional de Investigación y Docencia en Matemáticas. Departamento de Matemáticas, Universidad de Sonora, México, Mosaicos Matemáticos, No. 20, Agosto, 2007, pp. 117 128. Nivel
PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación. II MODELOS y HERRAMIENTAS UML. II.2 UML: Modelado de casos de uso
PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación II MODELOS y HERRAMIENTAS UML 1 1 Modelado de casos de uso (I) Un caso de uso es una técnica de modelado usada para describir lo que debería hacer
Introducción al Proceso de Pruebas.
Introducción al Proceso de Pruebas. Javier Gutiérrez / javierj@us.es Introducción al proceso de pruebas Objetivo: repasar las ideas principales sobre las pruebas del software y, en concreto, las que usaremos
Inteligencia Artificial. Grado en INFORMÁTICA 4º curso. Modalidad: Presencial
Grado en INFORMÁTICA 4º curso Modalidad: Presencial Sumario Datos básicos 3 Breve descripción de la asignatura 4 Requisitos previos 4 Objetivos 4 Competencias 5 Contenidos 6 Metodología 6 Criterios de
El Proceso Unificado de Desarrollo de Software
El Proceso de Desarrollo de Software Ciclos de vida Métodos de desarrollo de software El Proceso Unificado de Desarrollo de Software 1 Fases principales del desarrollo de software Captura de requisitos:
01/10/2010. 15. Conjunto de protocolos TCP/IP IP. Contenido. Enrutamiento Intradomain y enrutamiento Interdomain routing
15. Conjunto de protocolos TCP/IP IP Contenido i. Programación de enrutadores Enrutamiento Intradomain y enrutamiento Interdomain routing El enrutamiendo dentro de un sistema autónomo (AS) es referido
La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network) III Jornadas de Usuarios de R Javier Alfonso Cendón, Manuel Castejón Limas, Joaquín Ordieres Mere, Camino Fernández Llamas Índice
1 GLOSARIO. Actor: Es un consumidor (usa) del servicio (persona, sistema o servicio).
1 GLOSARIO A continuación se definen, en orden alfabético, los conceptos básicos que se han abordado a lo largo del desarrollo de la metodología para la gestión de requisitos bajo la Arquitectura Orientada
Introducción a los Servicios Web. Ing. José Luis Bugarin ILUMINATIC SAC jbugarin@consultorjava.com
Introducción a los Servicios Web Ing. José Luis Bugarin ILUMINATIC SAC jbugarin@consultorjava.com Servicios Web y Soa En un contexto SOA y los servicios web son una oportunidad de negocios en la actualidad.
Teoría Clásica de Optimización de Carteras
Teoría Clásica de Optimización de Carteras Los inversores deben elegir estrategias de inversión y de consumo óptimas. Dado capital inicial, deben componer cartera para maximizar su utilidad esperada. El
Métodos de Inteligencia Artificial
Métodos de Inteligencia Artificial L. Enrique Sucar (INAOE) esucar@inaoep.mx ccc.inaoep.mx/esucar Tecnologías de Información UPAEP Agentes que Aprenden: Aprendizaje por Refuerzo (RL) Introducción MDPs
Integración por el método de Monte Carlo
Integración por el método de Monte Carlo Georgina Flesia FaMAF 7 de abril 2015 El método de Monte Carlo El método de Monte Carlo es un procedimiento general para estudiar procesos mediante la seleccion
publicidad pricing qué es marketing? productos clientes
Marketing Online pricing publicidad qué es marketing? clientes productos Definicion de Kottler el proceso social y administrativo por el cual los grupos e individuos satisfacen sus necesidades al crear
Aprendizaje por Refuerzo
Aprendizaje por Refuerzo Ciencias de la Computación e Inteligencia Artificial Índice 6.1 Introducción 6.2 Elementos del aprendizaje 6.4 Definición del problema 6.5 Programación Dinámica 6.6 Método de Monte
Propagación de Restricciones. Iván André Tamayo García Maestría en Ingeniería de Sistemas EISC Universidad del Valle
Propagación de Restricciones Iván André Tamayo García Maestría en Ingeniería de Sistemas EISC Universidad del Valle Agenda Speeding up Constraint Propagation Definiciones y preliminares Solver e Incremental
Asignatura: Horas: Total (horas): Obligatoria Teóricas 3.0 Semana 5.0 Optativa X Prácticas 2.0 16 Semanas 80.0 de elección
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE INGENIERÍA PROGRAMA DE ESTUDIO Aprobado por el Consejo Técnico de la Facultad de Ingeniería en su sesión ordinaria del 15 de octubre de 2008 CONTROL
MAIDEN, Neil; ROBERTSON, Suzanne; Developing Use Cases and Scenarios in the Requirements Process, 12p
Tema: Desarrollo y gestión de requisitos desde casos de uso válidos? Informe Número: 3 Fecha: 27 de noviembre de 2007 Integrantes: Gustavo Alberto Cataño Marín Gustavo Adolfo Patiño Vasquez e-mail: gusengineer@gmail.com
INDUCCIÓN DE MACRO-OPERADORES DE REPARACIÓN EN SISTEMAS INTERACTIVOS DE RE-SCHEDULING
INDUCCIÓN DE MACRO-OPERADORES DE REPARACIÓN EN SISTEMAS INTERACTIVOS DE RE-SCHEDULING Paula A. Toselli 1, Jorge A. Palombarini 2, Ernesto C. Martínez 3 1 Departamento de Sistemas, (UTN-FRVM), Av. Universidad
Máster en Ciencia y Tecnología Informática
Departamento de Informática Universidad Carlos III de Madrid Máster en Ciencia y Tecnología Informática Programación Automática Examen Normas generales del examen El tiempo para realizar el examen es de
GUÍA PARA LAS FAMILIAS To Para Obtener Asistencia Financiera
GUÍA PARA LAS FAMILIAS To Para Obtener Asistencia Financiera sss.nais.org/parents GUÍA PARA LAS FAMILIAS Para obtener asistencia financiera Haciendo que la educación independiente sea una realidad. Usted
Aprendizaje Automatizado
Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto
TEMA 1. Introducción
TEMA 1. Introducción Francisco José Ribadas Pena, Santiago Fernández Lanza Modelos de Razonamiento y Aprendizaje 5 o Informática ribadas@uvigo.es, sflanza@uvigo.es 28 de enero de 2013 1.1 Aprendizaje automático
Redes de Kohonen y la Determinación Genética de las Clases
Redes de Kohonen y la Determinación Genética de las Clases Angel Kuri Instituto Tecnológico Autónomo de México Octubre de 2001 Redes Neuronales de Kohonen Las Redes de Kohonen, también llamadas Mapas Auto-Organizados
Credit scoring. por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar)
Credit scoring por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar) En base a que los bancos modernos otorgan tarjetas de crédito y créditos personales o los niegan? Qué límite de crédito le
OPCIONES REALES EN LA GENERACIÓN DE ENERGÍA ELÉCTRICA
OPCIONES REALES EN LA GENERACIÓN DE ENERGÍA ELÉCTRICA Dra. ELSA CORTINA Lic. MARTÍN DURO Comunicación efectuada en la sesión privada extraordinaria de la Academia Nacional de Ciencias de Buenos Aires del
Nelson Londoño Ospina. Juan Bautista Martínez Suárez. Nelson David Muñoz Ceballos. Ingeniero Electrónico. Gerente unidad de negocios De-
4 Recibido 20 de septiembre de 2006, aprobado 30 de noviembre de 2006. Juan Bautista Martínez Suárez Ingeniero Electrónico. Gerente unidad de negocios De- quia, línea de Robótica y Mecatrónica (GIRAA).
PROGRAMACIÓN ESTOCÁSTICA CON FUNCIÓN OBJETIVO FRACTIL. UNA APLICACIÓN A LA PLANIFICACIÓN DE TESORERÍA
PROGRAMACIÓN ESTOCÁSTICA CON FUNCIÓN OBJETIVO FRACTIL. UNA APLICACIÓN A LA PLANIFICACIÓN DE TESORERÍA Antonio Cardona Rodríguez - efpcaroa@lg.ehu.es Universidad del País Vasco (UPV/EHU) Reservados todos
Toma de decisiones en situación de certeza, riesgo e incertidumbre
Toma de decisiones en situación de certeza, riesgo e incertidumbre Apellidos, nombre Departamento Centro Rueda Armengot, Carlos (crueda@doe.upv.es) Peris Ortiz, Marta (mperis@doe.upv.es) Organización de
INTRODUCCIÓN. El propósito de esta investigación es analizar la importancia que ha surgido en
INTRODUCCIÓN El propósito de esta investigación es analizar la importancia que ha surgido en los sistemas de costos ABC para las empresas de Servicios Mexicanas, ya que este sector forma una parte muy
El programa Minitab: breve introducción a su funcionamiento. Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos
El programa Minitab: breve introducción a su funcionamiento Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos estadísticos en la actualidad, el libro se acompaña, en todo
Universidad de Castilla-La Mancha Departamento de Informática El Diseño de Software para la Gestión del Conocimiento
CURSOS DE VERANO 2002 www.uclm.es/curve2002 (Vicerrectorado de Extensión Universitaria y del Campus de Cuenca) Universidad de Castilla-La Mancha GROKIS www.inf-cr.uclm.es/www/grokis (Group for Research
Capítulo 12: Indexación y asociación
Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación
Diseño de Componentes
Diseño de Componentes Adaptación de Métrica V3 Departamento de Sistemas Informáticos y Computación (UPV) CONSELLERIA D INFRAESTRUCTURES I TRANSPORT Emilio Insfrán Pelozo Introducción Diseño de Componentes:
Qué preguntar durante una demostración de BPMS
KIT DE HERRAMIENTAS DEL COMPRADOR DE BPMS Qué preguntar durante una demostración de BPMS Parte 2 del kit completo de herramientas del comprador de un conjunto de aplicaciones de Gestión de Procesos de
CAPÍTULO 12. Las comunicaciones móviles en los edificios inteligentes
CAPÍTULO 12 Las comunicaciones móviles en los edificios inteligentes Por: Angélica Reyes Muñoz Departamento Arquitectura de Computadores. Universidad Politécnica de Cataluña, España. Este trabajo presenta
Práctica 10. Redes Neuronales
Práctica 10 Redes Neuronales En esta práctica trabajaremos con un sistema de aprendizaje basado en ejemplos que ya hemos visto con anterioridad (k-vecinos) y una implementación de las redes neuronales.
Basada en Network Brokers
Provisión Incremental de QoS Basada en Network Brokers Alfonso Gazo Cervero, José Luis González Sánchez [agazo,jlgs]@unex.es Área de Ingeniería Telemática Departamento de Informática Universidad de Extremadura
Aprendizaje Computacional. Eduardo Morales y Jesús González
Aprendizaje Computacional Eduardo Morales y Jesús González Objetivo General La capacidad de aprender se considera como una de los atributos distintivos del ser humano y ha sido una de las principales áreas
SIMULACIÓN EN TIEMPO REAL DE UNA ESTACION DE TRABAJO INDUSTRIAL ROBOTIZADA.
SIMULACIÓN EN TIEMPO REAL DE UNA ESTACION DE TRABAJO INDUSTRIAL ROBOTIZADA. Mora Sánchez José Antonio, López Flores Miguel Eduardo, Bustillo Díaz Mario Benemérita Universidad Autónoma de Puebla 14 sur
Área Académica: ICBI, Sistemas Computacionales. Profesor: M.C.C Víctor Tomás Tomás Mariano
Área Académica: ICBI, Sistemas Computacionales Tema: Mapas auto organizados Profesor: M.C.C Víctor Tomás Tomás Mariano Alumnos: Leticia Hernandez Hernandez. Agustin Escamilla Hernández Periodo: Julio-Diciembre
Minería de datos (Introducción a la minería de datos)
Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 14-I. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 24
REDES Y SERVICIOS AVANZADOS EN INTERNET FUNDAMENTACIÓN OBJETIVOS GENERALES
REDES Y SERVICIOS AVANZADOS EN INTERNET Carrera/ Plan: Licenciatura en Informática Plan 2003-07 / Plan 2012 / Plan 2015 Licenciatura en Sistemas Plan 2003-07 / Plan 2012 / Plan 2015 Año: Régimen de Cursada:
TUTORIAL: Cómo puedo instalar el Renault Media Nav Toolbox? TUTORIAL: Cómo puedo crear una "huella digital" del dispositivo en un dispositivo de
TUTORIAL: Cómo puedo instalar el Renault Media Nav Toolbox? TUTORIAL: Cómo puedo crear una "huella digital" del dispositivo en un dispositivo de almacenamiento USB? TUTORIAL: Cómo puedo empezar a utilizar
Análisis de expansión de redes de telefonía móvil basándose en indicadores claves de desempeño, utilizando Procesos Gaussianos
Análisis de expansión de redes de telefonía móvil basándose en indicadores claves de desempeño, utilizando Procesos Gaussianos Jhouben Janyk Cuesta Ramírez. Director: PhD. Mauricio Alexander Álvarez. Facultad
FACULTAD DE CIENCIAS EXACTAS, INGENIERÍA Y AGRIMENSURA U.N.R.
FACULTAD DE CIENCIAS EXACTAS, INGENIERÍA Y AGRIMENSURA U.N.R. PROGRAMA SINTÉTICO DE LA ASIGNATURA: Identificación de Sistemas Código PLAN DE ESTUDIOS: 1996 CARRERA: Ingeniería Electrónica DEPARTAMENTO:
Filtrado de Imágenes y Detección de Orillas Utilizando un Filtro Promediador Móvil Multipunto Unidimensional
Filtrado de Imágenes y Detección de Orillas Utilizando un Filtro Promediador Móvil Multipunto Unidimensional Mario A. Bueno a, Josué Álvarez-Borrego b, Leonardo Acho a y Vitaly Kober c mbueno@cicese.mx,
Proyectos de Investigación
Proyectos de Investigación Centro de Sistemas Inteligentes Tecnológico de Monterrey E-mail: leonardo.garrido@itesm.mx Web page: http://homepages.mty.itesm.mx/lgarrido Información n personal Personal homepage:
UNIVERSIDAD NACIONAL DEL SUR
1 H O R A S D E C L A S E P R O F E S O R R E S P O N S A B L E T E O R I C A S P R A C T I C A S Dr. Alberto Bandoni Por semana Por cuatrimestre Por semana Por cuatrimestre 4 4 A S I G N A T U R A S C
PARTE III OBTENCIÓN DE MODELOS OBTENCIÓN DE MODELOS MODELADO E IDENTIFICACIÓN ASPECTOS A TENER EN CUENTA MODELADO IDENTIFICACIÓN OBTENCIÓN DE MODELOS
OBTENCIÓN DE MODELOS PARTE III OBTENCIÓN DE MODELOS 1. INFORMACIÓN SOBRE EL SISTEMA 1. EL PROPIO SISTEMA (OBSERVACIÓN, TEST) 2. CONOCIMIENTO TEÓRICO (LEYES DE LA NATURALEZA, EXPERTOS, LITERATURA, ETC.)
ANÁLISIS Y DISEÑO DE SISTEMAS DEPARTAMENTO DE CIENCIAS E INGENIERÍA DE LA COMPUTACIÓN
ANÁLISIS Y DISEÑO DE SISTEMAS DEPARTAMENTO DE CIENCIAS E INGENIERÍA DE LA COMPUTACIÓN Clase 6: Ingeniería de Requerimientos Metododología y Ejemplo Primer Cuatrimestre 2015 Mg. María Mercedes Vitturini
ANÁLISIS DINÁMICO DEL RIESGO DE UN PROYECTO
ANÁLISIS DINÁMICO DEL RIESGO DE UN PROYECTO Por: Pablo Lledó Master of Science en Evaluación de Proyectos (University of York) Project Management Professional (PMP) Profesor de Project Management y Evaluación
Estrategia de negocio basada en clientes: Software CRM
Estrategia de negocio basada en clientes: Software CRM 1 CRM ó GRC los pasos Índice de contenidos: Qué es un CRM Por qué utilizar un CRM, ventajas y beneficios Antes de utilizar un CRM Qué Por qué Cuándo
Alvaro J. Riascos Villegas Universidad de los Andes y Quantil. Marzo 14 de 2012
Contenido Motivación Métodos computacionales Integración de Montecarlo Muestreo de Gibbs Rejection Muestreo Importante Metropolis - Hasting Markov Chain Montecarlo Method Complemento ejemplos libro: Bayesian
Código del programa: PEMDE. Programa Experto en MANEJO DE DATOS CON EXCEL. Modalidad: Virtual. Descripción del programa
Código del programa: PEMDE Programa Experto en MANEJO DE DATOS CON EXCEL Modalidad: Virtual Descripción del programa 1 Presentación del programa Justificación Microsoft Excel es la herramienta de manejo
Tutorada por Dra. Dña. Eva Onaindía De La Rivaherrera
Departamento de Sistemas Informáticos y Computación SIMPLIFICACIÓN DE LOS PROCESOS DE DECISIÓN DE MARKOV MEDIANTE REGLAMENTACIÓN DE ACCIONES Y PRIORIZACIÓN DE ESTADOS Presentada por María de Guadalupe
GedicoPDA: software de preventa
GedicoPDA: software de preventa GedicoPDA es un sistema integrado para la toma de pedidos de preventa y gestión de cobros diseñado para trabajar con ruteros de clientes. La aplicación PDA está perfectamente
PROPUESTA DE ALTERNATIVAS PARA EL MODELADO DE USUARIO ESTADÍSTICO UNIVERSIDAD CARLOS III D E MADRID
PROPUESTA DE ALTERNATIVAS PARA EL MODELADO DE USUARIO ESTADÍSTICO LEONARDO C A STAÑO ZABALETA LCASTANO@INF.UC3M. ES D EPARTAMENTO D E INFORMÁTICA UNIVERSIDAD CARLOS III D E MADRID CONTENIDOS Introducción
Tape Mbo e: una Metodología Orientada a Servicios
Tape Mbo e: una Metodología Orientada a Servicios Motivación Objetivos Tecnología Estado del Arte Evaluación del Estado del Arte Tape Mb e Ciclo de Vida Roles Disciplinas Ciclo de Vida y Disciplinas Evaluación
DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012
DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012 FLUJO DE CAPACITACIÓN Prerrequisitos Fundamentos de Programación Sentencias SQL Server 2012 Duración: 12 horas 1. DESCRIPCIÓN
INGENIERÍA DEL SOFTWARE
INGENIERÍA DEL SOFTWARE Sesión No. 2 Nombre: Procesos de ingeniería del software INGENIERÍA DEL SOFTWARE 1 Contextualización La ingeniería de software actualmente es muy importante, pues con los avances
! Una variable declarada con final no puede volver a ser reinicializada. numero = 2;! ! Para definir constantes
Modificador final Introducción a la Programación IV Curso de Programación en Java Luis Guerra l.guerra@upm.es Enero 2012 Una variable declarada con final no puede volver a ser reinicializada final int
Integración de AuraPortal con SAP
Integración de AuraPortal con SAP Se puede definir como la estrategia empresarial enfocada a gestionar los procesos de negocio. BPM se soporta sobre tecnología de información para automatizar tareas y
Modelos Gráficos Probabilistas L. Enrique Sucar INAOE. Sesión 15: Procesos de Decisión de Markov
Modelos Gráficos Probabilistas L. Enrique Sucar INAOE Sesión 15: Procesos de Decisión de Markov Procesos de Decisión de Markov Procesos de Decisión Secuenciales Procesos de Decisión de Markov (MDPs) Técnicas
Tema 4: Ahorro óptimo y crecimiento económico
Tema 4: Ahorro óptimo y crecimiento económico Introducción Relación entre el capital por trabajador y el consumo per capita en el estado estacionario: la regla de oro de acumulación del capital Horizontes
Ingeniería de Software. Pruebas
Ingeniería de Software Pruebas Niveles de prueba Pruebas unitarias Niveles Pruebas de integración Pruebas de sistema Pruebas de aceptación Alpha Beta Niveles de pruebas Pruebas unitarias Se enfocan en
McAfee Advanced Threat Defense 3.0
Notas de la versión McAfee Advanced Threat Defense 3.0 Revision A Contenido Acerca de este documento Funciones de McAfee Advanced Threat Defense 3.0 Problemas resueltos Notas de instalación y ampliación
Conclusiones. Particionado Consciente de los Datos
Capítulo 6 Conclusiones Una de las principales conclusiones que se extraen de esta tesis es que para que un algoritmo de ordenación sea el más rápido para cualquier conjunto de datos a ordenar, debe ser
PROGRAMACIÓN LINEAL. 8.1. Introducción. 8.2. Inecuaciones lineales con 2 variables
Capítulo 8 PROGRAMACIÓN LINEAL 8.1. Introducción La programación lineal es una técnica matemática relativamente reciente (siglo XX), que consiste en una serie de métodos y procedimientos que permiten resolver
Integración de Magento & Dynamics NAV
Integración de Magento & Dynamics NAV Integración de Magento & Dynamics NAV Integración de Magento & Dynamics NAV Presentamos una nueva solución que comunica la plataforma de Tiendas virtuales de Magento
Simulación en seguros y finanzas Mtro. Víctor Hugo Ibarra Mercado
Simulación en seguros y finanzas Mtro. Víctor Hugo Ibarra Mercado La anterior, recuerdas? La normal y el movimiento browniano AHORA! EL MOVIMIENTO BROWNIANO y LAS OPCIONES Si recuerdas la dinámica, denominada