Enviado el miércoles, 09 de julio de 2008 11:58
El objetivo del aprendizaje por refuerzo es usar el premio-castigo para aprender una función, la cual permitirá tomar decisiones en el futuro de qué acción tomar a partir de una percepción del entorno. La función de agente utiliza la información contenida en él para realizar la toma de decisiones. De ahí el nombre de Aprendizaje por Refuerzo. Existen, no obstante, otros formalismos para aprender, mediante refuerzo, qué acción realizar en cada caso, como por ejemplo las Redes Neuronales.
Este método de aprendizaje surge de una rama de estudios de psicología experimental, que pueden remontarse a las experiencias de Pavlov con el refuerzo condicionado, y por otro lado es heredero de los métodos de control óptimo que se originan a partir de los trabajos de Bellman. Dicho de forma breve, el aprendizaje por refuerzo es el problema de conseguir que un agente actúe en un entorno de manera que maximice la recompensa que obtiene por sus acciones. Este tipo de aprendizaje se encuadra en los denominados Aprendizaje supervisado
La señal de refuerzo puede ser inmediata o retardada. Inmediata es cuando se obtiene una crítica para cada acción efectuada justo después de su realización. La información aportada por el refuerzo en este caso es local a cada acción tomada. Por el contrario, en el caso del refuerzo retardado se dará cuando éste no se obtiene inmediatamente después de la realización de cada acción, sino al completar la secuencia de acciones empleadas para resolver el problema. En este caso, el refuerzo obtenido es una estimación global del comportamiento.
Una condición para poder aplicar el aprendizaje por refuerzo es que éste sea modelizable mediante cadenas de Markov: la acción a escoger en una situación dada depende únicamente de esta situación y no del camino que se ha realizado para llegar a ella. Definimos al agente como el aprendiz encargado de observar su entorno para recoger información que le permita modificar su comportamiento para así aprender a resolver un determinado problema. Como dijimos anteriormente, el objetivo del aprendizaje por refuerzo es la utilización de las recompensas para la obtención de una función de agente. Por tanto nuestro agente será una función que, recibiendo como entrada una percepción del entorno, devolverá la acción siguiente a realizar.
Las aplicaciones del Aprendizaje por Refuerzo son múltiples, desde robots móviles que aprenden a salir de un laberinto, programas de ajedrez que aprenden cuáles son las mejores secuencias de movimientos para ganar un juego o un brazo robótico que aprende cómo mover las articulaciones para lograr el movimiento final deseado.
Una referencia básica sobre este campo del Aprendizaje Automático es el libro "
Reinforcement Learning: An Introduction" de Sutton y Burto, que está disponible de forma on-line en la web del propio Sutton.
[
Rafael Valenzuela Moraleda]