Proceso de decisión de Márkov

En matemáticas, un proceso de decisión de Márkov (en inglés: Márkov decision process, MDP) es un proceso de control estocástico en tiempo discreto. Proporciona un marco matemático para modelar la toma de decisiones en situaciones en las que los resultados son en parte aleatorios y en parte están bajo el control de quien toma la decisión. Los MDP son útiles para estudiar problemas de optimización resueltos mediante programación dinámica. Los MDP se conocían al menos desde la década de 1950;[1]​ un núcleo de investigación sobre los procesos de decisión de Márkov surgió del libro de Ronald Howard de 1960, Dynamic Programming and Márkov Processes.[2]​ Se utilizan en muchas disciplinas, como la robótica, el control automático, la economía y la manufactura. El nombre de MDP procede del matemático ruso Andréi Márkov, ya que son una extensión de las cadenas de Márkov.

En cada paso temporal, el proceso se encuentra en el estado , y el responsable de la toma de decisiones puede elegir cualquier acción que esté disponible en el estado . El proceso responde en el siguiente paso temporal pasando aleatoriamente a un nuevo estado , y ofreciendo al responsable de la toma de decisiones la recompensa correspondiente .

La probabilidad de que el proceso pase a su nuevo estado está influida por la acción elegida. En concreto, viene dada por la función de transición de estado . Así, el siguiente estado depende del estado actual y de la acción del decisor . Pero dado y , es condicionalmente independiente de todos los estados y acciones anteriores; en otras palabras, las transiciones de estado de un MDP satisfacen la propiedad de Márkov.

Los procesos de decisión de Márkov son una extensión de las cadenas de Márkov; la diferencia estriba en la adición de acciones (que permiten elegir) y recompensas (que dan motivación). Por el contrario, si sólo existe una acción para cada estado (por ejemplo, "esperar") y todas las recompensas son iguales (por ejemplo, "cero"), un proceso de decisión de Márkov se reduce a una cadena de Márkov.

Definición editar

 
Ejemplo de un MDP simple con tres estados (círculos verdes) y dos acciones (círculos naranjas), con dos recompensas (flechas naranjas).

Un proceso de decisión de Márkov es una 4-tupla  , en el que:

  •   es un conjunto de estados denominado espacio de estados,
  •   es un conjunto de acciones denominado espacio de acciones (alternativamente,   es el conjunto de acciones disponibles a partir del estado  ),
  •   es la probabilidad de que la acción   en el estado   en el momento   conducirá al estado   en el momento  ,
  •   es la recompensa inmediata (o recompensa inmediata esperada) recibida tras pasar del estado   al estado   debido a la acción  

Los espacios de estados y acciones pueden ser finitos o infinitos, por ejemplo el conjunto de los números reales. Algunos procesos con espacios de estado y acción contablemente infinitos pueden reducirse a otros con espacios de estado y acción finitos.[3]

Una función política   es una correspondencia (potencialmente probabilística) entre el espacio de estados ( ) al espacio de acción ( ).

Objetivo de optimización editar

El objetivo en un proceso de decisión de Márkov es encontrar una buena "política" para el decisor: una función   que especifica la acción   que el decisor elegirá cuando se encuentre en el estado  . Una vez que un proceso de decisión de Márkov se combina con una política de este modo, se fija la acción para cada estado y la combinación resultante se comporta como una cadena de Márkov (ya que la acción elegida en el estado   está completamente determinada por   y   se reduce a  , una matriz de transición de Márkov).

El objetivo es elegir una política   que maximice alguna función acumulativa de las recompensas aleatorias, normalmente la suma descontada esperada en un horizonte potencialmente infinito:

  (donde elegimos   es decir, las acciones dadas por la política).

La expectativa se toma sobre  , donde   es el factor de descuento que satisface  , que suele ser cercano a 1 (por ejemplo,   para una tasa de descuento r). Un factor de descuento más bajo motiva al responsable de la toma de decisiones a favorecer la realización de acciones tempranas, en lugar de posponerlas indefinidamente.

Una política que maximiza la función anterior se denomina política óptima y suele denotarse como  . Un MDP particular puede tener múltiples políticas óptimas distintas. Debido a la propiedad de Márkov, se puede demostrar que la política óptima es una función del estado actual, como se ha supuesto anteriormente.

Modelos de simulador editar

En muchos casos, es difícil representar las distribuciones de probabilidad de transición,   explícitamente. En tales casos, se puede utilizar un simulador para modelar el MDP implícitamente proporcionando muestras de las distribuciones de transición. Una forma común de modelo MDP implícito es un simulador de entorno episódico que puede iniciarse a partir de un estado inicial y produce un estado y una recompensa posteriores cada vez que recibe una entrada de acción. De este modo, se pueden producir trayectorias de estados, acciones y recompensas, a menudo denominadas episodios.

Otra forma de simulador es un modelo generativo, un simulador de un solo paso que puede generar muestras del siguiente estado y recompensa dados cualquier estado y acción.[4]​ (Nótese que éste es un significado diferente del término modelo generador en el contexto de la clasificación estadística). En algoritmos que se expresan mediante pseudocódigo,   se utiliza a menudo para representar un modelo generador. Por ejemplo, la expresión   podría denotar la acción de muestreo del modelo generador donde   y   son el estado y la acción actuales, y   y   son el nuevo estado y la recompensa. En comparación con un simulador episódico, un modelo generador tiene la ventaja de que puede obtener datos de cualquier estado, no sólo de los encontrados en una trayectoria.

Estas clases de modelos forman una jerarquía de contenido informativo: un modelo explícito da lugar trivialmente a un modelo generador mediante el muestreo de las distribuciones, y la aplicación repetida de un modelo generador da lugar a un simulador episódico. En sentido inverso, sólo es posible aprender modelos aproximados mediante regresión. El tipo de modelo disponible para un MDP concreto desempeña un papel importante a la hora de determinar qué algoritmos de solución son adecuados. Por ejemplo, los algoritmos de programación dinámica descritos en la siguiente sección requieren un modelo explícito, y el árbol de búsqueda Monte Carlo requiere un modelo generador (o un simulador episódico que pueda copiarse en cualquier estado), mientras que la mayoría de los algoritmos de aprendizaje por refuerzo sólo requieren un simulador episódico.

Algoritmos editar

Las soluciones para los MDP con espacios de estado y acción finitos se pueden encontrar mediante diversos métodos, como la programación dinámica. Los algoritmos de esta sección se aplican a los MDP con espacios de estados y acciones finitos y con probabilidades de transición y funciones de recompensa dadas explícitamente, pero los conceptos básicos pueden ampliarse para tratar otras clases de problemas, por ejemplo utilizando la aproximación de funciones.

La familia estándar de algoritmos para calcular políticas óptimas para MDPs de estado y acción finitos requiere almacenamiento para dos matrices indexadas por el estado: valor  ,que contiene valores reales, y la política  , que contiene acciones. Al final del algoritmo,   contendrá la solución y   contendrá la suma descontada de las recompensas que se obtendrán (en promedio) siguiendo esa solución desde el estado  .

El algoritmo consta de dos pasos, (1) una actualización del valor y (2) una actualización de la política, que se repiten en cierto orden para todos los estados hasta que no se producen más cambios. Ambos actualizan recursivamente una nueva estimación de la política óptima y del valor del estado utilizando una estimación más antigua de esos valores.

 

 

Su orden depende de la variante del algoritmo; también se pueden hacer para todos los estados a la vez o estado por estado, y más a menudo a unos estados que a otros. Mientras no se excluya permanentemente ningún estado de ninguno de los pasos, el algoritmo acabará llegando a la solución correcta.[5]

Variantes notables editar

Iteración de valor editar

En la iteración del valor (Bellman et al., 1957), también llamada inducción hacia atrás, el algoritmo   no se utiliza; en su lugar, el valor de   se calcula dentro de   siempre que sea necesario. Sustituyendo el cálculo de   en el cálculo de   da el paso combinado:

 

donde   es el número de iteración. La iteración del valor comienza en   y   como conjetura de la función de valor. A continuación, itera, calculando repetidamente   para todos los estados  , hasta que   converge con el lado izquierdo igual al lado derecho (que es la "ecuación de Bellman" para este problema). El artículo de Lloyd Shapley de 1953 sobre juegos estocásticos incluía como caso especial el método de iteración de valor para MDP,[6]​ pero esto no se reconoció hasta más tarde.[7]

Iteración de políticas editar

En la iteración de políticas (Howard et al., 1960), el paso uno se realiza una vez, y luego el paso dos se realiza una vez, luego ambos se repiten hasta que la política converge. A continuación, se repite el primer paso y así sucesivamente. (La iteración de políticas fue inventada por Howard para optimizar el envío por catálogo de Sears, que había estado optimizando utilizando la iteración de valores[8]​).

En lugar de repetir el paso dos hasta la convergencia, puede formularse y resolverse como un conjunto de ecuaciones lineales. Estas ecuaciones se obtienen simplemente haciendo   en la ecuación del paso dos. Así, la repetición del paso dos hasta la convergencia puede interpretarse como la resolución de las ecuaciones lineales por relajación.

Esta variante tiene la ventaja de que existe una condición de parada definida: cuando la matriz   no cambia en el transcurso de la aplicación del paso 1 a todos los estados, el algoritmo se completa.

La iteración de políticas suele ser más lenta que la iteración de valores para un gran número de estados posibles.

Iteración de política modificada editar

En la iteración de política modificada (van Nunen, 1976 y Puterman & Shin, 1978), el paso uno se realiza una vez y, a continuación, el paso dos se repite varias veces.[9][10]​ A continuación, el paso uno se vuelve a realizar una vez y así sucesivamente.

Barrido priorizado editar

En esta variante, los pasos se aplican preferentemente a los estados que son de alguna manera importantes – ya sea basándose en el algoritmo (hubo grandes cambios en   o   en torno a esos estados recientemente) o en función del uso (esos estados están cerca del estado inicial, o son de interés para la persona o el programa que utiliza el algoritmo).

Extensiones y generalizaciones editar

Un proceso de decisión de Márkov es un juego estocástico con un solo jugador.

Observabilidad parcial editar

La solución anterior supone que el estado   es conocido en el momento de actuar; en caso contrario   no se puede calcular. Cuando esta suposición no es cierta, el problema se denomina proceso de decisión de Márkov parcialmente observable o (en inglés: partially observable Márkov decision process, POMDP).

Aprendizaje por refuerzo editar

El aprendizaje por refuerzo utiliza MDP en los que las probabilidades o recompensas son desconocidas.[11]

Para ello es útil definir una función adicional, que corresponde a tomar la acción   y luego continuar de forma óptima (o según la política que se tenga en ese momento):

 

Aunque esta función también se desconoce, la experiencia durante el aprendizaje se basa en   pares (junto con el resultado  ; es decir, "Estaba en el estado   e intenté hacer   y ocurrió  "). Así, se tiene una matriz   y se utiliza la experiencia para actualizarla directamente. Es lo que se conoce como Q-learning.

El aprendizaje por refuerzo puede resolver procesos de decisión de Márkov sin especificar explícitamente las probabilidades de transición; los valores de las probabilidades de transición se necesitan en la iteración de valores y políticas. En el aprendizaje por refuerzo, en lugar de especificar explícitamente las probabilidades de transición, se accede a ellas a través de un simulador que suele reiniciarse muchas veces a partir de un estado inicial uniformemente aleatorio. El aprendizaje por refuerzo también puede combinarse con la aproximación de funciones para abordar problemas con un número muy elevado de estados.

Autómatas de aprendizaje editar

Otra aplicación del proceso MDP en la teoría del aprendizaje automático se denomina autómata de aprendizaje. Se trata también de un tipo de aprendizaje por refuerzo si el entorno es estocástico. El primer artículo detallado sobre los autómatas de aprendizaje es el de Narendra y Thathachar (1974), que originalmente se describieron explícitamente como autómatas de estado finito.[12]​ De forma similar al aprendizaje por refuerzo, un algoritmo de autómatas de aprendizaje también tiene la ventaja de resolver el problema cuando la probabilidad o las recompensas son desconocidas. La diferencia entre los autómatas de aprendizaje y el Q-learning es que la primera técnica omite la memoria de los valores Q, pero actualiza directamente la probabilidad de acción para hallar el resultado del aprendizaje. Los autómatas de aprendizaje son un esquema de aprendizaje con una prueba rigurosa de convergencia.[13]

En la teoría de los autómatas de aprendizaje, un autómata estocástico consiste en:

  • un conjunto x de posibles entradas,
  • un conjunto Φ = { Φ1, ..., Φs } de posibles estados internos,
  • un conjunto α = { α1, ..., αr } de posibles salidas, o acciones, con r ≤ s,
  • un vector inicial de probabilidad de estado p(0) = ≪ p1(0), ..., ps(0) ≫,
  • una función computable A que después de cada paso de tiempo t genera p(t + 1) a partir de p(t), la entrada actual y el estado actual, y
  • una función G: Φ → α que genera la salida en cada paso de tiempo.

Los estados de un autómata de este tipo corresponden a los estados de un "proceso de Márkov de parámetros discretos de estado discreto".[14]​ En cada paso de tiempo t = 0,1,2,3,..., el autómata lee una entrada de su entorno, actualiza P(t) a P(t + 1) mediante A, elige aleatoriamente un estado sucesor según las probabilidades P(t + 1) y emite la acción correspondiente. El entorno del autómata, a su vez, lee la acción y envía la siguiente entrada al autómata.[13]

Interpretación teórica de las categorías editar

Aparte de las recompensas, un proceso de decisión de Márkov   puede entenderse en términos de teoría de categorías. A saber,   el monoide libre con el conjunto generador A. Dist denota la categoría de Kleisli de la mónada de Giry. Entonces un functor   codifica tanto el conjunto S de estados como la función de probabilidad P.

De este modo, los procesos de decisión de Márkov podrían generalizarse de los monoides (categorías con un objeto) a categorías arbitrarias. Se puede llamar al resultado   un proceso de decisión de Márkov dependiente del , porque pasar de un objeto a otro en   cambia el conjunto de acciones disponibles y el conjunto de estados posibles.

Proceso de decisión de Márkov de tiempo continuo editar

En los procesos de decisión de Márkov de tiempo discreto, las decisiones se toman en intervalos de tiempo discretos. Sin embargo, en los procesos de decisión de Márkov de tiempo continuo, las decisiones pueden tomarse en cualquier momento que elija el decisor. En comparación con los procesos de decisión de Márkov de tiempo discreto, los procesos de decisión de Márkov de tiempo continuo pueden modelar mejor el proceso de toma de decisiones para un sistema que tiene una dinámica continua, es decir, la dinámica del sistema está definida por ecuaciones diferenciales ordinarias (EDO).

Definición editar

Para analizar el proceso de decisión de Márkov de tiempo continuo, introducimos dos conjuntos de notaciones:

Si el espacio de estados y el espacio de acciones son finitos,

  •  : Espacio de estados;
  •  : Espacio de acción;
  •  :  , función de tasa de transición;
  •  :  , una función de recompensa.

Si el espacio de estados y el espacio de acciones son continuos,

  •  : espacio de estados;
  •  : espacio de control posible;
  •  :  : una función de tasa de transición;
  •  :   una función de tasa de recompensa tal que  , , donde   es la función de recompensa de la que hablamos en el caso anterior.

Problema editar

Al igual que en los procesos de decisión de Márkov en tiempo discreto, en los procesos de decisión de Márkov en tiempo continuo queremos encontrar la política o el control óptimo que pueda darnos la recompensa integrada óptima esperada:

 

en el que  

Formulación de la programación lineal editar

Si el espacio de estados y el espacio de acciones son finitos, podríamos utilizar la programación lineal para encontrar la política óptima, que fue uno de los primeros enfoques aplicados. Aquí sólo consideramos el modelo ergódico, lo que significa que nuestro MDP de tiempo continuo se convierte en una cadena de Márkov ergódica de tiempo continuo bajo una política estacionaria. Bajo este supuesto, aunque el decisor puede tomar una decisión en cualquier momento en el estado actual, no podría beneficiarse más tomando más de una acción. Es mejor que tomen una acción sólo en el momento en que el sistema pasa del estado actual a otro estado. En determinadas condiciones (para más detalles, véase el corolario 3.14 de Procesos de decisión de Márkov en tiempo continuo), si nuestra función de valor óptimo   es independiente del estado   tendremos la siguiente desigualdad:

 

Si existe una función  , entonces   será el   más pequeño que safisface la ecuación. Para hallar   se podría utilizar los siguientes modelo de programación lineal:

  • Programa lineal primario (P-LP)

 

  • Programa lineal doble o dual (D-LP)

 

  es una solución factible para el D-LP si   no es nativa y satisface las restricciones del problema D-LP. Una solución factible   al D-LP se dice que es una solución óptima si

 

para toda solución factible   al D-LP. Una vez que hemos encontrado la solución óptima  , podemos utilizarlo para establecer las políticas óptimas.

Ecuación de Hamilton-Jacobi-Bellman editar

En un MDP de tiempo continuo, si el espacio de estado y el espacio de acción son continuos, el criterio óptimo podría encontrarse resolviendo la ecuación diferencial parcial de Hamilton-Jacobi-Bellman (HJB). Para analizar la ecuación de HJB, tenemos que reformular nuestro problema

 

  es la función de recompensa terminal,   es el vector de estado del sistema,   es el vector de control del sistema que tratamos de encontrar.   muestra cómo el vector de estado cambia con el tiempo. La ecuación de Hamilton-Jacobi-Bellman es la siguiente:

 

Podríamos resolver la ecuación para encontrar el control óptimo  , lo que podría darnos la función de valor óptimo  .

Aplicación editar

Los procesos de decisión de Márkov en tiempo continuo tienen aplicaciones en sistemas de colas, procesos epidémicos y procesos poblacionales.

Notaciones alternativas editar

La terminología y la notación de los MDP no están del todo definidas. Hay dos corrientes principales: una se centra en los problemas de maximización de contextos como la economía, utilizando los términos acción, recompensa, valor, y llamando al factor de descuento   o γ, mientras que la otra se centra en los problemas de minimización de la ingeniería y la navegación, utilizando los términos control, coste, coste a ir, y llamando al factor de descuento α. Además, la notación para la probabilidad de transición varía.

en este artículo alternativa comentario
acción a control u
recompensa R coste g g es el negativo de R
valor V coste a ir J J es el negativo de V
política π política μ
factor de descuento γ factor de descuento α
probabilidad de transición   probabilidad de transición  

En adición, la probabilidad de transición a veces es escrita como  ,   o, raras veces,  

Procesos de decisión de Márkov restringidos editar

Los procesos de decisión de Márkov restringidos (en inglés: constrained Márkov decision processes, CMDPS) son extensiones de los procesos de decisión de Márkov (MDP). Existen tres diferencias fundamentales entre los MDP y los CMDP.[15]

  • Hay múltiples costes en los que se incurre tras aplicar una acción en lugar de uno.
  • Los CMDP se resuelven sólo con programas lineales, y la programación dinámica no funciona.
  • La política final depende del estado inicial.

Los CMDP tienen varias aplicaciones. Recientemente se ha utilizado en escenarios de planificación de movimiento en robótica.[16]

Véase también editar

Referencias editar

  1. Bellman, R. (1957). «A Markovian Decision Process». Journal of Mathematics and Mechanics 6 (5): 679-684. 
  2. Howard, Ronald A. (1960). Dynamic Programming and Markov Processes. The M.I.T. Press. 
  3. Wrobel, A. (1984). «On Markovian Decision Models with a Finite Skeleton». Mathematical Methods of Operations Research 28 (Febrero): 17-27. doi:10.1007/bf01919083. 
  4. Kearns, Michael; Mansour, Yishay; Ng, Andrew (2002). «A Sparse Sampling Algorithm for Near-Optimal Planning in Large Markov Decision Processes». Machine Learning 49 (193–208): 193-208. doi:10.1023/A:1017932429737. 
  5. Reinforcement Learning: Theory and Python Implementation. Beijing: China Machine Press. 2019. p. 44. ISBN 9787111631774. 
  6. Shapley, Lloyd (1953). «Stochastic Games». Proceedings of the National Academy of Sciences of the United States of America 39 (10): 1095-1100. Bibcode:1953PNAS...39.1095S. PMC 1063912. PMID 16589380. doi:10.1073/pnas.39.10.1095. 
  7. Kallenberg, Lodewijk (2002). «Finite state and action MDPs». En Feinberg, Eugene A.; Shwartz, Adam, eds. Handbook of Markov decision processes: methods and applications. Springer. ISBN 978-0-7923-7459-6. 
  8. Howard (2002). Comments on the Origin and Application of Markov Decision Processes. 
  9. Puterman, M. L.; Shin, M. C. (1978). «Modified Policy Iteration Algorithms for Discounted Markov Decision Problems». Management Science 24 (11): 1127-1137. doi:10.1287/mnsc.24.11.1127. 
  10. van Nunen, J.A. E. E (1976). «A set of successive approximation methods for discounted Markovian decision problems». Zeitschrift für Operations Research 20 (5): 203-208. doi:10.1007/bf01920264. 
  11. Shoham, Y.; Powers, R.; Grenager, T. (2003). «Multi-agent reinforcement learning: a critical survey». Technical Report, Stanford University: 1-13. Consultado el 12 de diciembre de 2018. 
  12. Narendra, K. S.; Thathachar, M. A. L. (1974). «Learning Automata – A Survey». IEEE Transactions on Systems, Man, and Cybernetics. SMC-4 (4): 323-334. ISSN 0018-9472. doi:10.1109/TSMC.1974.5408453. 
  13. a b Narendra, Kumpati S.; Thathachar, Mandayam A. L. (1989). Learning automata: An introduction (en inglés). Prentice Hall. ISBN 9780134855585. 
  14. Narendra y Thathachar, 1974, pp. p.325.
  15. Altman, Eitan (1999). Constrained Markov decision processes 7. CRC Press. 
  16. Feyzabadi, S.; Carpin, S. (2014). «Risk-aware path planning using hierarchical constrained Markov Decision Processes». IEEE International Conference (Automation Science and Engineering (CASE)): 297, 303. 

Lectura adicional editar

Enlaces externos editar