A Reinforcement Learning Algorithm Based on Policy Iteration for Average Reward: Empirical Results with Yield Management and Convergence Analysis

Author： Gosavi Abhijit

Publisher： Springer Publishing Company

ISSN： 0885-6125

Source： Machine Learning, Vol.55, Iss.1, 2004-04, pp. : 5-29

Disclaimer: Any content in publications that violate the sovereignty, the constitution or regulations of the PRC is not accepted or approved by CNPIEC.

Previous Menu Next

Abstract

Related content

Preference-based reinforcement learning: a formal framework and a policy iteration algorithm

By Fürnkranz Johannes Hüllermeier Eyke Cheng Weiwei Park Sang-Hyeun

Machine Learning, Vol. 89, Iss. 1-2, 2012-10 ,pp. : 123-156

Springer Publishing Company

Access to resources Recommend Favorite

Convergence Results for Single-Step On-Policy Reinforcement-Learning Algorithms

By Singh S.

Machine Learning, Vol. 38, Iss. 3, 2000-03 ,pp. : 287-308

Springer Publishing Company

Access to resources Recommend Favorite

Reinforcement Learning Based Algorithms for Average Cost Markov Decision Processes

By Abdulla Mohammed Bhatnagar Shalabh

Discrete Event Dynamic Systems, Vol. 17, Iss. 1, 2007-03 ,pp. : 23-52

Springer Publishing Company

Access to resources Recommend Favorite

On Average Versus Discounted Reward Temporal-Difference Learning

By Tsitsiklis J.N.

Machine Learning, Vol. 49, Iss. 2-3, 2002-11 ,pp. : 179-191

Springer Publishing Company

Access to resources Recommend Favorite

Kernel-Based Reinforcement Learning

By Ormoneit D.

Machine Learning, Vol. 49, Iss. 2-3, 2002-11 ,pp. : 161-178

Springer Publishing Company

Access to resources Recommend Favorite