2017-05-26 Policy Gradients Policy Gradients是强化学(Reinforcement Learning)中的一种算法,Policy Gradients 不需要用贪婪策略来选择行为,而是算法直接给出不同行为的概率并通过这个概率来选择行为。 阅读全文...
2017-05-25 DQN(Deep Q Network) DQN是Deep Q Network的简称,是一种将强化学习的方法(Q-Learning)和神经网络(Neural Networks)相结合的一种新的算法。 阅读全文...
2017-05-17 勇士VS马刺 G1 一场充满争议的比赛,一场谁都不服气的比赛。当小卡又一次倒在几乎同样的位置的时候,全世界的人们似乎都把目光投向了球场上,每个人都化身篮球专家,指点江山,义愤填膺。 阅读全文...
2017-05-07 Q-Learing,Sarsa和Sarsa-lambda 最近看了一些关于强化学习(Reinforcement Learning)的资料,今天来总结一下RL中一些基本的算法。 阅读全文...