一、 参考:https://blog.csdn.net/itchosen/article/details/77200322
这里的关系是,主要用强化学习方法控制cartpole,同时由于是连续状态动作,所以用到了神经网络来拟合策略函数,策略梯度在这里的作用,是对神经网络的参数进行更新,是更新参数的一种方法。 1,此处用到三层神经网络:输入层,隐藏层,输出层 因为此处需要输出的动作只有三个,所以相当于用神经网络对动作进行分类,分类一般用softmax函数(离散动作选择此函数)(激活函数:因为不加激活函数时,神经网络是线性的,处理问题能力有限),它将动作映射成(0-1)范围的一个概率,相当于输出三个概率。 2,对应与softmax激活函数,损失函数一般用对数似然函数。 (这里有点问题,在别处看到,这个y其实应该是最终的结果,即如果最终符合我们的要求,则y=1,即求最大化我们的损失函数,反之为-1,即最小化损失函数,但两种思路结果一样,都是最优化损失函数 )
可见(个人理解)梯度下降也只是针对我们更想要的一个类别进行参数优化。
这里神经网络的输入是状态,输出是概率(即采取某个动作的概率),然后才去动作,得到奖励。训练的过程就是让奖励大的动作,发生的概率更大,奖励小的动作发生的概率更小。