增强学习
机器学习中的一个领域,关注智能体如何基于环境而采取一系列的行动,以取得最大化的预期利益或回报
特点
试错学习(Trail-and-error),由于没有直接的指导信息,智能体要以不断与环境进行交互,通过试错的方式来获得最佳策略。
延迟回报,增强学习的指导信息很少,而且往往是在事后(最后一个状态)才给出的,这就导致了一个问题,就是获得正回报或者负回报以后,如何将回报分配给前面的状态。
例子
比如下象棋,每一步都是一个决策过程,但决策的结果事后才知道 再比如机器人的行走,移动过程中不知道如何挪动 一种可行的思路是设计一个回报函数,每执行一步决策后,向agent进行汇报,比如四足机器人,如果他向前走了一步(接近目标),那么回报函数为正,后退为负。这样,我们对每一步进行评价,得到相应的回报函数,我们只需要找到一条回报值最大的路径(每步的回报之和最大),就认为是最佳的路径。