Curiosity-driven Exploration by Self-supervised Prediction

Abstract

在现实世界中自监督预测的好奇心驱动的探索,能够提供给agent的奖励非常少,或者根本不存在。在这种情况下,好奇心可以作为一种内在的奖励信号,使agent能够探索环境并学习可能在以后的生活中有用的技能。本文把好奇心表述为一个agent在视觉特征空间预测自身行为结果的能力时的误差,并把这种error作为内在好奇心reward提供给agent进行学习,该视觉特征空间是由一个自监督逆动态模型学习的。

+
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×