用户友好的机器人主动奖励学习方法 (2)蒂朵

发布时间：2022-07-19 23:17:33

用户友好的机器人主动奖励学习方法

研究人员一直在尝试开发使机器人学习新技能的方法。一种选择是让机器人从人类那里学习这些新技能，在不确定如何操作时提出问题，并从人类用户的反应中学习。

斯坦福大学的研究小组最近开发了一种用户友好的主动奖励学习方法，该方法可通过让人类用户回答他们的问题来训练机器人这种新方法在在arXiv上预的一篇论文中训练机器人提出一些问题，这些问题对于人类用户来说很容易回答，并且不是多余或不必要的。

研究人员通过电子邮件告诉TechXplore：“我们的团队对机器人如何学习人类想要的东西很感兴趣。” “一种直观的学习方式是通过提问。例如，您宁愿谨慎驾驶还是主动驾驶自动驾驶汽车？这种自动驾驶汽车应在人类驾驶的汽车之前还是之后合并？”

这项最新研究背后的主要假设是，理想情况下，机器人应该提出有益的问题，以从人类用户那里获取尽可能多的信息。换句话说，机器人应该能够通过问尽可能少的问题来理解人类的需求或想要他们做什么。

但是，实际上，大多数基于问题回答的现有培训方法都没有考虑人类用户回答机器人提出的特定问题有多么容易。这通常会导致用户浪费时间来回答大量不必要的问题，或者无法确定地回答。

研究人员说：“我们发现大多数最先进的算法都显示出无法区分的人类替代方案，从而使人们无法正确回答机器人的问题。”

“以我们的示例为例，这些方法可能会问：“您是否希望以29 mph或31 mph的速度在人工驾驶的汽车前合并？”这对于机器人决定是否以人们希望时速超过30英里/小时，但速度太快，人们无法可靠地做出响应。”

为了克服现有主动学习方法的局限性，研究人员开发了一种算法，可以选择更有效的问题向人类用户提问。该算法确定的问题最大程度地减少了机器人对人类用户偏好的不确定性，同时还考虑了人类用户回答这些问题的难易程度。

研究人员说：“受先前工作的缺点的启发，当我们开发这种算法时，我们专注于考虑人类实际回答机器人提出的问题的能力。” “这是基于这样的思想，即只有考虑到人类回答能力的机器人才能准确，高效地学习人类的需求。”

研究人员通过测量熵的降低来计算信息增益，该熵是人类用户的偏好随机器人提出的问题而变化的。换句话说，最大化信息获取的问题将最大程度地减少机器人对人类用户的喜好有什么不确定性。这为机器人提供了一个正式的目标，他们可以用来选择最有用的问题。

研究人员说：“信息获取的一个很好的特征是，它固有地使机器人的不确定性最大化，同时又使人的不确定性最小化，”解释。“因此，利用信息获取来产生问题可以改善主动学习的能力，这不仅是因为问题具有最大的参考价值，而且还因为人类给出的错误回答更少。”

研究人员设计的方法贪婪地选择了在每个时间步都最大化信息获取的问题。本质上，机器人会与其交互的用户的偏好保持信念，并从该信念和可能的问题空间中抽取样本。

最终，机器人会选择在可能的人类偏好的当前分布中提供最多信息增益的问题。随后，它根据收到的答案更新对用户想要的信念。此过程不断重复进行，从而使机器人可以通过了解用户的偏好来逐渐提高其性能。

研究人员说：“我们制定了一种易于计算的方法，使我们能够快速发现人类对实际机器人任务的偏好，胜过先前的方法。” “在我们的研究中，用户比其他先进技术更喜欢我们的方法。”

在他们的研究中，总部位于斯坦福的团队表明，训练机器人提出问题以最大程度地提高信息获取的效率与最新方法具有相同的计算复杂性。换句话说，与其他方法产生的问题相比，机器人找到这些信息性问题并不困难。

研究人员说：“我们还指出，我们的方法具有一些理想的数学特性，例如亚模量，这使我们能够采用为先前方法开发的扩展和理论界限，并将其与我们的方法一起使用。” “例如，我们可以使用先前的著作来一次查找多个信息性问题，而不必一次搜索一个问题。”

该团队在一系列模拟中评估了他们的主动奖励学习方法，发现该方法比其他先进技术使机器人能够更快，更准确地掌握人类的喜好。在人们可以正确回答难题或回答为“我不知道”的情况下，也发现这是正确的。

研究人员还进行了一项用户研究，其中要求人类参与者回答使用他们的方法所产生的问题，以及使用其他最新方法所产生的其他问题。他们收集的反馈表明，人们发现他们的方法所产生的问题要容易回答得多。另外，用户通常认为使用新方法的机器人比以前提出的方法更能准确地表达自己的偏好。

研究人员说：“考虑到我们所有的贡献，我们朝着使机器人能够确定人的喜好迈出了一步。” “我们表明，我们最初希望机器人最大化的真正目标-提出问题以获取尽可能多的信息-可以用与现有方法相同的计算复杂性来解决。”

将来，由这组研究人员开发的主动奖励学习技术可以帮助更有效地训练机器人，使它们更符合用户的喜好。此外，它还可用于教机器人问人类可以轻松理解和回答的问题。在未来的研究中，研究人员还希望研究训练机器人的方法，以对其动作进行有用的解释。

研究人员说：“我们不仅对机器人提出了很好的问题感到兴奋，而且还可以解释为什么他们要问这些问题。” “我们设想一种场景，其中无人驾驶汽车会为人类显示两个不同的合并选项，然后澄清是因为是高峰时间，所以他们正在询问这些选项，并且它想确定它应该表现得或多或少具有攻击性。 ”