XDA智能手机网 - 第一智能手机评述媒体
科技您的位置:首页 >科技 >

研究人员正在开发更好 更快的方法为自动机器人提供人工指导

发布时间:2019-06-25 10:45:47 来源:

‬在计算机游戏中沿着赛道进行比赛时,要求优化速度,汽车将踏板推向金属......然后继续旋转一个紧密的小圆圈。指令中没有任何内容告诉汽车直行,因此它是即兴的。

这个例子 - 在计算机游戏中很有趣,但在生活中并不那么有趣 - 是促使斯坦福大学研究人员为自治系统设定目标的更好方法之一。

计算机科学和电气工程助理教授Dorsa Sadigh和她的实验室结合了两种不同的方法,将机器人的目标设定为一个单一的过程,在模拟和现实世界的实验中,它比单独的任何一个部分都要好。研究人员于6月24日在机器人:科学与系统会议上介绍了这项工作。

“在未来,我完全希望世界上有更多的自治系统,他们需要一些好的和坏的概念,”计算机科学研究生兼联合主要作者Andy Palan说。论文。“至关重要的是,如果我们希望将来部署这些自治系统,我们就能做到这一点。”

该团队为机器人提供指导的新系统 - 称为奖励功能 - 结合了人类展示机器人做什么的演示,以及用户偏好调查,其中人们回答有关他们希望机器人如何表现的问题。

“演示是有益的,但它们可能会很嘈杂。另一方面,偏好最多提供一点信息,但更准确,”萨迪说。“我们的目标是充分利用这两个世界,并将来自这两个来源的数据更智能地结合起来,以更好地了解人类的首选奖励功能。”

示威和调查

在以前的工作中,Sadigh仅关注偏好调查。这些要求人们比较情景,例如自动驾驶汽车的两个轨迹。这种方法很有效,但生成下一个问题可能需要三分钟,这对于为像汽车这样的复杂系统创建指令来说仍然很慢。

为了加快这一速度,该小组后来开发了一种同时产生多个问题的方法,可以由一个人快速连续地回答,也可以分布在几个人之间。与逐个产生问题相比,此更新将流程加速了15到50倍。

新的组合系统始于向机器人展示行为的人。这可以为自主机器人提供大量信息,但机器人经常难以确定演示的哪些部分很重要。人们也不总是希望机器人的行为就像训练它的人一样。

“我们不能总是进行演示,即使我们可以,我们也经常不能依赖人们提供的信息,”负责开展多问题调查的电气工程研究生Erdem Biyik说。“例如,之前的研究表明,人们希望自动驾驶汽车的驾驶不那么激进。”

这就是调查进入的地方,让机器人有一种方式可以询问,例如,用户是否更喜欢将手臂向下移动到地面或向上移动到天花板。对于这项研究,该小组使用较慢的单一问题方法,但他们计划在以后的工作中整合多问题调查。

在测试中,团队发现结合演示和调查比仅仅指定偏好更快,并且与单独的演示相比,大约80%的人更喜欢机器人在使用组合系统训练时的表现。

“这是更好地了解人们对机器人的期望或期望的一步,”萨迪说。“我们的工作是让人们更容易,更有效地与人交互和教授机器人,我很兴奋能够进一步开展这项工作,特别是在研究机器人和人类如何相互学习方面。”

更好,更快,更聪明

使用组合方法的人报告说难以理解系统对其中的一些问题的理解,这有时要求他们在两个看似相同或似乎与任务无关的场景之间进行选择 - 基于偏好的学习中的常见问题。研究人员希望通过更简单的调查来解决这个缺点,这些调查也可以更快地完成。

“展望未来,对我来说,做出奖励功能的正确方法并不是百分之百,但实际上你会有某种组合可以解决人类输入的复杂情况,”Palan说。“能够为自治系统设计奖励功能是一个重要的大问题,在学术界得不到应有的重视。”

该团队还对其系统的变化感兴趣,这将允许人们同时为不同的场景创建奖励功能。例如,一个人可能希望他们的汽车在交通缓慢时更保守地驾驶,而在交通较轻时则更积极。

热点推荐
随机文章