但是,新技术ADR通过生成越来越难以训练的Dactyl训练场景来帮助教机械手解决古老的难题。自动域随机化的方式如下:
ADR从单一的非随机环境开始,在该环境中,神经网络学习了如何解开三阶魔方。随着神经网络在任务中变得更好并达到性能阈值,域随机化的数量会自动增加。由于神经网络现在必须学会将其推广到更随机的环境,因此这使任务更加艰巨。神经网络不断学习,直到再次超过性能阈值,然后再进行更多随机化,然后重复该过程。
团队认为,ADR是一项重大进步,因为逐步困难的训练模拟的建立“使我们摆脱了对真实世界的准确模型的束缚,并使在模拟中学习到的神经网络的转移能够应用于真实世界。 ” 最终,在使神经网络适应各种情况后,Dactyl能够熟练地适应各种物理情况,包括手指被绑住,戴上橡胶手套等前景。
值得一提的是,虽然OpenAI去年展示了Dactyl旋转魔方的能力,但是解开三阶魔方所需的灵巧性和操纵水平不可小视。密西根大学的机器操纵专家Dmitry Berenson赞扬了这一壮举:
“这是一个非常困难的问题。旋转魔方的零件所需的操作实际上比旋转魔方要困难得多。”
同时,麻省理工学院的机器人学家和教授Leslie Kaelbling说道:
“我有点惊讶。我此前没想过它们能完成这类工作。”
OpenAI的研究人员认为,实验的结果提供了有力的证据,表明将来可以使用相同的技术来构建可以适应各种条件的通用机器人。来自OpenAI的Marcin Andrychowicz设想:“我认为这种方法(强化学习)是广泛采用机器人技术的方法。”
同时,有些怀疑论者并不完全相信增强学习是否是未来此类机器人的方法。Berenson在谈到该主题时暗示了一种更传统的方法:“到今天结束时,将会有一些学习过程-可能是强化学习。但是我认为那些过程实际上应该晚得多。”
本文素材来自互联网