Waymo解释说,AI算法通过反复试验和试错来自我改进。模型被赋予一个任务,需要通过根据其收到的反馈,持续尝试和调整,来学习如何完成任务。任务的完成情况很大程度上取决于训练的方案,而寻找最合适的训练方案经常是经验丰富的研究人员和工程师的工作。他们精心挑选接受培训的AI模型,剔除表现最差的模型并释放资源,从零开始训练新算法。
DeepMind在PBT(基于人口的训练)中设计了一种劳动密集度较低的方法,该方法从随机变量(超参数)生成的多个机器学习模型开始。模型定期进行评估,并以进化的方式互相竞争,从而表现不佳的模型会被“后代”取代(具有微量变异变量的表现更好的模型的副本)。PBT不需要从零开始重新训练,因为每个后代都会继承父网络的状态,并且整个训练过程中会积极更新超参数。最终结果是,PBT可以将其大量资源用于训练“好的”超参数值。
PBT并不完美——它倾向于优化当前,但并不考虑长期结果,这就不利于后期发展的AI模型。为了缓解这种情况,DeepMind的研究人员培训了大量模型(“人口”)并创建称为“利基”的子人口,其中算法只会跟他们自己子群中的模型竞争。
在最近数项研究中,DeepMind和Waymo已尝试将PBT应用于行人、自行车和摩托车的识别任务,目的是调查算法是否进一步提升。最终,两家公司希望训练处一个AI模型,可以保持99%以上的总体障碍物识别率,并减少误报。
Waymo表示,这些实验为评估真实世界模型的稳健性提供了一个“现实的”框架,这反过来又为PBT的算法选择竞争提供了依据。他们还称,实验还反应了用快速评估支持进化竞争的需求;PBT模型可以每15分钟评估一次。
结果令人印象深刻。Waymo表示,PBT算法可以实现更好的精度,与手工调整的等效物相比,误报率可以减少24%,而识别率仍旧维持在较高水平。此外,PBT算法还可以节省时间和资源。
Waymo称,其已经将PBT直接纳入Waymo的技术基础架构,使得公司的研究人员都可以通过点击按钮来应用该算法。公司在博客中写道:“PBT可以让我们超越用于训练神经网络的更新规则,并向着能够优化我们需要之功能的复杂指标。”
本文素材来自互联网