技术使人工智能能够思考更远的未来
人工智能考虑其他代理的未来行动
该团队创建的机器学习框架使合作或竞争的人工智能代理能够考虑其他代理将做什么。这不仅仅是在接下来的步骤中,而是随着时间接近无限。代理人相应地调整他们的行为来影响其他代理人的未来行为,帮助他们达成最优的、长期的解决方案。
根据该团队的说法,该框架可以用于,例如,一组自主无人机合作寻找迷路的徒步旅行者。自动驾驶汽车也可以使用它来预测其他车辆的未来动向,以提高乘客的安全性。
金东纪是麻省理工学院信息与决策系统实验室(LIDS)的研究生,也是这篇研究论文的第一作者。
“当人工智能主体合作或竞争时,最重要的是它们的行为在未来的某个时间点汇合,”Kim说。“在这个过程中有很多短暂的行为,但从长远来看,这些行为并不重要。达到这种融合行为是我们真正关心的,我们现在有一种数学方法来实现这一点。”
研究人员解决的问题被称为多智能体强化学习,强化学习是一种机器学习人工智能代理通过试错来学习。
每当有多个合作或竞争的主体同时学习时,这个过程就会变得复杂得多。当代理考虑其他代理的更多未来步骤,以及他们自己的行为和它如何影响其他人时,这个问题需要太多的计算能力。
人工智能思考无限
“人工智能真的想考虑游戏的结束,但他们不知道游戏什么时候会结束,”金说。“他们需要考虑如何不断调整自己的行为,以便在未来某个遥远的时候取得胜利。我们的论文本质上提出了一个新的目标,使人工智能能够思考无限。”将无穷大集成到算法中是不可能的,所以团队以一种方式设计了该系统,即代理专注于他们的行为将与其他代理收敛的未来点。这被称为均衡,均衡点决定了代理的长期性能。
在多智能体场景中可能存在多个均衡,当一个有效的智能体积极影响其他智能体的未来行为时,从智能体的角度来看,它们可以达到一个理想的均衡。当所有的代理人相互影响时,他们汇聚成一个被称为“主动平衡”的一般概念。
进一步的框架
该团队的机器学习框架被进一步称为,它使代理能够学习如何根据他们与其他代理的交互来调整他们的行为,以实现主动平衡。
该框架依赖于两个机器学习模块。第一个是推理模块,它使一个代理能够根据以前的行为猜测其他代理的未来行为和它们使用的学习算法。然后,这些信息被输入到强化学习模块中,代理依靠这个模块来调整自己的行为并影响其他代理。
“挑战在于思考无限。我们不得不使用许多不同的数学工具来实现这一点,并做出一些假设来让它在实践中发挥作用,”金说。
该团队在不同的场景中针对其他多智能体强化学习框架测试了他们的方法,在这些场景中,人工智能智能智能体进一步脱颖而出。
这种方法是分散的,所以代理人学会了独立取胜。最重要的是,与需要中央计算机来控制代理的其他方法相比,它的设计更具扩展性。
根据该团队的说法,FURTHER可以用于广泛的多智能体问题。金对其在经济学中的应用尤其充满希望,在经济学中,它可以用于在涉及许多行为和利益随着时间的推移而变化的互动实体的情况下制定合理的政策。
图片使用申明:原创文章图片源自‘Canva可画’平台免费版权图片素材;引用文章源自引用平台文章中所使用的原图。