锌财经的作者陈伊婷在一篇文章中介绍了DeepMind推出的新泛用型游戏XLand。这项新技术意味着我们可以创建一个全新且媲美AlphaGo的人工智能,而无需事先了解游戏规则。长期以来,AI强化学习存在着泛化能力差的问题,只能从头开始学习一个个单独的任务。DeepMind先前推出的AlphaZero在围棋、西洋棋和将棋领域表现出色,但要成为不同游戏中的强者,需要在每个游戏中重新训练。然而,XLand的出现填补了这个缺陷。它具有高度泛化的能力,类似于人类学会用筷子夹米饭后,也能用筷子夹住其他食物。DeepMind创建XLand的目的是让通过强化学习训练的AI能够玩遍「全宇宙的游戏」。XLand由任务、世界和玩家构成,任务的复杂度由竞争性、平衡性、可选项和探索难度四个维度评判。AI智能体通过第一人称视角感知游戏环境,并试错地探索游戏规则,从中积累大量数据来训练自己完成游戏目标。通过多代训练,AI在XLand的4000个独立世界中玩了约70万个独立游戏,涉及340万个独立任务,最后一代的每个智能体经历了2000亿次训练步骤。目前,AI智能体已经能够成功参与几乎所有评估任务,除了一些连人类也无法完成的任务。DeepMind展示了无监督式机器学习的巨大潜力,并向世界证明未来训练AI的成本和门槛将会越来越低,直至全球普及。未来,当AI能够在「
元宇宙」中自主学习演化时,赛博朋克的世界是否会成为现实呢?
热点:元宇宙