人工智能(AI)的飞速发展,其背后的驱动力正逐渐清晰。如同孩子成长的关键在于“营养”,AI的茁壮成长也离不开数据、模型和算力这三大要素。其中,2020年OpenAI发表的《神经语言模型的规模法则》,为大语言模型的出现奠定了理论基础,并将“规模法则”推上了人工智能的基石地位。如今,这一法则正以前所未有的力量,引领着机器人领域开启一个全新的世界。
清华大学IIIS团队的突破:“零样本泛化”下的机器人新篇章
近日,清华大学交叉信息研究院(IIIS)的研究团队在预印本网站arXiv发布了题为《机器人操作模仿学习中的数据规模法则》的论文,带来了颠覆性的发现。研究表明,在遵循数据规模法则的指导下,机器人已能实现真正的**“零样本泛化”**。这意味着,机器人无需经过任何微调,便能成功应对全新的场景和物体,成功率高达90%。泛化能力,即一个模型或算法在处理未曾见过的新数据时的表现,是衡量其智能水平的关键指标。
该团队的研究成果预示着,只要获得了足够的数据,机器人就能够像ChatGPT理解语言一样,自然而然地理解和适应物理世界。这一突破性进展甚至引起了Google DeepMind的机器人专家Ted Xiao的关注,他称其为机器人大模型时代具有里程碑意义的发现。
NBD专访胡英东:揭秘机器人数据规模法则与“ChatGPT时刻”
针对这项最新研究,《每日经济新闻》(NBD)记者于11月4日晚间,独家专访了该论文的作者之一、清华大学IIIS四年级博士生胡英东。胡英东博士专注于嵌入式AI领域,这是机器学习、机器人和计算机视觉三大学科交叉的前沿阵地。他的研究致力于解决通用机器人系统在不同、非结构化的现实世界环境中,如何有效适应和概括学习行为的基本挑战。
机器人将更善于适应环境
在清华大学IIIS研究团队的最新研究中,一款便携式手持夹爪UMI(Portable Hand Gripper UMI)在8种从未见过的环境中,展现出了令人惊叹的适应能力。无论是火锅店倒水、公园叠毛巾,还是电梯内拔插头,它都游刃有余。
ChatGPT的成功,验证了规模法则的“智能涌现”能力——规模越大,效果越优。为了提升模型效果,需要不断扩大参数规模、训练数据量和计算资源的规模。然而,机器人领域尚未建立起一套全面的规模法则,因此其发展速度相对深度学习领域略显缓慢。
探究数据规模法则:泛化能力的“幂律关系”
为了深入探究数据规模法则,清华大学IIIS研究团队设计了物体泛化、环境泛化及环境-物体组合泛化三大维度。通过系统性地调整训练数据的规模,他们旨在全面评估适当的数据规模能否催生出能够在任何环境下对几乎任何物体进行操作的机器人策略。
研究团队利用真实环境下收集的超过4万条人类演示数据,并进行了严格评估协议下的超15000次实机测试。他们发现,策略的泛化性能与机器人所接触的环境和物体的数量之间呈现显著的幂律关系。这意味着,其中一个量的相对变化,会引起另一个量相应幂次比例的变化,且这种关系与初始值无关。
研究还发现,例如,当环境多样性足够丰富时,在单一环境中过度采集不同操作物体的数据,其效用将变得微乎其微。单个物体的演示数据很容易达到饱和,总演示数据达到800次时,性能便趋于稳定。团队认为,每个物体只需约50次演示,便能基本达到期望的泛化水平。
最终的任务测试结果令人振奋:在8种全新的场景中,机器人的成功率高达90%。这意味着机器人实现了真正的零样本泛化,可以无需任何微调,便能轻松应对全新的场景和物体。
胡英东解读:海量数据是机器人理解物理世界的关键
胡英东博士的解读进一步阐明了这项研究的深远意义:“也就是说,团队的发现表明,只要有足够的数据,机器人就能像ChatGPT理解语言一样,自然地理解和适应物理世界!而且,这也显著简化了数据收集工作。过去可能需要几个月才能完成的任务,现在只需要几天甚至一个下午就能实现。”
NBD:是什么促使团队探索具身智能领域的数据规模法则?是否受到了大语言模型规模法则的启发?
胡英东: “是的,我们对数据规模法则的探索确实部分受到了大语言模型的启发。大模型中规模法则已经成为当今最基本的原则之一,它包括三个维度:数据、模型和算力。在探索模型和计算规模法则之前,理解数据规模法则是至关重要的。”
NBD:能否用通俗的语言解释一下数据规模法则?
胡英东: “我们发现,数据规模法则展示了机器人策略在新环境中的性能与训练中的环境和物体数量之间的幂律关系。简单地说,训练中包含的环境和物体数量越多,泛化性能越好。”
NBD:论文中提到,提高数据质量可能比盲目增加数据量更重要。您认为如何才能有效地提高数据质量?是否有具体的方法或策略?
胡英东: “数据质量有很多方面,但我们主要关注数据的多样性。我们发现,在资源有限的情况下,在更广泛的环境和物体中收集人类演示,比在特定环境中使用特定物体收集更多演示,带来的效果更好。”










