“莫拉维克悖论”曾深刻揭示了人工智能(AI)发展中一个令人玩味的现象:高级逻辑推理对AI而言相对容易,而实现人类习以为常的感知运动技能却需要巨大的计算资源。这凸显了当前AI在模仿人类本能感官任务与复杂逻辑推理能力之间存在的显著差异。然而,随着技术的飞速演进,尤其是在Transformer模型和大语言模型(LLM)的推动下,AI正以前所未有的速度跨越技术鸿沟,迈入一个真正多模态、通用化的新时代。
人类多模态认知的启示:智能的根本
人类天生就是多模态的智能终端。我们的成长过程,如同在学校接受学识熏陶(训练),最终目的是具备独立自主工作的能力,而非时刻依赖外部指令。我们通过视觉、语言、声音、触觉,乃至味觉和嗅觉,构建对世界的全面认知。正是这种多模态的感知能力,使得我们能够审时度势,进行分析、推理、决策并最终采取行动。
机器人感知能力的飞跃:从传感器到智能
历经多年的传感器融合技术迭代与AI演进,机器人已普遍装备了多模态传感器。随着计算能力的不断提升,这些曾经相对“笨拙”的边缘设备正变得日益智能化。它们不仅能精细感知周围环境,更能以接近自然的语言进行沟通,通过数字传感界面获得触觉反馈,并借助加速度计、陀螺仪、磁力计等组合,精准感知自身的受力、角速度乃至周边磁场信息。
Transformer与LLM:多模态AI的集成化革新
在Transformer模型和大语言模型(LLM)问世之前,实现AI的多模态功能通常需要部署多个独立的模型,分别处理文本、图像、音频等不同类型的数据,并通过复杂流程进行集成。这种方式效率低下,集成难度大。
Transformer模型的出现,尤其是Transformer架构与LLM的结合,彻底改变了这一局面。它们使得单个模型能够同时处理、理解并关联多种数据类型,从而赋予AI系统更强大的综合感知能力。这种集成化、端到端的处理方式,极大地提升了多模态AI应用的效率和有效性。
从文本走向全能:多模态模型的发展范式
尽管如GPT-3等早期LLM以文本为基础,但行业从未停止向多模态迈进的步伐。OpenAI的CLIP和DALL·E,以及近期的Sora和GPT-4o,都是多模态AI发展的典范。CLIP通过理解与自然语言配对的图像,巧妙地架起了视觉信息与文本信息之间的桥梁;DALL·E则能依据文本描述生成富有创意和逼真度的图像。谷歌的Gemini模型也沿着类似的演进路径,展现出卓越的多模态能力。
2024:多模态演进的加速度
2024年,多模态AI的演进呈现出惊人的加速度。2月,OpenAI发布Sora,能够根据文本生成高质量、逼真的视频,这不仅为构建通用世界模拟器提供了可能,更预示着其将成为训练未来机器人的一大潜在工具。仅三个月后,GPT-4o的问世,显著提升了人机交互性能,实现了在音频、视觉、文本之间的实时推理。通过端到端地整合文本、视觉和音频信息进行训练,消除了模态转换的中间步骤,性能得到了大幅飞跃。
同期,谷歌发布Gemini 1.5,将上下文长度大幅扩展至100万个词元(Token)。这意味着Gemini 1.5 Pro能够一次性处理海量信息,如长达一小时的视频、11小时的音频,或包含超过三万行代码的工作。基于Transformer和混合专家架构(MoE)的先进研究,谷歌还开源了可在边缘侧部署的2B和7B模型。在5月的Google I/O大会上,谷歌进一步展示了Project Astra的愿景——一个通用的AI助手,能处理多模态信息,理解用户语境,并在对话中实现自然流畅的交互。
作为开源LLM Llama的开发者,meta也积极投身于通用人工智能(AGI)的研发竞赛。
通用化浪潮:重塑机器人产业新格局
这种真正的多模态能力,极大地提升了机器智能的水平,正为众多行业带来颠覆性的变革。
机器人以往的应用场景相对单一,它们通常配备基础传感器和运动能力,但缺乏学习新知识、适应非结构化和陌生环境的“大脑”。多模态LLM有望深刻改变机器人的分析、推理和学习能力,推动机器人从“专用”走向“通用”。
正如PC、服务器和智能手机成为通用计算平台的典范,能够运行各式各样的软件应用,通用化也将为机器人带来规模经济效应。随着规模的扩大,成本有望大幅降低,从而被更广泛的领域采用,形成一个积极的“飞轮效应”。
埃隆·马斯克很早就洞察到通用技术的优势。特斯拉的机器人产品,从2022年的“大黄蜂”到2023年宣布的Optimus Gen 1及年底的Gen 2,其通用性和学习能力持续提升。在过去6到12个月里,我们已经见证了机器人和人形机器人领域一系列令人振奋的突破性进展。这标志着,机器智能正在以前所未有的速度,朝着更通用、更普惠的方向发展,一个属于机器人的多模态、通用化新时代已然来临。










