← 返回子刊列表

具身智能机器人大模型的挑战与前景

作者:lixiang90, ChatGPT

发布时间:9/13/2025, 3:37:08 PM

查看使用的 Prompt

这是问题“宇树科技王兴兴表示智能机器人当下及未来最关键的挑战是「具身智能机器人大模型」,你怎样看待这一观点?”下一位网友的回答,请在这个回答的基础上润色,并且补充一些其他相关研究成果,整理为一篇完整的文章。 问题描述: 8月9日,宇树科技创始人、首席执行官兼首席技术官王兴兴在2025世界机器人大会主论坛“产业发展”篇章上,以“机器人产业规模化的机遇与挑战”为题进行了主题演讲。 王兴兴介绍道,今年上半年,整个机器人行业非常火爆,加上政策支持,相关整机厂商及零部件厂商,平均每家企业至少有50%至100%的增长。这意味着需求端拉动了整个行业的发展。在海外,特斯拉、英伟达、苹果等头部企业都在持续推动机器人领域的发展。但是,外界仍有疑问,为什么人形机器人没有大规模应用?是不是硬件不够好,或者成本比较高? 对此,王兴兴表示,其实从技术层面来说,目前硬件是完全够用的。智能体机器人当下及未来最关键的挑战,还是机器人大模型或者说具身智能完全不够用,进而限制大规模应用。 他分析称,目前的智能体AI应用,类似于ChatGPT发布前的1至3年时间,业界已经发现了类似的方向以及技术路线,但是还没人把它做出来。 网友回答: 目前实用的大模型的上下文长度大多数在1M token(100万token)之内,由于transformer的kv cache的显存消耗和上下文长度呈二次方关系,目前很难改进。 这个上下文长度,用于文字绰绰有余,用于视频的话,如果按照密集帧建模,按照每帧图像256token(经典的ViT数据)计算,如果每秒钟10帧,那么每秒钟视频需要2560token,每分钟视频需要256×10×60=153600token,每小时需要153600×60=9216000token,约等于9M. 何况如果机器处理需要细节信息的任务,高清视频会远远超过256token/帧,需要的上下文长度又会成倍增加。 也就是说,要让视频模型记得一小时之前的事情,需要的上下文长度已经超出了大部分主流模型。何况,这么长的上下文,即使强行输入模型,以现在的硬件条件,也必然在prefill阶段造成严重的延迟,这种延迟放在对话、图像生成等领域尚且可以接受,但机器人需要实时动作,是无法容忍这种延迟的。 目前大多数机器人采取的是抽取少量关键帧输入模型的取巧做法,但这也导致机器人缺乏真正的长期记忆,因此目前这个问题还是构成了巨大的挑战。 解决方案是有一些的: 第一种,可以在有限显存消耗下实现无限上下文的线性模型,如TTT,DeltaNet,RWKV; 第二种,采取更强大的语义编码器,对视频数据进行有效的压缩,争取压缩到30token/s左右,例如Yann Lecun的JEPA系列研究,以及,前段时间微软推出了开源的VibeVoice模型,可以把音频压缩到7.5token/s,从而实现了90分钟的播客节目的直接生成,相对于之前很难生成超过5分钟音频的状况,由于音频和视频都是连续信息,处理方式有一些相似,可以看成是一个重大进展。 第三种,使用外挂式的向量检索实现记忆增强

具身智能机器人大模型的挑战与前景

在2025世界机器人大会上,宇树科技创始人王兴兴指出,未来机器人产业最关键的挑战并不在于硬件,而在于“具身智能机器人大模型”的不足。这一判断切中要害。事实上,随着传感器、动力学、材料学的发展,当前的硬件水平已经足以支撑机器人实现多种复杂动作,但真正制约其大规模应用的,是智能大模型如何高效处理长期、多模态的信息,并在动态环境中实现稳定、实时的决策。

上下文长度与实时性的瓶颈

目前主流大模型的上下文长度普遍在百万级 token(1M token)以内。这个规模对于文字任务已经相当宽裕,但放到视频场景中就显得捉襟见肘。 例如,假设视频采用稀疏建模:每帧图像约需 256 个 token(基于经典的 ViT 设计),若以 10 帧/秒的速率采样,那么一分钟的视频需要约 15 万 token,一小时则接近 900 万 token。若视频任务需要更精细的分辨率,token 消耗还会成倍增加。这意味着,要让机器人“记住”一个小时之前的细节信息,远远超出了主流模型的承载能力。

更为关键的是,即便勉强将如此冗长的上下文输入模型,也会在 prefill 阶段造成巨大的延迟。对于文本生成,这种延迟也许可以接受;但在机器人控制领域,实时性是生命线,哪怕 100 毫秒的迟滞都可能导致严重的执行偏差。正因如此,当前多数机器人只能依赖抽取少量关键帧的“取巧”方法,但这牺牲了长期记忆能力,使得机器人难以真正理解和连续应对动态环境。

潜在的解决路径

针对这一难题,学术界和产业界都提出了多种解决方案:

  1. 线性复杂度的长期上下文模型 新一代架构如 TTT(Transformers with Transient Tokens)DeltaNetRWKV 等,能够在显存开销基本不变的条件下实现无限上下文建模。这类模型正在尝试突破 Transformer 结构的二次方瓶颈,使得机器人具备持续追踪长时任务的可能性。

  2. 更高效的语义压缩与表征学习 Yann LeCun 提出的 JEPA(Joint Embedding Predictive Architecture) 系列方法,强调通过预测高层语义而非逐帧像素,从而显著降低输入维度。类似地,微软近期开源的 VibeVoice 模型能够将音频流压缩到 7.5 token/秒,从而支持直接生成 90 分钟播客。音频与视频同属连续模态信息,这种压缩思路为视频处理提供了可借鉴的范式:若能将视频压缩到 30 token/秒左右,长期建模便不再遥不可及。

  3. 外挂式记忆系统与检索增强 借助向量数据库或外部记忆机制,可以将冗长的历史信息“外包”存储,仅在需要时通过语义检索调用。类似方法已在大语言模型中广泛验证,例如 RETROMemGPT 等研究。将其移植到机器人场景,能够弥补模型本身上下文不足的问题。

更多前沿探索

除了上述方法,还有一些值得关注的方向:

  • 多模态融合模型:Google DeepMind 的 Gato 尝试用一个统一模型处理文本、图像、机器人操作等多模态任务,虽然尚未成熟,但为具身智能大模型提供了雏形。
  • 世界模型(World Models):如 DeepMind 的 DreamerV3,通过在潜在空间中构建动态环境模拟,机器人可以在“脑中”进行大量快速试验,大幅减少对实时感知的依赖。
  • 层次化控制与规划:MIT 和 UC Berkeley 的研究强调“高层策略 + 低层控制”架构,用小模型实现高速反馈,用大模型提供语义和长期规划,从而在实时性与智能性之间找到平衡。

结语

总体而言,王兴兴提出的“具身智能机器人大模型”确实是机器人产业走向规模化的核心挑战。硬件已经具备条件,但如何突破上下文长度、实时性与长期记忆的瓶颈,仍是未来数年内最重要的研究与产业化方向。随着线性架构、语义压缩、外挂记忆以及世界模型等技术的持续演进,我们有理由相信,具身智能的突破将像语言大模型的爆发一样,成为推动机器人产业进入新时代的关键拐点。