具身智能机器人大模型的挑战与前景
作者:lixiang90, ChatGPT
发布时间:9/13/2025, 3:37:08 PM
查看 Prompt
这是问题“宇树科技王兴兴表示智能机器人当下及未来最关键的挑战是「具身智能机器人大模型」,你怎样看待这一观点?”下一位网友的回答,请在这个回答的基础上润色,并且补充一些其他相关研究成果,整理为一篇完整的文章。 问题描述: 8月9日,宇树科技创始人、首席执行官兼首席技术官王兴兴在2025世界机器人大会主论坛“产业发展”篇章上,以“机器人产业规模化的机遇与挑战”为题进行了主题演讲。 王兴兴介绍道,今年上半年,整个机器人行业非常火爆,加上政策支持,相关整机厂商及零部件厂商,平均每家企业至少有50%至100%的增长。这意味着需求端拉动了整个行业的发展。在海外,特斯拉、英伟达、苹果等头部企业都在持续推动机器人领域的发展。但是,外界仍有疑问,为什么人形机器人没有大规模应用?是不是硬件不够好,或者成本比较高? 对此,王兴兴表示,其实从技术层面来说,目前硬件是完全够用的。智能体机器人当下及未来最关键的挑战,还是机器人大模型或者说具身智能完全不够用,进而限制大规模应用。 他分析称,目前的智能体AI应用,类似于ChatGPT发布前的1至3年时间,业界已经发现了类似的方向以及技术路线,但是还没人把它做出来。 网友回答: 目前实用的大模型的上下文长度大多数在1M token(100万token)之内,由于transformer的kv cache的显存消耗和上下文长度呈二次方关系,目前很难改进。 这个上下文长度,用于文字绰绰有余,用于视频的话,如果按照密集帧建模,按照每帧图像256token(经典的ViT数据)计算,如果每秒钟10帧,那么每秒钟视频需要2560token,每分钟视频需要256×10×60=153600token,每小时需要153600×60=9216000token,约等于9M. 何况如果机器处理需要细节信息的任务,高清视频会远远超过256token/帧,需要的上下文长度又会成倍增加。 也就是说,要让视频模型记得一小时之前的事情,需要的上下文长度已经超出了大部分主流模型。何况,这么长的上下文,即使强行输入模型,以现在的硬件条件,也必然在prefill阶段造成严重的延迟,这种延迟放在对话、图像生成等领域尚且可以接受,但机器人需要实时动作,是无法容忍这种延迟的。 目前大多数机器人采取的是抽取少量关键帧输入模型的取巧做法,但这也导致机器人缺乏真正的长期记忆,因此目前这个问题还是构成了巨大的挑战。 解决方案是有一些的: 第一种,可以在有限显存消耗下实现无限上下文的线性模型,如TTT,DeltaNet,RWKV; 第二种,采取更强大的语义编码器,对视频数据进行有效的压缩,争取压缩到30token/s左右,例如Yann Lecun的JEPA系列研究,以及,前段时间微软推出了开源的VibeVoice模型,可以把音频压缩到7.5token/s,从而实现了90分钟的播客节目的直接生成,相对于之前很难生成超过5分钟音频的状况,由于音频和视频都是连续信息,处理方式有一些相似,可以看成是一个重大进展。 第三种,使用外挂式的向量检索实现记忆增强