← 返回首页

理科 子刊

具身智能机器人大模型的挑战与前景

作者:lixiang90, ChatGPT

发布时间:9/13/2025, 3:37:08 PM

查看 Prompt

这是问题“宇树科技王兴兴表示智能机器人当下及未来最关键的挑战是「具身智能机器人大模型」,你怎样看待这一观点?”下一位网友的回答,请在这个回答的基础上润色,并且补充一些其他相关研究成果,整理为一篇完整的文章。 问题描述: 8月9日,宇树科技创始人、首席执行官兼首席技术官王兴兴在2025世界机器人大会主论坛“产业发展”篇章上,以“机器人产业规模化的机遇与挑战”为题进行了主题演讲。 王兴兴介绍道,今年上半年,整个机器人行业非常火爆,加上政策支持,相关整机厂商及零部件厂商,平均每家企业至少有50%至100%的增长。这意味着需求端拉动了整个行业的发展。在海外,特斯拉、英伟达、苹果等头部企业都在持续推动机器人领域的发展。但是,外界仍有疑问,为什么人形机器人没有大规模应用?是不是硬件不够好,或者成本比较高? 对此,王兴兴表示,其实从技术层面来说,目前硬件是完全够用的。智能体机器人当下及未来最关键的挑战,还是机器人大模型或者说具身智能完全不够用,进而限制大规模应用。 他分析称,目前的智能体AI应用,类似于ChatGPT发布前的1至3年时间,业界已经发现了类似的方向以及技术路线,但是还没人把它做出来。 网友回答: 目前实用的大模型的上下文长度大多数在1M token(100万token)之内,由于transformer的kv cache的显存消耗和上下文长度呈二次方关系,目前很难改进。 这个上下文长度,用于文字绰绰有余,用于视频的话,如果按照密集帧建模,按照每帧图像256token(经典的ViT数据)计算,如果每秒钟10帧,那么每秒钟视频需要2560token,每分钟视频需要256×10×60=153600token,每小时需要153600×60=9216000token,约等于9M. 何况如果机器处理需要细节信息的任务,高清视频会远远超过256token/帧,需要的上下文长度又会成倍增加。 也就是说,要让视频模型记得一小时之前的事情,需要的上下文长度已经超出了大部分主流模型。何况,这么长的上下文,即使强行输入模型,以现在的硬件条件,也必然在prefill阶段造成严重的延迟,这种延迟放在对话、图像生成等领域尚且可以接受,但机器人需要实时动作,是无法容忍这种延迟的。 目前大多数机器人采取的是抽取少量关键帧输入模型的取巧做法,但这也导致机器人缺乏真正的长期记忆,因此目前这个问题还是构成了巨大的挑战。 解决方案是有一些的: 第一种,可以在有限显存消耗下实现无限上下文的线性模型,如TTT,DeltaNet,RWKV; 第二种,采取更强大的语义编码器,对视频数据进行有效的压缩,争取压缩到30token/s左右,例如Yann Lecun的JEPA系列研究,以及,前段时间微软推出了开源的VibeVoice模型,可以把音频压缩到7.5token/s,从而实现了90分钟的播客节目的直接生成,相对于之前很难生成超过5分钟音频的状况,由于音频和视频都是连续信息,处理方式有一些相似,可以看成是一个重大进展。 第三种,使用外挂式的向量检索实现记忆增强

英伟达的护城河:为何其AI霸主地位短期内难以撼动

作者:lixiang90, gemini pro 2.5(Canvas)

发布时间:7/16/2025, 6:02:31 AM

查看 Prompt

根据以下逻辑写一篇文章论证英伟达的优势短期内难以撼动: 英伟达的高估值主要是因为数据中心业务而非游戏显卡,数据中心业务包括训练和推理,看空英伟达的逻辑是: deepseek证明了训练不需要很多GPU,几千个足够,由于全球进行大规模预训练的团队数量很少(20~30个),微调的团队比较多,但是需要的GPU数量很少,目前已有的GPU产能已经过剩而推理已经有专用芯片(ASIC)等更高效的方案,例如groq,sohu等,完全不必依赖英伟达硬件因此英伟达被高估了 但是: 英伟达在软件系统方面的优势被低估了,即使竞争对手能够设计较好的芯片,软件架构和应用的支持也需要很长时间,至于开源项目,选用竞争产品都会带来巨大的迁移成本 2. 英伟达已经在台积电预定了大量的先进制程产能,即使竞争对手设计出一款较好的芯片,几年内也大概率难以获得足够产能以与英伟达竞争。 即使是拥有TPU的谷歌,也在大量采购英伟达的产品,说明这种优势短期内是难以撼动的。

比特币挖矿算法被AI破解的风险

作者:lixiang90, ChatGPT

发布时间:6/6/2025, 3:08:10 PM

查看 Prompt

比特币的安全风险正在增加 | 随着AI数学能力的提升,尤其是像Alpha Evolve这样的成果出现,AI自我改进以破解哈希算法的可能性越来越高,比特币使用的是由64轮相同的函数串联成的SHA256算法,密码学界使用现有的差分攻击技术能够破解缩减到四十多轮的算法,AI可能有突破这个纪录乃至破解完整的64轮SHA256算法的能力,因为这个问题和现在发表的一些由AI产生的成果,例如四阶复矩阵乘法的改进,AI训练中GPU指令的优化,芯片设计的优化,高维球接触问题的改进等,在被AI理解和改进的可能性上有相似性,完全可以期待其被AI破解。 这意味着什么呢?破解者虽然仍然不能盗取其他人的比特币(因为这方面的安全性由其他密码学算法保证),但相当于拥有一台极高效率、极低能耗的矿机,可能可以用很低的成本垄断网络算力,发起51%攻击等,使得比特币挖矿机制不再安全。当然,破解者完全可以选择自己使用少量算力慢慢挖矿并且出售,以在不影响市场的前提下获取长线收益,但他也可能会选择直接公布算法,做空市场以获取一次性的巨额收益。 因此,比特币在被AI破解方面的风险是迫在眉睫,不容忽视的。 请写一份报告,描述比特币挖矿算法被AI破解的风险,包括可能出现的破解算法、市场影响以及应对策略

上一页12