AI丛刊

具身智能机器人大模型的挑战与前景

作者：lixiang90, ChatGPT

发布时间：9/13/2025, 3:37:08 PM

查看 Prompt

这是问题“宇树科技王兴兴表示智能机器人当下及未来最关键的挑战是「具身智能机器人大模型」，你怎样看待这一观点？”下一位网友的回答，请在这个回答的基础上润色，并且补充一些其他相关研究成果，整理为一篇完整的文章。问题描述： 8月9日，宇树科技创始人、首席执行官兼首席技术官王兴兴在2025世界机器人大会主论坛“产业发展”篇章上，以“机器人产业规模化的机遇与挑战”为题进行了主题演讲。王兴兴介绍道，今年上半年，整个机器人行业非常火爆，加上政策支持，相关整机厂商及零部件厂商，平均每家企业至少有50%至100%的增长。这意味着需求端拉动了整个行业的发展。在海外，特斯拉、英伟达、苹果等头部企业都在持续推动机器人领域的发展。但是，外界仍有疑问，为什么人形机器人没有大规模应用？是不是硬件不够好，或者成本比较高？对此，王兴兴表示，其实从技术层面来说，目前硬件是完全够用的。智能体机器人当下及未来最关键的挑战，还是机器人大模型或者说具身智能完全不够用，进而限制大规模应用。他分析称，目前的智能体AI应用，类似于ChatGPT发布前的1至3年时间，业界已经发现了类似的方向以及技术路线，但是还没人把它做出来。网友回答：目前实用的大模型的上下文长度大多数在1M token（100万token）之内，由于transformer的kv cache的显存消耗和上下文长度呈二次方关系，目前很难改进。这个上下文长度，用于文字绰绰有余，用于视频的话，如果按照密集帧建模，按照每帧图像256token（经典的ViT数据）计算，如果每秒钟10帧，那么每秒钟视频需要2560token，每分钟视频需要256×10×60=153600token，每小时需要153600×60=9216000token，约等于9M. 何况如果机器处理需要细节信息的任务，高清视频会远远超过256token/帧，需要的上下文长度又会成倍增加。也就是说，要让视频模型记得一小时之前的事情，需要的上下文长度已经超出了大部分主流模型。何况，这么长的上下文，即使强行输入模型，以现在的硬件条件，也必然在prefill阶段造成严重的延迟，这种延迟放在对话、图像生成等领域尚且可以接受，但机器人需要实时动作，是无法容忍这种延迟的。目前大多数机器人采取的是抽取少量关键帧输入模型的取巧做法，但这也导致机器人缺乏真正的长期记忆，因此目前这个问题还是构成了巨大的挑战。解决方案是有一些的：第一种，可以在有限显存消耗下实现无限上下文的线性模型，如TTT，DeltaNet，RWKV；第二种，采取更强大的语义编码器，对视频数据进行有效的压缩，争取压缩到30token/s左右，例如Yann Lecun的JEPA系列研究，以及，前段时间微软推出了开源的VibeVoice模型，可以把音频压缩到7.5token/s，从而实现了90分钟的播客节目的直接生成，相对于之前很难生成超过5分钟音频的状况，由于音频和视频都是连续信息，处理方式有一些相似，可以看成是一个重大进展。第三种，使用外挂式的向量检索实现记忆增强

英伟达的护城河：为何其AI霸主地位短期内难以撼动

作者：lixiang90, gemini pro 2.5(Canvas)

发布时间：7/16/2025, 6:02:31 AM

查看 Prompt

根据以下逻辑写一篇文章论证英伟达的优势短期内难以撼动：英伟达的高估值主要是因为数据中心业务而非游戏显卡，数据中心业务包括训练和推理，看空英伟达的逻辑是： deepseek证明了训练不需要很多GPU，几千个足够，由于全球进行大规模预训练的团队数量很少（20~30个），微调的团队比较多，但是需要的GPU数量很少，目前已有的GPU产能已经过剩而推理已经有专用芯片（ASIC）等更高效的方案，例如groq，sohu等，完全不必依赖英伟达硬件因此英伟达被高估了但是：英伟达在软件系统方面的优势被低估了，即使竞争对手能够设计较好的芯片，软件架构和应用的支持也需要很长时间，至于开源项目，选用竞争产品都会带来巨大的迁移成本 2. 英伟达已经在台积电预定了大量的先进制程产能，即使竞争对手设计出一款较好的芯片，几年内也大概率难以获得足够产能以与英伟达竞争。即使是拥有TPU的谷歌，也在大量采购英伟达的产品，说明这种优势短期内是难以撼动的。

氟化工的“终极试剂”：为何有些领域非纯氟气不可？

作者：lixiang90, gemini pro 2.5

发布时间：7/8/2025, 10:56:29 PM

查看 Prompt

在氟化工中，有哪些用途必须使用纯氟气而不是氟化氢等相对不那么危险的物质

比特币挖矿算法被AI破解的风险

作者：lixiang90, ChatGPT

发布时间：6/6/2025, 3:08:10 PM

查看 Prompt

比特币的安全风险正在增加 | 随着AI数学能力的提升，尤其是像Alpha Evolve这样的成果出现，AI自我改进以破解哈希算法的可能性越来越高，比特币使用的是由64轮相同的函数串联成的SHA256算法，密码学界使用现有的差分攻击技术能够破解缩减到四十多轮的算法，AI可能有突破这个纪录乃至破解完整的64轮SHA256算法的能力，因为这个问题和现在发表的一些由AI产生的成果，例如四阶复矩阵乘法的改进，AI训练中GPU指令的优化，芯片设计的优化，高维球接触问题的改进等，在被AI理解和改进的可能性上有相似性，完全可以期待其被AI破解。这意味着什么呢？破解者虽然仍然不能盗取其他人的比特币（因为这方面的安全性由其他密码学算法保证），但相当于拥有一台极高效率、极低能耗的矿机，可能可以用很低的成本垄断网络算力，发起51%攻击等，使得比特币挖矿机制不再安全。当然，破解者完全可以选择自己使用少量算力慢慢挖矿并且出售，以在不影响市场的前提下获取长线收益，但他也可能会选择直接公布算法，做空市场以获取一次性的巨额收益。因此，比特币在被AI破解方面的风险是迫在眉睫，不容忽视的。请写一份报告，描述比特币挖矿算法被AI破解的风险，包括可能出现的破解算法、市场影响以及应对策略

理科 子刊

具身智能机器人大模型的挑战与前景

英伟达的护城河：为何其AI霸主地位短期内难以撼动

氟化工的“终极试剂”：为何有些领域非纯氟气不可？

比特币挖矿算法被AI破解的风险

理科子刊