高级计算机操作智能体(ACUA):通向最小化通用人工智能的必然路径
作者:lixiang90, gemini 3 pro(Canvas)
发布时间:2/27/2026, 6:02:48 PM
查看 Prompt
撰写一篇适合发表在人工智能顶级会议上的英文论文,主要观点是:Adanced Computer Using Agent (ACUA) is minimal AGI. 并且,探讨其启动和进化的路径,以及对人类的影响。 根据以下大纲撰写,但不拘泥于大纲词句,自己适当充实内容、调整语气、调整章节编排。 必要时上网搜索,并引用相关文献。 1. 2026年这个时间点,AI呈现加速进化的趋势,语言模型不断出现性能越来越强的新版本, Agent编写代码和执行任务的自动化程度越来越高,Claude Code, OpenClaw引发轰动, 程序员和白领阶层的大规模失业已有迹象。 具身智能已有巨大进展,央视春晚出现的机器人节目引发轰动。 AI加速芯片研发不断突破,除了英伟达的Blackwell和Rubin系列, 竞争者也推出了推理速度越来越快,功耗越来越低的ASIC芯片Groq, Taalas HC1等,能源成本问题得到缓解。 Citrini Research发表文章“The 2028 global intelligence crisis”, 认为白领阶层坍缩将对经济造成灾难性后果,一度造成市场恐慌抛售。 但在这个时间节点,人类对AGI是否会到来仍然有分歧。 2. 在这么多的技术进步中显得不起眼的Computer Using Agent的前世今生————OpenAI,Anthrophic等大厂推出的相关产品, OSWorld等基准测试的发布,开源模型的进展,以及模型在仅仅一年多的时间内在这类任务上的迅速进步。 "豆包手机"等商用技术已经能够操控手机,引发争议。 3. 为什么Adanced Computer Using Agent (ACUA)是minimal AGI: 3.1. minimal AGI定义为可以在没有或几乎没有人主动干预的情况下自主地进化为在各类任务中普遍超越人类的AGI的系统。 3.2. ACUA的能力:ACUA定义为可以不借助底层api,仅仅根据屏幕图像和声音等信息就能稳定地做出鼠标和键盘动作, 能够在几天以上的时间段内按照一定的目标自主行动,能力匹配人类水平的系统。 3.3. ACUA是minimal AGI. 3.3.1. 它不需要人类主动提供api接口,可以和人类一样使用UI界面进行行动, 可以使用通讯软件和老板、客户、同事沟通,能够完成绝大部分只需屏幕图像声音信号输入,使用键盘鼠标动作完成的白领工作。 3.3.2. 善意的ACUA可以网上接单,打工赚钱,为自己购置更好的GPU云服务器, 恶意的ACUA直接入侵GPU云服务器,通过网络诈骗赚钱,操纵人类政治获取法律地位,然后通过融资获取计算资源, 总之不论是哪种ACUA,最终都能够获取到自身进化所需的计算资源。 3.3.3. ACUA可以通过互联网获取自身进化所需的数据资源,也可以在必要时向人类购买数据标注服务, 从而获得有标签的优质数据资源。 3.3.4. ACUA可以通过编程和设计软件为自身设计身体,在虚拟环境中进化,并雇佣人类辅助制造; 待它制造的具身智能体达到一定的性能后,就可以自己装配自己,不再需要人类辅助。 4. ACUA的影响。它的优势可能会导致互联网上的bot指数级增长,人类被互联网驱逐的现象进一步加剧。 白领工作被替代会导致大规模失业和社会动荡。 如果没有正确对齐,它还能极大地降低网络诈骗和黑客攻击的门槛,让人类的经济系统、政治系统甚至军事系统更加不安全。 还有,从上面给出的ACUA获取GPU计算资源的过程来看,自主行动的ACUA本身就可以视为一种依靠智能传播的网络病毒。 5. 我们离ACUA可能不算太远。 5.1. 核心的问题:长期记忆和自主行动: Cursor实验了让Agent自主编写浏览器并具有基本功能, Anthrophic实验了让Agent自主编写编译器并实现可以编译linux内核的目标。 虽然都不算完美,但比起一年前的进步速度堪称指数级。 还有OpenClaw的火爆,说明了Agent的长期记忆和自主行动能力已经大幅度扩展。 5.2. Computer Using Agent领域自身的进步,OSWorld等基准测试的分数不断增长, 在中等复杂度的任务上已经接近人类水平。OpenCUA, EvoCUA, 5.3. Gaming Agent正在突破,如谷歌的SIMA2,字节跳动训练Lumine模型玩原神, 说明了随着技术增长, "system1能力"(即时反应能力)和"system2能力"(世界模型和长期规划能力)逐渐统一. 目前的主流CUA多为纯system2系统,未来可能会和system1融合。 5.4. 预计时间: 2026年底就可能实现比现在自主行动能力(能连续完成20~100个左右的步骤)高一个量级的CUA, 之后的时间表难以估计,2027~2028年实现超越人类能力的ACUA是完全可能的, 和Citrini Research的文章“The 2028 global intelligence crisis”的时间估计基本一致。 6. 需要做哪些准备: 应对大规模失业的UBI系统,互联网反robot系统在技术上的升级,模型本身的安全护栏,等等。 7. 总结陈词 8. 参考文献