研究随笔 · Neural Computers

作者:Mingchen Zhuge 发布于 更新于

Neural Computer:一种新的机器形态,正在出现

TL;DR: 它在押注机器本身会学会运行。

Neural Computer teaser diagram

若你也曾想过:“AI 最终会成为一种计算机”,那本文就是写给你的。

过去几十年,计算机逐渐成为人类完成任务的重要媒介。最近几年,AI 也开始进入这个位置:它不再只回答问题,还开始调用工具、操作界面、参与真实工作流。问题随之变了:我们期待 AI 使用计算机,还是成为一种计算机?

Neural Computer(神经计算机,NC)想讨论的,正是这个问题。它关心的是,模型能不能接手一部分原本属于机器运行本身的职责。

先澄清一下:这里说的 NC,不完全是 Alex Graves 那条 NTM / DNC 路线[1][2],也不是在谈某种新硬件。本文更想讨论的,是一台 learning machine 会不会从“使用计算机”走向“成为计算机”。

它存在的价值不是更强的 agent,不是计算机环境的 world model,也不是传统计算机上外挂的一层智能。它关心的是,让原本常常外包给程序栈、工具链和控制层的那部分系统职责,逐渐进入模型实际依赖的 Runtime。这个念头我认为在很多人脑海里闪过,我暂且称之为“前共识”。


1. 为什么是现在:“一种新的机器形态”正在出现

今天同时发生着三件事。

第一,agent 变得越来越会做事。 从 2023年的 MetaGPT (“古早” Coding Agents之一)[3] 只能勉强写出几百行代码,到2025年 Cursor、Codex 和 Claude Code 已经成为程序员生产力标配工具,再到今天 OpenClaw[4] 真正走入大众视野,大家关心的已经不是 agent 偶尔把一件事做成,而是它能不能进入真实生产和日常生活,稳定替你处理各类事务。

对 agent 来说,当前共识的 bottleneck 是:(1)长时程任务怎样保持稳定,(2)能力怎样沉淀,(3)流程怎样持续复用。眼下的解决路径,仍主要是在 agent 的 scaffold(或 harness)一侧做加法:用更强的记忆、更长的工作流和更稳的行动闭环,尽可能把事情做成。再往前推,更激进的一条路径是递归式自我改进:模型训练下一代模型,agent 持续改写自身[5]

Agent 正在完成从原型实验,到专业生产力工具,再到大众日常基础设施的转变。[3][4]

第二,world model 变得越来越擅长建模动态环境。 它本来就模拟环境演化;现在更值得注意的是,这种能力已经进入一些真实闭环。尤其在现实里难以低成本、反复采集的 corner case 上,rollout 正被直接用进预测、规划、控制和训练。沿着这条线看,从 Jürgen Schmidhuber 在 1990 年提出的 Making the World Differentiable[6],到 2018 年的《World Models》[7],再到现在 Waymo 把 world model 用进自动驾驶仿真与训练[8][9],这条路线已经在变成系统能力。

world model 擅长的,是先把未来铺开。它补的是系统的可推演性:采取某个动作,环境会往哪里走;即使暂时不直接行动,系统也能先生成若干未来,提前试验并暴露风险。今天这条路线已经分出几种明显方向:在自动驾驶和 physical AI 里,它主要扮演仿真与合成数据引擎的角色,用来补足真实世界里昂贵、危险或稀缺的数据,例如 Waymo World Model 和 NVIDIA Cosmos[8][10];在 spatial intelligence 里,它追求可生成、可进入、可持续交互的 3D 世界,例如 World Labs 的 Marble[11];在更偏实时互动世界的方向上,生成模型已经从静态内容生成走向可控、可交互、可探索的环境生成,代表性例子包括 GameNGen 对 DOOM 的实时神经模拟[12],以及 Google DeepMind 的 Genie 2 / Genie 3[13][14]。这些方向虽然已经分化,底下碰的还是同一类问题:怎样把环境随时间、动作和约束而演化的规律,学进系统内部。

从 1990 到 2018 再到现在:world model 从早期可微世界建模设想,走向 Waymo World Model 代表的自动驾驶仿真与训练[6][7][8][9]

第三,传统计算机在 AI 时代的结构性摩擦越来越明显。 今天大量任务都是开放式的、长时程的、持续交互的,而这恰恰是传统软件栈开始显得笨重的地方。传统软件栈固然有稳定优势,但在许多以自然语言、示范、界面操作和弱约束为主的场景中,组织和驱动这些任务的成本已经越来越高。

传统计算机本身也在为 AI 重写底座。芯片、编译器、内存系统、软件栈都在变得更 model-friendly。但这些变化多数仍然发生在既有计算范式内部:它们让旧机器更适合 AI,却没有改写“机器是什么”。在这些变化里,像 Taalas 这样的路线把事情又往前推了一步,开始把特定模型做成一种部署单元:模型不再只是跑在机器上的负载,而是在逼近“按模型组织硬件”这条线[15]。但至少今天,这还只是部署层的变化,还谈不上通用机器形态。

把这三件事放在一起,问题就更具体了:如果 agent 在变得更会做事,world model 在变得更会推演,而传统计算机也在为 AI 重写底座,那么会不会出现一种新的 Runtime,把执行、rollout 和能力沉淀统一进同一台 learning machine 里?

从关系结构上看,这对应的是人和机器之间主关系的一次迁移:在传统计算里,人主要和 computer 交互;到了 agent 时代,人更多是和 agent 交互,再由 agent 去调用 computer 把事情做成。world model 在这里更接近一个并行的预测层:它既可以服务于 human,也可以服务于 agent,但本身不负责把事情做成。再往前推,NC 要改的是机器本身:它试图把今天分散在 computer、agent 和 world model 之间的职责,收拢到同一台 learning machine 内部。那时,人面对的就不再只是“agent 代替自己调用 computer”,而是直接使用这样一台神经计算机。

How the human-machine relation changes
人机关系如何变化:过去更像是 Human → Computer;到了 agent 时代,关系更像 Human → Agent → Computer,而 World Model 更多作为并行的预测层出现;如果 NC 成立,人将更直接面对一台 Neural Computer。

这也说明,交互本身会带有“编程”的意味。今天,自然语言指令、键鼠轨迹、屏幕变化和任务反馈,大多只是过程日志;在 NC 的设定里,它们会变成塑造未来行为的材料。今天我们主要通过代码安装能力;以后,示范、交互轨迹和约束本身,也可能成为能力进入 Runtime 的入口。


2. 什么是 Neural Computer,什么才算它真正成立?

先看一张表:它把传统计算机、Agent、World Model 和 Neural Computer 放到同一把“尺子”上比较。看完这张表,区别和联系就很清楚了:它们各自围绕什么组织,source of truth 落在哪里,又分别承担什么职责。

形态 围绕什么组织 source of truth 落在哪里 主要职责
传统计算机 显式程序 显式程序与显式状态 稳定执行显式程序
Agent 任务 外部环境、工具链与工作流 在既有环境中完成任务
World Model 环境 状态演化模型 预测与推演环境变化
Neural Computer Runtime Runtime 里的能力与状态 让机器持续运行、沉淀能力并治理更新

这张表已经很直观了,我就不再重复。接下来不如直接设想一下:如果 NC 已经存在,人会怎么使用它?对传统计算机,你安装的是软件;对 agent,你描述的是任务;对 NC,你做的更接近给机器安装能力,并期待这些能力以后继续留在机器里。

也正因为如此,这里说的 Runtime,不是某个软件组件,而是系统靠什么持续成为同一台机器的那一层:什么会留下来,什么推动状态继续往前走,什么输入真正改变机器,什么变化已经等于把机器重写了一次。对 NC 来说,关键不是再叠一层外部工具,而是能力和状态能不能真正住进同一个 learned runtime。

如果它成立,机器会长得像什么?

第一,它未必会继续沿着今天这条 foundation model 路线长下去。 今天更自然的想法,是把模型继续往 1B - 10T 级的 dense / MoE foundation model 推大、推强;很多工作也确实沿着这条路在前进。但在我的想法里,NC 真正成熟以后,底座更可能往另一边走:10T - 1000T 级,更稀疏、更可寻址、带一点 circuit 气质。未来的 CNC 也许不是一团越来越大的连续表征,而会更像一套可路由、可组合、局部更容易检查的机器底座。它未必要模仿动物感知或人脑,反而可能更接近一种带有 NAND 气质的神经网络:离散、稀疏、局部可验证。至少目前,这条路还没被系统展开;但 OpenAI 最近在 weight-sparse transformers 上做的一些工作,至少说明了一件事:把神经网络做得更稀疏、更局部、更可路由,未必只是为了好解释,它本身就可能是一条机器式架构路线[16]

第二,它也未必总靠整体改参数来升级自己。 NC 指向的则是另一种进化方式:靠 Runtime 的自编程与持续交互,让机器沿内部能力结构持续自进化。用户输入不再只是触发一次性行为,而会逐渐安装、调用、组合并保留可复用的 neural routines,甚至形成以后还能继续调用的内部 executor(执行单元)。至少在功能分工上,它更接近传统计算机里的“内存”,而不是处理器:升级未必意味着重写整台机器的本体,也可能只是把这些新结构稳定写进一层可寻址、可调用、可保留的内部状态。顺着这条路往前走,升级也不再只是“换一个更大的 model”,而更像是在机器内部持续安装新部件。若干年前的 NPI 和 HyperNetworks,也能看作相似但还不完整的早期思路:前者试图把复杂程序拆成可调用、可组合的子程序[17];后者则提示,机器甚至可能继续生成下游 neural modules,去扩展自己的能力边界[18]。当然,我认为野心可以更大一点,一个足够强的 Neural Computer,完全可能直接生成新的 (sub-)NNs,再把它们以可插拔的方式挂进自身内部,像今天安装或卸载软件一样自然,只是这一次省掉了手写代码和编译这一层中介。

第三,它还可能把 world model 式的 rollout 逐渐收进 Runtime 里。 到那时,rollout 会慢慢变成机器的日常机制,也会变成这种自编程和自进化的一部分。人类可以给出输入、期待的输出(GT),也可以只提前写好评估指标;甚至在某一轮里什么都不再给,Runtime 也可以在内部持续 self-play、自测、筛选和压缩候选做法,再把有效改进沉淀成下一轮能力更新。理想状态下,人去睡觉时,机器还在内部完成评估、试错和迭代。真正留下来的,不只是更多上下文,而是内部能力结构本身发生了变化。当然,这一切的前提不是放任系统偷偷变化,而是 update 路径本身可被治理。

这样看,NC 作为一种机器形态的轮廓就出来了。它要紧的是能力有没有真的住进 Runtime,并在那里被安装、复用、执行和治理。CNC 说的,就是这件事做成之后的样子(完备态)。按原论文的定义,一个 NC 实例只有在同时满足四个条件时,才可以算作 CNC:它必须是 Turing completeuniversally programmable、除非被显式重编程否则保持 behavior-consistent,并体现 NC 相对传统计算机的架构与编程语义。下面这张表,就是对原论文这四条要求的一个更直白的总结。

CNC 条件 更直白地说 工程上大概要看到什么
Turing complete 不是只能完成几类固定任务,而是在原则上具备通用计算的表达能力。 但“可表达”不等于“可执行”:真正要看的是,随着有效 memory 和 context 增长,同一个 NC 能否稳定承接更长、更复杂的算法过程,而不是任务一拉长就换一种失效方式。
Universally programmable 输入给它的,不该只触发一次行为,而应能真正安装成以后还能调用的 routine 或内部 executor。 能力可以被安装、调用、组合、保留,并在进入 Runtime 后跨任务稳定复用。
Behavior-consistent 日常使用不应偷偷改变机器;行为变化只能来自显式更新。 同版本行为可复现,执行与更新轨迹都可追踪,出了问题能 replay / rollback,长时程 drift 可以被测量和治理。
Machine-native semantics 它不只是用神经网络去模仿旧计算机,而是开始形成自己的机器语义和编程方式。 神经底座能靠组合、路由、连续状态和内部执行结构带来传统栈不擅长的能力;同时,instructions、demonstrations、traces 和 constraints 本身开始成为编程入口,而不再只有手写代码。

3. 论文实现的原型:它证明了什么,还缺什么

我期待的 Neural Computer 周期,大概还要三年。所以,和我真正设想的 Neural Computer 相比,我们论文里的工作还只是很早期的一步。放在今天,我最顺手的统一载体,还是这类面向视频生成和 world model 的神经网络;要先把像素、动作和时间 rollout 放进同一个端到端原型里,它们也是最快的一条路。我们现在借它们验证的,只是 NC 的一部分关键能力。它们更像过渡性的实现参考,而不是 NC 的终局结构;如果真要走到 CNC,最后仍然需要一次更彻底的、自底向上的重建。

GUIWorld 直接把问题从 CLI 推到了 GUI。走到这里,问题已经不再主要是文本和命令,而是真实的键盘鼠标 action:鼠标要落点,悬停要出反馈,点击之后按钮、下拉框、模态窗和输入框都要真的变状态,键盘输入也要一帧一帧把界面往前带。

对应的数据已经是一套相当完整的交互 rig:我们先在 Ubuntu 22.04 的 XFCE4 桌面里固定了 1024×768、15 FPS 的环境,再把整个桌面运行、录制和动作回放流程都搭了起来,这样每一步点击、悬停、输入和界面变化都能被稳定记录下来。数据分成三块:约 1000 小时的 Random Slow、约 400 小时的 Random Fast,以及约 110 小时由 Claude CUA 驱动的真实交互 goal-directed trajectories。前两者试探的是,鼠标加速度、停顿、悬停、窗口切换这些开放世界噪声会怎样影响模型;后者则给出更清晰的 action-response 对,看看模型是否学会:做了这个动作之后,界面能不能相应触发合适的改变。

模型这边没有只试一种 action 注入方式,而是并排做了四个版本。它们的核心区别不在于“有没有喂 action”,而在于 action 到底在多深的层里进入主干、参与状态演化。论文里的 Figure 7 正好把这四种方式画得很清楚:

Figure 7. Four modes for injecting GUI actions into the diffusion transformer
Figure 7 四种把 GUI action 注入 diffusion transformer 的方式。这里对应的就是上面说的模型一到模型四。
模型 原文名 注入方式 对应路线
模型一 External 输入侧 latent 调制 浅层 action-conditioned baseline
模型二 Contextual action token 并入主序列 WHAM[33]
模型三 Residual 旁路 residual branch 注入 ControlNet[34]
模型四 Internal block 内 action cross-attention Matrix-Game 2.0[32]

我们最后的实验结果来看,这里先省略细节:四个模型设计里,模型四的综合结果最好。这组结果表明,对于 GUI 这种细粒度、强时序、强局部交互的环境,把 action 直接打进 block 内部,最容易让模型把“动作之后界面怎样继续走”学进主干里。与此同时,110 小时的 supervised data 明显好于约 1400 小时 random data;显式光标视觉监督也比单纯坐标监督强得多。合在一起看,GUIWorld 最直白的结论是:GUI 这条线最缺的是更硬的动作语义、更明确的状态转移,以及把光标当成视觉对象来监督。

虽然一开始很少有人看好视频模型能处理这种高度离散、文字密集、动作敏感的计算机场景,但只要任务设计和数据组织得当,它在界面渲染、页面切换、短时状态延续、局部交互、执行回显,甚至一些非常初步的工作记忆上,都已经能给出很多有意思的结果。换句话说,video models 也许还远不是终局,但作为一个早期原型容器,已经足够把不少本来抽象的 Neural Computer 问题先推到台面上。

3.4 从 Prototype NC 到 CNC,还差什么

把第 2 节那张 CNC 条件表重新拿回来,当前原型的结论其实已经很清楚:Turing complete 只触到边缘,universally programmable 还只是入口出现,behavior-consistent 只在受控环境里局部成立,machine-native semantics 则方向比结论更清楚。NC 要解决的不是把 agent、world model 和传统 computer 简单叠加,而是把今天分散在这些对象里的部分职责,逐步收回同一个 learned runtime。当前原型真正重要的地方,不是它已经逼近终局,而是它把决定 CNC 能不能成立的几道硬门槛提前暴露出来。


4. 如果 Neural Computer 成立,软件、硬件和“程序”都会改变

如果把关系说得更清楚一点,Neural Computer 首先是对下一代 computer 的一种判断。但我有预感,它未来最强的竞争压力,会来自具备强记忆、强工具调用和持续在线能力的 personalized super agent。下面这张表把这三者并排放在一起看。

如果只想先一眼看懂,先看三行:“你实际得到的东西”“经验怎么沉淀”“安装的是什么”。

传统计算机Conventional Computer 未来个性化超级代理(Future) Personalized Super Agent 完备神经计算机(Completely) Neural Computers
基本定位
你实际得到的东西 一台精确执行你写好程序的机器 一个长期在线、记忆极强、善于调用工具替你办事的代理人 一台会被你的经验持续塑形、能力逐渐住进内部的机器
围绕什么组织 显式程序 任务流
持续运行,但能力仍由外部栈提供
runtime
持续运行,能力本身住在机器内部
经验怎么沉淀 你手动翻译成代码、配置和规则 写进 memory、vector store、workflow、skill.md、MCPs 和 prompts;下次再被检索、注入和编排 直接进入 runtime;开始参与后续运行,而不再只是被检索的对象
安装与进化
安装的是什么 软件、库、脚本和服务 tools、workflow、memory 条目、skill 描述 能力本身,以及可被安装、调用和组合的 sub-NNs
进化方式 靠抽象、接口和程序复用;机器本身几乎不会自进化 靠 foundation model 的泛化与持续交互;系统沿外部栈逐步自进化 靠 runtime 的自编程与持续交互;机器沿内部能力结构持续自进化
底座形态 不适用 更像今天这条路:1B - 10T 级的 dense / MoE foundation model 更像下一代底座:10T - 1000T 级、更稀疏、更可寻址、带一点 circuit 气质的机器
产业位置
在 AI stack 里的位置 主要对应 chips / infrastructure 层 主要跨 models + applications 两层 最直接改写 models 与 applications 的边界,并进一步倒逼部分 infrastructure 围绕 runtime 重组
当前成熟度 完全成熟
70+ 年工程积累,仍然是绝大多数系统的底座
已可用,并会继续快速变强
Claude、Cursor、OpenClaw 一类系统已经给出早期形态
方向可能成立,形式原型已出现,但仍谈不上可用原型
Completely Neural Computers 的四条条件未满足
读法提示:三者并不互斥。传统计算机仍然是底座,personalized super agent 很可能更早成熟,Neural Computer 试图把今天分散在外部栈里的部分职责逐步收回同一个 learned runtime。真正的分叉在于:能力是长期住在外部、执行时反复组装,还是一点点进入 runtime,变成机器后面继续运行的方式。

如果 CNC 真的成立,最先改变的会是交付对象和系统组织方式。今天被装进去的还是软件、工具、workflow 和 memory 条目;到了 NC 这条路上,慢慢被装进去的,会更像能力本身。代码当然还会在,但它不再是唯一入口;说明、示范、操作轨迹和约束,也会开始直接承担“装能力”这件事。“程序”这个词也会跟着变味:它不再只是一段代码,而更像一项能被安装、组合、版本化和持续更新的能力对象。

再往后,变化会一路传到系统栈和机器边界本身。软件怎么搭、硬件怎么配、更新怎么治理、问题怎么追踪,都会越来越围绕同一台持续运行的机器重新组织。手机、浏览器、IDE、终端这些入口还会在,但会越来越像接入同一台机器的不同窗口。到最后,被改写的不只是某个工具栈,而是“计算机”这个词本身。

声明与致谢:本博客内容与观点代表大部分 Neural Computer 论文的初衷,以及 Mingchen Zhuge 的个人观点。感谢 Wenyi Wang、Haozhe Liu 与 Dylan R. Ashley 提供的审阅意见。文中部分图示与素材引自原始论文及相关公开材料。

引用

如果你想引用这篇内容,博客版本可以直接使用;如果之后对应的 arXiv 版本公开,也可以用下面这个模板补上正式条目。

arXiv BibTeX Template

@article{zhuge2026neuralcomputer,
  author  = {{Author list}},
  title   = {{Paper title}},
  journal = {arXiv preprint arXiv:XXXX.XXXXX},
  year    = {2026},
  url     = {https://arxiv.org/abs/XXXX.XXXXX}
}

Blog BibTeX

@online{zhuge2026neuralcomputerblog,
  author  = {Mingchen Zhuge},
  title   = {Neural Computer:一种新的机器形态,正在出现},
  year    = {2026},
  month   = feb,
  day     = {7},
  url     = {https://metauto.ai/neuralcomputer/},
  note    = {Research essay},
  urldate = {2026-04-06}
}

参考文献