罗福莉、朱军、刘知远、安波与王仲远对谈：“重构世界”才开始，语言模型与世界模型正并驾齐驱

更新时间：2026-06-13 11:04:02 浏览次数：

　　第八届“北京智源大会”开幕式圆桌环节，在智源研究院院长王仲远的主持下，小米MiMo大模型负责人罗福莉，清华大学教授、生数科技创始人朱军，清华大学教授、面壁智能首席科学家刘知远以及南洋理工大学校长讲席教授安波，围绕“重构世界”这一主题展开对谈。

　　几位长期身处大模型研发一线的学者与产业领军者，从最新模型的能力跃升谈起，延伸至大语言模型与世界模型的路径之争、递归式自我改进的现实进展，以及AI自进化是否已经发生等核心问题。

　　当AI从“执行工具”演变为“创造智能的智能”，数字世界与物理世界的重构将沿着怎样的路径展开？哪一条路会先抵达？以下为对话实录的节选，我们进行了不影响原意的整理：

　　罗福莉：其实，Fable 5目前的训练结果，是一个非常科学地去做Scaling的中间的产物。从发布的整个参数量级来看，我们猜测它应该是目前最强、最大的开源模型的几倍。比如，在预训练数量级上，做了几倍的Scaling；其次，在预训练或者说在强化学习上，应该也有非常大的、至少是数量级的投入。

　　此外，由于我们从Chat时代迈向Agent时代，模型的训练数据已经从自然的互联网文本数据迈向了人和AI共同产生的合成数据，数据的Scaling也到了一个新的量级。

　　在我看来，Fable 5这款大模型，是在预训练参数规模、训练数据与Agent合成数据，以及测试时规模扩展和强化学习相结合这三个维度上，完成了一个非常自然的外延拓展后形成的中间产物。

　　朱军：模型规模与数据进行Scaling时，性能提升效果十分突出。其中也包括我们常说的对物理世界各类物理规律的模拟与仿真，过去两年多以来，该方向的相关进展是看得到的。一开始大家可能会看到各种“幻觉”，但今天其实已经可以做出非常高质量的专业内容，在部分场合可以达到影视级的标准。

　　我觉得这都是在走同一条路，即把模型做得更加精细，数据质量、规模，还有大规模训练，整体上有一个提升。但后面再迈向物理世界的时候，大家也会讨论，这种物理规律是不是真的能够学会？

　　我相信，当基础模型本身有了显著提升之后，无论是较为严谨的逻辑推理、物理规律的建模，还是3D等任务，基本都可以变得更加高效地完成。当然，具体方式会因场景而异：有些场景可能并不需要非常精细、精准的处理，大部分情况下依靠直观的方式就能满足需求。而这恰恰是模型带来的最大好处。

　　我觉得有一个点是非常对的。大家常说用Agent去解决问题时，之前会消耗很多Token，但现在新版本在解决多任务时，Token消耗量变少了，我觉得这是一个非常正确的方向，也应该是大家去追求的目标。因为我们在做很多任务的时候，其实是需要有一个高于人的智能来帮我们调用工具和思考，我想这可能是大模型未来可以进一步释放出来的能力。

　　安波：最近“自演化”这个概念特别火，无论是Prompt还是Agent，都是通过获取更多人的使用数据或者得到更多反馈，从而让模型能力持续增强。我觉得这一点是对的。

　　智能体还在起步阶段，未来还有很长的路要走。现在可能很多智能体还停留在通用阶段，我觉得未来更大的潜力，可能是其真正落到工业界的那些垂直领域，去解决大家特别在乎的那些问题。

　　罗福莉：坦率来讲，在上一代模型中，尤其是去年，我觉得顶尖模型的能力上限可能体现在非常好的“执行”，尤其当指令非常清晰的时候，执行是比较完美的。但到今天，我们发现顶尖模型已经从“执行”外延到去解决一些抽象性的问题。

　　拿一个完整的科研历程举例。从提出假设，到设计实验，到真正动手执行实验，到设计合理的观测指标去验证实验的合理性，最后一步是需要和同行进行密切交流，充分共享研究context，再去打磨整个假设或idea，这是一个很完整的研究流程。

　　我们现在已经能看到，大模型已经从最初的“执行”这一层能力，慢慢外延到能够去设计合理的验证指标，验证自己执行结果的准确性，并能够去规划整个实验流程。可能现在唯一还有差距的地方是“提出假设”或者“提出值得验证的问题”。

　　这某种程度上是一种研究的taste，或者说研究判断力，以及在后续过程中根据早期结果及时停止一些没有意义的研究。这可能是目前顶尖模型和顶尖研究员之间的差距。

　　不过，随着更强大的模型以及一套更完善的、能够实现“递归自我提升”的智能体系统的加入，其能力的边界在不断向外延伸，上述的差距在不断缩小。

　　第一个角度是从整个科技发展的角度来看。当下这个节点其实非常关键。原因在于，我们可以把即将到来的“智能革命”类比为历史上的工业革命。工业革命的核心发展成果是用机器替代人的重复体力劳动，发展到极致就是用机器制造机器。也就是说，连机器制造本身都不需要人的体力参与了。

　　所以，我们可以设想，所谓的“智能革命”，就是要用AI替代人的重复脑力劳动。从这个角度来讲，用AI制造AI是一定会发生的事情，是人工智能发展到高级状态的一个标志。

　　从这个角度出发，我们可以非常清晰地看到AI发展这个变革浪潮会快速到来，工业革命大概花了几百年时间才达成“用机器制造机器”，而我们现在用“AI制造AI”距离大模型出现也不过六七年时间，这个速度是值得我们特别关注的。

　　第二个角度，随着AI技术本身的提升，针对“如何指导AI”这一方向，我们也需要明确优质的研究课题，并围绕其开展相应的探索与技术突破。

　　Recursive的最外层，我理解还是要由人来驱动——到底制造什么样的AI、如何去服务我们的社会。我觉得，人作为这个社会的主体，人的主体性、主观能动性，应该是整个“AI制造AI”最核心的驱动。这应该是人和AI之间的关系。

　　朱军：我们说的“涌现”或者“演化”的过程，从信息论的角度来看，一定是需要有额外的、新的东西被引入到系统里，除非系统里原本的东西还没学完。比如文本或数据，互联网上虽然有那么多，但可能我们之前没有用好，或者没有用全。在这种情况下，继续在里面提升，还是能看到很大的进步。

　　但如果我们放开到物理世界，它本身完全是一个开环系统，和我们固定的数据集不是一个概念。当然，现在这个阶段，很多场景我们还没有数字化，或者还没有完全把数据准备好。

　　从长期视角来看，世界模型所涉及的在线学习、自主演化等研究方向，不仅技术难度更高，也具备更大的探索空间与发展潜力。

　　其实，2020年前后，我们在做方向规划时就提出了“物理智能”这个概念。我们要构建一个可演化、可进化、有发育能力的环境，智能体可以进入学习。当然，这个学习过程也不是完全封闭的，它还可以走出来和真实世界交互，而交互过程中的反馈可以再回到整个底座环境。我想，今天大家说的“世界模型”，在某种程度上是在实现这种想法。

　　我觉得，未来的世界模型一定是一个多模态的、通用的世界模型，有点类似于语言模型走向GPT这种通用基座的路径。未来大家应该更关注这种更通用、有泛化能力、“有眼睛”的世界模型。

　　罗福莉：我目前看到的是，语言模型和世界模型确实是并驾齐驱地往前走的，但现阶段语言模型确实会走得更快一些，因为我们能够更好地从代码里还原出当时智能诞生的环境，所以能在这样的环境里搭建一套比较好的、能驱动模型发挥出更高上限的Agent系统，再叠加一个模型，让它在环境里进行更自由的探索，设计一个更精准的奖励体系去激励它的自我提升。这条路径在这一段时间的digital world中是正在发生、正在Scaling的一条主要路径。

　　我对世界模型关注的是它能否首先创造一个非常高效的世界模拟器。其中，效率非常关键。我现在还没有看到一个非常高效的、长程一致的生成模型诞生。我觉得，如果有这样一个高效的、能从角度重构整个世界的生成器，我们就可以在这个高效生成器的基础上，叠加一套能触达现实生活中更复杂任务的脚手架系统，将这两者结合起来，从而去Scaling我们整个的范式。

　　这是我觉得语言模型和世界模型在大的层面上会互通的一点。但目前看来，在这两条路径中，语言模型会先行，在这个方向上探索得更清楚。其次是世界模型的基础架构，一个高效的模型技术架构，一套围绕真实世界运转的系统，以及如何在这两者基础上做强化学习，慢慢诞生重构世界最有可能的路径。

　　朱军：我同意，语言模型整体上确实给其他大模型很多启发，因为它也是最早、最成熟的一类去验证Scaling的模型。

　　从做世界模型的目标来看，基本上要具备三点：一是要能“看懂”、理解状态；二是要能预测和想象；三是要能规划、做行动。这三者缺一不可。

　　另外，从做模型的角度来说，我们需要数据、需要架构。现在能用来做大模型的数据是什么？最后我们发现，和“世界”最相关的数据就是数据，它是最容易、最方便，而且记录量最大的关于世界的数据。包括电影，传统做法是演员先演，然后被记录下来；现在很多采数据的工作，也是把数据记录成的形式。我觉得这里面有大量关于物理世界本身的信息。

　　所以，恰恰是模型在尝试去做这件事。过去，我们也能看到，其在复杂场景的理解以及内容生成上已经做得很好；再往前走，就是把“Action”更多地引入到里面去。

　　这条线现在越来越成为共识，大家在架构上也在不断优化，包括效率方面。当然，和语言模型相比，可能还有一定提升空间。

　　我觉得，现在最高优先级的还是要先把智能水平本身提上去；当达到比较高的智能水平之后，可以有很多种手段把模型做小、做成特定的Policy model等，用于部署。

推荐图文