第八届“北京智源大会”开幕式圆桌环节,在智源研究院院长王仲远的主持下,小米MiMo大模型负责人罗福莉,清华大学教授、生数科技创始人朱军,清华大学教授、面壁智能首席科学家刘知远以及南洋理工大学校长讲席教授安波,围绕“重构世界”这一主题展开对谈。
几位长期身处大模型研发一线的学者与产业领军者,从最新模型的能力跃升谈起,延伸至大语言模型与世界模型的路径之争、递归式自我改进的现实进展,以及AI自进化是否已经发生等核心问题。
当AI从“执行工具”演变为“创造智能的智能”,数字世界与物理世界的重构将沿着怎样的路径展开?哪一条路会先抵达?以下为对话实录的节选,我们进行了不影响原意的整理:
罗福莉:其实,Fable 5目前的训练结果,是一个非常科学地去做Scaling的中间的产物。从发布的整个参数量级来看,我们猜测它应该是目前最强、最大的开源模型的几倍。比如,在预训练数量级上,做了几倍的Scaling;其次,在预训练或者说在强化学习上,应该也有非常大的、至少是数量级的投入。
此外,由于我们从Chat时代迈向Agent时代,模型的训练数据已经从自然的互联网文本数据迈向了人和AI共同产生的合成数据,数据的Scaling也到了一个新的量级。
在我看来,Fable 5这款大模型,是在预训练参数规模、训练数据与Agent合成数据,以及测试时规模扩展和强化学习相结合这三个维度上,完成了一个非常自然的外延拓展后形成的中间产物。
朱军:模型规模与数据进行Scaling时,性能提升效果十分突出。其中也包括我们常说的对物理世界各类物理规律的模拟与仿真,过去两年多以来,该方向的相关进展是看得到的。一开始大家可能会看到各种“幻觉”,但今天其实已经可以做出非常高质量的专业内容,在部分场合可以达到影视级的标准。
我觉得这都是在走同一条路,即把模型做得更加精细,数据质量、规模,还有大规模训练,整体上有一个提升。但后面再迈向物理世界的时候,大家也会讨论,这种物理规律是不是真的能够学会?
我相信,当基础模型本身有了显著提升之后,无论是较为严谨的逻辑推理、物理规律的建模,还是3D等任务,基本都可以变得更加高效地完成。当然,具体方式会因场景而异:有些场景可能并不需要非常精细、精准的处理,大部分情况下依靠直观的方式就能满足需求。而这恰恰是模型带来的最大好处。
我觉得有一个点是非常对的。大家常说用Agent去解决问题时,之前会消耗很多Token,但现在新版本在解决多任务时,Token消耗量变少了,我觉得这是一个非常正确的方向,也应该是大家去追求的目标。因为我们在做很多任务的时候,其实是需要有一个高于人的智能来帮我们调用工具和思考,我想这可能是大模型未来可以进一步释放出来的能力。
安波:最近“自演化”这个概念特别火,无论是Prompt还是Agent,都是通过获取更多人的使用数据或者得到更多反馈,从而让模型能力持续增强。我觉得这一点是对的。
智能体还在起步阶段,未来还有很长的路要走。现在可能很多智能体还停留在通用阶段,我觉得未来更大的潜力,可能是其真正落到工业界的那些垂直领域,去解决大家特别在乎的那些问题。
罗福莉:坦率来讲,在上一代模型中,尤其是去年,我觉得顶尖模型的能力上限可能体现在非常好的“执行”,尤其当指令非常清晰的时候,执行是比较完美的。但到今天,我们发现顶尖模型已经从“执行”外延到去解决一些抽象性的问题。
拿一个完整的科研历程举例。从提出假设,到设计实验,到真正动手执行实验,到设计合理的观测指标去验证实验的合理性,最后一步是需要和同行进行密切交流,充分共享研究context,再去打磨整个假设或idea,这是一个很完整的研究流程。
我们现在已经能看到,大模型已经从最初的“执行”这一层能力,慢慢外延到能够去设计合理的验证指标,验证自己执行结果的准确性,并能够去规划整个实验流程。可能现在唯一还有差距的地方是“提出假设”或者“提出值得验证的问题”。
这某种程度上是一种研究的taste,或者说研究判断力,以及在后续过程中根据早期结果及时停止一些没有意义的研究。这可能是目前顶尖模型和顶尖研究员之间的差距。
不过,随着更强大的模型以及一套更完善的、能够实现“递归自我提升”的智能体系统的加入,其能力的边界在不断向外延伸,上述的差距在不断缩小。
第一个角度是从整个科技发展的角度来看。当下这个节点其实非常关键。原因在于,我们可以把即将到来的“智能革命”类比为历史上的工业革命。工业革命的核心发展成果是用机器替代人的重复体力劳动,发展到极致就是用机器制造机器。也就是说,连机器制造本身都不需要人的体力参与了。
所以,我们可以设想,所谓的“智能革命”,就是要用AI替代人的重复脑力劳动。从这个角度来讲,用AI制造AI是一定会发生的事情,是人工智能发展到高级状态的一个标志。
从这个角度出发,我们可以非常清晰地看到AI发展这个变革浪潮会快速到来,工业革命大概花了几百年时间才达成“用机器制造机器”,而我们现在用“AI制造AI”距离大模型出现也不过六七年时间,这个速度是值得我们特别关注的。
第二个角度,随着AI技术本身的提升,针对“如何指导AI”这一方向,我们也需要明确优质的研究课题,并围绕其开展相应的探索与技术突破。
Recursive的最外层,我理解还是要由人来驱动——到底制造什么样的AI、如何去服务我们的社会。我觉得,人作为这个社会的主体,人的主体性、主观能动性,应该是整个“AI制造AI”最核心的驱动。这应该是人和AI之间的关系。
朱军:我们说的“涌现”或者“演化”的过程,从信息论的角度来看,一定是需要有额外的、新的东西被引入到系统里,除非系统里原本的东西还没学完。比如文本或数据,互联网上虽然有那么多,但可能我们之前没有用好,或者没有用全。在这种情况下,继续在里面提升,还是能看到很大的进步。
但如果我们放开到物理世界,它本身完全是一个开环系统,和我们固定的数据集不是一个概念。当然,现在这个阶段,很多场景我们还没有数字化,或者还没有完全把数据准备好。
从长期视角来看,世界模型所涉及的在线学习、自主演化等研究方向,不仅技术难度更高,也具备更大的探索空间与发展潜力。
其实,2020年前后,我们在做方向规划时就提出了“物理智能”这个概念。我们要构建一个可演化、可进化、有发育能力的环境,智能体可以进入学习。当然,这个学习过程也不是完全封闭的,它还可以走出来和真实世界交互,而交互过程中的反馈可以再回到整个底座环境。我想,今天大家说的“世界模型”,在某种程度上是在实现这种想法。
我觉得,未来的世界模型一定是一个多模态的、通用的世界模型,有点类似于语言模型走向GPT这种通用基座的路径。未来大家应该更关注这种更通用、有泛化能力、“有眼睛”的世界模型。
罗福莉:我目前看到的是,语言模型和世界模型确实是并驾齐驱地往前走的,但现阶段语言模型确实会走得更快一些,因为我们能够更好地从代码里还原出当时智能诞生的环境,所以能在这样的环境里搭建一套比较好的、能驱动模型发挥出更高上限的Agent系统,再叠加一个模型,让它在环境里进行更自由的探索,设计一个更精准的奖励体系去激励它的自我提升。这条路径在这一段时间的digital world中是正在发生、正在Scaling的一条主要路径。
我对世界模型关注的是它能否首先创造一个非常高效的世界模拟器。其中,效率非常关键。我现在还没有看到一个非常高效的、长程一致的生成模型诞生。我觉得,如果有这样一个高效的、能从角度重构整个世界的生成器,我们就可以在这个高效生成器的基础上,叠加一套能触达现实生活中更复杂任务的脚手架系统,将这两者结合起来,从而去Scaling我们整个的范式。
这是我觉得语言模型和世界模型在大的层面上会互通的一点。但目前看来,在这两条路径中,语言模型会先行,在这个方向上探索得更清楚。其次是世界模型的基础架构,一个高效的模型技术架构,一套围绕真实世界运转的系统,以及如何在这两者基础上做强化学习,慢慢诞生重构世界最有可能的路径。
朱军:我同意,语言模型整体上确实给其他大模型很多启发,因为它也是最早、最成熟的一类去验证Scaling的模型。
从做世界模型的目标来看,基本上要具备三点:一是要能“看懂”、理解状态;二是要能预测和想象;三是要能规划、做行动。这三者缺一不可。
另外,从做模型的角度来说,我们需要数据、需要架构。现在能用来做大模型的数据是什么?最后我们发现,和“世界”最相关的数据就是数据,它是最容易、最方便,而且记录量最大的关于世界的数据。包括电影,传统做法是演员先演,然后被记录下来;现在很多采数据的工作,也是把数据记录成的形式。我觉得这里面有大量关于物理世界本身的信息。
所以,恰恰是模型在尝试去做这件事。过去,我们也能看到,其在复杂场景的理解以及内容生成上已经做得很好;再往前走,就是把“Action”更多地引入到里面去。
这条线现在越来越成为共识,大家在架构上也在不断优化,包括效率方面。当然,和语言模型相比,可能还有一定提升空间。
我觉得,现在最高优先级的还是要先把智能水平本身提上去;当达到比较高的智能水平之后,可以有很多种手段把模型做小、做成特定的Policy model等,用于部署。



