雷竞技-“世界模型”究竟是什么？会成为人工智能的下一个前沿领域吗？—新闻—科学网

2024-12-16

世界模子的灵感源在人类天然构成的世界心智模子。我们经由过程感官获得的抽象信息在年夜脑中被转化为对四周世界的具象理解；这些“模子”早在人类最先研究AI之前就已存在。基在这些模子，我们的年夜脑对世界进行猜测，从而影响我们的感知和步履。

虽然这一概念使人振奋，但仍有很多手艺挑战亟待解决。与今朝用在生成式模子的计较量比拟，练习和运行世界模子需要重大的算力。另外，世界模子也存在幻觉问题。

最近几年来，人工智能（AI）范畴出现出一种被称为“世界模子”（World Models）或“世界摹拟器”的新概念，被一些行内助士视为AI的下一个重年夜前沿。AI范畴的领甲士物李飞飞创建的World Labs（世界尝试室）已筹集了2.3亿美元资金，致力在构建“年夜型世界模子”（LWM）；与此同时，谷歌DeepMind也礼聘了OpenAI视频生成器Sora的缔造者之一，介入“世界摹拟器”的研究。

甚么是“世界模子”？近日，科技媒体TechCrunch的高级记者凯尔威格斯（Kyle Wiggers）撰文，梳理了关在“世界模子”的一系列问题，以下是彭湃科技（www.thepaper.cn）编译。

甚么是世界模子？

AI研究人员年夜卫哈（David Ha）和尤尔根施米德胡伯（Jürgen Schmidhuber）以棒球击球手为例，阐述了击球手只有几毫秒的时候决议若何挥棒，这比视觉旌旗灯号传递到年夜脑的时候还短。他们之所以能击中时速160千米的快速球，是由于他们能本能地猜测球的位置。

两位研究人员写道：“对职业选手来讲，这一切都是在潜意识中完成的。他们的肌肉会反射性地在准确的时候和位置挥棒，与其内涵心智模子的猜测一致。他们可以快速按照对将来的猜测而采纳步履，但无需成心识地推演可能的将来情形以制订打算。”

恰是这类世界心智模子的潜意识推理能力，让一些科技研究者认为，世界模子是实现人类级别智能的条件。

世界模子有哪些利用潜力？

虽然这个概念已存在了几十年，世界模子比来因其在生成式视频范畴的利用而备受存眷。今朝，年夜大都AI生成的视频城市堕入“可骇谷”现象，不雅看时候稍长就会呈现画面崩坏，如四肢扭曲或融会。

传统的生成式模子可能可以或许正确猜测篮球会弹跳，但其实不真正理解此中的缘由，就像年夜型说话模子现实上是基在神经收集的几率推理，给出最可能合适读者预期的谜底，而非真正理解词语和短语背后的意义。但是，具有根基物理认知的世界模子将更长于揭示“篮球的真实弹跳”。

为了实现这类洞察力，世界模子需要在年夜量的照片、音频、视频和文本数据长进行练习，旨在建立对世界运作体例的内部表征，并具有推理步履后果的能力。

Snap前AI主管、现Higgsfield公司CEO亚历克斯马什拉博夫（Alex Mashrabov）暗示：“不雅众期望他们不雅看的世界与实际类似。假如一根羽毛以铁砧的重量着落，或保龄球飞上数百英尺的高空，这会让不雅众出戏。有了壮大的世界模子，创作者就无需界说每一个物体的活动体例——这既繁琐又低效——由于模子将可以或许自行理解道理。”

但是，改良视频生成只是世界模子的冰山一角。包罗Meta首席AI科学家杨立昆（Yann LeCun）在内的研究人员认为，这些模子将来可用在数字和物理范畴的复杂猜测和计划。

在本年早些时辰的一次演讲中，杨立昆描写了世界模子若何经由过程推理来实现方针。一个具有根本“世界”暗示（例如一段脏房间的视频）的模子，给定一个方针（清洁的房间），可以推导出一系列步履（利用吸尘器、清洗餐具、倒垃圾）来实现方针。这并不是由于它不雅察到了这类模式，而是由于它在更深条理上理解了事物若何从脏到净。

“我们需要可以或许理解世界的机械；具有记忆、直觉和常识的机械——可以或许像人类一样推理和计划的机械，”杨立昆暗示。“虽然你可能听到一些最热忱之人的揄扬，但当前的人工智能系统其实不具有这些能力。”

固然杨立昆估量我们距离他假想的世界模子最少还十年的时候，但现今的世界模子已显示出其作为根基物理摹拟器的前景。

OpenAI 在一篇博客中认为 Sora 是一个世界模子，可以摹拟画家在画布上留下画笔笔触等动作。像 Sora 如许的模子——和 Sora 自己——也能够有用地摹拟视频游戏。例如，Sora 可以衬着近似 Minecraft 的UI和游戏世界。

World Labs 结合开创人贾斯汀约翰逊（Justin Johnson）在a16z播客的一集中暗示，将来世界模子可能可以或许按需生成3D世界，用在游戏、虚拟摄影等。

“我们已有能力建立虚拟的交互式世界，但这需要破费数亿美元和年夜量的开辟时候，”约翰逊暗示，“‘世界模子’不但可让用户取得图片或视频片断，还可以取得一个摹拟结果完整、布满活力的交互式3D世界。”

实现世界模子面对哪些手艺挑战？

虽然这一概念使人振奋，但仍有很多手艺挑战亟待解决。与今朝用在生成式模子的计较量比拟，练习和运行世界模子需要重大的算力。固然一些最新的说话模子可以在现代智妙手机上运行，但Sora（几多算一种初期世界模子）需要数千个GPU来练习和运行，特别是在其利用变得普和的环境下。

世界模子和所有AI模子一样，也会发生幻觉，并内化练习数据中的成见。一个首要由欧洲城市好天视频练习的世界模子，可能难以理解或准确描画韩国城市的雪景。

亚历克斯马什拉博夫指出，练习数据的匮乏可能会加重这些问题。“我们已看到模子在生成某种类型或种族的人物时遭到限制，”他说。“世界模子的练习数据必需足够普遍，以涵盖多样化的情形，同时也要足够具体，使AI可以或许深切理解这些情形的细微不同。”

AI草创公司Runway的CEO克里斯托瓦尔瓦伦苏埃拉（Cristóbal Valenzuela）在比来的一篇文章中暗示，数据和工程问题阻碍了当前模子正确捕获世界中生物（如人类和动物）行动的能力。“模子需要生成一致的情况地图，”他说，“并具有在这些情况中导航和互动的能力。”

世界模子能为具身智能供给手艺根本

假如所有首要障碍都被降服，亚历克斯马什拉博夫认为，世界模子可以“更不变地”将AI与实际世界毗连起来，不但在虚拟世界生成方面，并且也在机械人手艺和AI决议计划方面获得冲破。

这也可能催生更壮大的机械人。现在的机械人在功能上遭到限制，由于它们缺少对四周实际世界（或本身身体）的意识。世界模子可觉得它们供给这类意识，最少在必然水平上可以。

“有了进步前辈的世界模子，AI可以对其所处的任何情境构成本身的理解，”他说，“并最先推理出可能的解决方案。”

世界模子可以或许为人工智能供给理解真实的三维物理世界的能力，令人形机械人真正感知真实世界，对具身智能的实现具有重年夜意义。

特殊声明：本文转载仅仅是出在传布信息的需要，其实不意味着代表本网站不雅点或证实其内容的真实性；如其他媒体、网站或小我从本网站转载利用，须保存本网站注明的“来历”，并自大版权等法令责任；作者假如不但愿被转载或联系转载稿费等事宜，请与我们联系。

雷竞技-BPO行业整合方案提供者

雷竞技-“世界模型”究竟是什么？会成为人工智能的下一个前沿领域吗？—新闻—科学网