過去兩年,「世界模型」(World Model)成為AI業界引用頻繁、定義卻最分歧的詞彙。
每個正在做生成式AI或機器人技術的團隊都會自稱「在做world model」,但仔細看,每家口中的定義並不相同。這個概念本身在認知科學、控制理論與1990年代的強化學習文獻中都有過討論;2018年David Ha與Jürgen Schmidhuber發表的〈World Models〉論文,用神經網路學習賽車環境的潛在動態,agent完全在內部模型中訓練後再轉到真實環境執行,這個概念錨定在現代神經網路的脈絡下,奠定「壓縮環境動態、用以預測與規劃」這個基本定義,也成為後續討論的共同起點。
從這個原始定義延伸,業界各陣營各有解讀。Yann LeCun主張的JEPA(Joint Embedding Predictive Architecture)在抽象表示層預測世界下一步,作為agent規劃的基礎;李飛飛從「空間智慧」(spatial intelligence)切入,把世界模型視為可生成、可互動的3D表示,這也是她創立WorldLabs的核心命題;NVIDIA的Cosmos則把世界模型定位為實體AI(Physical AI)的生成式模擬器,依文字、影像或動作條件預測下一秒畫面;Google DeepMind的Genie系列則更接近「可互動生成環境」的路線。
同一個詞,4種版本,分別對應預測、生成、模擬、互動4種不同的工程目標。
與世界模型容易被混為一談的,還有數位分身(Digital Twin)與模擬器(Simulator)。
數位分身強調「特定實體的數位映射」,重點在於與真實世界即時同步,背後是工程模型加上IoT資料流。模擬器(如Isaac Sim、MuJoCo、Gazebo)則是基於物理方程式建構的程式化環境,優勢是可控、可重現,缺點是建模成本高,且在接觸力學與柔性物體上仍存在sim-to-real落差。世界模型則是用神經網路從資料中學出來的「環境動態函數」,不依賴明確規則,可以生成從未真實出現的場景;本質上是從資料學出來的,不是手工建構的。三者並非互斥,近年逐漸結合:用模擬器產生資料訓練世界模型,再以世界模型補足模擬器涵蓋不到的長尾場景。
釐清這些定義之後,真正值得ICT產業注意的,是世界模型為什麼會成為具身智慧(embodied AI)能否規模化的關鍵元件。機器人在實體世界嘗試動作,每一次都伴隨不可逆的成本。機器人用力一壓,可能直接打破物料;自駕車試一個激進變道,可能撞到行人。這與語言模型的處境截然不同——語言模型的錯誤輸出最多被使用者打回,沒有實體損害。具身智慧的學習與決策迴圈,因此必須有一層「先在內部模擬一遍」的階段,而那層內部模擬,世界模型提供可能的工具。
舉例來說,機器人的複雜推理可以嘗試這樣運作:每一步推理不只是用語言判斷「下一個動作該做什麼」,而是先預測「做完這個動作之後,世界會變成什麼狀態」,再把這個預測送入世界模型驗證實體上是否合理;通過驗證的動作,才會送到真實世界執行。這把推理鏈從「在語言空間中規劃」拉回到「在實體空間中驗證」,正是具身智慧與大型語言模型在推理結構上的主要分野。
少了這層驗證,機器人就難以走出受控場域;補上之後,泛化與規模化才有空間。
這個方向在近期研究中陸續出現:部分VLA研究(如CoT-VLA)開始把世界模型與具身推理結合,在執行動作前先在內部模型中生成子目標影像或合成成功軌跡,再回頭修正動作;NVIDIA的Cosmos Reason也把世界模型的預測輸出接到推理層。這些做法都還在實驗階段,但愈來愈多研究傾向認為:可靠的世界模型,可能是讓具身智慧走出受控場域的關鍵元件之一。
這個方向的另一面,是運算需求的大幅躍升。大型語言模型處理的是離散token,每秒幾十到上百個就算流暢;世界模型處理的是高解析度、長時序、多模態的影像或3D表示,每一秒影片對應的資訊量大致相當於數十萬至上百萬個token。一旦世界模型真的在具身智慧上成形,這波運算需求會比目前以token為主的大型語言模型高出一個量級;不只是token變多的問題,而是運算的維度從「文字」擴展到「世界」。
運算之外還有2道更基礎的瓶頸。一是3D空間推理仍有明顯落差,連物件相對位置、可達性、操作後果這類實體任務中視為基本的能力,目前都還不夠穩定。二是實體一致性與互動:影片擴散模型已能生成相當逼真的畫面,但物件穿模、重力違反、接觸不合理這類錯誤仍常見——世界模型從資料學動態,沒有明確的物理約束,畫面好看不等於符合物理規律;要在毫秒等級對輸入動作做出實體一致的回應,目前還沒有方法能在機器人實際所需的延遲下穩定運作。
AI產業現在缺的不是更多世界模型,而是第一個真正需要它的殺手級應用。比較值得追蹤的不是又有哪家發表新版世界模型,而是3D推理與低延遲互動這兩層基礎能力會在哪一個垂直情境先站穩;那個情境多半也會成為第一個真正需要世界模型的應用。
過去幾十年的科技發展也顯示,這類路線分歧本就是探索解方的過程;一旦某條路線走出明確的產業效益,研究方向往往會再次收斂。