World Model：分歧的研究世界

徐宏民

2026-05-20

AI語音摘要

00:49

過去兩年，「世界模型」（World Model）成為AI業界引用頻繁、定義卻最分歧的詞彙。

每個正在做生成式AI或機器人技術的團隊都會自稱「在做world model」，但仔細看，每家口中的定義並不相同。這個概念本身在認知科學、控制理論與1990年代的強化學習文獻中都有過討論；2018年David Ha與Jürgen Schmidhuber發表的〈World Models〉論文，用神經網路學習賽車環境的潛在動態，agent完全在內部模型中訓練後再轉到真實環境執行，這個概念錨定在現代神經網路的脈絡下，奠定「壓縮環境動態、用以預測與規劃」這個基本定義，也成為後續討論的共同起點。

從這個原始定義延伸，業界各陣營各有解讀。Yann LeCun主張的JEPA（Joint Embedding Predictive Architecture）在抽象表示層預測世界下一步，作為agent規劃的基礎；李飛飛從「空間智慧」（spatial intelligence）切入，把世界模型視為可生成、可互動的3D表示，這也是她創立WorldLabs的核心命題；NVIDIA的Cosmos則把世界模型定位為實體AI（Physical AI）的生成式模擬器，依文字、影像或動作條件預測下一秒畫面；Google DeepMind的Genie系列則更接近「可互動生成環境」的路線。

同一個詞，4種版本，分別對應預測、生成、模擬、互動4種不同的工程目標。

與世界模型容易被混為一談的，還有數位分身（Digital Twin）與模擬器（Simulator）。

數位分身強調「特定實體的數位映射」，重點在於與真實世界即時同步，背後是工程模型加上IoT資料流。模擬器（如Isaac Sim、MuJoCo、Gazebo）則是基於物理方程式建構的程式化環境，優勢是可控、可重現，缺點是建模成本高，且在接觸力學與柔性物體上仍存在sim-to-real落差。世界模型則是用神經網路從資料中學出來的「環境動態函數」，不依賴明確規則，可以生成從未真實出現的場景；本質上是從資料學出來的，不是手工建構的。三者並非互斥，近年逐漸結合：用模擬器產生資料訓練世界模型，再以世界模型補足模擬器涵蓋不到的長尾場景。

釐清這些定義之後，真正值得ICT產業注意的，是世界模型為什麼會成為具身智慧（embodied AI）能否規模化的關鍵元件。機器人在實體世界嘗試動作，每一次都伴隨不可逆的成本。機器人用力一壓，可能直接打破物料；自駕車試一個激進變道，可能撞到行人。這與語言模型的處境截然不同——語言模型的錯誤輸出最多被使用者打回，沒有實體損害。具身智慧的學習與決策迴圈，因此必須有一層「先在內部模擬一遍」的階段，而那層內部模擬，世界模型提供可能的工具。

舉例來說，機器人的複雜推理可以嘗試這樣運作：每一步推理不只是用語言判斷「下一個動作該做什麼」，而是先預測「做完這個動作之後，世界會變成什麼狀態」，再把這個預測送入世界模型驗證實體上是否合理；通過驗證的動作，才會送到真實世界執行。這把推理鏈從「在語言空間中規劃」拉回到「在實體空間中驗證」，正是具身智慧與大型語言模型在推理結構上的主要分野。

少了這層驗證，機器人就難以走出受控場域；補上之後，泛化與規模化才有空間。

這個方向在近期研究中陸續出現：部分VLA研究（如CoT-VLA）開始把世界模型與具身推理結合，在執行動作前先在內部模型中生成子目標影像或合成成功軌跡，再回頭修正動作；NVIDIA的Cosmos Reason也把世界模型的預測輸出接到推理層。這些做法都還在實驗階段，但愈來愈多研究傾向認為：可靠的世界模型，可能是讓具身智慧走出受控場域的關鍵元件之一。

這個方向的另一面，是運算需求的大幅躍升。大型語言模型處理的是離散token，每秒幾十到上百個就算流暢；世界模型處理的是高解析度、長時序、多模態的影像或3D表示，每一秒影片對應的資訊量大致相當於數十萬至上百萬個token。一旦世界模型真的在具身智慧上成形，這波運算需求會比目前以token為主的大型語言模型高出一個量級；不只是token變多的問題，而是運算的維度從「文字」擴展到「世界」。

運算之外還有2道更基礎的瓶頸。一是3D空間推理仍有明顯落差，連物件相對位置、可達性、操作後果這類實體任務中視為基本的能力，目前都還不夠穩定。二是實體一致性與互動：影片擴散模型已能生成相當逼真的畫面，但物件穿模、重力違反、接觸不合理這類錯誤仍常見——世界模型從資料學動態，沒有明確的物理約束，畫面好看不等於符合物理規律；要在毫秒等級對輸入動作做出實體一致的回應，目前還沒有方法能在機器人實際所需的延遲下穩定運作。

AI產業現在缺的不是更多世界模型，而是第一個真正需要它的殺手級應用。比較值得追蹤的不是又有哪家發表新版世界模型，而是3D推理與低延遲互動這兩層基礎能力會在哪一個垂直情境先站穩；那個情境多半也會成為第一個真正需要世界模型的應用。

過去幾十年的科技發展也顯示，這類路線分歧本就是探索解方的過程；一旦某條路線走出明確的產業效益，研究方向往往會再次收斂。

World Model：分歧的研究世界

徐宏民國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

邦博士快訊

AI驅動數位轉型創新高科技高峰論壇

World Model：分歧的研究世界

徐宏民 國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

邦博士快訊

AI驅動數位轉型創新高科技高峰論壇

徐宏民國立台灣大學資訊工程學系教授