智慧機器人如何學動作技能？

徐宏民

2026-04-15

AI語音摘要

00:43

煎蛋翻面不到2秒，但每一步都是連續的感測判斷與力道決策；塗果醬、擺餐盤同樣如此。這類「低階技能」（atomic skill）的難點不在於執行固定軌跡，而在於複雜環境正確執行。

前一篇討論的VLA架構解決的是（高階）任務規劃，本文要回答的是更深入的問題：機器人怎麼把每一個（低階）基本動作做好？

傳統工廠機器人的動作，是不同性質的事。抓取、插件、焊接、鎖螺絲，關鍵字是「重複性」與「受控條件」：同一款零件在同一個位置，同樣的夾爪、同樣的軌跡、同樣的速度，不需要處理複雜變動環境。這類動作可以用固定程式精確執行，但容錯空間極低，環境稍有偏差就失效。

過去教導機器手臂的主流方式，叫「示教法」（teach-and-playback）：操作員透過示教器（teach pendant）將手臂逐點移至目標位置、記錄各路徑點的關節角度，再讓機器人依序重放。環境固定的場景至今仍適用，但示教法本身沒有感測（甚至推理）能力——它只知道「下一個路徑點在哪裡」，換了零件或場景就要重新示教，遇到變動情境也無從判斷。

從「執行固定軌跡」到「應對多變場景」，需要從根本上換一種動作學習邏輯。目前學界與業界收斂出2條主軸：強化學習（Reinforcement Learning；RL）與模仿學習（Imitation Learning；IL）。

強化學習（RL）的基本邏輯是「從嘗試中學習」。機器人不看示範，自行在環境中試探；每次行動之後，根據結果的好壞（「獎勵信號」）調整策略，慢慢摸索出完成任務的方法。理論上，只要定義好成功標準（比如「蛋翻面後完整不破」），機器人甚至可能摸索出人類沒想到的解法。

但是，RL在實體機器人上有一個根本缺陷：它需要大量的試誤次數才能收斂，而每一次試誤在真實機器人上都消耗時間，且有損壞設備的風險。在模擬器裡可以讓機器人不眠不休地失敗幾百萬次；搬到真實機器人上，同樣的學習量可能需要幾年。

這就是為什麼 RL 在機器人領域目前主要的定位，是在模擬環境中預訓練，而非從頭在實體上學習。

模仿學習（IL）走的是另一條路：讓機器人觀察人類示範，從中學習，而非從零試誤。在理解模仿學習之前，有一個基礎概念值得先釐清：「策略」（policy）。策略是機器人的決策核心：給定當下的感測狀態（攝影機畫面、關節角度、觸覺數值），輸出下一步應該執行的動作。訓練機器人動作的本質，就是在訓練一個好的策略。

最直覺的模仿學習方式叫行為複製（behavioral cloning）：把人類示範的「狀態與對應動作」當作訓練資料，用監督式學習訓練策略。簡單，但有一個根本弱點：示範都是「做對了」的過程，機器人從未學過「偏掉了該怎麼辦」。執行時只要出現細微偏差，後續每一步的判斷都可能進一步出錯，誤差層層累積。任務愈長、步驟越多，這個問題愈致命。

目前解決這個問題最具代表性的方向是「擴散策略」（Diffusion Policy）。它的技術來自於這幾年大家熟悉的（影像）生成式 AI，背後用的就是擴散模型：從隨機雜訊出發，經過多輪降噪處理，逐漸收斂出高品質影像。研究人員把同樣的架構搬進機器人控制，把輸出從畫素值換成連續的動作序列。

傳統行為複製傾向輸出「平均解」，遇到同一任務有多種合理做法時往往哪邊都不對。擴散策略換了角度：不輸出單一動作，而是學習「給定當下狀態，合理動作的機率分布」，再從這個分布中採樣。降噪過程同時生成接下來若干步的完整動作序列，讓機器人不必每一步重新決策，動作因此更穩定、流暢。在相對少量的示範資料條件下，Diffusion Policy就能讓機器手臂完成需要精細力道控制的操作任務，是目前資料效率與效果兼顧最好的方法之一。

更新的策略學習方向是「流匹配」（Flow Matching）。概念更直觀：與其從雜訊出發反覆降噪，不如直接學習從雜訊到目標動作的最短路徑，推論步驟因此大幅減少，速度更快、訓練也更穩定。目前已有機器人基礎模型採用此架構，在學界與業界逐漸受到重視。

2條路線各有天花板。RL的試誤成本在實體機器人上難以接受，目前主要在模擬環境中預訓練，而非直接在實體上學習。IL的效果上限受制於示範資料的品質，示範者沒做過的，機器人就不會。實務上兩者通常搭配使用：模仿學習建立初始策略，強化學習在模擬環境中補足長尾情境。

但不論哪條路，核心限制都指向同一件事：訓練資料。這也是太平洋兩岸的領先機器人研究團隊們已有的共識。示範資料從哪來、如何在可接受的成本下大規模取得，已經成為這場競賽真正的核心問題——這也是下一篇要探討的主題。

智慧機器人如何學動作技能？

徐宏民國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

邦博士快訊

讓AI代理為企業全面賦能 - 規劃財務轉型之路

智慧機器人如何學動作技能？

徐宏民 國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

邦博士快訊

讓AI代理為企業全面賦能 - 規劃財務轉型之路

徐宏民國立台灣大學資訊工程學系教授