煎蛋翻面不到2秒,但每一步都是連續的感測判斷與力道決策;塗果醬、擺餐盤同樣如此。這類「低階技能」(atomic skill)的難點不在於執行固定軌跡,而在於複雜環境正確執行。
前一篇討論的VLA架構解決的是(高階)任務規劃,本文要回答的是更深入的問題:機器人怎麼把每一個(低階)基本動作做好?
傳統工廠機器人的動作,是不同性質的事。抓取、插件、焊接、鎖螺絲,關鍵字是「重複性」與「受控條件」:同一款零件在同一個位置,同樣的夾爪、同樣的軌跡、同樣的速度,不需要處理複雜變動環境。這類動作可以用固定程式精確執行,但容錯空間極低,環境稍有偏差就失效。
過去教導機器手臂的主流方式,叫「示教法」(teach-and-playback):操作員透過示教器(teach pendant)將手臂逐點移至目標位置、記錄各路徑點的關節角度,再讓機器人依序重放。環境固定的場景至今仍適用,但示教法本身沒有感測(甚至推理)能力——它只知道「下一個路徑點在哪裡」,換了零件或場景就要重新示教,遇到變動情境也無從判斷。
從「執行固定軌跡」到「應對多變場景」,需要從根本上換一種動作學習邏輯。目前學界與業界收斂出2條主軸:強化學習(Reinforcement Learning;RL)與模仿學習(Imitation Learning;IL)。
強化學習(RL)的基本邏輯是「從嘗試中學習」。機器人不看示範,自行在環境中試探;每次行動之後,根據結果的好壞(「獎勵信號」)調整策略,慢慢摸索出完成任務的方法。理論上,只要定義好成功標準(比如「蛋翻面後完整不破」),機器人甚至可能摸索出人類沒想到的解法。
但是,RL在實體機器人上有一個根本缺陷:它需要大量的試誤次數才能收斂,而每一次試誤在真實機器人上都消耗時間,且有損壞設備的風險。在模擬器裡可以讓機器人不眠不休地失敗幾百萬次;搬到真實機器人上,同樣的學習量可能需要幾年。
這就是為什麼 RL 在機器人領域目前主要的定位,是在模擬環境中預訓練,而非從頭在實體上學習。
模仿學習(IL)走的是另一條路:讓機器人觀察人類示範,從中學習,而非從零試誤。在理解模仿學習之前,有一個基礎概念值得先釐清:「策略」(policy)。策略是機器人的決策核心:給定當下的感測狀態(攝影機畫面、關節角度、觸覺數值),輸出下一步應該執行的動作。訓練機器人動作的本質,就是在訓練一個好的策略。
最直覺的模仿學習方式叫行為複製(behavioral cloning):把人類示範的「狀態與對應動作」當作訓練資料,用監督式學習訓練策略。簡單,但有一個根本弱點:示範都是「做對了」的過程,機器人從未學過「偏掉了該怎麼辦」。執行時只要出現細微偏差,後續每一步的判斷都可能進一步出錯,誤差層層累積。任務愈長、步驟越多,這個問題愈致命。
目前解決這個問題最具代表性的方向是「擴散策略」(Diffusion Policy)。它的技術來自於這幾年大家熟悉的(影像)生成式 AI,背後用的就是擴散模型:從隨機雜訊出發,經過多輪降噪處理,逐漸收斂出高品質影像。研究人員把同樣的架構搬進機器人控制,把輸出從畫素值換成連續的動作序列。
傳統行為複製傾向輸出「平均解」,遇到同一任務有多種合理做法時往往哪邊都不對。擴散策略換了角度:不輸出單一動作,而是學習「給定當下狀態,合理動作的機率分布」,再從這個分布中採樣。降噪過程同時生成接下來若干步的完整動作序列,讓機器人不必每一步重新決策,動作因此更穩定、流暢。在相對少量的示範資料條件下,Diffusion Policy就能讓機器手臂完成需要精細力道控制的操作任務,是目前資料效率與效果兼顧最好的方法之一。
更新的策略學習方向是「流匹配」(Flow Matching)。概念更直觀:與其從雜訊出發反覆降噪,不如直接學習從雜訊到目標動作的最短路徑,推論步驟因此大幅減少,速度更快、訓練也更穩定。目前已有機器人基礎模型採用此架構,在學界與業界逐漸受到重視。
2條路線各有天花板。RL的試誤成本在實體機器人上難以接受,目前主要在模擬環境中預訓練,而非直接在實體上學習。IL的效果上限受制於示範資料的品質,示範者沒做過的,機器人就不會。實務上兩者通常搭配使用:模仿學習建立初始策略,強化學習在模擬環境中補足長尾情境。
但不論哪條路,核心限制都指向同一件事:訓練資料。這也是太平洋兩岸的領先機器人研究團隊們已有的共識。示範資料從哪來、如何在可接受的成本下大規模取得,已經成為這場競賽真正的核心問題——這也是下一篇要探討的主題。