機器人的ChatGPT時刻?

徐宏民
2026-04-09
AI語音摘要
00:50

大型語言模型在近年展現出3個令人驚訝的能力:

泛化(generalization),在從未見過的問題上給出合理答案;

多任務(multitasking),同一個模型寫程式、翻譯、分析財報、判讀法律文件;

推理(reasoning),把複雜問題拆解成步驟,逐一推導出解答。

正是這三個能力,讓大型語言模型在數位世界掀起典範轉移。下一個問題,是這些能力能否走進實體世界—不只在螢幕上思考,而是在真實空間中感知、判斷、行動。這正是「具身智能」(EmbodiedAI)試圖回答的問題:讓模型不只是推理引擎,而是成為真實環境中的行動者。

需求比想像中更迫切。

談機器人,往往讓人聯想到科幻場景或工廠自動化。但推動這一波發展的力量,其實更接近人口結構的現實。台灣65歲以上人口佔比已超過17%,日本早已超過29%,德國超過22%;製造業、物流業、長照產業的缺工問題,在多數已開發國家不是短期現象,而是長達數十年的結構性挑戰。

另一個驅動力是安全:高溫、高壓、有毒化學品、重複性導致的職業傷害—把人從這些場景中移出,本身就有足夠的商業理由,不需要等到機器人的成本降到與人力相當。

這一波機器人討論之所以與過去不同,有一個常被忽略的前提:硬體已經準備好了。感測器(攝影機、LiDAR、觸覺感測器)的成本在過去十年大幅下降,馬達與減速機的精度持續提升,機械結構的製造良率也趨於成熟。部分得益於電動車產業的規模效應—馬達、減速機、感測器的供應鏈隨EV量產大幅成熟,機器人硬體直接受惠。機器人整體硬體成本在2023至2024年間年降幅約達4成,下降曲線清晰可見,這與早期工業電腦、早期智慧型手機的軌跡高度相似。硬體不再是關鍵瓶頸;問題移到了「大腦」、「眼睛」與「四肢」—機器人要如何真正看懂環境、做出判斷、精準完成任務?

最直覺的答案是把雲端LLM接進機器人。但物理世界的時間尺度與數位世界截然不同:人類在鍵盤上等待一秒的回應是可接受的,機器人在伸手抓取物件時若延遲半秒,輕則任務失敗,重則碰撞損毀。

雲端推論的網路延遲,在這個場景中是結構性的障礙,不是優化問題。

自駕車產業已解決這個問題:感知與即時控制在車載邊緣運算上執行,高階路徑規劃與地圖更新則視需要呼叫雲端。今天的車載SoC已有足夠的算力支撐即時的視覺辨識與控制決策;機器人的邊緣硬體正在走同一條路。實體算力的門檻在過去幾年已大幅降低,讓「大腦在本地執行」從成本考量來看也愈來愈可行。

技術上,這一波機器人能力的突破,核心在於VLA(Vision-Language-Action)模型架構的確立。VLA把三條原本獨立的訊號—視覺感知、語言指令理解、動作輸出—整合進同一個神經網路,讓大語言模型的推理能力得以遷移到機器人的動作決策上。

過去的機器人控制是一任務一模型,抓取、搬運、組裝各有專屬系統,換了場景或換了物件就得重新訓練,缺乏彈性且成本高昂。VLA打破此一架構:操作者可以用自然語言描述任務,模型自主分解成動作序列並執行,即便是訓練時未見過的物件或場景,也有一定的應對能力。開源模型中,openVLA在同一個模型架構下跨平台操控多種機械手臂,展示通用操作策略的可行性;Physical Intelligence的π₀以超過1萬小時的跨平台遙控操作資料預訓練,針對新任務微調只需1至20小時。「一個模型跨場景泛化」這個問題,在過去一年內開始有了系統性的肯定答案。

討論機器人時,往往侷限在機械手臂的操作能力上。但在真實工作場景中,「走到目標地點」與「對它做什麼」是同等重要、缺一不可的能力。這個組合在學術界稱為mobile manipulation——同時具備移動底盤與操作手臂的機器人平台,才能提供更多彈性與能力。

想像一個倉儲場景:機器人能自主移動到正確的貨架,辨識目標物件的位置,伸手抓取,再移動到指定放置點。每一個步驟都需要精確的空間理解與動作協調。固定式機械手臂只能解決「操作」這半題;移動平台加上操作手臂,才是開啟更多可能性。

要讓機器人在非受控環境中自主移動,導航(navigation)是必須解決的基礎能力,而導航的前提是建圖(mapping)—機器人必須先建立對所在空間的三維理解,才能規劃路徑、避開障礙。

早期的機器人導航依賴預先設定的固定路線或QRcode地標,彈性極低。SLAM(Simultaneous Localization and Mapping,即時定位與地圖建構)技術讓機器人能在移動中同步建立環境地圖並定位自身,是目前主流的導航基礎。更近期的發展方向是語義地圖:不只知道「那裡有一個障礙物」,而是理解「那是一張椅子、那是工人、那是臨時堆放的棧板」,進而做出更合理的路徑判斷。這個方向與VLA的語言理解能力高度相輔:機器人不只在幾何空間中移動,而是在語義空間中理解環境。

商業部署的訊號已出現。電動車廠的整車組裝線與零組件倉儲,是目前規模最大的機器人商業場域;歐美汽車廠與第三方物流業者也已在工廠與配送中心導入機器人,更有彈性、擬人化的執行零件搬運,商業場域的試驗已陸續展開。多家國際投資銀行的分析指向同一個方向:實體(Physical AI)所面對的,是整個製造業、物流業、服務業工作流程的重新配置,而非單一產品市場的擴張。

誠實評估目前的限制,是避免高估或低估這波趨勢的必要功課。第一個問題是電池:目前機器人的續航約2至4小時,工廠班次通常8至12小時,補充電力需要停機,這在連續生產場景中是結構性缺口。電池能量密度的提升是化學問題,不是軟體問題,很難靠演算法突破。第二個問題是長尾場景的泛化:在受控環境下,機器人已能可靠完成標準任務,但工廠地板的一攤水、歪掉的零件箱、訓練集未見過的新產品,仍常造成失誤。工業場景的容錯空間遠低於實驗室,這個缺口目前尚未被系統性地填補。第三個問題是靈巧操作(dexterous manipulation):人類手部的精度與柔順性,在精密組裝、電子製程等場景中,仍遠超現有機械手的能力。

從GPT-1到ChatGPT(2022年底,版本為GPT-3.5),語言模型花了四年半。機器人領域的「GPT-1時刻」大約發生在2022至2023年前後,VLA概念開始被系統性驗證;我們現在大約處於GPT-2.x時刻。這裡比的是能力發展的軌跡,而非模型規模。機器人還多了一道語言模型不需要面對的約束:再強的模型,最終仍須壓縮到本地端執行,受算力、功耗、延遲的硬性限制,這是VLA需要額外跨越的障礙,語言模型當年並不需要面對。

不過,GPT-2.x並不意味著要等。從結構固定的重複性作業,到桌面操作的彈性取放,到自主移動與場域導航,再到多工協作、人機共同執行任務,乃至需要一定推理能力的複雜流程輔助;不同成熟度的技術,對應不同層次的導入機會,不必等到全面成熟才能創造價值。這個階段,對觀望者而言似乎還早,但對決定在哪個節點進場的人而言,這可能是領先班車的最後一個上車點了!

現任國立台灣大學資訊工程學系教授,曾任富智捷(MobileDrive)技術長暨副總經理,推動ADAS及智慧座艙系統產品進入全球車用市場。紐約哥倫比亞大學電機博士,專精於機器學習、電腦視覺、自駕車、機器人等領域。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會,擔任多家科技公司AI策略顧問。
智慧應用 影音