機器人的ChatGPT時刻？

徐宏民

2026-04-09

AI語音摘要

00:50

大型語言模型在近年展現出3個令人驚訝的能力：

泛化（generalization），在從未見過的問題上給出合理答案；

多任務（multitasking），同一個模型寫程式、翻譯、分析財報、判讀法律文件；

推理（reasoning），把複雜問題拆解成步驟，逐一推導出解答。

正是這三個能力，讓大型語言模型在數位世界掀起典範轉移。下一個問題，是這些能力能否走進實體世界—不只在螢幕上思考，而是在真實空間中感知、判斷、行動。這正是「具身智能」（EmbodiedAI）試圖回答的問題：讓模型不只是推理引擎，而是成為真實環境中的行動者。

需求比想像中更迫切。

談機器人，往往讓人聯想到科幻場景或工廠自動化。但推動這一波發展的力量，其實更接近人口結構的現實。台灣65歲以上人口佔比已超過17%，日本早已超過29%，德國超過22%；製造業、物流業、長照產業的缺工問題，在多數已開發國家不是短期現象，而是長達數十年的結構性挑戰。

另一個驅動力是安全：高溫、高壓、有毒化學品、重複性導致的職業傷害—把人從這些場景中移出，本身就有足夠的商業理由，不需要等到機器人的成本降到與人力相當。

這一波機器人討論之所以與過去不同，有一個常被忽略的前提：硬體已經準備好了。感測器（攝影機、LiDAR、觸覺感測器）的成本在過去十年大幅下降，馬達與減速機的精度持續提升，機械結構的製造良率也趨於成熟。部分得益於電動車產業的規模效應—馬達、減速機、感測器的供應鏈隨EV量產大幅成熟，機器人硬體直接受惠。機器人整體硬體成本在2023至2024年間年降幅約達4成，下降曲線清晰可見，這與早期工業電腦、早期智慧型手機的軌跡高度相似。硬體不再是關鍵瓶頸；問題移到了「大腦」、「眼睛」與「四肢」—機器人要如何真正看懂環境、做出判斷、精準完成任務？

最直覺的答案是把雲端LLM接進機器人。但物理世界的時間尺度與數位世界截然不同：人類在鍵盤上等待一秒的回應是可接受的，機器人在伸手抓取物件時若延遲半秒，輕則任務失敗，重則碰撞損毀。

雲端推論的網路延遲，在這個場景中是結構性的障礙，不是優化問題。

自駕車產業已解決這個問題：感知與即時控制在車載邊緣運算上執行，高階路徑規劃與地圖更新則視需要呼叫雲端。今天的車載SoC已有足夠的算力支撐即時的視覺辨識與控制決策；機器人的邊緣硬體正在走同一條路。實體算力的門檻在過去幾年已大幅降低，讓「大腦在本地執行」從成本考量來看也愈來愈可行。

技術上，這一波機器人能力的突破，核心在於VLA（Vision-Language-Action）模型架構的確立。VLA把三條原本獨立的訊號—視覺感知、語言指令理解、動作輸出—整合進同一個神經網路，讓大語言模型的推理能力得以遷移到機器人的動作決策上。

過去的機器人控制是一任務一模型，抓取、搬運、組裝各有專屬系統，換了場景或換了物件就得重新訓練，缺乏彈性且成本高昂。VLA打破此一架構：操作者可以用自然語言描述任務，模型自主分解成動作序列並執行，即便是訓練時未見過的物件或場景，也有一定的應對能力。開源模型中，openVLA在同一個模型架構下跨平台操控多種機械手臂，展示通用操作策略的可行性；Physical Intelligence的π₀以超過1萬小時的跨平台遙控操作資料預訓練，針對新任務微調只需1至20小時。「一個模型跨場景泛化」這個問題，在過去一年內開始有了系統性的肯定答案。

討論機器人時，往往侷限在機械手臂的操作能力上。但在真實工作場景中，「走到目標地點」與「對它做什麼」是同等重要、缺一不可的能力。這個組合在學術界稱為mobile manipulation——同時具備移動底盤與操作手臂的機器人平台，才能提供更多彈性與能力。

想像一個倉儲場景：機器人能自主移動到正確的貨架，辨識目標物件的位置，伸手抓取，再移動到指定放置點。每一個步驟都需要精確的空間理解與動作協調。固定式機械手臂只能解決「操作」這半題；移動平台加上操作手臂，才是開啟更多可能性。

要讓機器人在非受控環境中自主移動，導航（navigation）是必須解決的基礎能力，而導航的前提是建圖（mapping）—機器人必須先建立對所在空間的三維理解，才能規劃路徑、避開障礙。

早期的機器人導航依賴預先設定的固定路線或QRcode地標，彈性極低。SLAM（Simultaneous Localization and Mapping，即時定位與地圖建構）技術讓機器人能在移動中同步建立環境地圖並定位自身，是目前主流的導航基礎。更近期的發展方向是語義地圖：不只知道「那裡有一個障礙物」，而是理解「那是一張椅子、那是工人、那是臨時堆放的棧板」，進而做出更合理的路徑判斷。這個方向與VLA的語言理解能力高度相輔：機器人不只在幾何空間中移動，而是在語義空間中理解環境。

商業部署的訊號已出現。電動車廠的整車組裝線與零組件倉儲，是目前規模最大的機器人商業場域；歐美汽車廠與第三方物流業者也已在工廠與配送中心導入機器人，更有彈性、擬人化的執行零件搬運，商業場域的試驗已陸續展開。多家國際投資銀行的分析指向同一個方向：實體（Physical AI）所面對的，是整個製造業、物流業、服務業工作流程的重新配置，而非單一產品市場的擴張。

誠實評估目前的限制，是避免高估或低估這波趨勢的必要功課。第一個問題是電池：目前機器人的續航約2至4小時，工廠班次通常8至12小時，補充電力需要停機，這在連續生產場景中是結構性缺口。電池能量密度的提升是化學問題，不是軟體問題，很難靠演算法突破。第二個問題是長尾場景的泛化：在受控環境下，機器人已能可靠完成標準任務，但工廠地板的一攤水、歪掉的零件箱、訓練集未見過的新產品，仍常造成失誤。工業場景的容錯空間遠低於實驗室，這個缺口目前尚未被系統性地填補。第三個問題是靈巧操作（dexterous manipulation）：人類手部的精度與柔順性，在精密組裝、電子製程等場景中，仍遠超現有機械手的能力。

從GPT-1到ChatGPT（2022年底，版本為GPT-3.5），語言模型花了四年半。機器人領域的「GPT-1時刻」大約發生在2022至2023年前後，VLA概念開始被系統性驗證；我們現在大約處於GPT-2.x時刻。這裡比的是能力發展的軌跡，而非模型規模。機器人還多了一道語言模型不需要面對的約束：再強的模型，最終仍須壓縮到本地端執行，受算力、功耗、延遲的硬性限制，這是VLA需要額外跨越的障礙，語言模型當年並不需要面對。

不過，GPT-2.x並不意味著要等。從結構固定的重複性作業，到桌面操作的彈性取放，到自主移動與場域導航，再到多工協作、人機共同執行任務，乃至需要一定推理能力的複雜流程輔助；不同成熟度的技術，對應不同層次的導入機會，不必等到全面成熟才能創造價值。這個階段，對觀望者而言似乎還早，但對決定在哪個節點進場的人而言，這可能是領先班車的最後一個上車點了！

機器人的ChatGPT時刻？

徐宏民國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

邦博士快訊

讓AI代理為企業全面賦能 - 規劃財務轉型之路

機器人的ChatGPT時刻？

徐宏民 國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

邦博士快訊

讓AI代理為企業全面賦能 - 規劃財務轉型之路

徐宏民國立台灣大學資訊工程學系教授