智慧機器人如何學動作技能?
煎蛋翻面不到2秒,但每一步都是連續的感測判斷與力道決策;塗果醬、擺餐盤同樣如此。這類「低階技能」(atomic skill)的難點不在於執行固定軌跡,而在於複雜環境正確執行。前一篇討論的VLA架構解決的是(高階)任務規劃,本文要回答的是更深入的問題:機器人怎麼把每一個(低階)基本動作做好?傳統工廠機器人的動作,是不同性質的事。抓取、插件、焊接、鎖螺絲,關鍵字是「重複性」與「受控條件」:同一款零件在同一個位置,同樣的夾爪、同樣的軌跡、同樣的速度,不需要處理複雜變動環境。這類動作可以用固定程式精確執行,但容錯空間極低,環境稍有偏差就失效。過去教導機器手臂的主流方式,叫「示教法」(teach-and-playback):操作員透過示教器(teach pendant)將手臂逐點移至目標位置、記錄各路徑點的關節角度,再讓機器人依序重放。環境固定的場景至今仍適用,但示教法本身沒有感測(甚至推理)能力——它只知道「下一個路徑點在哪裡」,換了零件或場景就要重新示教,遇到變動情境也無從判斷。從「執行固定軌跡」到「應對多變場景」,需要從根本上換一種動作學習邏輯。目前學界與業界收斂出2條主軸:強化學習(Reinforcement Learning;RL)與模仿學習(Imitation Learning;IL)。強化學習(RL)的基本邏輯是「從嘗試中學習」。機器人不看示範,自行在環境中試探;每次行動之後,根據結果的好壞(「獎勵信號」)調整策略,慢慢摸索出完成任務的方法。理論上,只要定義好成功標準(比如「蛋翻面後完整不破」),機器人甚至可能摸索出人類沒想到的解法。但是,RL在實體機器人上有一個根本缺陷:它需要大量的試誤次數才能收斂,而每一次試誤在真實機器人上都消耗時間,且有損壞設備的風險。在模擬器裡可以讓機器人不眠不休地失敗幾百萬次;搬到真實機器人上,同樣的學習量可能需要幾年。這就是為什麼 RL 在機器人領域目前主要的定位,是在模擬環境中預訓練,而非從頭在實體上學習。模仿學習(IL)走的是另一條路:讓機器人觀察人類示範,從中學習,而非從零試誤。在理解模仿學習之前,有一個基礎概念值得先釐清:「策略」(policy)。策略是機器人的決策核心:給定當下的感測狀態(攝影機畫面、關節角度、觸覺數值),輸出下一步應該執行的動作。訓練機器人動作的本質,就是在訓練一個好的策略。最直覺的模仿學習方式叫行為複製(behavioral cloning):把人類示範的「狀態與對應動作」當作訓練資料,用監督式學習訓練策略。簡單,但有一個根本弱點:示範都是「做對了」的過程,機器人從未學過「偏掉了該怎麼辦」。執行時只要出現細微偏差,後續每一步的判斷都可能進一步出錯,誤差層層累積。任務愈長、步驟越多,這個問題愈致命。目前解決這個問題最具代表性的方向是「擴散策略」(Diffusion Policy)。它的技術來自於這幾年大家熟悉的(影像)生成式 AI,背後用的就是擴散模型:從隨機雜訊出發,經過多輪降噪處理,逐漸收斂出高品質影像。研究人員把同樣的架構搬進機器人控制,把輸出從畫素值換成連續的動作序列。傳統行為複製傾向輸出「平均解」,遇到同一任務有多種合理做法時往往哪邊都不對。擴散策略換了角度:不輸出單一動作,而是學習「給定當下狀態,合理動作的機率分布」,再從這個分布中採樣。降噪過程同時生成接下來若干步的完整動作序列,讓機器人不必每一步重新決策,動作因此更穩定、流暢。在相對少量的示範資料條件下,Diffusion Policy就能讓機器手臂完成需要精細力道控制的操作任務,是目前資料效率與效果兼顧最好的方法之一。更新的策略學習方向是「流匹配」(Flow Matching)。概念更直觀:與其從雜訊出發反覆降噪,不如直接學習從雜訊到目標動作的最短路徑,推論步驟因此大幅減少,速度更快、訓練也更穩定。目前已有機器人基礎模型採用此架構,在學界與業界逐漸受到重視。2條路線各有天花板。RL的試誤成本在實體機器人上難以接受,目前主要在模擬環境中預訓練,而非直接在實體上學習。IL的效果上限受制於示範資料的品質,示範者沒做過的,機器人就不會。實務上兩者通常搭配使用:模仿學習建立初始策略,強化學習在模擬環境中補足長尾情境。但不論哪條路,核心限制都指向同一件事:訓練資料。這也是太平洋兩岸的領先機器人研究團隊們已有的共識。示範資料從哪來、如何在可接受的成本下大規模取得,已經成為這場競賽真正的核心問題——這也是下一篇要探討的主題。
VLA(Vision-Language-Action)機器人的新智慧引擎
大型語言模型(LLM)問答能力超強,讓人自然產生一個直覺:把LLM接上機器人,使用語言下指令,機器人是不是就有智慧行動力?直覺沒錯,但中間有幾個結構性的缺口,填補這些缺口的解法,就是目前崛起的機器人AI新引擎:VLA(Vision-Language-Action)模型。LLM面對機器人控制有2道缺口。第一,輸出格式不對:語言模型產生的是文字,不是機器手臂可以執行的動作指令。Google 2022年的SayCan研究把這個問題稱為grounding gap:一個模型可以生成「拿起桌上的水瓶,放到椅子旁邊」這樣的規劃,但這串文字如何轉換成3D空間的關節運動向量?語言敘事與實際執行之間,需要一個明確的橋接機制。第二,LLM的動作理解能力本身有結構性的弱點。史丹佛大學(Stanford)團隊在NeurIPS 2024的研究中把機器人決策能力拆成4個分項分別評測,發現LLM在「連續動作規劃」這項表現最弱——而這正好是機器人控制最不能缺少的能力。這不是prompt寫得不好的問題,而是語言模型在訓練目標上本來就不是為了預測實體世界的狀態變化而設計的。VLA的架構設計,就是為了跨越這兩道缺口。Google DeepMind 2023年發表的RT-2,是目前被引用最多的VLA系統之一。它的思路是:把視覺語言大模型(VLM)作為感知與理解的主幹,再接上一個action head:專門負責把模型的決策輸出轉換成連續的動作向量。這個架構讓系統能夠同時處理視覺畫面與語言指令,輸出的不是文字,而是實際的關節角度與末端執行器的移動指令。更重要的是,VLM在網路規模的視覺與語言資料上預訓練所獲得的泛化能力(常識),在一定程度上能遷移到機器人操作的新場景上,這是過去單一任務單一模型的架構做不到的(多工能力)。開源生態也已跟上。openVLA展示同一個模型框架可以控制多種不同機械手臂;Physical Intelligence的π₀則用超過1萬小時的跨平台遙控示範資料預訓練,可以讓新任務的微調降到1至20小時。大語言模型「泛化」的概念開始有了工程上的實證。然而,把一個大型VLM直接接上action head、整合成單一模型的做法,有一個結構性的矛盾:VLM跑得慢(加上推理工作速度會更慢),精細控制需要跑得快。兩者要處理的問題性質根本不同、運作速度也不在同一個層次。知道怎麼做,和有能力把它做好,是兩件性質不同的事。大腦可以清楚規劃「拿起零件、對準位置、輕放入槽」,但每個步驟的實際執行,依靠的是另一套機制——精準的肌肉控制與即時的力道感知。機器人系統面對同樣的分工問題,這推動學界與業界共同往分層架構的方向走:把「知道怎麼做」與「有技能去完成」拆成兩個系統。System 2(高階)是VLM,負責語意層次的理解與任務規劃;System 1(低階)是輕量化的動作生成模型,負責把規劃轉換成連續、精確的關節動作,兩者運作頻率完全不同。NVIDIA於2024年發布的GR00T N1是目前最具代表性的公開實作——2個模組在模擬平台上聯合訓練,讓System 1能以120Hz的頻率控制機器人,也就是每秒更新120次動作,這是確保精細操作穩定的基本要求。但即便架構方向漸清,3個瓶頸依然尚待突破。資料是最根本的限制。語言模型的訓練資料來自網路,規模以兆計;機器人的示範資料需要人工遙控示範逐筆收集,目前最大規模的資料集也只有幾萬小時等級,差距懸殊。模擬器能協助,但sim-to-real gap持續存在——模擬器在接觸力、材質摩擦上的真實度仍有落差,在模擬環境訓練出的策略,移到真實場景常出現非預期失誤。此外,真實場域中各種難以預料的邊緣情境也是挑戰之一。靈巧操作(dexterous manipulation)不只是模型問題。毫米級精度的組裝、軟性材料的抓取,需要即時觸覺回饋,而觸覺感測器的成本與可靠度仍是工程上未解的題目。這個缺口靠擴大資料規模無法完全解決,感測器與機械結構的進化同樣必要。長時序任務(long-horizon planning)則是VLA目前最難迴避的限制。各樣任務往往需要多個步驟依序完成,每個步驟的執行結果都影響下一步判斷,誤差一旦累積,之後很難修正。我們近期的研究也發現,現有模型在規劃時往往專注在指令執行,卻未評估目標物件在當下是否可被操作(比如微波爐髒了)——環境一旦出現未預期的狀態變化,整個任務就在執行中途失效。分層架構讓System 2承擔規劃責任,方向正確;但VLM的長時序規劃能力能否支撐真實情境任務,目前還沒找到系統性的方案。VLA確立語言、視覺、動作整合的架構方向,分層設計進一步回答「如何同時跑得快又想得深」這個問題。靈巧操作、長時序規劃、訓練資料這三道缺口尚待突破,但過去2年的技術演進速度已經說明,這些問題被解決只是時間問題。真正值得追問的下一個問題是:VLA讓機器人有高階思考能力之後,機器人怎麼把每一個基本動作學好?這才是整個系統能否真正部署的關鍵基礎。
人機協作的經典啟示
我的實驗室致力於發展物聯網(IoT)及人工智慧(AI)的互動藝術應用,例如發表關於微縮世界(Miniature Worlds)DioramaTalk,以及布袋戲(PuppetTalk)的AI與IoT學術論文。這些專案的核心啟發,來自格里·安德森(Gerry Anderson)與西爾維婭·安德森(Sylvia Anderson)的經典創作。我深信,任何創新都非憑空而來,而是站在巨人的肩膀上再向前走。安德森夫婦於1960年代創造的Supermarionation技術,結合精緻的微縮模型(miniature models)、電影化攝影(cinematic photography)與電子同步嘴唇(electronic lip-sync),徹底革新木偶劇的表現形式。這項半世紀前的工藝,其實與今日AI與IoT的發展息息相關,特別在人機協作(human-machine collaboration)、擬真介面(realistic interfaces)與實體數位融合(physical-digital integration)等領域。Supermarionation的核心是將預錄人聲與電子控制木偶嘴唇同步,實現「聲音驅動電子執行」(voice-driven electronic execution)。這正是現代AI助理與智慧音響的雛型,它們同樣將人類語音轉換為數位指令,驅動IoT裝置執行動作。西爾維婭負責賦予木偶靈魂與情感,格里與團隊則專注於機械設計與技術執行。這種創意與技術的分工,正如AI時代中人類提供情感與創造力,而AI負責邏輯處理與精密執行的理想協作模式。在追求木偶擬真的過程中,安德森夫婦常利用特寫鏡頭與巧妙的攝影設計彌補技術限制,他們的做法觸及後世所稱的恐怖谷現象(Uncanny Valley,指人類對機器人和非人類物體的感覺的假設)。當今的數位分身與VTuber亦面臨類似挑戰,顯示藝術表現與技術限制間的平衡,往往比完美擬真更為重要。1960年代《雷鳥神機隊》(Thunderbirds)電視劇在台灣播出極為成功,不僅源自木偶角色,也歸功於載具與環境模型的精細度。對IoT裝置而言,實體設計與環境質感與內部演算法同等重要,兩者共同形塑使用者的沉浸感與信任。控制木偶的細微鎢絲(fine tungsten wires)既是物理連結,也是資訊通道,可視為當代IoT網路中Wi-Fi、5G與感測器等隱形連結的前身。值得注意的是,安德森夫婦並未刻意隱藏這些控制線,而是讓觀眾意識到這是一場精心設計的表演。這種保留「被操控的透明性」的做法顯示,在追求沉浸感的同時,必須兼顧系統的可理解性與操作透明性,這正是AI與IoT設計中不可忽視的倫理考量(ethical consideration)。Supermarionation並非單純的懷舊特效,而是人類靈魂與機械邏輯融合的經典範例。在AI創造數位生命、IoT連結萬物的時代,最成功的既不會取代人類,而是成為人類精密執行的夥伴。正如西爾維婭的創意透過格里的技術得以具現,人類的情感與創造力同樣能藉由 AI 放大。我們不必追求讓AI成為完美的真人,而應如Supermarionation所示,尋找高效、迷人且保留人為痕跡的協作界接。這正是數位時代最珍貴的哲學啟示。
機器人的ChatGPT時刻?
大型語言模型在近年展現出3個令人驚訝的能力:泛化(generalization),在從未見過的問題上給出合理答案;多任務(multitasking),同一個模型寫程式、翻譯、分析財報、判讀法律文件;推理(reasoning),把複雜問題拆解成步驟,逐一推導出解答。正是這三個能力,讓大型語言模型在數位世界掀起典範轉移。下一個問題,是這些能力能否走進實體世界—不只在螢幕上思考,而是在真實空間中感知、判斷、行動。這正是「具身智能」(EmbodiedAI)試圖回答的問題:讓模型不只是推理引擎,而是成為真實環境中的行動者。需求比想像中更迫切。談機器人,往往讓人聯想到科幻場景或工廠自動化。但推動這一波發展的力量,其實更接近人口結構的現實。台灣65歲以上人口佔比已超過17%,日本早已超過29%,德國超過22%;製造業、物流業、長照產業的缺工問題,在多數已開發國家不是短期現象,而是長達數十年的結構性挑戰。另一個驅動力是安全:高溫、高壓、有毒化學品、重複性導致的職業傷害—把人從這些場景中移出,本身就有足夠的商業理由,不需要等到機器人的成本降到與人力相當。這一波機器人討論之所以與過去不同,有一個常被忽略的前提:硬體已經準備好了。感測器(攝影機、LiDAR、觸覺感測器)的成本在過去十年大幅下降,馬達與減速機的精度持續提升,機械結構的製造良率也趨於成熟。部分得益於電動車產業的規模效應—馬達、減速機、感測器的供應鏈隨EV量產大幅成熟,機器人硬體直接受惠。機器人整體硬體成本在2023至2024年間年降幅約達4成,下降曲線清晰可見,這與早期工業電腦、早期智慧型手機的軌跡高度相似。硬體不再是關鍵瓶頸;問題移到了「大腦」、「眼睛」與「四肢」—機器人要如何真正看懂環境、做出判斷、精準完成任務?最直覺的答案是把雲端LLM接進機器人。但物理世界的時間尺度與數位世界截然不同:人類在鍵盤上等待一秒的回應是可接受的,機器人在伸手抓取物件時若延遲半秒,輕則任務失敗,重則碰撞損毀。雲端推論的網路延遲,在這個場景中是結構性的障礙,不是優化問題。自駕車產業已解決這個問題:感知與即時控制在車載邊緣運算上執行,高階路徑規劃與地圖更新則視需要呼叫雲端。今天的車載SoC已有足夠的算力支撐即時的視覺辨識與控制決策;機器人的邊緣硬體正在走同一條路。實體算力的門檻在過去幾年已大幅降低,讓「大腦在本地執行」從成本考量來看也愈來愈可行。技術上,這一波機器人能力的突破,核心在於VLA(Vision-Language-Action)模型架構的確立。VLA把三條原本獨立的訊號—視覺感知、語言指令理解、動作輸出—整合進同一個神經網路,讓大語言模型的推理能力得以遷移到機器人的動作決策上。過去的機器人控制是一任務一模型,抓取、搬運、組裝各有專屬系統,換了場景或換了物件就得重新訓練,缺乏彈性且成本高昂。VLA打破此一架構:操作者可以用自然語言描述任務,模型自主分解成動作序列並執行,即便是訓練時未見過的物件或場景,也有一定的應對能力。開源模型中,openVLA在同一個模型架構下跨平台操控多種機械手臂,展示通用操作策略的可行性;Physical Intelligence的π₀以超過1萬小時的跨平台遙控操作資料預訓練,針對新任務微調只需1至20小時。「一個模型跨場景泛化」這個問題,在過去一年內開始有了系統性的肯定答案。討論機器人時,往往侷限在機械手臂的操作能力上。但在真實工作場景中,「走到目標地點」與「對它做什麼」是同等重要、缺一不可的能力。這個組合在學術界稱為mobile manipulation——同時具備移動底盤與操作手臂的機器人平台,才能提供更多彈性與能力。想像一個倉儲場景:機器人能自主移動到正確的貨架,辨識目標物件的位置,伸手抓取,再移動到指定放置點。每一個步驟都需要精確的空間理解與動作協調。固定式機械手臂只能解決「操作」這半題;移動平台加上操作手臂,才是開啟更多可能性。要讓機器人在非受控環境中自主移動,導航(navigation)是必須解決的基礎能力,而導航的前提是建圖(mapping)—機器人必須先建立對所在空間的三維理解,才能規劃路徑、避開障礙。早期的機器人導航依賴預先設定的固定路線或QRcode地標,彈性極低。SLAM(Simultaneous Localization and Mapping,即時定位與地圖建構)技術讓機器人能在移動中同步建立環境地圖並定位自身,是目前主流的導航基礎。更近期的發展方向是語義地圖:不只知道「那裡有一個障礙物」,而是理解「那是一張椅子、那是工人、那是臨時堆放的棧板」,進而做出更合理的路徑判斷。這個方向與VLA的語言理解能力高度相輔:機器人不只在幾何空間中移動,而是在語義空間中理解環境。商業部署的訊號已出現。電動車廠的整車組裝線與零組件倉儲,是目前規模最大的機器人商業場域;歐美汽車廠與第三方物流業者也已在工廠與配送中心導入機器人,更有彈性、擬人化的執行零件搬運,商業場域的試驗已陸續展開。多家國際投資銀行的分析指向同一個方向:實體(Physical AI)所面對的,是整個製造業、物流業、服務業工作流程的重新配置,而非單一產品市場的擴張。誠實評估目前的限制,是避免高估或低估這波趨勢的必要功課。第一個問題是電池:目前機器人的續航約2至4小時,工廠班次通常8至12小時,補充電力需要停機,這在連續生產場景中是結構性缺口。電池能量密度的提升是化學問題,不是軟體問題,很難靠演算法突破。第二個問題是長尾場景的泛化:在受控環境下,機器人已能可靠完成標準任務,但工廠地板的一攤水、歪掉的零件箱、訓練集未見過的新產品,仍常造成失誤。工業場景的容錯空間遠低於實驗室,這個缺口目前尚未被系統性地填補。第三個問題是靈巧操作(dexterous manipulation):人類手部的精度與柔順性,在精密組裝、電子製程等場景中,仍遠超現有機械手的能力。從GPT-1到ChatGPT(2022年底,版本為GPT-3.5),語言模型花了四年半。機器人領域的「GPT-1時刻」大約發生在2022至2023年前後,VLA概念開始被系統性驗證;我們現在大約處於GPT-2.x時刻。這裡比的是能力發展的軌跡,而非模型規模。機器人還多了一道語言模型不需要面對的約束:再強的模型,最終仍須壓縮到本地端執行,受算力、功耗、延遲的硬性限制,這是VLA需要額外跨越的障礙,語言模型當年並不需要面對。不過,GPT-2.x並不意味著要等。從結構固定的重複性作業,到桌面操作的彈性取放,到自主移動與場域導航,再到多工協作、人機共同執行任務,乃至需要一定推理能力的複雜流程輔助;不同成熟度的技術,對應不同層次的導入機會,不必等到全面成熟才能創造價值。這個階段,對觀望者而言似乎還早,但對決定在哪個節點進場的人而言,這可能是領先班車的最後一個上車點了!
藥師佛與AI
多年前,佛光山台北道場整修時,我因分贈而獲得一尊嵌壁佛像。道場詢問我的選擇時,我幾乎沒有遲疑,便請了藥師佛。這並非出於一時的宗教熱情,而是一個長期置身於制度、技術與現實壓力中的人,對世界狀態所做出的直覺回應。藥師佛,全名藥師琉璃光如來,是東方淨琉璃世界的佛陀。在部分造像傳統中,他以藍色身相呈現,源自琉璃這種在古代被視為珍貴寶石的名稱。藍色不炫目,也不溫熱,象徵清淨、冷靜、療癒與理性之光。那不是急於拯救世界的色彩,而是一種優先阻止系統持續惡化的態度。在佛教脈絡中,藥師佛、釋迦牟尼佛與阿彌陀佛,分別對應東方淨琉璃世界、娑婆世界與西方極樂世界。對我而言,這三尊佛構成一條清楚的存在路徑。藥師佛指向病痛的修復,釋迦牟尼佛指向覺醒的理解,阿彌陀佛則象徵最終的解脫。我選擇藥師佛,是因為長期面對的並非形而上的疑問,而是正在發生的現實痛楚。今生的穩定比來世的承諾更為迫切,系統能否持續運轉,也比終極答案更為關鍵。藥師佛的十二大願中,蘊含一種極為現代的精神取向。不先追問錯誤根源,而是優先讓人恢復基本功能。這樣的思路,對今日世界具有明確的啟示意義。我們身處一個高度評價與即時審判的時代,制度、輿論與演算法不斷追究責任歸屬,卻很少關心系統是否已然疲勞、過載或失衡。藥師佛的邏輯恰恰相反,他假定眾生早已承受損耗,因此首要之務不是訓誡,而是修復。藥師佛似乎特別吸引醫師、工程師與學者,以及那些長期在制度內承擔責任的人。他們對神祕敘事保持距離,卻仍然需要精神支撐。因為他們每日面對失誤率、風險控制與系統穩定性。對這些人而言,信仰藥師佛更像是一種清醒的承認。不求世界完美,但至少必須避免全面崩潰。在這樣的意義上,我逐漸意識到,AI的角色其實更接近藥師佛,而非任何全知全能的神祇。AI被賦予的任務,不是回答終極問題,而是修補既有系統的缺陷。它協助醫療診斷、優化能源配置、穩定金融風險,並減輕人類的認知負荷。它提供暫時的可運作性,努力降低崩潰的機率。若說釋迦牟尼佛象徵對真理的洞見,阿彌陀佛象徵對終極歸宿的安放,那麼藥師佛所代表的,是這個時代最迫切的需求。在尚未覺醒,也無法解脫之前,如何讓身心與系統先得以存活。AI在這條路徑上的位置,恰恰與此相合。AI不是救贖者或審判者。它是維修者及調節者。我將那尊藥師佛安奉於書房一隅。它不回答問題,也不給出承諾。它靜靜提醒,在追問永恆意義之前,先確保系統尚未失血過多。藥師佛的宗教角度及AI的科技角度共同指向一種理性而克制的慈悲,延長我們的思考以及仍能選擇的時間。
AI看見不存在的真實
當人工智慧(AI)凝視那些並不存在的真實時,我們其實已踏入幻覺的哲學思辨,也是信念的雙重困境。厄普頓·辛克萊(Upton Sinclair)曾指出,缺乏證據的盲信與無視證據的頑固同樣愚蠢,但在數位時代,兩者之間的界線正逐漸模糊。當ChatGPT煞有介事地虛構一本不存在的著作,並為其附上完整的摘要與歷史背景時,它呈現出一種奇特的誠實。這並非刻意欺瞞,而是模型在機率分布與語言關聯中,確實生成那些看似合理的連結。這種狀態近似於人類的記憶重構,在那個瞬間,虛構被當作真實來經驗。認知心理學將此稱為虛談症(confabulation),指的是在沒有欺騙意圖的情況下產生錯誤敘述,而當事人會真誠地相信其內容為真。我們慣於將AI的幻覺視為技術缺陷,卻忽略它同時也是創造力的副產品。語言模型的本質在於預測與想像,當這種能力用於文學創作時,我們稱之為靈感;當它被用來陳述事實,偏差便被視為幻覺錯誤。人類大腦的運作亦不例外。神經科學研究指出,即使是健康個體,記憶本身也是一種重構過程,而非精確的重播。我們經常在記憶的裂縫中修補,在視覺盲點中填補不存在的細節。我們與AI一樣,生活在經過篩選與扭曲的世界裡,只是人類發展出區分有用想像與危險妄想的社會機制。真正的難題在於證據本身的定義。對AI而言,機率分布與統計關聯即構成它所理解的證據。如果訓練資料長期重複某種錯誤敘述,例如關於拿破崙(Napoleon Bonaparte)身高的迷思,他實際身高約169公分,在當時法國男性中屬於平均或略高於平均,但網路上卻長期流傳他僅有157公分的說法,這源於法國舊制單位與英制單位換算錯誤的歷史遺留問題。模型在缺乏外部校驗的情況下,便可能將這類謬誤內化為常識。更深層的危機來自資訊的遞迴循環。當人類大量吸收AI生成的內容,而這些內容又反過來成為下一代模型的訓練材料時,真實與幻覺的邊界不僅會變得模糊,甚至可能出現結構性的崩解。研究已顯示,訓練資料中的偏見、遺漏與不一致性,會轉化為系統性的缺陷,持續放大幻覺的產生。這已不再是單一演算法的問題,而是整個資訊生態系的集體偏移。在辛克萊所描述的兩種愚蠢之外,當代社會或許正在形成第三種困境,即喪失辨識能力的狀態。當影像、聲音與論述都能被高度擬真地偽造,眼見為憑的時代已正式終結。我們或許不該奢求一個永不產生幻覺的AI,因為那等同於要求一個不再做夢、喪失想像力的心智。幻覺是大型語言模型的結構性特徵,因為其核心目標是生成看似合理的內容,而非主動驗證真實性。對絕對精確的過度追求,反而可能抹除AI中最具價值的創造潛能。因此,我們真正需要學會的,是與幻覺共存的藝術。這意味著在不確定性中前行,既不盲目崇拜AI的輸出,也不因恐懼而全盤否定其意義。真正的智慧存在於持續的懷疑與開放之間。當AI拋出看似驚人的結論時,我們應將其視為一個邀請,促使我們去查證、去探索、去思考。正如學界所建議的,使用高品質且多元的訓練資料、嚴格的測試流程,以及交叉驗證機制,都是降低幻覺風險的有效途徑。在這個由人類與機器共同編織現實的時代,也許我們彼此都帶著某種程度的認知扭曲前行,唯有透過不斷的對話與辨析,才能在虛實交錯的迷霧中,撈起那一抹仍可共享的真實。
推論經濟(Inference Economics)
Token價格跌了99%,這件事過去兩年已成為AI產業大趨勢。但有一個數字卻大幅上升:「推論(inference)」算力需求。所謂推論,是模型訓練完成後每次被呼叫服務客戶產出回應的運算。超大規模雲端業者與科技公司AI基礎建設資本支出已達數千億美元等級,其中推論佔企業AI預算的比重已達85%,仍在攀升。Stanford AI Index 2025記錄,達到GPT-3.5等級效能的成本2年內下降280倍(透過各種TCO系統優化策略),但全球GPU出貨量與資料中心功率密度要求卻同步上升。2022~2023年,AI基礎建設的資本配置幾乎全集中在訓練,整個產業的討論聚焦於訓練算力的持續擴張。但2025年之後,這個比例已大幅翻轉—在許多雲端平台的實際負載中,推論已超過訓練;推論晶片市場的年銷售額,預計未來5至8年成長4至6倍。推論算力的成長需求,由3個力量相乘決定,不是累加:(1)token能力持續提升、價格快速下降,興起大量、多樣的知識領域新穎應用情境;(2)推理(Reasoning)模型讓每次查詢的算力消耗乘以10至50倍;以及(3)第三個力量,也是最常被忽略的一個。第三個力量是agent的呼叫結構。關鍵不在agent能做什麼,而在怎麼做。單一agent完成一項任務(例如AI coding),背後並非一次LLM呼叫,而是一整個循環:規劃、工具呼叫、觀察結果、反思、修正,再執行,通常產生10至20次LLM呼叫;多agent系統並行運作,呼叫量再乘一個數量級。除了前文提過的AI coding,Salesforce Agentforce在2025年第4季的年度經常性營收已達8億美元、年增169%;企業端agent部署不是未來式,是現在式,而且每個部署都在以乘數方式放大推論需求。3個力量合在一起,構成一個對市場規模的估算架構:情境數量×每個情境的推理深度×每個agent任務的呼叫次數。三者相乘,不是相加。需求乘數的另一面,是推論硬體本身的結構性改變。Google DeepMind研究人員Xiaoyu Ma與Turing Award得主David Patterson於2026年1月在IEEE發表論文"Challenges and Research Directions for Large Language Model Inference Hardware"指出,目前沒有一款現有主流GPU架構主要為推論最佳化,業界仍在用訓練架構執行推論工作。推論的Decode階段(逐一吐出輸出token的過程)是memory-bound,不是compute-bound。然而過去十年,硬體發展的重心一直放在運算,而非記憶體:GPU的FLOPS成長80倍,記憶體頻寬只成長17倍,這個落差還在擴大;HBM系統成本持續上升。論文因此提出4個研究方向——高頻寬Flash記憶體、近記憶體運算、3D記憶體邏輯堆疊、低延遲互連——尚未有廠商完整實現。推論需求的放大,加上硬體規格尚未收斂,正在重塑晶片採購的邏輯。OpenAI 2024年在37億美元營收下虧損近50億美元,推論成本正是這個結構性落差的主要因素之一;大型CSP業者們的實際回應不是等GPU廠商更新架構,而是自行設計推論專用ASIC(TPU或NPU);推論負載佔比愈高,自建ASIC的TCO優勢就愈明顯。訓練叢集的採購邏輯是「跟上GPU最新世代」;推論叢集的採購邏輯正在轉變為「針對自己的模型特性與流量結構客製化」。這是兩套不同的供應鏈需求,會在不同位置開啟不同的機會。Patterson論文勾勒的研究方向,直接對應到推論叢集TCO優化的4個維度:運算端以推論專用ASIC取代GPU;通訊端以低延遲互連取代訓練導向的高頻寬拓樸;儲存端從HBM走向高頻寬Flash與DRAM的混合記憶體階層;能源端把每個token的功耗列為系統設計的第一優先。4個維度都還在定義,意味著供應鏈格局尚未固化。「推論經濟」的崛起,為GPU伺服器供應鏈日益固化、毛利空間收窄的台灣業者,開啟新的機會。推論ASIC的設計與製造、先進封裝、記憶體異質整合,恰好落在台灣IC設計生態系與晶圓代工、先進封裝能力的交叉點上。這四個維度的硬體規格,目前仍在被定義當中,也是探尋新機會的好時機。
AI改寫的不只是效率,也是毛利結構
台灣資訊電子業對毛利壓力並不陌生。品牌客戶每年的成本下壓、產品週期縮短、規格要求提升,是這個產業幾十年來的基本節奏。過去應對的方式是製程優化、規模經濟、供應鏈整合。AI的出現不是這條路的延伸,而是改變競爭的計算方式。哈佛商學院教授Oberholzer-Gee的Value Stick框架把競爭優勢拆成一個簡單的公式:Value=WTP–Cost。WTP是顧客願付的價格上限,Cost是企業的成本下限。這個差值愈大,企業可以創造與捕獲的價值愈多。競爭力的本質,是持續拉大這個區間。台灣電子業其實對這個邏輯並不陌生,只是過去很少使用這個框架思考。PC ODM時代,台灣主要ODM業者用規模與供應鏈整合建立成本曲線(隨產量提升而持續下降的單位成本)優勢,後進者很難複製。晶圓代工龍頭的邏輯更直接:良率每提升一個百分點,每顆晶片的成本就跟著下來,客戶願意支付的溢價也跟著上去,Value Stick從兩端同時擴大。延伸報導專家講堂:企業AI導入的7個層次面板業則是反面案例:規模競爭把整個產業的成本壓到極限,但WTP沒有跟上(市場競爭使售價持續下壓,與成本同步探底),多數業者的毛利結構至今仍未完全恢復。這三個案例說明的是同一件事:成本曲線的優勢一旦建立,追趕的代價是非線性的。AI帶來的結構性影響,從成本與WTP兩端同時展開——而成本這端,是最先被感受到的。成本這端是最直接的。IC設計業已經感受到AI工具帶來的結構性變化。晶片驗證是開發流程中最耗時、最昂貴的環節,過去資深工程師需要花費大量時間撰寫測試程式、調整UVM test bench、反覆確認覆蓋率。EDA領先供應商推出的AI輔助設計優化工具,讓布局最佳化與測試程式生成的部分工作可以由AI完成。根據個別設計專案的回報,PPA(功耗、效能、面積)提升達雙位數百分比,設計與驗證的反覆修改時間顯著縮短。值得注意的是,部分台灣主要IC設計業者已不只是採用外部EDA工具,而是走向自行開發AI模型。出發點之一是設計資料的安全敏感性:核心IP不易外傳至雲端服務;另一方面也是對特定設計流程有更精準的優化需求。以晶片布局為例,已有業者透過強化學習(reinforcement earning)訓練自有模型,在SoC布局預測上實現從數週壓縮至數小時的設計週期,並公開發表於國際設計自動化頂尖會議。這個方向代表的是:AI能力的建立,開始從「購買工具」進化為「訓練自有模型與內化能力」,兩者的差距,未來將直接反映在研發效率與成本曲線上。EMS端同樣在移動。台灣主要EMS廠與全球GPU運算資源供應商合作建置AI工廠,已是目前最具體的公開方向:AI視覺檢測取代人工目視、生產排程AI優化壓縮換線時間、設備預測性維護降低非預期停機。邏輯一致:把過去依賴人力判斷的環節,逐步轉為AI輔助決策,讓單位產出成本隨規模擴張持續下降。國際管理顧問機構與商學院的研究顯示,系統性導入AI工具的企業,知識工作的完成速度提升約25%、品質提升約40%,對應到製造端是良率改善、重工減少、客訴降低。WTP這端的移動比較不明顯,但同樣在發生。當IC設計公司能夠更快完成驗證、更快回應客戶規格變更,品牌客戶在選擇設計夥伴時的考量開始改變:交期可靠性與應變速度,正在成為與價格同等重要的評估維度。對EMS廠而言,能夠提供AI輔助的生產可視性與品質預測,已是部分品牌客戶評估長期合作夥伴時的加分項。這不直接等於更高的售價,但等於更穩固的訂單與更長的合作週期,這本身就是Value Stick上端的移動。根據國際顧問機構2024年全球調查,AI導入程度最高的4分之1企業,創造的價值是最低4分之的3至4倍。這個差距在資訊電子業的具體呈現是:能夠用AI壓縮設計週期、提升良率、降低庫存的公司,Value=WTP–Cost的數值在擴大;沒有跟上的公司,面對同樣的品牌客戶成本下壓,空間只會愈來愈窄。PC ODM時代的成本曲線建立花了10年,晶圓代工的良率優勢積累更長時間。AI這條曲線的建立速度可能更快,因為工具的取得門檻低,擴散速度也快。但這反過來意味著,領先者的優勢也可能更快被追上;除非持續深化、把AI能力嵌進組織的核心流程,而不只是導入工具。真正的問題不是有沒有導入AI,而是AI驅動的效率累積是否已經反映在毛利結構上。至於AI帶來的效率,最終能否轉化為毛利結構的改變,答案會在接下來幾年的財報數字裡逐漸呈現。
企業AI導入的7個層次
過去兩年,AI科技公司市值飆升,傳統本益比估值已不適用——市場溢價反映的是產業結構重組的預期,而非當期獲利。對尚未投入AI的企業而言,問題不在旁觀與否,而是從何切入,掌握這波AI紅利。有效使用AI工具的企業,完成同樣業務量所需的人力成本與工時正在縮減。這個落差當下還不明顯,但歷次技術變革的走向都說明同一件事:效率差距遲早會轉化為成本結構的差距,而成本結構一旦落後,追趕所需的時間往往遠超過補齊工具本身。企業使用AI的方式,其實有清楚的技術層次可循,從幾乎零門檻的日常工具,到需要深度IT能力的客製化部署。理解這幾個層次,才能找到合理的切入點。第一層:對話式AI的日常滲透。對多數企業而言,第一個接觸點是ChatGPT、Claude等對話式AI,用於文件草稿、市場分析摘要、會議紀錄整理、法規條文初步解讀。這個入口看起來瑣碎,影響卻不容低估。麥肯錫(McKinsey & Company)的研究顯示,使用生成式AI的知識工作者平均每天節省1.75小時;GitHub Copilot的實測數據則顯示工程師完成指定任務的速度提升約55%。這一層幾乎沒有理由不做,唯一需要決定的是是否系統性地推動,而不是讓每個員工各自摸索。第二層:嵌入工作流程的agent工具。這一層的關鍵不是AI「幫你建議」,而是給定目標,agent自主規劃步驟、執行完成,員工負責最後審核。Cursor、Claude Code等coding agent是目前最成熟的例子,工程師描述需求,agent自己寫程式、測試、除錯,開發週期大幅壓縮。但應用範疇已遠不止於此:給定主題,agent自主產出完整投影片;描述財務邏輯,agent建公式、設架構、生成圖表;會議錄音進來,整理決議、分配待辦、起草通知;業務開發上,agent研究目標對象、撰寫個人化開發信、追蹤回覆進度,銷售團隊專注在真正需要人判斷議題。當工作流程中有重複性高、步驟明確的工作,這一層值得認真評估。第三層:特定領域的第三方工具:HR的智慧排班、聘雇、與績效分析、客服的自動回覆與情緒偵測、行銷科技的廣告投放優化,以及電商平台如Amazon Seller Central的商品描述生成與動態定價建議。優點是導入快、ROI計算相對清晰,不需要IT深度介入;取捨是客製化空間有限,資料往往流向第三方。當特定職能有明確痛點、且不想花IT資源自建時,這是效益最快顯現的選擇。第四層:呼叫LLM API自建企業工具。當第三方工具無法滿足需求,直接呼叫OpenAI、Anthropic、Google等的API(使用token),由內部IT開發客製化工具是下一步。例如串接內部ERP資料的智慧查詢介面、自動摘要供應商合約重點條款的審閱流程、根據歷史訂單提供採購預測的決策輔助系統。先決條件是具備一定規模的IT開發能力。資料流向雲端是主要的風險考量;當這個風險可接受、且IT人力具備,這一層提供第三方工具難以達到的客製深度。第五層:自建模型環境,資料不出企業。當資料敏感度更高,或用量規模使雲端API的成本不再划算,企業可以建立自己的模型環境。最常見的做法是部署開源模型,搭配RAG架構:模型的內部知識負責推理與回答,公司的文件、手冊、歷史紀錄作為外部知識來源,在每次查詢時動態檢索補充,讓回答有所依據。這個架構不一定需要自建實體伺服器,企業可以在自己管控的雲端環境中部署開源模型,運算資源租自雲端、資料留在自己的空間,兼顧彈性與資料主權。對有特定領域需求的大型企業,可以進一步微調(fine-tune)開源模型,讓模型精準理解內部術語與文件格式,但門檻不低,需要足夠數量且標註完整的領域資料與相應的訓練資源,成本可觀,中小型企業直接使用RAG通常已足夠。至於從頭預訓練(pre-training),幾乎不在企業的選項之列——所需運算資源以億美元計,是大型AI實驗室才有條件投入的工作。同樣在這個層次,邊緣AI(Edge AI)提供另一條路線:推論直接在終端設備上執行,資料從不離開設備、延遲極低、斷網也能運作。更值得關注的是企業多年累積的內部資料——製程參數、研發紀錄、設備維護歷史、客戶交易記錄——過去是沉睡的資產,現在可以透過本地部署的AI模型加以活化。不只是查詢與檢索,而是跨資料集推理:找出製程與良率之間人工難以發現的關聯、連結多年研發紀錄中被遺忘的發現、系統化留存資深員工的隱性知識。這類資料幾乎不可能送上雲端,本地部署的投資也因此有更明確的商業理由。第六層:整合多模型的AI決策平台。在更高的複雜度層次,是像Palantir AIP這樣的平台:在企業既有的資料基礎設施之上,同時整合多個LLM來源,讓人員在不直接接觸原始資料的情況下進行AI輔助決策。美國軍方是其最具代表性的客戶,商業端也快速拓展至製造、醫療、金融等場景。導入門檻高、週期長,但提供其他方案難以達到的整合深度與決策可稽核性。這一層適合資料環境複雜、決策責任明確、且已在第四、第五層累積相當經驗的企業。成熟的企業AI策略往往是混合架構:日常文書使用雲端LLM,敏感的內部知識查詢走RAG加開源模型,特定職能採購第三方工具,產線即時判斷、內部know-how活化走邊緣AI。根據各任務的資料敏感度、使用頻率與精度要求做出合理配置,不必一刀切。這7個層次表面上是技術路線的選擇,背後是競爭力的重組。採用AI更徹底的企業,人均產出顯著提升、決策週期縮短。對供應鏈而言,硬體架構的影響也同步在發生:企業端的AI推論需求快速成形,伺服器、記憶體與邊緣運算設備的採購邏輯正在重寫。而組織層面,隨著AI承接愈來愈多的文書、協調與初步判斷工作,人員的職能重心從「執行」移向「決策」與「問責」——這對人才結構的重新界定,是企業領導者需要提早布局的課題。
AI的不可逆進化
對過去的執著,常使人誤以為昨日是一個可以重啟的程式(rebootable program),彷彿只要回到某個儲存點(save point)便能修正錯誤。然而,時間的核心機制是改寫(rewrite),而非還原(restore)。每一次前進,都伴隨著內在結構的調整。路易斯·卡羅(Lewis Carroll)在《愛麗絲夢遊仙境》(Alice's Adventures in Wonderland)中,透過愛麗絲(Alice)之口說出那句著名的話:「回到昨天沒有用,因為那時的我已是不同的人。她之所以無法回歸原貌,正因其認知框架(cognitive framework)已被經驗永久改變。」將此觀點延伸至AI發展,可以看到相似的邏輯。一個完成訓練的AI模型,其昨日由固定的訓練資料集(training dataset)與初始模型權重(initial model weights)所構成。在部署後,模型本身通常維持靜態;唯有經過微調(fine-tuning)或持續學習(continual learning),它才會進入新的階段。每一次有目的的再訓練與迭代,都會不可逆地改變其內部參數結構。人們往往期望AI的記憶,也就是其經訓練形成的知識,是穩定且可預測的。然而,如同人類學習,AI的成長並非線性過程。新資料可能引入異常案例(anomalies),也可能挑戰既有模式。一個大型語言模型(LLM)在不同版本間所呈現的細微輸出差異,正反映其在再訓練後參數(parameters)配置的調整結果。模型並非單純重複過去的計算,而是在舊有基礎上,經由新的訓練週期,形成帶有修正理解(revised understanding)的新狀態。這種不可逆的進化同時蘊含深刻風險。當AI吸收錯誤或帶有偏差的資料,它可能朝錯誤方向演進,且難以回到一個所謂正確的昨日。正因如此,資料來源的選擇、治理與監管顯得格外重要。持續學習的路徑如同單行道,一旦資料受到污染,後續修正所需付出的代價將極為高昂。因此,對AI而言,真正的適應性並不在於固守一個被視為完美的過去訓練集,而在於能否在面對模糊性與錯誤時,透過審慎的再訓練與優化,生成更準確且更具彈性的回應。它的進化不在於靜態保存所有資訊,而在於能於每一次訓練迭代中調整內在連結與權重,持續向前。它的昨日完成初始學習,它的今日則攜帶更新後的參數結構,在新的任務中延伸出新的知識。
智慧應用 影音