具身自感知的小世界架構

內部物理模型、本體同步與 Agentic 自主管理 —— 技術白皮書

EveMissLab 技術白皮書。本文是《通用人體運動物理引擎（UHMPE）的數學基礎》的工程落地篇，亦是《內家拳的數學架構》五層框架在真實機器人上的投影。前序論文處理「為什麼」與「是什麼」（公式與定理），本文處理「怎麼落地」（架構與工程）。全文不含數學推導，數學骨架另見《內家拳數學架構：因果與公式骨架》。

1. 導論：一個不對稱性，與一個缺口

當前所有的虛擬與半虛擬世界——遊戲、模擬器、數位孿生、乃至機器人的內部模擬——都共享一個深層的不對稱性：物體遵守物理，人（與類人的主動體）不遵守。 一輛車碰撞會依動量守恆變形，一棟建築倒塌會產生符合重力的碎片，但一個被擊中的角色，播放的是一段預錄或拼接的動畫。物體的行為由物理定律生成，主動體的行為由腳本回放。這個不對稱是虛擬世界「不可信」的根源，也是機器人「不會自己動」的根源。

機器人領域把這個缺口具體化為一個古老但未解的問題：機器人如何知道自己會怎麼動？ 不是被動地被力推動（那是牛頓力學，早就解決了），而是主動地預判——「如果我這樣發力、這樣移重心，半秒後我的身體會在哪、會不會失衡、會不會撞到」。傳統控制器靠一個內部的線性化模型走一步看一步；但真實的高動態運動（行走、操作、受擾恢復、與環境的複雜接觸）需要的不是一步預測，而是一個能被反覆查詢、能跑反事實、能在出錯時自我修正的內在世界。

當前主流的做法停在三條路上，每條都繞過了物理。其一是動作捕捉：預錄真人動作，靠插值拼接組合——它的盲點是無法應對未預錄的情境，被不同角度、不同力度擊中時，回放的是固定的受擊片段，而非物理生成的反應。其二是布娃娃物理（ragdoll）：讓身體變成被動的關節骨架，受力後癱軟——它的死亡動畫很真，但活人的主動動作完全不真，因為它只有被動、沒有主動控制。其三是程序化動畫與逆向運動學：調整肢體位置以達成目標姿態——它的盲點是只有運動學、沒有動力學，腳會在地面滑動、轉身沒有慣性，違反物理卻看不出哪裡違反。三條路的共同症結是：它們把人體當成被擺佈的對象，而非主動產生力以達成目標的系統。一個真正的解，必須讓主動體也像物體一樣，由統一的物理—控制—認知定律生成行為——這正是把運動從「回放」升級為「生成」、從運動學升級為動力學加控制論的起點。

本白皮書提出的架構，圍繞三個支柱：

其一，小世界——在機器人內部運行一個白盒的、可微分的物理引擎，作為它「想像自己」的推演器官，而非僅僅控制器的附屬模型。

其二，本體同步——用機器人自身的骨感傳導器（關節力矩、應變、觸覺）與外部感知（視覺、慣性），持續把這個內在模型錨回現實，壓住它與真身之間必然的漂移。

其三，Agentic 自主管理——以一個 agentic 的大型語言模型作為高層的自主管理者（orchestrator），調度上述兩者：決定何時推演、何時校正、信模型還是信感官、如何分解任務、何時介入快迴路。

需要在開篇就釘死一個界定：本文所稱的「agent」，指的是當前的 agent 技術（工具調用、規劃、反思、自主工作流調度），而非主體性、自我或意識的本體論概念。後者是否、何時從前者中湧現，是另一個層次的問題，本文不涉入。這裡談的是工程：用 agentic 技術，達成一套具身系統的自主管理。

2. 歷史脈絡：三條線的匯流

今天這套架構之所以可行，不是某一項突破，而是三條獨立發展了數十年的技術線，在算力、可微分性與 agentic 能力三個條件同時成熟後的匯流。理解這三條線，才能理解這個架構不是憑空的構想，而是順勢而成的結果。

2.1 物理引擎線：從遊戲到可微分

物理引擎最初為遊戲與電影特效而生。早期的剛體動力學引擎（如 ODE、Bullet、PhysX）擅長模擬剛體碰撞、流體、布料，目標是視覺可信而非物理精確，且運行在 CPU 上，速度受限。

機器人領域的轉折點是專用物理引擎的出現——它們把目標從「看起來對」轉向「算得準」，強調接觸動力學的保真度與控制可用性。接著是 GPU 並行化的浪潮：把成千上萬個模擬實例同時跑在顯卡上，讓強化學習的試錯成本從數月壓縮到數小時，這使「在模擬中訓練、再轉移到真實」的路線第一次具備工程可行性。

最近的、也是對本架構最關鍵的一步，是可微分物理。傳統物理引擎是黑箱：給它力、它吐出下一狀態，但你無法知道「狀態對力的梯度」。可微分引擎讓梯度能穿過模擬本身傳播，於是你可以用梯度下降直接優化控制器、辨識系統參數、做端到端的軌跡優化，而不必只靠無梯度的試錯。這把物理引擎從「被動的世界回放器」升級為「可被優化器反向操作的可導組件」——也正是小世界能成為 agent 推演器官的技術前提。

2.2 控制論線：從經典控制到基礎模型

控制論這條線走的是另一條路。經典控制（PID、狀態反饋）處理線性、低維、可解析的系統，靠負反饋維持穩定。當系統變得非線性、高維、多目標，基於模型的控制（model-based control）與模型預測控制（MPC）登場——它們的核心是控制器內部持有一個被控對象的模型，用來向前預測、選擇最優動作。這條線天然地需要一個「內部模型」，這個需求一直延續到今天。

當模型本身難以手工設計（高維非線性的人體運動就是典型），學習式控制接管：用強化學習從數據中學出控制策略。但這帶來了「模擬與現實的差距」（sim-to-real gap）——在模擬裡學的策略，部署到真實機器人上會因建模誤差、未建模動力學、磨損而失效。一整套技術（領域隨機化、系統辨識、在線適配）為彌合這個差距而生。

最新的形態是機器人基礎模型（robot foundation models）：用海量的人類示範影片與合成軌跡，預訓練出一個能跨任務、跨本體泛化的大模型，再用少量數據針對特定機器人後訓練。這條線把「控制」從「為每個任務手工設計」推向「一個大模型適配萬物」，但它的代價是對數據的飢渴。

2.3 自我模型線：從小腦到數位孿生到世界模型

第三條線最隱蔽，卻是這個架構的靈魂。它問的是：一個系統如何持有「關於自己」的模型？

最早的答案來自神經科學與控制論的交界——內部前向模型。小腦維護一個身體動力學的內部模型，用控制指令的副本（efference copy）預測動作的感覺後果，再拿實際感覺去比對；預測與現實的差，驅動校正與學習。這正是後來卡爾曼濾波器「預測—更新」循環的生物原型，也是本架構「內觀」一詞的真正出處。

工業界給出的版本是數位孿生（digital twin）：為一台實體設備建立一個持續同步的虛擬鏡像，用於監控、預測、優化。但數位孿生本質上是「實體 → 鏡像」的被動投影，是外部的觀測者視角，鏡像裡沒有「自己」。

AI 界給出的版本是世界模型（world model）：讓模型學習對環境演化的內部表徵，用於想像、規劃、生成。世界模型把「內部模型」從手工方程推向學習表徵，並第一次讓「在腦中模擬未來」成為可訓練的能力。

本架構要做的，是把這三條支線在「機器人對自身的模型」這一點上焊接：用可微分物理引擎（物理引擎線）提供白盒、可導的內在世界；用本體同步的預測—校正循環（自我模型線的小腦原型）持續錨定它；用基礎模型與 agentic 技術（控制論線的最新形態）統籌調度。

這三條線一旦焊接，產生的不是三個組件的並列，而是互相補強的閉環。物理引擎線提供的可微分性，讓自我模型線的預測—校正循環能用梯度高效更新內在模型，而非只靠試錯；控制論線的基礎模型與 agentic 技術，讓自我模型不再是被動同步的鏡像，而是被一個主動規劃者調用的推演工具；而自我模型線的內觀機制，又為控制論線的學習提供了持續的真實錨點，壓住基礎模型在分布外情境的漂移。三者缺一，架構就退化：少了可微分物理，校正退回慢速試錯；少了 agentic 管理，小世界退回被動的數位孿生；少了本體同步，內在模型退回開環的、必然發散的模擬。正是這三條線同時到位、且彼此咬合，才讓「一個能內觀、能校正、能自主管理的具身系統」第一次從各自獨立的技術碎片，收斂為一個可落地的整體。

2.4 一個更古老的錨點

值得一提的是，把「人類經過長期演化或訓練而優化的運動策略」系統性地形式化，並非始於現代。十六世紀的西班牙劍術體系 La Verdadera Destreza（真正的劍術科學）已嘗試用幾何學——圓、角度、距離——來形式化劍術。EveMissLab 的《內家拳的數學架構》延續這個傳統，把太極拳解構為五層的剛柔混合控制系統。本架構則是這個形式化的工程兌現：那五層（物理基礎、感知、控制、幾何、衝擊動力學）在真實機器人上，分別對應到小世界的物理求解、本體同步的狀態估計、agent 的控制決策、運動規劃，以及受約束的力輸出。換言之，這套機器人架構與那套武術數學，是同一具骨架的兩次投影。

2.5 為什麼是現在

三條線各自成熟已久，匯流卻要等三個條件同時到齊：算力（GPU 讓物理引擎能在機器人上實時跑、讓基礎模型能推理）、可微分性（讓白盒物理能接進學習管線）、以及 agentic 能力（讓語言模型能自主調度工具而非只是回答問題）。這三者在近一兩年才同時就位，這正是這個架構從「構想」變成「可落地」的時間點。

3. 核心架構：小世界、本體同步、Agentic 管理

3.1 小世界作為推演器官

架構的底座是一個運行在機器人內部的白盒物理引擎——一個機器人本體的縮小模型在其中持續模擬。稱它「白盒」，是因為它的主結構是可解釋的正式動力學（剛體、關節、接觸、力鏈），而非一個不透明的神經網路。稱它「小世界」，是因為它不只是控制器的一步預測模型，而是一個 agent 可以主動查詢、可以跑反事實的內在環境：「如果我把重心移到這裡會怎樣」「這三種動法哪種不摔」「感測器這一瞬間沒讀到，那依物理我現在大概在哪」。

把物理引擎定位為「agent 的想像」而非「控制器的 plant model」，不是命名遊戲——它改變了引擎要滿足的需求。作為 plant model，它只要準、快、可微。作為 agent 的推演器官，它還要能被高層語義查詢、能支持反事實 rollout、能在感測缺失時做物理外推（dead reckoning）。可微分性在這裡不只是為了訓練，更是為了讓內在模型可被優化器與校正算法操作。

一個自然的質疑是：既然數位孿生技術成熟，為何不把這個模型放在雲端，讓機器人連線查詢？答案在於這個模型的用途。數位孿生服務於外部的監控與分析，容忍網路延遲與間歇連線；而本架構的小世界服務於機器人自身的實時推演與校正，它必須在毫秒尺度上響應、必須在斷線時依然運作，因為一個需要靠雲端才能「知道自己怎麼動」的機器人，在連線中斷的那一刻就失去了自我感知。因此小世界必須在機上、必須是機器人自身的內在模型，而非外部的鏡像。這也是機上算力成為這套架構硬體前提的原因：它讓白盒物理引擎、殘差模型乃至部分 agentic 推理，都能在機器人本體上實時運行。內在與機上不是實現細節，而是「自感知」這個目標的內在要求——自我模型若不在自己身上，就不是自我模型。

3.2 白盒打底、黑盒補殘差

正式的解析動力學有一個眾所周知的局限：它依賴簡化假設——理想接觸、忽略的運動學迴路、剛體近似——而真實世界恰恰在這些被簡化的地方最不聽話。接觸尤其是震央：剛體接觸在數學上是瞬時的、奇異的，而真實的接觸是軟的、有粘彈性的、會滑移的，且機器人與世界的所有交互都發生在接觸點上。

解法不是放棄白盒，而是白盒打底、黑盒補殘差：用正式動力學承擔可解釋的主結構，用一個學習式的殘差模型（neural dynamics / residual learner）去補白盒模型與真實之間的差。這個範式已有成熟的工程形態——以一個學習式的神經動力學模塊，插入可微分物理引擎、替換或修正其求解器，並用真實世界數據持續微調。它的問題陳述與本架構完全一致：古典解析動力學不夠用，因為接觸被簡化、運動學迴路被省略、模型不可微；而學習式動力學恰好補上這些。

這裡的工程紀律是分權：白盒負責結構與可解釋性，黑盒只負責殘差。不要讓神經網路去學整個動力學（那會丟掉可解釋性與外推能力），也不要假裝白盒能獨自精確（那會在接觸處崩）。本架構特別主張：接觸層的白盒建模（粘彈性、軟硬耦合）應盡可能精細，因為這是 sim-to-real 差距最大、也是物理先驗最有價值的地方。

3.3 本體同步：把內在模型錨回現實

內在模型再精細也不是真身，跑久必然漂移。壓住漂移靠的是本體同步——一個持續的預測—校正循環。

機器人的骨感傳導器（關節力矩、應變、觸覺手）提供低延遲、近場準確的本體感覺（proprioception），外部感知（視覺、慣性測量）提供全局的外感覺（exteroception）。內在模型基於控制指令預測「我應該感覺到什麼」，實際感測讀回「我實際感覺到什麼」，兩者的差驅動對狀態估計的校正——這正是小腦前向模型的工程實現，也是內觀的字面意義：機器人靠比對自己的預測與自己的感覺，來判斷自己實際在怎麼動。

一個必須正視的限制是可觀測性。骨感傳導器只能觀測部分狀態：接觸點摩擦、外部擾動、滑移等量，無法純從本體感覺反推，它們落在不可觀測的子空間，會無界漂移。因此本體感覺必須與外部感知互補——哪個感測器在哪個狀態下主導，是一個隨情境變化的決策（近場貼合時信本體與觸覺，遠場全局時信視覺與慣性）。這與五層框架中「感知模態切換」的結論同構：不是偏好，是不同感測器在不同狀態下的不確定性此消彼長所決定的。

3.4 Agentic 自主管理

最上層是一個 agentic 的語言模型，作為整套具身系統的自主管理者。它的工具集是：小世界物理引擎（跑推演）、感測讀取（取感知）、殘差校正器（修模型）、底層控制器（執行動作基元）。它自主地運行管理循環：感知當前狀態，判斷情境，規劃子目標，調用物理引擎推演候選動作，選擇方案，下發給控制器，監測本體感覺，偵測預測誤差，決定是否要重新推演或校正模型，處理異常。整個過程不需要人在迴路裡逐步下令——這是 agentic orchestration 套到具身系統上的核心：系統自己管自己。

這裡的「自主管理」是工程意義的自主調度（autonomous orchestration），不是本體論意義的自主性。agent 是這套系統的管理者，用 agentic 技術完成感知—規劃—推演—執行—校正的閉環，而把「它是否有自我」這個問題留在門外。

3.5 一個完整循環

設想一個具體情境：機器人要跨過一道半膝高的障礙。把這套架構跑一遍，能看清各層如何協作。

管理層的 agent 從任務「到達障礙另一側」出發，分解出子目標：抬腿、跨越、落地、恢復平衡。對「跨越」這一步，它調用小世界——讓內部的自體模型以幾種不同的抬腿高度與重心軌跡各跑一次推演，看哪一種在落地時零力矩點仍落在支撐面內、且不撞到障礙。這是反事實查詢：機器人在動之前，先在腦中試動幾次。

選定方案後，agent 把它作為子目標下發給快迴路。快迴路以千赫茲執行：底層控制器產生力矩，殘差模型校正白盒物理與真實致動器之間的差，內在模型同步預測「此刻我的腳應該在哪、應該感覺到多大的地面反作用力」。抬腿過程中，骨感傳導器讀回實際的關節力矩與觸覺。若實際與預測一致，循環平順推進。若落地瞬間觸覺讀到的反作用力遠大於預測——可能障礙比模型以為的高，或地面比模型以為的硬——預測誤差被偵測。此時，狀態濾波即時修正「我實際在哪」，而 agent 在較慢的尺度上判斷：這是一次性擾動，還是模型對地形的假設錯了？若是後者，它觸發一次模型校正（但校正的數值由確定性算法算，不由 agent 估）。

整個過程中，安全層恆常運行：任何會讓零力矩點越出支撐面、或超出力矩與加加速度限制的動作，在下發前被駁回——即使那是 agent 規劃出來的。機器人在一個被約束圍住的可行域內，自主地完成了跨越。這個循環也讓三個支柱的分工一目了然：小世界提供「我會怎樣」的推演，本體同步提供「我實際如何」的校正，agent 提供「我接下來該怎麼做」的決策，而約束層提供「我絕不能怎樣」的底線。

4. 三層時間尺度與分層自主

把 agentic 管理落到具身系統上，最先撞到的硬牆是時間尺度。agentic 語言模型的決策週期是秒級——它要推理、要調用工具、可能要多輪交互；而底層運動控制是千赫茲級。一個秒級的管理者不可能逐個控制週期都插手。

正確的結構是分層自主，三層三個時間尺度：

最快的一層是運動控制閉環（物理引擎 + 殘差模型 + 底層控制器），運行在千赫茲，自己閉環、自己穩定，不等任何人。中間是 agent 的管理循環，運行在秒級，負責設定子目標、選擇策略、決定何時校正模型、處理異常、在需要重規劃時介入——但它不下每一個力矩。最底下是一層恆常的安全約束（下節詳述），對任何動作做硬性過濾。

這個分層的工程原則是：agent 是 manager，不是 micromanager。 它管理的是那些快迴路，而非取代它們。「agent 自主管理」絕不等於「agent 控制每個動作」，而是「agent 自主地管理那些自己閉環的快迴路」。這個 fast/slow 的分層在業界已有成熟先例——以「快思的反射動作模型」搭配「慢思的語言推理規劃模型」的雙系統架構，正是這個原則的商品化。而這個秒級對千赫茲的拉扯本身，是一個資源約束問題：agent 的「管理頻寬」受其決策延遲與算力預算的硬限制，它能管多細，是有上界的。

關於模型校正的權限分配，本架構主張一條紀律：給 agent 語義權，不給數值權。 「這次偏差是擾動還是模型錯了」「要不要校正」「是不是換了地形」——這些語境判斷交給 agent，它能處理規則寫不出來的情境。但語言模型對連續物理量的數值估計不可靠，所以校正的數值執行（算出殘差、辨識參數值）必須留給確定性算法。agent 決定「要校正」，算法決定「校正成多少」。讓語言模型去估一個摩擦係數或粘性係數，會讓內在模型慢性中毒。

5. 關鍵工程挑戰

本架構不掩飾它的難點。以下是落地時最會出問題的幾處，每一處都附帶它的緩解方向。

接觸動力學是 sim-to-real 的震央。 內在模型在自由空間（揮手、擺臂）會很準，一碰到地面或物體就可能偏，因為接觸是被簡化得最厲害的地方。緩解方向是把接觸層的白盒建模做精——引入粘彈性與軟硬耦合，而非停在剛體接觸——並讓殘差模型重點補接觸區。這也是物理先驗最有價值的投資點。

可觀測性的死角。 本體感覺有不可觀測子空間，純靠它會漂。緩解方向是強制外部感知補位，並依情境動態決定感測器主導權，不在任何單一感測器上孤注一擲。

雙重估計的發散風險。 「預測自己怎麼動再校正」隱含兩個可校對象——校狀態估計（我實際在哪）與校模型參數（我的模型錯在哪）。兩者一起在線做（聯合估計），在可辨識性不滿足時會互相污染：狀態誤差被錯灌進參數，參數誤差又回頭污染狀態，整個發散。緩解方向是分離時間尺度：在線只做狀態濾波、凍住參數，離線再批次做系統辨識。

Agentic 自主的可驗證性。 agentic 管理最大的工程隱患，是 agent 會生成無法預先窮舉的決策序列，在具身系統裡這直接等於物理風險。緩解方向是約束包絡（下節），讓 agent 在一個被形式化邊界圍住的可行域內自主，越界決策被硬性駁回。

內觀的自我強化陷阱。 用控制指令副本（efference copy）預測感覺後果再比對，是內觀的核心；但若內在模型本身錯了，efference copy 會用控制指令去自我確認那個錯誤——預測與（被同一個錯模型解釋的）感覺彼此印證，越錯越自信。緩解方向是讓真實感測（特別是外部 ground truth）定期強制錨定，不讓內觀變成內爆。

保真度與速度的根本權衡。 內在模型要在機上實時跑，就受算力預算硬約束；而提高保真度（更細的接觸、更多自由度、更精的軟組織）必然增加計算成本。一個太慢的內在模型來不及在控制週期內給出推演，一個太粗的內在模型推演結果不可信。緩解方向是模型降階與多分辨率：訓練時用高保真模型、部署時用降階模型，並讓殘差模型學習從降階到高保真的補償；對 agent 的反事實推演，可以用更粗但更快的模型快速篩選候選，僅對選定方案用高保真模型精算。這個權衡沒有免費的解，它本質上是把有限算力在「跑得準」與「跑得快」之間分配——而這個分配，本身又是 agent 可以根據情境動態調整的管理決策（高風險動作多花算力求準，低風險動作省算力求快）。

6. 約束包絡：把自主關進可行域

第五節反覆指向同一個解：安全約束包絡。這是本架構與《內家拳的數學架構》最直接的接點，也是那套數學在工程上身分轉變的地方。

在原論文裡，那組約束是用來描述武術的物理極限：平衡的零力矩點必須落在支撐面內，力矩輸出受功率—時間窗口的耦合所限，動作的加加速度（jerk）受生理組織所容忍——這也是為什麼高階運動軌跡傾向於圓與螺旋，因為那是在 jerk 約束下分散衝擊的最優幾何。在本架構裡，這同一組約束的角色變了：它們不再只是建模，而是agent 自主管理的安全包絡。

具體地說，agent 規劃出的任何動作，在下發到底層之前，都要過一層恆常的安全過濾：平衡約束（重心/零力矩點不得越出支撐面）、力矩限制（不得超出致動器與結構容許）、加加速度限制（不得產生會自損的瞬時衝擊）。agent 在這個被約束圍出的可行域內自由發揮，但任何踏出邊界的決策被硬性駁回。自主，但有界。

這給了本架構一個別處難得的性質：自主管理的安全性，不依賴 agent 本身可靠，而依賴包絡焊得夠死。 agent 可以犯錯、可以生成奇怪的計劃，但只要安全層的形式化邊界正確，物理風險就被擋在可行域之外。換言之，管理權之所以敢交給一個不完全可預測的 agent，正是因為邊界由確定性的不等式守著，而非靠信任那個管理者。

值得說明約束從何而來、以及它如何隨機器人而變。這些邊界不是任意設定的安全餘量，而是源於三類確定的物理與工程事實：平衡的邊界來自機器人的支撐幾何（腳掌尺寸、站姿），力矩的邊界來自致動器的規格與結構強度，加加速度的邊界來自機械與電子部件所能承受的瞬時衝擊。因此同一套約束框架，套到不同的機器人本體上，會自動實例化出不同的可行域——一個重心低、底盤寬的機器人有更大的平衡裕度，一個致動器更強的機器人有更大的力矩空間。這意味著安全包絡不是寫死的數字，而是一個由機器人物理參數參數化的、可隨本體調整的形式化模板。當機器人因磨損、負載或損傷而改變時，這些邊界也應隨之更新——而這正是本體同步在安全層的延伸：機器人不只校正「我在哪」，也校正「我能做到什麼」。

7. 產業現狀：一條被巨頭鋪成高速公路的路

必須誠實地說：本架構描述的每一塊，產業界（尤以 NVIDIA 為核心）過去一兩年幾乎都做成了商品，且大部分開源。理解現狀，才能找到自己該站的位置。

可微分物理引擎：NVIDIA 與 Google DeepMind、Disney Research 共同開發、並貢獻給 Linux Foundation 的 Newton，是一個 GPU 加速、可微分、開源（Apache-2.0）的機器人物理引擎，建在 NVIDIA Warp 之上、以 MuJoCo-Warp 為主要後端，支持剛體、布料、顆粒與軟硬耦合等多種求解器。這正是本架構所謂「小世界」可微分引擎的現成實現。

白盒+黑盒的神經動力學：Newton 生態中的 Neural Robot Dynamics（NeRD）是一個學習式機器人動力學模塊，可插入引擎替換求解器、並用真實數據微調，已在四足與機械臂上驗證。它的問題陳述——古典解析動力學因簡化接觸、省略運動學迴路、不可微而不足——與本架構第三節的主張一字命中。這是「白盒打底、黑盒補殘差」的現成範式。

Agentic 雛形：NVIDIA 的 Isaac GR00T 是人形機器人基礎模型，採雙系統架構：一個快思的動作模型負責反射式的連續控制，一個慢思的視覺語言模型負責推理環境與指令、規劃動作，再由前者譯成具體動作。最新版本以一個語言模型作為其推理骨幹。這正是本架構第四節「分層自主」的商品化——雖然它目前仍偏向一個反應式策略（policy），而非一個完整的自主管理 agent。

世界模型與資料生成：NVIDIA Cosmos 系列（已演進到統一視覺推理、世界生成與動作生成的版本）作為世界基礎模型，用於生成合成軌跡、補足真實示範數據的稀缺。機上算力：Jetson Thor 提供機器人本體上的實時推理與控制算力。整套以「成為機器人界的 Android」為策略，透過 Linux Foundation 與開源框架（如與 Hugging Face 的 LeRobot 整合）構建生態。

換言之，從可微分引擎、神經動力學、雙系統 agentic 雛形、世界模型到機上算力，本架構的每一塊都有對應的、且大多開源的產品。這既是壓力，也是機會。

特別值得辨析的是 agentic 這一塊的成熟度。現有的雙系統基礎模型，雖然引入了語言推理作為慢思層，但整體仍偏向一個反應式策略：給定觀測與指令、輸出動作，慢思層做的是任務內的推理規劃，而非跨任務的持續自主管理。它離本架構所設想的 agentic 管理層還差幾步：缺少對自身內在模型對錯的反思（它不顯式維護一個可校正的白盒自體模型，也不決策「何時該校正模型」）；缺少跨回合的任務狀態維持（它的規劃多在單次任務的時域內，而非作為一個持續運行、持續調度的管理者）；以及，它的「世界」是學習出來的隱式表徵，而非一個可被反事實查詢的白盒物理引擎。這些差距不是缺陷，而是本架構的著力點：把慢思層從「任務內規劃」升級為「持續的自主管理」，把隱式世界模型替換或補充為可查詢的白盒小世界，並讓管理層顯式地對「我的內在模型錯在哪」做決策。這也再次印證了路線的分野——基礎模型在把 policy 越做越強，而本架構在補上從 policy 通往 agentic 自主管理所缺的那幾塊：可校正的白盒自我模型、跨回合的管理持續性、以及對自身模型的反思權。

8. 定位與差異化：別鋪平行的柏油

面對一條被巨頭鋪成高速公路的路，單幹者最不該做的就是去鋪一條平行的柏油——那是紅海，且打不過。真正的位置在別處。

要看清本架構的位置，先把它放進機器人運動智能的範式光譜裡。一端是純解析控制：完全依賴手寫的動力學與控制律，可解釋、可驗證，但在高維非線性與複雜接觸前手工設計幾乎不可能，且對未建模的真實世界脆弱。另一端是純端到端學習：用神經網路從數據直接學出感知到動作的映射，能處理解析方法搞不定的複雜性，但是黑箱、需海量數據、外推能力差、且難以給出安全保證。數位孿生取了中間的一種：維持一個與實體同步的高保真模型用於監控與預測，但它是外部視角的被動鏡像，本身不做自主決策，也不從內部持有「自己」。基礎策略（foundation policy）是當前的主流賭注：用海量數據預訓練一個跨任務泛化的大模型，靠規模取勝；它能 scale，但對數據飢渴、可解釋性弱、安全包絡難以形式化。

本架構取的是一條混合的路：白盒解析動力學提供可解釋的主結構與可形式化的安全邊界，學習式殘差補上解析方法搞不定的接觸與未建模項，agentic 層提供超越固定策略的自主規劃與反思，而本體同步的預測—校正循環讓內在模型持續對齊現實。它放棄了純基礎策略的可規模性，換來三樣東西：可解釋（白盒主結構）、可驗證的安全（形式化約束包絡）、以及不依賴海量數據的冷啟動（物理先驗加結構先驗）。對一個以數學與架構為核心競爭力、而非以數據與算力取勝的實驗室，這個取捨是清醒的。

巨頭走的是數據驅動的基礎策略（data-driven foundation policy）：用海量人類示範影片與合成軌跡，訓練一個吞數據的大模型，靠規模泛化。本架構的差異化恰恰在巨頭用數據硬淹、卻沒從第一性原理講清楚的那一層——可解釋的白盒接觸與粘彈性建模，以及把人類長期優化的控制策略作為結構先驗灌入。前者讓內在模型在接觸處可信，後者（如武術五層那種被數百年實戰退火過的剛柔策略）為學習提供物理上有意義的先驗，而非從零吞數據。

這兩條路是互補而非競爭：白盒接觸層可以作為可微分引擎的一個自定求解器插件，結構先驗可以作為神經動力學的物理先驗或基礎模型的獎勵塑形。EveMissLab 的優勢在於能為了目標持續迭代數學方法與耦合層——而開源引擎的整個可擴展性（自定求解器、軟硬耦合、自定約束）正是為這種第一性原理的迭代而開的門。

更務實地說，本架構不必、也不該從零造輪子。可微分引擎、神經動力學模塊、機上算力、乃至 agentic 雛形都已是開源或可取得的組件。正確的策略是站在這個生態之上，把力氣集中投在自己有獨特優勢的兩個薄層：一是接觸與粘彈性的白盒建模，作為引擎的自定求解器插入——這是 sim-to-real 差距最大、而通用引擎為求泛化往往做得粗糙的地方；二是把領域特定的、人類長期優化的控制策略形式化為結構先驗——這是純數據驅動的基礎模型難以憑空學到、卻能大幅降低學習成本與提升安全性的東西。換言之，不與生態爭做底座，而是為底座補上它最薄弱、也最需要第一性原理的那兩層。這種定位的好處是：既享有開源生態的全部基礎設施，又把自己的有限資源押在不可被輕易複製的差異化上——數學的深度與架構的洞察，而非數據的規模與算力的堆疊。

還有一層更根本的分野，但要小心地只在工程意義上講：巨頭的基礎模型本質上是 policy（輸入多模態、輸出動作的反應式映射），而本架構追求的是 agentic 自主管理（一個能規劃、能反思自己模型對錯、能跨回合維持任務狀態的管理層）。這是路線的不同，不是優劣的判定——data-driven policy 能 scale、像生意；first-principles 的白盒先驗加 agentic 管理不吞數據、不好 scale，但它換來可解釋性、可驗證的安全包絡，以及不依賴海量數據的冷啟動能力。對一個資源有限、但數學與架構是其核心競爭力的實驗室，後者才是該佔的位置。

結語

這套架構最終的工程紀律，可以收束成一句反直覺的話：自主管理之所以敢把權力交出去，不是因為那個管理者可靠，而是因為它腳下的邊界焊得夠死。 一個內觀的機器人，最大的危險從來不是看不見世界，而是太相信自己想像的那個自己——所以小世界跑得多準從來不是安全的來源，它肯多頻繁地讓真實的本體把想像錨回地面，才是。三層時間尺度、白盒與黑盒的分權、語義權與數值權的分離、約束包絡對自主的圍堵——這些看似是限制，實則是讓「自主」這件事第一次變得可被信任的條件。

巨頭把高速公路鋪好的時候，單幹者該做的不是去鋪平行的路，而是去算清楚那條高速公路底下、沒人願意算的地基力學。本架構的全部賭注，就押在這層地基上：白盒的物理、可解釋的接觸、被約束守護的自主、以及把人類退火過的策略當先驗的那一份耐心。

需要強調的是，本白皮書描述的是架構與原理，不是已驗證的結論。每一個支柱、每一條緩解方向，都是在工程上有依據的設計選擇，但它們的真正成色——內在模型能否在機上實時跑得夠準、本體同步能否壓住漂移、agentic 管理能否在約束包絡內穩定地自主運作、白盒接觸層能否顯著縮小 sim-to-real 差距——都要靠實際搭建與運行來檢驗。理論指導實現，實現反過來驗證並修正理論：這不是線性的路徑，而是螺旋上升。先建立正式的模型動力學，再讓 AI 即時校正與填補，然後在真實機器人上跑，看它哪裡偏、哪裡崩，回頭改數學與耦合層——這個迭代本身，既是工程的推進，也是論文完整度的提升。

能不能跑出來，要等實際跑了才知道——但路是存在的，而且，它底下的配方，剛好在手裡。

附錄 A：Agentic 管理層的內部結構

本附錄深化正文第 3.4 與第 4 節。正文把 agentic 管理描述為一個自主調度者；本附錄展開這個調度者「內部如何決策」——它不是一個靜態的指揮層級，而是一個按需切換計算強度的動態結構。以下內容是白皮書主體成形後的架構演進，記於此作為設計備忘，尚待實作檢驗。

A.1 不用靜態 Agent 樹作常態：Multi-Agent 的切分鐵律

當代 agent 技術已能派生子 agent，自然會想到把管理層做成一棵 agent 樹——主 agent 委派職責給專門的子 agent。這個能力有用，但用在具身控制上有一條不可違背的鐵律：切分軸要按時間／抽象層級，絕不能按身體空間。

直覺的錯誤分法是按身體部位切：一個子 agent 管腿與移動、一個管手與操作、一個管頭與感知。這在具身系統裡是致命的，原因正是正文反覆引用的 Level 0 原理——身體是「整」，平衡是全身閉鏈的事，力鏈貫通全身。移動改變平衡、平衡影響操作精度，一個物理上耦合的身體不可分解。把它切給各自為政的子 agent，會讓每個子 agent 的局部最優組合成全局災難：步態 agent 求穩、操作 agent 求快，合起來就是摔。軟體任務可以乾淨並行，因為子問題獨立；具身控制不行，因為身體是一個不可拆的整體。

正確的分層軸，主論文已經給出——戰略層、戰術層、執行層。multi-agent 的正確形態，是把這個時間—抽象的三層實例化為一棵淺的 agent 樹：最慢的戰略 agent 負責任務分解與長程協調；中速的戰術 agent 可按任務模式（移動、精細操作、受擾恢復）而非身體部位劃分，但同一時刻只有一個主導全身；最快的執行層不是 agent，而是那個不可拆的全身快迴路。子 agent 在認知層分而治之，物理控制層保持單一、整體、不委派。

這條鐵律帶三個推論。其一，agent 樹必須淺：每多一層 agent，決策鏈就多一層推理延遲——主 agent 派、子 agent 想、結果上報整合，這條鏈太深，自主管理就跟不上物理；樹的深度受反應窗口硬約束，與正文的功率—時間耦合同源。其二，委派不是免責：多 agent 不是免費並行，子 agent 的協調、整合、決策權劃分都有成本，在強耦合系統裡這個成本可能吃掉並行的好處，值不值要看省下的思考並行度是否超過多出的協調開銷。其三，安全包絡必須全局，置於所有 agent 之下：它過濾的是全身綜合動作的合法性，而非單一子 agent 的局部動作，任何子 agent 都不得繞過——否則局部理性會合成全局的不理性。

一句話收束：認知可以分，身體不能分。

A.2 快思／重想決策樹：把「慢想」從時間軸校正到算力軸

比靜態 agent 樹更貼合具身需求的，是一個按計算強度動態切換的決策結構：平時用快思（低算力巡航、反射式響應），判斷到關鍵時刻才切入重度思考。

這裡必須糾正一個借來的術語埋下的陷阱。沿用「快思／慢想」會誤導，因為傳統的「慢想」其慢在時間——費力、拖長；但在具身系統裡，需要重度思考的關鍵時刻，恰恰是時間最緊的時刻（正文 Level 4 那個僅數十毫秒的失穩窗口）。把最費時的思考放在時間最緊的窗口，是架構性的自相矛盾。

因此本架構把「慢想」重新定義為「重想」：關鍵時刻不是切到慢，而是算力全開、讓重度決策急速通過。 它認知上重（深度推演、調用更大的計算資源），但時間上急（以算力換時間，把決策壓縮進窗口內）。這正是正文功率—時間耦合在計算層的同構——關鍵決策同樣受「算力功率不足則來不及」的約束，需要的是算力的功率而非思考的時長。它對應主論文的 SOFT→HARD 切換：HARD 從來不是慢慢發力，而是在窗口內爆發最大功率；計算層的 HARD 就是算力瞬間全開的爆發式決策。

於是管理層的常態不是一直全功率思考，而是大部分時間低算力巡航、僅在被觸發時瞬間全開。這把「省算力」與「關鍵時刻夠力」這對看似矛盾的需求調和了：平時省，關鍵時爆。

A.3 底空間：觸發門控與記憶自適應

快思與重想之間的切換，需要一個專門的承載結構——本架構稱之為「底空間」。它是觸發門控所居的底層空間：一個輕量、常駐於快思層的監控器，持續評估「當前處境是否關鍵」，一旦越過閾值就引爆全功率的重想。

底空間用廉價的信號做這個評估，這些信號在正文與主論文裡都有對應量：內在模型的預測誤差（預測與本體感覺差得越大，越該升級）、狀態估計的不確定性（越不確定越該重想）、接近安全包絡邊界的程度（越接近越該全力）、以及當前情境相對於記憶的新異度（越陌生越該謹慎）。它對應主論文混合自動機的守衛條件，但有一個關鍵升級：守衛條件裡的臨界閾值，在原論文是寫死的參數，在這裡必須是記憶自適應的。

記憶自適應的意思是：底空間從過去的切換結果學習——哪些情境下快思漏掉了本該升級的關鍵時刻（事後證明出了問題），哪些情境下白白全開燒了算力（事後證明沒必要），用這些經驗持續校準觸發邊界。換言之，那個臨界閾值從固定常數，升級為一個學來的門控策略；記憶在底空間裡累積，自適應地塑造「何時引爆」的那條線。

這個門控有兩個必須守住的工程約束。其一，兩類錯誤的代價極不對稱：漏觸發（關鍵時刻沒升級到全功率，來不及，導致摔或撞）在具身系統裡是物理災難，而誤觸發（沒事也全功率，燒算力、動作可能過激）只是浪費加小風險，兩者代價差一個量級。因此記憶自適應應當偏保守——寧可多誤觸發，不可漏一次。這也回答了主論文裡臨界閾值該設多敏感的問題：往敏感一側偏。

其二，底空間自身必須極輕。它常駐、持續運行，若它本身就重，「平時省算力」的前提就破了——不能用一個昂貴的監控器去決定何時該昂貴地計算。於是整個系統的算力分配呈現一個清晰的層級：廉價的常駐監控（底空間），加上按需引爆的昂貴爆發（全功率重想）。底空間的全部工藝，就在於用最便宜的信號，準確地賭中那個該把算力全開的瞬間。

這三節描述的，本質上是同一件事在三個層面的展開：管理層不是一個固定的指揮結構，而是一個按需調配計算強度的動態系統——它平時輕、關鍵時重，靠記憶學會何時該重，並始終被全局的安全包絡圍著。它與正文的關係是：正文給了 agent 一個「管什麼」的職責，本附錄給了它一個「何時用多大力氣去管」的內部時鐘。而這個時鐘的節律，與全篇反覆出現的那條規律是同一條——關鍵時刻要的是功率，不是時長。

原始檔（供 RAG/下載）：/raw/lm-000314.md [md] · id: lm-000314