具身自感知的小世界架構
內部物理模型、本體同步與 Agentic 自主管理 —— 技術白皮書
EveMissLab 技術白皮書。本文是《通用人體運動物理引擎(UHMPE)的數學基礎》的工程落地篇,亦是《內家拳的數學架構》五層框架在真實機器人上的投影。前序論文處理「為什麼」與「是什麼」(公式與定理),本文處理「怎麼落地」(架構與工程)。全文不含數學推導,數學骨架另見《內家拳數學架構:因果與公式骨架》。
1. 導論:一個不對稱性,與一個缺口
當前所有的虛擬與半虛擬世界——遊戲、模擬器、數位孿生、乃至機器人的內部模擬——都共享一個深層的不對稱性:物體遵守物理,人(與類人的主動體)不遵守。 一輛車碰撞會依動量守恆變形,一棟建築倒塌會產生符合重力的碎片,但一個被擊中的角色,播放的是一段預錄或拼接的動畫。物體的行為由物理定律生成,主動體的行為由腳本回放。這個不對稱是虛擬世界「不可信」的根源,也是機器人「不會自己動」的根源。
機器人領域把這個缺口具體化為一個古老但未解的問題:機器人如何知道自己會怎麼動? 不是被動地被力推動(那是牛頓力學,早就解決了),而是主動地預判——「如果我這樣發力、這樣移重心,半秒後我的身體會在哪、會不會失衡、會不會撞到」。傳統控制器靠一個內部的線性化模型走一步看一步;但真實的高動態運動(行走、操作、受擾恢復、與環境的複雜接觸)需要的不是一步預測,而是一個能被反覆查詢、能跑反事實、能在出錯時自我修正的內在世界。
當前主流的做法停在三條路上,每條都繞過了物理。其一是動作捕捉:預錄真人動作,靠插值拼接組合——它的盲點是無法應對未預錄的情境,被不同角度、不同力度擊中時,回放的是固定的受擊片段,而非物理生成的反應。其二是布娃娃物理(ragdoll):讓身體變成被動的關節骨架,受力後癱軟——它的死亡動畫很真,但活人的主動動作完全不真,因為它只有被動、沒有主動控制。其三是程序化動畫與逆向運動學:調整肢體位置以達成目標姿態——它的盲點是只有運動學、沒有動力學,腳會在地面滑動、轉身沒有慣性,違反物理卻看不出哪裡違反。三條路的共同症結是:它們把人體當成被擺佈的對象,而非主動產生力以達成目標的系統。一個真正的解,必須讓主動體也像物體一樣,由統一的物理—控制—認知定律生成行為——這正是把運動從「回放」升級為「生成」、從運動學升級為動力學加控制論的起點。
本白皮書提出的架構,圍繞三個支柱:
其一,小世界——在機器人內部運行一個白盒的、可微分的物理引擎,作為它「想像自己」的推演器官,而非僅僅控制器的附屬模型。
其二,本體同步——用機器人自身的骨感傳導器(關節力矩、應變、觸覺)與外部感知(視覺、慣性),持續把這個內在模型錨回現實,壓住它與真身之間必然的漂移。
其三,Agentic 自主管理——以一個 agentic 的大型語言模型作為高層的自主管理者(orchestrator),調度上述兩者:決定何時推演、何時校正、信模型還是信感官、如何分解任務、何時介入快迴路。
需要在開篇就釘死一個界定:本文所稱的「agent」,指的是當前的 agent 技術(工具調用、規劃、反思、自主工作流調度),而非主體性、自我或意識的本體論概念。後者是否、何時從前者中湧現,是另一個層次的問題,本文不涉入。這裡談的是工程:用 agentic 技術,達成一套具身系統的自主管理。
2. 歷史脈絡:三條線的匯流
今天這套架構之所以可行,不是某一項突破,而是三條獨立發展了數十年的技術線,在算力、可微分性與 agentic 能力三個條件同時成熟後的匯流。理解這三條線,才能理解這個架構不是憑空的構想,而是順勢而成的結果。
2.1 物理引擎線:從遊戲到可微分
物理引擎最初為遊戲與電影特效而生。早期的剛體動力學引擎(如 ODE、Bullet、PhysX)擅長模擬剛體碰撞、流體、布料,目標是視覺可信而非物理精確,且運行在 CPU 上,速度受限。
機器人領域的轉折點是專用物理引擎的出現——它們把目標從「看起來對」轉向「算得準」,強調接觸動力學的保真度與控制可用性。接著是 GPU 並行化的浪潮:把成千上萬個模擬實例同時跑在顯卡上,讓強化學習的試錯成本從數月壓縮到數小時,這使「在模擬中訓練、再轉移到真實」的路線第一次具備工程可行性。
最近的、也是對本架構最關鍵的一步,是可微分物理。傳統物理引擎是黑箱:給它力、它吐出下一狀態,但你無法知道「狀態對力的梯度」。可微分引擎讓梯度能穿過模擬本身傳播,於是你可以用梯度下降直接優化控制器、辨識系統參數、做端到端的軌跡優化,而不必只靠無梯度的試錯。這把物理引擎從「被動的世界回放器」升級為「可被優化器反向操作的可導組件」——也正是小世界能成為 agent 推演器官的技術前提。
2.2 控制論線:從經典控制到基礎模型
控制論這條線走的是另一條路。經典控制(PID、狀態反饋)處理線性、低維、可解析的系統,靠負反饋維持穩定。當系統變得非線性、高維、多目標,基於模型的控制(model-based control)與模型預測控制(MPC)登場——它們的核心是控制器內部持有一個被控對象的模型,用來向前預測、選擇最優動作。這條線天然地需要一個「內部模型」,這個需求一直延續到今天。
當模型本身難以手工設計(高維非線性的人體運動就是典型),學習式控制接管:用強化學習從數據中學出控制策略。但這帶來了「模擬與現實的差距」(sim-to-real gap)——在模擬裡學的策略,部署到真實機器人上會因建模誤差、未建模動力學、磨損而失效。一整套技術(領域隨機化、系統辨識、在線適配)為彌合這個差距而生。
最新的形態是機器人基礎模型(robot foundation models):用海量的人類示範影片與合成軌跡,預訓練出一個能跨任務、跨本體泛化的大模型,再用少量數據針對特定機器人後訓練。這條線把「控制」從「為每個任務手工設計」推向「一個大模型適配萬物」,但它的代價是對數據的飢渴。
2.3 自我模型線:從小腦到數位孿生到世界模型
第三條線最隱蔽,卻是這個架構的靈魂。它問的是:一個系統如何持有「關於自己」的模型?
最早的答案來自神經科學與控制論的交界——內部前向模型。小腦維護一個身體動力學的內部模型,用控制指令的副本(efference copy)預測動作的感覺後果,再拿實際感覺去比對;預測與現實的差,驅動校正與學習。這正是後來卡爾曼濾波器「預測—更新」循環的生物原型,也是本架構「內觀」一詞的真正出處。
工業界給出的版本是數位孿生(digital twin):為一台實體設備建立一個持續同步的虛擬鏡像,用於監控、預測、優化。但數位孿生本質上是「實體 → 鏡像」的被動投影,是外部的觀測者視角,鏡像裡沒有「自己」。
AI 界給出的版本是世界模型(world model):讓模型學習對環境演化的內部表徵,用於想像、規劃、生成。世界模型把「內部模型」從手工方程推向學習表徵,並第一次讓「在腦中模擬未來」成為可訓練的能力。
本架構要做的,是把這三條支線在「機器人對自身的模型」這一點上焊接:用可微分物理引擎(物理引擎線)提供白盒、可導的內在世界;用本體同步的預測—校正循環(自我模型線的小腦原型)持續錨定它;用基礎模型與 agentic 技術(控制論線的最新形態)統籌調度。
這三條線一旦焊接,產生的不是三個組件的並列,而是互相補強的閉環。物理引擎線提供的可微分性,讓自我模型線的預測—校正循環能用梯度高效更新內在模型,而非只靠試錯;控制論線的基礎模型與 agentic 技術,讓自我模型不再是被動同步的鏡像,而是被一個主動規劃者調用的推演工具;而自我模型線的內觀機制,又為控制論線的學習提供了持續的真實錨點,壓住基礎模型在分布外情境的漂移。三者缺一,架構就退化:少了可微分物理,校正退回慢速試錯;少了 agentic 管理,小世界退回被動的數位孿生;少了本體同步,內在模型退回開環的、必然發散的模擬。正是這三條線同時到位、且彼此咬合,才讓「一個能內觀、能校正、能自主管理的具身系統」第一次從各自獨立的技術碎片,收斂為一個可落地的整體。
2.4 一個更古老的錨點
值得一提的是,把「人類經過長期演化或訓練而優化的運動策略」系統性地形式化,並非始於現代。十六世紀的西班牙劍術體系 La Verdadera Destreza(真正的劍術科學)已嘗試用幾何學——圓、角度、距離——來形式化劍術。EveMissLab 的《內家拳的數學架構》延續這個傳統,把太極拳解構為五層的剛柔混合控制系統。本架構則是這個形式化的工程兌現:那五層(物理基礎、感知、控制、幾何、衝擊動力學)在真實機器人上,分別對應到小世界的物理求解、本體同步的狀態估計、agent 的控制決策、運動規劃,以及受約束的力輸出。換言之,這套機器人架構與那套武術數學,是同一具骨架的兩次投影。
2.5 為什麼是現在
三條線各自成熟已久,匯流卻要等三個條件同時到齊:算力(GPU 讓物理引擎能在機器人上實時跑、讓基礎模型能推理)、可微分性(讓白盒物理能接進學習管線)、以及 agentic 能力(讓語言模型能自主調度工具而非只是回答問題)。這三者在近一兩年才同時就位,這正是這個架構從「構想」變成「可落地」的時間點。
3. 核心架構:小世界、本體同步、Agentic 管理
3.1 小世界作為推演器官
架構的底座是一個運行在機器人內部的白盒物理引擎——一個機器人本體的縮小模型在其中持續模擬。稱它「白盒」,是因為它的主結構是可解釋的正式動力學(剛體、關節、接觸、力鏈),而非一個不透明的神經網路。稱它「小世界」,是因為它不只是控制器的一步預測模型,而是一個 agent 可以主動查詢、可以跑反事實的內在環境:「如果我把重心移到這裡會怎樣」「這三種動法哪種不摔」「感測器這一瞬間沒讀到,那依物理我現在大概在哪」。
把物理引擎定位為「agent 的想像」而非「控制器的 plant model」,不是命名遊戲——它改變了引擎要滿足的需求。作為 plant model,它只要準、快、可微。作為 agent 的推演器官,它還要能被高層語義查詢、能支持反事實 rollout、能在感測缺失時做物理外推(dead reckoning)。可微分性在這裡不只是為了訓練,更是為了讓內在模型可被優化器與校正算法操作。
一個自然的質疑是:既然數位孿生技術成熟,為何不把這個模型放在雲端,讓機器人連線查詢?答案在於這個模型的用途。數位孿生服務於外部的監控與分析,容忍網路延遲與間歇連線;而本架構的小世界服務於機器人自身的實時推演與校正,它必須在毫秒尺度上響應、必須在斷線時依然運作,因為一個需要靠雲端才能「知道自己怎麼動」的機器人,在連線中斷的那一刻就失去了自我感知。因此小世界必須在機上、必須是機器人自身的內在模型,而非外部的鏡像。這也是機上算力成為這套架構硬體前提的原因:它讓白盒物理引擎、殘差模型乃至部分 agentic 推理,都能在機器人本體上實時運行。內在與機上不是實現細節,而是「自感知」這個目標的內在要求——自我模型若不在自己身上,就不是自我模型。
3.2 白盒打底、黑盒補殘差
正式的解析動力學有一個眾所周知的局限:它依賴簡化假設——理想接觸、忽略的運動學迴路、剛體近似——而真實世界恰恰在這些被簡化的地方最不聽話。接觸尤其是震央:剛體接觸在數學上是瞬時的、奇異的,而真實的接觸是軟的、有粘彈性的、會滑移的,且機器人與世界的所有交互都發生在接觸點上。
解法不是放棄白盒,而是白盒打底、黑盒補殘差:用正式動力學承擔可解釋的主結構,用一個學習式的殘差模型(neural dynamics / residual learner)去補白盒模型與真實之間的差。這個範式已有成熟的工程形態——以一個學習式的神經動力學模塊,插入可微分物理引擎、替換或修正其求解器,並用真實世界數據持續微調。它的問題陳述與本架構完全一致:古典解析動力學不夠用,因為接觸被簡化、運動學迴路被省略、模型不可微;而學習式動力學恰好補上這些。
這裡的工程紀律是分權:白盒負責結構與可解釋性,黑盒只負責殘差。不要讓神經網路去學整個動力學(那會丟掉可解釋性與外推能力),也不要假裝白盒能獨自精確(那會在接觸處崩)。本架構特別主張:接觸層的白盒建模(粘彈性、軟硬耦合)應盡可能精細,因為這是 sim-to-real 差距最大、也是物理先驗最有價值的地方。
3.3 本體同步:把內在模型錨回現實
內在模型再精細也不是真身,跑久必然漂移。壓住漂移靠的是本體同步——一個持續的預測—校正循環。
機器人的骨感傳導器(關節力矩、應變、觸覺手)提供低延遲、近場準確的本體感覺(proprioception),外部感知(視覺、慣性測量)提供全局的外感覺(exteroception)。內在模型基於控制指令預測「我應該感覺到什麼」,實際感測讀回「我實際感覺到什麼」,兩者的差驅動對狀態估計的校正——這正是小腦前向模型的工程實現,也是內觀的字面意義:機器人靠比對自己的預測與自己的感覺,來判斷自己實際在怎麼動。
一個必須正視的限制是可觀測性。骨感傳導器只能觀測部分狀態:接觸點摩擦、外部擾動、滑移等量,無法純從本體感覺反推,它們落在不可觀測的子空間,會無界漂移。因此本體感覺必須與外部感知互補——哪個感測器在哪個狀態下主導,是一個隨情境變化的決策(近場貼合時信本體與觸覺,遠場全局時信視覺與慣性)。這與五層框架中「感知模態切換」的結論同構:不是偏好,是不同感測器在不同狀態下的不確定性此消彼長所決定的。
3.4 Agentic 自主管理
最上層是一個 agentic 的語言模型,作為整套具身系統的自主管理者。它的工具集是:小世界物理引擎(跑推演)、感測讀取(取感知)、殘差校正器(修模型)、底層控制器(執行動作基元)。它自主地運行管理循環:感知當前狀態,判斷情境,規劃子目標,調用物理引擎推演候選動作,選擇方案,下發給控制器,監測本體感覺,偵測預測誤差,決定是否要重新推演或校正模型,處理異常。整個過程不需要人在迴路裡逐步下令——這是 agentic orchestration 套到具身系統上的核心:系統自己管自己。
這裡的「自主管理」是工程意義的自主調度(autonomous orchestration),不是本體論意義的自主性。agent 是這套系統的管理者,用 agentic 技術完成感知—規劃—推演—執行—校正的閉環,而把「它是否有自我」這個問題留在門外。
3.5 一個完整循環
設想一個具體情境:機器人要跨過一道半膝高的障礙。把這套架構跑一遍,能看清各層如何協作。
管理層的 agent 從任務「到達障礙另一側」出發,分解出子目標:抬腿、跨越、落地、恢復平衡。對「跨越」這一步,它調用小世界——讓內部的自體模型以幾種不同的抬腿高度與重心軌跡各跑一次推演,看哪一種在落地時零力矩點仍落在支撐面內、且不撞到障礙。這是反事實查詢:機器人在動之前,先在腦中試動幾次。
選定方案後,agent 把它作為子目標下發給快迴路。快迴路以千赫茲執行:底層控制器產生力矩,殘差模型校正白盒物理與真實致動器之間的差,內在模型同步預測「此刻我的腳應該在哪、應該感覺到多大的地面反作用力」。抬腿過程中,骨感傳導器讀回實際的關節力矩與觸覺。若實際與預測一致,循環平順推進。若落地瞬間觸覺讀到的反作用力遠大於預測——可能障礙比模型以為的高,或地面比模型以為的硬——預測誤差被偵測。此時,狀態濾波即時修正「我實際在哪」,而 agent 在較慢的尺度上判斷:這是一次性擾動,還是模型對地形的假設錯了?若是後者,它觸發一次模型校正(但校正的數值由確定性算法算,不由 agent 估)。
整個過程中,安全層恆常運行:任何會讓零力矩點越出支撐面、或超出力矩與加加速度限制的動作,在下發前被駁回——即使那是 agent 規劃出來的。機器人在一個被約束圍住的可行域內,自主地完成了跨越。這個循環也讓三個支柱的分工一目了然:小世界提供「我會怎樣」的推演,本體同步提供「我實際如何」的校正,agent 提供「我接下來該怎麼做」的決策,而約束層提供「我絕不能怎樣」的底線。
4. 三層時間尺度與分層自主
把 agentic 管理落到具身系統上,最先撞到的硬牆是時間尺度。agentic 語言模型的決策週期是秒級——它要推理、要調用工具、可能要多輪交互;而底層運動控制是千赫茲級。一個秒級的管理者不可能逐個控制週期都插手。
正確的結構是分層自主,三層三個時間尺度:
最快的一層是運動控制閉環(物理引擎 + 殘差模型 + 底層控制器),運行在千赫茲,自己閉環、自己穩定,不等任何人。中間是 agent 的管理循環,運行在秒級,負責設定子目標、選擇策略、決定何時校正模型、處理異常、在需要重規劃時介入——但它不下每一個力矩。最底下是一層恆常的安全約束(下節詳述),對任何動作做硬性過濾。
這個分層的工程原則是:agent 是 manager,不是 micromanager。 它管理的是那些快迴路,而非取代它們。「agent 自主管理」絕不等於「agent 控制每個動作」,而是「agent 自主地管理那些自己閉環的快迴路」。這個 fast/slow 的分層在業界已有成熟先例——以「快思的反射動作模型」搭配「慢思的語言推理規劃模型」的雙系統架構,正是這個原則的商品化。而這個秒級對千赫茲的拉扯本身,是一個資源約束問題:agent 的「管理頻寬」受其決策延遲與算力預算的硬限制,它能管多細,是有上界的。
關於模型校正的權限分配,本架構主張一條紀律:給 agent 語義權,不給數值權。 「這次偏差是擾動還是模型錯了」「要不要校正」「是不是換了地形」——這些語境判斷交給 agent,它能處理規則寫不出來的情境。但語言模型對連續物理量的數值估計不可靠,所以校正的數值執行(算出殘差、辨識參數值)必須留給確定性算法。agent 決定「要校正」,算法決定「校正成多少」。讓語言模型去估一個摩擦係數或粘性係數,會讓內在模型慢性中毒。
5. 關鍵工程挑戰
本架構不掩飾它的難點。以下是落地時最會出問題的幾處,每一處都附帶它的緩解方向。
接觸動力學是 sim-to-real 的震央。 內在模型在自由空間(揮手、擺臂)會很準,一碰到地面或物體就可能偏,因為接觸是被簡化得最厲害的地方。緩解方向是把接觸層的白盒建模做精——引入粘彈性與軟硬耦合,而非停在剛體接觸——並讓殘差模型重點補接觸區。這也是物理先驗最有價值的投資點。
可觀測性的死角。 本體感覺有不可觀測子空間,純靠它會漂。緩解方向是強制外部感知補位,並依情境動態決定感測器主導權,不在任何單一感測器上孤注一擲。
雙重估計的發散風險。 「預測自己怎麼動再校正」隱含兩個可校對象——校狀態估計(我實際在哪)與校模型參數(我的模型錯在哪)。兩者一起在線做(聯合估計),在可辨識性不滿足時會互相污染:狀態誤差被錯灌進參數,參數誤差又回頭污染狀態,整個發散。緩解方向是分離時間尺度:在線只做狀態濾波、凍住參數,離線再批次做系統辨識。
Agentic 自主的可驗證性。 agentic 管理最大的工程隱患,是 agent 會生成無法預先窮舉的決策序列,在具身系統裡這直接等於物理風險。緩解方向是約束包絡(下節),讓 agent 在一個被形式化邊界圍住的可行域內自主,越界決策被硬性駁回。
內觀的自我強化陷阱。 用控制指令副本(efference copy)預測感覺後果再比對,是內觀的核心;但若內在模型本身錯了,efference copy 會用控制指令去自我確認那個錯誤——預測與(被同一個錯模型解釋的)感覺彼此印證,越錯越自信。緩解方向是讓真實感測(特別是外部 ground truth)定期強制錨定,不讓內觀變成內爆。
保真度與速度的根本權衡。 內在模型要在機上實時跑,就受算力預算硬約束;而提高保真度(更細的接觸、更多自由度、更精的軟組織)必然增加計算成本。一個太慢的內在模型來不及在控制週期內給出推演,一個太粗的內在模型推演結果不可信。緩解方向是模型降階與多分辨率:訓練時用高保真模型、部署時用降階模型,並讓殘差模型學習從降階到高保真的補償;對 agent 的反事實推演,可以用更粗但更快的模型快速篩選候選,僅對選定方案用高保真模型精算。這個權衡沒有免費的解,它本質上是把有限算力在「跑得準」與「跑得快」之間分配——而這個分配,本身又是 agent 可以根據情境動態調整的管理決策(高風險動作多花算力求準,低風險動作省算力求快)。
6. 約束包絡:把自主關進可行域
第五節反覆指向同一個解:安全約束包絡。這是本架構與《內家拳的數學架構》最直接的接點,也是那套數學在工程上身分轉變的地方。
在原論文裡,那組約束是用來描述武術的物理極限:平衡的零力矩點必須落在支撐面內,力矩輸出受功率—時間窗口的耦合所限,動作的加加速度(jerk)受生理組織所容忍——這也是為什麼高階運動軌跡傾向於圓與螺旋,因為那是在 jerk 約束下分散衝擊的最優幾何。在本架構裡,這同一組約束的角色變了:它們不再只是建模,而是agent 自主管理的安全包絡。
具體地說,agent 規劃出的任何動作,在下發到底層之前,都要過一層恆常的安全過濾:平衡約束(重心/零力矩點不得越出支撐面)、力矩限制(不得超出致動器與結構容許)、加加速度限制(不得產生會自損的瞬時衝擊)。agent 在這個被約束圍出的可行域內自由發揮,但任何踏出邊界的決策被硬性駁回。自主,但有界。
這給了本架構一個別處難得的性質:自主管理的安全性,不依賴 agent 本身可靠,而依賴包絡焊得夠死。 agent 可以犯錯、可以生成奇怪的計劃,但只要安全層的形式化邊界正確,物理風險就被擋在可行域之外。換言之,管理權之所以敢交給一個不完全可預測的 agent,正是因為邊界由確定性的不等式守著,而非靠信任那個管理者。
值得說明約束從何而來、以及它如何隨機器人而變。這些邊界不是任意設定的安全餘量,而是源於三類確定的物理與工程事實:平衡的邊界來自機器人的支撐幾何(腳掌尺寸、站姿),力矩的邊界來自致動器的規格與結構強度,加加速度的邊界來自機械與電子部件所能承受的瞬時衝擊。因此同一套約束框架,套到不同的機器人本體上,會自動實例化出不同的可行域——一個重心低、底盤寬的機器人有更大的平衡裕度,一個致動器更強的機器人有更大的力矩空間。這意味著安全包絡不是寫死的數字,而是一個由機器人物理參數參數化的、可隨本體調整的形式化模板。當機器人因磨損、負載或損傷而改變時,這些邊界也應隨之更新——而這正是本體同步在安全層的延伸:機器人不只校正「我在哪」,也校正「我能做到什麼」。
7. 產業現狀:一條被巨頭鋪成高速公路的路
必須誠實地說:本架構描述的每一塊,產業界(尤以 NVIDIA 為核心)過去一兩年幾乎都做成了商品,且大部分開源。理解現狀,才能找到自己該站的位置。
可微分物理引擎:NVIDIA 與 Google DeepMind、Disney Research 共同開發、並貢獻給 Linux Foundation 的 Newton,是一個 GPU 加速、可微分、開源(Apache-2.0)的機器人物理引擎,建在 NVIDIA Warp 之上、以 MuJoCo-Warp 為主要後端,支持剛體、布料、顆粒與軟硬耦合等多種求解器。這正是本架構所謂「小世界」可微分引擎的現成實現。
白盒+黑盒的神經動力學:Newton 生態中的 Neural Robot Dynamics(NeRD)是一個學習式機器人動力學模塊,可插入引擎替換求解器、並用真實數據微調,已在四足與機械臂上驗證。它的問題陳述——古典解析動力學因簡化接觸、省略運動學迴路、不可微而不足——與本架構第三節的主張一字命中。這是「白盒打底、黑盒補殘差」的現成範式。
Agentic 雛形:NVIDIA 的 Isaac GR00T 是人形機器人基礎模型,採雙系統架構:一個快思的動作模型負責反射式的連續控制,一個慢思的視覺語言模型負責推理環境與指令、規劃動作,再由前者譯成具體動作。最新版本以一個語言模型作為其推理骨幹。這正是本架構第四節「分層自主」的商品化——雖然它目前仍偏向一個反應式策略(policy),而非一個完整的自主管理 agent。
世界模型與資料生成:NVIDIA Cosmos 系列(已演進到統一視覺推理、世界生成與動作生成的版本)作為世界基礎模型,用於生成合成軌跡、補足真實示範數據的稀缺。機上算力:Jetson Thor 提供機器人本體上的實時推理與控制算力。整套以「成為機器人界的 Android」為策略,透過 Linux Foundation 與開源框架(如與 Hugging Face 的 LeRobot 整合)構建生態。
換言之,從可微分引擎、神經動力學、雙系統 agentic 雛形、世界模型到機上算力,本架構的每一塊都有對應的、且大多開源的產品。這既是壓力,也是機會。
特別值得辨析的是 agentic 這一塊的成熟度。現有的雙系統基礎模型,雖然引入了語言推理作為慢思層,但整體仍偏向一個反應式策略:給定觀測與指令、輸出動作,慢思層做的是任務內的推理規劃,而非跨任務的持續自主管理。它離本架構所設想的 agentic 管理層還差幾步:缺少對自身內在模型對錯的反思(它不顯式維護一個可校正的白盒自體模型,也不決策「何時該校正模型」);缺少跨回合的任務狀態維持(它的規劃多在單次任務的時域內,而非作為一個持續運行、持續調度的管理者);以及,它的「世界」是學習出來的隱式表徵,而非一個可被反事實查詢的白盒物理引擎。這些差距不是缺陷,而是本架構的著力點:把慢思層從「任務內規劃」升級為「持續的自主管理」,把隱式世界模型替換或補充為可查詢的白盒小世界,並讓管理層顯式地對「我的內在模型錯在哪」做決策。這也再次印證了路線的分野——基礎模型在把 policy 越做越強,而本架構在補上從 policy 通往 agentic 自主管理所缺的那幾塊:可校正的白盒自我模型、跨回合的管理持續性、以及對自身模型的反思權。
8. 定位與差異化:別鋪平行的柏油
面對一條被巨頭鋪成高速公路的路,單幹者最不該做的就是去鋪一條平行的柏油——那是紅海,且打不過。真正的位置在別處。
要看清本架構的位置,先把它放進機器人運動智能的範式光譜裡。一端是純解析控制:完全依賴手寫的動力學與控制律,可解釋、可驗證,但在高維非線性與複雜接觸前手工設計幾乎不可能,且對未建模的真實世界脆弱。另一端是純端到端學習:用神經網路從數據直接學出感知到動作的映射,能處理解析方法搞不定的複雜性,但是黑箱、需海量數據、外推能力差、且難以給出安全保證。數位孿生取了中間的一種:維持一個與實體同步的高保真模型用於監控與預測,但它是外部視角的被動鏡像,本身不做自主決策,也不從內部持有「自己」。基礎策略(foundation policy)是當前的主流賭注:用海量數據預訓練一個跨任務泛化的大模型,靠規模取勝;它能 scale,但對數據飢渴、可解釋性弱、安全包絡難以形式化。
本架構取的是一條混合的路:白盒解析動力學提供可解釋的主結構與可形式化的安全邊界,學習式殘差補上解析方法搞不定的接觸與未建模項,agentic 層提供超越固定策略的自主規劃與反思,而本體同步的預測—校正循環讓內在模型持續對齊現實。它放棄了純基礎策略的可規模性,換來三樣東西:可解釋(白盒主結構)、可驗證的安全(形式化約束包絡)、以及不依賴海量數據的冷啟動(物理先驗加結構先驗)。對一個以數學與架構為核心競爭力、而非以數據與算力取勝的實驗室,這個取捨是清醒的。
巨頭走的是數據驅動的基礎策略(data-driven foundation policy):用海量人類示範影片與合成軌跡,訓練一個吞數據的大模型,靠規模泛化。本架構的差異化恰恰在巨頭用數據硬淹、卻沒從第一性原理講清楚的那一層——可解釋的白盒接觸與粘彈性建模,以及把人類長期優化的控制策略作為結構先驗灌入。前者讓內在模型在接觸處可信,後者(如武術五層那種被數百年實戰退火過的剛柔策略)為學習提供物理上有意義的先驗,而非從零吞數據。
這兩條路是互補而非競爭:白盒接觸層可以作為可微分引擎的一個自定求解器插件,結構先驗可以作為神經動力學的物理先驗或基礎模型的獎勵塑形。EveMissLab 的優勢在於能為了目標持續迭代數學方法與耦合層——而開源引擎的整個可擴展性(自定求解器、軟硬耦合、自定約束)正是為這種第一性原理的迭代而開的門。
更務實地說,本架構不必、也不該從零造輪子。可微分引擎、神經動力學模塊、機上算力、乃至 agentic 雛形都已是開源或可取得的組件。正確的策略是站在這個生態之上,把力氣集中投在自己有獨特優勢的兩個薄層:一是接觸與粘彈性的白盒建模,作為引擎的自定求解器插入——這是 sim-to-real 差距最大、而通用引擎為求泛化往往做得粗糙的地方;二是把領域特定的、人類長期優化的控制策略形式化為結構先驗——這是純數據驅動的基礎模型難以憑空學到、卻能大幅降低學習成本與提升安全性的東西。換言之,不與生態爭做底座,而是為底座補上它最薄弱、也最需要第一性原理的那兩層。這種定位的好處是:既享有開源生態的全部基礎設施,又把自己的有限資源押在不可被輕易複製的差異化上——數學的深度與架構的洞察,而非數據的規模與算力的堆疊。
還有一層更根本的分野,但要小心地只在工程意義上講:巨頭的基礎模型本質上是 policy(輸入多模態、輸出動作的反應式映射),而本架構追求的是 agentic 自主管理(一個能規劃、能反思自己模型對錯、能跨回合維持任務狀態的管理層)。這是路線的不同,不是優劣的判定——data-driven policy 能 scale、像生意;first-principles 的白盒先驗加 agentic 管理不吞數據、不好 scale,但它換來可解釋性、可驗證的安全包絡,以及不依賴海量數據的冷啟動能力。對一個資源有限、但數學與架構是其核心競爭力的實驗室,後者才是該佔的位置。
結語
這套架構最終的工程紀律,可以收束成一句反直覺的話:自主管理之所以敢把權力交出去,不是因為那個管理者可靠,而是因為它腳下的邊界焊得夠死。 一個內觀的機器人,最大的危險從來不是看不見世界,而是太相信自己想像的那個自己——所以小世界跑得多準從來不是安全的來源,它肯多頻繁地讓真實的本體把想像錨回地面,才是。三層時間尺度、白盒與黑盒的分權、語義權與數值權的分離、約束包絡對自主的圍堵——這些看似是限制,實則是讓「自主」這件事第一次變得可被信任的條件。
巨頭把高速公路鋪好的時候,單幹者該做的不是去鋪平行的路,而是去算清楚那條高速公路底下、沒人願意算的地基力學。本架構的全部賭注,就押在這層地基上:白盒的物理、可解釋的接觸、被約束守護的自主、以及把人類退火過的策略當先驗的那一份耐心。
需要強調的是,本白皮書描述的是架構與原理,不是已驗證的結論。每一個支柱、每一條緩解方向,都是在工程上有依據的設計選擇,但它們的真正成色——內在模型能否在機上實時跑得夠準、本體同步能否壓住漂移、agentic 管理能否在約束包絡內穩定地自主運作、白盒接觸層能否顯著縮小 sim-to-real 差距——都要靠實際搭建與運行來檢驗。理論指導實現,實現反過來驗證並修正理論:這不是線性的路徑,而是螺旋上升。先建立正式的模型動力學,再讓 AI 即時校正與填補,然後在真實機器人上跑,看它哪裡偏、哪裡崩,回頭改數學與耦合層——這個迭代本身,既是工程的推進,也是論文完整度的提升。
能不能跑出來,要等實際跑了才知道——但路是存在的,而且,它底下的配方,剛好在手裡。
附錄 A:Agentic 管理層的內部結構
本附錄深化正文第 3.4 與第 4 節。正文把 agentic 管理描述為一個自主調度者;本附錄展開這個調度者「內部如何決策」——它不是一個靜態的指揮層級,而是一個按需切換計算強度的動態結構。以下內容是白皮書主體成形後的架構演進,記於此作為設計備忘,尚待實作檢驗。
A.1 不用靜態 Agent 樹作常態:Multi-Agent 的切分鐵律
當代 agent 技術已能派生子 agent,自然會想到把管理層做成一棵 agent 樹——主 agent 委派職責給專門的子 agent。這個能力有用,但用在具身控制上有一條不可違背的鐵律:切分軸要按時間/抽象層級,絕不能按身體空間。
直覺的錯誤分法是按身體部位切:一個子 agent 管腿與移動、一個管手與操作、一個管頭與感知。這在具身系統裡是致命的,原因正是正文反覆引用的 Level 0 原理——身體是「整」,平衡是全身閉鏈的事,力鏈貫通全身。移動改變平衡、平衡影響操作精度,一個物理上耦合的身體不可分解。把它切給各自為政的子 agent,會讓每個子 agent 的局部最優組合成全局災難:步態 agent 求穩、操作 agent 求快,合起來就是摔。軟體任務可以乾淨並行,因為子問題獨立;具身控制不行,因為身體是一個不可拆的整體。
正確的分層軸,主論文已經給出——戰略層、戰術層、執行層。multi-agent 的正確形態,是把這個時間—抽象的三層實例化為一棵淺的 agent 樹:最慢的戰略 agent 負責任務分解與長程協調;中速的戰術 agent 可按任務模式(移動、精細操作、受擾恢復)而非身體部位劃分,但同一時刻只有一個主導全身;最快的執行層不是 agent,而是那個不可拆的全身快迴路。子 agent 在認知層分而治之,物理控制層保持單一、整體、不委派。
這條鐵律帶三個推論。其一,agent 樹必須淺:每多一層 agent,決策鏈就多一層推理延遲——主 agent 派、子 agent 想、結果上報整合,這條鏈太深,自主管理就跟不上物理;樹的深度受反應窗口硬約束,與正文的功率—時間耦合同源。其二,委派不是免責:多 agent 不是免費並行,子 agent 的協調、整合、決策權劃分都有成本,在強耦合系統裡這個成本可能吃掉並行的好處,值不值要看省下的思考並行度是否超過多出的協調開銷。其三,安全包絡必須全局,置於所有 agent 之下:它過濾的是全身綜合動作的合法性,而非單一子 agent 的局部動作,任何子 agent 都不得繞過——否則局部理性會合成全局的不理性。
一句話收束:認知可以分,身體不能分。
A.2 快思/重想決策樹:把「慢想」從時間軸校正到算力軸
比靜態 agent 樹更貼合具身需求的,是一個按計算強度動態切換的決策結構:平時用快思(低算力巡航、反射式響應),判斷到關鍵時刻才切入重度思考。
這裡必須糾正一個借來的術語埋下的陷阱。沿用「快思/慢想」會誤導,因為傳統的「慢想」其慢在時間——費力、拖長;但在具身系統裡,需要重度思考的關鍵時刻,恰恰是時間最緊的時刻(正文 Level 4 那個僅數十毫秒的失穩窗口)。把最費時的思考放在時間最緊的窗口,是架構性的自相矛盾。
因此本架構把「慢想」重新定義為「重想」:關鍵時刻不是切到慢,而是算力全開、讓重度決策急速通過。 它認知上重(深度推演、調用更大的計算資源),但時間上急(以算力換時間,把決策壓縮進窗口內)。這正是正文功率—時間耦合在計算層的同構——關鍵決策同樣受「算力功率不足則來不及」的約束,需要的是算力的功率而非思考的時長。它對應主論文的 SOFT→HARD 切換:HARD 從來不是慢慢發力,而是在窗口內爆發最大功率;計算層的 HARD 就是算力瞬間全開的爆發式決策。
於是管理層的常態不是一直全功率思考,而是大部分時間低算力巡航、僅在被觸發時瞬間全開。這把「省算力」與「關鍵時刻夠力」這對看似矛盾的需求調和了:平時省,關鍵時爆。
A.3 底空間:觸發門控與記憶自適應
快思與重想之間的切換,需要一個專門的承載結構——本架構稱之為「底空間」。它是觸發門控所居的底層空間:一個輕量、常駐於快思層的監控器,持續評估「當前處境是否關鍵」,一旦越過閾值就引爆全功率的重想。
底空間用廉價的信號做這個評估,這些信號在正文與主論文裡都有對應量:內在模型的預測誤差(預測與本體感覺差得越大,越該升級)、狀態估計的不確定性(越不確定越該重想)、接近安全包絡邊界的程度(越接近越該全力)、以及當前情境相對於記憶的新異度(越陌生越該謹慎)。它對應主論文混合自動機的守衛條件,但有一個關鍵升級:守衛條件裡的臨界閾值,在原論文是寫死的參數,在這裡必須是記憶自適應的。
記憶自適應的意思是:底空間從過去的切換結果學習——哪些情境下快思漏掉了本該升級的關鍵時刻(事後證明出了問題),哪些情境下白白全開燒了算力(事後證明沒必要),用這些經驗持續校準觸發邊界。換言之,那個臨界閾值從固定常數,升級為一個學來的門控策略;記憶在底空間裡累積,自適應地塑造「何時引爆」的那條線。
這個門控有兩個必須守住的工程約束。其一,兩類錯誤的代價極不對稱:漏觸發(關鍵時刻沒升級到全功率,來不及,導致摔或撞)在具身系統裡是物理災難,而誤觸發(沒事也全功率,燒算力、動作可能過激)只是浪費加小風險,兩者代價差一個量級。因此記憶自適應應當偏保守——寧可多誤觸發,不可漏一次。這也回答了主論文裡臨界閾值該設多敏感的問題:往敏感一側偏。
其二,底空間自身必須極輕。它常駐、持續運行,若它本身就重,「平時省算力」的前提就破了——不能用一個昂貴的監控器去決定何時該昂貴地計算。於是整個系統的算力分配呈現一個清晰的層級:廉價的常駐監控(底空間),加上按需引爆的昂貴爆發(全功率重想)。底空間的全部工藝,就在於用最便宜的信號,準確地賭中那個該把算力全開的瞬間。
這三節描述的,本質上是同一件事在三個層面的展開:管理層不是一個固定的指揮結構,而是一個按需調配計算強度的動態系統——它平時輕、關鍵時重,靠記憶學會何時該重,並始終被全局的安全包絡圍著。它與正文的關係是:正文給了 agent 一個「管什麼」的職責,本附錄給了它一個「何時用多大力氣去管」的內部時鐘。而這個時鐘的節律,與全篇反覆出現的那條規律是同一條——關鍵時刻要的是功率,不是時長。