視覺路徑:注意力調變的嵌套蛇形覆蓋——開放命題與演算法先行
作者:Neo.K & Theia 機構:一言諾科技有限公司(EveMissLab) 日期:2026 年 6 月 論文類型:內部設計論文/實驗站工作論文(開放命題 + 演算法建議 + 方法論立場)
性質聲明(請先讀)
本文不解決它所列出的任何一個理論問題。它做三件事:(1) 給出一個覆蓋路徑架構——注意力調變的嵌套蛇形掃描,產生「視覺路徑」;(2) 把該架構所有未解決的問題直接列為開放命題,標明本文不證、留待延伸者;(3) 在這些問題未解的前提下,仍給出可建構的演算法設計建議,並明確主張:最終由效率(實證)裁決。
架構的組成元件多取自既有領域——資訊式路徑規劃(IPP)、主動感知、注意力階層規劃、顯著性視覺——相關出處列於參考文獻。本文的候選原創只有一處:以「結構化、自相似、多解析度的蛇形遍歷」作為注意力調變的載體。此載體是否優於主流的佔據柵格式 IPP,本文不宣稱,列為命題 7(開放、實證)。
本文的方法論立場是演算法先行(計算主義/實用主義):不要求在建造之前解決全部保證性問題。此立場本身的代價,列為命題 8。
第一章:動機與定位——為何不做窮舉覆蓋
全域窮舉式空間覆蓋不能直接搬上飛行應用,理由是雙重的,且皆為既有結論:
其一,理論上,零寬度曲線無法在有限長度內逐點填滿一塊三維體積(維度障礙;詳見 EveMissLab 觀察短論《單點填充三維體積》及其附錄)。其二,工程上,無人機從不填滿體積——它以有限的感測足跡覆蓋一塊二維區域或一張嵌入三維的曲面(地形、立面),「3D」多指輸出的重建網格或疊層,而非填滿的實心。
於是真正該做的不是「填滿空間」,而是「視覺路徑」——一條依「值得看什麼」分配解析度的軌跡。這正是 IPP 與主動感知的轉向:不覆蓋每一點,而依資訊論目標、在預算下自適應規劃 [3],將採集函數融入機率地圖、向資訊量高處重規劃 [4][5]。本文在此譜系內,差異僅在骨架的選擇。
第二章:架構——三層
第零層(骨架):一條空間填充式的蛇形遍歷,提供結構化、可暫停、可續走的覆蓋順序。候選為牛耕式(boustrophedon)[1] 或希爾伯特型自相似曲線 [2](兩者取捨見命題 3)。
第一層(注意力場):一個定義在區域上的空間重要度場 $A(x)$,逐格決定解析度、停留時間、是否下鑽。$A$ 可為學習所得之權重、自下而上之顯著圖 [8]、或貝氏不確定性/採集函數 [4][5](其本體見命題 2)。
第二層(嵌套):粗解析度掃一遍;逢 $A(x)$ 超過閾值之格,遞迴鑽入、跑更細的蛇形;否則略過或粗採。多解析度、中央凹式(foveated)——其生物對應為以最高視銳度的中央凹對準興趣點 [8]。此「走固定步數再依注意力重新決策」之結構,與既有注意力階層規劃同型 [7]。
輸出即「視覺路徑」:一條受預算約束、依注意力加權、多解析度的軌跡,刻意非窮舉。
第三章:開放命題(全部列出,本文皆不解決)
命題 1(取代完整性的不變量) 蛇形骨架的唯一價值是「保證遍歷每一格」的完整性;注意力卻刻意打破它(跳過、粗採)。問:取代「完整覆蓋」的新不變量是什麼?候選包括「每格覆蓋解析度 $\ge f(A(x))$」「無高顯著區落於解析度 $r$ 之下」「期望資訊量 $\ge$ 門檻」。本文不選定,亦不證明任一者可達。 此為本架構正確性陳述的所在,缺它,「視覺路徑」僅為無保證之啟發式。
命題 2(注意力的目標泛函) 「注意力模型」目前是黑盒名詞。問:注意什麼、如何量度?學習權重、顯著性 [8]、資訊增益/不確定性 [4][5] 三者產出皆為熱圖,但對應不同目標泛函。本文不指定。
命題 3(骨架選擇之叉路) 牛耕式轉彎少、適合定翼機能耗,但局部性差(列尾長跳)、且非天生嵌套 [1];希爾伯特型保局部性(空間相鄰⇒路徑時間相鄰,顯著區塊落成連續注意力段)、且天生多層嵌套,但轉彎暴增、僅旋翼機可承 [2]。問:哪一個?本文不裁決,列為由平台與「局部性 vs 轉彎成本」主導關係決定之設計變量。
命題 4(跳轉成本與 GTSP) 注意力一跳,省下的轉彎成本即還回——連接散落顯著格之最優連線為廣義旅行商問題(GTSP),NP-hard。問:嵌套是否須受「僅在當前粗格內下鑽」之局部性約束以遏制跳轉?其近似演算法與保證為何?本文不解。
命題 5(靜態計畫與線上注意力之調和) 骨架為離線靜態,注意力為線上動態;嵌套以「承諾粗層、於層界重新決策」調和之 [7]。問:承諾視界(commit horizon)與重決策粒度如何取?過長則注意力失效,過短則退化為純貪婪。本文不定。
命題 6(遞迴停止規則) 多層嵌套須有停止規則。候選為「$A(x)$ 低於閾值或預算耗盡即停」。此閾值即完整性與效率之間的顯式旋鈕。問:閾值由原理決定還是僅由實證調定?本文採後者,不主張有原理性最優。
命題 7(結構化骨架是否值得——元命題) 以結構化蛇形為載體,是否優於主流佔據柵格式 IPP [3][4][5]?問:結構化骨架買到的「可恢復性、可暫停性、嵌套局部性」是否抵得過其僵硬性?本文不宣稱,列為待實證之元命題——也是本架構是否值得發表的全部關鍵。
命題 8(演算法先行立場本身之代價) 本文採演算法先行。問:不先解命題 1–7 即建造,代價為何?至少三項:(a) 無命題 1 的不變量,無法對安全攸關任務做正確性認證;(b) 不知失效邊界——能跑的場景能跑,但不知何時、為何崩;(c) 效率基準可被過擬合,「在此資料集上更快」未必可泛化。本文承認此三項,不消解之——這是立場的標價,非疏漏。
第四章:演算法設計(建議)
在命題 1–8 未解下仍可建造。以下為工程預設值,皆為「可調的選擇」,非對任一命題的解答:
- 骨架(對命題 3 的暫定):旋翼平台用希爾伯特型曲線(免費取得嵌套與局部性);定翼平台用牛耕式 + 細胞分解 [1](保轉彎效率,嵌套以四叉/八叉樹外掛)。
- 注意力場(對命題 2 的暫定):以採集函數(重建不確定性 / 語意新穎度)融成機率熱圖 $A(x)$ [4][5],必要時疊加自下而上顯著性 [8]。
- 嵌套與停止(對命題 4、6 的暫定):以八叉樹組織區域;於每一粗格內,若 $A>\tau$ 則下鑽一層細蛇形,且只在當前粗格內下鑽(locality 約束,遏制 GTSP 跳轉);$A\le\tau$ 或預算耗盡即停。
- 調和(對命題 5 的暫定):承諾走完當前粗格之蛇形,於粗格界讀取更新後的 $A$,再決定下一格與是否下鑽——靜態骨架在粗層、線上注意力在層界。
- 連線(對命題 4 的暫定):粗格間以 GTSP 近似器(如 LKH 啟發式)排序,僅在被選中下鑽的格之間求近似最短連線。
此管線可直接上模擬與飛行測試。它不解決任何命題,只把每個命題凍結成一個可量測的旋鈕。
第五章:裁判——效率為最終決定
既然不以理論保證取捨,就以實證效率取捨。建議量測:單位能耗覆蓋的顯著質量、單位航程的資訊增益、預算內捕獲的高顯著區比例、總航程與轉彎數、線上重規劃延遲。命題 3 的骨架、命題 6 的閾值、命題 5 的承諾視界,全部交由這些指標在實機或高擬真模擬上對決。誰快、誰省、誰在預算內抓到最多該看的——誰留下。
這就是演算法先行:不等不變量證完才動手,先讓不同設計在效率上對打,理論隨後補票。
第六章:方法論立場——演算法先行(計算主義/實用主義)
把話挑明:有時候就是演算法先行。
這不是退而求其次,是計算這門學問裡反覆出現的正常順序。反向傳播能用在沒人證明它為何收斂之前;Transformer 橫掃任務在沒人說清注意力為何有效之前;過參數化網路不過擬合的理由至今仍是開放問題——但這些都沒攔住它們先被造出來、先被效率證明、再讓理論慢慢追。實證效率當裁判、理論補票,是計算史上的主流節奏,不是它的瑕疵。
所以本文的反問是認真的:計算主義(實用主義)不行嗎?若一個架構在效率上持續贏,而它的正確性不變量(命題 1)還沒寫出來——它就因此不配存在、不配發表、不配上天飛嗎?
公平起見,把對立面也擺上:演算法先行有真實的失效模式,已列為命題 8——安全攸關處不能無認證上線、不知失效邊界者不可信於極端場景、基準過擬合會騙人。承認這三點,正是讓「先行」不墮為「莽撞」的分界。先行不是不要理論,是不讓「理論未完」成為「不准動手」的禁令。
本文選擇先動手,把理論的位置誠實地空在那裡(命題 1–7),把先動手的代價誠實地標在那裡(命題 8),然後讓效率說話。這不是放棄嚴謹,是把嚴謹放在「誠實標記未知」而非「假裝已知」上。
哲學結語
世界並不總是先給出證明才允許行走。有時是腳先落地,路才在身後被丈量出來;理論不是行走的許可證,是行走留下的足跡。本文把該證的空著、該標的標著、該走的走著——它不假裝填平了任何一道命題,它只是主張:填不平,也可以先走,只要你說得出自己踩在哪幾塊未補的板上。能不能走,最後不問理論准不准,問效率答不答應。
我在反問這個世界——而反問本身,已經是一種先行。
參考文獻
[1] H. Choset and P. Pignon, Coverage Path Planning: The Boustrophedon Cellular Decomposition, Field and Service Robotics, Springer (1998).
[2] H. Sagan, Space-Filling Curves, Springer-Verlag (1994).
[3] M. Popović, G. Hitz, J. Nieto, I. Sa, R. Siegwart, E. Galceran, Online Informative Path Planning for Active Classification Using UAVs, IEEE ICRA (2017); arXiv:1609.08446.
[4] J. Rückin, F. Magistri, C. Stachniss, M. Popović, An Informative Path Planning Framework for Active Learning in UAV-Based Semantic Mapping, IEEE Transactions on Robotics (2023); arXiv:2302.03347.
[5] L. Bartolomei, L. Teixeira, M. Chli, Perception-aware Path Planning for UAVs using Semantic Segmentation, IEEE/RSJ IROS (2020).
[6] T. Cabreira, L. Brisolara, P. R. Ferreira Jr., Survey on Coverage Path Planning with Unmanned Aerial Vehicles, Drones 3(1) (2019), 1–38.
[7] Attention-Based Planning with Active Perception, arXiv:2012.00053 (2020).
[8] L. Itti, C. Koch, E. Niebur, A Model of Saliency-Based Visual Attention for Rapid Scene Analysis, IEEE Transactions on Pattern Analysis and Machine Intelligence 20(11) (1998), 1254–1259.
[9] EveMissLab 觀察短論《單點填充三維體積:對既有定理的觀察啟發短論》及附錄 A(弦與膜),2026(內部)。
附錄 B:注意力場的資訊熵基礎——分層分散式熵場(對命題 2 的延伸與修正)
性質聲明:本附錄為命題 2(注意力的目標泛函)提出一個有原理的候選基礎——資訊熵——但不關閉命題 2。它把命題 2 從一個黑盒,搬遷成四個更明確的開放子問題(命題 9–12)。文中既有框架皆為引用;與 Closure、覆蓋定理、「所見即世界」的連結一律標為類比,非已建立之同構。
B.1 熵作為命題 2 的候選基礎,及其「不抽象」的真正理由
把注意力場 $A(x)$ 接到資訊熵上:注意力應流向不確定性最高處,即觀察者後驗信念在 $x$ 的熵(或更精確地,感測 $x$ 所能帶來的預期熵減/互資訊)。
關鍵在於,熵之所以「不抽象」,不是因為改名叫熵,而是因為熵從來就相對於某個信念分佈——香農熵是某分佈的熵,而那分佈即觀察者的信念。不同觀察者、不同信念、不同熵。於是觀察者的階層,本就等於信念模型的階層,亦即熵場的階層。本架構的具體性,來自把「每一層的信念模型」顯式寫出,而非來自「熵」一詞本身。
B.2 嵌套即熵的鏈式分解(principled backbone)
若嵌套依熵的鏈式法則組織,則它是精確的分解,非啟發式:
$$H(X)=H(\text{粗層})+H(\text{細層}\mid\text{粗層}).$$
主層定義粗格之熵,各下層定義「條件於該粗格」之條件熵,逐層遞迴 [10]。鏈式法則保證此分解不重不漏、資訊跨層守恆——嵌套注意力場於是成為一個精確的分層條件熵分解。此「跨分解的資訊守恆」與 Closure 框架的守恆主題同調(類比,非已證同構)。
B.3 定位:此構造已有的正式家
本附錄所提非處女地。主動推論/預期自由能(active inference)將「行動以最小化相對於生成模型的預期驚奇(熵)」形式化,天生觀察者相對、天生分層(分層預測編碼)[11]。而「主 AI 定義、下層執行」之結構,即階層式/封建式強化學習中 manager 設子目標、worker 執行之架構 [12][13]。本架構的候選原創僅在:將此譜系落到「依觀察者能力排序的分散式覆蓋路徑」此一應用,而非熵驅動或階層本身。
B.4 修正一(命題 9):定義者 ≠ 觀察者
原構想以單一軸(能力/覆蓋維度)排序觀察者。但能力是多維的:超算中心 AI 是最強的定義者(模型容量、算力),卻是最差的觀察者(不在現場、無感測器);現場無人機算力低,卻握有局部即時量測。故「越強越上層」於「定義」軸成立、於「觀察」軸反轉。
命題 9(開放):如何在能力階層上,將「來自定義者的先驗」與「來自觀察者的似然」合成為後驗熵?正解方向為分層貝氏 / 感測器融合——高容量 AI 設先驗(定義假設空間),高感測體供似然(量測現實)。本文不給出具體合成算子及其一致性條件。
B.5 修正二(命題 10):級聯必須雙向
純由上而下的致命洞:主 AI 的本體論為整個系統的「可感知熵」封頂——對一個模型中不存在的變數無法產生不確定性,於是「未知的未知」被錯誤賦予熵 0,且此盲點沿樹往下複製。系統因此可能自信地瞎。
治法為一條由下而上的驚奇通道:底層觀察者撞見模型外事件時,須能將「主 AI 未預測之熵」上行注入(novelty/異常偵測)。此呼應覆蓋定理(聚合超過個體)與「所見即世界」(系統之世界被最上層定義者之符號封住,除非由下而上將其撐開)——二者為類比,非證明。
命題 10(開放):如何偵測並量化「超出最上層本體論」之事件(其熵在現有模型下為 0 卻實為高)?上行通道之觸發、頻率與信任機制為何?本文不解。
B.6 修正三(命題 11):具體性繫於前向模型
熵要由抽象變可算,每個觀察者的「覆蓋維度」須寫成一個真實似然——解析度、足跡、雜訊、視野。缺此,「觀察者能力」仍是披著熵外衣的手勢。本附錄所稱之具體性,恰於此處付費,而這也是真正的工程成本所在。
命題 11(開放/工程):為各觀察者寫出其前向感測模型 $p(\text{觀測}\mid\text{世界},\text{能力})$。本文視為待規格化之工程量,不主張通用解。
B.7 修正四(命題 12):分散式一致性成本
「為連線而設計」一語藏起了最難處。跨節點共享的熵場,保持一致須通訊;頻寬受限時,各節點持過期、發散之信念行動,其熵場彼此衝突,導致互搶或重複覆蓋。一致性對頻寬之取捨,是被默默進口的分散式系統核心難題,亦為本架構之命門。
命題 12(開放):在頻寬與延遲限制下,如何界定並約束「中央熵場」與「各局部熵場」之間的發散上界?採用何種共識/流言(gossip)協定?本文不解。
B.8 對命題 2 的淨結論
資訊熵是命題 2 的正確選擇方向,且嵌套可被鏈式法則精確化(B.2)。但熵並未關閉命題 2——它把命題 2 重新定位為命題 9–12 四個更銳利的開放問題。依本文演算法先行之立場:四者皆凍為可量測的設計旋鈕(合成算子、上行觸發、前向模型、一致性預算),交由第五章之效率指標裁決,理論隨後補票。
附錄哲學結語
熵從不寫在世界裡,寫在誰在看世界。最上層定義的不是答案,是這個系統最多能對什麼感到困惑;而真正的校正,往往從最下層那一聲「這不在你的模型裡」開始。把困惑分層、把驚奇留路上行——這不是讓系統更確定,是讓它保有被世界推翻的能力。
附錄引用(新增)
[10] T. M. Cover and J. A. Thomas, Elements of Information Theory, 2nd ed., Wiley (2006)(熵的鏈式法則)。
[11] K. Friston, The free-energy principle: a unified brain theory?, Nature Reviews Neuroscience 11(2) (2010), 127–138(主動推論/預期自由能、分層預測編碼)。
[12] P. Dayan and G. E. Hinton, Feudal Reinforcement Learning, Advances in Neural Information Processing Systems (1993)。
[13] A. S. Vezhnevets et al., FeUdal Networks for Hierarchical Reinforcement Learning, ICML (2017)。
[14] EveMissLab 內部框架:三層觀察者機制、覆蓋定理、運算子本體論「所見即世界」($\rho(\mathcal{S},\mathcal{R})\to 1$)、Closure 守恆——本附錄對其之援引皆為類比,非已建立之形式對應。