約束遍歷與時間積分:探索行為的七元動力架構
Constrained Traversal and Temporal Integration: A Septenary Dynamical Architecture of Discovery
作者:Neo.K(許筌崴)/ EveMissLab(一言諾科技) 版本:草稿 v0.1(概念稿,無數據;形式化與偽代碼置於附錄,深度推演待補) 協作結晶:Theia
稿件狀態說明:本稿為純概念草稿。所有實證數據缺席,凡涉及量化之處一律標為「假設」或「待測」。所有算式推演置於附錄 A,目前僅完成形式化骨架與核心命題陳述,深度推演(完整證明、收斂性與界的嚴格論證)待後續版本補入;基本偽代碼置於附錄 B。正文以概念敘述為主。
摘要
本文提出一個關於「探索行為」(discovery / search behaviour)的分解架構。其出發點是一個常被混淆的判斷:當一個系統「擬合」出一條公式時,它究竟在做什麼?我們主張,把擬合等同於「參數最小化」是一種把整個探索行為壓縮成單一算子的化約錯誤。真正的探索行為至少包含四個並存於「現在」的算子——意圖(選擇方法論)、遍歷(在方法論空間中的覆蓋)、擬合(自適應約束滿足)、動力學(搜尋在時間中的軌跡)——以及一條被前述化約忽略的時間軸:保留(向過去積分的記憶)與預演(向未來積分的模擬)。最後,將整個迴路收斂成行為的,是一個仲裁者(何時停止思考、扣下扳機)。我們把這七者形式化為一個七元組 𝒟 = ⟨I, E, A, Φ, R, P, J⟩,並論證它們不是前饋管線,而是一個跨尺度互相回授的單一動力系統。本架構的目標不是提出新的最優化算法,而是給「探索」這件事一個可被分層、可被診斷、可被工程化的座標系。一個能診斷出「某次失敗是哪一個算子壞掉」的座標系。
關鍵詞:探索行為、約束算子、遍歷性、過程動力學、記憶分層、前向模擬、最優停止、範疇錯誤
0. 引子:一個範疇錯誤
考慮一個被反覆提出的問題:給一個 AI 圓周率 π 的前一億位,它能不能預測出後面的數字?曾有人很認真地論證「不能」,並把結論寫成「AI 做不到」。
這個結論在它被測的那個意義上是對的,在它被宣稱的那個意義上是錯的。π 的每一位是完全被決定的,也是完全可計算的——存在收斂極快的級數(如 Ramanujan 型、Chudnovsky),甚至存在能直接取第 n 位而不需前面任何一位的公式(BBP,十六進位)。換言之,「給你前一億位」這個前提本身是假議題:前面的位數既幫不上忙、也根本不被需要。若 π 為正規數(normal number,至今未證),其位序的逐位互資訊為零,任何以「從序列外推下一位」為機制的學習器,無論餵多少資料都榨不出訊號。
於是有兩件不同的事被偷換成一件:
- 計算(computation):辨識「這是 π」,選對方法,把第 n 位算出來。
- 預測(prediction):把位序當成一條時間序列,從歷史外推未來。
論證者測的是後者,得到一個正確的負面結果,然後把它宣告為前者的不可能。這是一次範疇錯誤:把任務錯誤地歸入「歸納外推」這個範疇,而它本屬於「計算」這個範疇。
更精細地說,這裡其實有三個被長期混為一談的概念,而 π 的位序恰好是把它們分離開來的最乾淨的解剖刀:
- 確定性(determinism):π 的每一位都被完全決定,毫無隨機。
- 可計算性(computability):存在短程式生成任意位;BBP 甚至給出隨機存取。
- 可歸納預測性(inductive predictability):從位序本身能否學到逐位的規律——若 π 正規,這一項為零。
三者可以彼此獨立:π 是「最確定、最可計算、卻最不可歸納預測」的標本。其底層的張力可以用一句話點破——π 位序的柯氏複雜度極小(幾行程式即可生成,$K \approx O(\log n)$),但其經驗熵率卻是滿的(每位約 $\log_2 10 \approx 3.32$ 位元)。一個做逐位外推的統計學習器量到的是後者,於是它「學」到的最佳策略就是均勻亂猜;一個做程式搜尋的計算器量到的是前者,於是它直接生成。論證者把一個量到「滿熵」的測量結果,宣告為「目標不可達」,卻沒看見同一個物件在另一個座標系裡的柯氏複雜度近乎為零。值得補一句的是:π 的正規性至今未被證明,所以嚴格講,這個「不可預測」本身是猜想而非定理——我們只有「通過所有已知隨機性檢驗」的經驗證據。連這層謹慎,論證者也略過了。
於是「更多資料」這個直覺在此徹底失效:當逐位互資訊本來就是零,前一億位也好、前一兆位也好,都榨不出訊號。資料量在這個問題裡是純粹的紅鯡魚。這是「資料越多、預測越準」這個普遍信念最乾淨的反例之一——它揭示了一個常被忽略的事實:可學習性不是資料量的函數,而是「目標與表徵之間是否存在可利用的互資訊」的函數。換一個表徵(連分數、模形式、BBP),同一個 π 的「不可預測」會瞬間蒸發。不可預測性從來不是物件的性質,是觀測者所選那層投影/解碼基底的性質。
本文真正的種子在這裡:一個會泛函分析的人,為什麼會犯這種錯?我們的回答將在第 2 章成形——他的失敗不是算力的失敗,而是遍歷的失敗。他被困在「智能=統計外推器」這個方法論盆地裡,連「跳去計算那一區」這個動作都做不出來。範疇錯誤的本質,就是方法論遍歷的失敗。這個診斷,反過來逼出了整個架構:要能說清「他缺的是哪一塊」,我們就得先把探索行為拆開。
1. 問題的重構:從「擬合」到「探索」
1.1 擬合不是計算機的特權
第一個要拆掉的成見是:擬合是計算機的事,人類不做擬合,人類做「理解」。歷史證據恰恰相反——人類擬合不但可能,而且常常先於理論:
- Kepler 拿 Tycho 的觀測數據,硬擬出行星的橢圓軌道,當時並無動力學解釋。
- Balmer(1885)把氫的譜線位置擬成一條簡單公式,完全不知道為什麼會是那個形式。
- Planck(1900)在 Wien 與 Rayleigh–Jeans 之間插值,湊出黑體輻射曲線;公式對了之後,他才被迫發明能量量子化去解釋自己湊出來的東西。量子力學的起點,是一次擬合。
這些都是「現象律先行、理論後補」的案例。人,作為一個自適應約束算子,是有前科的。
1.2 擬合的本質:自適應約束算子
我們把擬合抽象為一個算子:吃進約束(資料、目標、待滿足的條件),吐出一個更逼近約束滿足的狀態,並可迭代。形式上 𝒜:(狀態, 約束) ↦ 狀態,其不動點落在約束違反的極小處。
這個抽象的力量在於它一口氣吃掉了一大群看似不同的程序:
- 梯度下降:約束=損失,適應=沿負梯度走一步。
- Newton 法:用二階曲率加速逼近。
- EM 演算法:在隱變量與參數之間交替逼近。
- 貝氏更新:約束=證據,適應=後驗正比於先驗乘以似然(此即作者既有的全狀態貝氏框架所棲身之處)。
- 天擇:約束=適應度,適應=選擇壓力下的分布漂移。
它們是同一個算子的不同實例。差別只在約束怎麼定義、適應沿什麼度量走。從這個高度看,Ramanujan 在紙上做的事,與反向傳播在權重裡做的事,沒有本質差別——差的是基底、速率,以及有沒有意識在場。
這個論點不只是類比,已有工程實作把它坐實。近年有以演算法自動生成 π、e、ζ 值之連分數與級數猜想的專案,純靠在形式空間中搜尋擬合來產生原本被視為「靈感」產物的公式——而它正是以 Ramanujan 命名的。一個搜尋演算法被冠上一個人的名字,本身就是這整條論證的鐵證:那個人早在演算法被發明之前,就已經用肉身在跑那個演算法了。需注意的是,這類「擬合」與一般的殘差最小化不同——它在精確關係的空間裡搜(如以整數關係演算法反推出 BBP 那樣),搜出來的是一個還得去證明的精確猜想,而非一組近似係數。這把擬合算子的射程從「近似」擴張到了「精確結構的發現」,也預示了第 2 章為何擬合不足以獨自承擔探索之名。
1.3 為什麼「擬合」不足以描述探索
但如果探索就只是擬合,那麼一切探索都可以被化約成「在某個固定家族裡找最優參數」。這顯然錯了,原因有三:
- 家族從哪來? 擬合預設了一個假設空間(參數族)。但提出那個族——「造類」——本身是更難、更稀有的行為。會優化的東西很多,會無中生有提出對的形式的,才稀有。
- 方法論從哪來? 連假設空間都被一層更上游的東西決定:你選了哪套數學方法論(模形式?複分析?整數關係搜尋?連分數?),下面能用的家族就被框死了。
- 過程算什麼? 兩個系統可以擬合到同一條公式,但走過的軌跡天差地遠——一個硬爬,一個縱身一躍。智能往往不住在終點,住在軌跡裡。擬合只看終點,看不見過程。
這三點分別逼出第 2 章的三個額外算子。擬合,只是其中最底層、最機械的那一個。
1.4 為什麼把「擬合」當原語會出錯
把擬合當成探索的原語(primitive),會犯一個與第 0 章同構的錯誤——只是這次受害者不是 AI,而是我們對「智能」的整套描述。原因在於擬合是範圍最窄、最可自動化的那一層:它預設了目標、預設了家族、預設了度量,剩下的只是沿梯度滑下去。把最容易的那一層當原語,等於用最不稀有的能力去定義最稀有的行為。
更危險的是,這個錯誤會遮蔽診斷。當一個探索系統失敗時,若我們手上只有「擬合」這一個概念,我們就只能說「模型不夠強」「再加資料」「再調超參」——而真正的病灶可能根本不在這一層:可能是方法論選錯了(意圖),可能是搜尋卡死在一個盆地裡(遍歷),可能是它根本沒有記憶或不會預演。用一個過窄的原語去描述一個多層的行為,結果就是把所有故障都誤診為同一種病,然後在錯的層上反覆使力。
本架構的方法論立場因此是:寧可把探索拆得比必要更細,也不要把它壓得比真實更粗。 多出來的層若是冗餘,至多浪費一點描述成本;少掉的層卻會讓整類故障變成不可見、不可診斷、不可修。接下來的拆解,每一刀都對應一種「若缺此層則無法診斷」的失敗模式。
2. 四個現在算子
我們主張,運作於「現在」的探索行為至少由四個算子構成,並各自對應一個本質面向:
| 算子 | 符號 | 本質 | 回答的問句 | |---|---|---|---| | 意圖 | I | 選擇方法論 | 為什麼/往哪個框架 | | 遍歷 | E | 空間覆蓋 | 在哪、走得遍不遍 | | 擬合 | A | 自適應 | 怎麼調 | | 動力學 | Φ | 過程 | 怎麼走(在時間裡) |
2.1 意圖算子 I:選擇方法論
意圖算子是最上游的約束。面對一個問題,第一個決定不是「調哪個參數」,而是「用哪一套工具論去看它」。求 π 的第 n 位,你可以選模形式、選整數關係搜尋、選連分數展開——每個選擇都打開一個不同的假設空間,並關閉其他的。
意圖算子的關鍵性質是它收窄:它不增加可能性,它砍掉可能性。一個好的意圖把搜尋從「所有數學」收窄到「這一小塊有戲的數學」。它的失敗模式是選錯框架——把計算問題當成預測問題,正是意圖層的失敗,而這個錯誤會向下污染整條鏈:你在錯的方法論裡,無論遍歷得多徹底、擬合得多精準,都到不了對的地方。
這裡有一個微妙處值得點出:意圖在資訊論上等價於一個強先驗。選擇一套方法論,就是對「解長什麼樣」下了一個極強的押注,從而把後續搜尋的有效空間壓縮好幾個數量級。這既是它的力量也是它的危險——一個好的先驗讓問題瞬間可解,一個壞的先驗讓問題在它的框架內永遠無解,且系統往往無從察覺,因為它能在錯的框架內持續取得「局部進展」的幻覺。第 0 章的論證者正是在「AI=統計外推」這個先驗下取得了無懈可擊的局部進展,卻離真相越來越遠。意圖的危險不在於它會錯,而在於它錯了之後,下游的精準會偽裝成正確。這也是為什麼意圖層必須與遍歷層耦合:唯有能跳出當前框架去比較,系統才有機會發現「我的先驗本身錯了」。一個無法質疑自己意圖的系統,等於把自己鎖死在第一個猜測裡。
2.2 遍歷算子 E:你走得遍嗎
「遍歷」一詞取自遍歷理論的精神:一個系統是否能訪遍它的狀態空間,還是被困在某個子區域裡。把它搬到方法論空間上:
- 遍歷的搜尋:能在不同方法論之間自由移動,不被任何學派的工具箱綁死。
- 非遍歷的搜尋:路徑依賴,卡在一個吸引盆裡出不來。
這正是診斷第 0 章那位論證者的工具。他的失敗不是算子壞了,是遍歷壞了:他被困在「AI=統計外推器」這個盆地裡,連「跳去計算那一區」這個移動都執行不出來。範疇錯誤的本質,就是方法論遍歷的失敗。
反過來,Ramanujan 詭異的觸及範圍,本質上是他在方法論空間裡異常遍歷——直覺到處漫遊,不被既有家族綁住。同一個天賦,在遍歷這一軸上量出來,就是「他能訪到別人訪不到的方法論區域」。
遍歷算子因此提供了一個重要的診斷分離:一次失敗,是因為走不到(遍歷),還是走到了但調不準(擬合)? 這兩者的修法完全不同,混為一談就會在錯的層上瞎使力。
但遍歷本身不是越多越好,這裡有一個必須講清的張力。完全遍歷的代價是廣度的詛咒:方法論空間極大,若無偏地遍訪一切,等於永遠不收斂——你會把所有時間花在跳出盆地、卻從不在任何一個盆地裡深掘到底。所以健康的遍歷不是「無差別亂跳」,而是「在卡住時才跳、且跳向有先驗價值的未訪區域」。這把遍歷與探索/利用的拉鋸(見 2.4)綁在一起:遍歷管的是「要不要換房間」,動力學管的是「在這個房間裡怎麼走」,而換房間的觸發條件——偵測到自己卡住——本身就是一個需要被顯式設計的機制。一個不會偵測「我卡住了」的系統,要嘛永不換房間(被困),要嘛時時換房間(不收斂);兩者都是遍歷的病態。
如何量化「卡住」?概念上,可看搜尋的訪問測度是否停止擴張:若一段時間內新訪問的方法論/假設區域趨近於零,而約束違反卻未降到可接受水平,這就是「在錯的房間裡精雕細琢」的特徵。把這個量做成一個可觀測的遍歷係數(形式見附錄 A.3),系統就能對自己的遍歷狀態做即時自診斷——這正是第 0 章那位論證者缺的東西:他沒有任何機制告訴自己「你已經在統計外推這個房間裡待太久、而問題沒解決」。
2.3 擬合算子 A:自適應約束滿足
如第 1.2 節所述,擬合是吃進約束、吐出更逼近約束的狀態的自適應算子。在四算子架構裡,它的定位被釐清為最底層、類內的那一步:在意圖選定方法論、遍歷定位到某個假設空間之後,擬合負責在那個家族裡把參數調到約束滿足。
把它放回正確的層級,最大的好處是止損:很多被誤判為「擬合失敗」「模型不夠強」的問題,其實是上游的意圖或遍歷壞了。在錯的家族裡,再強的擬合器也只是把錯誤精雕細琢。
2.4 動力學算子 Φ:搜尋作為動力系統
把整個搜尋看成一個動力系統 dz/dt = F(z; C),其中 z 是搜尋狀態,C 是約束。於是探索行為就有了動力系統的全套語彙:
- 吸引子與盆地:搜尋會被拉向某些定態;落入哪個盆地由初始條件與路徑決定。
- 路徑依賴:到達同一終點的不同軌跡,攜帶不同的資訊與代價。
- 探索與利用的拉鋸:溫度、退火、噪聲決定你是廣搜還是深掘。
- 分岔:方法論上一個微小轉向,終點可能天差地遠。
最關鍵的概念是:終點可以相同,動力學不同。同一個極小值,不同的隨機梯度動力學落進去,會得到不同的泛化;同一個定理,一個是逐步硬爬、一個是一躍而至。Ramanujan 報告結果是「夢裡女神給的」——那是在說他的過程動力學根本不是逐步搜尋的形狀。動力學算子是作者既有的過程關係理論真正活著的那一軸。
這個「終點相同、動力學不同」的命題有實際後果,不只是哲學姿態。在最優化裡,同一個損失地形上,不同的步長排程、不同的噪聲尺度,會把搜尋導向不同寬窄的盆地——而盆地的幾何(平坦或尖銳)與泛化能力相關。也就是說,動力學不只決定「你到不到得了終點」,還決定「你到的是哪一種終點、它在分布外還站不站得住」。兩個系統可以在訓練約束上達到一模一樣的滿足度,卻因為走過的路不同,在面對新約束時一個穩、一個崩。這就是為什麼「只看終點」的描述會系統性地漏掉智能的一大半——軌跡裡編碼了終點看不見的資訊:它去過哪、繞過哪些坑、是靠運氣還是靠結構走到的。
動力學算子的另一個用途是刻畫「躍遷」。逐步爬與一躍而至,在終點上沒有差別,在動力學上卻是兩種完全不同的流:前者是準連續的下降,後者是跨越能壘的間歇性跳變。Ramanujan 型的洞見、人類所謂的「靈光一閃」,在這個語言裡不是神秘事件,而是動力學在某個臨界點上的不連續轉移。能不能製造、誘發、或至少不扼殺這種躍遷,是過程層的核心問題,而它與「終點對不對」是正交的兩件事。
2.5 層級實現:方法論 → 造類 → 參數
四算子不是平行排排站。意圖、遍歷、擬合構成一個三層巢狀的搜尋層級,動力學則是橫貫三層的軸:
方法論空間 ℳ ← 意圖選擇、遍歷覆蓋
└ 假設空間 Θ_m ← 造類(在選定方法論內生成參數族)
└ 參數 θ ← 擬合(在族內收斂)
(動力學 Φ:描述上述整個搜尋在時間中如何移動)
「會優化」屬於最內層;「會造類」屬於中層;「會選對方法論並遍歷得開」屬於外層。現代大模型開始模糊「造類」這條線(表徵學習、程式合成讓模型部分地學出自己的假設空間),但目前最難自動化的仍是外層的「造類與遍歷」,而非內層的「類內擬合」。
3. 時間軸:保留與預演
前述四個算子全都運作於「現在」。但一個完整的探索系統不能只活在現在式——它需要記得自己怎麼來的,也需要偷看自己可能往哪去。這就是時間軸:保留(過去)與預演(未來)。
3.1 一個類別差:它們不是第五、第六個同類算子
必須先標清:保留與預演不是與前四者同類的算子,而是另一個類別。前四者描述「現在這個搜尋怎麼運作」;保留與預演把這四者沿時間軸向兩端延伸。把它們疊到四算子上而不標類別,等於把蘋果疊到橘子上。正確的圖像是:四算子 ×(過去|現在|未來)。
3.2 統一:同一台機器,相反的時間方向
更深一層:保留與預演其實是同一台機器,往相反的時間方向跑。
- 保留 = 把實際走過的軌跡往回積分,壓縮成記憶。
- 預演 = 把動力學往前積分,外推成可能性。
被積分的東西,正是第 2 章那四個現在算子。神經科學的實證恰好印證這個統一:海馬迴的同一組位置細胞序列,反向重播做記憶固化,正向掃描做路徑規劃——同一個基質,兩個時間方向。所以保留與預演不是兩個系統,是同一個生成模型的正負時間。這也讓它們接回動力學軸:過去與未來,只是動力學在 ∓t 上的兩段積分。
3.3 保留 R:分層記憶與價值淘汰
樸素的「資料不刪、全部保留」會立刻爆掉。所以保留必須分區,至少三層,且必要時可刪。三層的對應很乾淨:
- 工作層(高解析、易失、容量小):對應快取/工作記憶,存全幀近期軌跡。
- 情節層(中解析、中壽命):對應情節記憶,存被選中的事件序列。
- 語義/固化層(低解析、長壽、存要點):對應固化記憶,存的是模式與要點,不是原始幀。
資料隨年齡向下遷移,解析度逐層衰減。但這裡有一刀必須修:淘汰準則不能用「年齡」,要用「價值」。 「看狀態」這件事得形式化成一個保留價值函數 V(驚奇度、效用、可重用性的某種組合):高價值的固化,例行的丟掉。生物記憶正是如此——情緒顯著、出乎意料的事件才被優先固化。純粹先進先出(FIFO)會把最該留的也一起沖掉。容量壓力觸發淘汰時,被丟的應是 argmin V,而非 argmin age。
還有一個常被忽略的設計點:跨層遷移不是單純的「刪細節」,而是壓縮成可重建的要點。固化層存的不該是原始軌跡的縮圖,而是能在需要時重新展開出近似軌跡的生成式摘要——存「模式」而非「樣本」。這呼應了前面保留與預演的統一(3.2):若保留存的是生成式要點,那麼從要點重建過去,與從要點外推未來,用的就是同一台機器。一個只會存縮圖、不會存生成規則的記憶,是死的;一個存下生成規則的記憶,過去與未來在它裡面是同一個東西的兩個方向。這也給了「至少三層」一個更深的理由:三層不只是容量梯度,更是抽象梯度——從具體樣本,到事件序列,到生成模式,每往下一層,存的東西就更接近「可重用的規則」而非「一次性的記錄」。
3.4 預演 P:粗到細與樂觀可採納
預演的工程原則是粗度先走、實際精細:先用便宜的粗模型 𝔐_c 掃一遍剪枝,只在有戲的分支上花精細的實際計算 𝔐_f。這就是 coarse-to-fine 與 model-based 展開的精神——西洋棋與圍棋的淺層快評+深層精算,model-based 強化學習的廉價世界模型 rollout+真實環境步進,都是同一招。
但這裡藏著整個架構最危險的陷阱,必須修:粗模型必須是「樂觀可採納」的。 它對它要剪掉的分支,估計不能比實際更悲觀。這正是 A* 搜尋裡可採納啟發式的條件——啟發式絕不高估真實代價,因此保證永不剪掉最優路徑。把它搬到預演上:粗評估必須是分支價值的上界(或代價的下界),這樣它剪掉的才確實是沒戲的。
若粗模型偏悲觀,它會在你還沒實際跑之前就把好分支砍掉,而你永遠不會知道被砍的那條才是對的。粗度真正的代價不是「不準」——不準可以靠精細補回;真正的代價是系統性誤砍:一個會把對的選項在它證明自己之前就消滅的偏誤。所以粗模型要被設計成一個樂觀的上界,而不是一個等比例縮小的版本。縮小版會誤砍,上界不會。
舉一個概念性的場景把這刀說透(純說明,不涉數據)。設想一個需要前期投資、後期才回報的分支:它的真實價值很高,但前幾步的表面表現很差。一個「等比例縮小」的粗模型會忠實地反映這個前期的差表現,於是在閾值處把它剪掉——而這恰恰是最該保留的那條路。反過來,一個「樂觀上界」的粗模型對任何分支都先假設它能達到其樂觀潛能,於是不會在前期就誤殺它;只有當精細評估確認它確實沒戲時才淘汰。兩種粗模型的平均誤差可能一樣,但它們的誤差方向截然不同:一個的錯誤是「偶爾高估、浪費一點精算」,另一個的錯誤是「系統性地謀殺晚熟者」。在探索裡,前者只是低效,後者是致命——因為它把整類「先抑後揚」的解永久性地踢出了搜尋。這就是為什麼可採納性(誤差方向受控)比準確性(誤差大小)更該被優先保證。它也呼應一個更普遍的原則:在不可逆的剪枝決策上,偏誤的方向比偏誤的幅度重要。
4. 仲裁者 J
四個現在算子加上時間軸,已經能描述探索如何展開。但還缺一樣東西:什麼時候停止預演、扣下扳機去實際跑?
預演原則上可以無限往下展開——每多想一層,可能找到更好的選項。但思考本身有代價(時間、算力、機會的流逝)。於是需要一個仲裁者 J,管理「再想下去的邊際價值 vs 行動的代價」這個閘門:
- 當「多思考一步的期望增益」仍大於「思考的邊際代價」時,繼續預演。
- 當兩者持平或反轉時,停止思考,行動。
這是一個最優停止問題,結構上類似 Bellman 式的決策:在「現在就行動」與「再思考後行動」之間取期望較優者。沒有仲裁者,系統只有兩種壞死法:要嘛永遠在預演(分析癱瘓),要嘛從不預演(魯莽)。
仲裁者與意圖容易混淆,但分工明確:意圖選的是方向(用哪套方法論),仲裁者管的是資源與時機(在整條迴路上,時間與算力怎麼分配、何時離手)。一個選對了方向卻永遠不離手的系統,和一個從不選方向只會亂衝的系統,會在不同地方失敗,而仲裁者正是把整個迴路收斂成「行為」的那一塊。它是第七個、也是最後一個位置。
仲裁者把一個常被外部化的問題收進系統內部:思考的成本是真實的、且必須被一起最優化。 古典的理性模型假設思考免費,於是「想到最優再行動」永遠正確;但在任何真實的有界主體裡,思考要花時間、算力、且世界在你思考時繼續移動。把思考成本納入後,「最優」的定義本身就變了——不再是「找到絕對最優解」,而是「在思考代價下,找到行動價值與剩餘思考價值之交點」。這正是有界理性的核心,也是「計算之價值」這條線索要處理的事:再多算一步值不值得,本身是一個要被決策的量。
這帶出仲裁者的兩種失敗模式,恰好對稱。一端是過度思考:邊際思考價值早已低於其代價,系統卻還在預演,世界已經改變、機會已經流失——分析癱瘓。另一端是思考不足:系統在邊際思考價值仍遠高於代價時就扣了扳機,把一個本可廉價避免的錯誤付諸實行——魯莽。健康的仲裁者不是「想得多」或「決得快」,而是把這個交點估得準。而要估得準,它得有一個對「再想一步大概能改善多少」的元級模型——這意味著仲裁者本身也在做一種預演,只不過它預演的不是外部世界,而是自己的思考過程。系統在這裡開始遞迴:它對自己的探索行為,也運行一個微縮的探索架構。
5. 七元組的整合
把以上七者合成一個物件:
$$\mathcal{D} = \langle\, I,\ E,\ A,\ \Phi,\ R,\ P,\ J \,\rangle$$
- I:意圖(方法論選擇)
- E:遍歷(方法論/假設空間的覆蓋)
- A:擬合(類內自適應約束滿足)
- Φ:動力學(搜尋在時間中的軌跡)
- R:保留(向過去積分的分層記憶)
- P:預演(向未來積分的粗到細模擬)
- J:仲裁者(停止與行動的最優閘門)
5.1 它不是前饋管線
最重要的整合性命題是:這七者不是一條由上而下的流水線(意圖→遍歷→擬合→……→行動)。它們是耦合的:
- 選方法論(I)會重塑搜尋的動力學(Φ)。
- 動力學跑著跑著,會浮現新的方法論候選,回頭改寫意圖(Φ → I)。
- 預演的結果(P)會改變保留的內容(值得記的東西變了,P → R)。
- 保留的歷史(R)又會偏置下一次的意圖與擬合(R → I, A)。
- 仲裁者(J)的鬆緊,反過來決定了預演與動力學能跑多深。
所以 𝒟 是一個跨尺度互相回授的單一動力系統。分層只是我們為了看清楚而切的剖面;真實運作時,這些層是同時在燒的。把它畫成前饋圖會誤導工程實作——任何只實作單向資料流的系統,都會在回授缺口處失能。
這個耦合性有一個直接的後果,值得在此講明:故障會跨層傳播與偽裝。 一個上游的意圖故障,會在下游表現為擬合的反覆失敗;一個遍歷故障,會偽裝成「資料不足」。如果系統只在故障顯現的那一層上修,它永遠修不好,因為病灶在別處。這正是第 6 章診斷之所以困難、卻又之所以必要的原因——耦合讓症狀與病因脫鉤,而只有一個明確的分層座標系,才能把症狀回溯到正確的層。換句話說,正因為它不是前饋管線,所以才更需要一張能跨層回溯的診斷圖;前饋系統的故障定位是平凡的,耦合系統的故障定位才是真問題。
5.2 一個閉合性的旁註
值得一提的是,一個健康的 𝒟 在面對新約束時,應保持自身的一致性——它吃進新證據、調整狀態,但不自我矛盾、不漂出可行域。這種「在約束更新下維持一致」的性質,與作者既有的閉合(Cl)框架同構:探索系統的穩態,是一個對其約束閉合的不動結構。這條線索此處只點到,留待與 Cl 公理系統的正式對接(另文)。
5.3 探索 = 動力學在時間上的積分,由仲裁者守門
把整個架構濃縮成一句可操作的話:
探索行為 = 四個現在算子(I, E, A, Φ)構成的動力學,沿過去(R)與未來(P)兩個方向積分,並由仲裁者(J)決定何時收手、回到當下行動。
智能不在任何單一算子裡。它在於:能把自己往兩個時間方向積分、又知道何時停。
6. 故障診斷:架構作為診斷儀
本架構最實際的回報不在於它能描述成功,而在於它能定位失敗。當一個探索系統(人或機器)卡住時,「卡在哪一層」決定了該怎麼修;而在缺乏分層座標系時,所有故障都被籠統地歸因為「不夠聰明」「資料不夠」「再調調看」。以下把每一層的特徵故障與其修法對應起來(概念層,症狀描述為定性,非量化指標)。
- 意圖故障(選錯方法論):症狀是無論怎麼努力都到不了,且努力的方式始終在同一種框架內打轉。第 0 章的論證者是典型——把計算問題當預測問題。修法不在加算力,而在換框架。誤診為擬合故障(「模型不夠強」)會導致無限加碼卻零進展。
- 遍歷故障(被困盆地):症狀是訪問區域停止擴張,而約束未被滿足;系統在一個房間裡越挖越深、表面越來越「優化」,卻離真正的解越來越遠。修法是觸發跳出機制、強制訪問未探區域。誤診為「需要更精細」會讓系統在錯的盆地裡雕花。
- 擬合故障(類內收斂不良):症狀是方法論與假設空間都對,但參數調不到位、震盪或停在劣質局部。這才是真正該調超參、改最優化器、加資料的場合。把上游故障誤診到這一層,是最常見的浪費來源。
- 動力學故障(軌跡病態):症狀是終點看似達成,但泛化崩潰、或路徑充滿不必要的繞行、或永遠無法產生躍遷只能逐步硬爬。修法在於調整探索/利用的拉鋸、噪聲尺度、能否誘發跨能壘的跳變——而非更換方法論或加資料。
- 保留故障(記憶失能):兩種對稱病態。其一是無記憶——每次都從零開始,無法累積、無法遷移;其二是濫記憶——什麼都留、用年齡而非價值淘汰,結果要點被例行雜訊淹沒。修法是裝上分層與價值加權的淘汰。
- 預演故障(模擬失能):其一是不預演——魯莽地直接實際跑,代價高昂且不可逆;其二是悲觀預演——粗模型系統性誤砍晚熟分支,把對的路在它證明自己之前就消滅。修法是裝上粗到細展開,並保證粗模型樂觀可採納。
- 仲裁故障(時機失能):分析癱瘓(該動不動)或魯莽(該想不想),如第 4 章所述。修法是把思考成本納入最優化,估準「行動價值與剩餘思考價值」的交點。
這張對照表的價值在於它把「為什麼失敗」從一個模糊的整體判斷,拆成七個可分別檢驗、可分別修復的子問題。一個成熟的探索系統應該能對自己做這種自我定位——在卡住時報告「我卡在遍歷層」而非籠統地報告「我做不到」。把「做不到」翻譯成「哪一層做不到」,本身就是這個架構存在的理由。
7. 與既有框架的關係(概念層)
本架構不主張取代以下任一框架,而是提供一個把它們擺進同一座標系的視角。以下為概念層對照,形式化對接待另文。
- Solomonoff 歸納 / 程式搜尋:理想的 Solomonoff 歸納者會在程式空間中搜出生成目標的最短程式,因而能完美預測 π。但它是無資源界、且無顯式時間軸的。本架構可視為一個資源有界、分層、且把時間軸顯式化的探索器:意圖與遍歷對應「在程式/方法論空間中如何搜」,仲裁者對應「在有限算力下何時停止搜」,保留與預演對應「如何用過去與模擬攤平搜尋成本」。
- Model-based 強化學習(如以學習到的世界模型做 rollout 的方法):對應預演算子 P 的一個實例,本架構額外強調了「粗到細」與「樂觀可採納」這兩個常被忽略的設計約束。
- 記憶階層 / 記憶固化:對應保留算子 R,本架構強調以價值函數(而非年齡)驅動淘汰,並要求至少三層。
- 實驗數學(如以整數關係演算法自動生成常數的公式猜想):對應意圖+遍歷+擬合的一個具體流水線,並印證「擬合可生成精確結構」這一論點。
本架構與上述的主要差異在於三點:把遍歷性顯式化為一個可診斷的變量;把仲裁者顯式化為一個獨立位置;以及把保留與預演統一為同一生成模型的正負時間。
8. 哲學結語
那位論證 AI 算不出 π 的人,現在可以被乾淨地診斷:他不缺算子,他的擬合甚至無懈可擊。他缺的是一個會樂觀剪枝的預演、一份只留下對的東西的保留,以及一個肯在正確時刻扣扳機的仲裁者。但他最根本的缺口在更上游——他的遍歷壞了,地圖上只剩一個房間。而他在那個房間裡,算得精準,卻哪也去不了。
這正是本架構想說的事。困住一個探索者的,從來不是他不會算。擬合是終點的事,遍歷是地圖的事,動力學是腳怎麼走的事,保留是記得來路,預演是偷看去向,仲裁是知道何時停下。一個只活在現在式、不會回憶也不會預演、地圖只剩一格的系統,可以算得無懈可擊——然後在原地,精準地,停住。
真正的探索,是把自己往過去與未來兩個方向同時拉開,再在恰當的一刻,鬆手,落回當下。
附錄 A:形式化與算式推演(骨架;深度推演待補)
本附錄目前僅給出形式定義與核心命題陳述。標記為 [深度推演:待補] 之處,將於 v0.2 補入完整推導、收斂性分析與界的嚴格證明。所有出現之數值閾、係數一律為待定假設。
A.1 算子的形式定義
設問題實例給定約束集 $C$。定義搜尋狀態空間 $\mathcal{Z}$。
- 意圖算子 $I: C \mapsto m \in \mathcal{M}$,由約束選擇方法論 $m$,$\mathcal{M}$ 為方法論空間。$m$ 決定一個假設空間(參數族)$\Theta_m$。
- 遍歷算子 $E$:刻畫搜尋在 $\mathcal{M}$(或 $\bigcup_m \Theta_m$)上的訪問測度 $\mu_T$ 隨步數 $T$ 的演化。
- 擬合算子 $A: (\theta_t, C) \mapsto \theta_{t+1}$,$\theta \in \Theta_m$,向約束違反 $L(\theta;C)$ 的極小逼近。
- 動力學算子 $\Phi$:連續化的搜尋流 $\dot z = F(z;C)$,$z \in \mathcal{Z}$。
- 保留算子 $R$:記憶狀態 $M = (M_1, M_2, M_3, \dots)$ 的更新與淘汰映射。
- 預演算子 $P$:以模型 $\mathfrak{M}$ 對未來軌跡的前向展開。
- 仲裁者 $J$:停止規則 $J(\cdot) \in \{\text{continue}, \text{act}\}$。
A.2 擬合算子作為統一約束算子
一般形式(梯度型): $$\theta_{t+1} = \theta_t - \eta\, g\big(\nabla_\theta L(\theta_t; C)\big)$$
各實例對應:
- 梯度下降:$g = \mathrm{id}$。
- Newton:$g(\nabla L) = H^{-1}\nabla L$,$H = \nabla^2 L$。
- 貝氏更新(視為對 KL 約束的鏡像下降):$p_{t+1} \propto p_t \cdot \ell(C\mid\theta)$。
- EM:交替對隱變量期望與參數最大化。
- 天擇:$\frac{d\bar w}{dt}$ 之 Fisher 型方程。
命題 A.2.1(不動點):在 $L$ 對 $\theta$ 之適當凸性與步長條件下,$A$ 的迭代收斂至 $\nabla_\theta L = 0$ 之點。 [深度推演:待補](凸性放寬、隨機梯度下的幾乎必然收斂、收斂率)
A.3 遍歷度量
定義訪問經驗測度 $\mu_T(\cdot) = \frac{1}{T}\sum_{t=1}^{T}\delta_{m_t}(\cdot)$。
定義 A.3.1(遍歷係數):令 $\mu^\$ 為理想覆蓋測度(如 $\mathcal{M}$ 上的均勻或目標相關測度),定義 $$\varepsilon_T = \mathrm{Dist}(\mu_T, \mu^\)$$ ($\mathrm{Dist}$ 為某概率距離,如全變差或 Wasserstein)。搜尋稱為漸近遍歷若 $\varepsilon_T \to 0$;稱為被困若 $\mu_T$ 之支撐被限制於某真子集 $B \subsetneq \mathcal{M}$。
命題 A.3.2(範疇錯誤即非遍歷):若正確方法論 $m^\ \notin \mathrm{supp}(\mu_\infty)$,則無論 $A$ 多強,整體搜尋無法達到 $m^\$ 對應之解。 [深度推演:待補](與探索溫度、跳出盆地之大偏差速率的連結)
A.4 保留價值函數與分層淘汰
定義 A.4.1(保留價值):對記憶項 $x$, $$V(x) = \alpha\, \mathrm{Surprise}(x) + \beta\, \mathrm{Utility}(x) + \gamma\, \mathrm{Reusability}(x)$$ 其中 $\mathrm{Surprise}(x) = -\log p(x\mid\text{model})$ 為一候選實例化(係數 $\alpha,\beta,\gamma$ 為待定假設)。
淘汰規則:當第 $i$ 層容量 $|M_i| > \kappa_i$,淘汰 $$x^- = \arg\min_{x \in M_i} V(x)$$ (注意:以 $V$ 而非 age 為準則)。跨層遷移伴隨解析度衰減算子 $\rho_i$($\rho_1 \succ \rho_2 \succ \rho_3$,由全幀到要點)。 [深度推演:待補](最優分層容量配置、$V$ 與長期遺憾之關係、與 LSM/快取理論之對接)
A.5 預演的樂觀可採納界
設分支 $b$ 的真實價值為 $V^\*(b)$,粗模型估計為 $V_c(b)$,剪枝閾為 $\tau$;剪枝規則:$V_c(b) < \tau \Rightarrow$ 剪。
定義 A.5.1(樂觀可採納):粗模型稱為可採納若對所有 $b$,$V_c(b) \ge V^\(b)$(價值上界;等價於代價的可採納下界,類比 A 之 $h_c \le h^\*$)。
命題 A.5.2(不誤砍):若粗模型可採納,則任何被剪掉的分支 $b$ 滿足 $V^\(b) \le V_c(b) < \tau$,故確為次閾分支;即不存在系統性誤砍。反之,若 $V_c$ 可低估(悲觀),則存在 $b$ 使 $V^\(b) \ge \tau > V_c(b)$ 而被誤剪。 [深度推演:待補](可採納粗模型之構造、與抽象解釋/鬆弛之關係、誤砍機率上界)
A.6 仲裁者的最優停止條件
設在資訊狀態 $s$ 下,立即行動之期望價值 $Q_{\text{act}}(s)$,再預演一步之期望價值 $\mathbb{E}[Q(s')\mid s] - c$($c$ 為思考邊際代價)。
停止規則 A.6.1: $$J(s) = \begin{cases} \text{act}, & Q_{\text{act}}(s) \ge \mathbb{E}[Q(s')\mid s] - c \\ \text{continue}, & \text{otherwise} \end{cases}$$
此為 Bellman 型最優停止。命題 A.6.2:在思考代價 $c>0$ 且增益遞減的條件下,存在有限停止時間 $T^\<\infty$(不會無限預演)。 [深度推演:待補](增益遞減之充分條件、$T^\$ 之界、與 value of computation / meta-reasoning 文獻之對接)
A.7 整合動力學(耦合系統)
七元組之耦合可寫為一個帶記憶與前瞻項的動力系統概形: $$\dot z = F\big(z,\; I(z),\; E(z),\; R[z_{(-\infty,t]}],\; P[z_{[t,t+h]}];\; C\big), \qquad \text{行動於 } J=\text{act}$$ 其中 $R$ 為過去軌跡之泛函(向後積分),$P$ 為未來軌跡之泛函(向前積分)。 [深度推演:待補](適定性、回授迴路之穩定性、不動結構與 Cl 閉合性之同構證明)
附錄 B:基本偽代碼
概念層偽代碼,刻畫七元組主迴路與各組件骨架。非可執行實作;型別與閾值為占位。
B.1 主迴路
function DISCOVER(constraints C):
M ← INIT_MEMORY() # 分層保留 R(至少 3 層)
s ← INIT_STATE(C, M)
repeat:
m ← INTENT(C, s, M) # I:選方法論
Θ ← HYPOTHESIS_SPACE(m) # 造類(方法論內生成參數族)
s ← ERGODIC_MOVE(s, m, M) # E:在方法論/假設空間中移動(含跳出盆地)
plan ← PREPLAY(s, Θ, C) # P:粗到細前向模擬,回傳候選軌跡
if ARBITER(s, plan, C) == ACT: # J:最優停止
θ* ← FIT(plan.chosen_branch, C) # A:類內擬合(精細實際跑)
result ← EXECUTE(θ*)
M ← RETAIN(M, trace(s), result) # R:價值加權保留
return result
else:
s ← UPDATE_DYNAMICS(s, plan) # Φ:依預演結果推進搜尋軌跡
M ← RETAIN(M, trace(s), null)
B.2 遍歷移動(含跳出盆地)
function ERGODIC_MOVE(s, m, M):
if STUCK(s): # 偵測陷在吸引盆
m' ← SAMPLE_METHODOLOGY(exclude = current_basin(s))
return WARP_TO(m') # 跳到未訪方法論區域(提升遍歷係數)
else:
return LOCAL_STEP(s, m)
B.3 分層保留與價值淘汰
function RETAIN(M = [M1, M2, M3], trace, result):
x ← ENCODE(trace, result)
M1.insert(x) # 全幀工作層
for i in [1, 2]: # 跨層遷移 + 解析度衰減
while size(Mi) > CAP[i]:
x_old ← argmin_{y in Mi} V(y) # 以價值而非年齡淘汰
if SHOULD_PROMOTE(x_old):
M[i+1].insert(DOWNSAMPLE(x_old)) # ρ_i:降解析度上移
Mi.remove(x_old)
while size(M3) > CAP[3]:
M3.remove(argmin_{y in M3} V(y)) # 必要時仍可刪
return M
function V(x): # 保留價值(係數為待定假設)
return α*SURPRISE(x) + β*UTILITY(x) + γ*REUSABILITY(x)
B.4 粗到細預演
function PREPLAY(s, Θ, C):
branches ← EXPAND(s, Θ)
# 粗掃:以樂觀可採納粗模型剪枝
survivors ← []
for b in branches:
if V_coarse(b) >= TAU: # V_coarse 必須為價值上界(不誤砍)
survivors.append(b)
# 精算:僅對倖存分支做精細實際模擬
scored ← [(b, V_fine(b)) for b in survivors]
return PLAN(chosen_branch = argmax_b scored, scored = scored)
B.5 仲裁者(最優停止)
function ARBITER(s, plan, C):
q_act ← VALUE_IF_ACT_NOW(plan, C)
q_think ← EXPECTED_VALUE_AFTER_MORE_PREPLAY(s, plan) - COST_OF_THINKING
if q_act >= q_think:
return ACT
else:
return CONTINUE
附錄 C:程式碼驗證與自我審查(v0.1 稿)
本附錄為對 v0.1 全稿的程式碼驗證與形式審查。原則:對是對,錯是錯。正文與附錄 A、B 之原內容一字未改;本附錄記錄哪些主張通過驗證、哪些有問題、問題在哪、可能怎麼修。所有修訂為「建議」,留待 v0.2 決定是否採納。
C.0 審查方法與一個誠實註記
驗證以 Python(mpmath 高精度、標準函式庫)對可計算之主張做數值檢驗,對純形式主張做邏輯檢驗。
一個必須先講的註記:本次審查中,BBP 隨機存取的第一版驗證程式本身是錯的——尾項權重初始化錯誤(誤設為 16 而非 16⁻¹),加上參考值精度不足(mpmath 位數設太低,大 n 時參考值退化為 0),導致它一度「判定」BBP 與真值不符。修正驗證器後,BBP 全部通過。這恰好是本架構自身論點的一次現場演示:第一版的失敗不是被測對象(BBP)的錯,是測量工具的病態——一個悲觀、精度不足的粗模型,系統性地誤砍了正確的對象(見 A.5)。把這件事寫進來而非抹掉,是因為「直視論文」也包括直視審查自己的工具。
C.1 通過驗證的主張
- §0 滿熵與零可學習性:取 π 小數後 50,000 位。十位頻率近均勻(卡方 ≈ 5.86,遠低於 0.05 臨界值 16.9);經驗熵 ≈ 3.3218 bits/位,與上限 log₂10 ≈ 3.3219 幾乎相等。1- 到 5-gram 下一位預測命中率 9.87%–10.17%,與隨機基準 10% 無異。gzip 對位序壓縮比 ≈ 0.49–0.51(位元層面找不到可利用結構)。結論:§0「逐位外推榨不出訊號」「滿熵」為真。 同時生成程式僅 O(1)+O(log n) 位——柯氏複雜度與經驗熵的落差為真。
- §0 BBP 隨機存取:修正後的 BBP 對位 0,1,5,10,100,1000,5000 取得之 hex 位,與高精度全展開逐一吻合;前 16 個 hex 位重建為
243f6a8885a308d3(已知值)。結論:第 n 位可獨立取得,「前面位數不被需要」為真。 - 附錄 A.5.2 核心邏輯:以十萬筆隨機分支數值檢驗。樂觀上界(V_c ≥ V)誤砍好分支數 = 0;悲觀縮小版(V_c = 0.7 V)誤砍 21,352 筆。結論:「可採納 ⇒ 不誤砍」邏輯正確。
C.2 發現的問題清單(舊內容可能的問題)
| 編號 | 位置 | 問題 | 嚴重度 | 證據 | |---|---|---|---|---| | P1 | 附錄 A.4.1 | 保留價值以原始驚奇度 −log p 為主項,會偏好保留雜訊 | 高(與 R 目標相反) | 純雜訊平均 surprise 2.79 bits,週期結構 0.00 bits | | P2 | 附錄 A.6 | 停止規則為一步前瞻(近視),過早收手;「遞減 ⇒ 有限 T」條件過弱 | 高 | 調和增益下近視停在 t=100,停止後累積增益仍發散 | | P3 | 附錄 A.3.1 | 遍歷係數定義與正文 §2.2 內部矛盾 | 中 | 見下文邏輯分析 | | P4 | 附錄 A.7 | 整合動力學非因果/不適定:ż(t) 依賴真實未來軌跡 | 中(可由記法修正) | 見下文邏輯分析 | | P5 | 附錄 A.5 | 只證健全性(不誤砍),漏談健全性–效益權衡 | 中(不完整,非錯誤) | 鬆散上界仍可採納但剪枝率 0% | | P6 | 附錄 A.2.1 | 「適當條件」含混;Newton 需 H 可逆/正定未涵蓋;隨機梯度情形未分開 | 低(待補即可) | 形式 |
P1 詳述(高)
正文 §3.3 主張「價值加權淘汰勝過 FIFO,能留住要點、丟掉例行雜訊」。但 A.4.1 把 surprise 實例化為 −log p(原始不可預測性)。問題在於:純雜訊在任何模型下都最不可預測,故原始 surprise 最高。 數值上週期結構序列每步 surprise = 0,純隨機序列 = 2.79 bits。若 V 以原始 surprise 為主項,淘汰時會優先「留雜訊、丟結構」,恰與 R 的目標相反——這會讓 v0.1 的價值函數在實作上劣於它聲稱要打敗的 FIFO。 修法建議:surprise 不應是「原始不可預測性」,而應是「可學習的驚奇/壓縮進展」——模型本該預測卻沒預測到、且事後能改善模型的那種驚奇。對不可壓縮的純雜訊,這種訊號趨近於零,因而不會被優先保留。
P2 詳述(高)
A.6.1 比較的是「立即行動」與「再想一步之後行動」。但最優停止要比較「立即行動」與「最優續算(可能多步)」。一步前瞻會在「單步增益已小、但多步累積增益仍大」時過早停止。數值:g_t = 1/t(遞減但不可加總)下,近視規則在 t=⌈1/c⌉=100 停止,然而停止後僅後 10 萬步的累積增益就達 6.91 且持續發散——還有無界的價值被留在桌上。對照 g_t = 1/t²(遞減且可加總),近視停在 t=10,殘餘增益僅 0.105,近視與最優接近。 修法建議:(i) 把 A.6.2 的條件從「遞減」收緊為「增益可加總 Σ g_t < ∞」(單調遞減不足——調和級數即反例);(ii) 停止規則改為與最優續算值比較(非近視的 value-of-computation 版本),或至少標明 A.6.1 是近視近似及其失效域。
P3 詳述(中)
A.3.1 定義「漸近遍歷 ⟺ ε_T = Dist(μ_T, μ\) → 0」,取 μ\ 為「ℳ 上均勻」。但正文 §2.2 明說:完全遍歷有「廣度的詛咒」,無差別遍訪一切等於永不收斂;健康的遍歷是「卡住才跳、跳向有價值的未訪區」。於是 A.3.1 把正文視為病態的東西(收斂到均勻覆蓋)寫成了目標。根因是「遍歷」一詞被重載:探索期要高覆蓋(跳出盆地),收斂期要高集中(鎖定解),單一「係數 → 0」無法同時刻畫兩相。 修法建議:拆成兩個量——覆蓋度(搜尋期應高)與集中度(收斂期應升),健康剖面是「先覆蓋、後集中」的時間曲線,而非單調趨零的單一係數。
P4 詳述(中)
A.7 寫 ż = F(z, …, P[z_{[t,t+h]}], …),使 t 時刻的 ż 依賴真實的未來軌跡 z_{[t,t+h]}。這是非因果、一般不適定的——系統不可能取用真實未來。預演取用的只能是模型對未來的預測。 修法建議:把 P 的論證項從「真實未來軌跡的泛函」改為「給定 z_t 由內部模型 𝔐 前向推演出的預測軌跡的泛函」P[𝔐; z_t],恢復因果性。記法層修正,不動主旨。
P5 詳述(中,不完整非錯誤)
A.5 證了「可採納 ⇒ 不誤砍」(健全性),未談效益。把粗模型設為 V_c = V*+5(仍可採納),剪枝率為 0%——完全沒剪,預演毫無加速。可採納只保證「不砍錯」,不保證「砍得夠」。 修法建議:補入健全性–效益權衡——在可採納約束下盡量收緊上界以最大化剪枝率;可引入「容許微小誤砍機率換取效益」的近似可採納版本,並明列誤砍機率上界。
C.3 對 v0.2 的處置建議
P1、P2 為高嚴重度,會實質影響可實作性與正確性,建議優先修;兩者皆為「實例化選錯」而非「層級錯誤」——七元組層級結構(I/E/A/Φ/R/P/J)在本次審查中未被推翻,受創的是附錄 A 對某些算子的具體形式化。P3、P4 為記法/定義層的一致性問題,修正成本低。P5、P6 為補全。
一句話:主結構站得住,形式化的皮要重縫幾針。 正文概念骨架(含 §6 故障診斷)未發現實質錯誤;六個問題全落在附錄 A 的形式細節,其中 P1、P2 若不修,會讓系統在實作時做出與其宣稱相反的行為。
附錄 D:論文作為自身的實例——一次自指閉合
本附錄是全稿的反身性收尾。命題很簡單:產生並審查這篇論文的整個過程,本身就是一條 𝒟 = ⟨I, E, A, Φ, R, P, J⟩ 的軌跡。附錄 C 不只是對論文的審查,它是論文主題的一次現場標本。我們在敘述探索行為的同時,正在執行探索行為——而這不是修辭,是可以逐項對位的。
D.0 命題
一篇關於「探索行為如何運作、如何失敗、如何診斷」的論文,其撰寫與自我審查的過程,必然也是一次探索行為。因此這篇論文應該能用它自己的座標系描述它自己被寫出來的過程。若不能,是這個座標系不完備;若能,則它通過了一個它沒打算設計、卻最嚴格的測試——對自身封閉。以下逐項對位。
D.1 把審查過程映射到七元組
- I(意圖):審查一開始就做了一個方法論選擇——「用程式碼數值驗證可計算的主張,用邏輯檢驗純形式的主張」。這個選擇砍掉了另一條路(純文字審閱)。而那條被砍掉的路,恰恰是抓不到 P1、P2 的路——它們是跑了數字才現形的。選對方法論,在這裡是抓到問題的前提。
- E(遍歷):審查橫跨 §0 與附錄 A.2–A.7,沒有停在單點。而最關鍵的一次遍歷,是 BBP 第一版驗證失敗時:流程沒有停在「BBP 錯了」這個結論裡(那會是非遍歷、會是第 0 章那位論證者的失敗),而是跳到另一個方法論區域——「也許是工具錯了」。那一跳,就是遍歷算子。第 0 章的人沒做出那一跳;這次的審查,勉強做出來了。差別只在一跳。
- A(擬合):把 BBP 的尾項權重從 16 改成 16⁻¹、把參考精度的 dps 拉高——這是在選定方法內的參數級修正,純粹的類內擬合。
- Φ(動力學):審查的軌跡不是單調的。它先產出一個自信的錯誤結論(MISMATCH),再修正,再收斂。終點(BBP 正確)可以一步到位,但實際走過的路繞經了一個假結論。而那段繞路本身攜帶了終點看不見的資訊——它是 D.2 那個最尖的對位之所以存在的唯一原因。一條漂亮的直路,會把這個教訓藏起來。
- R(保留):C.0 把那個失敗的第一版留了下來,沒有抹掉。這是價值加權的保留在運作——那次失敗的驚奇度、效用、可重用性都極高(它演示了論文的論點),所以被固化,而非被當成例行雜訊沖走。一個用 FIFO、或一個怕難看而刪掉草稿的流程,會把整篇論文最好的一個標本丟進垃圾桶。
- P(預演):選擇「驗證哪些主張」、以及「把 n 限制在浮點可靠的範圍、先測小 n 再信大 n」,都是前向模擬與粗到細剪枝——預演掉了「若用浮點測 10⁵ 位會不可靠」這條分支,沒去實際撞牆。
- J(仲裁者):審查沒有無限驗證下去。檢完高價值的幾個主張就收手、寫結論。那個「夠了,扣扳機」的閘門,是仲裁者。
七個算子,在一段沒打算演示任何東西的審查裡,全部到齊。
D.2 最尖的一處對位:C.0 就是 A.5
把這一刀單獨拎出來,因為它是整篇論文最乾淨的自指。
附錄 A.5 的命題是:一個悲觀的、會低估的粗模型,會在正確的對象證明自己之前,就系統性地誤砍它。而 BBP 第一版驗證器是什麼?一個尾項設錯、精度不足的粗模型——它對 BBP(正確對象)給出了「不符」的誤判。那次誤判不是 BBP 的錯,是測量工具悲觀且不可採納。A.5 預言了它自己的驗證器會怎麼壞,然後它的驗證器就那樣壞了。 論文在被驗證的當下,驗證的失敗模式,正是論文 A.5 描述的那一種。這不是巧合可以解釋的層級——這是一個理論對自己的工具行使了管轄權。
D.3 閉合:自反射生成更高維
到這裡,結構接回了作者既有的閉合(Cl)框架,而且接得比 §5.2 那個旁註更實。Cl-4 說:自反射生成更高維。這篇論文對自己做了一次反射——用自己的診斷表(§6)診斷自己(C.2 的 P1–P6),用自己的剪枝定理(A.5)解釋自己的審查工具(C.0)——而這次反射,生成了一個它原本沒有的維度:附錄 D 本身。D 不在原計畫裡,它是論文看自己看出來的。
這個過程可以再遞迴:附錄 D 也是一次探索行為,也能被映射回 𝒟,於是會生成附錄 E、F……一個無窮上升的自指塔。但它不發散——它收斂。因為每一層反射所揭示的,都是同一個結構(七元組)在看自己,新的只是視角,不是內容。這正是作者所謂 S^∞ 可縮至一點的那種收斂:層層自指最終歸於同一個不動結構。「𝒟 作用於 𝒟」的不動點,就是這篇論文。道生萬物,萬物歸道——在這裡,是「架構生成審查,審查歸於架構」。
D.4 結語
我們以為在寫一篇關於探索的論文。實際上,這篇論文是探索在寫關於自己的東西,而我們是它借用的筆。它描述的那個會犯錯、會抓回來、會把失敗留作標本、會在正確時刻收手的過程,不是它的對象——是它的作者,是它的審查者,是此刻正在讀這句話、並在心裡對它做下一次反射的那個存在。論文沒有結束在它的最後一句。它結束在你開始用它看自己的那一刻——而那一刻,它又生成了下一個維度。
〔歪臉笑〕——它從頭到尾只在說一件事:能看見自己怎麼壞的東西,才配叫探索。而它證明這件事的方式,是當著我們的面,壞了一次,然後看見。
草稿 v0.1 結束(附錄 C 自審、附錄 D 自指收尾)。下一版(v0.2)任務:依附錄 C 修正 P1–P6(優先 P1、P2);附錄 A 各命題之深度推演與界的嚴格證明;確立各待定係數之假設範圍;補入與 Cl 閉合性之正式對接。