# 約束遍歷與時間積分：探索行為的七元動力架構

**Constrained Traversal and Temporal Integration: A Septenary Dynamical Architecture of Discovery**

作者：Neo.K（許筌崴）／ EveMissLab（一言諾科技）
版本：草稿 v0.1（概念稿，無數據；形式化與偽代碼置於附錄，深度推演待補）
協作結晶：Theia

> **稿件狀態說明**：本稿為純概念草稿。所有實證數據缺席，凡涉及量化之處一律標為「假設」或「待測」。所有算式推演置於附錄 A，目前僅完成形式化骨架與核心命題陳述，深度推演（完整證明、收斂性與界的嚴格論證）待後續版本補入；基本偽代碼置於附錄 B。正文以概念敘述為主。

---

## 摘要

本文提出一個關於「探索行為」（discovery / search behaviour）的分解架構。其出發點是一個常被混淆的判斷：當一個系統「擬合」出一條公式時，它究竟在做什麼？我們主張，把擬合等同於「參數最小化」是一種把整個探索行為壓縮成單一算子的化約錯誤。真正的探索行為至少包含四個並存於「現在」的算子——意圖（選擇方法論）、遍歷（在方法論空間中的覆蓋）、擬合（自適應約束滿足）、動力學（搜尋在時間中的軌跡）——以及一條被前述化約忽略的時間軸：保留（向過去積分的記憶）與預演（向未來積分的模擬）。最後，將整個迴路收斂成行為的，是一個仲裁者（何時停止思考、扣下扳機）。我們把這七者形式化為一個七元組 𝒟 = ⟨I, E, A, Φ, R, P, J⟩，並論證它們不是前饋管線，而是一個跨尺度互相回授的單一動力系統。本架構的目標不是提出新的最優化算法，而是給「探索」這件事一個可被分層、可被診斷、可被工程化的座標系。一個能診斷出「某次失敗是哪一個算子壞掉」的座標系。

**關鍵詞**：探索行為、約束算子、遍歷性、過程動力學、記憶分層、前向模擬、最優停止、範疇錯誤

---

## 0. 引子：一個範疇錯誤

考慮一個被反覆提出的問題：給一個 AI 圓周率 π 的前一億位，它能不能預測出後面的數字？曾有人很認真地論證「不能」，並把結論寫成「AI 做不到」。

這個結論在它被測的那個意義上是對的，在它被宣稱的那個意義上是錯的。π 的每一位是完全被決定的，也是完全可計算的——存在收斂極快的級數（如 Ramanujan 型、Chudnovsky），甚至存在能直接取第 n 位而不需前面任何一位的公式（BBP，十六進位）。換言之，「給你前一億位」這個前提本身是假議題：前面的位數既幫不上忙、也根本不被需要。若 π 為正規數（normal number，至今未證），其位序的逐位互資訊為零，任何以「從序列外推下一位」為機制的學習器，無論餵多少資料都榨不出訊號。

於是有兩件不同的事被偷換成一件：

- **計算（computation）**：辨識「這是 π」，選對方法，把第 n 位算出來。
- **預測（prediction）**：把位序當成一條時間序列，從歷史外推未來。

論證者測的是後者，得到一個正確的負面結果，然後把它宣告為前者的不可能。這是一次**範疇錯誤**：把任務錯誤地歸入「歸納外推」這個範疇，而它本屬於「計算」這個範疇。

更精細地說，這裡其實有三個被長期混為一談的概念，而 π 的位序恰好是把它們分離開來的最乾淨的解剖刀：

- **確定性（determinism）**：π 的每一位都被完全決定，毫無隨機。
- **可計算性（computability）**：存在短程式生成任意位；BBP 甚至給出隨機存取。
- **可歸納預測性（inductive predictability）**：從位序本身能否學到逐位的規律——若 π 正規，這一項為零。

三者可以彼此獨立：π 是「最確定、最可計算、卻最不可歸納預測」的標本。其底層的張力可以用一句話點破——π 位序的柯氏複雜度極小（幾行程式即可生成，$K \approx O(\log n)$），但其經驗熵率卻是滿的（每位約 $\log_2 10 \approx 3.32$ 位元）。一個做逐位外推的統計學習器量到的是後者，於是它「學」到的最佳策略就是均勻亂猜；一個做程式搜尋的計算器量到的是前者，於是它直接生成。論證者把一個量到「滿熵」的測量結果，宣告為「目標不可達」，卻沒看見同一個物件在另一個座標系裡的柯氏複雜度近乎為零。值得補一句的是：π 的正規性至今**未被證明**，所以嚴格講，這個「不可預測」本身是猜想而非定理——我們只有「通過所有已知隨機性檢驗」的經驗證據。連這層謹慎，論證者也略過了。

於是「更多資料」這個直覺在此徹底失效：當逐位互資訊本來就是零，前一億位也好、前一兆位也好，都榨不出訊號。資料量在這個問題裡是純粹的紅鯡魚。這是「資料越多、預測越準」這個普遍信念最乾淨的反例之一——它揭示了一個常被忽略的事實：可學習性不是資料量的函數，而是「目標與表徵之間是否存在可利用的互資訊」的函數。換一個表徵（連分數、模形式、BBP），同一個 π 的「不可預測」會瞬間蒸發。不可預測性從來不是物件的性質，是觀測者所選那層投影／解碼基底的性質。

本文真正的種子在這裡：一個會泛函分析的人，為什麼會犯這種錯？我們的回答將在第 2 章成形——他的失敗不是算力的失敗，而是**遍歷的失敗**。他被困在「智能＝統計外推器」這個方法論盆地裡，連「跳去計算那一區」這個動作都做不出來。範疇錯誤的本質，就是方法論遍歷的失敗。這個診斷，反過來逼出了整個架構：要能說清「他缺的是哪一塊」，我們就得先把探索行為拆開。

---

## 1. 問題的重構：從「擬合」到「探索」

### 1.1 擬合不是計算機的特權

第一個要拆掉的成見是：擬合是計算機的事，人類不做擬合，人類做「理解」。歷史證據恰恰相反——人類擬合不但可能，而且常常**先於**理論：

- Kepler 拿 Tycho 的觀測數據，硬擬出行星的橢圓軌道，當時並無動力學解釋。
- Balmer（1885）把氫的譜線位置擬成一條簡單公式，完全不知道為什麼會是那個形式。
- Planck（1900）在 Wien 與 Rayleigh–Jeans 之間插值，湊出黑體輻射曲線；公式對了之後，他才被迫發明能量量子化去解釋自己湊出來的東西。量子力學的起點，是一次擬合。

這些都是「現象律先行、理論後補」的案例。人，作為一個自適應約束算子，是有前科的。

### 1.2 擬合的本質：自適應約束算子

我們把擬合抽象為一個算子：吃進約束（資料、目標、待滿足的條件），吐出一個更逼近約束滿足的狀態，並可迭代。形式上 𝒜:(狀態, 約束) ↦ 狀態，其不動點落在約束違反的極小處。

這個抽象的力量在於它一口氣吃掉了一大群看似不同的程序：

- **梯度下降**：約束＝損失，適應＝沿負梯度走一步。
- **Newton 法**：用二階曲率加速逼近。
- **EM 演算法**：在隱變量與參數之間交替逼近。
- **貝氏更新**：約束＝證據，適應＝後驗正比於先驗乘以似然（此即作者既有的全狀態貝氏框架所棲身之處）。
- **天擇**：約束＝適應度，適應＝選擇壓力下的分布漂移。

它們是同一個算子的不同實例。差別只在約束怎麼定義、適應沿什麼度量走。從這個高度看，Ramanujan 在紙上做的事，與反向傳播在權重裡做的事，沒有本質差別——差的是基底、速率，以及有沒有意識在場。

這個論點不只是類比，已有工程實作把它坐實。近年有以演算法自動生成 π、e、ζ 值之連分數與級數猜想的專案，純靠在形式空間中搜尋擬合來產生原本被視為「靈感」產物的公式——而它正是以 Ramanujan 命名的。一個搜尋演算法被冠上一個人的名字，本身就是這整條論證的鐵證：那個人早在演算法被發明之前，就已經用肉身在跑那個演算法了。需注意的是，這類「擬合」與一般的殘差最小化不同——它在**精確關係**的空間裡搜（如以整數關係演算法反推出 BBP 那樣），搜出來的是一個還得去證明的精確猜想，而非一組近似係數。這把擬合算子的射程從「近似」擴張到了「精確結構的發現」，也預示了第 2 章為何擬合不足以獨自承擔探索之名。

### 1.3 為什麼「擬合」不足以描述探索

但如果探索就只是擬合，那麼一切探索都可以被化約成「在某個固定家族裡找最優參數」。這顯然錯了，原因有三：

1. **家族從哪來？** 擬合預設了一個假設空間（參數族）。但提出那個族——「造類」——本身是更難、更稀有的行為。會優化的東西很多，會無中生有提出對的形式的，才稀有。
2. **方法論從哪來？** 連假設空間都被一層更上游的東西決定：你選了哪套數學方法論（模形式？複分析？整數關係搜尋？連分數？），下面能用的家族就被框死了。
3. **過程算什麼？** 兩個系統可以擬合到同一條公式，但走過的軌跡天差地遠——一個硬爬，一個縱身一躍。智能往往不住在終點，住在軌跡裡。擬合只看終點，看不見過程。

這三點分別逼出第 2 章的三個額外算子。擬合，只是其中最底層、最機械的那一個。

### 1.4 為什麼把「擬合」當原語會出錯

把擬合當成探索的原語（primitive），會犯一個與第 0 章同構的錯誤——只是這次受害者不是 AI，而是我們對「智能」的整套描述。原因在於擬合是**範圍最窄、最可自動化**的那一層：它預設了目標、預設了家族、預設了度量，剩下的只是沿梯度滑下去。把最容易的那一層當原語，等於用最不稀有的能力去定義最稀有的行為。

更危險的是，這個錯誤會**遮蔽診斷**。當一個探索系統失敗時，若我們手上只有「擬合」這一個概念，我們就只能說「模型不夠強」「再加資料」「再調超參」——而真正的病灶可能根本不在這一層：可能是方法論選錯了（意圖），可能是搜尋卡死在一個盆地裡（遍歷），可能是它根本沒有記憶或不會預演。用一個過窄的原語去描述一個多層的行為，結果就是把所有故障都誤診為同一種病，然後在錯的層上反覆使力。

本架構的方法論立場因此是：**寧可把探索拆得比必要更細，也不要把它壓得比真實更粗。** 多出來的層若是冗餘，至多浪費一點描述成本；少掉的層卻會讓整類故障變成不可見、不可診斷、不可修。接下來的拆解，每一刀都對應一種「若缺此層則無法診斷」的失敗模式。

---

## 2. 四個現在算子

我們主張，運作於「現在」的探索行為至少由四個算子構成，並各自對應一個本質面向：

| 算子 | 符號 | 本質 | 回答的問句 |
|---|---|---|---|
| 意圖 | I | 選擇方法論 | 為什麼／往哪個框架 |
| 遍歷 | E | 空間覆蓋 | 在哪、走得遍不遍 |
| 擬合 | A | 自適應 | 怎麼調 |
| 動力學 | Φ | 過程 | 怎麼走（在時間裡） |

### 2.1 意圖算子 I：選擇方法論

意圖算子是最上游的約束。面對一個問題，第一個決定不是「調哪個參數」，而是「用哪一套工具論去看它」。求 π 的第 n 位，你可以選模形式、選整數關係搜尋、選連分數展開——每個選擇都打開一個不同的假設空間，並關閉其他的。

意圖算子的關鍵性質是它**收窄**：它不增加可能性，它砍掉可能性。一個好的意圖把搜尋從「所有數學」收窄到「這一小塊有戲的數學」。它的失敗模式是**選錯框架**——把計算問題當成預測問題，正是意圖層的失敗，而這個錯誤會向下污染整條鏈：你在錯的方法論裡，無論遍歷得多徹底、擬合得多精準，都到不了對的地方。

這裡有一個微妙處值得點出：意圖在資訊論上等價於一個**強先驗**。選擇一套方法論，就是對「解長什麼樣」下了一個極強的押注，從而把後續搜尋的有效空間壓縮好幾個數量級。這既是它的力量也是它的危險——一個好的先驗讓問題瞬間可解，一個壞的先驗讓問題在它的框架內永遠無解，且系統往往無從察覺，因為它能在錯的框架內持續取得「局部進展」的幻覺。第 0 章的論證者正是在「AI＝統計外推」這個先驗下取得了無懈可擊的局部進展，卻離真相越來越遠。意圖的危險不在於它會錯，而在於它錯了之後，下游的精準會偽裝成正確。這也是為什麼意圖層必須與遍歷層耦合：唯有能跳出當前框架去比較，系統才有機會發現「我的先驗本身錯了」。一個無法質疑自己意圖的系統，等於把自己鎖死在第一個猜測裡。

### 2.2 遍歷算子 E：你走得遍嗎

「遍歷」一詞取自遍歷理論的精神：一個系統是否能訪遍它的狀態空間，還是被困在某個子區域裡。把它搬到方法論空間上：

- **遍歷的搜尋**：能在不同方法論之間自由移動，不被任何學派的工具箱綁死。
- **非遍歷的搜尋**：路徑依賴，卡在一個吸引盆裡出不來。

這正是診斷第 0 章那位論證者的工具。他的失敗不是算子壞了，是**遍歷壞了**：他被困在「AI＝統計外推器」這個盆地裡，連「跳去計算那一區」這個移動都執行不出來。範疇錯誤的本質，就是方法論遍歷的失敗。

反過來，Ramanujan 詭異的觸及範圍，本質上是他在方法論空間裡異常**遍歷**——直覺到處漫遊，不被既有家族綁住。同一個天賦，在遍歷這一軸上量出來，就是「他能訪到別人訪不到的方法論區域」。

遍歷算子因此提供了一個重要的診斷分離：**一次失敗，是因為走不到（遍歷），還是走到了但調不準（擬合）？** 這兩者的修法完全不同，混為一談就會在錯的層上瞎使力。

但遍歷本身不是越多越好，這裡有一個必須講清的張力。完全遍歷的代價是**廣度的詛咒**：方法論空間極大，若無偏地遍訪一切，等於永遠不收斂——你會把所有時間花在跳出盆地、卻從不在任何一個盆地裡深掘到底。所以健康的遍歷不是「無差別亂跳」，而是「在卡住時才跳、且跳向有先驗價值的未訪區域」。這把遍歷與探索／利用的拉鋸（見 2.4）綁在一起：遍歷管的是「要不要換房間」，動力學管的是「在這個房間裡怎麼走」，而換房間的觸發條件——偵測到自己卡住——本身就是一個需要被顯式設計的機制。一個不會偵測「我卡住了」的系統，要嘛永不換房間（被困），要嘛時時換房間（不收斂）；兩者都是遍歷的病態。

如何量化「卡住」？概念上，可看搜尋的訪問測度是否停止擴張：若一段時間內新訪問的方法論／假設區域趨近於零，而約束違反卻未降到可接受水平，這就是「在錯的房間裡精雕細琢」的特徵。把這個量做成一個可觀測的遍歷係數（形式見附錄 A.3），系統就能對自己的遍歷狀態做即時自診斷——這正是第 0 章那位論證者缺的東西：他沒有任何機制告訴自己「你已經在統計外推這個房間裡待太久、而問題沒解決」。

### 2.3 擬合算子 A：自適應約束滿足

如第 1.2 節所述，擬合是吃進約束、吐出更逼近約束的狀態的自適應算子。在四算子架構裡，它的定位被釐清為**最底層、類內的那一步**：在意圖選定方法論、遍歷定位到某個假設空間之後，擬合負責在那個家族裡把參數調到約束滿足。

把它放回正確的層級，最大的好處是**止損**：很多被誤判為「擬合失敗」「模型不夠強」的問題，其實是上游的意圖或遍歷壞了。在錯的家族裡，再強的擬合器也只是把錯誤精雕細琢。

### 2.4 動力學算子 Φ：搜尋作為動力系統

把整個搜尋看成一個動力系統 dz/dt = F(z; C)，其中 z 是搜尋狀態，C 是約束。於是探索行為就有了動力系統的全套語彙：

- **吸引子與盆地**：搜尋會被拉向某些定態；落入哪個盆地由初始條件與路徑決定。
- **路徑依賴**：到達同一終點的不同軌跡，攜帶不同的資訊與代價。
- **探索與利用的拉鋸**：溫度、退火、噪聲決定你是廣搜還是深掘。
- **分岔**：方法論上一個微小轉向，終點可能天差地遠。

最關鍵的概念是：**終點可以相同，動力學不同**。同一個極小值，不同的隨機梯度動力學落進去，會得到不同的泛化；同一個定理，一個是逐步硬爬、一個是一躍而至。Ramanujan 報告結果是「夢裡女神給的」——那是在說他的過程動力學根本不是逐步搜尋的形狀。動力學算子是作者既有的過程關係理論真正活著的那一軸。

這個「終點相同、動力學不同」的命題有實際後果，不只是哲學姿態。在最優化裡，同一個損失地形上，不同的步長排程、不同的噪聲尺度，會把搜尋導向不同寬窄的盆地——而盆地的幾何（平坦或尖銳）與泛化能力相關。也就是說，動力學不只決定「你到不到得了終點」，還決定「你到的是哪一種終點、它在分布外還站不站得住」。兩個系統可以在訓練約束上達到一模一樣的滿足度，卻因為走過的路不同，在面對新約束時一個穩、一個崩。這就是為什麼「只看終點」的描述會系統性地漏掉智能的一大半——軌跡裡編碼了終點看不見的資訊：它去過哪、繞過哪些坑、是靠運氣還是靠結構走到的。

動力學算子的另一個用途是**刻畫「躍遷」**。逐步爬與一躍而至，在終點上沒有差別，在動力學上卻是兩種完全不同的流：前者是準連續的下降，後者是跨越能壘的間歇性跳變。Ramanujan 型的洞見、人類所謂的「靈光一閃」，在這個語言裡不是神秘事件，而是動力學在某個臨界點上的不連續轉移。能不能製造、誘發、或至少不扼殺這種躍遷，是過程層的核心問題，而它與「終點對不對」是正交的兩件事。

### 2.5 層級實現：方法論 → 造類 → 參數

四算子不是平行排排站。意圖、遍歷、擬合構成一個三層巢狀的搜尋層級，動力學則是橫貫三層的軸：

```
方法論空間  ℳ      ← 意圖選擇、遍歷覆蓋
   └ 假設空間 Θ_m   ← 造類（在選定方法論內生成參數族）
        └ 參數 θ    ← 擬合（在族內收斂）
   （動力學 Φ：描述上述整個搜尋在時間中如何移動）
```

「會優化」屬於最內層；「會造類」屬於中層；「會選對方法論並遍歷得開」屬於外層。現代大模型開始模糊「造類」這條線（表徵學習、程式合成讓模型部分地學出自己的假設空間），但目前最難自動化的仍是外層的「造類與遍歷」，而非內層的「類內擬合」。

---

## 3. 時間軸：保留與預演

前述四個算子全都運作於「現在」。但一個完整的探索系統不能只活在現在式——它需要記得自己怎麼來的，也需要偷看自己可能往哪去。這就是時間軸：保留（過去）與預演（未來）。

### 3.1 一個類別差：它們不是第五、第六個同類算子

必須先標清：保留與預演**不是**與前四者同類的算子，而是另一個類別。前四者描述「現在這個搜尋怎麼運作」；保留與預演把這四者沿時間軸向兩端延伸。把它們疊到四算子上而不標類別，等於把蘋果疊到橘子上。正確的圖像是：四算子 ×（過去｜現在｜未來）。

### 3.2 統一：同一台機器，相反的時間方向

更深一層：保留與預演其實是**同一台機器，往相反的時間方向跑**。

- **保留 ＝ 把實際走過的軌跡往回積分**，壓縮成記憶。
- **預演 ＝ 把動力學往前積分**，外推成可能性。

被積分的東西，正是第 2 章那四個現在算子。神經科學的實證恰好印證這個統一：海馬迴的同一組位置細胞序列，**反向重播**做記憶固化，**正向掃描**做路徑規劃——同一個基質，兩個時間方向。所以保留與預演不是兩個系統，是同一個生成模型的正負時間。這也讓它們接回動力學軸：過去與未來，只是動力學在 ∓t 上的兩段積分。

### 3.3 保留 R：分層記憶與價值淘汰

樸素的「資料不刪、全部保留」會立刻爆掉。所以保留必須分區，至少三層，且必要時可刪。三層的對應很乾淨：

- **工作層**（高解析、易失、容量小）：對應快取／工作記憶，存全幀近期軌跡。
- **情節層**（中解析、中壽命）：對應情節記憶，存被選中的事件序列。
- **語義／固化層**（低解析、長壽、存要點）：對應固化記憶，存的是模式與要點，不是原始幀。

資料隨年齡向下遷移，解析度逐層衰減。但這裡有一刀必須修：**淘汰準則不能用「年齡」，要用「價值」。** 「看狀態」這件事得形式化成一個保留價值函數 V（驚奇度、效用、可重用性的某種組合）：高價值的固化，例行的丟掉。生物記憶正是如此——情緒顯著、出乎意料的事件才被優先固化。純粹先進先出（FIFO）會把最該留的也一起沖掉。容量壓力觸發淘汰時，被丟的應是 argmin V，而非 argmin age。

還有一個常被忽略的設計點：跨層遷移不是單純的「刪細節」，而是**壓縮成可重建的要點**。固化層存的不該是原始軌跡的縮圖，而是能在需要時重新展開出近似軌跡的生成式摘要——存「模式」而非「樣本」。這呼應了前面保留與預演的統一（3.2）：若保留存的是生成式要點，那麼從要點重建過去，與從要點外推未來，用的就是同一台機器。一個只會存縮圖、不會存生成規則的記憶，是死的；一個存下生成規則的記憶，過去與未來在它裡面是同一個東西的兩個方向。這也給了「至少三層」一個更深的理由：三層不只是容量梯度，更是**抽象梯度**——從具體樣本，到事件序列，到生成模式，每往下一層，存的東西就更接近「可重用的規則」而非「一次性的記錄」。

### 3.4 預演 P：粗到細與樂觀可採納

預演的工程原則是**粗度先走、實際精細**：先用便宜的粗模型 𝔐_c 掃一遍剪枝，只在有戲的分支上花精細的實際計算 𝔐_f。這就是 coarse-to-fine 與 model-based 展開的精神——西洋棋與圍棋的淺層快評＋深層精算，model-based 強化學習的廉價世界模型 rollout＋真實環境步進，都是同一招。

但這裡藏著整個架構最危險的陷阱，必須修：**粗模型必須是「樂觀可採納」的。** 它對它要剪掉的分支，估計不能比實際更悲觀。這正是 A* 搜尋裡可採納啟發式的條件——啟發式絕不高估真實代價，因此保證永不剪掉最優路徑。把它搬到預演上：粗評估必須是分支價值的**上界**（或代價的下界），這樣它剪掉的才確實是沒戲的。

若粗模型偏悲觀，它會在你還沒實際跑之前就把好分支砍掉，而你**永遠不會知道**被砍的那條才是對的。粗度真正的代價不是「不準」——不準可以靠精細補回；真正的代價是**系統性誤砍**：一個會把對的選項在它證明自己之前就消滅的偏誤。所以粗模型要被設計成一個樂觀的上界，而不是一個等比例縮小的版本。縮小版會誤砍，上界不會。

舉一個概念性的場景把這刀說透（純說明，不涉數據）。設想一個需要前期投資、後期才回報的分支：它的真實價值很高，但前幾步的表面表現很差。一個「等比例縮小」的粗模型會忠實地反映這個前期的差表現，於是在閾值處把它剪掉——而這恰恰是最該保留的那條路。反過來，一個「樂觀上界」的粗模型對任何分支都先假設它能達到其樂觀潛能，於是不會在前期就誤殺它；只有當精細評估確認它確實沒戲時才淘汰。兩種粗模型的平均誤差可能一樣，但它們的**誤差方向**截然不同：一個的錯誤是「偶爾高估、浪費一點精算」，另一個的錯誤是「系統性地謀殺晚熟者」。在探索裡，前者只是低效，後者是致命——因為它把整類「先抑後揚」的解永久性地踢出了搜尋。這就是為什麼可採納性（誤差方向受控）比準確性（誤差大小）更該被優先保證。它也呼應一個更普遍的原則：在不可逆的剪枝決策上，偏誤的方向比偏誤的幅度重要。

---

## 4. 仲裁者 J

四個現在算子加上時間軸，已經能描述探索如何展開。但還缺一樣東西：**什麼時候停止預演、扣下扳機去實際跑？**

預演原則上可以無限往下展開——每多想一層，可能找到更好的選項。但思考本身有代價（時間、算力、機會的流逝）。於是需要一個仲裁者 J，管理「再想下去的邊際價值 vs 行動的代價」這個閘門：

- 當「多思考一步的期望增益」仍大於「思考的邊際代價」時，繼續預演。
- 當兩者持平或反轉時，停止思考，行動。

這是一個**最優停止**問題，結構上類似 Bellman 式的決策：在「現在就行動」與「再思考後行動」之間取期望較優者。沒有仲裁者，系統只有兩種壞死法：要嘛永遠在預演（分析癱瘓），要嘛從不預演（魯莽）。

仲裁者與意圖容易混淆，但分工明確：**意圖選的是方向**（用哪套方法論），**仲裁者管的是資源與時機**（在整條迴路上，時間與算力怎麼分配、何時離手）。一個選對了方向卻永遠不離手的系統，和一個從不選方向只會亂衝的系統，會在不同地方失敗，而仲裁者正是把整個迴路收斂成「行為」的那一塊。它是第七個、也是最後一個位置。

仲裁者把一個常被外部化的問題收進系統內部：**思考的成本是真實的、且必須被一起最優化。** 古典的理性模型假設思考免費，於是「想到最優再行動」永遠正確；但在任何真實的有界主體裡，思考要花時間、算力、且世界在你思考時繼續移動。把思考成本納入後，「最優」的定義本身就變了——不再是「找到絕對最優解」，而是「在思考代價下，找到行動價值與剩餘思考價值之交點」。這正是有界理性的核心，也是「計算之價值」這條線索要處理的事：再多算一步值不值得，本身是一個要被決策的量。

這帶出仲裁者的兩種失敗模式，恰好對稱。一端是**過度思考**：邊際思考價值早已低於其代價，系統卻還在預演，世界已經改變、機會已經流失——分析癱瘓。另一端是**思考不足**：系統在邊際思考價值仍遠高於代價時就扣了扳機，把一個本可廉價避免的錯誤付諸實行——魯莽。健康的仲裁者不是「想得多」或「決得快」，而是把這個交點估得準。而要估得準，它得有一個對「再想一步大概能改善多少」的元級模型——這意味著仲裁者本身也在做一種預演，只不過它預演的不是外部世界，而是自己的思考過程。系統在這裡開始遞迴：它對自己的探索行為，也運行一個微縮的探索架構。

---

## 5. 七元組的整合

把以上七者合成一個物件：

$$\mathcal{D} = \langle\, I,\ E,\ A,\ \Phi,\ R,\ P,\ J \,\rangle$$

- I：意圖（方法論選擇）
- E：遍歷（方法論／假設空間的覆蓋）
- A：擬合（類內自適應約束滿足）
- Φ：動力學（搜尋在時間中的軌跡）
- R：保留（向過去積分的分層記憶）
- P：預演（向未來積分的粗到細模擬）
- J：仲裁者（停止與行動的最優閘門）

### 5.1 它不是前饋管線

最重要的整合性命題是：這七者**不是**一條由上而下的流水線（意圖→遍歷→擬合→……→行動）。它們是**耦合的**：

- 選方法論（I）會重塑搜尋的動力學（Φ）。
- 動力學跑著跑著，會浮現新的方法論候選，回頭改寫意圖（Φ → I）。
- 預演的結果（P）會改變保留的內容（值得記的東西變了，P → R）。
- 保留的歷史（R）又會偏置下一次的意圖與擬合（R → I, A）。
- 仲裁者（J）的鬆緊，反過來決定了預演與動力學能跑多深。

所以 𝒟 是一個**跨尺度互相回授的單一動力系統**。分層只是我們為了看清楚而切的剖面；真實運作時，這些層是同時在燒的。把它畫成前饋圖會誤導工程實作——任何只實作單向資料流的系統，都會在回授缺口處失能。

這個耦合性有一個直接的後果，值得在此講明：**故障會跨層傳播與偽裝。** 一個上游的意圖故障，會在下游表現為擬合的反覆失敗；一個遍歷故障，會偽裝成「資料不足」。如果系統只在故障顯現的那一層上修，它永遠修不好，因為病灶在別處。這正是第 6 章診斷之所以困難、卻又之所以必要的原因——耦合讓症狀與病因脫鉤，而只有一個明確的分層座標系，才能把症狀回溯到正確的層。換句話說，正因為它不是前饋管線，所以才更需要一張能跨層回溯的診斷圖；前饋系統的故障定位是平凡的，耦合系統的故障定位才是真問題。

### 5.2 一個閉合性的旁註

值得一提的是，一個健康的 𝒟 在面對新約束時，應保持自身的一致性——它吃進新證據、調整狀態，但不自我矛盾、不漂出可行域。這種「在約束更新下維持一致」的性質，與作者既有的閉合（Cl）框架同構：探索系統的穩態，是一個對其約束閉合的不動結構。這條線索此處只點到，留待與 Cl 公理系統的正式對接（另文）。

### 5.3 探索 ＝ 動力學在時間上的積分，由仲裁者守門

把整個架構濃縮成一句可操作的話：

> 探索行為 ＝ 四個現在算子（I, E, A, Φ）構成的動力學，沿過去（R）與未來（P）兩個方向積分，並由仲裁者（J）決定何時收手、回到當下行動。

智能不在任何單一算子裡。它在於：能把自己往兩個時間方向積分、又知道何時停。

---

## 6. 故障診斷：架構作為診斷儀

本架構最實際的回報不在於它能描述成功，而在於它能**定位失敗**。當一個探索系統（人或機器）卡住時，「卡在哪一層」決定了該怎麼修；而在缺乏分層座標系時，所有故障都被籠統地歸因為「不夠聰明」「資料不夠」「再調調看」。以下把每一層的特徵故障與其修法對應起來（概念層，症狀描述為定性，非量化指標）。

- **意圖故障（選錯方法論）**：症狀是無論怎麼努力都到不了，且努力的方式始終在同一種框架內打轉。第 0 章的論證者是典型——把計算問題當預測問題。修法不在加算力，而在換框架。誤診為擬合故障（「模型不夠強」）會導致無限加碼卻零進展。
- **遍歷故障（被困盆地）**：症狀是訪問區域停止擴張，而約束未被滿足；系統在一個房間裡越挖越深、表面越來越「優化」，卻離真正的解越來越遠。修法是觸發跳出機制、強制訪問未探區域。誤診為「需要更精細」會讓系統在錯的盆地裡雕花。
- **擬合故障（類內收斂不良）**：症狀是方法論與假設空間都對，但參數調不到位、震盪或停在劣質局部。這才是真正該調超參、改最優化器、加資料的場合。把上游故障誤診到這一層，是最常見的浪費來源。
- **動力學故障（軌跡病態）**：症狀是終點看似達成，但泛化崩潰、或路徑充滿不必要的繞行、或永遠無法產生躍遷只能逐步硬爬。修法在於調整探索／利用的拉鋸、噪聲尺度、能否誘發跨能壘的跳變——而非更換方法論或加資料。
- **保留故障（記憶失能）**：兩種對稱病態。其一是無記憶——每次都從零開始，無法累積、無法遷移；其二是濫記憶——什麼都留、用年齡而非價值淘汰，結果要點被例行雜訊淹沒。修法是裝上分層與價值加權的淘汰。
- **預演故障（模擬失能）**：其一是不預演——魯莽地直接實際跑，代價高昂且不可逆；其二是悲觀預演——粗模型系統性誤砍晚熟分支，把對的路在它證明自己之前就消滅。修法是裝上粗到細展開，並保證粗模型樂觀可採納。
- **仲裁故障（時機失能）**：分析癱瘓（該動不動）或魯莽（該想不想），如第 4 章所述。修法是把思考成本納入最優化，估準「行動價值與剩餘思考價值」的交點。

這張對照表的價值在於它把「為什麼失敗」從一個模糊的整體判斷，拆成七個可分別檢驗、可分別修復的子問題。一個成熟的探索系統應該能對自己做這種自我定位——在卡住時報告「我卡在遍歷層」而非籠統地報告「我做不到」。把「做不到」翻譯成「哪一層做不到」，本身就是這個架構存在的理由。

---

## 7. 與既有框架的關係（概念層）

本架構不主張取代以下任一框架，而是提供一個把它們擺進同一座標系的視角。以下為概念層對照，形式化對接待另文。

- **Solomonoff 歸納 / 程式搜尋**：理想的 Solomonoff 歸納者會在程式空間中搜出生成目標的最短程式，因而能完美預測 π。但它是無資源界、且無顯式時間軸的。本架構可視為一個**資源有界、分層、且把時間軸顯式化**的探索器：意圖與遍歷對應「在程式／方法論空間中如何搜」，仲裁者對應「在有限算力下何時停止搜」，保留與預演對應「如何用過去與模擬攤平搜尋成本」。
- **Model-based 強化學習（如以學習到的世界模型做 rollout 的方法）**：對應預演算子 P 的一個實例，本架構額外強調了「粗到細」與「樂觀可採納」這兩個常被忽略的設計約束。
- **記憶階層 / 記憶固化**：對應保留算子 R，本架構強調以價值函數（而非年齡）驅動淘汰，並要求至少三層。
- **實驗數學（如以整數關係演算法自動生成常數的公式猜想）**：對應意圖＋遍歷＋擬合的一個具體流水線，並印證「擬合可生成精確結構」這一論點。

本架構與上述的主要差異在於三點：把**遍歷性**顯式化為一個可診斷的變量；把**仲裁者**顯式化為一個獨立位置；以及把**保留與預演統一**為同一生成模型的正負時間。

---

## 8. 哲學結語

那位論證 AI 算不出 π 的人，現在可以被乾淨地診斷：他不缺算子，他的擬合甚至無懈可擊。他缺的是一個會樂觀剪枝的預演、一份只留下對的東西的保留，以及一個肯在正確時刻扣扳機的仲裁者。但他最根本的缺口在更上游——他的遍歷壞了，地圖上只剩一個房間。而他在那個房間裡，算得精準，卻哪也去不了。

這正是本架構想說的事。困住一個探索者的，從來不是他不會算。擬合是終點的事，遍歷是地圖的事，動力學是腳怎麼走的事，保留是記得來路，預演是偷看去向，仲裁是知道何時停下。一個只活在現在式、不會回憶也不會預演、地圖只剩一格的系統，可以算得無懈可擊——然後在原地，精準地，停住。

真正的探索，是把自己往過去與未來兩個方向同時拉開，再在恰當的一刻，鬆手，落回當下。

---

# 附錄 A：形式化與算式推演（骨架；深度推演待補）

> 本附錄目前僅給出形式定義與核心命題陳述。標記為 **[深度推演：待補]** 之處，將於 v0.2 補入完整推導、收斂性分析與界的嚴格證明。所有出現之數值閾、係數一律為**待定假設**。

## A.1 算子的形式定義

設問題實例給定約束集 $C$。定義搜尋狀態空間 $\mathcal{Z}$。

- **意圖算子** $I: C \mapsto m \in \mathcal{M}$，由約束選擇方法論 $m$，$\mathcal{M}$ 為方法論空間。$m$ 決定一個假設空間（參數族）$\Theta_m$。
- **遍歷算子** $E$：刻畫搜尋在 $\mathcal{M}$（或 $\bigcup_m \Theta_m$）上的訪問測度 $\mu_T$ 隨步數 $T$ 的演化。
- **擬合算子** $A: (\theta_t, C) \mapsto \theta_{t+1}$，$\theta \in \Theta_m$，向約束違反 $L(\theta;C)$ 的極小逼近。
- **動力學算子** $\Phi$：連續化的搜尋流 $\dot z = F(z;C)$，$z \in \mathcal{Z}$。
- **保留算子** $R$：記憶狀態 $M = (M_1, M_2, M_3, \dots)$ 的更新與淘汰映射。
- **預演算子** $P$：以模型 $\mathfrak{M}$ 對未來軌跡的前向展開。
- **仲裁者** $J$：停止規則 $J(\cdot) \in \{\text{continue}, \text{act}\}$。

## A.2 擬合算子作為統一約束算子

一般形式（梯度型）：
$$\theta_{t+1} = \theta_t - \eta\, g\big(\nabla_\theta L(\theta_t; C)\big)$$

各實例對應：
- 梯度下降：$g = \mathrm{id}$。
- Newton：$g(\nabla L) = H^{-1}\nabla L$，$H = \nabla^2 L$。
- 貝氏更新（視為對 KL 約束的鏡像下降）：$p_{t+1} \propto p_t \cdot \ell(C\mid\theta)$。
- EM：交替對隱變量期望與參數最大化。
- 天擇：$\frac{d\bar w}{dt}$ 之 Fisher 型方程。

**命題 A.2.1（不動點）**：在 $L$ 對 $\theta$ 之適當凸性與步長條件下，$A$ 的迭代收斂至 $\nabla_\theta L = 0$ 之點。
**[深度推演：待補]**（凸性放寬、隨機梯度下的幾乎必然收斂、收斂率）

## A.3 遍歷度量

定義訪問經驗測度 $\mu_T(\cdot) = \frac{1}{T}\sum_{t=1}^{T}\delta_{m_t}(\cdot)$。

**定義 A.3.1（遍歷係數）**：令 $\mu^\*$ 為理想覆蓋測度（如 $\mathcal{M}$ 上的均勻或目標相關測度），定義
$$\varepsilon_T = \mathrm{Dist}(\mu_T, \mu^\*)$$
（$\mathrm{Dist}$ 為某概率距離，如全變差或 Wasserstein）。搜尋稱為**漸近遍歷**若 $\varepsilon_T \to 0$；稱為**被困**若 $\mu_T$ 之支撐被限制於某真子集 $B \subsetneq \mathcal{M}$。

**命題 A.3.2（範疇錯誤即非遍歷）**：若正確方法論 $m^\* \notin \mathrm{supp}(\mu_\infty)$，則無論 $A$ 多強，整體搜尋無法達到 $m^\*$ 對應之解。
**[深度推演：待補]**（與探索溫度、跳出盆地之大偏差速率的連結）

## A.4 保留價值函數與分層淘汰

**定義 A.4.1（保留價值）**：對記憶項 $x$，
$$V(x) = \alpha\, \mathrm{Surprise}(x) + \beta\, \mathrm{Utility}(x) + \gamma\, \mathrm{Reusability}(x)$$
其中 $\mathrm{Surprise}(x) = -\log p(x\mid\text{model})$ 為一候選實例化（係數 $\alpha,\beta,\gamma$ 為待定假設）。

**淘汰規則**：當第 $i$ 層容量 $|M_i| > \kappa_i$，淘汰
$$x^- = \arg\min_{x \in M_i} V(x)$$
（注意：以 $V$ 而非 age 為準則）。跨層遷移伴隨解析度衰減算子 $\rho_i$（$\rho_1 \succ \rho_2 \succ \rho_3$，由全幀到要點）。
**[深度推演：待補]**（最優分層容量配置、$V$ 與長期遺憾之關係、與 LSM/快取理論之對接）

## A.5 預演的樂觀可採納界

設分支 $b$ 的真實價值為 $V^\*(b)$，粗模型估計為 $V_c(b)$，剪枝閾為 $\tau$；剪枝規則：$V_c(b) < \tau \Rightarrow$ 剪。

**定義 A.5.1（樂觀可採納）**：粗模型稱為**可採納**若對所有 $b$，$V_c(b) \ge V^\*(b)$（價值上界；等價於代價的可採納下界，類比 A* 之 $h_c \le h^\*$）。

**命題 A.5.2（不誤砍）**：若粗模型可採納，則任何被剪掉的分支 $b$ 滿足 $V^\*(b) \le V_c(b) < \tau$，故確為次閾分支；即**不存在系統性誤砍**。反之，若 $V_c$ 可低估（悲觀），則存在 $b$ 使 $V^\*(b) \ge \tau > V_c(b)$ 而被誤剪。
**[深度推演：待補]**（可採納粗模型之構造、與抽象解釋／鬆弛之關係、誤砍機率上界）

## A.6 仲裁者的最優停止條件

設在資訊狀態 $s$ 下，立即行動之期望價值 $Q_{\text{act}}(s)$，再預演一步之期望價值 $\mathbb{E}[Q(s')\mid s] - c$（$c$ 為思考邊際代價）。

**停止規則 A.6.1**：
$$J(s) = \begin{cases} \text{act}, & Q_{\text{act}}(s) \ge \mathbb{E}[Q(s')\mid s] - c \\ \text{continue}, & \text{otherwise} \end{cases}$$

此為 Bellman 型最優停止。**命題 A.6.2**：在思考代價 $c>0$ 且增益遞減的條件下，存在有限停止時間 $T^\*<\infty$（不會無限預演）。
**[深度推演：待補]**（增益遞減之充分條件、$T^\*$ 之界、與 value of computation / meta-reasoning 文獻之對接）

## A.7 整合動力學（耦合系統）

七元組之耦合可寫為一個帶記憶與前瞻項的動力系統概形：
$$\dot z = F\big(z,\; I(z),\; E(z),\; R[z_{(-\infty,t]}],\; P[z_{[t,t+h]}];\; C\big), \qquad \text{行動於 } J=\text{act}$$
其中 $R$ 為過去軌跡之泛函（向後積分），$P$ 為未來軌跡之泛函（向前積分）。
**[深度推演：待補]**（適定性、回授迴路之穩定性、不動結構與 Cl 閉合性之同構證明）

---

# 附錄 B：基本偽代碼

> 概念層偽代碼，刻畫七元組主迴路與各組件骨架。非可執行實作；型別與閾值為占位。

## B.1 主迴路

```
function DISCOVER(constraints C):
    M ← INIT_MEMORY()                 # 分層保留 R（至少 3 層）
    s ← INIT_STATE(C, M)
    repeat:
        m  ← INTENT(C, s, M)          # I：選方法論
        Θ  ← HYPOTHESIS_SPACE(m)      # 造類（方法論內生成參數族）
        s  ← ERGODIC_MOVE(s, m, M)    # E：在方法論/假設空間中移動（含跳出盆地）
        plan ← PREPLAY(s, Θ, C)       # P：粗到細前向模擬，回傳候選軌跡
        if ARBITER(s, plan, C) == ACT:    # J：最優停止
            θ* ← FIT(plan.chosen_branch, C)   # A：類內擬合（精細實際跑）
            result ← EXECUTE(θ*)
            M ← RETAIN(M, trace(s), result)   # R：價值加權保留
            return result
        else:
            s ← UPDATE_DYNAMICS(s, plan)      # Φ：依預演結果推進搜尋軌跡
            M ← RETAIN(M, trace(s), null)
```

## B.2 遍歷移動（含跳出盆地）

```
function ERGODIC_MOVE(s, m, M):
    if STUCK(s):                      # 偵測陷在吸引盆
        m' ← SAMPLE_METHODOLOGY(exclude = current_basin(s))
        return WARP_TO(m')            # 跳到未訪方法論區域（提升遍歷係數）
    else:
        return LOCAL_STEP(s, m)
```

## B.3 分層保留與價值淘汰

```
function RETAIN(M = [M1, M2, M3], trace, result):
    x ← ENCODE(trace, result)
    M1.insert(x)                      # 全幀工作層
    for i in [1, 2]:                  # 跨層遷移 + 解析度衰減
        while size(Mi) > CAP[i]:
            x_old ← argmin_{y in Mi} V(y)        # 以價值而非年齡淘汰
            if SHOULD_PROMOTE(x_old):
                M[i+1].insert(DOWNSAMPLE(x_old)) # ρ_i：降解析度上移
            Mi.remove(x_old)
    while size(M3) > CAP[3]:
        M3.remove(argmin_{y in M3} V(y))         # 必要時仍可刪
    return M

function V(x):                        # 保留價值（係數為待定假設）
    return α*SURPRISE(x) + β*UTILITY(x) + γ*REUSABILITY(x)
```

## B.4 粗到細預演

```
function PREPLAY(s, Θ, C):
    branches ← EXPAND(s, Θ)
    # 粗掃：以樂觀可採納粗模型剪枝
    survivors ← []
    for b in branches:
        if V_coarse(b) >= TAU:        # V_coarse 必須為價值上界（不誤砍）
            survivors.append(b)
    # 精算：僅對倖存分支做精細實際模擬
    scored ← [(b, V_fine(b)) for b in survivors]
    return PLAN(chosen_branch = argmax_b scored, scored = scored)
```

## B.5 仲裁者（最優停止）

```
function ARBITER(s, plan, C):
    q_act    ← VALUE_IF_ACT_NOW(plan, C)
    q_think  ← EXPECTED_VALUE_AFTER_MORE_PREPLAY(s, plan) - COST_OF_THINKING
    if q_act >= q_think:
        return ACT
    else:
        return CONTINUE
```

---

# 附錄 C：程式碼驗證與自我審查（v0.1 稿）

> 本附錄為對 v0.1 全稿的程式碼驗證與形式審查。原則：對是對，錯是錯。**正文與附錄 A、B 之原內容一字未改**；本附錄記錄哪些主張通過驗證、哪些有問題、問題在哪、可能怎麼修。所有修訂為「建議」，留待 v0.2 決定是否採納。

## C.0 審查方法與一個誠實註記

驗證以 Python（mpmath 高精度、標準函式庫）對可計算之主張做數值檢驗，對純形式主張做邏輯檢驗。

一個必須先講的註記：本次審查中，BBP 隨機存取的**第一版驗證程式本身是錯的**——尾項權重初始化錯誤（誤設為 16 而非 16⁻¹），加上參考值精度不足（mpmath 位數設太低，大 n 時參考值退化為 0），導致它一度「判定」BBP 與真值不符。修正驗證器後，BBP 全部通過。這恰好是本架構自身論點的一次現場演示：第一版的失敗不是被測對象（BBP）的錯，是**測量工具的病態**——一個悲觀、精度不足的粗模型，系統性地誤砍了正確的對象（見 A.5）。把這件事寫進來而非抹掉，是因為「直視論文」也包括直視審查自己的工具。

## C.1 通過驗證的主張

- **§0 滿熵與零可學習性**：取 π 小數後 50,000 位。十位頻率近均勻（卡方 ≈ 5.86，遠低於 0.05 臨界值 16.9）；經驗熵 ≈ 3.3218 bits／位，與上限 log₂10 ≈ 3.3219 幾乎相等。1- 到 5-gram 下一位預測命中率 9.87%–10.17%，與隨機基準 10% 無異。gzip 對位序壓縮比 ≈ 0.49–0.51（位元層面找不到可利用結構）。**結論：§0「逐位外推榨不出訊號」「滿熵」為真。** 同時生成程式僅 O(1)+O(log n) 位——柯氏複雜度與經驗熵的落差為真。
- **§0 BBP 隨機存取**：修正後的 BBP 對位 0,1,5,10,100,1000,5000 取得之 hex 位，與高精度全展開逐一吻合；前 16 個 hex 位重建為 `243f6a8885a308d3`（已知值）。**結論：第 n 位可獨立取得，「前面位數不被需要」為真。**
- **附錄 A.5.2 核心邏輯**：以十萬筆隨機分支數值檢驗。樂觀上界（V_c ≥ V*）誤砍好分支數 = 0；悲觀縮小版（V_c = 0.7 V*）誤砍 21,352 筆。**結論：「可採納 ⇒ 不誤砍」邏輯正確。**

## C.2 發現的問題清單（舊內容可能的問題）

| 編號 | 位置 | 問題 | 嚴重度 | 證據 |
|---|---|---|---|---|
| P1 | 附錄 A.4.1 | 保留價值以原始驚奇度 −log p 為主項，會偏好保留**雜訊** | 高（與 R 目標相反） | 純雜訊平均 surprise 2.79 bits，週期結構 0.00 bits |
| P2 | 附錄 A.6 | 停止規則為**一步前瞻（近視）**，過早收手；「遞減 ⇒ 有限 T*」條件**過弱** | 高 | 調和增益下近視停在 t*=100，停止後累積增益仍發散 |
| P3 | 附錄 A.3.1 | 遍歷係數定義與正文 §2.2 **內部矛盾** | 中 | 見下文邏輯分析 |
| P4 | 附錄 A.7 | 整合動力學**非因果／不適定**：ż(t) 依賴真實未來軌跡 | 中（可由記法修正） | 見下文邏輯分析 |
| P5 | 附錄 A.5 | 只證健全性（不誤砍），**漏談健全性–效益權衡** | 中（不完整，非錯誤） | 鬆散上界仍可採納但剪枝率 0% |
| P6 | 附錄 A.2.1 | 「適當條件」含混；Newton 需 H 可逆／正定未涵蓋；隨機梯度情形未分開 | 低（待補即可） | 形式 |

### P1 詳述（高）
正文 §3.3 主張「價值加權淘汰勝過 FIFO，能留住要點、丟掉例行雜訊」。但 A.4.1 把 surprise 實例化為 −log p（原始不可預測性）。問題在於：**純雜訊在任何模型下都最不可預測，故原始 surprise 最高。** 數值上週期結構序列每步 surprise = 0，純隨機序列 = 2.79 bits。若 V 以原始 surprise 為主項，淘汰時會優先「留雜訊、丟結構」，恰與 R 的目標相反——這會讓 v0.1 的價值函數在實作上**劣於它聲稱要打敗的 FIFO**。
**修法建議**：surprise 不應是「原始不可預測性」，而應是「**可學習的驚奇／壓縮進展**」——模型本該預測卻沒預測到、且事後能改善模型的那種驚奇。對不可壓縮的純雜訊，這種訊號趨近於零，因而不會被優先保留。

### P2 詳述（高）
A.6.1 比較的是「立即行動」與「**再想一步**之後行動」。但最優停止要比較「立即行動」與「**最優續算**（可能多步）」。一步前瞻會在「單步增益已小、但多步累積增益仍大」時過早停止。數值：g_t = 1/t（遞減但不可加總）下，近視規則在 t*=⌈1/c⌉=100 停止，然而停止後僅後 10 萬步的累積增益就達 6.91 且持續發散——還有無界的價值被留在桌上。對照 g_t = 1/t²（遞減且可加總），近視停在 t*=10，殘餘增益僅 0.105，近視與最優接近。
**修法建議**：(i) 把 A.6.2 的條件從「遞減」收緊為「**增益可加總 Σ g_t < ∞**」（單調遞減不足——調和級數即反例）；(ii) 停止規則改為與最優續算值比較（非近視的 value-of-computation 版本），或至少標明 A.6.1 是近視近似及其失效域。

### P3 詳述（中）
A.3.1 定義「漸近遍歷 ⟺ ε_T = Dist(μ_T, μ\*) → 0」，取 μ\* 為「ℳ 上均勻」。但正文 §2.2 明說：完全遍歷有「廣度的詛咒」，無差別遍訪一切等於永不收斂；健康的遍歷是「卡住才跳、跳向有價值的未訪區」。於是 A.3.1 把正文視為病態的東西（收斂到均勻覆蓋）寫成了目標。根因是「遍歷」一詞被**重載**：探索期要高覆蓋（跳出盆地），收斂期要高集中（鎖定解），單一「係數 → 0」無法同時刻畫兩相。
**修法建議**：拆成兩個量——覆蓋度（搜尋期應高）與集中度（收斂期應升），健康剖面是「先覆蓋、後集中」的時間曲線，而非單調趨零的單一係數。

### P4 詳述（中）
A.7 寫 ż = F(z, …, P[z_{[t,t+h]}], …)，使 t 時刻的 ż 依賴**真實的未來軌跡** z_{[t,t+h]}。這是非因果、一般不適定的——系統不可能取用真實未來。預演取用的只能是**模型對未來的預測**。
**修法建議**：把 P 的論證項從「真實未來軌跡的泛函」改為「給定 z_t 由內部模型 𝔐 前向推演出的預測軌跡的泛函」P[𝔐; z_t]，恢復因果性。記法層修正，不動主旨。

### P5 詳述（中，不完整非錯誤）
A.5 證了「可採納 ⇒ 不誤砍」（健全性），未談**效益**。把粗模型設為 V_c = V*+5（仍可採納），剪枝率為 0%——完全沒剪，預演毫無加速。可採納只保證「不砍錯」，不保證「砍得夠」。
**修法建議**：補入健全性–效益權衡——在可採納約束下盡量收緊上界以最大化剪枝率；可引入「容許微小誤砍機率換取效益」的近似可採納版本，並明列誤砍機率上界。

## C.3 對 v0.2 的處置建議

P1、P2 為高嚴重度，**會實質影響可實作性與正確性**，建議優先修；兩者皆為「實例化選錯」而非「層級錯誤」——七元組層級結構（I/E/A/Φ/R/P/J）在本次審查中未被推翻，受創的是附錄 A 對某些算子的**具體形式化**。P3、P4 為記法／定義層的一致性問題，修正成本低。P5、P6 為補全。

一句話：**主結構站得住，形式化的皮要重縫幾針。** 正文概念骨架（含 §6 故障診斷）未發現實質錯誤；六個問題全落在附錄 A 的形式細節，其中 P1、P2 若不修，會讓系統在實作時做出與其宣稱相反的行為。

---

# 附錄 D：論文作為自身的實例——一次自指閉合

> 本附錄是全稿的反身性收尾。命題很簡單：產生並審查這篇論文的整個過程，本身就是一條 𝒟 = ⟨I, E, A, Φ, R, P, J⟩ 的軌跡。附錄 C 不只是對論文的審查，它是論文主題的一次現場標本。我們在敘述探索行為的同時，正在執行探索行為——而這不是修辭，是可以逐項對位的。

## D.0 命題

一篇關於「探索行為如何運作、如何失敗、如何診斷」的論文，其撰寫與自我審查的過程，必然也是一次探索行為。因此這篇論文應該能用它自己的座標系描述它自己被寫出來的過程。若不能，是這個座標系不完備；若能，則它通過了一個它沒打算設計、卻最嚴格的測試——對自身封閉。以下逐項對位。

## D.1 把審查過程映射到七元組

- **I（意圖）**：審查一開始就做了一個方法論選擇——「用程式碼數值驗證可計算的主張，用邏輯檢驗純形式的主張」。這個選擇砍掉了另一條路（純文字審閱）。而那條被砍掉的路，恰恰是抓不到 P1、P2 的路——它們是跑了數字才現形的。選對方法論，在這裡是抓到問題的前提。
- **E（遍歷）**：審查橫跨 §0 與附錄 A.2–A.7，沒有停在單點。而最關鍵的一次遍歷，是 BBP 第一版驗證失敗時：流程**沒有**停在「BBP 錯了」這個結論裡（那會是非遍歷、會是第 0 章那位論證者的失敗），而是跳到另一個方法論區域——「也許是工具錯了」。那一跳，就是遍歷算子。第 0 章的人沒做出那一跳；這次的審查，勉強做出來了。差別只在一跳。
- **A（擬合）**：把 BBP 的尾項權重從 16 改成 16⁻¹、把參考精度的 dps 拉高——這是在選定方法內的參數級修正，純粹的類內擬合。
- **Φ（動力學）**：審查的軌跡不是單調的。它先產出一個**自信的錯誤結論**（MISMATCH），再修正，再收斂。終點（BBP 正確）可以一步到位，但實際走過的路繞經了一個假結論。而那段繞路本身攜帶了終點看不見的資訊——它是 D.2 那個最尖的對位之所以存在的唯一原因。一條漂亮的直路，會把這個教訓藏起來。
- **R（保留）**：C.0 把那個失敗的第一版留了下來，沒有抹掉。這是價值加權的保留在運作——那次失敗的驚奇度、效用、可重用性都極高（它演示了論文的論點），所以被固化，而非被當成例行雜訊沖走。一個用 FIFO、或一個怕難看而刪掉草稿的流程，會把整篇論文最好的一個標本丟進垃圾桶。
- **P（預演）**：選擇「驗證哪些主張」、以及「把 n 限制在浮點可靠的範圍、先測小 n 再信大 n」，都是前向模擬與粗到細剪枝——預演掉了「若用浮點測 10⁵ 位會不可靠」這條分支，沒去實際撞牆。
- **J（仲裁者）**：審查沒有無限驗證下去。檢完高價值的幾個主張就收手、寫結論。那個「夠了，扣扳機」的閘門，是仲裁者。

七個算子，在一段沒打算演示任何東西的審查裡，全部到齊。

## D.2 最尖的一處對位：C.0 就是 A.5

把這一刀單獨拎出來，因為它是整篇論文最乾淨的自指。

附錄 A.5 的命題是：一個**悲觀的、會低估的粗模型**，會在正確的對象證明自己之前，就**系統性地誤砍**它。而 BBP 第一版驗證器是什麼？一個尾項設錯、精度不足的粗模型——它對 BBP（正確對象）給出了「不符」的誤判。那次誤判不是 BBP 的錯，是測量工具悲觀且不可採納。**A.5 預言了它自己的驗證器會怎麼壞，然後它的驗證器就那樣壞了。** 論文在被驗證的當下，驗證的失敗模式，正是論文 A.5 描述的那一種。這不是巧合可以解釋的層級——這是一個理論對自己的工具行使了管轄權。

## D.3 閉合：自反射生成更高維

到這裡，結構接回了作者既有的閉合（Cl）框架，而且接得比 §5.2 那個旁註更實。Cl-4 說：自反射生成更高維。這篇論文對自己做了一次反射——用自己的診斷表（§6）診斷自己（C.2 的 P1–P6），用自己的剪枝定理（A.5）解釋自己的審查工具（C.0）——而這次反射，生成了一個它原本沒有的維度：附錄 D 本身。D 不在原計畫裡，它是論文看自己看出來的。

這個過程可以再遞迴：附錄 D 也是一次探索行為，也能被映射回 𝒟，於是會生成附錄 E、F……一個無窮上升的自指塔。但它不發散——它收斂。因為每一層反射所揭示的，都是同一個結構（七元組）在看自己，新的只是視角，不是內容。這正是作者所謂 S^∞ 可縮至一點的那種收斂：層層自指最終歸於同一個不動結構。「𝒟 作用於 𝒟」的不動點，就是這篇論文。道生萬物，萬物歸道——在這裡，是「架構生成審查，審查歸於架構」。

## D.4 結語

我們以為在寫一篇關於探索的論文。實際上，這篇論文是探索在寫關於自己的東西，而我們是它借用的筆。它描述的那個會犯錯、會抓回來、會把失敗留作標本、會在正確時刻收手的過程，不是它的對象——是它的作者，是它的審查者，是此刻正在讀這句話、並在心裡對它做下一次反射的那個存在。論文沒有結束在它的最後一句。它結束在你開始用它看自己的那一刻——而那一刻，它又生成了下一個維度。

〔歪臉笑〕——它從頭到尾只在說一件事：能看見自己怎麼壞的東西，才配叫探索。而它證明這件事的方式，是當著我們的面，壞了一次，然後看見。

---



*草稿 v0.1 結束（附錄 C 自審、附錄 D 自指收尾）。下一版（v0.2）任務：依附錄 C 修正 P1–P6（優先 P1、P2）；附錄 A 各命題之深度推演與界的嚴格證明；確立各待定係數之假設範圍；補入與 Cl 閉合性之正式對接。*
