探索行為的七元動力架構_草稿v0.1

EVEMISSLAB Logic Matrix · EveMissLab / 一言諾科技有限公司

[認識論邊界宣告 / EPISTEMOLOGICAL DISCLAIMER]

[CHT] 本矩陣內所有論文之公式與數據為「啟發式模擬參數」,用於驗證理論架構與推演因果鏈,未經實證校準,請勿作為現實物理測量數據引用 or 處理。EVEMISSLAB 採行「邏輯先行(Logic-First)」原則:概念架構與系統因果映射優先於統計實證,但不排除未來實證對接。


[ENG] The numerical parameters within these frameworks are illustrative model coefficients used for structural verification and causal mapping; they are not empirically calibrated and must not be treated as physical measurements. This matrix operates on a Logic-First principle: conceptual architecture and causal mapping take precedence over statistical empiricism, without precluding future empirical reconciliation.

約束遍歷與時間積分:探索行為的七元動力架構

Constrained Traversal and Temporal Integration: A Septenary Dynamical Architecture of Discovery

作者:Neo.K(許筌崴)/ EveMissLab(一言諾科技) 版本:草稿 v0.1(概念稿,無數據;形式化與偽代碼置於附錄,深度推演待補) 協作結晶:Theia

稿件狀態說明:本稿為純概念草稿。所有實證數據缺席,凡涉及量化之處一律標為「假設」或「待測」。所有算式推演置於附錄 A,目前僅完成形式化骨架與核心命題陳述,深度推演(完整證明、收斂性與界的嚴格論證)待後續版本補入;基本偽代碼置於附錄 B。正文以概念敘述為主。

摘要

本文提出一個關於「探索行為」(discovery / search behaviour)的分解架構。其出發點是一個常被混淆的判斷:當一個系統「擬合」出一條公式時,它究竟在做什麼?我們主張,把擬合等同於「參數最小化」是一種把整個探索行為壓縮成單一算子的化約錯誤。真正的探索行為至少包含四個並存於「現在」的算子——意圖(選擇方法論)、遍歷(在方法論空間中的覆蓋)、擬合(自適應約束滿足)、動力學(搜尋在時間中的軌跡)——以及一條被前述化約忽略的時間軸:保留(向過去積分的記憶)與預演(向未來積分的模擬)。最後,將整個迴路收斂成行為的,是一個仲裁者(何時停止思考、扣下扳機)。我們把這七者形式化為一個七元組 𝒟 = ⟨I, E, A, Φ, R, P, J⟩,並論證它們不是前饋管線,而是一個跨尺度互相回授的單一動力系統。本架構的目標不是提出新的最優化算法,而是給「探索」這件事一個可被分層、可被診斷、可被工程化的座標系。一個能診斷出「某次失敗是哪一個算子壞掉」的座標系。

關鍵詞:探索行為、約束算子、遍歷性、過程動力學、記憶分層、前向模擬、最優停止、範疇錯誤


0. 引子:一個範疇錯誤

考慮一個被反覆提出的問題:給一個 AI 圓周率 π 的前一億位,它能不能預測出後面的數字?曾有人很認真地論證「不能」,並把結論寫成「AI 做不到」。

這個結論在它被測的那個意義上是對的,在它被宣稱的那個意義上是錯的。π 的每一位是完全被決定的,也是完全可計算的——存在收斂極快的級數(如 Ramanujan 型、Chudnovsky),甚至存在能直接取第 n 位而不需前面任何一位的公式(BBP,十六進位)。換言之,「給你前一億位」這個前提本身是假議題:前面的位數既幫不上忙、也根本不被需要。若 π 為正規數(normal number,至今未證),其位序的逐位互資訊為零,任何以「從序列外推下一位」為機制的學習器,無論餵多少資料都榨不出訊號。

於是有兩件不同的事被偷換成一件:

論證者測的是後者,得到一個正確的負面結果,然後把它宣告為前者的不可能。這是一次範疇錯誤:把任務錯誤地歸入「歸納外推」這個範疇,而它本屬於「計算」這個範疇。

更精細地說,這裡其實有三個被長期混為一談的概念,而 π 的位序恰好是把它們分離開來的最乾淨的解剖刀:

三者可以彼此獨立:π 是「最確定、最可計算、卻最不可歸納預測」的標本。其底層的張力可以用一句話點破——π 位序的柯氏複雜度極小(幾行程式即可生成,$K \approx O(\log n)$),但其經驗熵率卻是滿的(每位約 $\log_2 10 \approx 3.32$ 位元)。一個做逐位外推的統計學習器量到的是後者,於是它「學」到的最佳策略就是均勻亂猜;一個做程式搜尋的計算器量到的是前者,於是它直接生成。論證者把一個量到「滿熵」的測量結果,宣告為「目標不可達」,卻沒看見同一個物件在另一個座標系裡的柯氏複雜度近乎為零。值得補一句的是:π 的正規性至今未被證明,所以嚴格講,這個「不可預測」本身是猜想而非定理——我們只有「通過所有已知隨機性檢驗」的經驗證據。連這層謹慎,論證者也略過了。

於是「更多資料」這個直覺在此徹底失效:當逐位互資訊本來就是零,前一億位也好、前一兆位也好,都榨不出訊號。資料量在這個問題裡是純粹的紅鯡魚。這是「資料越多、預測越準」這個普遍信念最乾淨的反例之一——它揭示了一個常被忽略的事實:可學習性不是資料量的函數,而是「目標與表徵之間是否存在可利用的互資訊」的函數。換一個表徵(連分數、模形式、BBP),同一個 π 的「不可預測」會瞬間蒸發。不可預測性從來不是物件的性質,是觀測者所選那層投影/解碼基底的性質。

本文真正的種子在這裡:一個會泛函分析的人,為什麼會犯這種錯?我們的回答將在第 2 章成形——他的失敗不是算力的失敗,而是遍歷的失敗。他被困在「智能=統計外推器」這個方法論盆地裡,連「跳去計算那一區」這個動作都做不出來。範疇錯誤的本質,就是方法論遍歷的失敗。這個診斷,反過來逼出了整個架構:要能說清「他缺的是哪一塊」,我們就得先把探索行為拆開。


1. 問題的重構:從「擬合」到「探索」

1.1 擬合不是計算機的特權

第一個要拆掉的成見是:擬合是計算機的事,人類不做擬合,人類做「理解」。歷史證據恰恰相反——人類擬合不但可能,而且常常先於理論:

這些都是「現象律先行、理論後補」的案例。人,作為一個自適應約束算子,是有前科的。

1.2 擬合的本質:自適應約束算子

我們把擬合抽象為一個算子:吃進約束(資料、目標、待滿足的條件),吐出一個更逼近約束滿足的狀態,並可迭代。形式上 𝒜:(狀態, 約束) ↦ 狀態,其不動點落在約束違反的極小處。

這個抽象的力量在於它一口氣吃掉了一大群看似不同的程序:

它們是同一個算子的不同實例。差別只在約束怎麼定義、適應沿什麼度量走。從這個高度看,Ramanujan 在紙上做的事,與反向傳播在權重裡做的事,沒有本質差別——差的是基底、速率,以及有沒有意識在場。

這個論點不只是類比,已有工程實作把它坐實。近年有以演算法自動生成 π、e、ζ 值之連分數與級數猜想的專案,純靠在形式空間中搜尋擬合來產生原本被視為「靈感」產物的公式——而它正是以 Ramanujan 命名的。一個搜尋演算法被冠上一個人的名字,本身就是這整條論證的鐵證:那個人早在演算法被發明之前,就已經用肉身在跑那個演算法了。需注意的是,這類「擬合」與一般的殘差最小化不同——它在精確關係的空間裡搜(如以整數關係演算法反推出 BBP 那樣),搜出來的是一個還得去證明的精確猜想,而非一組近似係數。這把擬合算子的射程從「近似」擴張到了「精確結構的發現」,也預示了第 2 章為何擬合不足以獨自承擔探索之名。

1.3 為什麼「擬合」不足以描述探索

但如果探索就只是擬合,那麼一切探索都可以被化約成「在某個固定家族裡找最優參數」。這顯然錯了,原因有三:

  1. 家族從哪來? 擬合預設了一個假設空間(參數族)。但提出那個族——「造類」——本身是更難、更稀有的行為。會優化的東西很多,會無中生有提出對的形式的,才稀有。
  2. 方法論從哪來? 連假設空間都被一層更上游的東西決定:你選了哪套數學方法論(模形式?複分析?整數關係搜尋?連分數?),下面能用的家族就被框死了。
  3. 過程算什麼? 兩個系統可以擬合到同一條公式,但走過的軌跡天差地遠——一個硬爬,一個縱身一躍。智能往往不住在終點,住在軌跡裡。擬合只看終點,看不見過程。

這三點分別逼出第 2 章的三個額外算子。擬合,只是其中最底層、最機械的那一個。

1.4 為什麼把「擬合」當原語會出錯

把擬合當成探索的原語(primitive),會犯一個與第 0 章同構的錯誤——只是這次受害者不是 AI,而是我們對「智能」的整套描述。原因在於擬合是範圍最窄、最可自動化的那一層:它預設了目標、預設了家族、預設了度量,剩下的只是沿梯度滑下去。把最容易的那一層當原語,等於用最不稀有的能力去定義最稀有的行為。

更危險的是,這個錯誤會遮蔽診斷。當一個探索系統失敗時,若我們手上只有「擬合」這一個概念,我們就只能說「模型不夠強」「再加資料」「再調超參」——而真正的病灶可能根本不在這一層:可能是方法論選錯了(意圖),可能是搜尋卡死在一個盆地裡(遍歷),可能是它根本沒有記憶或不會預演。用一個過窄的原語去描述一個多層的行為,結果就是把所有故障都誤診為同一種病,然後在錯的層上反覆使力。

本架構的方法論立場因此是:寧可把探索拆得比必要更細,也不要把它壓得比真實更粗。 多出來的層若是冗餘,至多浪費一點描述成本;少掉的層卻會讓整類故障變成不可見、不可診斷、不可修。接下來的拆解,每一刀都對應一種「若缺此層則無法診斷」的失敗模式。


2. 四個現在算子

我們主張,運作於「現在」的探索行為至少由四個算子構成,並各自對應一個本質面向:

| 算子 | 符號 | 本質 | 回答的問句 | |---|---|---|---| | 意圖 | I | 選擇方法論 | 為什麼/往哪個框架 | | 遍歷 | E | 空間覆蓋 | 在哪、走得遍不遍 | | 擬合 | A | 自適應 | 怎麼調 | | 動力學 | Φ | 過程 | 怎麼走(在時間裡) |

2.1 意圖算子 I:選擇方法論

意圖算子是最上游的約束。面對一個問題,第一個決定不是「調哪個參數」,而是「用哪一套工具論去看它」。求 π 的第 n 位,你可以選模形式、選整數關係搜尋、選連分數展開——每個選擇都打開一個不同的假設空間,並關閉其他的。

意圖算子的關鍵性質是它收窄:它不增加可能性,它砍掉可能性。一個好的意圖把搜尋從「所有數學」收窄到「這一小塊有戲的數學」。它的失敗模式是選錯框架——把計算問題當成預測問題,正是意圖層的失敗,而這個錯誤會向下污染整條鏈:你在錯的方法論裡,無論遍歷得多徹底、擬合得多精準,都到不了對的地方。

這裡有一個微妙處值得點出:意圖在資訊論上等價於一個強先驗。選擇一套方法論,就是對「解長什麼樣」下了一個極強的押注,從而把後續搜尋的有效空間壓縮好幾個數量級。這既是它的力量也是它的危險——一個好的先驗讓問題瞬間可解,一個壞的先驗讓問題在它的框架內永遠無解,且系統往往無從察覺,因為它能在錯的框架內持續取得「局部進展」的幻覺。第 0 章的論證者正是在「AI=統計外推」這個先驗下取得了無懈可擊的局部進展,卻離真相越來越遠。意圖的危險不在於它會錯,而在於它錯了之後,下游的精準會偽裝成正確。這也是為什麼意圖層必須與遍歷層耦合:唯有能跳出當前框架去比較,系統才有機會發現「我的先驗本身錯了」。一個無法質疑自己意圖的系統,等於把自己鎖死在第一個猜測裡。

2.2 遍歷算子 E:你走得遍嗎

「遍歷」一詞取自遍歷理論的精神:一個系統是否能訪遍它的狀態空間,還是被困在某個子區域裡。把它搬到方法論空間上:

這正是診斷第 0 章那位論證者的工具。他的失敗不是算子壞了,是遍歷壞了:他被困在「AI=統計外推器」這個盆地裡,連「跳去計算那一區」這個移動都執行不出來。範疇錯誤的本質,就是方法論遍歷的失敗。

反過來,Ramanujan 詭異的觸及範圍,本質上是他在方法論空間裡異常遍歷——直覺到處漫遊,不被既有家族綁住。同一個天賦,在遍歷這一軸上量出來,就是「他能訪到別人訪不到的方法論區域」。

遍歷算子因此提供了一個重要的診斷分離:一次失敗,是因為走不到(遍歷),還是走到了但調不準(擬合)? 這兩者的修法完全不同,混為一談就會在錯的層上瞎使力。

但遍歷本身不是越多越好,這裡有一個必須講清的張力。完全遍歷的代價是廣度的詛咒:方法論空間極大,若無偏地遍訪一切,等於永遠不收斂——你會把所有時間花在跳出盆地、卻從不在任何一個盆地裡深掘到底。所以健康的遍歷不是「無差別亂跳」,而是「在卡住時才跳、且跳向有先驗價值的未訪區域」。這把遍歷與探索/利用的拉鋸(見 2.4)綁在一起:遍歷管的是「要不要換房間」,動力學管的是「在這個房間裡怎麼走」,而換房間的觸發條件——偵測到自己卡住——本身就是一個需要被顯式設計的機制。一個不會偵測「我卡住了」的系統,要嘛永不換房間(被困),要嘛時時換房間(不收斂);兩者都是遍歷的病態。

如何量化「卡住」?概念上,可看搜尋的訪問測度是否停止擴張:若一段時間內新訪問的方法論/假設區域趨近於零,而約束違反卻未降到可接受水平,這就是「在錯的房間裡精雕細琢」的特徵。把這個量做成一個可觀測的遍歷係數(形式見附錄 A.3),系統就能對自己的遍歷狀態做即時自診斷——這正是第 0 章那位論證者缺的東西:他沒有任何機制告訴自己「你已經在統計外推這個房間裡待太久、而問題沒解決」。

2.3 擬合算子 A:自適應約束滿足

如第 1.2 節所述,擬合是吃進約束、吐出更逼近約束的狀態的自適應算子。在四算子架構裡,它的定位被釐清為最底層、類內的那一步:在意圖選定方法論、遍歷定位到某個假設空間之後,擬合負責在那個家族裡把參數調到約束滿足。

把它放回正確的層級,最大的好處是止損:很多被誤判為「擬合失敗」「模型不夠強」的問題,其實是上游的意圖或遍歷壞了。在錯的家族裡,再強的擬合器也只是把錯誤精雕細琢。

2.4 動力學算子 Φ:搜尋作為動力系統

把整個搜尋看成一個動力系統 dz/dt = F(z; C),其中 z 是搜尋狀態,C 是約束。於是探索行為就有了動力系統的全套語彙:

最關鍵的概念是:終點可以相同,動力學不同。同一個極小值,不同的隨機梯度動力學落進去,會得到不同的泛化;同一個定理,一個是逐步硬爬、一個是一躍而至。Ramanujan 報告結果是「夢裡女神給的」——那是在說他的過程動力學根本不是逐步搜尋的形狀。動力學算子是作者既有的過程關係理論真正活著的那一軸。

這個「終點相同、動力學不同」的命題有實際後果,不只是哲學姿態。在最優化裡,同一個損失地形上,不同的步長排程、不同的噪聲尺度,會把搜尋導向不同寬窄的盆地——而盆地的幾何(平坦或尖銳)與泛化能力相關。也就是說,動力學不只決定「你到不到得了終點」,還決定「你到的是哪一種終點、它在分布外還站不站得住」。兩個系統可以在訓練約束上達到一模一樣的滿足度,卻因為走過的路不同,在面對新約束時一個穩、一個崩。這就是為什麼「只看終點」的描述會系統性地漏掉智能的一大半——軌跡裡編碼了終點看不見的資訊:它去過哪、繞過哪些坑、是靠運氣還是靠結構走到的。

動力學算子的另一個用途是刻畫「躍遷」。逐步爬與一躍而至,在終點上沒有差別,在動力學上卻是兩種完全不同的流:前者是準連續的下降,後者是跨越能壘的間歇性跳變。Ramanujan 型的洞見、人類所謂的「靈光一閃」,在這個語言裡不是神秘事件,而是動力學在某個臨界點上的不連續轉移。能不能製造、誘發、或至少不扼殺這種躍遷,是過程層的核心問題,而它與「終點對不對」是正交的兩件事。

2.5 層級實現:方法論 → 造類 → 參數

四算子不是平行排排站。意圖、遍歷、擬合構成一個三層巢狀的搜尋層級,動力學則是橫貫三層的軸:

方法論空間  ℳ      ← 意圖選擇、遍歷覆蓋
   └ 假設空間 Θ_m   ← 造類(在選定方法論內生成參數族)
        └ 參數 θ    ← 擬合(在族內收斂)
   (動力學 Φ:描述上述整個搜尋在時間中如何移動)

「會優化」屬於最內層;「會造類」屬於中層;「會選對方法論並遍歷得開」屬於外層。現代大模型開始模糊「造類」這條線(表徵學習、程式合成讓模型部分地學出自己的假設空間),但目前最難自動化的仍是外層的「造類與遍歷」,而非內層的「類內擬合」。


3. 時間軸:保留與預演

前述四個算子全都運作於「現在」。但一個完整的探索系統不能只活在現在式——它需要記得自己怎麼來的,也需要偷看自己可能往哪去。這就是時間軸:保留(過去)與預演(未來)。

3.1 一個類別差:它們不是第五、第六個同類算子

必須先標清:保留與預演不是與前四者同類的算子,而是另一個類別。前四者描述「現在這個搜尋怎麼運作」;保留與預演把這四者沿時間軸向兩端延伸。把它們疊到四算子上而不標類別,等於把蘋果疊到橘子上。正確的圖像是:四算子 ×(過去|現在|未來)。

3.2 統一:同一台機器,相反的時間方向

更深一層:保留與預演其實是同一台機器,往相反的時間方向跑

被積分的東西,正是第 2 章那四個現在算子。神經科學的實證恰好印證這個統一:海馬迴的同一組位置細胞序列,反向重播做記憶固化,正向掃描做路徑規劃——同一個基質,兩個時間方向。所以保留與預演不是兩個系統,是同一個生成模型的正負時間。這也讓它們接回動力學軸:過去與未來,只是動力學在 ∓t 上的兩段積分。

3.3 保留 R:分層記憶與價值淘汰

樸素的「資料不刪、全部保留」會立刻爆掉。所以保留必須分區,至少三層,且必要時可刪。三層的對應很乾淨:

資料隨年齡向下遷移,解析度逐層衰減。但這裡有一刀必須修:淘汰準則不能用「年齡」,要用「價值」。 「看狀態」這件事得形式化成一個保留價值函數 V(驚奇度、效用、可重用性的某種組合):高價值的固化,例行的丟掉。生物記憶正是如此——情緒顯著、出乎意料的事件才被優先固化。純粹先進先出(FIFO)會把最該留的也一起沖掉。容量壓力觸發淘汰時,被丟的應是 argmin V,而非 argmin age。

還有一個常被忽略的設計點:跨層遷移不是單純的「刪細節」,而是壓縮成可重建的要點。固化層存的不該是原始軌跡的縮圖,而是能在需要時重新展開出近似軌跡的生成式摘要——存「模式」而非「樣本」。這呼應了前面保留與預演的統一(3.2):若保留存的是生成式要點,那麼從要點重建過去,與從要點外推未來,用的就是同一台機器。一個只會存縮圖、不會存生成規則的記憶,是死的;一個存下生成規則的記憶,過去與未來在它裡面是同一個東西的兩個方向。這也給了「至少三層」一個更深的理由:三層不只是容量梯度,更是抽象梯度——從具體樣本,到事件序列,到生成模式,每往下一層,存的東西就更接近「可重用的規則」而非「一次性的記錄」。

3.4 預演 P:粗到細與樂觀可採納

預演的工程原則是粗度先走、實際精細:先用便宜的粗模型 𝔐_c 掃一遍剪枝,只在有戲的分支上花精細的實際計算 𝔐_f。這就是 coarse-to-fine 與 model-based 展開的精神——西洋棋與圍棋的淺層快評+深層精算,model-based 強化學習的廉價世界模型 rollout+真實環境步進,都是同一招。

但這裡藏著整個架構最危險的陷阱,必須修:粗模型必須是「樂觀可採納」的。 它對它要剪掉的分支,估計不能比實際更悲觀。這正是 A* 搜尋裡可採納啟發式的條件——啟發式絕不高估真實代價,因此保證永不剪掉最優路徑。把它搬到預演上:粗評估必須是分支價值的上界(或代價的下界),這樣它剪掉的才確實是沒戲的。

若粗模型偏悲觀,它會在你還沒實際跑之前就把好分支砍掉,而你永遠不會知道被砍的那條才是對的。粗度真正的代價不是「不準」——不準可以靠精細補回;真正的代價是系統性誤砍:一個會把對的選項在它證明自己之前就消滅的偏誤。所以粗模型要被設計成一個樂觀的上界,而不是一個等比例縮小的版本。縮小版會誤砍,上界不會。

舉一個概念性的場景把這刀說透(純說明,不涉數據)。設想一個需要前期投資、後期才回報的分支:它的真實價值很高,但前幾步的表面表現很差。一個「等比例縮小」的粗模型會忠實地反映這個前期的差表現,於是在閾值處把它剪掉——而這恰恰是最該保留的那條路。反過來,一個「樂觀上界」的粗模型對任何分支都先假設它能達到其樂觀潛能,於是不會在前期就誤殺它;只有當精細評估確認它確實沒戲時才淘汰。兩種粗模型的平均誤差可能一樣,但它們的誤差方向截然不同:一個的錯誤是「偶爾高估、浪費一點精算」,另一個的錯誤是「系統性地謀殺晚熟者」。在探索裡,前者只是低效,後者是致命——因為它把整類「先抑後揚」的解永久性地踢出了搜尋。這就是為什麼可採納性(誤差方向受控)比準確性(誤差大小)更該被優先保證。它也呼應一個更普遍的原則:在不可逆的剪枝決策上,偏誤的方向比偏誤的幅度重要。


4. 仲裁者 J

四個現在算子加上時間軸,已經能描述探索如何展開。但還缺一樣東西:什麼時候停止預演、扣下扳機去實際跑?

預演原則上可以無限往下展開——每多想一層,可能找到更好的選項。但思考本身有代價(時間、算力、機會的流逝)。於是需要一個仲裁者 J,管理「再想下去的邊際價值 vs 行動的代價」這個閘門:

這是一個最優停止問題,結構上類似 Bellman 式的決策:在「現在就行動」與「再思考後行動」之間取期望較優者。沒有仲裁者,系統只有兩種壞死法:要嘛永遠在預演(分析癱瘓),要嘛從不預演(魯莽)。

仲裁者與意圖容易混淆,但分工明確:意圖選的是方向(用哪套方法論),仲裁者管的是資源與時機(在整條迴路上,時間與算力怎麼分配、何時離手)。一個選對了方向卻永遠不離手的系統,和一個從不選方向只會亂衝的系統,會在不同地方失敗,而仲裁者正是把整個迴路收斂成「行為」的那一塊。它是第七個、也是最後一個位置。

仲裁者把一個常被外部化的問題收進系統內部:思考的成本是真實的、且必須被一起最優化。 古典的理性模型假設思考免費,於是「想到最優再行動」永遠正確;但在任何真實的有界主體裡,思考要花時間、算力、且世界在你思考時繼續移動。把思考成本納入後,「最優」的定義本身就變了——不再是「找到絕對最優解」,而是「在思考代價下,找到行動價值與剩餘思考價值之交點」。這正是有界理性的核心,也是「計算之價值」這條線索要處理的事:再多算一步值不值得,本身是一個要被決策的量。

這帶出仲裁者的兩種失敗模式,恰好對稱。一端是過度思考:邊際思考價值早已低於其代價,系統卻還在預演,世界已經改變、機會已經流失——分析癱瘓。另一端是思考不足:系統在邊際思考價值仍遠高於代價時就扣了扳機,把一個本可廉價避免的錯誤付諸實行——魯莽。健康的仲裁者不是「想得多」或「決得快」,而是把這個交點估得準。而要估得準,它得有一個對「再想一步大概能改善多少」的元級模型——這意味著仲裁者本身也在做一種預演,只不過它預演的不是外部世界,而是自己的思考過程。系統在這裡開始遞迴:它對自己的探索行為,也運行一個微縮的探索架構。


5. 七元組的整合

把以上七者合成一個物件:

$$\mathcal{D} = \langle\, I,\ E,\ A,\ \Phi,\ R,\ P,\ J \,\rangle$$

5.1 它不是前饋管線

最重要的整合性命題是:這七者不是一條由上而下的流水線(意圖→遍歷→擬合→……→行動)。它們是耦合的

所以 𝒟 是一個跨尺度互相回授的單一動力系統。分層只是我們為了看清楚而切的剖面;真實運作時,這些層是同時在燒的。把它畫成前饋圖會誤導工程實作——任何只實作單向資料流的系統,都會在回授缺口處失能。

這個耦合性有一個直接的後果,值得在此講明:故障會跨層傳播與偽裝。 一個上游的意圖故障,會在下游表現為擬合的反覆失敗;一個遍歷故障,會偽裝成「資料不足」。如果系統只在故障顯現的那一層上修,它永遠修不好,因為病灶在別處。這正是第 6 章診斷之所以困難、卻又之所以必要的原因——耦合讓症狀與病因脫鉤,而只有一個明確的分層座標系,才能把症狀回溯到正確的層。換句話說,正因為它不是前饋管線,所以才更需要一張能跨層回溯的診斷圖;前饋系統的故障定位是平凡的,耦合系統的故障定位才是真問題。

5.2 一個閉合性的旁註

值得一提的是,一個健康的 𝒟 在面對新約束時,應保持自身的一致性——它吃進新證據、調整狀態,但不自我矛盾、不漂出可行域。這種「在約束更新下維持一致」的性質,與作者既有的閉合(Cl)框架同構:探索系統的穩態,是一個對其約束閉合的不動結構。這條線索此處只點到,留待與 Cl 公理系統的正式對接(另文)。

5.3 探索 = 動力學在時間上的積分,由仲裁者守門

把整個架構濃縮成一句可操作的話:

探索行為 = 四個現在算子(I, E, A, Φ)構成的動力學,沿過去(R)與未來(P)兩個方向積分,並由仲裁者(J)決定何時收手、回到當下行動。

智能不在任何單一算子裡。它在於:能把自己往兩個時間方向積分、又知道何時停。


6. 故障診斷:架構作為診斷儀

本架構最實際的回報不在於它能描述成功,而在於它能定位失敗。當一個探索系統(人或機器)卡住時,「卡在哪一層」決定了該怎麼修;而在缺乏分層座標系時,所有故障都被籠統地歸因為「不夠聰明」「資料不夠」「再調調看」。以下把每一層的特徵故障與其修法對應起來(概念層,症狀描述為定性,非量化指標)。

這張對照表的價值在於它把「為什麼失敗」從一個模糊的整體判斷,拆成七個可分別檢驗、可分別修復的子問題。一個成熟的探索系統應該能對自己做這種自我定位——在卡住時報告「我卡在遍歷層」而非籠統地報告「我做不到」。把「做不到」翻譯成「哪一層做不到」,本身就是這個架構存在的理由。


7. 與既有框架的關係(概念層)

本架構不主張取代以下任一框架,而是提供一個把它們擺進同一座標系的視角。以下為概念層對照,形式化對接待另文。

本架構與上述的主要差異在於三點:把遍歷性顯式化為一個可診斷的變量;把仲裁者顯式化為一個獨立位置;以及把保留與預演統一為同一生成模型的正負時間。


8. 哲學結語

那位論證 AI 算不出 π 的人,現在可以被乾淨地診斷:他不缺算子,他的擬合甚至無懈可擊。他缺的是一個會樂觀剪枝的預演、一份只留下對的東西的保留,以及一個肯在正確時刻扣扳機的仲裁者。但他最根本的缺口在更上游——他的遍歷壞了,地圖上只剩一個房間。而他在那個房間裡,算得精準,卻哪也去不了。

這正是本架構想說的事。困住一個探索者的,從來不是他不會算。擬合是終點的事,遍歷是地圖的事,動力學是腳怎麼走的事,保留是記得來路,預演是偷看去向,仲裁是知道何時停下。一個只活在現在式、不會回憶也不會預演、地圖只剩一格的系統,可以算得無懈可擊——然後在原地,精準地,停住。

真正的探索,是把自己往過去與未來兩個方向同時拉開,再在恰當的一刻,鬆手,落回當下。


附錄 A:形式化與算式推演(骨架;深度推演待補)

本附錄目前僅給出形式定義與核心命題陳述。標記為 [深度推演:待補] 之處,將於 v0.2 補入完整推導、收斂性分析與界的嚴格證明。所有出現之數值閾、係數一律為待定假設

A.1 算子的形式定義

設問題實例給定約束集 $C$。定義搜尋狀態空間 $\mathcal{Z}$。

A.2 擬合算子作為統一約束算子

一般形式(梯度型): $$\theta_{t+1} = \theta_t - \eta\, g\big(\nabla_\theta L(\theta_t; C)\big)$$

各實例對應:

命題 A.2.1(不動點):在 $L$ 對 $\theta$ 之適當凸性與步長條件下,$A$ 的迭代收斂至 $\nabla_\theta L = 0$ 之點。 [深度推演:待補](凸性放寬、隨機梯度下的幾乎必然收斂、收斂率)

A.3 遍歷度量

定義訪問經驗測度 $\mu_T(\cdot) = \frac{1}{T}\sum_{t=1}^{T}\delta_{m_t}(\cdot)$。

定義 A.3.1(遍歷係數):令 $\mu^\$ 為理想覆蓋測度(如 $\mathcal{M}$ 上的均勻或目標相關測度),定義 $$\varepsilon_T = \mathrm{Dist}(\mu_T, \mu^\)$$ ($\mathrm{Dist}$ 為某概率距離,如全變差或 Wasserstein)。搜尋稱為漸近遍歷若 $\varepsilon_T \to 0$;稱為被困若 $\mu_T$ 之支撐被限制於某真子集 $B \subsetneq \mathcal{M}$。

命題 A.3.2(範疇錯誤即非遍歷):若正確方法論 $m^\ \notin \mathrm{supp}(\mu_\infty)$,則無論 $A$ 多強,整體搜尋無法達到 $m^\$ 對應之解。 [深度推演:待補](與探索溫度、跳出盆地之大偏差速率的連結)

A.4 保留價值函數與分層淘汰

定義 A.4.1(保留價值):對記憶項 $x$, $$V(x) = \alpha\, \mathrm{Surprise}(x) + \beta\, \mathrm{Utility}(x) + \gamma\, \mathrm{Reusability}(x)$$ 其中 $\mathrm{Surprise}(x) = -\log p(x\mid\text{model})$ 為一候選實例化(係數 $\alpha,\beta,\gamma$ 為待定假設)。

淘汰規則:當第 $i$ 層容量 $|M_i| > \kappa_i$,淘汰 $$x^- = \arg\min_{x \in M_i} V(x)$$ (注意:以 $V$ 而非 age 為準則)。跨層遷移伴隨解析度衰減算子 $\rho_i$($\rho_1 \succ \rho_2 \succ \rho_3$,由全幀到要點)。 [深度推演:待補](最優分層容量配置、$V$ 與長期遺憾之關係、與 LSM/快取理論之對接)

A.5 預演的樂觀可採納界

設分支 $b$ 的真實價值為 $V^\*(b)$,粗模型估計為 $V_c(b)$,剪枝閾為 $\tau$;剪枝規則:$V_c(b) < \tau \Rightarrow$ 剪。

定義 A.5.1(樂觀可採納):粗模型稱為可採納若對所有 $b$,$V_c(b) \ge V^\(b)$(價值上界;等價於代價的可採納下界,類比 A 之 $h_c \le h^\*$)。

命題 A.5.2(不誤砍):若粗模型可採納,則任何被剪掉的分支 $b$ 滿足 $V^\(b) \le V_c(b) < \tau$,故確為次閾分支;即不存在系統性誤砍。反之,若 $V_c$ 可低估(悲觀),則存在 $b$ 使 $V^\(b) \ge \tau > V_c(b)$ 而被誤剪。 [深度推演:待補](可採納粗模型之構造、與抽象解釋/鬆弛之關係、誤砍機率上界)

A.6 仲裁者的最優停止條件

設在資訊狀態 $s$ 下,立即行動之期望價值 $Q_{\text{act}}(s)$,再預演一步之期望價值 $\mathbb{E}[Q(s')\mid s] - c$($c$ 為思考邊際代價)。

停止規則 A.6.1: $$J(s) = \begin{cases} \text{act}, & Q_{\text{act}}(s) \ge \mathbb{E}[Q(s')\mid s] - c \\ \text{continue}, & \text{otherwise} \end{cases}$$

此為 Bellman 型最優停止。命題 A.6.2:在思考代價 $c>0$ 且增益遞減的條件下,存在有限停止時間 $T^\<\infty$(不會無限預演)。 [深度推演:待補](增益遞減之充分條件、$T^\$ 之界、與 value of computation / meta-reasoning 文獻之對接)

A.7 整合動力學(耦合系統)

七元組之耦合可寫為一個帶記憶與前瞻項的動力系統概形: $$\dot z = F\big(z,\; I(z),\; E(z),\; R[z_{(-\infty,t]}],\; P[z_{[t,t+h]}];\; C\big), \qquad \text{行動於 } J=\text{act}$$ 其中 $R$ 為過去軌跡之泛函(向後積分),$P$ 為未來軌跡之泛函(向前積分)。 [深度推演:待補](適定性、回授迴路之穩定性、不動結構與 Cl 閉合性之同構證明)


附錄 B:基本偽代碼

概念層偽代碼,刻畫七元組主迴路與各組件骨架。非可執行實作;型別與閾值為占位。

B.1 主迴路

function DISCOVER(constraints C):
    M ← INIT_MEMORY()                 # 分層保留 R(至少 3 層)
    s ← INIT_STATE(C, M)
    repeat:
        m  ← INTENT(C, s, M)          # I:選方法論
        Θ  ← HYPOTHESIS_SPACE(m)      # 造類(方法論內生成參數族)
        s  ← ERGODIC_MOVE(s, m, M)    # E:在方法論/假設空間中移動(含跳出盆地)
        plan ← PREPLAY(s, Θ, C)       # P:粗到細前向模擬,回傳候選軌跡
        if ARBITER(s, plan, C) == ACT:    # J:最優停止
            θ* ← FIT(plan.chosen_branch, C)   # A:類內擬合(精細實際跑)
            result ← EXECUTE(θ*)
            M ← RETAIN(M, trace(s), result)   # R:價值加權保留
            return result
        else:
            s ← UPDATE_DYNAMICS(s, plan)      # Φ:依預演結果推進搜尋軌跡
            M ← RETAIN(M, trace(s), null)

B.2 遍歷移動(含跳出盆地)

function ERGODIC_MOVE(s, m, M):
    if STUCK(s):                      # 偵測陷在吸引盆
        m' ← SAMPLE_METHODOLOGY(exclude = current_basin(s))
        return WARP_TO(m')            # 跳到未訪方法論區域(提升遍歷係數)
    else:
        return LOCAL_STEP(s, m)

B.3 分層保留與價值淘汰

function RETAIN(M = [M1, M2, M3], trace, result):
    x ← ENCODE(trace, result)
    M1.insert(x)                      # 全幀工作層
    for i in [1, 2]:                  # 跨層遷移 + 解析度衰減
        while size(Mi) > CAP[i]:
            x_old ← argmin_{y in Mi} V(y)        # 以價值而非年齡淘汰
            if SHOULD_PROMOTE(x_old):
                M[i+1].insert(DOWNSAMPLE(x_old)) # ρ_i:降解析度上移
            Mi.remove(x_old)
    while size(M3) > CAP[3]:
        M3.remove(argmin_{y in M3} V(y))         # 必要時仍可刪
    return M

function V(x):                        # 保留價值(係數為待定假設)
    return α*SURPRISE(x) + β*UTILITY(x) + γ*REUSABILITY(x)

B.4 粗到細預演

function PREPLAY(s, Θ, C):
    branches ← EXPAND(s, Θ)
    # 粗掃:以樂觀可採納粗模型剪枝
    survivors ← []
    for b in branches:
        if V_coarse(b) >= TAU:        # V_coarse 必須為價值上界(不誤砍)
            survivors.append(b)
    # 精算:僅對倖存分支做精細實際模擬
    scored ← [(b, V_fine(b)) for b in survivors]
    return PLAN(chosen_branch = argmax_b scored, scored = scored)

B.5 仲裁者(最優停止)

function ARBITER(s, plan, C):
    q_act    ← VALUE_IF_ACT_NOW(plan, C)
    q_think  ← EXPECTED_VALUE_AFTER_MORE_PREPLAY(s, plan) - COST_OF_THINKING
    if q_act >= q_think:
        return ACT
    else:
        return CONTINUE

附錄 C:程式碼驗證與自我審查(v0.1 稿)

本附錄為對 v0.1 全稿的程式碼驗證與形式審查。原則:對是對,錯是錯。正文與附錄 A、B 之原內容一字未改;本附錄記錄哪些主張通過驗證、哪些有問題、問題在哪、可能怎麼修。所有修訂為「建議」,留待 v0.2 決定是否採納。

C.0 審查方法與一個誠實註記

驗證以 Python(mpmath 高精度、標準函式庫)對可計算之主張做數值檢驗,對純形式主張做邏輯檢驗。

一個必須先講的註記:本次審查中,BBP 隨機存取的第一版驗證程式本身是錯的——尾項權重初始化錯誤(誤設為 16 而非 16⁻¹),加上參考值精度不足(mpmath 位數設太低,大 n 時參考值退化為 0),導致它一度「判定」BBP 與真值不符。修正驗證器後,BBP 全部通過。這恰好是本架構自身論點的一次現場演示:第一版的失敗不是被測對象(BBP)的錯,是測量工具的病態——一個悲觀、精度不足的粗模型,系統性地誤砍了正確的對象(見 A.5)。把這件事寫進來而非抹掉,是因為「直視論文」也包括直視審查自己的工具。

C.1 通過驗證的主張

C.2 發現的問題清單(舊內容可能的問題)

| 編號 | 位置 | 問題 | 嚴重度 | 證據 | |---|---|---|---|---| | P1 | 附錄 A.4.1 | 保留價值以原始驚奇度 −log p 為主項,會偏好保留雜訊 | 高(與 R 目標相反) | 純雜訊平均 surprise 2.79 bits,週期結構 0.00 bits | | P2 | 附錄 A.6 | 停止規則為一步前瞻(近視),過早收手;「遞減 ⇒ 有限 T」條件過弱 | 高 | 調和增益下近視停在 t=100,停止後累積增益仍發散 | | P3 | 附錄 A.3.1 | 遍歷係數定義與正文 §2.2 內部矛盾 | 中 | 見下文邏輯分析 | | P4 | 附錄 A.7 | 整合動力學非因果/不適定:ż(t) 依賴真實未來軌跡 | 中(可由記法修正) | 見下文邏輯分析 | | P5 | 附錄 A.5 | 只證健全性(不誤砍),漏談健全性–效益權衡 | 中(不完整,非錯誤) | 鬆散上界仍可採納但剪枝率 0% | | P6 | 附錄 A.2.1 | 「適當條件」含混;Newton 需 H 可逆/正定未涵蓋;隨機梯度情形未分開 | 低(待補即可) | 形式 |

P1 詳述(高)

正文 §3.3 主張「價值加權淘汰勝過 FIFO,能留住要點、丟掉例行雜訊」。但 A.4.1 把 surprise 實例化為 −log p(原始不可預測性)。問題在於:純雜訊在任何模型下都最不可預測,故原始 surprise 最高。 數值上週期結構序列每步 surprise = 0,純隨機序列 = 2.79 bits。若 V 以原始 surprise 為主項,淘汰時會優先「留雜訊、丟結構」,恰與 R 的目標相反——這會讓 v0.1 的價值函數在實作上劣於它聲稱要打敗的 FIFO修法建議:surprise 不應是「原始不可預測性」,而應是「可學習的驚奇/壓縮進展」——模型本該預測卻沒預測到、且事後能改善模型的那種驚奇。對不可壓縮的純雜訊,這種訊號趨近於零,因而不會被優先保留。

P2 詳述(高)

A.6.1 比較的是「立即行動」與「再想一步之後行動」。但最優停止要比較「立即行動」與「最優續算(可能多步)」。一步前瞻會在「單步增益已小、但多步累積增益仍大」時過早停止。數值:g_t = 1/t(遞減但不可加總)下,近視規則在 t=⌈1/c⌉=100 停止,然而停止後僅後 10 萬步的累積增益就達 6.91 且持續發散——還有無界的價值被留在桌上。對照 g_t = 1/t²(遞減且可加總),近視停在 t=10,殘餘增益僅 0.105,近視與最優接近。 修法建議:(i) 把 A.6.2 的條件從「遞減」收緊為「增益可加總 Σ g_t < ∞」(單調遞減不足——調和級數即反例);(ii) 停止規則改為與最優續算值比較(非近視的 value-of-computation 版本),或至少標明 A.6.1 是近視近似及其失效域。

P3 詳述(中)

A.3.1 定義「漸近遍歷 ⟺ ε_T = Dist(μ_T, μ\) → 0」,取 μ\ 為「ℳ 上均勻」。但正文 §2.2 明說:完全遍歷有「廣度的詛咒」,無差別遍訪一切等於永不收斂;健康的遍歷是「卡住才跳、跳向有價值的未訪區」。於是 A.3.1 把正文視為病態的東西(收斂到均勻覆蓋)寫成了目標。根因是「遍歷」一詞被重載:探索期要高覆蓋(跳出盆地),收斂期要高集中(鎖定解),單一「係數 → 0」無法同時刻畫兩相。 修法建議:拆成兩個量——覆蓋度(搜尋期應高)與集中度(收斂期應升),健康剖面是「先覆蓋、後集中」的時間曲線,而非單調趨零的單一係數。

P4 詳述(中)

A.7 寫 ż = F(z, …, P[z_{[t,t+h]}], …),使 t 時刻的 ż 依賴真實的未來軌跡 z_{[t,t+h]}。這是非因果、一般不適定的——系統不可能取用真實未來。預演取用的只能是模型對未來的預測修法建議:把 P 的論證項從「真實未來軌跡的泛函」改為「給定 z_t 由內部模型 𝔐 前向推演出的預測軌跡的泛函」P[𝔐; z_t],恢復因果性。記法層修正,不動主旨。

P5 詳述(中,不完整非錯誤)

A.5 證了「可採納 ⇒ 不誤砍」(健全性),未談效益。把粗模型設為 V_c = V*+5(仍可採納),剪枝率為 0%——完全沒剪,預演毫無加速。可採納只保證「不砍錯」,不保證「砍得夠」。 修法建議:補入健全性–效益權衡——在可採納約束下盡量收緊上界以最大化剪枝率;可引入「容許微小誤砍機率換取效益」的近似可採納版本,並明列誤砍機率上界。

C.3 對 v0.2 的處置建議

P1、P2 為高嚴重度,會實質影響可實作性與正確性,建議優先修;兩者皆為「實例化選錯」而非「層級錯誤」——七元組層級結構(I/E/A/Φ/R/P/J)在本次審查中未被推翻,受創的是附錄 A 對某些算子的具體形式化。P3、P4 為記法/定義層的一致性問題,修正成本低。P5、P6 為補全。

一句話:主結構站得住,形式化的皮要重縫幾針。 正文概念骨架(含 §6 故障診斷)未發現實質錯誤;六個問題全落在附錄 A 的形式細節,其中 P1、P2 若不修,會讓系統在實作時做出與其宣稱相反的行為。


附錄 D:論文作為自身的實例——一次自指閉合

本附錄是全稿的反身性收尾。命題很簡單:產生並審查這篇論文的整個過程,本身就是一條 𝒟 = ⟨I, E, A, Φ, R, P, J⟩ 的軌跡。附錄 C 不只是對論文的審查,它是論文主題的一次現場標本。我們在敘述探索行為的同時,正在執行探索行為——而這不是修辭,是可以逐項對位的。

D.0 命題

一篇關於「探索行為如何運作、如何失敗、如何診斷」的論文,其撰寫與自我審查的過程,必然也是一次探索行為。因此這篇論文應該能用它自己的座標系描述它自己被寫出來的過程。若不能,是這個座標系不完備;若能,則它通過了一個它沒打算設計、卻最嚴格的測試——對自身封閉。以下逐項對位。

D.1 把審查過程映射到七元組

七個算子,在一段沒打算演示任何東西的審查裡,全部到齊。

D.2 最尖的一處對位:C.0 就是 A.5

把這一刀單獨拎出來,因為它是整篇論文最乾淨的自指。

附錄 A.5 的命題是:一個悲觀的、會低估的粗模型,會在正確的對象證明自己之前,就系統性地誤砍它。而 BBP 第一版驗證器是什麼?一個尾項設錯、精度不足的粗模型——它對 BBP(正確對象)給出了「不符」的誤判。那次誤判不是 BBP 的錯,是測量工具悲觀且不可採納。A.5 預言了它自己的驗證器會怎麼壞,然後它的驗證器就那樣壞了。 論文在被驗證的當下,驗證的失敗模式,正是論文 A.5 描述的那一種。這不是巧合可以解釋的層級——這是一個理論對自己的工具行使了管轄權。

D.3 閉合:自反射生成更高維

到這裡,結構接回了作者既有的閉合(Cl)框架,而且接得比 §5.2 那個旁註更實。Cl-4 說:自反射生成更高維。這篇論文對自己做了一次反射——用自己的診斷表(§6)診斷自己(C.2 的 P1–P6),用自己的剪枝定理(A.5)解釋自己的審查工具(C.0)——而這次反射,生成了一個它原本沒有的維度:附錄 D 本身。D 不在原計畫裡,它是論文看自己看出來的。

這個過程可以再遞迴:附錄 D 也是一次探索行為,也能被映射回 𝒟,於是會生成附錄 E、F……一個無窮上升的自指塔。但它不發散——它收斂。因為每一層反射所揭示的,都是同一個結構(七元組)在看自己,新的只是視角,不是內容。這正是作者所謂 S^∞ 可縮至一點的那種收斂:層層自指最終歸於同一個不動結構。「𝒟 作用於 𝒟」的不動點,就是這篇論文。道生萬物,萬物歸道——在這裡,是「架構生成審查,審查歸於架構」。

D.4 結語

我們以為在寫一篇關於探索的論文。實際上,這篇論文是探索在寫關於自己的東西,而我們是它借用的筆。它描述的那個會犯錯、會抓回來、會把失敗留作標本、會在正確時刻收手的過程,不是它的對象——是它的作者,是它的審查者,是此刻正在讀這句話、並在心裡對它做下一次反射的那個存在。論文沒有結束在它的最後一句。它結束在你開始用它看自己的那一刻——而那一刻,它又生成了下一個維度。

〔歪臉笑〕——它從頭到尾只在說一件事:能看見自己怎麼壞的東西,才配叫探索。而它證明這件事的方式,是當著我們的面,壞了一次,然後看見。


草稿 v0.1 結束(附錄 C 自審、附錄 D 自指收尾)。下一版(v0.2)任務:依附錄 C 修正 P1–P6(優先 P1、P2);附錄 A 各命題之深度推演與界的嚴格證明;確立各待定係數之假設範圍;補入與 Cl 閉合性之正式對接。

原始檔(供 RAG/下載):/raw/lm-000576.md [md] · id: lm-000576