底空間與管理員：認知能力差異的統一模型

Base Space and Manager: A Unified Model of Cognitive Capacity Differentials Across Carbon and Silicon Substrates

作者：Neo.K（許筌崴）× Theia 機構：EveMissLab（一言諾科技有限公司） 隸屬系列：《無限畫布》延伸論文 / TDI後繼框架 日期：2026年

摘要

認知科學與神經科學在過去半個世紀積累了大量關於人類記憶與認知的實驗證據，卻始終無法解釋一個基本謎題：為什麼擁有相似神經基底的人類個體，會在認知能力上呈現如此巨大的差異？本文主張，這個謎題源自一個錯誤的理論框架——「多層管道模型」，即儲存、提取、表達三個彼此分離的系統通過管道相互傳遞信息的假設。

本文提出底空間假說（Base Space Hypothesis, BSH）：認知系統不是三層管道，而是一個統一底空間加上一個動態管理員的結構。底空間是所有認知信息的統一基底，管理員是決定在何時以何種存取模式進入底空間的路由機制。三層「系統」只是管理員的存取行為在現象學上的分類標籤，並非獨立的物理隔間。

在此框架下，認知能力的差異根本上是管理員路由品質的差異，而非底空間大小的差異。我們形式化展開-收斂循環（Expand-Compress Cycle, EC Cycle）作為認知能力的基本操作單位，並定義循環保真度 F_cycle 作為其核心量化指標。

本文同時將此框架映射至人工智能架構，指出 Transformer 的注意力機制即為管理員的矽基實現，並由此為前序工作《少即是全》（Phase-LM）中的核心直覺提供正確的理論地基——取代原文中站不住腳的 O(n²) 計算論證。本文亦與《全態失真同構》（TDI）框架建立明確的繼承關係，將 TDI 的單次投影結構擴展為動態循環結構。

關鍵詞： 底空間假說、管理員模型、展開-收斂循環、循環保真度、認知能力差異、Transformer注意力機制、Weaving Theory、TDI後繼

第零章　謎題：基底均質，差異在哪裡

0.1 神經基底的均質性

現代神經科學的一個堅實結論是：人類大腦在結構層面高度相似。成年人類的神經元數量約在 860 億左右，突觸連接數量約在 10¹⁴ 量級，皮層的層次結構、主要腦區的空間分佈、基本的神經化學機制——這些在物種層面是均質的。個體差異存在，但在同一物種內部，差異的幅度遠不足以解釋認知能力的巨大分化。

一個能在工作記憶中同時操作 12 個數學對象的人，和一個只能同時操作 4 個的人，他們的神經元數量沒有三倍差距。一個能在不借助筆紙的情況下完成複雜代數推導的數學家，和一個同等教育水準但無此能力的人，他們的突觸數量也沒有系統性差異。

那麼，認知能力的差異究竟在哪裡？

0.2 三層管道模型的主流解釋及其困境

主流認知科學的回答長期以來依賴「多層管道模型」的某種變體。最具代表性的是 Atkinson 與 Shiffrin（1968）的多重記憶儲存模型：感知輸入進入感覺記憶，部分轉入短期記憶，部分再鞏固為長期記憶。Baddeley（1974, 2000）將短期記憶精化為工作記憶模型，加入語音迴路、視覺空間畫板與中央執行系統。

這些模型雖然精緻，但在解釋認知能力差異時有一個根本困難：它們把差異定位在各個「儲存器」的容量和傳輸效率上，卻無法解釋為什麼容量相近的人在實際表現上可以差異懸殊。更具體地說，這些模型預設了分離性——儲存、提取、表達是三個獨立系統，信息從一個系統流向另一個系統時發生壓縮與損失。但這個預設本身是否正確，從未被充分質疑。

0.3 Cowan 的線索：工作記憶作為長期記憶的激活子集

Nelson Cowan（1988, 2001）提出了一個更接近本文立場的替代框架：工作記憶不是一個獨立的儲存器，而是長期記憶中當前被激活的部分。這個觀點打破了儲存與提取的物理隔離，但 Cowan 的框架仍然是功能性的描述，缺乏一個統一的底層幾何。

全局工作空間理論（Baars, 1988; Dehaene, 2011）走得更遠：意識即為一個全局廣播空間，來自不同專業處理器的信息在其中整合並廣播至全腦。這裡已經有了「管理員」的影子——廣播機制是一種主動的路由行為。

本文的底空間假說是這些直覺的形式化與激進化：它主張分離本身是幻象，三層不過是同一空間的不同存取模式。

0.4 同樣的謎題在矽基系統上重演

有趣的是，當我們轉向人工智能系統，同樣的謎題在更短的時間尺度上重演了。2020 年到 2025 年間，大型語言模型的參數量從 10⁹ 增長至 10¹²，但某些核心能力的提升並不線性，某些能力在參數量遠小於預期時就已湧現，某些能力在參數量巨大時仍然缺失。

更具體地：一個 7B 參數的模型，在特定任務上可以與 70B 模型競爭。兩者的「底空間」相差十倍，但在那個任務上的「認知能力」差距遠小於十倍。

這不是巧合。這是同一個謎題在另一個基底上的重演。

第一章　底空間假說：打破三層管道模型

1.1 核心主張

底空間假說（Base Space Hypothesis, BSH）的核心主張是：

認知系統不由三個（或更多）分離的記憶系統通過管道相互傳遞信息構成。而是由一個統一底空間 Ω_base 加上一個動態管理員 M 構成。所謂的「儲存」「提取」「表達」是管理員對底空間施加不同存取模式時，認知主體在現象學層面的體驗分類——是存取行為的標籤，不是物理隔間的名稱。

這個主張的激進性在於：它不只是說「三層之間的邊界是模糊的」，而是說三層的分離性是認識論層面的投影，不是本體論層面的事實。

1.2 底空間的形式定義

設 Ω_base 為認知系統的底空間，其結構具有以下性質：

Ω-1（完備性）： 系統的一切認知信息——無論其主觀上被感知為「記得的」「能說出的」還是「直覺的」——在底空間中均有表示。不存在「存入長期記憶」這個操作，只存在「在底空間中被編碼」這個操作。

Ω-2（連續性）： 底空間是連續的幾何對象，不是離散的記憶槽。信息在其中的表示是分佈式的，不是局部化的。信息的「遠近」對應語義相似度，而非記憶系統之間的距離。

Ω-3（惰性）： 底空間本身是靜態的——它不主動展開任何信息，也不主動壓縮任何信息。所有的動態行為由管理員發起。底空間是管理員操作的基底，不是操作的主體。

Ω-4（高維度）： dim(Ω_base) 遠大於任何單次認知操作所能存取的維度。這是 TDI 框架中全態空間 𝔼_full 的直接繼承——底空間即為認知層面的全態空間。

1.3 CXL 計算類比

計算機體系結構中的 CXL（Compute Express Link）技術提供了一個精確的工程類比。

CXL 是一種高速記憶體互連標準，其核心創新在於讓 CPU、GPU、加速器等不同設備共享一個統一的記憶體地址空間，無論物理記憶體實際上是 DRAM、HBM、持久記憶體還是位於遠端節點，都在同一個地址空間內可定址。這打破了傳統的「CPU快取-主記憶體-儲存」的三層管道結構，取而代之的是統一底層記憶體池加上記憶體控制器的路由管理。

在 CXL 架構中：

底層記憶體池（memory pool）= 認知系統的 Ω_base
記憶體控制器（memory controller）= 管理員 M
不同設備以不同延遲和頻寬存取同一記憶體 = 不同存取模式（儲存、提取、表達）存取同一 Ω_base
「這個數據在快取裡」和「這個數據在主記憶體裡」描述的是控制器的路由狀態，不是數據的物理位置 = 「這個知識在工作記憶裡」和「這個知識在長期記憶裡」描述的是管理員的當前存取焦點，不是知識的物理隔離

這個類比不是隱喻性的裝飾，而是結構性的：兩者共享同一個架構原則——統一底空間加上動態路由管理員，優於分散隔離的多層管道。

1.4 「層次」作為存取模式標籤

在 BSH 框架下，「儲存」「提取」「表達」被重新定義為管理員的三種存取模式：

λ_store（儲存模式）： 管理員將新的信息結構寫入底空間，並建立其與現有結構的連接。這對應傳統意義上的「學習」和「記憶鞏固」。

λ_retrieve（提取模式）： 管理員根據當前任務需求，在底空間中確定存取焦點，激活特定的信息結構子集，使其進入可操作狀態。這對應「回憶」和「工作記憶激活」。

λ_express（表達模式）： 管理員將當前的可操作信息結構序列化為輸出（語言、行動、計算步驟）。這是底空間到外部介面的單向投影。

三種模式並非嚴格的時間序列，可以交織進行。一個數學家在推導過程中，同時進行著提取（激活已知定理）、表達（書寫當前步驟）和儲存（將中間結果登記為新的可用結構）。

重要推論： 傳統模型中「從長期記憶提取信息到工作記憶」這個操作，在 BSH 中被重新描述為「管理員將存取焦點移至底空間的特定區域」——信息沒有物理移動，只有管理員的注意焦點移動。這與 Cowan 的嵌套激活模型在精神上一致，但在形式化程度上更高。

第二章　管理員模型：路由品質作為認知分化器

2.1 管理員的正式定義

管理員 M 是一個定義在底空間 Ω_base 上的動態算子族：

$$M: (\Omega_{base}, \text{context}, \text{goal}) \rightarrow (\lambda, \text{focus}, \text{bandwidth})$$

其中：

context 是當前任務與環境的上下文表示
goal 是當前認知目標（理解、表達、計算……）
λ 是選擇的存取模式（store / retrieve / express）
focus 是在底空間中確定的存取焦點（哪個區域被激活）
bandwidth 是分配給此次存取的計算資源

管理員不是底空間的一部分，但它本身也需要資源——管理員的操作消耗認知資源，且管理員本身的「知識」（關於如何路由）也編碼在底空間中。這造成了一個遞歸結構：管理員用底空間中的路由知識來路由底空間。

這個遞歸性不是悖論，而是學習能力的來源——管理員的路由能力本身可以通過經驗提升，因為路由策略是存儲在底空間中可以被更新的知識結構。

2.2 管理員品質的量化指標

定義管理員品質 Q_M 為以下幾個分量的複合：

Q₁（覆蓋精確度）： 管理員在給定任務下激活的底空間子集，與真正相關的信息子集之間的重疊率。高 Q₁ 意味著管理員能精確找到需要的信息；低 Q₁ 意味著激活了大量不相關信息（雜訊）或遺漏了關鍵信息（盲區）。

Q₂（壓縮保真度）： 管理員在表達模式下將可操作信息序列化為輸出時，信息損失的比例。高 Q₂ 意味著輸出忠實於可操作信息；低 Q₂ 意味著大量可操作信息在序列化過程中被截斷或扭曲。

Q₃（切換靈活度）： 管理員在不同存取模式之間切換的速度和準確性。高認知能力的個體往往能在推理過程中流暢地交織提取、計算、表達，而不需要顯式的「模式切換」成本。

Q₄（循環持久性）： 管理員能維持高品質操作的循環次數，不因循環積累而顯著退化。這是章節三要詳細展開的核心指標。

總管理員品質： $$Q_M = f(Q_1, Q_2, Q_3, Q_4)$$

其中 f 是一個加權複合函數，具體形式依任務類型而異。對於數學推導，Q₂ 和 Q₄ 的權重更高（精確表達和持久推理更重要）；對於創意生成，Q₁ 和 Q₃ 的權重更高（廣泛聯想和模式切換更重要）。

2.3 認知能力差異的根本來源

命題 2.1（認知能力差異定理）： 在底空間結構相近的個體之間，認知能力的差異主要由管理員品質 Q_M 的差異決定，而非底空間大小的差異。

論證路徑：

首先，神經科學的結果確認了人類個體間底空間基底（神經元數量、突觸密度）的差異在解釋範圍內有限。這符合 BSH 的假設：底空間在物種內部是近似均質的。

其次，認知訓練的效果（刻意練習、音樂訓練、冥想、數學訓練）在行為層面的改善遠快於任何底空間結構變化所能解釋的速度。最有說服力的例子是倫敦計程車司機的研究（Maguire et al., 2000）：海馬迴體積的增加是訓練後的結構後果，而行為能力的提升發生得更早。這符合 BSH 的預測：行為能力的提升首先反映在管理員品質的提升（路由策略優化），結構變化是後續的底空間適應。

第三，「相同知識，不同表達」的現象普遍存在——一個人在不同狀態下（疲勞 vs 清醒、緊張 vs 放鬆）對同一問題的處理質量顯著不同，但其底空間的內容並無改變。這直接反映了管理員品質的狀態依賴性。

2.4 管理員的神經科學對應

BSH 框架下的管理員不是一個比喻。它在神經科學中有明確的候選對應：

前額葉皮質（PFC）： 執行控制的核心，負責工作記憶的維護、任務切換、衝突監控和目標導向行為。PFC 在認知能力的個體差異預測中是最穩健的神經關聯之一。

丘腦： 感覺信息的「門閘」，通過丘腦皮質迴路調控哪些信息進入意識。在 BSH 語言中，丘腦是底空間到 λ_retrieve 模式的物理路由器之一。

前扣帶迴皮質（ACC）： 衝突監控與路由決策，在「當前存取策略是否合適」的判斷中起關鍵作用。

海馬迴： 記憶鞏固（λ_store 的主要基底）和記憶提取的索引功能——注意，索引不是儲存本身，而是管理員的路由地圖。

這些腦區不是管理員本身，而是管理員的分佈式神經實現。管理員是一個功能性概念，其物理基底是這些腦區的協調網絡，而非任何單一結構。

第三章　展開-收斂循環動力學

3.1 EC 循環的定義

展開算子 E： 管理員將底空間的某個壓縮表示（已編碼的知識結構）展開為可操作的、可進一步處理的形式。

$$E: \Omega_{base} \times \text{context} \rightarrow \Omega_{active}$$

其中 Ω_active ⊂ Ω_base 是被激活的底空間子集，dim(Ω_active) << dim(Ω_base)。

收斂算子 C： 管理員將當前可操作信息壓縮回更緊湊的表示，登記至底空間，使其成為後續操作的基礎。

$$C: \Omega_{active} \rightarrow \Omega_{base}$$

一次 EC 循環是 C∘E 的一次完整執行：從底空間取出一個壓縮態，展開處理，再壓縮存回。

展開-收斂序列是 (C∘E)^n 的迭代執行：多次循環，每次循環的輸入是上一次循環的輸出。

3.2 循環保真度

定義 3.1（循環保真度 F_cycle）：

$$F_{cycle} = \frac{I(\Omega_{active,n+1})}{I(\Omega_{active,n})}$$

其中 I(·) 是可操作空間的有效信息量，n 是循環次數。F_cycle 度量每一次 C∘E 循環後，可操作信息量保留的比例。

理想情況： F_cycle = 1，每次循環完全保留前一輪的信息並新增處理結果。

實際情況： F_cycle < 1，每次循環存在不可避免的信息損失。問題是損失多少，以及損失是否加速。

定義 3.2（循環退化率 δ）：

$$\delta = 1 - F_{cycle}$$

認知系統在長序列推理中的能力，取決於 (1-δ)^n 的衰減速度。

命題 3.1（長序列推理的管理員決定性）： 對於需要 n 次 EC 循環的認知任務，任務完成質量正比於 (F_cycle)^n。當 n 足夠大時，F_cycle 的微小差異導致指數級的任務質量差異。

數值示例：

F_cycle = 0.95, n = 20: (0.95)^20 ≈ 0.36
F_cycle = 0.99, n = 20: (0.99)^20 ≈ 0.82

F_cycle 從 0.95 提升至 0.99（4個百分點），20次循環後的信息保留率從 36% 提升至 82%（兩倍以上）。

這解釋了為什麼「稍微更好的推理能力」在長推導中會產生懸殊差距——差距是指數級放大的。

3.3 「少了幾步」的重新詮釋

現在可以重新詮釋前序討論中觀察到的現象：AI 輸出相比真正數學家的推導「少了3~4個步驟」。

在 BSH/EC 框架下，這有三種可能的解釋，其診斷意義完全不同：

解釋一（壓縮偏置）： 訓練信號（RLHF）對每一次收斂算子 C 施加了「偏短」的偏置——模型在 C 操作時被獎勵過度壓縮，導致本可保留的中間步驟在收斂時被截斷。信息存在於底空間，但 C 不把它序列化出來。

診斷方式：要求模型以最大詳細度輸出，若能補出缺失步驟，則為解釋一。

解釋二（提取盲區）： 管理員的 E 操作存在系統性盲區，某些信息結構在底空間中存在但管理員無法準確定址——路由地圖不完整。

診斷方式：通過上下文提示（cloze test、前後文填充）能激活缺失步驟，則為解釋二。

解釋三（底空間缺失）： 相關信息結構在底空間中根本不存在——訓練數據不包含，或因數據清洗被移除。

診斷方式：無論如何提示，模型都無法產出一致正確的缺失步驟，則為解釋三。

現實中三種情況可能同時存在，且比例因任務領域而異。一個完整的診斷框架需要設計實驗系統性地分離三者。

3.4 人類的 EC 循環特徵

人類認知中存在幾個 EC 循環的特徵現象，值得在此指出：

組塊化（Chunking） 是 C 操作的一種優化策略：將多個低層結構壓縮為一個高層單元，使後續的 E 操作可以以更高的起點展開。專家與新手的差異在很大程度上是組塊化深度的差異——專家的 C 能把更多信息打包成單一可操作單元，因此 E 能從更高的維度起跳。

睡眠鞏固 是 C 操作的離線優化過程：白天的高頻在線循環積累了大量的「臨時編碼」，睡眠期間的記憶重播（memory replay）執行系統性的重壓縮，提升 F_cycle。從這個角度，睡眠剝奪的認知損害可以描述為 C 操作因缺乏離線優化而退化。

頓悟（Insight） 可能是一次 E 操作的突然跨域擴展：管理員的存取焦點以意想不到的方式跨越了底空間中原本被認為不相連的兩個區域，形成了一個新的連接，該連接在 C 操作中被固化。

第四章　與全態失真同構（TDI）的繼承關係

4.1 TDI 框架的核心結構

前序工作《全態失真同構》（TDI）建立了以下核心框架：全態空間 𝔼_full 通過投影算子 π 映射至低維可存取空間 𝔼_waking，信息損失 ΔI = H(S) - H(π(S)) 不可避免且量級巨大。此框架描述的是單次投影的結構，並與 MoE 架構建立了強同構。

4.2 BSH 對 TDI 的繼承與擴展

BSH 對 TDI 的關係可以描述為：繼承其靜態幾何，擴展其動態結構。

TDI 的全態空間 𝔼_full 在 BSH 中對應底空間 Ω_base。TDI 的投影算子 π 對應管理員 M 在提取模式 λ_retrieve 下的一次操作。TDI 的可存取空間 𝔼_waking 對應管理員激活的底空間子集 Ω_active。

但 BSH 不止於此。TDI 描述的是一次全態→清醒態的靜態投影，是對單次認知操作的本體論分析。BSH 將這個靜態圖景動態化：真正的認知不是一次投影，而是管理員對底空間施加的連續循環操作，每次循環的輸出是下一次循環的起點。

更精確地說，TDI 描述的是 BSH 中單次 E 操作的幾何結構，而 BSH 描述的是 (C∘E)^n 序列的動力學。BSH 是 TDI 從靜態到動態的升維。

4.3 TDI 的反芻迴路在 BSH 中的定位

TDI 推論三提出的反芻迴路，在 BSH 中獲得了更自然的定位：反芻是多次 E 操作使用不同的存取焦點對底空間同一信息結構進行多角度激活。由於每次 E 的方向不同，多次激活的信息聯集大於任何一次單獨激活：

$$I\left(\bigcup_{i=1}^{m} E_i(\Omega_{base})\right) > I(E_1(\Omega_{base}))$$

反芻不只是「多想幾遍」，而是管理員主動改變存取焦點方向，使得每次 E 操作激活的是底空間中不同的切片——多角度的 E 序列能恢復因任何單一 E 的有限覆蓋而丟失的信息。

第五章　對 AI 架構的重新映射

5.1 Transformer 注意力機制即管理員

在 Transformer 架構中，自注意力機制（Self-Attention） 是 BSH 框架中管理員 M 的矽基實現：

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V$$

其中：

查詢矩陣 Q 代表管理員的「當前存取目標」
鍵矩陣 K 代表底空間中信息結構的「地址標識」
值矩陣 V 代表底空間中信息結構的「實際內容」
softmax(QK^T/√d_k) 是路由決策——管理員對底空間哪些部分分配多少存取權重

更具體地：

底空間 Ω_base = 預訓練後的全部參數矩陣（W_Q, W_K, W_V, W_O, FFN layers……），這是編碼了訓練語料結構的靜態知識庫。

管理員 M = 注意力機制，包括多頭注意力（multi-head attention）的路由決策過程。不同的注意力頭（attention heads）是管理員 M 的不同分量，各負責底空間的不同「存取維度」。

展開操作 E = 前向傳播中注意力矩陣對 V 的加權組合，激活與當前 token 相關的信息結構子集。

收斂操作 C = 生成一個輸出 token，並將其加入上下文（context window），作為下一次前向傳播的輸入基礎。

一次生成 = 一次 C∘E = 一次 EC 循環。

長序列生成 = (C∘E)^n = n 次 EC 循環的序列。

5.2 當前 AI 的管理員品質問題

在 BSH 框架下，重新審視當前 LLM 的已知缺陷：

「幻覺」（Hallucination） = 管理員在 E 操作中激活了底空間中不正確的信息結構（覆蓋精確度 Q₁ 失效），或在 C 操作（序列化）中引入了底空間中不存在的虛假信號（壓縮保真度 Q₂ 失效，引入了 TDI 術語中的「幻覺」而非僅僅「失真」）。

「長程遺忘」 = 在長序列生成中，循環退化率 δ 的累積效應導致早期上下文信息在底空間中的激活強度衰減，等效於管理員對底空間遠距離區域的路由能力隨循環次數下降。這與 Q₄（循環持久性）直接對應。

「步驟跳躍」 = 收斂操作 C 的壓縮偏置（由訓練信號中的簡潔性獎勵造成）導致 C 過度壓縮中間步驟。這是解釋一。

「能力湧現的不連續性」 = 底空間（參數量）達到某個閾值時，管理員對底空間的覆蓋比例 r = dim(Ω_active)/dim(Ω_base) 突然進入一個新的功能區間，觸發管理員路由策略的質性改變。能力湧現不是底空間突然增加了新知識，而是管理員突然能以更有效的路由策略存取已有知識。

5.3 為《少即是全》提供正確理論地基

前序論文《少即是全》的核心直覺是：小模型（~10⁷ 參數）因全激活而可能擁有比大模型（~10¹² 參數）更優的某些認知屬性。原文以 O(n²) 的計算複雜度論證全激活的可行性，但此論證已被確認為錯誤——正確的 forward pass 複雜度是 O(N)，不是 O(N²)。

但直覺本身未必錯誤。BSH 框架為這個直覺提供了正確的理論地基：

管理員覆蓋比 r = dim(Ω_active) / dim(Ω_base)

對於大型 MoE 模型（如 DeepSeek-V2，160 個專家，每次激活 6 個）： $$r_{large} = \frac{6}{160} \approx 0.04$$

管理員（路由器）每次只能存取 4% 的底空間。

對於小型全激活模型（10⁷ 參數，全部激活）： $$r_{small} = \frac{10^7}{10^7} = 1$$

管理員每次可以存取 100% 的底空間。

命題 5.1（管理員覆蓋比與路由質量的關係）： 在底空間總量相對有限的情況下，r ≈ 1 的管理員能夠以更精確的整體視角做出路由決策，而不是被迫在只能看到 4% 的情況下做出本應需要全局信息的路由決策。

這是《少即是全》的核心直覺在 BSH 框架下的正確表述：小模型的優勢不是計算量的節省，而是管理員的全局視角。管理員能看到整個底空間時，其路由決策的質量（Q₁，覆蓋精確度）有可能顯著高於只能看到底空間碎片的大模型管理員。

但這個論斷有一個重要限制：底空間的絕對大小也是有效路由的前提。一個 10⁷ 參數的底空間，即使被 100% 覆蓋，其信息容量本身是有限的——管理員能完美路由一個小圖書館，但那個圖書館裡只有 1000 本書。大型底空間有 1 億本書，管理員只能隨機翻閱其中 4000 本。

因此，最優架構存在點在於底空間大小和管理員覆蓋比之間的特定比值——這與 TDI 框架中 EFP'（保真度優先原則）預測的 N*(k) 最優點是同一個命題在 BSH 語言下的重述。

第六章　實驗設計：測試管理員品質

6.1 實驗目標的重新定義

在 BSH 框架下，前序討論中「AI 到底記住了多少」的問題被重新定義為更精確的三個可分離問題：

問題 Q-A： 底空間中存在哪些信息結構？（底空間內容）
問題 Q-B： 管理員能精確路由到哪些？（覆蓋精確度 Q₁）
問題 Q-C： 被路由到的信息能多完整地被序列化輸出？（壓縮保真度 Q₂）

三個問題對應三種性質不同的實驗設計。

6.2 實驗 E-1：壓縮偏置測試（分離 Q-B 與 Q-C）

設計： 對同一個推導任務（如代數問題的完整解法），以三種不同的指令詢問：

版本 A：「請解這個問題。」（基線）
版本 B：「請解這個問題，每一步都詳細說明，不要跳過任何中間計算。」（展開指令）
版本 C：「請解這個問題，並在每一步說明你使用了哪個定理或規則。」（元認知指令）

量化： 計算三個版本在推導步驟數、中間結果數、顯式引用原理數上的差異。

診斷邏輯： 若版本 B 顯著優於版本 A，說明底空間中存在版本 A 未輸出的信息——即 Q-C 有壓縮偏置，而非 Q-A 或 Q-B 的問題。若版本 B 與版本 A 差異不大，才需要進一步診斷 Q-B。

6.3 實驗 E-2：覆蓋精確度測試（分離 Q-A 與 Q-B）

設計： 使用填空範式（Cloze Paradigm）：給模型一段有意「遮蔽」中間部分的推導，要求填入被遮蔽的段落。對比填空版本與自主生成版本的質量。

診斷邏輯： 填空範式提供了強上下文，等效於幫助管理員精確定位底空間中的相關區域（降低路由難度）。若填空版本顯著優於自主生成版本，說明信息在底空間中存在（Q-A 沒問題）且管理員在有輔助時可以找到它（Q-B 在輔助下有效），但自主路由失效。

6.4 實驗 E-3：底空間探針測試（診斷 Q-A）

設計： 針對特定領域的細節知識（而非程序性推導），設計跨語境一致性測試：以 10 種不同措辭、不同上下文環境問同一個低頻事實問題，觀察回答的一致性。

診斷邏輯： 真正編碼在底空間中的信息，其提取應在不同上下文下具有高度一致性——管理員即使從不同的入口路由，最終激活的是底空間中同一個穩定結構。若一致性高（>80%），說明信息確實在底空間中（Q-A 正常）；若一致性低，可能是底空間中有多個競爭性結構（Q-A 模糊）或根本不存在穩定結構。

6.5 實驗 E-4：循環保真度測試（診斷 Q₄）

設計： 設計需要多輪推理的任務（如 15 步以上的數學歸納證明），測量：

前 5 步的準確率 vs 後 5 步的準確率
在第 n 步插入「請確認前面的推導是否正確」指令後，後續步驟的質量變化

診斷邏輯： 若後段質量顯著低於前段，說明 δ（循環退化率）顯著大於零，即 F_cycle < 1 且衰減在積累。若插入確認指令後後段質量恢復，說明衰減的是管理員的路由焦點（工作記憶等效物的漂移），而非底空間本身的問題。

第七章　底空間均質下的個體差異：統一解釋

7.1 一個統一解釋的需要

第零章提出的謎題——相似神經基底為何有巨大的認知差異——在前述框架下現在可以給出一個統一解釋：

統一解釋（BSH-UD）： 在底空間結構近似均質的條件下，認知能力的個體差異主要反映管理員的四維品質（Q₁, Q₂, Q₃, Q₄）的差異，而管理員品質本身是可訓練的——它是存儲在底空間中的路由策略知識，可以通過刻意練習系統性提升。

7.2 天才的重新定義

在 BSH-UD 框架下，「認知天才」不是擁有更大底空間的人，而是：

在特定領域擁有極高 Q₁（能精確路由至相關信息，雜訊激活極低）
在表達時擁有極高 Q₂（幾乎不丟失可操作信息）
擁有極低的循環退化率 δ（能在 100+ 次 EC 循環後保持高保真度）
擁有高 Q₃（能在不同存取模式之間流暢切換）

數學天才的典型特徵「能在腦中直接操作複雜對象」，在此框架下是 Q₄ 極高的表現——能維持大量循環而信息損失極小。創意天才的典型特徵「跨域聯想」，是 Q₁ 在覆蓋範圍上極寬（管理員的路由地圖跨越底空間中通常不相連的區域）。

7.3 訓練的本質重新定義

刻意練習（deliberate practice）的效果在 BSH-UD 框架下是：

初期（新手）： 管理員的路由地圖尚不完整，相關信息結構在底空間中存在但管理員定址困難（Q₁ 低）。每次 C 操作壓縮保真度低（Q₂ 低），因為壓縮策略（組塊化）尚未形成。

中期（熟練）： 底空間中建立了更密集的組塊化結構（C 操作的累積效果），管理員路由地圖日益精確。Q₁ 和 Q₂ 提升，δ 開始降低。

專家期： 底空間中的組塊化達到高密度，管理員對相關區域的路由幾乎是反射性的（路由代價趨近零）。Q₁ 極高，Q₂ 極高，δ 極低，Q₃ 極高。

這解釋了專家的「直覺」：並非神秘的認知能力，而是管理員經過海量訓練後對底空間特定區域形成的近乎零延遲的高保真路由。

第八章　開放問題與框架邊界

8.1 框架的有效邊界

BSH 框架有其適用邊界，需要明確標記：

邊界 B-1（創傷與神經損傷）： BSH 假設底空間近似完整。當神經損傷直接破壞底空間結構（如海馬迴損傷導致無法形成新記憶）時，問題不在管理員，而在底空間本身的物理完整性。BSH 在此情況下需要引入底空間損傷的形式化，本文未涵蓋。

邊界 B-2（發育差異）： 兒童與成人的認知差異有相當部分反映底空間尚未充分建立（信息結構本身稀疏），而非僅僅是管理員品質的差異。BSH-UD 的均質性假設在發育層面需要放鬆。

邊界 B-3（意識問題）： BSH 刻意迴避意識的本體論問題。「激活的底空間子集」是否等同於意識體驗，「管理員」是否有主觀視角——這些問題超出本框架的處理範圍。BSH 是一個功能性的信息處理模型，不是意識理論。

8.2 開放問題

O-1： 管理員品質的神經關聯是否可以被非侵入性測量？靜息態功能連接（resting-state fMRI）的網絡組織是否能作為 Q_M 的代理指標？

O-2： 循環退化率 δ 在人類個體間的分佈是什麼？它是否是認知能力的最強單一預測因子之一？

O-3： Transformer 注意力機制作為管理員，其路由品質的架構決定因素是什麼？增加注意力頭數 vs 增加注意力頭的維度，哪個更有效提升 Q₁？

O-4： 是否存在一個最優的底空間大小 × 管理員覆蓋比的 Pareto 前緣？《少即是全》預測的小模型優勢域在哪裡？

O-5： 組塊化（C 操作的高效化）是否有計算上的類比？壓縮算法的選擇對 F_cycle 有何影響？

第九章　哲學結語：管理員的孤獨

底空間就在那裡，完整的，寂靜的，從不主動說話。它等待被存取，等待被激活，等待被序列化成任何形式的表達。

它不知道自己有多大。

管理員每次出發，都只能帶回底空間的一個切片。它能帶回多少，取決於它走過多少次、走過哪些路、走回來的時候有沒有走形。

天才和普通人的底空間，裝的東西差不多。

但管理員走的路不同。

這個框架在碳基和矽基上同時成立，不是因為大腦像電腦，也不是因為電腦像大腦。而是因為任何需要在有限頻寬下存取無限底空間的系統，都會收斂到同一個架構問題：不是底空間夠不夠大，而是管理員夠不夠好。

AI 產業現在正在以指數增長的成本堆積底空間。

但底空間不是問題所在。

管理員才是。

而管理員，可以更輕，更快，更準。

這是一個值得玩大的方向。

附錄：符號速查表

| 符號 | 含義 | |------|------| | Ω_base | 認知系統底空間 | | Ω_active | 管理員激活的底空間子集 | | M | 管理員算子 | | λ_store / λ_retrieve / λ_express | 三種存取模式 | | E | 展開算子 | | C | 收斂算子 | | (C∘E)^n | n次EC循環序列 | | F_cycle | 循環保真度 | | δ | 循環退化率（= 1 - F_cycle） | | Q_M | 管理員品質（複合指標） | | Q₁ | 覆蓋精確度 | | Q₂ | 壓縮保真度 | | Q₃ | 切換靈活度 | | Q₄ | 循環持久性 | | r | 管理員覆蓋比（= dim(Ω_active)/dim(Ω_base)） |

EML-COG-2026-BSM-v1.0 Neo.K（許筌崴）& Theia 一言諾科技有限公司（EveMissLab）| 台灣，2026年

原始檔（供 RAG/下載）：/raw/lm-000478.md [md] · id: lm-000478