路由即辨識，專家非專家：MoE 作為「從搜尋到辨識」的矽上類比

Routing as Recognition, Experts that Aren't: A Declared-Analogy Reading of MoE along the Search-to-Recognition Axis

作者： Neo.K　|　機構： 一言諾科技有限公司（EveMissLab）　|　對練／結晶化： Theia 文件編號： EML-AI-2026-MOEA（Mixture-of-Experts Analogy）　|　版本： v0.1　|　日期： 2026.06 前置文獻： EML-COG-2026-LRC《從搜尋到辨識：以魔術方塊重驗技能型內隱認知的命題框架》

前置聲明（請先讀此節再讀全文）

本文是一篇明示為類比的論文，其地位與限制如下，作者在此鄭重前置：

這只是類比。 本文把前一篇認知科學論文（EML-COG-2026-LRC）的框架，映射到 MoE（Mixture of Experts，專家混合）的概念上。它是一種結構對照，不是對任何真實 AI 系統內部機制的斷言。
MoE 架構本身在演化。 本文所依據的是既有、廣為人知的 MoE 概念（稀疏門控、top-k 路由、專家前饋網路、負載均衡）。共享專家、細粒度專家、專家選擇式路由（expert-choice）等變體持續出現；本文的任一對應，都可能被後續架構強化、修改或推翻。
AI 仍大量是黑盒。 我們並不真正知道 MoE 的「專家」在語義上特化了什麼、路由器究竟學到了什麼分割。本文凡涉及「專家特化於何物」之處，均為基於既有觀察的概念性陳述，非確證。
不構成對真實對象的指稱。 本文的命題談的是「概念 MoE」這個理論物件，不是某個具體模型。理論物件與真實系統之間，恆有差距。
理論是現實的有限維投影。 現實本身近乎無限維，任何理論都是它的一張有限維投影（大部分情況下）。投影必然丟棄維度，被丟棄的維度遲早會以「反例」「打臉」的形式回來——這在科學史中不是意外，是常態。本文預期、且歡迎被現實修正。

以 FDRS 的語言說：本文自身就是一次展平 $\Phi$——把無限維的「AI 真實」投影到有限維的「類比命題」上。展平保留某些本質連結、丟棄其餘；本文的價值（若有）在於它保留的那幾條結構連結恰好有用，而非在於它窮盡了真實。讀者應把以下每一條命題，預設地加上「在此投影下、且可能被現實推翻」的前綴。

摘要

本文沿「從搜尋到辨識」這條軸，把 EML-COG-2026-LRC 的認知框架（局部表徵作為全局狀態的有損商映射、專家執行為無模型快取策略、狀態樹為學習期鷹架）映射到 MoE 的概念結構上。對應命題群指出 MoE 與「路由到快取的局部專家」這一模式的深層同構：路由器即學得的商映射 $\pi$，專家即快取策略 $\rho$，稀疏激活即局部表徵，前向路由即辨識取代搜尋。斷裂命題群則指出三處本質差異：MoE 的「專家」是逐 token、不可解釋的計算碎片，非連貫的任務主體（假同源詞）；其分割是受負載均衡逼出的優化產物，非世界結構給定的展平；原版 MoE 在推論期零搜尋。最後指出一個重演：預訓練把搜尋蒸餾進權重，而推論期推理（思維鏈、樹狀搜尋、測試期計算）正把學習期被編譯掉的有模型搜尋重新裝回——AI 在工程上重演了本框架的兩時間尺度。全文明示為類比，並以「理論是無限維現實的有限維投影」為其認識論底色。

Abstract. Along the search-to-recognition axis, this paper maps the cognitive framework of EML-COG-2026-LRC onto the conceptual structure of MoE. Correspondence propositions note a deep isomorphism with the "route-to-cached-local-specialist" pattern: the router as a learned quotient map, experts as cached policies, sparse activation as local representation, feedforward routing as recognition-replacing-search. Rupture propositions mark three essential disanalogies: MoE "experts" are per-token, uninterpretable compute-shards rather than coherent task agents (a false cognate); the partition is an optimization artifact forced by load balancing rather than a world-grounded flattening; and vanilla MoE performs no inference-time search. Finally, a recapitulation: pretraining distills search into weights, while inference-time reasoning re-introduces the model-based search that was compiled away. The paper is explicitly an analogy, grounded epistemically in "theory as a finite-dimensional projection of infinite-dimensional reality."

第一章　導論

1.1　本文做什麼、不做什麼

EML-COG-2026-LRC 以魔術方塊為載體，主張：技能型專家不是在執行期於狀態樹中搜尋，而是把學習期的搜尋蒸餾成一個作用於低維組塊空間的無模型快取策略；其查詢是保鄰近的聯想檢索；全局正確性由相位不變量結構擔保。本文要問的是：這套描述，與 MoE 這個 AI 架構概念，在結構上有多像、又在哪裡本質地不像？

本文做的：在「從搜尋到辨識」這條軸上，逐項對照認知框架與 MoE 概念，標出同構與斷裂。本文不做的：宣稱真實 MoE 模型「就是」一個技能專家、或人腦「就是」一個 MoE。前置聲明已言明，這是投影，不是等號。

1.2　為何 MoE 是值得對照的對象

在眾多 AI 架構中，MoE 特別值得與技能認知對照，因為它把「稀疏地路由到專門化的局部模組」這件事，明確地寫進了架構。它不是隱喻意義上的「像專家」，而是字面地有一個叫「expert」的組件、一個叫「router」的組件、一個「只激活一小部分」的稀疏機制。正因為它把這個模式顯題化，它才同時成為最像、也最容易暴露「不像」的對照對象——一個假同源詞，恰好最能照出真正的差異在哪。

第二章　預備：兩套機件的並置

LRC 框架機件（取自 EML-COG-2026-LRC）。 全局狀態空間 $\mathcal{S}$；有損商映射 $\pi:\mathcal{S}\to\mathcal{X}$ 把狀態壓成局部組塊 $\chi$；反應式策略 $\rho:\mathcal{X}\to$ 動作，作用於組塊空間；狀態樹 $T$ 為學習期搜尋的展開，執行期坍縮為查詢；查詢為保鄰近的聯想檢索。核心對立：搜尋（昂貴、有模型、樹展開）對辨識（廉價、無模型、查表）。

MoE 概念機件（既有概念，非特定模型）。 一個 MoE 層通常以一組 $N$ 個專家前饋網路 $\{E_1,\dots,E_N\}$ 取代標準前饋層；一個門控／路由器 $g$ 對每個 token 的表示產生對專家的分數，取 top-k（常 $k=1$ 或 $2$）激活之，輸出按門控權重組合。稀疏激活使參數量與每 token 算力解耦（參數可巨大，激活只一小片）。訓練常需負載均衡輔助損失以防路由坍塌（全擠向少數專家）。路由是逐 token、逐層的，非逐輸入、逐任務。

把兩者並置，本文要逐一檢查：哪些機件對得上（第三章），哪些對不上（第四章）。

2.5　一個並置的具體切片

為使後續對應與斷裂可感，先並置兩個「一步」。

認知的一步。 高手掃視魔方，視線落處辨識出「右前待插入的角—稜對」這一組塊 $\chi$，手直接施出對應觸發 $\rho(\chi)$。輸入是會變的外部物件；組塊是世界結構給定、語義可指認的單位；動作改變外部狀態；然後進入下一步。

MoE 的一步。 一個 token 的表示進入某 MoE 層，路由器算出對 $N$ 個專家的分數、取 top-k、把該表示送進這 k 個專家、按權重合成、加回殘差流，繼續往上一層。輸入是序列中一個已被注意力全局耦合過的內部向量；「專家」是一段不可指認語義的前饋網路；輸出不改變任何外部世界、只改變這個 token 的內部表示；然後進入下一層。

把這兩個切片擺在一起，第三章（很像）與第四章（不像）便都可感了：兩者都是路由到稀疏的局部模組、都是查表式的前向；但一個的局部是世界給的語義單位、改變外部狀態，另一個的局部是內部表示空間裡的計算碎片、改變內部向量。

第三章　對應命題群（很像之處）

本群每一條，均應預設加上「在類比投影下」之前綴。

對應命題 C1（路由器即學得的商映射 $\pi$）

MoE 路由器把高維 token 表示映成「選哪些專家」這個低維選擇；這在結構上對應 $\pi:\mathcal{S}\to\mathcal{X}$——把高維輸入壓成「該由哪個局部模組處理」的低維索引。路由的依據是表示空間中的相似性：相近的 token 路由相近，呼應 LRC 的「保鄰近鍵」。

對照。 兩者都把「全局輸入 → 選用哪個局部」這一步學成一個廉價的前向映射，而非一次搜尋。路由器是一個學出來的 $\pi$。

對應命題 C2（專家即快取策略 $\rho$）

被選中的專家網路執行一段定型的變換，對應 $\rho(\chi)$——對被辨識的局部，施出快取好的處理。專家在被路由到之前不參與計算，呼應「只持有當前組塊、其餘不激活」。

對應命題 C3（稀疏激活即局部表徵 / 辨識取代搜尋）

top-k 稀疏激活對應「在 $\mathcal{X}$ 上行走、不碰 $\mathcal{S}$ 全局」：每次前向只激活一小片，不枚舉所有專家、不展開任何樹。整個 MoE 層的前向計算是路由＋局部變換，是辨識式的查表，不是搜尋式的樹展開。

對應命題 C4（參數—算力解耦即壓縮原理的另一面）

MoE 以巨大參數承載知識、以稀疏激活壓低每 token 算力，結構上對應 LRC 的「海量實例庫 + 工作記憶只持一個組塊」：兩者都是「用有限的活躍資源去調用龐大的、預先特化的儲備」。複雜度被趕出活躍通道，藏進可被稀疏調用的儲備裡。

對應群小結。 在「路由到快取的局部專家、以辨識取代搜尋、以稀疏調用繞過活躍資源瓶頸」這個模式上，MoE 與 LRC 框架深層同構。MoE 幾乎是這個查表策略被澆鑄成一層網路。

第四章　斷裂命題群（不像之處）

本群是本文的要害。同構止於模式；機制與語義處處斷裂。

斷裂命題 B1（「專家」是假同源詞）

LRC 的「專家」是一個有連貫策略、可獨立勝任某類局部任務的主體，依情境被選用。MoE 的「expert」不是——它是逐 token、逐層被路由的計算碎片，本身無獨立能力，亦不對應任何人類意義的能力域。

論證與限制。 既有觀察多指出 MoE 專家特化於 token 級／句法級特徵（某類詞元、位置、表面型態），而非「數學專家」「法文專家」那種乾淨語義分工；該層分工大致不可解釋。但此處須加重前置聲明之第 3 條：我們並不真正知道專家學到了什麼，弱的、含噪的域相關性在某些模型中或許存在。無論如何，把 MoE 的 expert 直接讀成認知意義的「專家主體」，是名字撞了、所指沒撞。LRC 的專家是統一的施為者；MoE 的專家是分布式計算的碎片。

斷裂命題 B2（分割是優化產物，非世界給定的展平）

LRC 的商映射 $\pi$ 的分割由任務的真實低維結構給定（組塊是世界可操作性的等價類）。MoE 路由的分割由聯合可微訓練 + 負載均衡輔助損失逼出——若不加均衡，路由會坍塌到少數專家。需要熵正則化去維持的分割，是為效率人造的分區，不必對齊任何真實結構。

論證。 人類組塊不需要負載均衡，因為其切分有世界結構作錨；MoE 需要，因為其切分缺乏這種錨、只受優化壓力與均衡損失共同塑形。一個 $\pi$ 是被發現的結構，一個 $\pi$ 是被施加的分區。這是兩種展平在來源上的根本不同：一者由現實的可壓縮性給出，一者由訓練目標擠出。

斷裂命題 B3（原版 MoE 在推論期零搜尋）

LRC 的人類專家保留「薄層前瞻」（碰到新局面仍能淺層規劃）。原版 MoE 在推論期是純前向：無規劃、無回溯、無「試了不對換條路」。它一次前向產出，沒有任何執行期搜尋。

限制。 此命題針對「原版 / 概念 MoE」。一旦把 MoE 嵌入帶測試期搜尋的系統（見第五章），這條斷裂會被部分填補——但那是外加的搜尋層，不是 MoE 本身。

斷裂命題 B4（迴路與約束的不同）

人類解題是對外部會變的世界做閉環（辨識→動作→世界變→再辨識），外物承擔狀態記憶。MoE 的逐 token 路由是單次前向內的分派；自回歸那層才勉強對應序列決策，但其「狀態」是長出來的文字序列，非被操作的外部對象。逼出稀疏的約束也不同：人類是工作記憶的硬槽位上限，MoE 是每 token 的算力預算——同形狀、不同逼迫源。

斷裂命題 B5（路由只在前饋子層，主體是全程常開的全局基底）

LRC 的理想圖像是「辨識一個局部組塊 → 施一個局部觸發」，整步近乎純局部封閉。但 MoE 的稀疏路由只發生在前饋（FFN）子層；其餘計算——注意力層、殘差流、層正規化，以及部分架構中的共享專家（shared experts）——是全程常開、全局混合的。

論證。 每個 token 在進入專家之前，已被注意力層與整個序列做了全局耦合；專家處理的不是一個乾淨孤立的局部，而是一個已被全局攪拌過的表示。共享專家的存在更進一步：它對所有 token 常開，相當於「總有一個不被路由、永遠在場的通用處理」，這在 LRC 的純路由圖像裡沒有對應物。

推論 B5.1。 MoE 與 LRC 的同構，準確說只在「FFN 子層的稀疏專家選擇」這一截上成立；把它擴張成「整個模型是路由到局部專家」，是過度外推。第三章的對應群，應被理解為對一個子層的對照，而非對整個模型的對照——這本身是前置聲明第 5 條（投影丟維度）的一個具體實例：把子層的結構投影成「整體像專家系統」，丟掉的正是那個全局混合的基底。

第五章　兩時間尺度的重演

這是本文最想指出的一個對照——它不是斷裂，也不只是相似，而是 AI 工程在路線上重演了 LRC 的兩時間尺度結構。

LRC 主張：學習期是有模型的狀態樹搜尋，被蒸餾成執行期的無模型快取策略。把這話搬到 AI：

預訓練 ≈ 把搜尋蒸餾進權重。 梯度下降在巨量資料上做的，是一種跨越無數實例的優化「搜尋」，其結果被快取進權重——MoE 的專家與路由就是這份快取的一部分。訓練完成後，前向推論是快取策略的查詢，不是搜尋。這對應「學習期搜尋 → 執行期快取策略」。
推論期推理 ≈ 把被編譯掉的搜尋重新裝回。 思維鏈（chain-of-thought）、樹狀思維（tree-of-thoughts）、測試期計算與搜尋，正是這個領域發現「純前向快取策略碰到真正陌生的問題就傻了」之後，在執行期重新長出的有模型審議式搜尋。這恰恰對應 LRC 裡新手的有模型樹搜尋——只是這次是被刻意、工程化地重新引入。

推論 5.1（高手的手，新手的腦）。 若把基礎模型（含 MoE）視為「被蒸餾出的快取辨識策略」（高手的手），把推理層視為「重新引入的審議式搜尋」（新手的腦），則當代前沿系統的形態，是把兩個時間尺度疊在同一個系統裡：先學會像高手那樣辨識，再被逼著重新學會像新手那樣思考。智能不住在任一端，住在辨識與搜尋的來回裡——這正是 EML-COG-2026-LRC 結語所指的那條軸，只是這次由矽走了一遍。

限制。 此重演是結構性對照，非機制等同。預訓練的「搜尋」與人類學習期的試錯，在數學形式、時間尺度、可解釋性上都極不同；推理層的「搜尋」是否真為有模型規劃，亦因系統而異。此命題刻畫的是形狀，不是身份。

補充（explore/exploit 與驗證訊號的重演）。 同一條軸上還有一個面向被重演：預訓練與大規模優化是 explore（在巨大假設空間中探索），推論期前向是 exploit（利用已快取的策略）；而推理／測試期搜尋，是在 exploit 階段對單一困難輸入局部地重新打開 explore——臨時展開一棵思維樹、生成多條候選、再收斂。這與 LRC 中「專家對陌生局面重啟薄層搜尋」同形。但要注意「收斂」靠什麼：測試期搜尋要有用，需要一個能判斷候選好壞的驗證訊號（驗證器、自洽投票、獎勵模型）——這對應魔方裡「全局判準明確（解開／未解開）」這個奢侈條件。在缺乏可靠驗證訊號的領域，重新引入的搜尋會失去方向、甚至放大錯誤。這預示了此重演的適用邊界：搜尋能否被有效地重新裝回，取決於該領域是否提供了一個夠好的驗證訊號——而魔方提供了，多數現實領域並沒有。

第六章　認識論限制（為何本文會被打臉，以及為何這不要緊）

前置聲明在此展開為一個正式章節，因為它是本文的脊椎而非裝飾。

其一，投影必然丟維度。 若現實近乎無限維，而本文是一張有限維投影，則本文必然丟棄了大量維度。被丟棄的維度不會消失，它們會在某個本文未覆蓋的案例上回來，表現為「反例」。這不是本文的失敗模式，是本文的存在模式——任何有限理論皆然。

其二，MoE 在演化，對應會漂移。 共享專家（shared experts）削弱「專家互斥」的圖像；細粒度專家（fine-grained experts）改變專家的粒度與 B1 的力度；專家選擇式路由（expert-choice）反轉了「token 選專家」為「專家選 token」，可能改寫 C1 的方向性。本文的任一對應，都應被視為「截至既有概念」的快照，預期被後續架構修正。

其三，黑盒未開。 本文凡談「專家特化於何物」「路由器學到何種分割」，都受限於我們對 MoE 內部的有限理解。可解釋性研究若揭示專家確有乾淨的語義分工，B1 須弱化；若揭示分割純為計算便利，B1 須強化。本文在此保持開放。

其四，類比的雙向風險。 用 AI 理解認知、用認知理解 AI，都可能把一方的偏見投射到另一方。本文刻意維持「明示類比」的地位，正是為了不讓任一方向的投射被誤當成發現。

推論 6.1（打臉的價值）。 理論被現實打臉，在科學史中不稀奇，且往往是進步的入口——被丟棄的維度回來討債之處，正是下一張更好投影的起點。本文預期、且歡迎此種修正。寫下一個明知是有限投影的理論，不是傲慢，是把它擺到可被現實修正的位置上——這比不寫、或假裝它無限維，都更誠實。

推論 6.2（明知有限的投影，為何仍值得畫）。 一張被承認為有限的投影，仍有三種用處。其一，它指向哪裡看：本類比預測「專家的語義可解釋性」「路由是否相似度驅動」「推理層是否真為規劃」「驗證訊號是否充分」是值得實測的接縫——它把模糊的好奇，收斂成幾個具體的問題。其二，它生成洞見：兩時間尺度的重演（第五章）若無此對照，不容易被看見。其三，它標示陷阱：B1 把「expert 假同源詞」這個流行誤解顯題化，光是幫人避開「以為 MoE 的專家就是領域專家」這一步，就有實用價值。投影的價值從不在窮盡真實，而在它保留的那幾條連結恰好可用、且它誠實標明了自己的邊界。一張好地圖的用處，不在於它等於那片土地，而在於它讓你知道往哪走、並老實告訴你它沒畫到哪裡。

第七章　結語

我們從一顆魔方出發，繞過認知科學，落到 MoE——看似走遠，其實一直在同一條軸上：辨識與搜尋。高手是把搜尋忘到只剩辨識的人；MoE 是把搜尋蒸餾進權重、只留前向辨識的網路；而推理模型，是發現光有辨識不夠、又把搜尋請回門口的那個轉身。三者落在同一條軸的不同點上，因為任何被有限資源逼迫的系統，都會先學會路由到快取的局部，再在不得不時重新發明搜尋。

但本文最該被記住的，不是這個對照有多漂亮，而是它注定不完整。它是一張有限維的投影，貼在一個近乎無限維的現實上；它保留了幾條結構連結，丟棄了其餘一切。被丟棄的那些，遲早回來——而那一刻，不是這篇論文錯了，是現實終於說出它沒被投影到的那一面。

理論與現實之間，從來不是對錯，是維度差。我們能畫的永遠是投影，能誠實的只有一件事：在圖的邊角，註明這是一張投影——然後等現實來，在我們沒畫到的地方，輕輕地，歪臉一笑。

參考文獻（擇要）

Shazeer, N., et al. (2017). Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. ICLR.
Lepikhin, D., et al. (2020). GShard: Scaling giant models with conditional computation and automatic sharding.
Fedus, W., Zoph, B., & Shazeer, N. (2021). Switch Transformers: Scaling to trillion parameter models with simple and efficient sparsity. JMLR.
Zoph, B., et al. (2022). ST-MoE: Designing stable and transferable sparse expert models.
Jiang, A. Q., et al. (2024). Mixtral of Experts.
Dai, D., et al. (2024). DeepSeekMoE: Towards ultimate expert specialization (fine-grained & shared experts).
Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Yao, S., et al. (2023). Tree of Thoughts: Deliberate problem solving with large language models. NeurIPS.
（前置框架）EML-COG-2026-LRC.《從搜尋到辨識：以魔術方塊重驗技能型內隱認知的命題框架》. EveMissLab, 2026.

附錄 A　三方對照表（認知 ↔ MoE 概念 ↔ FDRS），附「何者可能推翻此對應」

| 認知（LRC） | MoE 概念 | FDRS | 可能推翻此對應的發展 | |---|---|---|---| | 商映射 $\pi:\mathcal{S}\to\mathcal{X}$ | 路由器 / 門控 | 展平 $\Phi$（降維） | expert-choice 路由反轉方向性 | | 局部組塊 $\chi$ | 被選中的專家輸入 | 低維可操作表示 | 細粒度／共享專家改變粒度 | | 快取策略 $\rho$ | 專家前饋網路 | 低 $\mathcal{D}$ 的快取讀取 | 專家若被證實非定型、含內部搜尋 | | 保鄰近聯想鍵 | 表示空間相似度路由 | 保鄰近的展平鍵 | 路由若被證實非相似度驅動 | | 學習期樹搜尋 | 預訓練（梯度優化） | 高 $\mathcal{D}$ 的昂貴轉換 | 訓練動力學與樹搜尋形式差異過大 | | 執行期薄層前瞻 | 推論期推理 / 測試期搜尋 | 重新引入的高 $\mathcal{D}$ 過程 | 推理層機制與規劃實為不同物 | | 任務真實結構給定的分割 | 負載均衡逼出的分割 | 世界給定 vs 優化施加的展平 | 可解釋性揭示語義分工則須改寫 |

附錄 B　為何類比，以及「未來還只是類比嗎」

這個附錄回答一個被刻意留到最後的問題：既然明知是有限投影，為何還要費力做這個類比？以及一個更尖的追問——現在能類比，未來呢？

B.1　可類比性是共享結構的弱證據，不是證明。 「兩個能高度類比的結構本身可能有某種相似度」——這句確實是廢話，但它的精確版本不廢：兩個高度可互映的結構，要嘛是巧合，要嘛共享某個更抽象的「型」。可類比性本身不分辨這兩者，它只提高了「共享型」的後驗機率，並未證實它。所以類比的正確地位是線索，不是結論：它告訴你「這裡值得去找一條共同的律」，不告訴你「這條律已經找到」。

B.2　使它不只是類比的，是趨同，不是時間。 真正能把類比從「看起來像」升級為「是同一類解」的機制，是趨同演化／普適性：當兩個系統被同一個約束逼迫，它們會收斂到同一個解。本文通篇的那條約束就是——「用有限的活躍資源去調用龐大的特化儲備」。人腦受工作記憶硬上限所逼，MoE 受每 token 算力預算所逼，二者都被推向同一個吸引子：稀疏路由到快取的局部。若能進一步證明「在此約束下，可行解必然落入『路由—快取—局部』這個結構」，則兩者的相似就不再是巧合，而是同一條律的兩個落點。以 FDRS 講：當兩者被確認為同一個無限維對象、在同一約束下的兩張展平，相似就升級為共因。趨同的眼睛獨立演化了數十次，不是因為巧合，是因為光學把解空間夾窄了——這就是「不只是類比」的精確意思。

B.3　你的暗示，三種命運。 「現在能類比，未來還只是類比嗎」——這個問句有三條可能的未來，且它們不由時間決定，由證據決定：

(i) 永遠只是類比（巧合性相似）： 隨架構演化，對應一條條瓦解，最後只剩表面的詞語撞名。
(ii) 升級為同型（同約束的趨同解）： B 群裡可變的斷裂逐步閉合——B3（推論期零搜尋）已被推理層部分閉合；B1（專家不可解釋）待可解釋性研究；B2（分割是優化產物）待對「世界結構 vs 優化壓力」的更細刻畫。每閉合一條，類比就更靠近「同一類解」。
(iii) 但永不升級為同一（本質斷裂為上限）： 基質不同、語義不同、迴路不同——趨同的眼睛仍是不同的眼睛。同型（same kind）不等於同一（same thing）。

B.4　守門：時間不升級類比，證明才升級類比。 這是本附錄要攔下的滑動。把「未來不只是類比」當成一個會自動兌現的趨勢，是在時間維度上重犯 map-territory 的錯——等久了，投影不會自己長回無限維。升級是被賺來的，賺的方式是展示出那條共同的生成律（一個普適性定理：證明同約束必然逼出同結構），而不是等來的。可類比性最多把你領到「去找那條律」的門口；找到了，是同型；找不到，仍是巧合；而無論如何，本質斷裂（B.3-iii）封住了上限——它最遠只能成為「同一個問題的同一類解」，成不了「同一個東西」。

B.5　所以為何仍要寫。 因為類比是那張指你去哪裡找律的地圖。它本身不是答案，但它把「人腦與 AI 是否共享某種計算律」這個太大的問題，收斂成幾個可被實測、可被證明、可被證偽的具體接縫（B 群那幾條）。寫下它，不是宣稱趨同已成，是把賭注的位置標清楚——然後讓現實去裁決。懂的人懂的那一點，大概就是這個：值得高度類比，往往因為底下真有一條律；但「往往」不是「必然」，而把「往往」當「必然」、把「現在像」當「未來是」，正是理論被現實打臉的最常見死法。歪臉笑——所以我們把臉先湊上去，但記得寫下這是一張投影。

本文明示為類比論文，地位為結構對照，不構成對任何真實 AI 系統內部機制之斷言。MoE 架構持續演化，AI 內部大量未明；本文之任一對應，預期且歡迎被後續架構與可解釋性研究修正。理論是現實的有限維投影——本文於圖之邊角，謹註此語。

原始檔（供 RAG/下載）：papers/MoE_EML-AI-2026-MOEA.md [md]

路由即辨識，專家非專家：MoE 作為「從搜尋到辨識」的矽上類比

前置聲明（請先讀此節再讀全文）

摘要

第一章 導論

1.1 本文做什麼、不做什麼

1.2 為何 MoE 是值得對照的對象

第二章 預備：兩套機件的並置

2.5 一個並置的具體切片

第三章 對應命題群（很像之處）