循環相位模型中的注意力熵與記憶同步：從高不確定搜索到低熵提取的計算框架

作者：Neo.K 機構：EveMissLab / 一言諾科技有限公司版本：Public Draft v0.1 類型：公開總論版 / 理論框架 / 計算認知模型日期：2026 7月

摘要

本文提出一個關於注意力熵、記憶同步與有效計算難度的理論框架。本文的出發點是：在語言理解與智能推理中，系統面對「完全陌生任務」與「高度熟悉任務」時，所需的計算型態並不相同。前者更接近高不確定搜索，後者更接近低熵記憶提取。

傳統注意力熵通常被定義在有限 token 序列的注意力分佈上，主要描述模型在不同 token 之間分配權重的分散程度。然而，這種定義未必能充分描述兩種極端狀態：第一，當系統對任務缺乏先驗知識時，搜索空間可能急劇擴張，注意力熵所反映的不只是 token 分佈，而是整個解釋空間的不確定性；第二，當系統面對高度熟悉的輸入時，它可能並不需要重新搜索，而是直接從穩定記憶中提取答案，此時計算更接近記憶同步與吸引子激活。

本文將這兩種狀態稱為「高熵搜索態」與「低熵記憶態」。在高熵搜索態中，系統需要生成候選解釋、探索可能結構、檢查因果連貫性，因而呈現較高有效計算難度；在低熵記憶態中，輸入與既有記憶結構高度匹配，系統可透過記憶吸引子快速收斂，因而呈現較低有效計算難度。

本文進一步提出「規則演化速率」作為理解任務難度的重要變量。若任務規則穩定，例如算術、棋類或固定形式系統，知識可以長期累積，系統有機會從搜索態逐漸轉入記憶態。若任務規則持續變動，例如社會預測、金融市場或快速演化的文化語境，既有知識容易折舊，系統即使經過訓練，也可能長期維持較高不確定性。

本文不主張解決 P vs NP 問題，也不將注意力熵直接等同於形式計算複雜度。本文主張的是：注意力熵、記憶同步與規則演化速率，可以共同構成一個描述「有效計算難度」的中層模型。此模型可用於解釋為何熟悉任務反應極快、陌生任務需要搜索，以及為何某些表面複雜的穩定任務可被學會，而某些表面簡單的動態任務卻長期困難。

關鍵詞

注意力熵、記憶同步、相位模型、循環流、記憶吸引子、高熵搜索、低熵提取、有效計算難度、規則演化速率、可解釋 AI

一、問題背景：注意力熵不足以描述搜索與記憶的差異

在 Transformer 類模型中，注意力熵通常用來描述注意力權重分佈的分散程度。若注意力高度集中於少數 token，熵較低；若注意力分散於許多 token，熵較高。

簡化而言，給定注意力分佈：

A = (a_1, a_2, ..., a_n)

其熵可表示為：

H(A) = -\sum_{i=1}^{n} a_i \log a_i

這個定義對分析局部注意力分佈有價值，但它不一定足以描述更深層的計算差異。

例如，以下兩種情境在一般注意力熵框架下容易被混淆：

情境一：系統不知道答案，需要在大量可能解釋中搜索。
情境二：系統已經知道答案，只是從記憶中提取。

人類看到：

1 + 1 =

通常不會重新推導自然數公理，也不會在所有可能答案中搜索，而是直接從穩定記憶中提取「2」。這種過程的計算型態與面對完全陌生符號序列時截然不同。

例如：

Blicket dax wug florp

若系統沒有任何語義、語法或文化先驗，它需要生成多種可能解釋，甚至無法判斷哪些候選解釋更合理。此時，問題不只是「注意力分配給哪個 token」，而是「整個解釋空間尚未穩定」。

因此，本文主張：注意力熵不應只被理解為 token 權重分佈的局部度量，也可以被擴展為描述系統在搜索、記憶與理解狀態之間轉換的中層指標。

二、核心區分：高熵搜索態與低熵記憶態

本文提出兩個理想化狀態。

2.1 高熵搜索態

高熵搜索態指的是：系統面對輸入時，缺乏足夠先驗、記憶匹配或結構模板，因此必須探索大量可能解釋。

其特徵包括：

1. 候選解釋數量大；
2. 先驗分佈不穩定；
3. 流結構或因果結構不明確；
4. 需要大量驗證與排除；
5. 輸出信心較低；
6. 計算成本較高。

高熵搜索態不一定等同於形式上的 NP-hard 問題，但它在計算行為上可能呈現「NP-like」特徵：候選空間大、剪枝困難、驗證負擔高、搜索成本上升。

因此，本文使用「NP-like」作為計算狀態描述，而不是作為嚴格複雜度分類。

2.2 低熵記憶態

低熵記憶態指的是：輸入與既有記憶、知識結構或語義吸引子高度匹配，系統不需要重新搜索，而是直接提取穩定答案。

其特徵包括：

1. 候選答案高度集中；
2. 記憶匹配分數高；
3. 解釋路徑穩定；
4. 補完成本低；
5. 輸出信心高；
6. 反應速度快。

例如：

1 + 1 = 2

對大多數受過基礎教育的人而言，這不是搜索任務，而是記憶提取任務。系統可能仍然執行某種微觀計算，但從功能層面看，它已經接近常數時間的穩定提取。

本文稱此類狀態為「P-like」或「retrieval-like」狀態，而不直接將其等同於形式複雜度中的 P 類。

三、注意力熵的雙態模型

本文將注意力熵擴展為一個與系統狀態相關的指標。

令系統在時間 t 的有效注意力熵為：

H_t = H(A_t, M_t, S_t)

其中：

A_t：當前注意力或候選分佈；
M_t：記憶匹配狀態；
S_t：任務結構穩定度。

在高熵搜索態中：

H_t \uparrow

在低熵記憶態中：

H_t \downarrow

更完整地說：

當候選解釋增加、記憶匹配下降、任務規則不穩定時，有效注意力熵上升。
當候選解釋集中、記憶匹配上升、任務規則穩定時，有效注意力熵下降。

因此，注意力熵不是單純的局部注意力分散程度，而可被視為系統在「搜索—提取」光譜上的狀態指標。

四、記憶吸引子：低熵提取如何發生

4.1 記憶不是資料倉庫，而是穩定吸引子

在本文框架中，記憶不只是儲存資料的容器，而是一組能夠快速吸引輸入並產生穩定輸出的結構。

可將記憶吸引子表示為：

\mathcal{M} = \{m_1, m_2, ..., m_k\}

其中每個 m_i 表示一個穩定知識、模式或語義結構。

當輸入 q 與某個記憶吸引子高度匹配時：

Match(q, m_i) \geq \theta_M

系統便可進入快速提取模式。

例如：

q = "1 + 1 ="
m_i = "1 + 1 = 2"

若匹配分數足夠高，系統不需要展開大規模搜索。

4.2 記憶吸引子的三個特性

記憶吸引子至少具有三個特性：

1. 穩定性：相同或相似輸入會反覆收斂到同一答案；
2. 吸引性：部分輸入即可激活完整結構；
3. 低熵性：候選答案分佈高度集中。

因此，記憶吸引子可解釋熟悉任務中的快速反應。

五、相位同步：記憶提取的一種動態模型

本文使用「相位同步」作為描述記憶提取的形式工具。這裡的相位模型不被視為語言理解的唯一真實機制，而是一種可用於描述多概念協調的動態系統類比。

令查詢相位為：

\Theta_q

記憶相位為：

\Theta_m

同步程度可表示為：

S_{sync}(q, m)
=
1 - d(\Theta_q, \Theta_m)

其中 d 是相位距離或表示距離。

當：

S_{sync}(q, m) \geq \theta_S

系統可視為進入記憶同步狀態。

在此狀態下，輸出不是從零開始搜索，而是從同步記憶中提取。

六、循環流：為什麼記憶與上下文可以被壓縮

循環相位模型的一個重要直覺是：若某些結構能以週期或循環形式保存，則系統不必逐字保存所有歷史，而可以保存生成歷史的壓縮規則。

例如，一個週期結構可以用少數參數表示：

當前相位；
週期；
頻率；
偏移；
擾動項。

這意味著，記憶不一定等於完整資料堆積。記憶也可以是：

可重建過去狀態的壓縮動態規則。

這一點對長上下文 AI、持續學習與可壓縮記憶系統具有啟發意義。

不過，公開版必須保守處理：本文不主張循環流已經實現真正無限上下文，而是主張循環結構提供了一種理解「有限表示如何保留長程關係」的建模方向。

七、規則演化速率：有效難度的關鍵變量

很多任務的表面複雜度與實際學習難度並不一致。

例如，圍棋的搜索空間極大，但規則穩定。只要規則不變，知識可以長期累積，模型可以透過大量訓練逐步形成穩定策略。

相反，社會預測、金融市場、政治風險、文化語境等任務，看似可以用較少變量描述，但規則本身持續演化。舊知識會折舊，過去有效的模式可能在未來失效。

因此，本文提出「規則演化速率」作為有效計算難度的重要變量。

令任務規則在時間 t 的狀態為：

R_t

規則演化速率可表示為：

\rho
=
\left\|
\frac{dR_t}{dt}
\right\|

其中：

ρ 越小，表示規則越穩定；
ρ 越大，表示規則越容易變動。

7.1 靜態規則任務

若：

\rho \approx 0

則知識可長期累積，注意力熵可能隨訓練下降：

H_t \rightarrow H_{low}

典型例子：

算術；
棋類；
固定遊戲規則；
形式化邏輯系統；
封閉資料集任務。

7.2 動態規則任務

若：

\rho > 0

則知識會持續折舊，注意力熵下降速度受到限制：

H_t \not\rightarrow H_{low}

或只能在局部時間窗內下降。

典型例子：

金融市場；
社會預測；
政治行為；
快速變化的網路文化；
開放世界人機互動。

這解釋了為何某些表面複雜的任務可以透過長期訓練被掌握，而某些表面簡單的任務卻始終難以穩定預測。

八、有效計算難度：不只看搜索空間，也要看記憶與規則

本文將任務的有效計算難度表示為：

C_{eff}
=
f(H_t, S_{sync}, \rho, K_m)

其中：

H_t：有效注意力熵；
S_sync：記憶同步程度；
ρ：規則演化速率；
K_m：可用記憶或知識成熟度。

可用直覺表示為：

有效難度
隨注意力熵上升而上升；
隨記憶同步上升而下降；
隨規則演化速率上升而上升；
隨知識成熟度上升而下降。

因此，任務難度不是單一變量，而是多因素耦合結果。

九、P-like 與 NP-like：類比，而非證明

本文使用 P-like 與 NP-like 來描述計算行為，而不是宣稱解決 P vs NP 問題。

9.1 P-like 狀態

P-like 狀態指的是：

系統已有穩定路徑；
記憶匹配高；
候選空間小；
驗證成本低；
輸出接近直接提取。

例如：

熟悉算術；
固定規則下的熟練操作；
高頻語言片語補完；
已學會的模式識別任務。

9.2 NP-like 狀態

NP-like 狀態指的是：

候選空間大；
剪枝困難；
缺乏先驗；
解釋結構不明；
每一步都可能改變整體理解。

例如：

完全陌生符號系統；
新型問題設定；
開放式創造任務；
高度動態社會預測；
缺乏穩定規則的互動環境。

本文的重點是：

P-like 與 NP-like 不是固定標籤，而是系統在特定知識狀態下呈現的計算 regime。

同一個任務，對沒有知識的系統可能是高熵搜索；對已經高度熟練的系統可能是低熵提取。

十、從搜索到提取：學習作為熵下降過程

若任務規則穩定，學習可以被理解為從高熵搜索態逐步轉向低熵記憶態的過程。

簡化表示：

H_{t+1} = H_t - \Delta H_{learn}

其中：

\Delta H_{learn}

表示學習帶來的不確定性下降。

但若規則持續變動，則需要加入知識折舊項：

H_{t+1}
=
H_t
-
\Delta H_{learn}
+
\Delta H_{drift}

其中：

\Delta H_{drift}

表示規則變化造成的不確定性回升。

因此，學習是否有效，取決於：

\Delta H_{learn} > \Delta H_{drift}

若學習速度大於規則變動速度，系統逐漸穩定；若規則變動速度大於學習速度，系統可能長期維持高熵狀態。

十一、可檢驗預測

本文提出以下可檢驗預測。

預測一：熟悉任務的注意力熵低於陌生任務

對同一系統而言，熟悉任務應呈現：

更低候選分散；
更高記憶匹配；
更快反應時間；
更高答案穩定性。

陌生任務則相反。

預測二：規則穩定任務的熵下降速度更快

若比較固定規則任務與動態規則任務，前者的熵下降曲線應更明顯。

例如：

算術 / 棋類任務：熵可隨訓練穩定下降；
社會預測 / 市場任務：熵下降較慢，甚至反覆回升。

預測三：記憶同步程度可預測反應速度

若輸入與既有記憶吸引子高度同步，系統反應時間應下降。

可測指標包括：

MemoryMatchScore；
RetrievalLatency；
AnswerStability；
PhaseDistance；
EntropyDrop。

預測四：高熵搜索態更容易產生多樣但不穩定的答案

當系統處於高熵搜索態時，其輸出可能更具創造性，但也更不穩定。

可測指標包括：

答案多樣性；
自洽性；
重複提問一致率；
錯誤率；
人類評分差異。

十二、實驗設計草案

12.1 實驗一：熟悉任務 vs 陌生任務

任務組：

熟悉任務：「1+1=」「The capital of France is」
陌生任務：「Blicket dax wug」「自造符號系統推理」

測量：

輸出延遲；
候選答案分散度；
模型信心；
答案一致性；
注意力熵或近似熵。

預期：

熟悉任務呈現低熵、高穩定、低延遲；
陌生任務呈現高熵、低穩定、高延遲。

12.2 實驗二：規則穩定度比較

任務組：

固定規則：棋類、排序、簡單數學；
半動態規則：語言流行用法、推薦系統；
高度動態規則：市場預測、社會事件預測。

測量：

訓練後熵下降幅度；
知識半衰期；
模型失效率；
再訓練需求；
跨時間泛化能力。

預期：

規則越穩定，熵越容易下降；
規則越動態，熵越容易回升。

12.3 實驗三：記憶吸引子強度

給定一組高頻知識、低頻知識與新造知識，測試模型反應。

測量：

回答時間；
答案一致率；
注意力分散度；
語義匹配分數；
錯誤修正次數。

預期：

高頻穩定知識更接近低熵記憶態；
新造知識更接近高熵搜索態。

十三、與可解釋 AI 的關係

本文框架可用於可解釋 AI 的三個方向。

13.1 解釋模型何時在搜索

系統可以標示：

目前候選解釋較多；
記憶匹配不足；
需要更多上下文；
此答案屬於高不確定搜索結果。

13.2 解釋模型何時在提取

系統可以標示：

此答案來自高穩定記憶；
候選答案高度集中；
與既有知識吸引子匹配；
因此輸出信心較高。

13.3 解釋任務為何困難

系統可以指出：

任務規則變動快；
過去資料折舊；
記憶吸引子不穩定；
因此有效計算難度較高。

這比單純輸出答案更有價值，因為它讓使用者知道模型目前是在「知道」、「推測」還是「搜索」。

十四、限制聲明

本文是一個理論框架，不是完成型數學證明。

本文不主張：

1. 注意力熵可以完全等同於形式計算複雜度；
2. 高熵搜索態必然是 NP-hard；
3. 低熵記憶態必然屬於 P 類；
4. 相位同步是語言理解的唯一機制；
5. 循環流已經實現真正無限上下文；
6. 本框架已被大規模實驗驗證。

本文主張：

1. 注意力熵可被擴展為搜索—記憶狀態指標；
2. 記憶同步可解釋熟悉任務中的低成本提取；
3. 規則演化速率會影響知識累積與有效難度；
4. P-like / NP-like 可作為計算行為類比，而非數學定理宣稱；
5. 此框架可轉化為可測指標與實驗設計。

十五、結論

本文提出一個關於注意力熵、記憶同步與有效計算難度的公開理論框架。

其核心思想是：

智能系統面對任務時，並不總是在同一種計算狀態中運作。
陌生任務使系統進入高熵搜索態；
熟悉任務使系統進入低熵記憶態；
學習則是在規則穩定的條件下，逐步把搜索轉化為提取。

因此，任務的有效難度不只取決於形式搜索空間，也取決於：

系統是否已有相關記憶；
輸入是否能激活穩定吸引子；
任務規則是否長期穩定；
知識是否能累積而不快速折舊；
模型是否能判斷自己正在搜索還是在提取。

這一框架可用於解釋熟悉問題的快速反應、陌生問題的高不確定性、靜態任務的可學習性，以及動態任務的長期困難。

本文最終主張可以濃縮為一句話：

智能不只是搜索，也不是單純記憶，而是在高熵搜索與低熵記憶之間，根據任務結構、規則穩定度與同步程度動態切換的計算過程。

附錄 A：一句話版本

循環相位模型中的注意力熵框架主張：系統在陌生任務中呈現高熵搜索，在熟悉任務中呈現低熵記憶提取，而任務的有效難度取決於搜索空間、記憶同步與規則演化速率的耦合。

附錄 B：概念對照表

| 本文概念 | 說明 | 公開版定位 | | ---------------- | ------------ | ------------ | | 高熵搜索態 | 缺乏先驗時的大量候選探索 | NP-like 行為類比 | | 低熵記憶態 | 記憶吸引子快速提取 | P-like 行為類比 | | 記憶吸引子 | 穩定知識結構 | 可解釋記憶模型 | | 相位同步 | 輸入與記憶的動態匹配 | 類比模型 | | 規則演化速率 | 任務規則變動速度 | 有效難度變量 | | 有效計算難度 | 任務對系統造成的實際負擔 | 中層模型 | | P-like / NP-like | 計算狀態描述 | 非形式證明 |

附錄 C：不建議公開版使用的說法

PFT 證明 P vs NP；
注意力熵就是計算複雜度；
相位計算就是存在本體；
PFT 實現宇宙自我理解；
所有理論已經統一；
智能不是搜索，而是唯一的相位共振。

附錄 D：建議公開版使用的說法

PFT 類循環相位模型提供一種描述搜索與記憶差異的形式工具；
注意力熵可作為高不確定搜索與低熵提取之間的狀態指標；
記憶同步有助於解釋熟悉任務中的快速反應；
規則演化速率可解釋靜態任務與動態任務的有效難度差異；
P-like / NP-like 在本文中是計算行為類比，而非形式複雜度證明。

全文完。

附錄 E：循環流與 CNN 的關係：兩種不同的壓縮機制

E.1 問題意識

本文第六章提出：循環流可以用較少參數保存長程關係，因為若一組狀態具有週期、相位、頻率或可重建規則，系統便不必逐字保存所有歷史，而可以保存生成歷史的壓縮動態規則。

這個說法容易讓讀者聯想到 CNN（Convolutional Neural Network，卷積神經網路）。因為 CNN 也具有壓縮特徵、局部模式提取、權重共享與多層抽象等能力。因此，有必要說明：循環流與 CNN 確實存在某些相似性，但二者的壓縮對象、壓縮方式與理論功能並不相同。

簡言之：

CNN 壓縮的是局部空間模式。
循環流壓縮的是時間—記憶—狀態演化規則。

兩者都能降低資訊處理成本，但它們處理的不是同一種問題。

E.2 CNN 的核心壓縮機制

CNN 的基本思想是：在圖像、聲音、時序訊號或其他具局部結構的資料中，鄰近區域往往共享相似模式。模型不需要為每一個位置都學習一組完全不同的參數，而可以使用相同卷積核在不同位置滑動，提取重複出現的局部特徵。

CNN 的核心壓縮機制包括：

1. 局部感受野；
2. 權重共享；
3. 平移等變性；
4. 池化或降採樣；
5. 多層特徵抽象。

例如，在圖像中，一個邊緣檢測卷積核可以在左上角檢測邊緣，也可以在右下角檢測邊緣。模型不需要為每個位置重新學習「邊緣是什麼」。

因此，CNN 的壓縮主要來自：

同一種局部模式，可以在不同位置重複使用同一組參數。

用更形式化的語言表示，卷積操作可寫為：

Y(i,j) = \sum_{u,v} K(u,v)X(i+u,j+v)

其中：

X：輸入特徵；
K：卷積核；
Y：輸出特徵；
(i,j)：空間位置。

這表示 CNN 的重點在於：以固定局部核掃描空間，從而提取可重複使用的局部結構。

E.3 循環流的核心壓縮機制

循環流的壓縮方式不同。

循環流關注的不是局部空間模式，而是狀態如何在時間中演化、回返、同步與重建。若一組資訊具有週期性或可由動態規則生成，系統便不必保存所有歷史細節，而可以保存足以重建歷史或預測未來的狀態參數。

例如，一個週期系統可以不保存每一個時間點的完整狀態，而只保存：

1. 當前相位；
2. 頻率；
3. 週期；
4. 偏移；
5. 擾動規則；
6. 同步條件。

如此一來，系統便可以用有限參數表示一段長程歷史。

簡化表示：

X(t) \approx G(\theta_t, \omega, T, \epsilon_t)

其中：

X(t)：時間 t 的狀態；
θ_t：當前相位；
ω：頻率；
T：週期；
ε_t：擾動項；
G：狀態生成函數。

在此框架下，記憶不是逐項儲存，而是保存一套能重建狀態軌跡的動態規則。

因此，循環流的壓縮主要來自：

只要掌握狀態演化規則，就不必保存所有歷史切片。

E.4 二者的相似處

CNN 與循環流確實有若干相似性。

第一，二者都利用結構先驗降低計算成本。

CNN 假設資料具有局部結構與可重複模式；循環流假設某些記憶或上下文具有週期性、相位一致性或可重建動態。

第二，二者都不是暴力記憶全部資料。

CNN 不為每個像素位置學習獨立參數；循環流不逐字保存全部歷史上下文。

第三，二者都可以形成抽象層。

CNN 從邊緣、角點、紋理逐步形成高階特徵；循環流則可從局部狀態、相位同步、週期回返逐步形成穩定記憶吸引子。

第四，二者都能支援泛化。

CNN 可將學到的局部模式應用到新位置；循環流可將已形成的狀態演化規則應用到相似上下文。

因此，若從廣義計算角度看，CNN 與循環流都屬於：

以結構壓縮取代全量枚舉的計算方法。

E.5 二者的根本差異

但 CNN 與循環流仍有根本差異。

| 面向 | CNN | 循環流 | | ------ | --------------- | ------------------- | | 主要處理對象 | 空間局部模式 | 時間、記憶與狀態演化 | | 壓縮來源 | 權重共享與局部感受野 | 相位、週期、同步與生成規則 | | 核心操作 | 卷積掃描 | 狀態回返與相位同步 | | 記憶形式 | 特徵圖與參數 | 動態狀態與吸引子 | | 適合任務 | 圖像、局部訊號、空間模式 | 長上下文、記憶提取、週期結構、狀態重建 | | 時間處理 | 原始 CNN 不天然具長期記憶 | 循環流以時間演化為核心 | | 壓縮目標 | 減少空間特徵冗餘 | 減少歷史上下文冗餘 | | 解釋方式 | 哪些局部特徵被檢測 | 哪些記憶吸引子被同步 |

最簡單的區分是：

CNN 問的是：這個局部模式在哪裡重複出現？
循環流問的是：這個狀態如何在時間中回返、同步與重建？

E.6 CNN 壓縮的是「空間重複」，循環流壓縮的是「時間回返」

CNN 的優勢在於處理空間上的重複性。

例如：

一條邊緣可以出現在圖像左側，也可以出現在圖像右側。
一個紋理可以出現在上方，也可以出現在下方。
一個局部形狀可以在不同區域重複出現。

CNN 使用同一卷積核處理不同位置，因此降低參數量。

循環流處理的則是時間上的回返性。

例如：

一個概念在長上下文中多次以不同形式出現；
一個論點在文章開頭、中段與結尾形成呼應；
一個記憶在不同問題中被重新激活；
一個狀態經過週期演化後回到相似相位。

循環流不只是問「某個模式在哪裡」，而是問：

這個模式如何沿時間演化？
它是否回到同一相位？
它是否與既有記憶同步？
它是否形成穩定吸引子？

因此，循環流更接近記憶動力學，而 CNN 更接近空間特徵抽取。

E.7 與長上下文模型的關係

這一差異對長上下文 AI 特別重要。

傳統長上下文方法通常面臨一個問題：

上下文越長，需要保存與檢索的 token 越多。

若模型只是延長上下文窗口，計算與記憶成本會持續上升。

循環流提供另一種思路：

不一定保存所有 token；
而是保存能重建上下文關係的狀態規則。

例如，一篇長文中多次出現同一核心命題。模型不必保存每一次出現的完整原句，而可以保存：

核心命題；
相位位置；
引用回返點；
語義變形；
與其他命題的同步關係。

這使得上下文壓縮不只是摘要，而是：

語義—相位—記憶結構的壓縮。

CNN 在這裡不能直接替代循環流，因為 CNN 的局部卷積核不天然保存長程語義回返與記憶吸引子。

E.8 與 RNN、TCN 的簡短區分

若讀者熟悉神經網路架構，可能會進一步問：循環流是否更像 RNN 或 TCN？

這個問題合理。

RNN 處理序列狀態遞推：

h_t = f(h_{t-1}, x_t)

TCN 使用時間卷積處理序列局部區間。

循環流與它們有相似處，但仍不同。

RNN 的核心是隱狀態遞推；TCN 的核心是時間卷積；循環流的核心則是：

相位回返；
記憶吸引子；
同步判據；
狀態可重建性；
高熵搜索與低熵提取之間的轉換。

因此，循環流不是單純的 RNN，也不是單純的 TCN，而是一種更偏向「記憶—相位—上下文壓縮」的理論抽象。

E.9 本文中的保守表述

為避免誤解，本文不主張：

1. 循環流已經取代 CNN；
2. 循環流比 CNN 在所有任務上更好；
3. CNN 無法處理序列或記憶；
4. 循環流已經實現真正無限上下文；
5. 所有記憶都能被週期參數完美壓縮。

本文主張的是：

1. CNN 與循環流都屬於結構壓縮方法；
2. CNN 主要壓縮空間局部重複；
3. 循環流主要壓縮時間回返與狀態演化；
4. 二者可互補，而非互斥；
5. 循環流更適合描述長上下文、記憶同步與吸引子提取。

E.10 小結

CNN 與循環流都試圖避免全量枚舉，但它們處理的是不同類型的冗餘。

CNN 處理的是：

空間中的局部重複。

循環流處理的是：

時間中的狀態回返。

CNN 的壓縮來自：

同一卷積核可在不同位置重複使用。

循環流的壓縮來自：

同一動態規則可重建不同時間點的狀態。

因此，循環流不是 CNN 的替代品，而是面向記憶、上下文與動態同步問題的另一種壓縮抽象。

若用一句話總結：

CNN 壓縮的是「看見的局部形狀」；循環流壓縮的是「記得的時間結構」。

附錄完。

原始檔（供 RAG/下載）：/raw/lm-000520.md [md] · id: lm-000520