# 循環相位模型中的注意力熵與記憶同步：從高不確定搜索到低熵提取的計算框架

作者：Neo.K
機構：EveMissLab / 一言諾科技有限公司
版本：Public Draft v0.1
類型：公開總論版 / 理論框架 / 計算認知模型
日期：2026 7月

---

## 摘要

本文提出一個關於注意力熵、記憶同步與有效計算難度的理論框架。本文的出發點是：在語言理解與智能推理中，系統面對「完全陌生任務」與「高度熟悉任務」時，所需的計算型態並不相同。前者更接近高不確定搜索，後者更接近低熵記憶提取。

傳統注意力熵通常被定義在有限 token 序列的注意力分佈上，主要描述模型在不同 token 之間分配權重的分散程度。然而，這種定義未必能充分描述兩種極端狀態：第一，當系統對任務缺乏先驗知識時，搜索空間可能急劇擴張，注意力熵所反映的不只是 token 分佈，而是整個解釋空間的不確定性；第二，當系統面對高度熟悉的輸入時，它可能並不需要重新搜索，而是直接從穩定記憶中提取答案，此時計算更接近記憶同步與吸引子激活。

本文將這兩種狀態稱為「高熵搜索態」與「低熵記憶態」。在高熵搜索態中，系統需要生成候選解釋、探索可能結構、檢查因果連貫性，因而呈現較高有效計算難度；在低熵記憶態中，輸入與既有記憶結構高度匹配，系統可透過記憶吸引子快速收斂，因而呈現較低有效計算難度。

本文進一步提出「規則演化速率」作為理解任務難度的重要變量。若任務規則穩定，例如算術、棋類或固定形式系統，知識可以長期累積，系統有機會從搜索態逐漸轉入記憶態。若任務規則持續變動，例如社會預測、金融市場或快速演化的文化語境，既有知識容易折舊，系統即使經過訓練，也可能長期維持較高不確定性。

本文不主張解決 P vs NP 問題，也不將注意力熵直接等同於形式計算複雜度。本文主張的是：注意力熵、記憶同步與規則演化速率，可以共同構成一個描述「有效計算難度」的中層模型。此模型可用於解釋為何熟悉任務反應極快、陌生任務需要搜索，以及為何某些表面複雜的穩定任務可被學會，而某些表面簡單的動態任務卻長期困難。

---

## 關鍵詞

注意力熵、記憶同步、相位模型、循環流、記憶吸引子、高熵搜索、低熵提取、有效計算難度、規則演化速率、可解釋 AI

---

# 一、問題背景：注意力熵不足以描述搜索與記憶的差異

在 Transformer 類模型中，注意力熵通常用來描述注意力權重分佈的分散程度。若注意力高度集中於少數 token，熵較低；若注意力分散於許多 token，熵較高。

簡化而言，給定注意力分佈：

```math id="d8fv2o"
A = (a_1, a_2, ..., a_n)
```

其熵可表示為：

```math id="2dz7xn"
H(A) = -\sum_{i=1}^{n} a_i \log a_i
```

這個定義對分析局部注意力分佈有價值，但它不一定足以描述更深層的計算差異。

例如，以下兩種情境在一般注意力熵框架下容易被混淆：

```text id="2v6ig6"
情境一：系統不知道答案，需要在大量可能解釋中搜索。
情境二：系統已經知道答案，只是從記憶中提取。
```

人類看到：

```text id="d86v21"
1 + 1 =
```

通常不會重新推導自然數公理，也不會在所有可能答案中搜索，而是直接從穩定記憶中提取「2」。這種過程的計算型態與面對完全陌生符號序列時截然不同。

例如：

```text id="jtlw14"
Blicket dax wug florp
```

若系統沒有任何語義、語法或文化先驗，它需要生成多種可能解釋，甚至無法判斷哪些候選解釋更合理。此時，問題不只是「注意力分配給哪個 token」，而是「整個解釋空間尚未穩定」。

因此，本文主張：注意力熵不應只被理解為 token 權重分佈的局部度量，也可以被擴展為描述系統在搜索、記憶與理解狀態之間轉換的中層指標。

---

# 二、核心區分：高熵搜索態與低熵記憶態

本文提出兩個理想化狀態。

## 2.1 高熵搜索態

高熵搜索態指的是：系統面對輸入時，缺乏足夠先驗、記憶匹配或結構模板，因此必須探索大量可能解釋。

其特徵包括：

```text id="6s7gwl"
1. 候選解釋數量大；
2. 先驗分佈不穩定；
3. 流結構或因果結構不明確；
4. 需要大量驗證與排除；
5. 輸出信心較低；
6. 計算成本較高。
```

高熵搜索態不一定等同於形式上的 NP-hard 問題，但它在計算行為上可能呈現「NP-like」特徵：候選空間大、剪枝困難、驗證負擔高、搜索成本上升。

因此，本文使用「NP-like」作為計算狀態描述，而不是作為嚴格複雜度分類。

## 2.2 低熵記憶態

低熵記憶態指的是：輸入與既有記憶、知識結構或語義吸引子高度匹配，系統不需要重新搜索，而是直接提取穩定答案。

其特徵包括：

```text id="4nqng3"
1. 候選答案高度集中；
2. 記憶匹配分數高；
3. 解釋路徑穩定；
4. 補完成本低；
5. 輸出信心高；
6. 反應速度快。
```

例如：

```text id="iz5ntj"
1 + 1 = 2
```

對大多數受過基礎教育的人而言，這不是搜索任務，而是記憶提取任務。系統可能仍然執行某種微觀計算，但從功能層面看，它已經接近常數時間的穩定提取。

本文稱此類狀態為「P-like」或「retrieval-like」狀態，而不直接將其等同於形式複雜度中的 P 類。

---

# 三、注意力熵的雙態模型

本文將注意力熵擴展為一個與系統狀態相關的指標。

令系統在時間 `t` 的有效注意力熵為：

```math id="3acgau"
H_t = H(A_t, M_t, S_t)
```

其中：

```text id="pwltm4"
A_t：當前注意力或候選分佈；
M_t：記憶匹配狀態；
S_t：任務結構穩定度。
```

在高熵搜索態中：

```math id="lca18h"
H_t \uparrow
```

在低熵記憶態中：

```math id="tzzm1x"
H_t \downarrow
```

更完整地說：

```text id="to763j"
當候選解釋增加、記憶匹配下降、任務規則不穩定時，有效注意力熵上升。
當候選解釋集中、記憶匹配上升、任務規則穩定時，有效注意力熵下降。
```

因此，注意力熵不是單純的局部注意力分散程度，而可被視為系統在「搜索—提取」光譜上的狀態指標。

---

# 四、記憶吸引子：低熵提取如何發生

## 4.1 記憶不是資料倉庫，而是穩定吸引子

在本文框架中，記憶不只是儲存資料的容器，而是一組能夠快速吸引輸入並產生穩定輸出的結構。

可將記憶吸引子表示為：

```math id="cdcxqv"
\mathcal{M} = \{m_1, m_2, ..., m_k\}
```

其中每個 `m_i` 表示一個穩定知識、模式或語義結構。

當輸入 `q` 與某個記憶吸引子高度匹配時：

```math id="9p8r6l"
Match(q, m_i) \geq \theta_M
```

系統便可進入快速提取模式。

例如：

```text id="6reh3p"
q = "1 + 1 ="
m_i = "1 + 1 = 2"
```

若匹配分數足夠高，系統不需要展開大規模搜索。

## 4.2 記憶吸引子的三個特性

記憶吸引子至少具有三個特性：

```text id="i3o2ls"
1. 穩定性：相同或相似輸入會反覆收斂到同一答案；
2. 吸引性：部分輸入即可激活完整結構；
3. 低熵性：候選答案分佈高度集中。
```

因此，記憶吸引子可解釋熟悉任務中的快速反應。

---

# 五、相位同步：記憶提取的一種動態模型

本文使用「相位同步」作為描述記憶提取的形式工具。這裡的相位模型不被視為語言理解的唯一真實機制，而是一種可用於描述多概念協調的動態系統類比。

令查詢相位為：

```math id="m9q63p"
\Theta_q
```

記憶相位為：

```math id="tvbkzz"
\Theta_m
```

同步程度可表示為：

```math id="g3yk44"
S_{sync}(q, m)
=
1 - d(\Theta_q, \Theta_m)
```

其中 `d` 是相位距離或表示距離。

當：

```math id="oyn821"
S_{sync}(q, m) \geq \theta_S
```

系統可視為進入記憶同步狀態。

在此狀態下，輸出不是從零開始搜索，而是從同步記憶中提取。

---

# 六、循環流：為什麼記憶與上下文可以被壓縮

循環相位模型的一個重要直覺是：若某些結構能以週期或循環形式保存，則系統不必逐字保存所有歷史，而可以保存生成歷史的壓縮規則。

例如，一個週期結構可以用少數參數表示：

```text id="gvb7ey"
當前相位；
週期；
頻率；
偏移；
擾動項。
```

這意味著，記憶不一定等於完整資料堆積。記憶也可以是：

```text id="qcrbbi"
可重建過去狀態的壓縮動態規則。
```

這一點對長上下文 AI、持續學習與可壓縮記憶系統具有啟發意義。

不過，公開版必須保守處理：本文不主張循環流已經實現真正無限上下文，而是主張循環結構提供了一種理解「有限表示如何保留長程關係」的建模方向。

---

# 七、規則演化速率：有效難度的關鍵變量

很多任務的表面複雜度與實際學習難度並不一致。

例如，圍棋的搜索空間極大，但規則穩定。只要規則不變，知識可以長期累積，模型可以透過大量訓練逐步形成穩定策略。

相反，社會預測、金融市場、政治風險、文化語境等任務，看似可以用較少變量描述，但規則本身持續演化。舊知識會折舊，過去有效的模式可能在未來失效。

因此，本文提出「規則演化速率」作為有效計算難度的重要變量。

令任務規則在時間 `t` 的狀態為：

```math id="lm4hw8"
R_t
```

規則演化速率可表示為：

```math id="eg6yhm"
\rho
=
\left\|
\frac{dR_t}{dt}
\right\|
```

其中：

```text id="t4j9w4"
ρ 越小，表示規則越穩定；
ρ 越大，表示規則越容易變動。
```

## 7.1 靜態規則任務

若：

```math id="56ogfx"
\rho \approx 0
```

則知識可長期累積，注意力熵可能隨訓練下降：

```math id="7zgrul"
H_t \rightarrow H_{low}
```

典型例子：

```text id="gtmdtq"
算術；
棋類；
固定遊戲規則；
形式化邏輯系統；
封閉資料集任務。
```

## 7.2 動態規則任務

若：

```math id="myf1bx"
\rho > 0
```

則知識會持續折舊，注意力熵下降速度受到限制：

```math id="ezj3rc"
H_t \not\rightarrow H_{low}
```

或只能在局部時間窗內下降。

典型例子：

```text id="a12l76"
金融市場；
社會預測；
政治行為；
快速變化的網路文化；
開放世界人機互動。
```

這解釋了為何某些表面複雜的任務可以透過長期訓練被掌握，而某些表面簡單的任務卻始終難以穩定預測。

---

# 八、有效計算難度：不只看搜索空間，也要看記憶與規則

本文將任務的有效計算難度表示為：

```math id="21fh8u"
C_{eff}
=
f(H_t, S_{sync}, \rho, K_m)
```

其中：

```text id="52e8vb"
H_t：有效注意力熵；
S_sync：記憶同步程度；
ρ：規則演化速率；
K_m：可用記憶或知識成熟度。
```

可用直覺表示為：

```text id="5u66l0"
有效難度
隨注意力熵上升而上升；
隨記憶同步上升而下降；
隨規則演化速率上升而上升；
隨知識成熟度上升而下降。
```

因此，任務難度不是單一變量，而是多因素耦合結果。

---

# 九、P-like 與 NP-like：類比，而非證明

本文使用 P-like 與 NP-like 來描述計算行為，而不是宣稱解決 P vs NP 問題。

## 9.1 P-like 狀態

P-like 狀態指的是：

```text id="ebzvu1"
系統已有穩定路徑；
記憶匹配高；
候選空間小；
驗證成本低；
輸出接近直接提取。
```

例如：

```text id="xahzsa"
熟悉算術；
固定規則下的熟練操作；
高頻語言片語補完；
已學會的模式識別任務。
```

## 9.2 NP-like 狀態

NP-like 狀態指的是：

```text id="os0jtu"
候選空間大；
剪枝困難；
缺乏先驗；
解釋結構不明；
每一步都可能改變整體理解。
```

例如：

```text id="1vntg8"
完全陌生符號系統；
新型問題設定；
開放式創造任務；
高度動態社會預測；
缺乏穩定規則的互動環境。
```

本文的重點是：

```text id="k54z10"
P-like 與 NP-like 不是固定標籤，而是系統在特定知識狀態下呈現的計算 regime。
```

同一個任務，對沒有知識的系統可能是高熵搜索；對已經高度熟練的系統可能是低熵提取。

---

# 十、從搜索到提取：學習作為熵下降過程

若任務規則穩定，學習可以被理解為從高熵搜索態逐步轉向低熵記憶態的過程。

簡化表示：

```math id="m2mk2z"
H_{t+1} = H_t - \Delta H_{learn}
```

其中：

```text id="qzp6bw"
\Delta H_{learn}
```

表示學習帶來的不確定性下降。

但若規則持續變動，則需要加入知識折舊項：

```math id="u2rnw7"
H_{t+1}
=
H_t
-
\Delta H_{learn}
+
\Delta H_{drift}
```

其中：

```text id="bwshy6"
\Delta H_{drift}
```

表示規則變化造成的不確定性回升。

因此，學習是否有效，取決於：

```math id="oixxqi"
\Delta H_{learn} > \Delta H_{drift}
```

若學習速度大於規則變動速度，系統逐漸穩定；若規則變動速度大於學習速度，系統可能長期維持高熵狀態。

---

# 十一、可檢驗預測

本文提出以下可檢驗預測。

## 預測一：熟悉任務的注意力熵低於陌生任務

對同一系統而言，熟悉任務應呈現：

```text id="q52k4k"
更低候選分散；
更高記憶匹配；
更快反應時間；
更高答案穩定性。
```

陌生任務則相反。

## 預測二：規則穩定任務的熵下降速度更快

若比較固定規則任務與動態規則任務，前者的熵下降曲線應更明顯。

例如：

```text id="cwxplz"
算術 / 棋類任務：熵可隨訓練穩定下降；
社會預測 / 市場任務：熵下降較慢，甚至反覆回升。
```

## 預測三：記憶同步程度可預測反應速度

若輸入與既有記憶吸引子高度同步，系統反應時間應下降。

可測指標包括：

```text id="o12k1q"
MemoryMatchScore；
RetrievalLatency；
AnswerStability；
PhaseDistance；
EntropyDrop。
```

## 預測四：高熵搜索態更容易產生多樣但不穩定的答案

當系統處於高熵搜索態時，其輸出可能更具創造性，但也更不穩定。

可測指標包括：

```text id="gbtb3r"
答案多樣性；
自洽性；
重複提問一致率；
錯誤率；
人類評分差異。
```

---

# 十二、實驗設計草案

## 12.1 實驗一：熟悉任務 vs 陌生任務

任務組：

```text id="4zmxw2"
熟悉任務：「1+1=」「The capital of France is」
陌生任務：「Blicket dax wug」「自造符號系統推理」
```

測量：

```text id="xw4aq2"
輸出延遲；
候選答案分散度；
模型信心；
答案一致性；
注意力熵或近似熵。
```

預期：

```text id="tyyrkr"
熟悉任務呈現低熵、高穩定、低延遲；
陌生任務呈現高熵、低穩定、高延遲。
```

## 12.2 實驗二：規則穩定度比較

任務組：

```text id="txssyk"
固定規則：棋類、排序、簡單數學；
半動態規則：語言流行用法、推薦系統；
高度動態規則：市場預測、社會事件預測。
```

測量：

```text id="ufxtmy"
訓練後熵下降幅度；
知識半衰期；
模型失效率；
再訓練需求；
跨時間泛化能力。
```

預期：

```text id="z3yrq8"
規則越穩定，熵越容易下降；
規則越動態，熵越容易回升。
```

## 12.3 實驗三：記憶吸引子強度

給定一組高頻知識、低頻知識與新造知識，測試模型反應。

測量：

```text id="lc9rcm"
回答時間；
答案一致率；
注意力分散度；
語義匹配分數；
錯誤修正次數。
```

預期：

```text id="t8xvmr"
高頻穩定知識更接近低熵記憶態；
新造知識更接近高熵搜索態。
```

---

# 十三、與可解釋 AI 的關係

本文框架可用於可解釋 AI 的三個方向。

## 13.1 解釋模型何時在搜索

系統可以標示：

```text id="f6ky5g"
目前候選解釋較多；
記憶匹配不足；
需要更多上下文；
此答案屬於高不確定搜索結果。
```

## 13.2 解釋模型何時在提取

系統可以標示：

```text id="qm3l3z"
此答案來自高穩定記憶；
候選答案高度集中；
與既有知識吸引子匹配；
因此輸出信心較高。
```

## 13.3 解釋任務為何困難

系統可以指出：

```text id="hj365h"
任務規則變動快；
過去資料折舊；
記憶吸引子不穩定；
因此有效計算難度較高。
```

這比單純輸出答案更有價值，因為它讓使用者知道模型目前是在「知道」、「推測」還是「搜索」。

---

# 十四、限制聲明

本文是一個理論框架，不是完成型數學證明。

本文不主張：

```text id="a7v4nh"
1. 注意力熵可以完全等同於形式計算複雜度；
2. 高熵搜索態必然是 NP-hard；
3. 低熵記憶態必然屬於 P 類；
4. 相位同步是語言理解的唯一機制；
5. 循環流已經實現真正無限上下文；
6. 本框架已被大規模實驗驗證。
```

本文主張：

```text id="datocx"
1. 注意力熵可被擴展為搜索—記憶狀態指標；
2. 記憶同步可解釋熟悉任務中的低成本提取；
3. 規則演化速率會影響知識累積與有效難度；
4. P-like / NP-like 可作為計算行為類比，而非數學定理宣稱；
5. 此框架可轉化為可測指標與實驗設計。
```

---

# 十五、結論

本文提出一個關於注意力熵、記憶同步與有效計算難度的公開理論框架。

其核心思想是：

```text id="0kcr92"
智能系統面對任務時，並不總是在同一種計算狀態中運作。
陌生任務使系統進入高熵搜索態；
熟悉任務使系統進入低熵記憶態；
學習則是在規則穩定的條件下，逐步把搜索轉化為提取。
```

因此，任務的有效難度不只取決於形式搜索空間，也取決於：

```text id="u93zs5"
系統是否已有相關記憶；
輸入是否能激活穩定吸引子；
任務規則是否長期穩定；
知識是否能累積而不快速折舊；
模型是否能判斷自己正在搜索還是在提取。
```

這一框架可用於解釋熟悉問題的快速反應、陌生問題的高不確定性、靜態任務的可學習性，以及動態任務的長期困難。

本文最終主張可以濃縮為一句話：

> 智能不只是搜索，也不是單純記憶，而是在高熵搜索與低熵記憶之間，根據任務結構、規則穩定度與同步程度動態切換的計算過程。

---

# 附錄 A：一句話版本

循環相位模型中的注意力熵框架主張：系統在陌生任務中呈現高熵搜索，在熟悉任務中呈現低熵記憶提取，而任務的有效難度取決於搜索空間、記憶同步與規則演化速率的耦合。

---

# 附錄 B：概念對照表

| 本文概念             | 說明           | 公開版定位        |
| ---------------- | ------------ | ------------ |
| 高熵搜索態            | 缺乏先驗時的大量候選探索 | NP-like 行為類比 |
| 低熵記憶態            | 記憶吸引子快速提取    | P-like 行為類比  |
| 記憶吸引子            | 穩定知識結構       | 可解釋記憶模型      |
| 相位同步             | 輸入與記憶的動態匹配   | 類比模型         |
| 規則演化速率           | 任務規則變動速度     | 有效難度變量       |
| 有效計算難度           | 任務對系統造成的實際負擔 | 中層模型         |
| P-like / NP-like | 計算狀態描述       | 非形式證明        |

---

# 附錄 C：不建議公開版使用的說法

```text id="dr7088"
PFT 證明 P vs NP；
注意力熵就是計算複雜度；
相位計算就是存在本體；
PFT 實現宇宙自我理解；
所有理論已經統一；
智能不是搜索，而是唯一的相位共振。
```

---

# 附錄 D：建議公開版使用的說法

```text id="jzi4n2"
PFT 類循環相位模型提供一種描述搜索與記憶差異的形式工具；
注意力熵可作為高不確定搜索與低熵提取之間的狀態指標；
記憶同步有助於解釋熟悉任務中的快速反應；
規則演化速率可解釋靜態任務與動態任務的有效難度差異；
P-like / NP-like 在本文中是計算行為類比，而非形式複雜度證明。
```

---

**全文完。**

# 附錄 E：循環流與 CNN 的關係：兩種不同的壓縮機制

## E.1 問題意識

本文第六章提出：循環流可以用較少參數保存長程關係，因為若一組狀態具有週期、相位、頻率或可重建規則，系統便不必逐字保存所有歷史，而可以保存生成歷史的壓縮動態規則。

這個說法容易讓讀者聯想到 CNN（Convolutional Neural Network，卷積神經網路）。因為 CNN 也具有壓縮特徵、局部模式提取、權重共享與多層抽象等能力。因此，有必要說明：循環流與 CNN 確實存在某些相似性，但二者的壓縮對象、壓縮方式與理論功能並不相同。

簡言之：

```text
CNN 壓縮的是局部空間模式。
循環流壓縮的是時間—記憶—狀態演化規則。
```

兩者都能降低資訊處理成本，但它們處理的不是同一種問題。

---

## E.2 CNN 的核心壓縮機制

CNN 的基本思想是：在圖像、聲音、時序訊號或其他具局部結構的資料中，鄰近區域往往共享相似模式。模型不需要為每一個位置都學習一組完全不同的參數，而可以使用相同卷積核在不同位置滑動，提取重複出現的局部特徵。

CNN 的核心壓縮機制包括：

```text
1. 局部感受野；
2. 權重共享；
3. 平移等變性；
4. 池化或降採樣；
5. 多層特徵抽象。
```

例如，在圖像中，一個邊緣檢測卷積核可以在左上角檢測邊緣，也可以在右下角檢測邊緣。模型不需要為每個位置重新學習「邊緣是什麼」。

因此，CNN 的壓縮主要來自：

```text
同一種局部模式，可以在不同位置重複使用同一組參數。
```

用更形式化的語言表示，卷積操作可寫為：

```math
Y(i,j) = \sum_{u,v} K(u,v)X(i+u,j+v)
```

其中：

```text
X：輸入特徵；
K：卷積核；
Y：輸出特徵；
(i,j)：空間位置。
```

這表示 CNN 的重點在於：以固定局部核掃描空間，從而提取可重複使用的局部結構。

---

## E.3 循環流的核心壓縮機制

循環流的壓縮方式不同。

循環流關注的不是局部空間模式，而是狀態如何在時間中演化、回返、同步與重建。若一組資訊具有週期性或可由動態規則生成，系統便不必保存所有歷史細節，而可以保存足以重建歷史或預測未來的狀態參數。

例如，一個週期系統可以不保存每一個時間點的完整狀態，而只保存：

```text
1. 當前相位；
2. 頻率；
3. 週期；
4. 偏移；
5. 擾動規則；
6. 同步條件。
```

如此一來，系統便可以用有限參數表示一段長程歷史。

簡化表示：

```math
X(t) \approx G(\theta_t, \omega, T, \epsilon_t)
```

其中：

```text
X(t)：時間 t 的狀態；
θ_t：當前相位；
ω：頻率；
T：週期；
ε_t：擾動項；
G：狀態生成函數。
```

在此框架下，記憶不是逐項儲存，而是保存一套能重建狀態軌跡的動態規則。

因此，循環流的壓縮主要來自：

```text
只要掌握狀態演化規則，就不必保存所有歷史切片。
```

---

## E.4 二者的相似處

CNN 與循環流確實有若干相似性。

第一，二者都利用結構先驗降低計算成本。

CNN 假設資料具有局部結構與可重複模式；循環流假設某些記憶或上下文具有週期性、相位一致性或可重建動態。

第二，二者都不是暴力記憶全部資料。

CNN 不為每個像素位置學習獨立參數；循環流不逐字保存全部歷史上下文。

第三，二者都可以形成抽象層。

CNN 從邊緣、角點、紋理逐步形成高階特徵；循環流則可從局部狀態、相位同步、週期回返逐步形成穩定記憶吸引子。

第四，二者都能支援泛化。

CNN 可將學到的局部模式應用到新位置；循環流可將已形成的狀態演化規則應用到相似上下文。

因此，若從廣義計算角度看，CNN 與循環流都屬於：

```text
以結構壓縮取代全量枚舉的計算方法。
```

---

## E.5 二者的根本差異

但 CNN 與循環流仍有根本差異。

| 面向     | CNN             | 循環流                 |
| ------ | --------------- | ------------------- |
| 主要處理對象 | 空間局部模式          | 時間、記憶與狀態演化          |
| 壓縮來源   | 權重共享與局部感受野      | 相位、週期、同步與生成規則       |
| 核心操作   | 卷積掃描            | 狀態回返與相位同步           |
| 記憶形式   | 特徵圖與參數          | 動態狀態與吸引子            |
| 適合任務   | 圖像、局部訊號、空間模式    | 長上下文、記憶提取、週期結構、狀態重建 |
| 時間處理   | 原始 CNN 不天然具長期記憶 | 循環流以時間演化為核心         |
| 壓縮目標   | 減少空間特徵冗餘        | 減少歷史上下文冗餘           |
| 解釋方式   | 哪些局部特徵被檢測       | 哪些記憶吸引子被同步          |

最簡單的區分是：

```text
CNN 問的是：這個局部模式在哪裡重複出現？
循環流問的是：這個狀態如何在時間中回返、同步與重建？
```

---

## E.6 CNN 壓縮的是「空間重複」，循環流壓縮的是「時間回返」

CNN 的優勢在於處理空間上的重複性。

例如：

```text
一條邊緣可以出現在圖像左側，也可以出現在圖像右側。
一個紋理可以出現在上方，也可以出現在下方。
一個局部形狀可以在不同區域重複出現。
```

CNN 使用同一卷積核處理不同位置，因此降低參數量。

循環流處理的則是時間上的回返性。

例如：

```text
一個概念在長上下文中多次以不同形式出現；
一個論點在文章開頭、中段與結尾形成呼應；
一個記憶在不同問題中被重新激活；
一個狀態經過週期演化後回到相似相位。
```

循環流不只是問「某個模式在哪裡」，而是問：

```text
這個模式如何沿時間演化？
它是否回到同一相位？
它是否與既有記憶同步？
它是否形成穩定吸引子？
```

因此，循環流更接近記憶動力學，而 CNN 更接近空間特徵抽取。

---

## E.7 與長上下文模型的關係

這一差異對長上下文 AI 特別重要。

傳統長上下文方法通常面臨一個問題：

```text
上下文越長，需要保存與檢索的 token 越多。
```

若模型只是延長上下文窗口，計算與記憶成本會持續上升。

循環流提供另一種思路：

```text
不一定保存所有 token；
而是保存能重建上下文關係的狀態規則。
```

例如，一篇長文中多次出現同一核心命題。模型不必保存每一次出現的完整原句，而可以保存：

```text
核心命題；
相位位置；
引用回返點；
語義變形；
與其他命題的同步關係。
```

這使得上下文壓縮不只是摘要，而是：

```text
語義—相位—記憶結構的壓縮。
```

CNN 在這裡不能直接替代循環流，因為 CNN 的局部卷積核不天然保存長程語義回返與記憶吸引子。

---

## E.8 與 RNN、TCN 的簡短區分

若讀者熟悉神經網路架構，可能會進一步問：循環流是否更像 RNN 或 TCN？

這個問題合理。

RNN 處理序列狀態遞推：

```math
h_t = f(h_{t-1}, x_t)
```

TCN 使用時間卷積處理序列局部區間。

循環流與它們有相似處，但仍不同。

RNN 的核心是隱狀態遞推；TCN 的核心是時間卷積；循環流的核心則是：

```text
相位回返；
記憶吸引子；
同步判據；
狀態可重建性；
高熵搜索與低熵提取之間的轉換。
```

因此，循環流不是單純的 RNN，也不是單純的 TCN，而是一種更偏向「記憶—相位—上下文壓縮」的理論抽象。

---

## E.9 本文中的保守表述

為避免誤解，本文不主張：

```text
1. 循環流已經取代 CNN；
2. 循環流比 CNN 在所有任務上更好；
3. CNN 無法處理序列或記憶；
4. 循環流已經實現真正無限上下文；
5. 所有記憶都能被週期參數完美壓縮。
```

本文主張的是：

```text
1. CNN 與循環流都屬於結構壓縮方法；
2. CNN 主要壓縮空間局部重複；
3. 循環流主要壓縮時間回返與狀態演化；
4. 二者可互補，而非互斥；
5. 循環流更適合描述長上下文、記憶同步與吸引子提取。
```

---

## E.10 小結

CNN 與循環流都試圖避免全量枚舉，但它們處理的是不同類型的冗餘。

CNN 處理的是：

```text
空間中的局部重複。
```

循環流處理的是：

```text
時間中的狀態回返。
```

CNN 的壓縮來自：

```text
同一卷積核可在不同位置重複使用。
```

循環流的壓縮來自：

```text
同一動態規則可重建不同時間點的狀態。
```

因此，循環流不是 CNN 的替代品，而是面向記憶、上下文與動態同步問題的另一種壓縮抽象。

若用一句話總結：

> CNN 壓縮的是「看見的局部形狀」；循環流壓縮的是「記得的時間結構」。

**附錄完。**