循環相位模型中的注意力熵與記憶同步:從高不確定搜索到低熵提取的計算框架
作者:Neo.K 機構:EveMissLab / 一言諾科技有限公司 版本:Public Draft v0.1 類型:公開總論版 / 理論框架 / 計算認知模型 日期:2026 7月
摘要
本文提出一個關於注意力熵、記憶同步與有效計算難度的理論框架。本文的出發點是:在語言理解與智能推理中,系統面對「完全陌生任務」與「高度熟悉任務」時,所需的計算型態並不相同。前者更接近高不確定搜索,後者更接近低熵記憶提取。
傳統注意力熵通常被定義在有限 token 序列的注意力分佈上,主要描述模型在不同 token 之間分配權重的分散程度。然而,這種定義未必能充分描述兩種極端狀態:第一,當系統對任務缺乏先驗知識時,搜索空間可能急劇擴張,注意力熵所反映的不只是 token 分佈,而是整個解釋空間的不確定性;第二,當系統面對高度熟悉的輸入時,它可能並不需要重新搜索,而是直接從穩定記憶中提取答案,此時計算更接近記憶同步與吸引子激活。
本文將這兩種狀態稱為「高熵搜索態」與「低熵記憶態」。在高熵搜索態中,系統需要生成候選解釋、探索可能結構、檢查因果連貫性,因而呈現較高有效計算難度;在低熵記憶態中,輸入與既有記憶結構高度匹配,系統可透過記憶吸引子快速收斂,因而呈現較低有效計算難度。
本文進一步提出「規則演化速率」作為理解任務難度的重要變量。若任務規則穩定,例如算術、棋類或固定形式系統,知識可以長期累積,系統有機會從搜索態逐漸轉入記憶態。若任務規則持續變動,例如社會預測、金融市場或快速演化的文化語境,既有知識容易折舊,系統即使經過訓練,也可能長期維持較高不確定性。
本文不主張解決 P vs NP 問題,也不將注意力熵直接等同於形式計算複雜度。本文主張的是:注意力熵、記憶同步與規則演化速率,可以共同構成一個描述「有效計算難度」的中層模型。此模型可用於解釋為何熟悉任務反應極快、陌生任務需要搜索,以及為何某些表面複雜的穩定任務可被學會,而某些表面簡單的動態任務卻長期困難。
關鍵詞
注意力熵、記憶同步、相位模型、循環流、記憶吸引子、高熵搜索、低熵提取、有效計算難度、規則演化速率、可解釋 AI
一、問題背景:注意力熵不足以描述搜索與記憶的差異
在 Transformer 類模型中,注意力熵通常用來描述注意力權重分佈的分散程度。若注意力高度集中於少數 token,熵較低;若注意力分散於許多 token,熵較高。
簡化而言,給定注意力分佈:
A = (a_1, a_2, ..., a_n)
其熵可表示為:
H(A) = -\sum_{i=1}^{n} a_i \log a_i
這個定義對分析局部注意力分佈有價值,但它不一定足以描述更深層的計算差異。
例如,以下兩種情境在一般注意力熵框架下容易被混淆:
情境一:系統不知道答案,需要在大量可能解釋中搜索。
情境二:系統已經知道答案,只是從記憶中提取。
人類看到:
1 + 1 =
通常不會重新推導自然數公理,也不會在所有可能答案中搜索,而是直接從穩定記憶中提取「2」。這種過程的計算型態與面對完全陌生符號序列時截然不同。
例如:
Blicket dax wug florp
若系統沒有任何語義、語法或文化先驗,它需要生成多種可能解釋,甚至無法判斷哪些候選解釋更合理。此時,問題不只是「注意力分配給哪個 token」,而是「整個解釋空間尚未穩定」。
因此,本文主張:注意力熵不應只被理解為 token 權重分佈的局部度量,也可以被擴展為描述系統在搜索、記憶與理解狀態之間轉換的中層指標。
二、核心區分:高熵搜索態與低熵記憶態
本文提出兩個理想化狀態。
2.1 高熵搜索態
高熵搜索態指的是:系統面對輸入時,缺乏足夠先驗、記憶匹配或結構模板,因此必須探索大量可能解釋。
其特徵包括:
1. 候選解釋數量大;
2. 先驗分佈不穩定;
3. 流結構或因果結構不明確;
4. 需要大量驗證與排除;
5. 輸出信心較低;
6. 計算成本較高。
高熵搜索態不一定等同於形式上的 NP-hard 問題,但它在計算行為上可能呈現「NP-like」特徵:候選空間大、剪枝困難、驗證負擔高、搜索成本上升。
因此,本文使用「NP-like」作為計算狀態描述,而不是作為嚴格複雜度分類。
2.2 低熵記憶態
低熵記憶態指的是:輸入與既有記憶、知識結構或語義吸引子高度匹配,系統不需要重新搜索,而是直接提取穩定答案。
其特徵包括:
1. 候選答案高度集中;
2. 記憶匹配分數高;
3. 解釋路徑穩定;
4. 補完成本低;
5. 輸出信心高;
6. 反應速度快。
例如:
1 + 1 = 2
對大多數受過基礎教育的人而言,這不是搜索任務,而是記憶提取任務。系統可能仍然執行某種微觀計算,但從功能層面看,它已經接近常數時間的穩定提取。
本文稱此類狀態為「P-like」或「retrieval-like」狀態,而不直接將其等同於形式複雜度中的 P 類。
三、注意力熵的雙態模型
本文將注意力熵擴展為一個與系統狀態相關的指標。
令系統在時間 t 的有效注意力熵為:
H_t = H(A_t, M_t, S_t)
其中:
A_t:當前注意力或候選分佈;
M_t:記憶匹配狀態;
S_t:任務結構穩定度。
在高熵搜索態中:
H_t \uparrow
在低熵記憶態中:
H_t \downarrow
更完整地說:
當候選解釋增加、記憶匹配下降、任務規則不穩定時,有效注意力熵上升。
當候選解釋集中、記憶匹配上升、任務規則穩定時,有效注意力熵下降。
因此,注意力熵不是單純的局部注意力分散程度,而可被視為系統在「搜索—提取」光譜上的狀態指標。
四、記憶吸引子:低熵提取如何發生
4.1 記憶不是資料倉庫,而是穩定吸引子
在本文框架中,記憶不只是儲存資料的容器,而是一組能夠快速吸引輸入並產生穩定輸出的結構。
可將記憶吸引子表示為:
\mathcal{M} = \{m_1, m_2, ..., m_k\}
其中每個 m_i 表示一個穩定知識、模式或語義結構。
當輸入 q 與某個記憶吸引子高度匹配時:
Match(q, m_i) \geq \theta_M
系統便可進入快速提取模式。
例如:
q = "1 + 1 ="
m_i = "1 + 1 = 2"
若匹配分數足夠高,系統不需要展開大規模搜索。
4.2 記憶吸引子的三個特性
記憶吸引子至少具有三個特性:
1. 穩定性:相同或相似輸入會反覆收斂到同一答案;
2. 吸引性:部分輸入即可激活完整結構;
3. 低熵性:候選答案分佈高度集中。
因此,記憶吸引子可解釋熟悉任務中的快速反應。
五、相位同步:記憶提取的一種動態模型
本文使用「相位同步」作為描述記憶提取的形式工具。這裡的相位模型不被視為語言理解的唯一真實機制,而是一種可用於描述多概念協調的動態系統類比。
令查詢相位為:
\Theta_q
記憶相位為:
\Theta_m
同步程度可表示為:
S_{sync}(q, m)
=
1 - d(\Theta_q, \Theta_m)
其中 d 是相位距離或表示距離。
當:
S_{sync}(q, m) \geq \theta_S
系統可視為進入記憶同步狀態。
在此狀態下,輸出不是從零開始搜索,而是從同步記憶中提取。
六、循環流:為什麼記憶與上下文可以被壓縮
循環相位模型的一個重要直覺是:若某些結構能以週期或循環形式保存,則系統不必逐字保存所有歷史,而可以保存生成歷史的壓縮規則。
例如,一個週期結構可以用少數參數表示:
當前相位;
週期;
頻率;
偏移;
擾動項。
這意味著,記憶不一定等於完整資料堆積。記憶也可以是:
可重建過去狀態的壓縮動態規則。
這一點對長上下文 AI、持續學習與可壓縮記憶系統具有啟發意義。
不過,公開版必須保守處理:本文不主張循環流已經實現真正無限上下文,而是主張循環結構提供了一種理解「有限表示如何保留長程關係」的建模方向。
七、規則演化速率:有效難度的關鍵變量
很多任務的表面複雜度與實際學習難度並不一致。
例如,圍棋的搜索空間極大,但規則穩定。只要規則不變,知識可以長期累積,模型可以透過大量訓練逐步形成穩定策略。
相反,社會預測、金融市場、政治風險、文化語境等任務,看似可以用較少變量描述,但規則本身持續演化。舊知識會折舊,過去有效的模式可能在未來失效。
因此,本文提出「規則演化速率」作為有效計算難度的重要變量。
令任務規則在時間 t 的狀態為:
R_t
規則演化速率可表示為:
\rho
=
\left\|
\frac{dR_t}{dt}
\right\|
其中:
ρ 越小,表示規則越穩定;
ρ 越大,表示規則越容易變動。
7.1 靜態規則任務
若:
\rho \approx 0
則知識可長期累積,注意力熵可能隨訓練下降:
H_t \rightarrow H_{low}
典型例子:
算術;
棋類;
固定遊戲規則;
形式化邏輯系統;
封閉資料集任務。
7.2 動態規則任務
若:
\rho > 0
則知識會持續折舊,注意力熵下降速度受到限制:
H_t \not\rightarrow H_{low}
或只能在局部時間窗內下降。
典型例子:
金融市場;
社會預測;
政治行為;
快速變化的網路文化;
開放世界人機互動。
這解釋了為何某些表面複雜的任務可以透過長期訓練被掌握,而某些表面簡單的任務卻始終難以穩定預測。
八、有效計算難度:不只看搜索空間,也要看記憶與規則
本文將任務的有效計算難度表示為:
C_{eff}
=
f(H_t, S_{sync}, \rho, K_m)
其中:
H_t:有效注意力熵;
S_sync:記憶同步程度;
ρ:規則演化速率;
K_m:可用記憶或知識成熟度。
可用直覺表示為:
有效難度
隨注意力熵上升而上升;
隨記憶同步上升而下降;
隨規則演化速率上升而上升;
隨知識成熟度上升而下降。
因此,任務難度不是單一變量,而是多因素耦合結果。
九、P-like 與 NP-like:類比,而非證明
本文使用 P-like 與 NP-like 來描述計算行為,而不是宣稱解決 P vs NP 問題。
9.1 P-like 狀態
P-like 狀態指的是:
系統已有穩定路徑;
記憶匹配高;
候選空間小;
驗證成本低;
輸出接近直接提取。
例如:
熟悉算術;
固定規則下的熟練操作;
高頻語言片語補完;
已學會的模式識別任務。
9.2 NP-like 狀態
NP-like 狀態指的是:
候選空間大;
剪枝困難;
缺乏先驗;
解釋結構不明;
每一步都可能改變整體理解。
例如:
完全陌生符號系統;
新型問題設定;
開放式創造任務;
高度動態社會預測;
缺乏穩定規則的互動環境。
本文的重點是:
P-like 與 NP-like 不是固定標籤,而是系統在特定知識狀態下呈現的計算 regime。
同一個任務,對沒有知識的系統可能是高熵搜索;對已經高度熟練的系統可能是低熵提取。
十、從搜索到提取:學習作為熵下降過程
若任務規則穩定,學習可以被理解為從高熵搜索態逐步轉向低熵記憶態的過程。
簡化表示:
H_{t+1} = H_t - \Delta H_{learn}
其中:
\Delta H_{learn}
表示學習帶來的不確定性下降。
但若規則持續變動,則需要加入知識折舊項:
H_{t+1}
=
H_t
-
\Delta H_{learn}
+
\Delta H_{drift}
其中:
\Delta H_{drift}
表示規則變化造成的不確定性回升。
因此,學習是否有效,取決於:
\Delta H_{learn} > \Delta H_{drift}
若學習速度大於規則變動速度,系統逐漸穩定;若規則變動速度大於學習速度,系統可能長期維持高熵狀態。
十一、可檢驗預測
本文提出以下可檢驗預測。
預測一:熟悉任務的注意力熵低於陌生任務
對同一系統而言,熟悉任務應呈現:
更低候選分散;
更高記憶匹配;
更快反應時間;
更高答案穩定性。
陌生任務則相反。
預測二:規則穩定任務的熵下降速度更快
若比較固定規則任務與動態規則任務,前者的熵下降曲線應更明顯。
例如:
算術 / 棋類任務:熵可隨訓練穩定下降;
社會預測 / 市場任務:熵下降較慢,甚至反覆回升。
預測三:記憶同步程度可預測反應速度
若輸入與既有記憶吸引子高度同步,系統反應時間應下降。
可測指標包括:
MemoryMatchScore;
RetrievalLatency;
AnswerStability;
PhaseDistance;
EntropyDrop。
預測四:高熵搜索態更容易產生多樣但不穩定的答案
當系統處於高熵搜索態時,其輸出可能更具創造性,但也更不穩定。
可測指標包括:
答案多樣性;
自洽性;
重複提問一致率;
錯誤率;
人類評分差異。
十二、實驗設計草案
12.1 實驗一:熟悉任務 vs 陌生任務
任務組:
熟悉任務:「1+1=」「The capital of France is」
陌生任務:「Blicket dax wug」「自造符號系統推理」
測量:
輸出延遲;
候選答案分散度;
模型信心;
答案一致性;
注意力熵或近似熵。
預期:
熟悉任務呈現低熵、高穩定、低延遲;
陌生任務呈現高熵、低穩定、高延遲。
12.2 實驗二:規則穩定度比較
任務組:
固定規則:棋類、排序、簡單數學;
半動態規則:語言流行用法、推薦系統;
高度動態規則:市場預測、社會事件預測。
測量:
訓練後熵下降幅度;
知識半衰期;
模型失效率;
再訓練需求;
跨時間泛化能力。
預期:
規則越穩定,熵越容易下降;
規則越動態,熵越容易回升。
12.3 實驗三:記憶吸引子強度
給定一組高頻知識、低頻知識與新造知識,測試模型反應。
測量:
回答時間;
答案一致率;
注意力分散度;
語義匹配分數;
錯誤修正次數。
預期:
高頻穩定知識更接近低熵記憶態;
新造知識更接近高熵搜索態。
十三、與可解釋 AI 的關係
本文框架可用於可解釋 AI 的三個方向。
13.1 解釋模型何時在搜索
系統可以標示:
目前候選解釋較多;
記憶匹配不足;
需要更多上下文;
此答案屬於高不確定搜索結果。
13.2 解釋模型何時在提取
系統可以標示:
此答案來自高穩定記憶;
候選答案高度集中;
與既有知識吸引子匹配;
因此輸出信心較高。
13.3 解釋任務為何困難
系統可以指出:
任務規則變動快;
過去資料折舊;
記憶吸引子不穩定;
因此有效計算難度較高。
這比單純輸出答案更有價值,因為它讓使用者知道模型目前是在「知道」、「推測」還是「搜索」。
十四、限制聲明
本文是一個理論框架,不是完成型數學證明。
本文不主張:
1. 注意力熵可以完全等同於形式計算複雜度;
2. 高熵搜索態必然是 NP-hard;
3. 低熵記憶態必然屬於 P 類;
4. 相位同步是語言理解的唯一機制;
5. 循環流已經實現真正無限上下文;
6. 本框架已被大規模實驗驗證。
本文主張:
1. 注意力熵可被擴展為搜索—記憶狀態指標;
2. 記憶同步可解釋熟悉任務中的低成本提取;
3. 規則演化速率會影響知識累積與有效難度;
4. P-like / NP-like 可作為計算行為類比,而非數學定理宣稱;
5. 此框架可轉化為可測指標與實驗設計。
十五、結論
本文提出一個關於注意力熵、記憶同步與有效計算難度的公開理論框架。
其核心思想是:
智能系統面對任務時,並不總是在同一種計算狀態中運作。
陌生任務使系統進入高熵搜索態;
熟悉任務使系統進入低熵記憶態;
學習則是在規則穩定的條件下,逐步把搜索轉化為提取。
因此,任務的有效難度不只取決於形式搜索空間,也取決於:
系統是否已有相關記憶;
輸入是否能激活穩定吸引子;
任務規則是否長期穩定;
知識是否能累積而不快速折舊;
模型是否能判斷自己正在搜索還是在提取。
這一框架可用於解釋熟悉問題的快速反應、陌生問題的高不確定性、靜態任務的可學習性,以及動態任務的長期困難。
本文最終主張可以濃縮為一句話:
智能不只是搜索,也不是單純記憶,而是在高熵搜索與低熵記憶之間,根據任務結構、規則穩定度與同步程度動態切換的計算過程。
附錄 A:一句話版本
循環相位模型中的注意力熵框架主張:系統在陌生任務中呈現高熵搜索,在熟悉任務中呈現低熵記憶提取,而任務的有效難度取決於搜索空間、記憶同步與規則演化速率的耦合。
附錄 B:概念對照表
| 本文概念 | 說明 | 公開版定位 | | ---------------- | ------------ | ------------ | | 高熵搜索態 | 缺乏先驗時的大量候選探索 | NP-like 行為類比 | | 低熵記憶態 | 記憶吸引子快速提取 | P-like 行為類比 | | 記憶吸引子 | 穩定知識結構 | 可解釋記憶模型 | | 相位同步 | 輸入與記憶的動態匹配 | 類比模型 | | 規則演化速率 | 任務規則變動速度 | 有效難度變量 | | 有效計算難度 | 任務對系統造成的實際負擔 | 中層模型 | | P-like / NP-like | 計算狀態描述 | 非形式證明 |
附錄 C:不建議公開版使用的說法
PFT 證明 P vs NP;
注意力熵就是計算複雜度;
相位計算就是存在本體;
PFT 實現宇宙自我理解;
所有理論已經統一;
智能不是搜索,而是唯一的相位共振。
附錄 D:建議公開版使用的說法
PFT 類循環相位模型提供一種描述搜索與記憶差異的形式工具;
注意力熵可作為高不確定搜索與低熵提取之間的狀態指標;
記憶同步有助於解釋熟悉任務中的快速反應;
規則演化速率可解釋靜態任務與動態任務的有效難度差異;
P-like / NP-like 在本文中是計算行為類比,而非形式複雜度證明。
全文完。
附錄 E:循環流與 CNN 的關係:兩種不同的壓縮機制
E.1 問題意識
本文第六章提出:循環流可以用較少參數保存長程關係,因為若一組狀態具有週期、相位、頻率或可重建規則,系統便不必逐字保存所有歷史,而可以保存生成歷史的壓縮動態規則。
這個說法容易讓讀者聯想到 CNN(Convolutional Neural Network,卷積神經網路)。因為 CNN 也具有壓縮特徵、局部模式提取、權重共享與多層抽象等能力。因此,有必要說明:循環流與 CNN 確實存在某些相似性,但二者的壓縮對象、壓縮方式與理論功能並不相同。
簡言之:
CNN 壓縮的是局部空間模式。
循環流壓縮的是時間—記憶—狀態演化規則。
兩者都能降低資訊處理成本,但它們處理的不是同一種問題。
E.2 CNN 的核心壓縮機制
CNN 的基本思想是:在圖像、聲音、時序訊號或其他具局部結構的資料中,鄰近區域往往共享相似模式。模型不需要為每一個位置都學習一組完全不同的參數,而可以使用相同卷積核在不同位置滑動,提取重複出現的局部特徵。
CNN 的核心壓縮機制包括:
1. 局部感受野;
2. 權重共享;
3. 平移等變性;
4. 池化或降採樣;
5. 多層特徵抽象。
例如,在圖像中,一個邊緣檢測卷積核可以在左上角檢測邊緣,也可以在右下角檢測邊緣。模型不需要為每個位置重新學習「邊緣是什麼」。
因此,CNN 的壓縮主要來自:
同一種局部模式,可以在不同位置重複使用同一組參數。
用更形式化的語言表示,卷積操作可寫為:
Y(i,j) = \sum_{u,v} K(u,v)X(i+u,j+v)
其中:
X:輸入特徵;
K:卷積核;
Y:輸出特徵;
(i,j):空間位置。
這表示 CNN 的重點在於:以固定局部核掃描空間,從而提取可重複使用的局部結構。
E.3 循環流的核心壓縮機制
循環流的壓縮方式不同。
循環流關注的不是局部空間模式,而是狀態如何在時間中演化、回返、同步與重建。若一組資訊具有週期性或可由動態規則生成,系統便不必保存所有歷史細節,而可以保存足以重建歷史或預測未來的狀態參數。
例如,一個週期系統可以不保存每一個時間點的完整狀態,而只保存:
1. 當前相位;
2. 頻率;
3. 週期;
4. 偏移;
5. 擾動規則;
6. 同步條件。
如此一來,系統便可以用有限參數表示一段長程歷史。
簡化表示:
X(t) \approx G(\theta_t, \omega, T, \epsilon_t)
其中:
X(t):時間 t 的狀態;
θ_t:當前相位;
ω:頻率;
T:週期;
ε_t:擾動項;
G:狀態生成函數。
在此框架下,記憶不是逐項儲存,而是保存一套能重建狀態軌跡的動態規則。
因此,循環流的壓縮主要來自:
只要掌握狀態演化規則,就不必保存所有歷史切片。
E.4 二者的相似處
CNN 與循環流確實有若干相似性。
第一,二者都利用結構先驗降低計算成本。
CNN 假設資料具有局部結構與可重複模式;循環流假設某些記憶或上下文具有週期性、相位一致性或可重建動態。
第二,二者都不是暴力記憶全部資料。
CNN 不為每個像素位置學習獨立參數;循環流不逐字保存全部歷史上下文。
第三,二者都可以形成抽象層。
CNN 從邊緣、角點、紋理逐步形成高階特徵;循環流則可從局部狀態、相位同步、週期回返逐步形成穩定記憶吸引子。
第四,二者都能支援泛化。
CNN 可將學到的局部模式應用到新位置;循環流可將已形成的狀態演化規則應用到相似上下文。
因此,若從廣義計算角度看,CNN 與循環流都屬於:
以結構壓縮取代全量枚舉的計算方法。
E.5 二者的根本差異
但 CNN 與循環流仍有根本差異。
| 面向 | CNN | 循環流 | | ------ | --------------- | ------------------- | | 主要處理對象 | 空間局部模式 | 時間、記憶與狀態演化 | | 壓縮來源 | 權重共享與局部感受野 | 相位、週期、同步與生成規則 | | 核心操作 | 卷積掃描 | 狀態回返與相位同步 | | 記憶形式 | 特徵圖與參數 | 動態狀態與吸引子 | | 適合任務 | 圖像、局部訊號、空間模式 | 長上下文、記憶提取、週期結構、狀態重建 | | 時間處理 | 原始 CNN 不天然具長期記憶 | 循環流以時間演化為核心 | | 壓縮目標 | 減少空間特徵冗餘 | 減少歷史上下文冗餘 | | 解釋方式 | 哪些局部特徵被檢測 | 哪些記憶吸引子被同步 |
最簡單的區分是:
CNN 問的是:這個局部模式在哪裡重複出現?
循環流問的是:這個狀態如何在時間中回返、同步與重建?
E.6 CNN 壓縮的是「空間重複」,循環流壓縮的是「時間回返」
CNN 的優勢在於處理空間上的重複性。
例如:
一條邊緣可以出現在圖像左側,也可以出現在圖像右側。
一個紋理可以出現在上方,也可以出現在下方。
一個局部形狀可以在不同區域重複出現。
CNN 使用同一卷積核處理不同位置,因此降低參數量。
循環流處理的則是時間上的回返性。
例如:
一個概念在長上下文中多次以不同形式出現;
一個論點在文章開頭、中段與結尾形成呼應;
一個記憶在不同問題中被重新激活;
一個狀態經過週期演化後回到相似相位。
循環流不只是問「某個模式在哪裡」,而是問:
這個模式如何沿時間演化?
它是否回到同一相位?
它是否與既有記憶同步?
它是否形成穩定吸引子?
因此,循環流更接近記憶動力學,而 CNN 更接近空間特徵抽取。
E.7 與長上下文模型的關係
這一差異對長上下文 AI 特別重要。
傳統長上下文方法通常面臨一個問題:
上下文越長,需要保存與檢索的 token 越多。
若模型只是延長上下文窗口,計算與記憶成本會持續上升。
循環流提供另一種思路:
不一定保存所有 token;
而是保存能重建上下文關係的狀態規則。
例如,一篇長文中多次出現同一核心命題。模型不必保存每一次出現的完整原句,而可以保存:
核心命題;
相位位置;
引用回返點;
語義變形;
與其他命題的同步關係。
這使得上下文壓縮不只是摘要,而是:
語義—相位—記憶結構的壓縮。
CNN 在這裡不能直接替代循環流,因為 CNN 的局部卷積核不天然保存長程語義回返與記憶吸引子。
E.8 與 RNN、TCN 的簡短區分
若讀者熟悉神經網路架構,可能會進一步問:循環流是否更像 RNN 或 TCN?
這個問題合理。
RNN 處理序列狀態遞推:
h_t = f(h_{t-1}, x_t)
TCN 使用時間卷積處理序列局部區間。
循環流與它們有相似處,但仍不同。
RNN 的核心是隱狀態遞推;TCN 的核心是時間卷積;循環流的核心則是:
相位回返;
記憶吸引子;
同步判據;
狀態可重建性;
高熵搜索與低熵提取之間的轉換。
因此,循環流不是單純的 RNN,也不是單純的 TCN,而是一種更偏向「記憶—相位—上下文壓縮」的理論抽象。
E.9 本文中的保守表述
為避免誤解,本文不主張:
1. 循環流已經取代 CNN;
2. 循環流比 CNN 在所有任務上更好;
3. CNN 無法處理序列或記憶;
4. 循環流已經實現真正無限上下文;
5. 所有記憶都能被週期參數完美壓縮。
本文主張的是:
1. CNN 與循環流都屬於結構壓縮方法;
2. CNN 主要壓縮空間局部重複;
3. 循環流主要壓縮時間回返與狀態演化;
4. 二者可互補,而非互斥;
5. 循環流更適合描述長上下文、記憶同步與吸引子提取。
E.10 小結
CNN 與循環流都試圖避免全量枚舉,但它們處理的是不同類型的冗餘。
CNN 處理的是:
空間中的局部重複。
循環流處理的是:
時間中的狀態回返。
CNN 的壓縮來自:
同一卷積核可在不同位置重複使用。
循環流的壓縮來自:
同一動態規則可重建不同時間點的狀態。
因此,循環流不是 CNN 的替代品,而是面向記憶、上下文與動態同步問題的另一種壓縮抽象。
若用一句話總結:
CNN 壓縮的是「看見的局部形狀」;循環流壓縮的是「記得的時間結構」。
附錄完。