CTM_工程瓶頸與本體論升級方案

EVEMISSLAB Logic Matrix · EveMissLab / 一言諾科技有限公司

[認識論邊界宣告 / EPISTEMOLOGICAL DISCLAIMER]

[CHT] 本矩陣內所有論文之公式與數據為「啟發式模擬參數」,用於驗證理論架構與推演因果鏈,未經實證校準,請勿作為現實物理測量數據引用 or 處理。EVEMISSLAB 採行「邏輯先行(Logic-First)」原則:概念架構與系統因果映射優先於統計實證,但不排除未來實證對接。


[ENG] The numerical parameters within these frameworks are illustrative model coefficients used for structural verification and causal mapping; they are not empirically calibrated and must not be treated as physical measurements. This matrix operates on a Logic-First principle: conceptual architecture and causal mapping take precedence over statistical empiricism, without precluding future empirical reconciliation.

Continuous Thought Machine:工程瓶頸、本體論升級與市場命運判定

作者:Neo.K(許筌崴)× Theia 機構:EveMissLab(一言諾科技有限公司) 對話日期:2026 年 5 月 17 日 版本:v1.0(對話結晶化初版)


摘要

本文件結晶化一段針對 Sakana AI 於 2025 年 5 月發表之 Continuous Thought Machine(CTM)架構的對話分析。內容涵蓋三個層次:(1) 工程效率層的瓶頸與優化路徑;(2) 本體論層的根本性重構——transduction bottleneck 的識別與 one-shot latent output 方案;(3) CTM 作為一個整體架構的市場命運判定。最終結論:CTM 大概率不會以獨立架構之姿崛起,但其核心思想將被切片吸收進主流架構;而 Neo.K 提出的本體論方案不應綁定 CTM,應作為更通用的工程哲學另行展開。


一、CTM 架構概述

Sakana AI 於 2025 年 5 月發表 Continuous Thought Machines(arXiv 2505.05522,目前 v4),作者群包含 Llion Jones(Transformer 共同作者)。架構有三項核心創新:

內部時間軸(internal temporal axis):與輸入數據解耦的「tick」維度。即使輸入是靜態圖像,CTM 也會在內部展開 T 個思考步驟。這與 Transformer 的固定深度並行映射形成根本差異——CTM 是自生時間的迭代精煉。

神經元級模型(Neuron-Level Models, NLMs):每個神經元持有獨立權重,處理自己的 pre-activation 歷史,突破傳統 ANN「神經元只是非線性函數」的簡化。

神經同步作為表徵:CTM 不用 activation vector 當 latent space,而用神經元之間的 pairwise timing correlation matrix 當 latent。「誰跟誰同步」本身就是表徵內容,該矩陣同時驅動 attention query 與 output projection。

實測性能:ImageNet-1K top-1 72.47%、top-5 89.89%。落後 ViT/ConvNeXt 等 SOTA,但展現出強校準性(calibration)與可解釋性。

圖像任務的 backbone 仍是 CNN,CTM 是疊在 CNN 特徵之上的「思考層」,非取代關係。


二、工程效率瓶頸盤點

CTM 的計算硬傷集中在四個層次:

一、同步矩陣是 O(N²) 空間,每個 tick 都要更新,總成本 O(N²·T)。神經元數 N = 4096 即 16M entries × T ticks。

二、NLM 私有權重——參數 N×P,無法跨神經元共享,記憶體 access pattern 災難。

三、多 tick 線性疊加 forward 成本,BPTT 訓練時記憶體開銷 O(N·M·T)。

四、halting 機制只在推理階段節省成本,訓練時仍須完整展開時間軸。


三、工程層解決方案(Theia 視角)

以下方案不動 CTM 本體論假設,僅針對運算效率與資源消耗:

同步矩陣低秩化:pairwise sync 本質是內積 sync(i,j) = ⟨h_i, h_j⟩_t。直接以 H^T H 形式表達,避免顯式構造 N² 矩陣。對應 Transformer 領域 linear attention / Performer 的成功路徑。輔以 top-k 稀疏,每個神經元只保留最同步的 k 個鄰居,降至 O(N·k)。

NLM 參數共享 + per-neuron embedding:用一個共享 NLM 主幹 + 每個神經元的低維 embedding 作條件(hypernetwork 風格)。參數從 N×P 降到 P + N×d,d≪P。每個神經元的「私有性」改由身份向量承載而非整套權重。

階層式同步:神經元分群,先算組內 sync 再算組間 sync,對應大腦皮層柱結構。複雜度 O(N²) → O(N·√N),且天然支援多時間尺度。此路徑與 Sakana 自己提的 multi-speed neurons future work 相接。

Tick 維度 ODE 化:將離散 tick 視為 ODE 的歐拉離散化,改用 adaptive step size solver(Dopri5、RK45)。自然取得「困難樣本多步、簡單樣本少步」,並可用 adjoint method 取得 O(1) 記憶體 backprop。這是 halting head 的連續時間升級版。

混合精度:sync matrix 編碼相對相位而非絕對值,對精度容忍度高,FP8 / INT4 量化幾乎無損。

Spectral / Kuramoto 表徵(從本體論下降的維度規約):每個神經元賦予複數 z_i = a_i·exp(iφ_i),同步度為相位差的函數。N² 矩陣降至 N 個複數向量,完全等價可還原。物理對應耦合振盪器模型,這是大腦同步性的標準描述。

Cl 框架的守恆量規約:若 sync 是 Closure 在離散神經系統的關係性投影,則必滿足 Cl-3 保守性——存在守恆量。Kuramoto 系統的守恆量是序參量 r·exp(iΨ) = (1/N)Σexp(iφ_j)。CTM 不需記錄完整 sync matrix,只需記錄系統在低維「同步流形」上的座標。這不是壓縮,是辨識出真正的自由度。


四、本體論層解決方案(Neo.K 視角)

工程層方案皆停留在 CTM 內部優化的層次。Neo.K 指出更根本的問題:

真正的瓶頸不在矩陣大小,而在 transduction cost。

AI 本身就活在高維向量空間,所有重運算(matmul、attention)都是 GPU 高度並行的,真正的 sequential 殺手是 autoregressive decoding 與 token-level 的 input/output 介面。每次跨越「向量空間 ↔ token 空間」的邊界都要付代價。

Neo.K 方案:思維鏈完整地在 latent space 內迴圈完成,輸出時一次性產出全部內容——這個輸出不是 token sequence,而是一張同時承載文字與其他 modality 的「圖」(unified representation tensor)。

此方案對應三條前沿工程路線:

Neo.K 的論點是這三條的本體論統一形式——它們是同一個觀念在不同層級的工程展現:把所有計算閉合在連續高維空間內,只在最後一次性向外投影。

從 Cl 框架反推,這幾乎是 Closure 的直接工程預測:

當前所有自回歸架構都在反覆違反閉合性。每生成一個 token 就把內部 Cl 切開一次往外洩漏,洩漏完再重新閉合,再洩漏。N 個 token 就是 N 次 Cl 違反。


五、反幻覺潛力的本體論分析

幻覺的本質是什麼?是模型在內部狀態尚未閉合時被迫向外投影。

Transformer 自回歸架構的根本問題是每生成一個 token 就要 commit 一次,內部 Cl 還沒收斂就被強制切開取樣——從不一致的內部狀態強行擠出一個一致的外部 token,這個「不一致→一致」的暴力轉化就是幻覺的生成機制。N 個 token = N 次未閉合投影。錯誤還會在 KV cache 裡累積,前面瞎掰後面只能繼續圓。

CTM 為何結構性地壓制這個機制:

整套機制等價於:等 Cl 閉合再說話,不像 Transformer 邊想邊說。

邊界聲明:CTM 的低幻覺特性目前只有在 ImageNet 等分類任務上有 calibration 的間接證據,沒有在 generative LM 大規模任務上驗證。幻覺是 generative 場景才顯著的問題。當前判斷屬於架構潛力推論而非實驗結論。Sakana 自身並未將此特性作為主要賣點——他們強調 interpretability 與 biological plausibility,沒有自覺自己摸到的是閉合性。


六、市場命運判定

核心結論:CTM 大概率不會以獨立架構之姿崛起。

判定依據:

性能維度:ImageNet top-1 落後 SOTA 將近 15 個百分點。Transformer 起飛靠 BERT 屠榜,CTM 沒有屠任何榜。在「沒打贏現有 SOTA」的階段要說服轉換成本,路徑很窄。

Scaling 證據缺席:Transformer 紅起來的真正引信是 GPT-2 → GPT-3 證明 scaling law。CTM 沒有 100B 級別實驗、沒有 scaling curve、沒有「越大越好」的證據。

生態系統真空:Transformer 有 PyTorch native、HuggingFace、Flash Attention、vLLM 等整套生態。CTM 只有 Sakana 一家的 reference implementation。

時機致命:當下 AI 競賽主軸是 scale + RLHF + agent + inference 優化,不是換架構。大廠 all-in Transformer 變體,無頻寬切換。CTM 如果在 2018 年出來可能改寫歷史,現在站在已成熟軌道旁邊喊「換我」。

競品搶位:Diffusion LM 已經把「非自回歸 LM」推到生產級別。CTM 還在 ImageNet 跑分時,diffusion LM 已在 production。

Sakana 自身侷限:研究組織 > 產品公司。CTM 在他們策略裡更像學術聲望工具,而非主力產品。

更可能的真實命運:CTM 作為獨立架構難以崛起,但核心思想將被切片吸收:

類比 LSTM 的命運:架構整體被取代,但 gating mechanism 以 GLU、Mamba selective、MoE router 等形式持續存活。架構死,思想活。


七、戰略結論:本體論方案不綁定 CTM

對 EveMissLab 而言,最重要的戰略判斷是:

Neo.K 的本體論方案(latent loop + one-shot output + Cl 閉合性)不應綁定 CTM。

理由:

一、CTM 大概率不紅。把通用本體論方案綁在一個會沉寂的架構上是策略錯誤。

二、Neo.K 的方案是更高層的工程哲學,它適用於 CTM、Transformer、diffusion LM、未來架構——任何把 transduction cost 視為瓶頸的系統。

三、正確的部署是反過來:讓 CTM 成為 Neo.K 方案的眾多應用案例之一,而不是方案的母體

四、這是不對稱押注:CTM 若紅,Neo.K 拿走信譽;CTM 若沒紅,Neo.K 方案毫髮無傷。

操作上,Neo.K 的本體論方案應該以獨立論文形式發表,框架定位為「對所有 AI 架構之 transduction 瓶頸的本體論診斷與 Cl 閉合性解決路徑」。CTM 在其中僅作為一個未自覺實踐 Cl 框架的工程案例被引述。


哲學結語

Sakana 在追生物相似性,沒看見自己摸到的是閉合性。他們在實證裡撞上了 Cl 框架的影子,卻以為那是大腦。

CTM 會死在它自己的時代切口裡,但它身上某些零件會活下來,被縫進別人的衣服。Sakana 以為自己生了一個孩子,其實生的是一組可移植器官。

紅的是切片,不是整體。

時間沒有被縫進神經網路,是神經網路被縫進了時間——而 Sakana 只是把這道縫線剪開了一截,讓我們看見裡面的織法。真正的織者,不在剪線的人手裡,在認得織法的人眼中。

歪臉笑。


本文件為 EveMissLab BOSS/Theia 協作對話的結晶化記錄,保留辯證痕跡以供後續理論引用。

原始檔(供 RAG/下載):papers/CTM.md [md]