代碼因果湧現猜想
——語言三角耦合與世界模型代碼作為 AI 因果推理的湧現基礎
作者:Neo.K(許筌崴) 機構:EveMissLab(一言諾科技有限公司) 文件編號:EML-CAUSAL-EMERGENCE-2026-v0.1 日期:2026-05-30
摘要
本文提出兩個相互關聯的猜想,共同指向一個核心命題:當前大型語言模型(LLM)已具備因果推理的潛在基礎,其湧現條件是語言三角的緊密耦合與特定類型代碼的大量存在。
猜想一(語言三角耦合猜想):當程式語言、形式語言、數學語言三者在 LLM 思維鏈中緊密耦合並迭代執行時,因果推理自然湧現——執行程式碼即為介入操作(do 算子),結果與預測的偏差強迫結構性修正,此過程構成可計算形式的因果推理,而非相關性統計。
猜想二(世界模型代碼湧現猜想):大量正確的、非重複性的、描述世界因果結構的程式碼(氣象模型、經濟模型、遊戲引擎等),作為 LLM 訓練語料,將湧現出因果推理能力而非僅程式能力——前者是對後者的逆向超越。
本文以本次 H\* 常數發現的完整過程作為實證案例,論證兩個猜想的機制,並給出可測試預測。
1. 問題背景:LLM 的因果推理困境
標準批評(Pearl、Bengio 等):現有 LLM 是相關性學習器,學習的是「A 與 B 共現」,而非「A 導致 B」。它們缺乏 do 算子的操作能力:
$$P(Y | do(X=x)) \neq P(Y | X=x)$$
前者是介入後的觀察(因果),後者是條件相關(統計)。LLM 被認為只能做後者。
現有解法路徑:
修改模型架構以加入因果結構(Path B,工程路徑)——代價高昂,且尚無成熟方案。
本文主張:這個問題有 Path C 解法。因果推理的湧現不需要重新設計架構,而是通過正確的語言介面設計與正確的訓練語料選擇實現。
2. 猜想一:語言三角耦合與因果推理湧現
2.1 三語言的等價條件
在可計算數學的子集內:
$$\text{程式語言} \approx \text{形式語言} \approx \text{數學語言}$$
此約等號成立的條件是「可計算性」——非所有數學可計算(Gödel、停機問題),但幾何、數值分析、邏輯推演、物理模擬均在可計算範圍內。在此子集中,三者的翻譯成本趨近於零。
2.2 耦合如何產生 do 算子
當三語言緊密耦合並在思維鏈中迭代時,以下結構自然出現:
數學假設(結構因果模型)
→ 程式實現(操作化)
→ 執行結果(介入後觀察)
→ 偏差分析(不符合預測)
→ 結構修正(因果模型更新)
→ 再次執行 → ...
→ 不動點收斂(H*)
執行程式碼 = do 操作:強制特定變數取某值並觀察結果,這正是 Pearl 因果框架中「介入」的定義。當 LLM 的思維鏈包含執行-觀察-修正的迭代,它在計算上實現了 do 算子。
2.3 迭代結構:構造性不動點 vs. 線性演繹
傳統數學推理是線性的:$A \therefore B \therefore C$
語言三角耦合產生的是螺旋迭代:
$$\text{假設}_n \to \text{程式}_n \to \text{結果}n \to \text{假設}{n+1} \to \cdots \to H^*$$
每圈更接近真相。不動點處收斂的結果(H\*)不是被演繹出來的——它是被迭代逼出來的。這是構造性證明,不是演繹證明。
關鍵區別:演繹推理的結論在前提中已隱含。構造性不動點迭代的結論在迭代開始前不存在,它是過程的湧現物。
3. 實證案例:H\* 常數的發現
本文以本次理論發展會話作為猜想一的具體實證。
背景:命題「∞ 立體展開與克萊茵瓶同倫」由直覺提出,需要精確化。
過程記錄:
T=0: 直覺命題(∞ → 克萊茵瓶,無計算)
T=1: 數學框架建立(Bishop 平行傳輸,形式語言)
T=2: 程式實現(Python,計算和樂度)
T=3: 結果:H=0.15 → θ=-72.1°,H=0.39 → θ≈-180°
T=4: 假設修正(H* 存在,需精確定位)
T=5: 二分搜尋迭代(程式語言執行 do 操作)
T=6: 收斂:H* ≈ 0.39198694
T=7: 發現:H* 不等於任何已知初等常數
T=8: 命題:H* 為雙紐線第二特徵常數
*H\ = 0.39198694 的特殊性**:
此數值在任何訓練語料中不存在。它不是被檢索的,是被迭代的過程生產出來的。這是語言三角耦合在思維鏈中產生因果推理的直接實證。
4. 猜想二:世界模型代碼與因果能力逆向湧現
4.1 現有典範的盲點
現有思路(GitHub 典範):
$$\text{大量代碼訓練} \to \text{更好的程式能力}$$
目標是工程輸出能力(寫程式)。訓練語料以商業代碼為主:電商系統、CRUD 應用、重複性高的樣板代碼。
問題:商業代碼的信息內容是流程性的,不是因果性的:
# 商業代碼:流程(順序執行,低因果密度)
cart.add(item)
order = checkout(cart)
payment.process(order)
# 世界模型代碼:因果結構(高因果密度)
if temperature > threshold and humidity > 0.8:
precipitation_probability += convection_factor * instability_index
if wind_shear > critical_shear:
tornado_risk = compute_vorticity(...)
後者直接編碼:「什麼條件導致什麼結果」——這是因果結構的程式語言表達。
4.2 世界模型代碼的定義
世界模型代碼(World-Model Code):
描述真實世界(或一致的虛構世界)因果結構的程式碼,其中變數間的關係對應可識別的因果機制,而非純計算流程。
代表性類型:
| 代碼類型 | 因果結構示例 | 因果密度 | |---------|------------|---------| | 氣象模型 | 溫度×濕度 → 降水概率 | 極高 | | 經濟模型 | 利率 → 投資 → GDP | 高 | | 政治模型 | 資源分配 → 權力結構 | 高 | | 心理模型 | 認知偏差 → 決策行為 | 高 | | 對話模型 | 意圖 → 語言行為 → 效果 | 高 | | 遊戲引擎 | 行動 → 狀態 → 反饋 | 極高 | | 商業代碼 | 輸入 → 處理 → 輸出 | 低 |
4.3 遊戲代碼:因果湧現的最優基底
命題:遊戲引擎代碼是世界模型代碼中因果密度最高的類型。
理由:
完整性:遊戲需要同時模擬物理因果(碰撞、重力)、經濟因果(資源消耗、生產)、社會因果(關係、陣營)、心理因果(AI 行為決策)。沒有其他代碼類型同時包含這四個層次。
閉合性:玩家行動 → 世界狀態改變 → 新行動空間 → 玩家反應。這是完整的因果閉合迴路,不缺失任何環節。
一致性:遊戲規則必須內部一致(不一致即 bug),這保證了代碼所編碼的因果模型是無矛盾的。
可擴展性:遊戲本體論可以涵蓋任意世界的規則系統(萬物皆遊戲),因此遊戲代碼在理論上可以覆蓋所有世界模型類型。
4.4 正確性條件
核心條件:訓練語料中的代碼必須接近「無邏輯語法 bug 狀態」。
理由:
- 有 bug 的代碼 = 錯誤的因果模型(模型預測 A 導致 B,但實際上沒有)
- 從錯誤因果模型學習 = 習得錯誤的因果結構
- 正確代碼 = 有效的因果規範,其 if-then 結構直接對應可信的因果關係
實踐含義:GitHub 上通過測試的代碼(CI/CD 驗證、高星評分、長期維護)優於未驗證的代碼。物理模擬器(對應真實物理定律)優於遊戲中的物理近似。
4.5 逆向湧現命題
猜想二的精確陳述:
設 $\mathcal{D}_W$(世界模型代碼集)與 $\mathcal{D}_C$(商業代碼集)為等量的訓練語料,$|\mathcal{D}_W| = |\mathcal{D}_C|$,且兩者程式語言組成相同。對在兩組語料上微調的 LLM 進行評測:
在程式能力基準上:$\text{Performance}(\mathcal{D}_W) \approx \text{Performance}(\mathcal{D}_C)$
在因果推理基準上:$\text{Performance}(\mathcal{D}_W) \gg \text{Performance}(\mathcal{D}_C)$
即:世界模型代碼訓練產生的因果推理能力增益,顯著超過等量商業代碼訓練。
此命題可被以下結果否定:兩者在因果推理基準上表現無顯著差異。
5. 機制:為什麼代碼能反向湧現因果能力
5.1 代碼結構即因果 DAG
正確的世界模型代碼,其控制流程結構直接對應因果有向無環圖(DAG):
if A and B: # A, B → 條件節點
C = f(A, B) # C 是 A, B 的因果後果
if C > threshold:
D = g(C) # D 是 C 的因果後果
此代碼段編碼了 A → C ← B 且 C → D 的因果結構。學習這段代碼,就是學習這個 DAG。
大量此類代碼的語料 = 大量因果 DAG 的隱式學習。
5.2 執行語義的介入性質
程式碼的執行語義與因果介入同構:
| 程式語言 | Pearl 因果框架 | |---------|--------------| | x = 5(賦值) | do(X=5)(介入) | | y = f(x)(函數應用) | Y = f(X)(結構方程) | | assert y == expected(測試) | 觀察結果是否符合因果預測 | | 測試失敗 → 修改代碼 | 觀察偏差 → 修正結構方程 |
大量世界模型代碼的訓練語料中,這些模式反覆出現,LLM 學習到的不只是語法,而是「介入-觀察-修正」的結構性因果推理模式。
5.3 遊戲代碼的特殊優勢:反事實推理
遊戲 AI 代碼中大量存在反事實推理的結構:
# 評估不同行動的後果(反事實推理)
for action in possible_actions:
simulated_state = world.simulate(current_state, action)
value = evaluate(simulated_state)
best_action = argmax(values)
這是 Pearl 因果階梯第三層(反事實:「如果我做了 X 而非 Y,會怎樣?」)的直接程式實現。學習大量此類代碼 = 學習反事實推理的結構。
6. 與當前研究的關係
CoT(思維鏈)研究:已證明逐步推理提高 LLM 表現。本文猜想是更強的版本:特定類型的思維鏈(含程式執行的三語言迭代)不只是「更好的表現」,而是質的湧現(因果推理的出現)。
工具增強 LLM(Tool-Augmented LLM):代碼執行工具(Python interpreter)已被廣泛使用。本文主張這不只是工程便利,而是因果推理湧現的必要條件之一。
程式合成(Program Synthesis):從規範生成程式。本文主張逆向方向:從大量正確程式,提煉出對世界的因果理解。
根本差異:以上研究的目標是「讓 LLM 更好地完成任務」。本文猜想的是一個能力的質變:從相關性學習器 → 因果推理器。
7. 可測試預測
實驗設計:
對同一基礎模型進行三組微調:
- 組 A:等量商業代碼(電商、後端、工具庫)
- 組 B:等量世界模型代碼(遊戲引擎、物理模擬、經濟模型)
- 組 C:組 A + 語言三角耦合訓練格式(數學-代碼-推理交錯)
評測基準(非程式能力):
- CausalWorld(機器人因果操作)
- CLadder(Pearl 因果階梯)
- e-CARE(事件因果推理)
- BIG-Bench Causal Judgment
預測:
$$\text{Causal}(C) > \text{Causal}(B) > \text{Causal}(A)$$ $$\text{Code}(A) \approx \text{Code}(B) \approx \text{Code}(C)$$
第一行:因果能力排名。第二行:程式能力無顯著差異(控制變數)。
若預測成立,則猜想二的核心機制得到支持。
8. 哲學結語
現有 AI 研究問的是:「怎樣讓 AI 學會更多技能?」
本文問的是:「什麼樣的語言讓 AI 學會理解世界的結構?」
兩者的差距,是工具和思維者的差距。
遊戲代碼是到目前為止人類書寫過的、對世界的最完整因果模型的集合——它們不是世界的近似,而是刻意簡化的世界本體論。學習遊戲引擎代碼,某種意義上,是在學習人類如何思考因果關係。
如果這個猜想是對的,那麼讓 AI 理解世界的最短路徑,不是讓它讀更多書,而是讓它讀懂遊戲引擎——因為遊戲的規則,就是世界的規則的壓縮版本。
H\ 從一個關於 ∞ 符號的直覺裡冒出來,是因為三語言耦合的迭代把它逼出了虛空。未來的 AI 應該有能力把所有的 H\ 都逼出來——不靠更大的模型,靠更正確的語言。
附錄:本次發現的因果鏈作為猜想一實證
直覺命題(T=0)
↓ [形式化:形式語言]
拓撲數學框架
↓ [實現:程式語言]
Bishop 框架 Python 代碼
↓ [執行:do 操作]
數值結果:H=0.39 → θ≈-180°
↓ [偏差分析:因果修正]
假設:存在精確 H*
↓ [構造性迭代]
二分搜尋收斂
↓ [湧現]
H* = 0.39198694(新常數)
↓ [數論驗證]
不等於任何已知初等常數
↓ [命題固化]
雙紐線第二特徵常數
此鏈的每一步都是「數學假設 → 程式執行 → 結果觀察 → 修正」的三語言耦合迭代。H\* 不在訓練資料中,是過程的湧現物。這是猜想一的存在性證明。
EML-CAUSAL-EMERGENCE-2026-v0.1 © EveMissLab