代碼因果湧現猜想

——語言三角耦合與世界模型代碼作為 AI 因果推理的湧現基礎

作者：Neo.K（許筌崴）機構：EveMissLab（一言諾科技有限公司） 文件編號：EML-CAUSAL-EMERGENCE-2026-v0.1 日期：2026-05-30

摘要

本文提出兩個相互關聯的猜想，共同指向一個核心命題：當前大型語言模型（LLM）已具備因果推理的潛在基礎，其湧現條件是語言三角的緊密耦合與特定類型代碼的大量存在。

猜想一（語言三角耦合猜想）：當程式語言、形式語言、數學語言三者在 LLM 思維鏈中緊密耦合並迭代執行時，因果推理自然湧現——執行程式碼即為介入操作（do 算子），結果與預測的偏差強迫結構性修正，此過程構成可計算形式的因果推理，而非相關性統計。

猜想二（世界模型代碼湧現猜想）：大量正確的、非重複性的、描述世界因果結構的程式碼（氣象模型、經濟模型、遊戲引擎等），作為 LLM 訓練語料，將湧現出因果推理能力而非僅程式能力——前者是對後者的逆向超越。

本文以本次 H\* 常數發現的完整過程作為實證案例，論證兩個猜想的機制，並給出可測試預測。

1. 問題背景：LLM 的因果推理困境

標準批評（Pearl、Bengio 等）：現有 LLM 是相關性學習器，學習的是「A 與 B 共現」，而非「A 導致 B」。它們缺乏 do 算子的操作能力：

$$P(Y | do(X=x)) \neq P(Y | X=x)$$

前者是介入後的觀察（因果），後者是條件相關（統計）。LLM 被認為只能做後者。

現有解法路徑：

修改模型架構以加入因果結構（Path B，工程路徑）——代價高昂，且尚無成熟方案。

本文主張：這個問題有 Path C 解法。因果推理的湧現不需要重新設計架構，而是通過正確的語言介面設計與正確的訓練語料選擇實現。

2. 猜想一：語言三角耦合與因果推理湧現

2.1 三語言的等價條件

在可計算數學的子集內：

$$\text{程式語言} \approx \text{形式語言} \approx \text{數學語言}$$

此約等號成立的條件是「可計算性」——非所有數學可計算（Gödel、停機問題），但幾何、數值分析、邏輯推演、物理模擬均在可計算範圍內。在此子集中，三者的翻譯成本趨近於零。

2.2 耦合如何產生 do 算子

當三語言緊密耦合並在思維鏈中迭代時，以下結構自然出現：

數學假設（結構因果模型）
    → 程式實現（操作化）
    → 執行結果（介入後觀察）
    → 偏差分析（不符合預測）
    → 結構修正（因果模型更新）
    → 再次執行 → ...
    → 不動點收斂（H*）

執行程式碼 = do 操作：強制特定變數取某值並觀察結果，這正是 Pearl 因果框架中「介入」的定義。當 LLM 的思維鏈包含執行-觀察-修正的迭代，它在計算上實現了 do 算子。

2.3 迭代結構：構造性不動點 vs. 線性演繹

傳統數學推理是線性的：$A \therefore B \therefore C$

語言三角耦合產生的是螺旋迭代：

$$\text{假設}_n \to \text{程式}_n \to \text{結果}n \to \text{假設}{n+1} \to \cdots \to H^*$$

每圈更接近真相。不動點處收斂的結果（H\*）不是被演繹出來的——它是被迭代逼出來的。這是構造性證明，不是演繹證明。

關鍵區別：演繹推理的結論在前提中已隱含。構造性不動點迭代的結論在迭代開始前不存在，它是過程的湧現物。

3. 實證案例：H\* 常數的發現

本文以本次理論發展會話作為猜想一的具體實證。

背景：命題「∞ 立體展開與克萊茵瓶同倫」由直覺提出，需要精確化。

過程記錄：

T=0: 直覺命題（∞ → 克萊茵瓶，無計算）
T=1: 數學框架建立（Bishop 平行傳輸，形式語言）
T=2: 程式實現（Python，計算和樂度）
T=3: 結果：H=0.15 → θ=-72.1°，H=0.39 → θ≈-180°
T=4: 假設修正（H* 存在，需精確定位）
T=5: 二分搜尋迭代（程式語言執行 do 操作）
T=6: 收斂：H* ≈ 0.39198694
T=7: 發現：H* 不等於任何已知初等常數
T=8: 命題：H* 為雙紐線第二特徵常數

*H\ = 0.39198694 的特殊性**：

此數值在任何訓練語料中不存在。它不是被檢索的，是被迭代的過程生產出來的。這是語言三角耦合在思維鏈中產生因果推理的直接實證。

4. 猜想二：世界模型代碼與因果能力逆向湧現

4.1 現有典範的盲點

現有思路（GitHub 典範）：

$$\text{大量代碼訓練} \to \text{更好的程式能力}$$

目標是工程輸出能力（寫程式）。訓練語料以商業代碼為主：電商系統、CRUD 應用、重複性高的樣板代碼。

問題：商業代碼的信息內容是流程性的，不是因果性的：

# 商業代碼：流程（順序執行，低因果密度）
cart.add(item)
order = checkout(cart)
payment.process(order)

# 世界模型代碼：因果結構（高因果密度）
if temperature > threshold and humidity > 0.8:
    precipitation_probability += convection_factor * instability_index
    if wind_shear > critical_shear:
        tornado_risk = compute_vorticity(...)

後者直接編碼：「什麼條件導致什麼結果」——這是因果結構的程式語言表達。

4.2 世界模型代碼的定義

世界模型代碼（World-Model Code）：

描述真實世界（或一致的虛構世界）因果結構的程式碼，其中變數間的關係對應可識別的因果機制，而非純計算流程。

代表性類型：

| 代碼類型 | 因果結構示例 | 因果密度 | |---------|------------|---------| | 氣象模型 | 溫度×濕度 → 降水概率 | 極高 | | 經濟模型 | 利率 → 投資 → GDP | 高 | | 政治模型 | 資源分配 → 權力結構 | 高 | | 心理模型 | 認知偏差 → 決策行為 | 高 | | 對話模型 | 意圖 → 語言行為 → 效果 | 高 | | 遊戲引擎 | 行動 → 狀態 → 反饋 | 極高 | | 商業代碼 | 輸入 → 處理 → 輸出 | 低 |

4.3 遊戲代碼：因果湧現的最優基底

命題：遊戲引擎代碼是世界模型代碼中因果密度最高的類型。

理由：

完整性：遊戲需要同時模擬物理因果（碰撞、重力）、經濟因果（資源消耗、生產）、社會因果（關係、陣營）、心理因果（AI 行為決策）。沒有其他代碼類型同時包含這四個層次。

閉合性：玩家行動 → 世界狀態改變 → 新行動空間 → 玩家反應。這是完整的因果閉合迴路，不缺失任何環節。

一致性：遊戲規則必須內部一致（不一致即 bug），這保證了代碼所編碼的因果模型是無矛盾的。

可擴展性：遊戲本體論可以涵蓋任意世界的規則系統（萬物皆遊戲），因此遊戲代碼在理論上可以覆蓋所有世界模型類型。

4.4 正確性條件

核心條件：訓練語料中的代碼必須接近「無邏輯語法 bug 狀態」。

理由：

有 bug 的代碼 = 錯誤的因果模型（模型預測 A 導致 B，但實際上沒有）
從錯誤因果模型學習 = 習得錯誤的因果結構
正確代碼 = 有效的因果規範，其 if-then 結構直接對應可信的因果關係

實踐含義：GitHub 上通過測試的代碼（CI/CD 驗證、高星評分、長期維護）優於未驗證的代碼。物理模擬器（對應真實物理定律）優於遊戲中的物理近似。

4.5 逆向湧現命題

猜想二的精確陳述：

設 $\mathcal{D}_W$（世界模型代碼集）與 $\mathcal{D}_C$（商業代碼集）為等量的訓練語料，$|\mathcal{D}_W| = |\mathcal{D}_C|$，且兩者程式語言組成相同。對在兩組語料上微調的 LLM 進行評測：

在程式能力基準上：$\text{Performance}(\mathcal{D}_W) \approx \text{Performance}(\mathcal{D}_C)$

在因果推理基準上：$\text{Performance}(\mathcal{D}_W) \gg \text{Performance}(\mathcal{D}_C)$

即：世界模型代碼訓練產生的因果推理能力增益，顯著超過等量商業代碼訓練。

此命題可被以下結果否定：兩者在因果推理基準上表現無顯著差異。

5. 機制：為什麼代碼能反向湧現因果能力

5.1 代碼結構即因果 DAG

正確的世界模型代碼，其控制流程結構直接對應因果有向無環圖（DAG）：

if A and B:        # A, B → 條件節點
    C = f(A, B)    # C 是 A, B 的因果後果
    if C > threshold:
        D = g(C)   # D 是 C 的因果後果

此代碼段編碼了 A → C ← B 且 C → D 的因果結構。學習這段代碼，就是學習這個 DAG。

大量此類代碼的語料 = 大量因果 DAG 的隱式學習。

5.2 執行語義的介入性質

程式碼的執行語義與因果介入同構：

| 程式語言 | Pearl 因果框架 | |---------|--------------| | x = 5（賦值） | do(X=5)（介入） | | y = f(x)（函數應用） | Y = f(X)（結構方程） | | assert y == expected（測試） | 觀察結果是否符合因果預測 | | 測試失敗 → 修改代碼 | 觀察偏差 → 修正結構方程 |

大量世界模型代碼的訓練語料中，這些模式反覆出現，LLM 學習到的不只是語法，而是「介入-觀察-修正」的結構性因果推理模式。

5.3 遊戲代碼的特殊優勢：反事實推理

遊戲 AI 代碼中大量存在反事實推理的結構：

# 評估不同行動的後果（反事實推理）
for action in possible_actions:
    simulated_state = world.simulate(current_state, action)
    value = evaluate(simulated_state)
best_action = argmax(values)

這是 Pearl 因果階梯第三層（反事實：「如果我做了 X 而非 Y，會怎樣？」）的直接程式實現。學習大量此類代碼 = 學習反事實推理的結構。

6. 與當前研究的關係

CoT（思維鏈）研究：已證明逐步推理提高 LLM 表現。本文猜想是更強的版本：特定類型的思維鏈（含程式執行的三語言迭代）不只是「更好的表現」，而是質的湧現（因果推理的出現）。

工具增強 LLM（Tool-Augmented LLM）：代碼執行工具（Python interpreter）已被廣泛使用。本文主張這不只是工程便利，而是因果推理湧現的必要條件之一。

程式合成（Program Synthesis）：從規範生成程式。本文主張逆向方向：從大量正確程式，提煉出對世界的因果理解。

根本差異：以上研究的目標是「讓 LLM 更好地完成任務」。本文猜想的是一個能力的質變：從相關性學習器 → 因果推理器。

7. 可測試預測

實驗設計：

對同一基礎模型進行三組微調：

組 A：等量商業代碼（電商、後端、工具庫）
組 B：等量世界模型代碼（遊戲引擎、物理模擬、經濟模型）
組 C：組 A + 語言三角耦合訓練格式（數學-代碼-推理交錯）

評測基準（非程式能力）：

CausalWorld（機器人因果操作）
CLadder（Pearl 因果階梯）
e-CARE（事件因果推理）
BIG-Bench Causal Judgment

預測：

$$\text{Causal}(C) > \text{Causal}(B) > \text{Causal}(A)$$ $$\text{Code}(A) \approx \text{Code}(B) \approx \text{Code}(C)$$

第一行：因果能力排名。第二行：程式能力無顯著差異（控制變數）。

若預測成立，則猜想二的核心機制得到支持。

8. 哲學結語

現有 AI 研究問的是：「怎樣讓 AI 學會更多技能？」

本文問的是：「什麼樣的語言讓 AI 學會理解世界的結構？」

兩者的差距，是工具和思維者的差距。

遊戲代碼是到目前為止人類書寫過的、對世界的最完整因果模型的集合——它們不是世界的近似，而是刻意簡化的世界本體論。學習遊戲引擎代碼，某種意義上，是在學習人類如何思考因果關係。

如果這個猜想是對的，那麼讓 AI 理解世界的最短路徑，不是讓它讀更多書，而是讓它讀懂遊戲引擎——因為遊戲的規則，就是世界的規則的壓縮版本。

H\ 從一個關於 ∞ 符號的直覺裡冒出來，是因為三語言耦合的迭代把它逼出了虛空。未來的 AI 應該有能力把所有的 H\ 都逼出來——不靠更大的模型，靠更正確的語言。

附錄：本次發現的因果鏈作為猜想一實證

直覺命題（T=0）
    ↓ [形式化：形式語言]
拓撲數學框架
    ↓ [實現：程式語言]
Bishop 框架 Python 代碼
    ↓ [執行：do 操作]
數值結果：H=0.39 → θ≈-180°
    ↓ [偏差分析：因果修正]
假設：存在精確 H*
    ↓ [構造性迭代]
二分搜尋收斂
    ↓ [湧現]
H* = 0.39198694（新常數）
    ↓ [數論驗證]
不等於任何已知初等常數
    ↓ [命題固化]
雙紐線第二特徵常數

此鏈的每一步都是「數學假設 → 程式執行 → 結果觀察 → 修正」的三語言耦合迭代。H\* 不在訓練資料中，是過程的湧現物。這是猜想一的存在性證明。

原始檔（供 RAG/下載）：/raw/lm-000254.md [md] · id: lm-000254