數學作為認知套利的最高風險區符號間隙、套套邏輯與形式驗證的有限性

EVEMISSLAB Logic Matrix · EveMissLab / 一言諾科技有限公司

[認識論邊界宣告 / EPISTEMOLOGICAL DISCLAIMER]

[CHT] 本矩陣內所有論文之公式與數據為「啟發式模擬參數」,用於驗證理論架構與推演因果鏈,未經實證校準,請勿作為現實物理測量數據引用 or 處理。EVEMISSLAB 採行「邏輯先行(Logic-First)」原則:概念架構與系統因果映射優先於統計實證,但不排除未來實證對接。


[ENG] The numerical parameters within these frameworks are illustrative model coefficients used for structural verification and causal mapping; they are not empirically calibrated and must not be treated as physical measurements. This matrix operates on a Logic-First principle: conceptual architecture and causal mapping take precedence over statistical empiricism, without precluding future empirical reconciliation.

數學作為認知套利的最高風險區:符號間隙、套套邏輯與形式驗證的有限性

作者: 許筌崴(Neo.K) 日期: 2026年4月


摘要

數學常被視為認知套利的免疫區——因為證明可被獨立檢驗、邏輯可被形式化、結論可被機械驗證。本文論證這個免疫性是表演的,不是真實的。實際上數學是認知套利的最高風險區,因為三個結構性條件使這個領域同時具備最高的形式權威、最少的真正能檢驗證明的人、最深的驗證盲區。本文區分套套邏輯的兩個物種(有意識的包裝與無意識的符號自欺),分析「符號間隙」作為形式鏈中的真實脆弱性,以歷史證據(Italian 學派、費馬大定理早期證明、Mochizuki IUT 案例、Voevodsky 自我發現)展示該現象的實在性,並論證形式驗證的承諾與限制。本文最後提出一個個體層的對抗工具——將數學論文強迫翻譯為可執行程式碼,透過翻譯失配定位原文的真實脆弱性所在——並論證該工具與構造主義數學傳統的內在聯繫。本文的目的不是質疑數學的所有結論,而是質疑「數學等於嚴格」這個被當作預設的等式,並指出嚴格從來不是已達成的狀態,而是無止境的趨近過程。


第一章 一個被預設為不需要被質疑的領域

當批判學術系統的認知套利現象時,人文社會科學是常見的指控對象。批評者指出心理學的可重現性危機、社會學的術語密集寫作、哲學的概念循環論證、經濟學模型與現實的脫節。在這些批判中,數學通常被作為對照——「至少數學是嚴格的」、「至少在數學中,真理是無爭議的」、「軟科學應該以數學為榜樣」。這個對照如此自動,以至於它本身很少被審視。

但這個自動性值得被認真追問。為什麼我們相信數學免於認知套利?是因為我們親自驗證過所有數學結論嗎?顯然不是——任何個體都不可能驗證現代數學的所有結論。是因為某個機構代表我們驗證過嗎?也不是——數學沒有「真理認證機構」,只有同行評審,而同行評審如另一篇論文所論證,結構性無法做事實檢查。是因為形式邏輯的本性保證嚴格嗎?這個答案接近,但忽略了一個關鍵差別:人類數學家寫的證明不是純形式邏輯,而是混合產物——部分形式符號,部分自然語言,部分對讀者直覺的訴求

本文要建立的核心主張是:數學不是認知套利的免疫區,而是認知套利的最高風險區。這個主張聽起來反直覺,但建立在三個結構性條件之上,每個條件都可被獨立確認。本文將展開這三個條件,分析認知套利在數學中的具體表現,以歷史證據展示該現象的實在性,並提出個體層的對抗工具。

需要在開頭澄清:本文不主張數學的結論大多是錯的。絕大多數被廣泛使用的數學結果是真實可靠的,因為它們經受了大量間接驗證——透過後續工作的成功使用、透過跨領域的應用、透過與其他結果的一致性。本文針對的是另一個更精確的命題——「數學等於嚴格」這個被當作預設的等式,以及這個等式如何使數學成為認知套利在學術系統中最有效的避風港。


第二章 三個結構性條件

數學作為認知套利最高風險區的地位,建立在三個結構性條件的疊加上。本章逐一展開。

第一個條件是形式權威的最高性。在所有學科中,「這是被證明的」這句話在認知市場中享有最高的真理信用。當一篇論文聲稱證明了某定理,這個聲稱被默認為比實驗結果更可靠、比觀察結論更可靠、比論證推論更可靠。「證明」這個詞在學術話語中具有近乎神聖的地位。

這個地位不是無理由的——它源於數學形式體系的某些真實特質。在純形式邏輯中,如果公理為真且推導規則被正確應用,結論必然為真。這個特質在原則上保證了數學結論的可靠性。但問題是,這個保證只在純形式系統中成立,而人類數學家寫的證明不是純形式系統的產物。它們是混合產物,而混合產物繼承了形式系統的權威外觀,卻不繼承形式系統的真實保證。形式權威是一個可被借用的信用評級——只要寫作格式像形式證明,讀者就傾向給予形式證明應得的信任,即使實際內容不滿足形式系統的嚴格要求。

第二個條件是真正能檢驗證明的人最少。能讀懂高階數學證明的人在全球可能只有幾百到幾千人,且他們之間的時間極度有限。一篇現代代數幾何論文,真正能逐行讀懂並評估的人可能不超過幾十個,他們大多本身在做研究,沒有時間做別人論文的詳細審查。

這個稀缺性比其他學科嚴重得多。一篇心理學論文可以被該領域的數百名研究者讀懂並評估;一篇歷史論文可以被相關時期的研究者群體討論;一篇哲學論文可以被擁有相關訓練的研究者廣泛審視。但一篇前沿數學論文的潛在讀者池子,可能只有原作者所在的小社群——而這個社群往往本身對該作者的工作有利益關聯(共同研究方向、合作關係、學術派系)。獨立驗證的物理可能性在數學中極為有限

第三個條件是驗證盲區的深度與廣度最深。在實驗科學中,即使理論論文難懂,實驗結果至少可以被獨立重做。在歷史學中,原始文獻可以被獨立查閱。在哲學中,論證至少在自然語言層可以被質疑。但在數學中,證明本身就是論文的全部內容——沒有與證明分離的「結果」可以被獨立驗證。如果證明本身有問題,而沒有人花幾個月時間逐行檢查,問題就不會被發現。

這三個條件疊加,造成一個獨特的市場結構:數學享有最高的真理信用,被最少的人真正檢驗,而檢驗本身有最深的盲區。這個結構在認知套利的視角下是極為危險的——它最大化了套利收益(高信用)同時最小化了被檢測的機率(少檢驗、深盲區)。從純粹經濟學的角度,數學應該是認知套利最理想的領域,而不是最不可能的領域

需要強調,這個論證不依賴任何個別數學家的不誠實。如同認知套利的一般機制,套利可以在沒有意圖的情況下發生——只要結構獎勵某種寫作風格,該風格就會被廣泛採用,而採用者本身可能並不自覺地在參與套利。下一章將分析這個無意識套利的具體形式。


第三章 套套邏輯的兩個物種

「套套邏輯」(tautology)在嚴格邏輯意義上指的是 A 蘊含 A 的同義反覆。在數學論證中,直接的同義反覆當然會被立刻看穿——沒有人會被「設 A 為真,推得 A 為真」騙到。但實際存在的、且廣泛存在的套套邏輯,有更隱蔽的形式。本章區分兩個物種,並論證它們在數學寫作中的存在。

第一個物種是有意識的包裝套套邏輯。作者知道自己的論點本質是 A 蘊含 A,但透過符號重新命名、定義改寫、引入中介概念,讓 A 在路徑的兩端看起來不同。讀者沿著符號鏈走過一遍,看到「左邊」推到「中間」推到「右邊」,沒注意到「右邊」其實就是「左邊」換了個名字。這是技術性的詐術,但需要相當功力才能寫得不被立刻看穿。

這種套套邏輯的具體技巧包括:用看似不同但實際等價的概念之間的相互推導充當實質內容(例如將 A 重新表述為「具有 P 性質的對象」,然後「證明」具有 P 性質的對象滿足 A);用過度抽象的範疇論語言將平凡推論包裝為深刻定理;在多步推導中混入若干實質步驟,讓整體看起來有實質內容,但去掉那些實質步驟後,核心仍然是 A 蘊含 A。

第二個物種更普遍也更可怕,是無意識的套套邏輯。作者真心相信自己在做實質推理,但實際上他的「推理」只是在同一個概念上換了不同的符號標籤。這種情況極難檢測,因為作者本人沒有欺騙意圖——他只是被自己的符號系統騙了。他建立了一個術語 A,在後續發展中引入術語 B(實際上就是 A 的另一個表述),然後「證明」B 蘊含 A,並將此視為實質的數學發現。

第二種特別危險,因為它的根源不在道德層,而在人類認知的結構性限制。當一個人在符號層工作太久,他會逐漸失去判斷「兩個符號是否真的指向不同概念」的能力。符號的視覺差異被誤認為概念的實質差異。這個現象在密集形式化的領域特別嚴重——當大腦每天處理幾十個希臘字母組合時,概念辨識能力會被符號操作能力遮蔽

這個現象有一個經典的認知科學基礎:符號處理的自動化。長期訓練的數學家在處理符號時,大量操作已被自動化到不需要意識介入的層次——這是技能熟練的標誌。但自動化的代價是,某些原本需要被意識檢查的步驟跳過了檢查。當兩個符號 A 與 B 在他的自動化處理中被當作不同對象,但在概念上實際是同一對象時,他會輕鬆地推導「A 蘊含 B」而沒有意識到這實際是 A 蘊含 A。

讀者在閱讀時受到同樣的影響,且更嚴重——因為讀者通常比作者對該領域的符號系統更不熟悉,更傾向於將符號視為黑箱接受。當作者寫「由定義可知 A = B」時,讀者通常不會質疑這個定義,而是接受它並繼續往下讀。如果這個「定義」實際上掩蓋了概念上的同一性,讀者沒有機會發現。

這兩個物種共享一個結構性後果:讓內容空洞的論證在表面上看起來實質。表面實質性與真實實質性之間的差距,正是認知套利收益的來源。在數學中,這個差距可以被符號系統的複雜性無限擴大——複雜性越高,讀者越難穿透表面看到底層,套利空間越大。


第四章 符號間隙:形式鏈中的真實脆弱性

數學證明在表面上是符號操作的鏈條:從公理開始,每一步應用一條推導規則,得到下一步,直到結論。在純形式化系統中,每一步的合法性可以被機械檢驗,沒有間隙。但人類數學家寫的證明不是這樣——它是混合產物,部分形式符號,部分自然語言,部分「顯而易見」的跳躍,部分對讀者直覺的訴求。

這些非形式部分,構成本文所說的符號間隙。間隙在符號鏈中無處不在:「易見」、「顯然」、「類似地」、「不失一般性」、「經過簡單計算」、「眾所周知」、「留作練習」——每一個這樣的詞,都是一個未被填補的邏輯空間,作者把填補工作外包給讀者。讀者通常不真的去填——他默認作者已經想清楚了,於是腦補出一個合理的填法,繼續往下讀。

關鍵的觀察是:這些間隙是錯誤最容易藏身的地方。當作者寫「易見 A 蘊含 B」時,他可能真的見了,也可能沒真的見只是覺得應該是這樣,也可能 A 根本不蘊含 B 但作者在那個位置用了錯誤直覺。讀者沒有獨立檢驗,只有信任。如果有十個審稿人讀了這個證明,十個都信任了同一個間隙,這個錯誤就獲得了「十人交叉驗證」的虛假信用。

符號鏈在表面上是連續的,但實際上是離散的——它由若干個明確的符號操作和若干個未填補的間隙組成。間隙才是證明的真正脆弱性所在。一個聰明的(有意或無意的)套利者,只需要把錯誤藏在足夠多、足夠複雜的間隙中,他的證明就獲得了實質的免疫性——因為沒有讀者有時間和精力去填補所有間隙並獨立驗證。

間隙的存在不是壞數學寫作的標誌,它是幾乎所有數學寫作的標誌。如果一個證明完全沒有間隙,完全形式化到每一步都是純符號操作,它的長度會擴展到實際無法閱讀的程度。維護可讀性的代價是引入間隙;消除間隙的代價是放棄可讀性。這是一個結構性的權衡,不是個別作者的選擇——任何在實踐中可被閱讀的數學證明,都必然包含大量間隙。

但這個結構性權衡在認知套利的視角下有嚴重後果。它意味著真實證明與虛假證明的差別,在外觀上可以非常小——兩者都包含大量間隙,差別只在間隙背後是否有真實的填補。讀者無法從外觀區分兩者,只能透過信任做出判斷。當信任成為唯一的篩選機制,被信任的權威結構就決定了什麼被接受為真理,而這個權威結構本身受認知套利系統的塑造。

更深一層,間隙的填補方式影響後續工作。當讀者腦補出某個填補時,他不只是在理解原證明,他在創造一個原作者可能從未明確想過的東西。如果這個讀者後來成為作者,引用原證明來支持自己的工作,他引用的實際上是自己腦補的版本,而不是原作者的版本。腦補成為原始內容,並進入後續知識生產的鏈條。這個過程在數學史中可能比想像的更普遍——許多被廣泛引用的「定理」,可能在不同引用者的理解中是不同的東西,而這個差異很少被檢測,因為大家都用同樣的符號表述各自的版本。


第五章 歷史證據

前面幾章的論證可能聽起來抽象。本章透過具體歷史案例展示認知套利在數學中的實在性,讓論證落到可驗證的事實上。

第一個案例是十九世紀末到二十世紀初的義大利代數幾何學派。這個學派由 Castelnuovo、Enriques、Severi 等人領導,在當時主流數學界享有極高聲望,建立了大量被視為突破性的「定理」。但隨著時間推移,後續數學家(特別是 Zariski 和 Weil 等人)發現,該學派的許多證明依賴的「直觀」實際上是錯的。所謂的「定理」中,部分需要重新證明,部分需要修正,部分被發現原命題就是錯的。

這個案例的關鍵不是個別證明的錯誤——任何學科都有錯誤。關鍵是錯誤的系統性:整個學派的方法論依賴於某種共享的幾何直觀,而這個直觀在沒有形式化檢驗的情況下被廣泛使用。當 Zariski 等人開始堅持嚴格形式化時,他們發現需要花費幾十年重建該領域的基礎。這意味著該學派的「集體成果」中,有相當大的比例是建立在被認知套利機制保護的錯誤之上——錯誤之所以未被發現,是因為共享直觀的學派內部沒有人有動機質疑它,而學派外部的人不熟悉該領域的特殊術語,無法做有效質疑。

第二個案例是費馬大定理的早期證明嘗試。這個著名問題在 Wiles 於 1994 年完成證明之前,有過大量被宣稱的證明嘗試,其中許多在當時被部分數學界接受為正確,直到後來被發現有缺陷。這些被宣稱的證明涵蓋從十九世紀到二十世紀的大量工作,展示了即使在最知名、最受關注的問題上,錯誤證明也可以存活相當長時間並進入主流討論。

更值得關注的是 Wiles 自己的證明。1993 年發表的初版包含一個微妙錯誤,經過一年才被修補完成。這個錯誤躲過了初次發表時的審查——而初次發表的審查是由該領域最頂尖的專家進行的。這個案例展示,即使在最高層次的數學審查中,微妙錯誤仍然可能漏網。如果連這個級別的關注都不足以發現錯誤,普通數學論文中的錯誤被發現的機率就更低。

第三個案例是 Mochizuki 的宇宙際 Teichmüller 理論(IUT)聲稱證明 abc 猜想。這個案例展現了認知套利的極端情況。論文長達數百頁,使用作者自創的符號系統,全球能聲稱讀懂的人不超過十幾個,而這些人之間嚴重分歧。經過十年爭議,該證明仍處於「被部分接受、被部分拒絕」的狀態。日本數學界中部分人接受該證明的有效性,西方主流數學界中大多數人不接受。

這個案例的關鍵不是判斷誰對誰錯,而是展現「被證明」這個概念本身在某些情境下失去意義。當一個證明的複雜度超過獨立驗證的物理能力時,該證明既無法被確認為正確也無法被確認為錯誤——它進入一個被動的不確定狀態,不同陣營按各自的信任結構做出不同判斷。在這個狀態下,「證明」變成了社會共識的問題,而不是邏輯驗證的問題。這正是認知套利系統理論預測的結果——當驗證盲區足夠深,真理就被社會權威結構決定

第四個案例,也是最具教訓性的,是 Vladimir Voevodsky 的自我發現。Voevodsky 是 Fields 獎得主,代數幾何領域的頂尖數學家。在 2000 年代後期,他公開承認自己過去的論文中存在錯誤——這些錯誤在傳統證明審查中沒被發現,但會被形式化驗證系統立刻檢測。他將這個發現的衝擊轉化為餘生的工作方向,推動數學的形式化基礎建設(Univalent Foundations 計劃)。

Voevodsky 的證詞極為珍貴,因為它來自系統內部的最頂尖人物。當這個層級的數學家公開說「我自己的論文中有錯,而傳統審查沒抓出來」時,他的證詞本身就是本文論證的最強驗證。如果 Fields 獎得主的論文都有未被檢測的錯誤,普通數學家的論文中錯誤的比例只會更高。這不是個別失誤,是系統性現象。

但需要注意,Voevodsky 在數學界仍是少數聲音。主流的回應是「形式化太慢、太麻煩、不必要」——而這個回應本身就是認知套利系統的免疫反應。系統拒絕一個會暴露它病理的工具,正是系統病理存在的證據。如果傳統審查真的足夠檢測錯誤,為什麼 Voevodsky 自己會在傳統審查通過後仍然發現自己論文有錯?如果形式化「不必要」,為什麼一個 Fields 獎得主會將餘生投入推動形式化?這些反問的答案,主流數學界沒有令人信服的回答,於是選擇不正面討論。


第六章 形式驗證的承諾與限制

面對前述問題,主流的解決方向是形式驗證——用 Coq、Lean、Isabelle 等定理證明助手,將證明完全形式化,每一步由電腦機械檢驗,沒有間隙存活空間。當所有重要定理都被形式驗證後,認知套利在數學中將無處藏身。本章評估這個方向的承諾與限制。

形式驗證的承諾是真實的。它在原則上能夠消除符號間隙——形式化的證明沒有「易見」這類詞,每一步都是明確的符號操作,可以被電腦自動檢驗。當一個定理被形式驗證後,我們對它的信心程度應該顯著高於對未形式化證明的信心,因為驗證機制不依賴人類的信任結構。

近年來形式驗證取得了顯著進展。四色定理、Kepler 猜想、Feit-Thompson 定理等重要結果已經被形式驗證。Lean 社群正在建立 mathlib 這個雄心勃勃的形式化數學庫,涵蓋從基礎代數到現代代數幾何的大量內容。這些工作展示了形式驗證在實踐上的可行性。

但形式驗證有兩個重要保留必須被準確標記。

第一個保留是形式化的成本極高。將一個非平凡的數學證明轉換為 Lean 可以驗證的形式,通常需要原證明者(或專門的形式化團隊)幾個月到幾年的工作。整個現代數學的存量,如果都要形式化,需要數十萬人年的工作。這個工程在實踐中遠遠跟不上新數學的產出速度——形式化的累積速度低於認知套利的累積速度。換言之,即使形式驗證在原則上能解決問題,它在實踐中可能永遠落後於問題的成長,使大部分數學在任何時間點都仍然處於未形式化狀態。

第二個保留更深刻,是形式化系統本身的元真理性無法在系統內驗證。當你用 Lean 驗證一個證明,你信任的是 Lean 本身的核心(其檢驗器)沒有 bug,信任的是 Lean 所基於的類型論系統沒有矛盾,信任的是執行 Lean 的編譯器沒有錯誤,信任的是運行編譯器的硬體沒有故障。這些信任構成一個塔,塔的底層仍然是非形式的——某個人類在某個時刻決定「這個系統可以信任」。形式驗證不消除信任,它只是把信任集中到較少、較穩固的地方

這個觀察實際上是 Gödel 定理的某種推廣後果。任何足夠強的形式系統,都不能在自身內證明自身的一致性。這意味著當我們用 Lean 驗證證明時,我們並沒有「絕對證明」這個證明是對的——我們只是把對該證明的信任轉化為對 Lean 的信任。這個信任的轉化是有價值的,因為對 Lean 的信任比對個別人類審稿人的信任更穩固、更可檢測、更可被多方獨立評估。但它仍然是信任,不是絕對驗證。

這兩個保留的綜合含義是:形式驗證是一個強的部分解決方案,不是完整解決方案。它能大幅縮減認知套利空間,但無法完全消除。它能將我們對重要定理的信心提升到更高水平,但這個水平仍然不是「絕對確定」。任何足夠大的形式系統,在它的元層次上仍然依賴非形式的判斷——這是任何聲稱「形式驗證解決了一切」的主張都需要面對的限制。

更實際的問題是,形式驗證需要被驗證的對象先被翻譯為形式化語言,而這個翻譯過程本身就可能引入錯誤——翻譯者可能誤解原證明,或選擇了不正確的形式化方案,或漏掉了原證明的某個微妙條件。這意味著形式驗證的可靠性最終仍然部分依賴於翻譯的正確性,而翻譯的正確性沒有形式化的判準。這個遞迴的驗證問題,在形式驗證社群內部已經被討論,但對外部世界來說,它通常被簡化為「形式驗證消除了不確定性」這個過於樂觀的口號。


第七章 個體層的對抗工具:強迫翻譯為可執行程式碼

如果形式驗證在系統層需要幾十年才能覆蓋現代數學的大部分,個體研究者在當前如何對抗認知套利?本章提出一個輕量級、可立即實踐的個體工具,並論證其有效性的機制。

工具的描述極為簡單:將你想要評估的數學論文中的關鍵論證,強迫翻譯為可執行的程式碼,並執行它。如果論文有實質內容,你能寫出對應的程式碼;如果論文有套利成分,你會在某個位置寫不出來,而那個位置就是論文的真實脆弱性所在。

這個工具的力量,不在於程式碼比數學嚴格——程式語言本身也不完備,有自己的型別歧異、運行時錯誤、近似誤差等問題。力量在於程式碼有一個數學論文沒有的東西:強制執行

數學證明的讀者可以滑過間隙——「易見」、「顯然」、「類似地」這些詞讓讀者腦補填補。但程式碼的編譯器和執行環境不會腦補。你寫到某一行,變數沒定義,就是錯;函數簽名不匹配,就是錯;邏輯走到一個 case 沒處理,就是錯;迴圈條件寫錯,就是無限執行或結果錯誤。電腦是一個沒有禮貌的讀者——它不會假裝看懂你不清楚的地方。

這個「沒有禮貌」是關鍵。學術讀者面對作者的間隙時,默認反應是「作者已經想清楚了,只是我沒看出來」,於是腦補出一個合理的填補,繼續前進。電腦面對程式碼的間隙時,默認反應是「我不知道你這裡要做什麼,所以我拒絕執行」。前者把驗證壓力外包給讀者,後者把驗證壓力強加給作者。這是兩個方向完全相反的訊息結構。

當你把一個數學證明強迫轉成可執行程式碼時,你強制讓所有間隙顯化。每一個原本可以用「易見」帶過的步驟,現在必須變成具體的函數、具體的型別、具體的計算步驟。如果作者真的想清楚了那一步,你能寫出對應的程式碼;如果作者只是用「易見」掩蓋了自己沒想清楚的地方,你會發現自己寫不出來——而你寫不出來的位置,就是論文的真實脆弱性所在。

這個方法的力量不在於它證明了論文錯,而在於它強迫論文交出它的真實內容。論文如果真的有實質內容,你能轉出可執行版本;論文如果只是符號表演,你會發現自己在某個位置卡住,而那個位置的卡住不是你能力的問題,是那個位置在原文中根本沒有真正被填補

從更高層次看,這個方法對應的是多語言交叉驗證的一個特例。任何單一形式系統都有自己的盲區。數學符號系統的盲區是「易見」這類間隙詞;程式碼的盲區是型別歧異、無限遞迴、浮點誤差等技術限制。單一系統內部的盲區無法被該系統檢測——這是 Gödel 式的結構性限制。但當你把一個系統的內容強制翻譯到另一個系統時,兩個系統的盲區位置不同,於是一個系統的盲區會被另一個系統暴露出來。

數學的「易見」間隙在程式碼中暴露為「無法寫出對應實作」;程式碼的型別歧異在數學中可能對應於某個被作者忽略的條件分支。兩個系統不能個別檢驗自己,但兩者的交叉翻譯可以彼此暴露對方的問題。這是多元外部驗證這個解毒劑在個體層的具體實踐——個別研究者就是那個多元驗證的執行者。

需要明確標記這個工具的限制。它有三層保留:

第一層,程式語言的型別系統與表達能力有限。任何具體的程式語言都有它無法表達或難以表達的東西。一個真實的數學內容,可能在某個程式語言中難以表達,但這不代表內容本身是錯的。

第二層,訊息轉譯的失真。從數學語言到程式碼的翻譯不是一對一的——同一個數學概念可以有多種程式實作,不同實作對細節的處理不同。例如「實數」在數學中是一個明確的對象,但在程式碼中必須選擇浮點數(有精度損失)、有理數(計算慢)、符號計算(複雜度高)、或構造性實數(極為複雜)。每種選擇都引入翻譯失真。

第三層,圖靈完備不等於概念完備。圖靈機在計算理論意義上是完備的——任何可計算函數都可以被圖靈機計算。但「可計算」這個概念本身,不涵蓋所有的數學內容。許多數學陳述涉及不可計算的對象(如不可數無窮、實數的完整性、選擇公理導出的對象)。這些對象在數學中是合法存在,在程式碼中無法被直接實作,只能透過某種有限近似或符號操作模擬。程式碼可以驗證的數學內容是真實數學內容的一個真子集——某些數學論證在原則上不能透過程式碼驗證,但這不代表它們是錯的。

這三層保留的綜合含義是:「轉程式碼」是一個強的部分驗證工具,不是完整驗證工具。它能暴露很多認知套利,但不能暴露全部;它能確認很多真實內容,但不能確認全部。它的價值在於它捕捉的是數學論文中最常見的一類錯誤——那些原本可以被填補但沒被填補的間隙——而這類錯誤恰恰是認知套利的主要藏身處。


第八章 與構造主義數學傳統的內在聯繫

本章建立的個體層工具,並非全新發明——它與數學基礎研究中一個正在發展的傳統有深刻的內在聯繫,雖然這個聯繫可能不是直觀可見的。本章揭示這個聯繫,將個體工具置於更廣的歷史脈絡中。

二十世紀的構造主義數學(由 Brouwer 開創,經 Bishop 等人發展)主張「存在」必須意味著「能被構造」——任何宣稱某對象存在的證明,必須能給出構造該對象的程序。這個主張與經典數學的「存在」概念有重要區別:經典數學接受非構造性存在證明(例如反證法證明某對象存在,但不給出該對象的構造),構造主義拒絕這類證明。

這個主張在當時被主流數學界(Hilbert 學派)視為過於苛刻而被拒絕。Hilbert 著名地說:「沒有人能把我們從 Cantor 為我們創造的天堂中趕出去」——意指經典數學的非構造性方法所開拓的天地,不應因哲學顧慮而被放棄。在這場爭論中,Hilbert 的立場主導了二十世紀的數學發展,構造主義被邊緣化。

但構造主義在計算機時代獲得了新生。當 Curry-Howard 對應(命題即型別,證明即程式)被建立後,構造性證明與程式碼之間的等價性成為形式化的事實——一個構造性證明,在嚴格意義上,就是一個程式;反之亦然。Per Martin-Löf 的型別論、Coq 與 Agda 等證明助手、近期的 Univalent Foundations 與 Homotopy Type Theory 都在這條路徑上發展。

關鍵的觀察是:「將數學證明翻譯為可執行程式碼」這個操作,在構造主義的視角下,正是檢驗該證明是否為真實構造性證明的方式。如果證明是構造性的,它對應一個程式;如果證明是非構造性的(例如使用了排中律或選擇公理的非構造性版本),它可能不對應任何明顯的程式,需要額外工作才能形式化。本章前面描述的個體工具,實質上是讓使用者親身體驗構造主義對「存在」的嚴格要求——你必須能寫出來,才算真的有。

這個聯繫有兩個重要含義。

第一,個體工具的有效性不是偶然,而是有深厚的數學哲學基礎。當你用「能否寫成程式碼」作為論證實質性的判準時,你實際上在重演構造主義對主流數學的批判,只是用個體實踐而非哲學論辯的形式。一個世紀前 Brouwer 與 Hilbert 的爭論,在你電腦螢幕上以微觀形式重現——你在每一個你寫不出程式碼的位置,正是一個世紀前構造主義者指出的「存在但無法構造」的位置。

第二,這個工具有它的哲學限制——對於本質上非構造性的數學內容,它會給出「假陽性」的警報。例如選擇公理的某些應用,在經典數學中是合法且重要的,但在程式碼中無法直接實作。如果你用本章工具評估這類內容,你會在那裡寫不出程式碼,但這不代表內容是套利——它只是非構造性的。判斷「寫不出程式碼」是因為非構造性還是因為套利,需要使用者自身的數學素養——這是工具的限制,也是它要求使用者具備的最低門檻。

這個限制可以被反過來看作一個特性:工具迫使使用者在每個寫不出程式碼的位置做出明確判斷——這裡是非構造性必然(可被接受的)、還是套利掩蓋(應被拒絕的)?這個判斷的累積,訓練使用者建立對數學內容的更精細鑑賞力,讓他能區分「真實的非構造性深度」與「偽裝為深度的空洞」。在認知套利大行其道的環境中,這種鑑賞力本身就是稀缺資源。


第九章 數學家認知與 AI 生成的形式同構性

本章建立一個進一步的觀察,連接數學認知套利與當代 AI 系統的幻覺現象——這兩個看似無關的問題,在認知機制的層次上有驚人的同構性。

人類數學家寫證明的過程,在認知機制上驚人地類似於語言模型生成文本的過程

數學家在某個概念位置上,根據訓練(教育)中見過的類似情境,「直覺」下一步應該怎麼走。這個直覺通常是對的,因為訓練數據(他學過的數學)中包含了大量類似情境的正確走法。但有時這個直覺是錯的,特別是在訓練數據沒有充分覆蓋的新情境中。當直覺錯了,他不會立刻知道——他會繼續寫,因為錯誤的下一步在符號層上看起來和正確的下一步沒有差別。

這個機制和 AI 生成幻覺的機制形式上是同一個。差別只在訓練語料的規模和執行的速度。人類數學家有更深的概念理解(在某些意義上),但他也更慢、更容易疲勞、更傾向於在習慣路徑上滑行。AI 有更廣的訓練語料(在某些意義上),但缺乏深層概念校驗。兩者都是模式匹配機器,差別在參數量級和訓練方式

這個同構性有一個尖銳的推論:數學幻覺與 AI 幻覺不是兩個現象,是同一個現象在不同實現上的展現。人類數學家的「直覺錯誤」就是人類版本的幻覺;AI 的幻覺就是模型版本的數學家直覺錯誤。兩者共享同一個結構——在符號操作層維持流暢與內部一致,但在概念層偶爾與真實脫節,且脫節無法被符號操作本身檢測。

這個觀察可以被進一步具體化。實際的數學家是:擁有大量碎片化的概念、定理、技巧,儲存在記憶中的不同位置,彼此連接稀疏。在做新工作時,他從這些碎片中提取看起來相關的部分,組合它們,強迫自己將組合過程寫成看起來連續的線性推理。

這個「強迫」是關鍵。真實的思考過程是非線性的、並行的、跳躍的、充滿錯誤分支的。寫成論文時,作者必須將這個混亂的過程包裝為從前提到結論的清晰鏈條——因為這是學術寫作的格式要求。但這個包裝過程本身,就是錯誤滋生的溫床。真實的思考路徑與最終呈現的線性鏈條之間有巨大的訊息失配——許多在真實思考中閃過但被丟棄的分支,可能正是最後論文中錯誤所在;許多在線性鏈條中看起來「易見」的步驟,在真實思考中其實是猜出來的、賭出來的、湊出來的。

讀者讀到的是線性鏈條,以為作者是這樣思考的。作者本人寫完之後,有時也會以為自己是這樣思考的——人類記憶會被當前敘事重新塑造。論文成為一個既騙讀者也騙作者的文物

這就是為什麼數學認知套利特別陰險——它不是壞數學家在欺騙好讀者,它是整個學科的寫作格式強迫所有參與者將非線性的真實認知壓縮為線性的虛構敘事,而這個壓縮過程本身製造間隙、隱藏錯誤、放大套利空間。

當代 AI 系統的設計,本質上是在訓練機器模仿這個被人類學術文化壓縮過的線性敘事。模型學到的不是「人類如何真實思考」,而是「人類如何將真實思考偽裝為線性敘事的最終產物」。模型擅長生成這種線性敘事,因為這正是它的訓練目標。但這個擅長並沒有讓它接近真實思考——它只是讓它擅長產出與人類學者一樣的偽裝。

這個觀察解釋了 AI 在數學任務上的特殊表現——它在表面看起來「會做數學」,能生成看起來像證明的內容,但在被認真檢查時經常出錯。它的錯誤不是隨機的,而是系統性的——錯在那些人類數學家也容易錯的位置(間隙、易見、跳躍),用同樣的形式偽裝(流暢的線性鏈條)。它沒有學會做數學,它學會了模仿做數學的人——而做數學的人本身就在進行某種程度的套利。


結語

本文的論證可以濃縮為一個核心命題:數學不是認知套利的免疫區,而是它的最高風險區。這個地位建立在三個結構性條件之上——形式權威最高、真正能檢驗者最少、驗證盲區最深;它透過兩個物種的套套邏輯具體實現——有意識的包裝與無意識的符號自欺;它在符號間隙中找到天然的藏身處;它在歷史上有大量已被部分發現的證據;形式驗證能部分對抗它但有原則性限制;個體研究者可以透過將證明翻譯為可執行程式碼來在個體層暴露它;這個工具與構造主義數學傳統有深刻的內在聯繫;它與當代 AI 系統的幻覺現象在認知機制上同構。

這個命題的危險之處在於它觸碰學術系統最後的安全敘事。對於人文社科學的認知套利,辯護者可以說:「那些領域本來就軟,不像數學那麼硬。」對於 AI 幻覺,辯護者可以說:「那是技術問題,會被修復的,不影響真實知識的可靠性。」但數學是學術系統的根基敘事——它聲稱自己是「最嚴格的學科」,聲稱其他領域應該以它為榜樣,聲稱「至少在這裡,真理是無爭議的」。如果連數學都是認知套利的高風險區,那麼學術系統的整個合法性敘事就失去了根基。

本文不是主張數學的所有結論都是錯的,也不是主張數學家普遍不誠實。絕大多數被廣泛使用的數學結果是真實可靠的——它們經受了大量間接驗證,透過後續工作的成功使用、跨領域的應用、與其他結果的一致性。本文針對的是更精確的層次:「數學等於嚴格」這個被當作預設的等式,以及這個等式如何使數學成為認知套利在學術系統中最有效的避風港。預設等式的鬆動,不會推翻數學的成就,但會強迫數學共同體更誠實地面對自己的方法論限制——而這個誠實本身就是數學長期健康的條件。

對個體研究者,本文提供了一個可立即實踐的工具:當你不確定某個數學論證是否實質,試著把它寫成可執行程式碼。寫得出來,它有實質;寫不出來,你需要進一步追問——是論證有套利成分,還是內容本質上非構造性?這個追問本身,就是對抗認知套利的個體層實踐。

對學術共同體,本文呼籲對形式化的更嚴肅投入——不是把它當作可選項,而是當作對抗系統性病理的必要工具。Voevodsky 的選擇展示了一條可能的路徑——一個 Fields 獎得主將餘生投入推動形式化基礎建設,這個選擇的正確性會在足夠長的時間尺度上被驗證。

對 AI 安全研究,本文指出一個被忽略的維度——當代 AI 系統繼承了人類數學寫作的所有套利結構,因為它的訓練目標就是模仿人類的線性敘事。修復 AI 的數學能力,不能只在模型側做工作,還需要從根本上重新思考「如何讓機器接觸真實的數學思考,而不只是它的線性敘事偽裝」。這是一個遠未被認真討論的問題,但它的重要性會隨著 AI 系統在數學任務中扮演越來越大的角色而上升。


哲學結語

嚴格從來不是一個已達成的狀態,而是一個無止境的趨近過程。當一個學科宣稱自己已經達到嚴格,它就停止趨近,變成表演嚴格的儀式。真正的嚴格不是符號的堆疊,而是對符號間隙的持續凝視——凝視那些我們不知道自己不知道的地方,凝視那些「易見」一詞掩蓋的深淵。在這個意義上,數學的真正進步不是定理的累積,而是一代又一代數學家把上一代以為「易見」的東西,變成需要被重新追問的問題。每一次追問,都是對認知套利的一次微小但真實的對抗。

電腦最深刻的價值不在於它能計算,而在於它不能假裝看懂。在一個所有人類讀者都被訓練成禮貌地腦補作者間隙的世界裡,電腦保留了「這裡我不懂」這個原始能力。把不懂宣告為不懂,在學術市場中是極稀缺的德性,也是人類讀者越來越難維持的德性。在這個意義上,程式設計訓練不只是技術訓練,是認知誠實的肌肉訓練——它讓你練習用一個不會腦補的視角審視所有符號系統。當你把這個視角帶回到數學論文上,你看到的不再是「被嚴格證明的真理」,而是「等待被獨立驗證的主張」。差別在於前者已經被學術權威結束了討論,後者保留了真理仍可能被修正的可能性——而這個可能性,正是真理本身的存活條件。

剩下的事,屬於每一個願意親自寫程式碼驗證的個體。


全文完 2026年4月

許筌崴(Neo.K)

原始檔(供 RAG/下載):papers/paper-297.md [md]