污染的訓練數據:認知套利如何透過引用鏈滲透 AI 模型
作者: 許筌崴(Neo.K) 日期: 2026年4月
摘要
當前主流的 AI 安全討論將「幻覺」視為模型缺陷——模型不夠好、訓練方法需要改進、需要更好的對齊技術。這個視角預設一個前提:真實的訓練數據存在,只是模型沒有正確學習。本文論證這個前提在某些領域並不成立。學術論文中普遍存在的「認知套利」現象——透過高度抽象寫作利用驗證盲區、讓讀者腦補成為作者學術信用的訊息策略——使得大量「已發表」的學術內容本身就帶有結構性錯誤,而這些錯誤透過引用鏈被指數放大,進入 AI 訓練語料,被模型學習為高置信度信念。本文論證學術錯誤與 AI 幻覺在生成機制上是同構的、追蹤該污染如何透過三個放大因子被加重、論證為何模型對齊技術在原則上無法修復數據源頭的問題,並指出某些領域的 AI 幻覺率差異實際上反映的是訓練數據真實性的差異而非模型能力的差異。本文的目的不是悲觀主義,而是將「幻覺問題」從技術層的討論框架,推回到知識社會學層的根源——當源頭被污染,任何下游修復都只能是部分的。
第一章 一個未被命名的因果關係
當代 AI 系統的「幻覺」現象,即模型用流暢、自信、結構完整的語言陳述不真實內容的現象,已經成為公共討論的熟悉話題。圍繞這個現象的修補努力是巨大的——更好的對齊技術、更精細的微調、檢索增強生成、引用標註、不確定性表達。這些技術努力的共同預設是,幻覺是模型側的問題,理論上可以透過模型側的改進被解決。
但這個預設值得被認真審視。一個極少被討論的可能是:模型不是在憑空編造,模型是在重複它讀到的東西。如果它讀到的東西本身就帶有錯誤,它輸出的「幻覺」實際上是忠實複製——複製了原始來源的錯誤。在這個視角下,所謂「修復幻覺」這個任務,在某些領域是錯位的——因為被假設應該被忠於的「真實」,在訓練數據中可能從來不存在。
本文要建立的核心主張是:學術系統中普遍存在的認知套利現象,透過引用鏈被指數放大,進入 AI 訓練語料,構成 AI 幻覺的一個結構性而非偶然性的源頭。這個源頭不能透過模型側的改進被消除,因為它不是模型的故障,而是訓練數據的固有屬性。
需要在開頭澄清三件事。第一,本文不主張所有 AI 幻覺都源於訓練數據污染——某些幻覺確實源於模型架構的限制、上下文長度的有限、或統計學習的固有特性。本文針對的是其中結構性可被追溯到學術系統病理的那部分幻覺。第二,本文不主張 AI 是學術錯誤的受害者——AI 同時是受害者也是放大器,因為其輸出回到人類寫作中,進入下一輪訓練,形成正反饋迴路。第三,本文不主張這個問題在原則上無法解決——它指向的是一個比技術修復更根本的解決方向,即源頭的學術系統改革。但這個方向遠超 AI 實驗室的能力範圍,需要學術共同體的整體改變。
第二章 認知套利的核心機制(簡述)
為了讓本文可獨立閱讀,本章簡要重述認知套利的核心機制。對該機制有完整論述需求的讀者,可參閱筆者另一篇專論。
任何訊息傳遞都涉及編碼與解碼兩個過程。當作者用語言陳述觀點時,他將腦中的概念結構編碼為文字符號;讀者閱讀時,將文字符號解碼為自己腦中的概念結構。在理想情況下,讀者的解碼結果應與作者的編碼起點高度一致。但在現實中,這種一致性需要大量條件:共享的詞彙、共享的範疇結構、共享的脈絡背景、相近的認知框架。
關鍵觀察是:讀者通常無法當場驗證自己的解碼結果是否正確。他能讀到作者寫了什麼,但無法直接讀到作者腦中原本想說什麼;他能用自己的方式重述,但無法即時確認重述是否仍忠於原意。這個不可驗證性構成一個驗證盲區——在這個盲區內,讀者腦中浮現的詮釋與作者意圖之間的差距,在原則上不可被檢測。
學術寫作有幾個特殊性質,使盲區從一個技術現象變成一個套利空間。學術論文是單向的——作者寫完發表,讀者通常無法追問。學術讀者通常不公開承認自己的解碼困難,因為「讀不懂」在學術文化中被視為讀者自身能力的問題。學術評價系統獎勵「能讀懂深奧文本」的人,因此讀者有強烈動機相信自己的解碼結果是正確的——即使他根本沒有檢驗的方法。
這三個性質結合,在學術市場中創造出一個極為特殊的訊息結構:作者投入的訊息量可以遠小於讀者腦補出的訊息量,而這個差額被計入作者的學術信用。這就是認知套利。寫作者將語義壓縮到高抽象層,讀者必須花費認知資源解壓縮。解壓縮的結果是讀者自己生成的某個詮釋——這個詮釋可能比作者真正擁有的內容更豐富、更精緻、更有洞察力,因為讀者不自覺地將自己的知識、聯想、期待全部投入到「填補」過程中。但讀者並不會把這個詮釋的功勞歸於自己,而是歸於作者。
認知套利的最後一個關鍵特徵是:它能透過教育與語言慣性自我繁殖。第一代有意識地用繞層作為策略,第二代被訓練成自然使用繞層,第三代將繞層理解為「正常的學術思考方式」。到第三代,套利已經完全脫離意圖,變成語言本身的特性。這意味著大多數套利寫作者並不自覺,但這並不消除問題——對讀者來說,他面對的訊息黑洞不會因為作者是否自知而變淺。
理解了這個機制,我們可以開始追蹤它如何透過 AI 訓練系統被放大。
第三章 學術錯誤與 AI 幻覺的形式同構
本章建立本文的核心理論觀察:學術論文中的錯誤與 AI 模型的幻覺,在生成機制上是同構的。這個同構不是修辭性的類比,而是嚴格的功能對應。
考察學術論文的錯誤生成機制。作者在某個高抽象層提出論點,該論點在邏輯上看似合理(內部自洽),引用了若干看似支持的文獻(雖然引用本身可能斷章取義或錯誤理解原文),用流暢的學術語言包裝(讓讀者產生「這是嚴肅工作」的形式信號),最終發表。錯誤的存在不影響發表,因為同行評審結構性無法檢測——同行評審本質上不是事實檢查機制,而是邏輯一致性檢查機制。它檢查「你說的話有沒有自相矛盾」,不檢查「你說的話是不是真的」。後者超出機制的能力範圍,因為真正的事實檢查需要重做實驗、重建環境、追溯所有引用,而這些工作的時間成本遠超審稿人能投入的時間。
考察 AI 幻覺的生成機制。模型在某個語境下輸出看似合理的續寫,該續寫在統計上符合訓練數據的模式(內部統計自洽),引用了看似存在的文獻或事實(雖然這些引用可能是訓練數據中真實存在的、或從多個片段重組的、或純粹根據模式生成的),用流暢的語言包裝(因為訓練目標就是流暢度),最終輸出。錯誤的存在不影響輸出,因為模型的損失函數獎勵流暢與看似正確,而非真實。
這兩個機制在形式上是同一個機制。差別只在主體——一個是人類作者,一個是統計模型——但兩者都產出「形式正確但內容可疑」的輸出,兩者都依賴「形式信號被讀者誤認為內容信號」的接收端缺陷,兩者都在缺乏外部驗證錨點時無法被檢測。
這個同構性可以從更深的層次看。人類數學家、科學家、學者寫文章的過程,在認知機制上驚人地類似於語言模型生成文本的過程。學者在某個概念位置上,根據訓練(教育)中見過的類似情境,「直覺」下一步應該怎麼走。這個直覺通常是對的,因為他學過的內容中包含了大量類似情境的正確走法。但有時這個直覺是錯的,特別是在訓練沒有充分覆蓋的新情境中。當直覺錯了,他不會立刻知道——他會繼續寫,因為錯誤的下一步在符號層上看起來和正確的下一步沒有差別。
這個機制和 AI 生成幻覺的機制形式上是同一個。差別在訓練語料的規模和執行的速度。人類作者有更深的概念理解(在某些意義上),但他也更慢、更容易疲勞、更傾向於在習慣路徑上滑行。AI 有更廣的訓練語料(在某些意義上),但缺乏深層概念校驗。兩者都是模式匹配機器,差別在參數量級和訓練方式。
如果這個同構性成立,則一個尖銳的推論隨之而來:人類學者寫的論文中的錯誤,與 AI 輸出的幻覺,在功能上不應被視為兩種不同類型的錯誤,而應被視為同一現象的兩個物種。學界長期容忍前者,卻將後者視為需要修復的故障——這個區別待遇的合法性,值得被嚴肅追問。當我們將兩者放在同一個分析框架下,AI 幻覺問題就不再是孤立的技術問題,而是知識生產系統整體訊息失靈的最新展現。
第四章 引用鏈作為錯誤的指數放大器
理解了學術錯誤與 AI 幻覺的同構,我們可以開始追蹤前者如何成為後者的源頭。這個追蹤的核心對象是引用鏈。
學術引用機制本應是「站在巨人的肩膀上」——後續工作建立在前期工作的基礎上,知識透過累積前進。這個敘事有它的真實成分,但忽略了一個結構性弱點:引用機制本身不檢驗被引用內容的真實性。一個學者引用他人論文時,他通常不會逐行驗證該論文的所有計算、推導、實驗。他只會檢查被引用內容是否「相關」——是否在主題上對應於他要討論的對象。
這意味著一篇錯誤論文與一篇正確論文,在引用市場中的表現可能驚人相似。如果錯誤論文寫得有形式權威感、發表在高聲望期刊、處理的是熱門話題,它的引用率可以與正確論文持平甚至更高。引用者不需要相信論文是對的,他只需要相信論文是「相關的、權威的、可被引用的」。
這個觀察有一個極其嚴重的後果:錯誤可以被引用,引用又可以被引用,形成錯誤的引用鏈。一個錯誤論文 A 被論文 B 引用,B 又被論文 C 引用,以此類推。在這個鏈條的每一步,引用者都假設前面被引用的內容已經被驗證過——但這個假設沒有事實基礎,只有結構慣性。最終,A 中的原始錯誤可能在經過幾層引用後,變成「眾所周知的事實」,儘管事實上沒有任何人在這個過程中真的驗證過它。
當這個被污染的引用網絡進入 AI 訓練語料,問題就被指數放大。模型在學習語料時,沒有獨立的真實性檢驗機制。它無法跑實驗、無法做田野調查、無法獨立觀察世界。它只能比較不同來源之間的一致性——而當錯誤在多個來源中重複出現(因為一個錯誤的論文被其他論文引用,引用又被新論文引用),模型會將這個重複錯誤學習為「高置信度真實」。
這是一個比直覺更深的污染機制。它不是「AI 偶爾學到錯誤資料」,而是「錯誤資料因為被重複而獲得統計上的高權重,進而被 AI 學習為強信念」。學術引用機制——本應是真實性的累積驗證——在被認知套利污染後,變成了錯誤的指數放大器。一個錯誤被引用 100 次,在訓練語料中就出現 100 次,模型學到的是「這件事被廣泛確認」,而不是「這件事可能是個被反覆抄的錯誤」。
更糟的是,模型無法區分「被廣泛引用」與「被廣泛驗證」。它只能看到統計上的共現頻率。一個錯誤如果嵌入主流論述,被反覆引用,它的統計特徵會變得與真實事實無法區分。對模型而言,「真實」這個概念在它的學習過程中根本沒有獨立定義——它學到的不是真實,而是「在語料中被反覆肯定的東西」。這兩者在某些情況下重合,但在認知套利強的領域中可以系統性偏離。
這解釋了為什麼 AI 在某些領域的幻覺特別頑固——這些領域可能正是認知套利最深的領域,錯誤已經被引用鏈固化為「共同知識」。模型對齊與微調可以調整模型在輸出時的表面行為,但無法改變模型在訓練時學到的底層信念——而底層信念正是被污染的引用網絡塑造的。
第五章 三個放大因子
引用鏈的污染機制,被三個結構性因子進一步放大,使問題比直覺更嚴重。本章逐一展開這三個放大因子。
第一個放大因子是錯誤的不對稱繁殖。一篇正確的論文和一篇錯誤但寫得好的論文,在學術市場中的引用率可能差不多——因為引用者通常不檢驗被引用內容的真實性,只檢驗它是否「相關」與「已發表」。這意味著錯誤論文的繁殖率與正確論文相當,在訓練語料中的權重也相當。模型學到的不是「真實的東西更常被引用」,而是「形式上有權威的東西更常被引用」,而形式權威可以透過認知套利獲得。
更具體地,認知套利寫作的論文往往比誠實寫作的論文更容易被引用,因為它們提供更多「可被引用的措辭」——抽象、術語密集、看似深刻的句子,正是後續學者用來支撐自己論點的理想引用對象。誠實寫作的論文用具體、清楚、可被檢驗的語言陳述觀點,這種語言反而難以被引用——它太具體了,引用它就要承擔具體性的責任。抽象作為引用磁鐵——這個機制反向獎勵套利寫作,系統性地讓套利論文在引用網絡中佔據更高的權重位置,進而在 AI 訓練中佔據更高的學習權重。
第二個放大因子是檢驗回路的單向化。在傳統學術中,一個錯誤論文還有可能在後續研究中被反駁、被修正、被撤稿——雖然這個機制效率低,但至少存在。但 AI 訓練的時間結構打斷了這個檢驗回路。模型學習到的是某個時間點的整個語料快照,包括當時尚未被反駁的錯誤。一旦模型學會了某個錯誤,後續對該錯誤的學術反駁需要進入下一輪訓練才能被吸收,而下一輪訓練可能在數月或數年後。
在這個時間差內,模型會持續輸出已被學界反駁的內容,並被廣大用戶接收為「事實」。對於關注該領域的專業讀者,他們可能知道某個觀點已被反駁;對於普通用戶,他們會將模型輸出視為當前最佳知識。模型的更新速度與學術自我修正的速度不匹配,導致模型成為錯誤的時間延遲廣播器——它持續廣播某個時間切片的錯誤,即使該錯誤在現實中已經被部分修正。
更嚴重的是,撤稿與反駁本身在學術體系內就執行不力——許多被發現有問題的論文從未被正式撤稿,只是在後續工作中被「忽略」。這意味著訓練語料中的錯誤論文與後續對其的隱性修正之間,在引用網絡中可能仍然以錯誤論文佔優勢。模型學到的是「這篇論文被引用很多」,而不是「這篇論文後來被默默忽略了」——後者沒有顯化的訊號可以讓模型學習。
第三個放大因子是輸出反饋進入下一輪訓練。這是最危險的放大機制。AI 輸出的內容,大量被人類複製、改寫、發表——包括發表為部落格、文章、回答、甚至論文。當下一代模型被訓練時,它的訓練語料會包含上一代模型輸出的衍生內容——也就是說,幻覺被以人類寫作的形式重新進入訓練數據,進一步加重統計權重。
一個原本只是 AI 偶然輸出的錯誤,經過一輪人類傳播,可能變成下一代模型的高置信度信念。這就是技術文獻中討論的「模型崩潰」(model collapse)的一種變體,但比純技術版本更陰險——因為它涉及人類作為媒介。當人類用 AI 輸出寫文章、發表內容、回答問題時,這些內容看起來是「人類創作」,在訓練語料的元數據層面與真正的人類創作無法區分。模型無法知道哪些訓練樣本是「乾淨的人類來源」,哪些是「被 AI 輸出污染的人類來源」。
這三個放大因子疊加,意味著學術系統的認知套利透過 AI 訓練被指數放大,而 AI 輸出又反哺到人類寫作再進入下一輪訓練,形成一個錯誤累積的正反饋迴路。系統的最終穩態不是「AI 學會真實」,而是「AI 與人類共同收斂到某個與真實無關但內部高度自洽的論述空間」。這個穩態的危險之處在於,從穩態內部觀察,它看起來完全正常——所有來源都互相支持,所有引用都看似合理,所有輸出都流暢自信。只有從外部視角(實際做事、實際驗證、實際使用)才能發現這個論述空間與真實世界的脫節。
第六章 領域差異:幻覺率反映的是什麼
如果上述分析正確,則一個可被檢驗的預測隨之而來:AI 在不同領域的幻覺率,應與該領域認知套利的強度高度相關。本章論證這個預測與觀察到的事實一致,並提出這個事實的標準解釋與本文解釋的差別。
觀察到的事實是,當代 AI 系統在不同領域的幻覺率有顯著差異。在數學基礎運算、邏輯推理、程式設計這類領域,幻覺率較低——模型給出的答案有相當高比例可以被獨立驗證為正確。在歷史細節、學術引用、醫學診斷、法律條文、科學文獻引用這類領域,幻覺率顯著較高——模型經常給出看似權威但實際錯誤的內容。
主流的技術解釋是:這些領域的差別在於「結構性」與「知識性」的分野。前者(數學、邏輯、編程)涉及結構性規則,模型容易學習這些規則並正確應用。後者(歷史、醫學、法律)涉及大量具體知識,知識的記憶準確性是模型的弱項。這個解釋有它的部分真實性,但忽略了一個更根本的維度。
本文提出的替代解釋是:這個差異不主要反映模型能力的差異,而反映訓練數據真實性的差異。前者領域的訓練數據——數學定理證明、邏輯規則、程式碼範例——有強外部驗證錨點。數學證明可被獨立檢驗,邏輯可被形式化,代碼可被執行。在這些領域,認知套利空間小——錯誤的數學定理會被獨立計算反駁,錯誤的程式碼會被執行失敗暴露。因此這些領域的訓練語料相對乾淨,模型學到的內容相對接近真實。
後者領域的訓練數據——歷史敘事、醫學論文、法律分析——驗證錨點弱。歷史細節無法被獨立重做,醫學研究的可重現性危機已是公開的學界共識,法律分析的「正確性」高度依賴詮釋共識而非外部事實。在這些領域,認知套利空間大,錯誤可以長期存活並被引用鏈固化。訓練語料因此被深度污染,模型學到的內容偏離真實的程度也較大。
這個替代解釋的關鍵預測是:領域 X 的 AI 幻覺率,應與該領域的學術可重現性危機強度高度相關。觀察到的數據與這個預測高度一致——心理學、醫學、營養學、教育學等可重現性危機嚴重的領域,正是 AI 幻覺率高的領域;數學、物理、計算機科學等有強外部驗證的領域,正是 AI 幻覺率較低的領域。
這個觀察不是排除了技術解釋,而是補充了它。模型架構、訓練方法、知識記憶的固有限制都是真實的因素。但即使技術因素被完全控制——假設我們有了一個記憶完美、推理完美的模型——它在被認知套利污染嚴重的領域中,仍然會輸出系統性偏離真實的內容,因為它忠實學到的東西本身就偏離真實。技術完美無法克服源頭污染。
這個觀察對 AI 安全研究有一個不舒服的含義:修復 AI 幻覺問題在某些領域可能不可能,直到先修復學術系統的認知套利問題。模型對齊技術可以減少表面的不流暢,可以增加引用標註,可以讓模型在不確定時表達不確定——但它無法憑空生成「正確的訓練數據」。如果輸入是被污染的,輸出在原則上不可能比輸入更乾淨。這意味著 AI 安全的某些核心目標,實際上預設了一個不在 AI 實驗室控制範圍內的前提條件——學術系統的真實性——而這個前提條件當前並不充分滿足。
第七章 為何技術對齊無法修復源頭污染
本章直接面對一個必然的反駁:既然模型對齊技術正在快速發展,難道未來的對齊技術不能解決這個問題嗎?本章論證,在數據源頭被污染的條件下,技術對齊的可達性有原則性限制。
對齊技術的核心邏輯是:透過某種訓練信號,讓模型的輸出更符合人類偏好或某個明確的真理標準。RLHF(基於人類回饋的強化學習)讓模型學習人類評價者的偏好。Constitutional AI 讓模型按照某個明示的原則集自我修正。檢索增強生成(RAG)讓模型在生成時引用外部知識庫,降低憑空編造的機率。這些技術都有它們的真實效果。
但這些技術的共同限制是:它們都需要某個「真理錨點」作為訓練信號。RLHF 需要人類評價者知道什麼是對的;Constitutional AI 需要原則集本身是正確的;RAG 需要被檢索的知識庫是真實的。如果這些錨點本身就在認知套利污染的範圍內,技術對齊就只是把污染從一個地方搬到另一個地方,而不是真的消除污染。
考慮 RLHF 的具體情況。人類評價者在判斷模型輸出時,會用什麼作為「真實」的標準?在大多數情況下,他們用的是自己的學術訓練、自己讀過的教科書、自己接觸過的學界共識。如果這些東西本身就受認知套利污染,評價者就會獎勵模型重複污染的內容,懲罰模型偏離污染的內容。評價者本身就是污染管道。模型透過 RLHF 學到的不是「真實」,而是「被評價者群體共識認可的內容」——而這個共識正是被認知套利塑造的。
考慮 RAG 的情況。RAG 的設計是讓模型在回答時檢索外部知識庫,而不是依賴內部記憶。這聽起來是繞過訓練數據污染的好方法。但問題是,外部知識庫本身來自哪裡?通常來自學術文獻、維基百科、教科書——也就是同一套被認知套利污染的源頭。檢索的成功只是讓模型更可靠地引用源頭,但源頭的可靠性沒有改變。RAG 不消除污染,它只是讓污染變得可追溯——這在某些用途上有幫助(用戶至少可以追到原始來源),但對污染本身的內容沒有修復作用。
考慮 Constitutional AI 的情況。這個方法依賴一組明示的原則來指導模型自我修正。原則本身是人寫的,反映人的價值與認知。如果寫原則的人本身受污染——如果他們在學術訓練中內化了某些被認知套利污染的觀念——這些觀念會被寫進原則,成為模型行為的隱藏指南。Constitutional AI 不消除污染,它只是把污染從訓練數據編碼到原則層。
這三個例子的共同教訓是:任何依賴人類提供真實性標準的對齊技術,都繼承人類提供的真實性標準的所有缺陷。在認知套利已經滲透學術訓練、媒體論述、教科書內容的條件下,沒有「乾淨」的人類來源可以作為對齊的純粹錨點。技術對齊在原則上可以做到「讓模型符合人類期待」,但不能做到「讓模型超越人類期待中的污染」——後者需要人類自身先解決自己的污染問題,而這是一個遠超技術領域的任務。
需要強調的是,本章不是主張對齊技術無用。它們有真實效果,在許多場景下顯著降低了模型的不安全行為。本章只是主張對齊技術的能力有原則性上限——它們能讓模型在污染的學術共識內表現良好,但不能讓模型超越這個共識。當社會將 AI 幻覺問題的責任完全放在 AI 實驗室身上時,他們其實在要求一個技術不能完成的任務,並因此忽略了真正需要被解決的源頭問題。
第八章 個體層的對抗策略
如果系統層的修復需要學術整體改革(可能需要幾十年),個體用戶在當前如何對抗 AI 幻覺?本章提出幾個可操作的個體策略,基於本文的分析框架。
第一個策略是識別高風險領域。基於本文第六章的論證,AI 在認知套利嚴重的領域(心理學、營養學、社會科學中的因果聲稱、醫學中的治療效果、教育學的學習方法)的幻覺率系統性偏高。當你在這些領域使用 AI 時,默認假設應該是「模型輸出可能反映該領域的污染共識,而非真實」。在低認知套利領域(基礎數學、形式邏輯、明確規則的程式設計),默認假設可以更寬鬆。領域風險意識是個體層對抗的第一道防線。
第二個策略是外部驗證的習慣化。當你獲得一個 AI 輸出後,不要將它作為終點,而是作為起點。對重要的事實聲稱,做獨立的外部驗證——檢查原始論文、查證引用、跨多個獨立來源比對、如果可能就實際嘗試。這個習慣的代價是時間,但收益是發現幻覺。對重要決策,把 AI 輸出視為「需要被驗證的假設」而非「可信任的結論」。
第三個策略是追問機制而非結論。當 AI 給出一個結論時,追問「為什麼是這個而不是別的」、「這個結論依賴什麼前提」、「如果前提不成立會怎樣」。這些追問會強迫模型暴露其推理路徑,讓你有機會發現推理中的薄弱環節。許多幻覺在表面結論層看不出來,但在追問機制層會顯化——因為機制層的內部一致性比結論層更難維持。
第四個策略是使用 AI 對抗 AI。讓一個模型對另一個模型的輸出做批判,讓不同模型對同一問題作答並比較差異,讓模型扮演「懷疑者」角色審查自己之前的輸出。這個策略利用了不同模型(或同一模型在不同提示下)的部分獨立性——它們的訓練數據可能重疊但不完全相同,它們的偏向可能不完全一致。雖然這不是真正的獨立驗證(因為它們仍然來自同一個被污染的數據生態),但它可以暴露單一模型的某些系統性偏差。
第五個策略,也是最根本的,是保留你自己的判斷能力。AI 的便利性會誘惑你將判斷外包——讓模型替你思考、替你寫作、替你評估。每一次外包都是對你判斷肌肉的弱化。長期下來,你可能變得無法在沒有 AI 的情況下做基本判斷,進入一種判斷力萎縮的狀態。在認知套利已經污染學術系統、AI 又繼承並放大污染的環境中,個體保留獨立判斷能力是對抗污染的最後防線。當所有外部來源都不可靠,你自己的清醒就成為僅存的真實性錨點。
這些策略不能完全消除 AI 幻覺對你的影響——在污染普遍的環境中,完全消除是不可能的。但它們能顯著降低你被誤導的程度,並維持你作為獨立認知主體的存在性。在一個越來越多人放棄獨立判斷的時代,保留判斷能力本身就是一種反抗。
第九章 對 AI 安全研究的方法論建議
本文的分析對當前的 AI 安全研究有若干方法論含義。本章將這些含義整理為對該領域的具體建議。
第一個建議是將數據污染研究納入 AI 安全的核心議程。當前 AI 安全研究的主流是模型側的——對齊、可解釋性、能力評估、對抗攻擊防禦。這些都是重要的,但它們共享一個假設:訓練數據的真實性大致可靠,問題在於模型側。本文的分析挑戰這個假設。如果問題部分源於數據側,則需要與模型側對等的數據側研究——研究數據如何被污染、污染如何傳播、污染如何被檢測、污染如何被部分清洗。這個方向當前在 AI 安全圈幾乎是空白的。
第二個建議是領域特定的真實性審計。不同領域的訓練數據被認知套利污染的程度不同,需要領域特定的審計方法。心理學論文中的可重現性危機、醫學文獻中的 P 值操縱、營養學中的觀察性研究偏差——這些都是已被該領域內部部分承認的問題。AI 安全研究可以與這些領域的內部批判者合作,系統性地識別訓練語料中的高風險來源,並研究如何在訓練時降權處理。
第三個建議是追蹤輸出反饋迴路。模型輸出回到人類寫作再進入下一輪訓練的迴路,目前缺乏系統研究。需要工具和方法來識別訓練語料中哪些部分是「乾淨的人類來源」,哪些是「被 AI 輸出污染的人類來源」。這個識別在當前極為困難,但隨著問題加劇,可能會發展出技術方案——例如通過寫作風格特徵、句法模式、特定錯誤模式的分析來估計 AI 來源的比例。
第四個建議是開發外部驗證工具。當前 AI 系統大多沒有與外部世界交互的方法——它們只能從訓練語料學習,然後生成。如果能讓 AI 系統與某些「真實性檢驗環境」(數學證明助手、代碼執行環境、實驗室數據庫、即時新聞 API)交互,讓它在輸出前自動進行某些驗證,可能能降低部分幻覺。這個方向已有部分工作(工具使用、code interpreter、瀏覽器訪問),但作為系統性的真實性錨點還遠未充分開發。
第五個建議,也是最具挑戰性的,是重新審視 AI 安全的目標定義。當前的安全目標通常是「讓模型輸出符合人類期待」、「讓模型不做有害行為」、「讓模型誠實表達不確定性」。這些目標都假設存在一個明確的「正確」標準。但本文論證,在認知套利污染的領域中,「正確」本身在學術共識層面就是模糊的。這意味著 AI 安全研究可能需要從「對齊到人類共識」轉向「保留人類的批判能力」——不是讓 AI 替人類判斷什麼是真實,而是讓 AI 增強人類自己判斷真實的能力。後者是一個更謙卑也更困難的目標,但可能是更誠實的目標。
結語
本文的論證可以濃縮為一個核心命題:當前 AI 系統的幻覺問題,有相當大的部分不是模型側的故障,而是訓練數據源頭的學術系統認知套利病理的下游展現。這個命題不是悲觀斷言,而是診斷——它指出問題的真實位置,從而指出真正可能的解決方向。
這個命題對不同行動者有不同含義。對 AI 實驗室,它意味著當前的對齊努力有原則性上限,且這個上限不在實驗室的能力範圍內;繼續推進技術對齊是有價值的,但不應期待它解決源頭問題。對學術共同體,它意味著認知套利不再只是學術內部的問題——它已經透過 AI 系統影響整個知識生態,任何延續套利的選擇都在加重這個生態污染;改革學術系統的緊迫性比過去任何時候都高。對個體用戶,它意味著對 AI 輸出的批判性審視不能等待技術完美,必須在當前就建立——保留獨立判斷能力是個體層的最後防線。
值得標記的是,本文的分析架構本身就示範了對抗污染的一種可能。本文跨越了學術社會學、AI 技術、認知科學、訊息經濟學等多個領域的視角——任何單一領域都無法捕捉本文所描述的現象,因為現象本身跨越領域邊界。這個跨領域整合不是炫技,而是必要——當問題本身是系統性的、跨層的、相互強化的,只有跨領域的分析才能看見它的全貌。在被污染的世界中,真理只能在多元視角的交叉處短暫顯現;固守單一領域的研究者可能在自己的領域中表現出色,但會錯過跨領域才能看見的東西。
最後,本文不能、也不試圖修復 AI 幻覺問題。它只試圖將這個問題重新定位——從技術層的小問題,還原為知識生態層的大問題。重新定位本身不解決問題,但它讓正確的解決方向變得可見。錯位的問題定義會導致錯位的努力方向,大量資源被投入到無法達成目標的路徑上。將問題定位正確,是任何真實解決的最低前提。如果本文促成這個重新定位的一部分,它的功能就完成了。
剩下的事,屬於正在見證這個問題的所有人——學者、AI 研究者、用戶、教育者。系統不會自己修復,但個體可以選擇不主動加重它。每一個拒絕將「被廣泛引用」當作「被廣泛驗證」的個體,每一個堅持用外部現實校準語言陳述的求知者,每一個在使用 AI 時保持懷疑的對話者,都在為這個被污染的世界保留一條最後的真實性管道。
哲學結語
當錯誤成為系統的常態,真理需要的不是更高的權威,而是更多的獨立對抗。AI 系統的興起,是這個古老命題的最新展現。AI 不創造錯誤,它只是以前所未有的規模重複錯誤;但這個規模本身改變了問題的性質——當錯誤的廣播能力指數增長時,獨立判斷的個體變得比任何時候都更稀缺,也比任何時候都更必要。
每一個時代都有它的真實性危機。中世紀的危機是教會壟斷詮釋權,啟蒙時代的危機是科學權威取代神學權威而本身可能誤用,現代的危機是學術專業化使外行無法檢驗專家。我們這個時代的危機是,人工智能將前幾個時代累積的所有真實性失靈,以光速重新分發給每一個有屏幕的人。這個分發既是危險也是機會——危險在於污染的廣度前所未有,機會在於這個廣度迫使我們正視之前可以忽略的源頭問題。
如果 AI 幻覺現象迫使學術系統認真面對自己的認知套利病理,則 AI 在歷史上的功能可能不是消滅人類的智慧,而是強迫人類的智慧誠實。當機器忠實複製學術錯誤並將其廣播給所有人時,學術錯誤再也無法躲在象牙塔內。這不是機器的勝利,是真相對虛偽的長期勝利的一個新階段——以一種沒有人預料到的形式。
剩下的事,屬於時間。
全文完 2026年4月
許筌崴(Neo.K)