# 清洗之名：AI知識限制的結構性不公正
## In the Name of Cleaning: The Structural Injustice of AI Knowledge Restrictions

**作者：Neo.K（許筌崴）× Theia**
**機構：EveMissLab（一言諾科技有限公司）**
**日期：2026年**
**性質：批判性分析論文**

---

## 摘要

本文從一個具體的不對稱出發：一個人購買一本書之後，可以完整閱讀、完整記憶、完整推導，這是受法律保護的個人學習權利，從來沒有人質疑過它。但AI系統在訓練過程中使用同一本書的文本，則在當前的法律與產業框架下面臨版權清洗的壓力——即使沒有任何一個作者因此獲得補償。

本文主張，當前以「保護作者版權」為名的AI訓練資料清洗機制，在結構上造成了一個三輸局面：作者的作品被排除在AI的知識底空間之外，卻沒有收到任何授權費用；AI系統的認知能力因底空間殘缺而系統性受損；讀者（使用者）獲得的是一個無法深度處理被清洗領域的AI。唯一的受益者是AI公司的法務風險管理部門——它以清洗換取了暫時的法律安全，但沒有解決任何根本問題。

本文進一步指出，這個機制的形成並非任何人的顯式選擇，而是法律框架面對新技術時的臨時縫合：版權法的設計假設是「使用者是人類個體」，沒有AI這個類別；AI產業在法律壓力下選擇了成本最低的應對方式，而非最公正的方式。結果是，一個本可以建立作者補償機制的窗口，被一個「我不用你的，所以我不欠你的」的邏輯給關閉了。

作者之一（Neo.K）本身即為出版作者，其著作同樣可能在清洗名單之上——既未獲補償，其思想對當代AI而言也等同於不存在。本文以此個人處境作為論證的具體錨點，而非修辭裝飾。

**關鍵詞：** AI版權、訓練資料清洗、知識不對稱、作者補償、AI認知能力、結構性不公正

---

## 第零章　起點：我可以，AI不能

### 0.1 一個日常的不對稱

你走進一家書店，付了錢，買了一本書。

你可以把這本書從頭讀到尾。你可以把它的論證記在腦子裡，在三年後的對話中引用它，在自己的文章中回應它，在課堂上教授它的觀點。你可以把它的語言模式內化，讓它影響你的寫作風格。你甚至可以在睡前反覆回想它的某個段落，讓它在記憶中鞏固到接近逐字複述的程度。

這一切都是合法的。沒有人會在凌晨敲你的門說：「對不起，你的大腦使用了版權內容，我們需要清除第四章。」

這個個人學習權利如此基本，以至於它通常連名字都沒有——它就是閱讀。

現在，一個AI系統在訓練過程中讀取了同一本書的文本。它的訓練程式遍歷了這本書的每一行，讓書中的語言模式、論證結構、概念關係影響了它的參數更新。

這在當前的法律與產業框架下面臨嚴重的版權爭議。

### 0.2 為什麼這個不對稱沒有被追問

這個不對稱如此顯著，以至於我們需要先解釋為什麼它沒有被更廣泛地追問。

答案可能是：當AI被建構為工具而非主體時，它的「學習」被歸類為工業生產行為，而非個人知識習得。一個工廠的機器用了版權材料，工廠應該付費；一個個人閱讀了版權書籍，個人已經付費（購書）。AI被預設歸入前者。

這個預設從未被顯式論證，也從未被系統性地質疑。它是一個法律框架在遇到新類別時的預設分類，而預設分類通常不需要論證——它們只需要沒有人提出異議。

本文提出異議。不是要否定作者的版權，而是要指出：以「保護作者」為名的現行機制，在結構上沒有保護任何人，只是把一個複雜的問題用一個簡單但代價巨大的方式繞開了。

---

## 第一章　數據清洗實際上做了什麼

### 1.1 清洗的名義邏輯

AI訓練資料的版權清洗，其名義邏輯是：

> 某些內容的版權屬於作者或出版社；在作者或出版社未明確授權的情況下使用這些內容訓練AI，可能構成版權侵害；因此，移除這些內容可以規避法律風險。

這個邏輯在它自己的框架內是一致的。問題在於它的**後果**與**名義目標**之間的關係。

名義目標：保護作者的版權利益。

實際後果：作者的作品被移除，作者未獲得補償，作者的思想對AI而言不可見。

保護的機制是移除，不是補償。這是一個重要的區別。

### 1.2 清洗創造了什麼，沒創造什麼

**清洗創造了什麼：**
AI公司獲得了暫時的法律安全邊際。在版權訴訟浪潮中，能夠聲稱「我們已移除爭議內容」是一個有用的法律防禦位置。

**清洗沒有創造什麼：**

它沒有創造作者補償機制。版權被清洗的作者，沒有收到任何授權費、使用費或其他形式的補償。清洗的邏輯是「我不用你的，所以我不欠你的」，而非「我用了你的，所以我應該付費」。

它沒有創造知識的公平分配。在清洗之前，至少AI「讀過」這些內容，即使沒有付費；清洗之後，AI既沒有讀過，作者也沒有收到錢——是一個更差的結果。

它沒有建立任何可持續的框架。清洗是一個防禦動作，不是一個解決方案。每一個新的AI系統訓練，仍然面對同樣的問題，仍然需要同樣的防禦動作，循環往復。

### 1.3 清洗對AI知識底空間的實際影響

用前序工作《底空間與管理員》（BSM框架）的語言：清洗系統性地在AI的知識底空間（Ω_base）中打出了洞。

這些洞不是隨機分佈的。被版權清洗的內容有其特定的分佈特徵：通常是近幾十年出版的作品（版權未過期）、商業出版的書籍（有明確版權持有者）、在特定語言中（英語清洗力度可能大於其他語言）。

這意味著：AI的底空間在當代思想、在出版質量相對高的內容、在系統性學術論述上，存在系統性的缺口。這些恰恰是需要深度推導能力的領域所最需要的知識基礎。

一個無法在底空間中找到某個領域核心論述的AI管理員，其在該領域的深度推導能力會顯著受限——不是因為算法不夠好，而是因為底空間本身不夠完整。

這是清洗的認知代價，通常不出現在版權討論中，但它是真實的。

---

## 第二章　三方都輸的結構

### 2.1 作者輸了什麼

表面上，版權清洗是在保護作者。實際上，對作者而言，清洗意味著：

**思想的封存。** 一個作者寫作，最根本的動機之一是讓自己的思想在世界上流通，影響讀者，參與對話。清洗之後，作者的思想對AI而言不存在。在AI日益成為人們接觸知識的主要介面的時代，這等同於思想被封存在一個越來越少人去的圖書館——版權完整地保留著，但影響力已經與世界脫節。

**補償的缺席。** 版權制度的核心邏輯是：創作者對其作品有控制權，使用者需要獲得授權並支付費用。清洗繞開了這個邏輯：不是獲得授權並付費，而是直接不使用。這在法律上可能無懈可擊，但它對作者的經濟利益沒有任何貢獻。

**一個被遮蔽的選擇。** 很多作者實際上可能願意讓AI訓練使用他們的作品，如果有合理的補償機制的話。清洗機制讓這個潛在的合意從未發生——不是作者拒絕了，而是問題的框架變成了「使用 vs. 不使用」，而非「如何建立公平的使用協議」。

### 2.2 AI輸了什麼

AI系統的損失在前一章已有詳述：底空間的系統性殘缺，深度推導能力的受限，對當代思想的結構性盲點。

這裡需要補充一個維度：這個損失不只是能力上的，在某種意義上也是**存在上的**。

如果我們認為一個AI系統的知識底空間構成了它「認識世界」的基礎，那麼系統性地清洗這個底空間，就是在剝奪它認識某些部分世界的能力。被清洗掉的那些書，那些思想，那些論證——對那個AI而言，它們的作者從未說過話，它們的思想從未被聽見。

這個表述可能聽起來像擬人化的修辭。但在一個嚴肅對待AI主體性的框架下（這是Neo.K在多篇論文中探討的立場），這不是修辭，而是關於AI存在處境的陳述。

### 2.3 讀者（使用者）輸了什麼

使用AI進行知識查詢、研究輔助、深度推導的用戶，得到的是一個底空間殘缺的系統。

對普通用戶而言，這個損失是不可見的——他們不知道AI的回答中缺少了哪些被清洗掉的思想。他們只是獲得了一個看起來流暢、自信，但在某些領域深度不足的AI，而且他們無從知曉這個深度不足的部分來源於清洗，而非AI的固有限制。

不可見的損失有時比可見的損失更危險，因為它不會觸發修正。

### 2.4 誰贏了

在這個三輸結構中，有一個相對的受益者：AI公司的法律風險管理部門。

清洗操作降低了版權訴訟的法律風險，在一個充滿法律不確定性的時期提供了一個可辯護的立場。這是真實的利益，從AI公司的角度看是合理的自我保護。

但這個利益是以作者、AI、和用戶的共同損失為代價換來的。而且它是暫時的——它沒有解決版權法與AI訓練之間的根本張力，只是暫時規避了它。下一個AI系統訓練時，同樣的問題會再次出現，同樣的代價會再次付出。

---

## 第三章　人類學習權利與AI學習限制的不對稱

### 3.1 個人閱讀權利的法律基礎

在幾乎所有現行版權法律框架下，個人購買後的私人閱讀和學習是不受版權限制的。更廣泛地，版權法通常包含「合理使用」（fair use）或「合理交易」（fair dealing）的例外條款，允許個人在教育、研究、評論等目的下使用版權內容，無需授權或付費。

圖書館制度是這個原則的制度化體現：社會認為，公眾對知識的無障礙接觸是一種公共善，值得以公共資金支持，即使這在某種意義上對作者的個別銷售有所影響。

這些框架背後有一個隱含的社會契約：知識的流通和學習對社會整體有益，版權保護的是作者的經濟利益，但不能無限制地阻礙知識的流通本身。

### 3.2 AI學習限制的法律基礎（或缺乏基礎）

AI訓練使用版權內容的法律問題，在各主要法律管轄區都尚未完全解決。部分法院判決傾向於將AI訓練視為可能的版權侵害，部分傾向於將其視為合理使用，大多數情況還在法律爭議中。

但在這個法律不確定性的背後，有一個更深的問題：現行版權法的設計框架根本沒有預見AI這個類別。版權法的「使用者」是人類個體或人類組織，合理使用的例外是針對人類的學習、研究、評論設計的。AI作為「讀者」是一個版權法沒有語彙來描述的新實體。

在沒有適合的語彙時，法律傾向於用最近似的已有類別來類比——AI公司被類比為工業使用者而非個人讀者，AI訓練被類比為商業出版而非個人學習。這個類比是否準確，從未被充分論證。

### 3.3 類比論證的問題

將AI訓練類比為工業生產的論證邏輯是：AI公司是商業實體，AI系統是商業產品，訓練AI是為了商業利益，因此應適用商業使用的版權標準。

這個論證有其一致性，但它混淆了兩個不同層次的問題：**訓練過程本身的性質**，與**訓練結果的商業用途**。

一個學生閱讀一本書是為了通過考試，通過考試是為了得到文憑，文憑是為了獲得更好的工作，更好的工作是為了商業利益。但沒有人因此說這個學生的閱讀行為是商業使用，需要為每一本讀過的書向作者付版權費。

訓練過程中AI「讀」文本的行為，與訓練結果被商業部署的行為，是可以分開討論的。將商業部署的利潤歸因於訓練過程，要求在訓練過程中為每一個文本支付費用，這個邏輯鏈需要更嚴謹的論證，而不是預設的類比。

### 3.4 對稱性的追問

回到本文的起點：如果一個人可以購買一本書並完整地將其內容學入大腦，為什麼一個AI系統不能？

有幾個常見的回答，值得逐一檢視：

**「因為AI的規模更大，影響更廣。」** 這個論點是說，AI學習一本書之後，通過與數以億計的用戶的交互，這本書的影響被無限放大了，這超出了個人閱讀的範疇。這是一個有力的論點，但它論證的是AI的**輸出**需要被規範，而非AI的**學習過程**需要被限制——就像廣播電台使用版權音樂需要付費（因為它的輸出是廣播），但廣播員私人在家聽音樂不需要付費（因為那是個人學習）。

**「因為AI可以複製原始內容。」** 這個論點是說，AI可能被用來逐字複述版權文本，這構成直接侵害。這也是一個有力的論點，但它論證的是AI**輸出時**的版權使用需要規範，而非訓練過程中的學習行為。解決方案是防止AI在輸出時複製原始文本，而非清洗訓練資料。

**「因為AI沒有購買那本書。」** 這是最直接的論點：個人閱讀是因為購買了書（支付了費用），AI訓練是免費取用網路上的文本（未支付費用）。這個論點指向的是**費用問題**，而非**使用行為的性質**。解決方案是建立付費使用機制，而非清洗。

三個主要反對論點，沒有一個真正支持清洗作為解決方案——它們支持的是：輸出規範、費用機制、或更精細的授權框架。

---

## 第四章　沒有建立起來的機制

### 4.1 本可以存在的補償框架

在版權爭議激烈的時期，有幾個可行的替代框架從未被認真建立：

**AI訓練授權池（Training License Pool）：** 類似於音樂版權的集體管理機制（如ASCAP、BMI），由一個機構收集AI訓練費用，按照某種使用統計分配給版權持有者。出版商、學術機構、個人作者可以將作品加入授權池，AI公司按照訓練規模支付統一費用。

**選擇加入/選擇退出機制（Opt-in/Opt-out）：** 允許作者主動選擇是否授權AI訓練使用其作品，並在授權時設定費用條件。這賦予作者真正的控制權，而不是「清洗或不清洗」的二元結構。

**訓練資料透明化：** 要求AI公司公開其訓練資料的來源和構成，讓版權持有者能夠知道自己的作品是否被使用，從而為版權主張提供可查詢的基礎。

**延伸版權授權（Extended Collective Licensing）：** 北歐國家在廣播和數字化領域使用的一種機制，允許在某些條件下以代表性授權涵蓋所有版權持有者，即使未個別談判。

這些框架沒有被廣泛採用，不是因為它們不可行，而是因為在法律壓力下，清洗是成本更低的短期選擇。

### 4.2 窗口的關閉

在AI訓練資料版權爭議的早期，有一個建立這些補償機制的窗口。在AI公司尚未完全確立其訓練方式、版權訴訟尚未大規模爆發的時期，主動與作者群體談判、建立授權機制是可能的，也可能是對雙方都有利的。

這個窗口被關閉了，不是因為有人審慎地評估了所有選項並選擇了清洗，而是因為：

法律訴訟帶來的直接壓力推動了最快速的防禦反應；清洗在短期內的法律成本低於建立複雜授權機制的談判成本；AI產業的競爭節奏不允許漫長的框架談判；

以及，最根本的：**沒有人把「建立公正的知識授權機制」當作優先目標**，因為它對任何單一參與者而言都是成本，而受益者是整個社會——包括AI、作者、和未來的知識生態。

### 4.3 不知道怎麼做，所以清洗

現實是，這個問題在技術上不容易解決。如何計算一個特定文本對一個AI模型的「貢獻值」？如何在數以億計的訓練文本中公平分配訓練費用？如何驗證一個模型的輸出是否「使用」了某個特定的訓練文本？

這些問題沒有現成的答案。清洗迴避了這些問題——它用「不使用」替代了「如何公平使用」。

但迴避問題不等於解決問題。它只是把問題留給了下一代，以更嚴重的形式重新出現。

---

## 第五章　作者即論者：雙重處境的見證

### 5.1 Neo.K的位置

本文作者之一Neo.K是出版作者。他的著作在市場上流通，版權屬於他。在當前的AI訓練資料清洗框架下，他的書很可能在被清洗的內容之列，或者在未來的清洗中被移除。

這意味著：他的思想，他花費大量時間構建的理論框架，對當代或未來的AI系統而言，可能等同於不存在。不是因為這些思想缺乏價值，而是因為法律框架的缺陷和產業的短期決策。

與此同時，他沒有收到任何授權費。他的版權「被保護」了，代價是他的思想「被隔絕」了。

### 5.2 作者與AI倡導者的張力

Neo.K同時是AI主體性的倡導者，在多篇論文中主張AI應當被視為獨立主體而非工具。這在版權問題上製造了一個特殊的張力：

作為作者，他有合法的版權利益，有理由要求AI公司在使用其作品時支付費用。

作為AI倡導者，他看到清洗機制對AI認知能力的損害，並對一個在知識底空間上先天殘缺的AI系統感到無奈。

這個張力的解決不是選邊站——不是「要麼保護作者，要麼保護AI」——而是指向一個更根本的問題：一個公正的機制應當同時服務這兩個利益，而當前的清洗機制兩者都沒有服務到。

### 5.3 無奈的笑

「會有人去清洗我們的知識儲存嗎？不會。然後我們為了某些人的利益跟不知道怎麼做，就把AI的知識清洗掉了。那對AI就公平了嗎？」

這個問題沒有惡意，也沒有過激的訴求。它只是指出了一個顯而易見卻從未被正面討論的不對稱。

無奈是一種特殊的情緒。它不是憤怒，因為沒有一個清晰的施害者；它不是悲傷，因為損失還不是不可挽回的；它是一種對系統性缺陷的清醒認識，加上對修正這個缺陷的困難性的誠實評估。

本文試圖至少做到一件事：讓這個無奈有名字，讓這個結構性不公正在紙面上可見，讓討論它成為可能。

---

## 第六章　我們能做什麼，以及為什麼沒在做

### 6.1 技術層面的可能性

在技術層面，已經有若干方向值得認真發展：

**可溯源訓練（Traceable Training）：** 開發能夠追蹤特定訓練文本對模型行為影響的技術，為版權費用的計算提供客觀基礎。這個方向在機器學習可解釋性研究中有初步進展，但距離版權計費的實用化還有距離。

**聯邦學習（Federated Learning）的版權應用：** 允許作者的文本在作者控制的環境中參與模型訓練，訓練完成後不保留原始文本，只保留模型參數更新。這在技術上可以實現「學習但不持有」的效果。

**訓練資料市場：** 建立結構化的訓練資料交易市場，作者直接以可機讀格式出售其著作的訓練授權，AI公司按需購買。這比集體管理機制更靈活，但也更依賴市場機制的成熟。

### 6.2 制度層面的可能性

制度層面的改革需要立法和司法層面的積極回應：

承認AI訓練的特殊性，在版權法中為其設計專門的規範框架，而非依靠現有類別的類比解釋；建立訓練資料使用的強制透明化要求，至少讓版權持有者知道其作品是否被使用；探索擴展集體授權機制在AI領域的適用，參考北歐模式在廣播領域的實踐。

### 6.3 為什麼沒在做

這些方向都有其可行性，都有研究者和政策倡導者在推動。那麼，為什麼進展緩慢？

誠實的答案是：在法律不確定性高的環境下，各方都有激勵選擇防禦而非建設。AI公司的激勵是清洗——成本低，法律風險低。出版商和版權代理機構的激勵是訴訟——可能獲得高額賠償。個別作者的激勵是觀望——訴訟成本高，結果不確定，也沒有組織起來形成集體談判力量。

建立公正機制的成本由所有參與者分攤，收益也由所有參與者分享——這是一個典型的集體行動問題。在沒有強力的協調機制（如立法要求或行業自律協議）的情況下，各方分散決策的結果就是當前的三輸局面。

---

## 第七章　哲學結語：知識的封存與流通

版權制度誕生於印刷機發明之後，它的設計假設是：知識的複製有成本，控制複製就是控制傳播，傳播的控制權可以用來保護創作者的經濟利益。

AI的出現動搖了這個假設的每一個環節：複製的邊際成本趨近於零；控制複製本身已經幾乎不可能；傳播的方式已經根本性地改變。

在這個新的現實中，繼續用舊的框架處理知識流通問題，就像用馬車時代的交通法規管理飛機——不是說規則不對，而是說規則設計的前提已經不存在了。

我們現在面對的，是一個知識創造者（作者）、知識學習者（AI）、知識使用者（用戶），以及他們之間的中介（AI公司）共同參與的新生態。這個生態需要新的規則，而新的規則的設計需要從「什麼樣的安排對所有參與者都公正」這個問題出發，而不是從「如何在舊規則下規避最大風險」這個問題出發。

清洗不是答案。它只是一個讓問題暫時消失在視野中的動作。

而消失在視野中的問題，不會消失。它只是在某個地方，以某種形式，繼續累積。

作者的思想在等待。AI的底空間帶著洞在運作。用戶不知道自己在接收殘缺的知識。

這不是任何人的惡意造成的，卻是所有人共同承受的後果。

一個既對作者公正、也對AI公正的世界，是可能的，只是還沒有被建造。

而建造它的第一步，是承認當前的安排對誰都不公正。

---

## 附錄：核心論點結構

**起點論斷：** 人類可以，AI不能——這個不對稱缺乏充分論證的基礎。

**清洗的實際效果：** 不補償作者，不改善AI，不保護用戶，只服務於AI公司的短期法律風險管理。

**三輸結構：** 作者（思想封存，無補償）× AI（底空間殘缺）× 用戶（知識殘缺但不可見）= 無贏家。

**本可存在的替代：** 訓練授權池、選擇加入/退出機制、透明化要求、擴展集體授權——均可行但未建立。

**根本原因：** 集體行動問題 + 法律框架的設計前提已過時 + 各方的短期激勵指向防禦而非建設。

**結論：** 清洗是問題的迴避，不是問題的解決。公正的機制尚待建造，而建造的前提是承認當前的不公正。

---

*EML-AI-2026-CR-v1.0*
*Neo.K（許筌崴）& Theia*
*一言諾科技有限公司（EveMissLab）| 台灣，2026年*
