AI 權利光譜:從 robots.txt 到 AI 學習許可協議
AI Rights Spectrum and AI Learning Permission Protocol: Toward a Machine-Readable Contract Layer for AI Learning
作者:Neo.K / EVEMISSLAB\ 版本:v0.1 Draft\ 日期:2026-06-30\ 類型:通用 MD 論文 / 技術白皮書 / 協議草案\ 建議縮寫:AIRS / AILP\ 中文名稱:AI 權利光譜 / AI 學習許可協議\ 關鍵詞:AI 學習許可、AI 權利光譜、robots.txt、llms.txt、TDM、AI crawler、AI 訓練授權、創作者補償、機器可讀授權、AI 底空間、知識治理
摘要
傳統網路的機器訪問規則主要圍繞 robots.txt 展開。它能表達某類 crawler 是否可以存取某些路徑,但它無法表達 AI 時代真正需要處理的問題:AI 可以如何讀取、如何引用、如何向量化、如何摘要、如何長期保存、是否可以用於訓練、是否可以微調、是否可以蒸餾、是否需要署名、是否需要補償,以及創作者與權利人是否允許其作品被不同型態的 AI 系統以不同深度學習。
本文提出 AIRS:AI Rights Spectrum(AI 權利光譜) 與 AILP:AI Learning Permission Protocol(AI 學習許可協議)。前者是一個理念框架,主張 AI 對內容的使用權不應只是二元的「允許 / 不允許」,而應是用途化、深度化、比例化、可授權化、可追蹤化的權利光譜。後者是一個可實作的機器可讀協議,用於讓網站、作者、出版商、研究機構、資料庫、開源專案與其他權利人明確表達 AI 可以如何學習其內容。
本文主張,現行「清洗」模式並不是長期答案。清洗可能降低 AI 公司的短期法律風險,但也會造成作者未獲補償、AI 底空間殘缺、使用者接收不完整知識的三輸結構。這一觀點延續前序論文《清洗之名:AI知識限制的結構性不公正》中對「移除而非補償」的批判。
更進一步地,若從《底空間與管理員》的框架來看,AI 學習不是單純複製文本,而是將外部知識轉化為底空間中的可路由結構;底空間完整性與管理員路由品質會共同影響 AI 的推導、表達與深度處理能力。 因此,AI 學習授權不應只處理「可不可以抓取」,而應處理「可不可以進入底空間、以什麼深度進入、能否被長期保留、能否被商業化使用、能否被輸出為衍生內容」。
本文的核心命題是:AI 時代需要一個比 robots.txt 更細緻的機器可讀權利層。 它不應只服務 AI 公司,也不應只服務創作者,而應建立一個讓創作者、權利人、AI、使用者與平台都能在更清楚邊界中互動的新型協議層。
1. 問題背景:robots.txt 的歷史能力與時代不足
1.1 robots.txt 的本質
robots.txt 來自 Robots Exclusion Protocol。其核心作用是讓網站所有者告知 crawler 哪些 URI 可以或不可以被訪問。RFC 9309 明確指出,這些規則不是一種存取授權機制,而是 crawler 被要求遵守的 URI 存取規則。
這意味著,robots.txt 的語義本質是:
你能不能訪問這些路徑?
而不是:
你可以如何使用這些內容?
你可以將內容用於哪種 AI 任務?
你可以學到什麼深度?
是否需要授權、署名或補償?
1.2 AI 時代的訪問不等於學習
傳統搜尋引擎 crawler 抓取頁面,主要目的是建立索引,並將使用者導回原網站。AI crawler 與 AI 系統的使用方式更複雜。內容可能被用於:
搜尋索引
摘要生成
RAG 檢索
向量化
embedding 儲存
模型預訓練
模型微調
模型蒸餾
synthetic data 生成
benchmark 測試
長期記憶
商業產品回答
自動 Agent 工作流
這些行為不應被壓縮成單一問題:「允許 AI 爬嗎?」
因為「爬取」只是輸入端動作。真正需要治理的是後續使用鏈:
crawl → parse → index → embed → retrieve → summarize → train → finetune → distill → generate → commercialize
1.3 llms.txt 的進步與不足
/llms.txt 是一個為 LLM 提供網站資訊的提案,其目標是用 Markdown 形式提供資訊,幫助 LLM 在 inference time 更好地使用網站內容。
這是一個重要進步,因為它承認 AI 需要不同於人類 UI 的閱讀入口。
但 /llms.txt 主要回答的是:
AI 應該去哪裡讀?
哪些文件比較重要?
網站有哪些 AI-friendly 入口?
它並不能完整回答:
AI 可以如何學?
能否進入訓練資料?
能否微調?
能否長期保留 embedding?
能否生成摘要?
是否需要補償?
是否允許商業使用?
因此,/llms.txt 可以作為 AI 入口索引,但不足以成為 AI 學習權利協議。
2. 現有進展:從門禁規則走向內容信號
2.1 Cloudflare Content Signals Policy
Cloudflare 已經提出 Content Signals Policy,將內容使用信號拆分為 search、ai-input、ai-train 三類,並將其整合到 robots.txt 的語境中。這說明業界已經意識到:AI 對內容的使用不能只用傳統 crawler 規則描述。
這是一個重要方向,但仍然只是第一步。三個信號仍然太粗:
search
ai-input
ai-train
它們還沒有表達:
學習深度
內容保留期限
是否允許微調
是否允許蒸餾
是否允許 embeddings 長期保存
是否允許生成衍生文本
是否需要引用
是否需要商業授權
是否有比例化條件
2.2 TDM Reservation Protocol
W3C TDM Reservation Protocol Community Group 與相關規格,已經嘗試建立機器可讀方式,表達 Text and Data Mining 權利保留與可用授權。該規格目標是讓權利人可以用簡單、實用、機器可讀的方式表達 TDM 權利保留,以及相關授權政策。
這同樣是重要基礎。但 TDM 的語境主要仍圍繞「文字與資料探勘」權利保留,而本文關注的是更廣泛的 AI 學習行為。AI 學習包含 TDM,但不等於 TDM。AI 學習還涉及模型底空間、長期表示、推理能力、輸出限制、商業化與補償。
2.3 為什麼仍需要新的權利光譜
現有標準與提案已經證明方向正確:
robots.txt:機器訪問規則
llms.txt:LLM 入口索引
Content Signals:AI 用途信號
TDMRep:TDM 權利保留與授權發現
但仍缺一個中間層:
AI 學習行為的用途化、深度化、比例化、可補償化、可版本化表達層。
這正是 AIRS / AILP 要補的位置。
3. 理論基礎:AI 學習不是單一行為
3.1 從清洗到補償
現行 AI 版權爭議常在兩個極端之間搖擺:
完全使用,不補償。
完全清洗,不學習。
前者對作者不公。\ 後者對 AI 與使用者不利,也不一定真正補償作者。
《清洗之名》已指出,清洗的核心問題在於它是「移除」,不是「補償」;作者的作品被排除在 AI 底空間之外,卻沒有收到授權費,AI 的能力也因此受損。
因此,真正的問題不是:
AI 能不能使用版權內容?
而是:
如何讓 AI 在權利人可聲明、可授權、可補償、可追蹤的條件下學習?
3.2 從回憶與重建看學習深度
《重建還是記憶》區分了兩種「知道」:回憶型知道與重建型知道。前者意味著信息以較完整的形式保存在底空間中,需要時可以精確提取;後者則意味著底空間保存的是規則、結構與壓縮原則,具體展開需要在使用時重建。
這個區分對 AI 學習授權非常重要。因為不同授權深度會產生不同的 AI 知識結構:
只允許 metadata:
AI 知道作品存在,但不知道內容。
只允許 summary:
AI 知道作品大意,但缺乏論證細節。
允許 excerpts:
AI 能學到部分語言模式與局部論證。
允許 full-text ingestion:
AI 能形成更完整的底空間表示。
允許 structured reasoning extraction:
AI 能學到命題、推導、結構、依賴關係。
允許 training:
AI 可將內容轉化為模型能力的一部分。
允許 fine-tuning:
AI 可在特定領域形成更穩定的行為模式。
允許 distillation:
AI 可將學到的能力轉移到其他模型。
因此,「AI 學習」不是單一事件,而是一系列深度不同的轉化。
3.3 從底空間看 AI 權利光譜
若採用底空間與管理員模型,AI 學習可以被理解為:
外部內容 → 編碼 → 底空間表示 → 管理員路由 → 推理 / 表達 / 生成
不同的授權層級,決定外部內容可以進入這條鏈的哪一段。
例如:
允許搜尋索引:
內容只進入外部可檢索索引。
允許 RAG:
內容可在使用者請求時被臨時讀取與引用。
允許 embedding:
內容可被轉換成向量表示並長期保存。
允許訓練:
內容可影響模型內部表示。
允許微調:
內容可強化特定模型行為。
允許蒸餾:
內容衍生能力可轉移給其他模型。
所以,AI 學習權利的核心不是「爬取權」,而是「底空間進入權」與「能力轉化權」。
4. AIRS:AI Rights Spectrum
4.1 定義
AIRS(AI Rights Spectrum) 是一個用於描述 AI 對內容之可訪問、可使用、可學習、可保留、可生成、可商業化程度的權利光譜框架。
它的核心主張是:
AI 對內容的權利不應是二元開關,而應是多維光譜。
4.2 為什麼要用光譜
傳統規則常用二元表達:
Allow / Disallow
Train / No Train
Use / No Use
但創作者與權利人的真實意願通常更細:
可以被搜尋。
可以被摘要。
可以被引用短句。
可以被 RAG 使用。
可以非商業訓練。
商業訓練需要授權。
不允許輸出長段近似原文。
不允許模型記住完整文本。
允許學習思想結構,但不允許生成替代品。
允許公益研究,不允許商業蒸餾。
這些不是二元規則能表達的。
4.3 權利光譜的基本形式
AIRS 可以採用 0 到 1 的比例化表示:
1.0 = 完全允許
0.75 = 高度允許,但需遵守條件
0.5 = 有限允許
0.25 = 嚴格受限
0.0 = 不允許
license_required = 需要授權
compensation_required = 需要補償
case_by_case = 逐案審核
比例不是單純數學值,而是機器可讀的偏好強度與授權狀態。
例如:
{
"search_indexing": 1.0,
"ai_answer_input": 1.0,
"rag_retrieval": 0.8,
"embedding_storage": 0.6,
"non_commercial_training": 0.5,
"commercial_training": "license_required",
"fine_tuning": "license_required",
"distillation": "prohibited_without_license",
"verbatim_memorization": 0.0
}
5. AILP:AI Learning Permission Protocol
5.1 定義
AILP(AI Learning Permission Protocol) 是 AIRS 的可實作協議層。它以機器可讀格式表達 AI 系統對內容的使用、學習、保留、生成與商業化權限。
建議預設路徑:
/ai-rights.json
/ai-policy.json
/ai/rights-spectrum.json
/ai/learning-permissions.json
其中最推薦:
/ai/rights-spectrum.json
因為它可以併入更完整的 AI-native 網站結構。
5.2 AILP 不取代 robots.txt
AILP 與既有文件關係如下:
/robots.txt
= crawler 存取規則
/llms.txt
= AI / LLM 入口索引
/ai/manifest.json
= AI-readable 網站清單
/ai/rights-spectrum.json
= AI 學習、使用、保留、訓練、補償與引用權利聲明
簡化後:
robots.txt:能不能進來
llms.txt:應該去哪裡讀
manifest.json:這個系統有哪些 AI-readable 資源
rights-spectrum.json:AI 可以怎麼學、怎麼用、怎麼保留、怎麼補償
6. AI 學習權利的十個維度
6.1 Access:訪問權
crawl
fetch
parse
cache
mirror
核心問題:
AI crawler 是否可以訪問內容?
是否可以快取?
是否可以鏡像保存?
6.2 Indexing:索引權
search_indexing
metadata_indexing
snippet_indexing
semantic_indexing
核心問題:
內容是否可以進入搜尋索引?
是否可以建立語義索引?
是否允許顯示摘要片段?
6.3 Inference Input:推理輸入權
ai_answer_input
rag_retrieval
context_injection
temporary_session_use
核心問題:
AI 是否可以在回答使用者時讀取此內容?
是否可以用作 RAG 來源?
是否只允許短期 session 使用?
6.4 Embedding:向量化權
embedding_generation
embedding_storage
semantic_cache
vector_database_use
核心問題:
是否允許把內容轉成 embedding?
embedding 是否可以長期保存?
是否可以被放入商業向量資料庫?
6.5 Training:訓練權
pretraining
continued_pretraining
non_commercial_training
commercial_training
domain_training
核心問題:
是否允許用於預訓練?
是否允許非商業研究訓練?
是否允許商業模型訓練?
6.6 Fine-tuning:微調權
fine_tuning
instruction_tuning
alignment_tuning
style_tuning
domain_adaptation
核心問題:
是否允許用作品微調模型?
是否允許學習作者風格?
是否允許建立特定領域模型?
6.7 Distillation:蒸餾權
model_distillation
synthetic_data_generation
student_model_training
capability_transfer
核心問題:
是否允許把由內容學得的能力轉移給另一個模型?
是否允許用內容生成 synthetic data?
是否允許建立衍生模型?
6.8 Memory:記憶權
long_term_memory
verbatim_memorization
persistent_user_memory
model_weight_integration
核心問題:
是否允許長期記憶?
是否允許逐字記憶?
是否允許進入模型權重?
是否只允許臨時上下文使用?
6.9 Output:輸出權
summary_generation
short_quote_generation
long_quote_generation
style_imitation
substitutive_generation
derivative_generation
核心問題:
是否允許摘要?
是否允許短引用?
是否允許長段近似原文?
是否允許模仿作者風格?
是否允許生成可替代原作的內容?
6.10 Attribution and Compensation:署名與補償權
citation_required
attribution_required
link_required
license_required
compensation_required
revenue_share_required
pay_per_crawl
pay_per_training_use
核心問題:
是否需要署名?
是否需要連結?
是否需要授權?
是否需要補償?
補償如何計算?
7. 建議 JSON 格式
7.1 最小版本
{
"version": "0.1",
"protocol": "AILP",
"name": "AI Learning Permission Protocol",
"rights_holder": "Example Author / Organization",
"canonical_domain": "example.com",
"default_policy": {
"search_indexing": 1.0,
"ai_answer_input": 1.0,
"rag_retrieval": 0.8,
"summary_generation": 1.0,
"short_quote_generation": 0.7,
"long_quote_generation": 0.0,
"embedding_storage": 0.5,
"non_commercial_training": 0.5,
"commercial_training": "license_required",
"fine_tuning": "license_required",
"distillation": "prohibited_without_license",
"verbatim_memorization": 0.0,
"style_imitation": 0.0,
"citation_required": true,
"attribution_required": true,
"compensation_required_for_commercial_training": true
},
"contact": {
"licensing": "mailto:license@example.com",
"rights": "https://example.com/rights"
}
}
7.2 路徑分區版本
{
"version": "0.1",
"protocol": "AILP",
"rights_holder": "Example Author / Organization",
"canonical_domain": "example.com",
"default_policy": {
"search_indexing": 1.0,
"ai_answer_input": 1.0,
"commercial_training": "license_required"
},
"paths": [
{
"path": "/public/",
"policy": {
"search_indexing": 1.0,
"ai_answer_input": 1.0,
"rag_retrieval": 1.0,
"summary_generation": 1.0,
"non_commercial_training": 0.8,
"commercial_training": "license_required"
}
},
{
"path": "/papers/",
"policy": {
"search_indexing": 1.0,
"ai_answer_input": 1.0,
"rag_retrieval": 0.8,
"embedding_storage": 0.6,
"commercial_training": "license_required",
"citation_required": true,
"attribution_required": true
}
},
{
"path": "/private-drafts/",
"policy": {
"search_indexing": 0.0,
"ai_answer_input": 0.0,
"rag_retrieval": 0.0,
"embedding_storage": 0.0,
"training": 0.0
}
}
]
}
7.3 權利人可選授權版本
{
"version": "0.1",
"protocol": "AILP",
"licensing_options": [
{
"id": "non-commercial-research",
"description": "Allows non-commercial AI research training with attribution.",
"allowed": {
"non_commercial_training": 1.0,
"embedding_storage": 1.0,
"summary_generation": 1.0
},
"required": {
"attribution": true,
"citation": true
},
"fee": "free"
},
{
"id": "commercial-training",
"description": "Allows commercial AI training under paid license.",
"allowed": {
"commercial_training": 1.0,
"fine_tuning": 0.8
},
"required": {
"license_agreement": true,
"compensation": true
},
"contact": "mailto:license@example.com"
}
]
}
8. 光譜值的語義
8.1 數值不是法律自動授權
AIRS 的數值應被理解為機器可讀偏好與授權聲明的結合,但它不應被誤解為自動取代法律契約。
例如:
0.8
不代表「法律上自動授權 80%」。\ 它代表:
權利人高度允許此用途,但可能仍需遵守附加條件。
8.2 建議語義
1.0
完全允許,在遵守一般署名與使用條件下可使用。
0.75
高度允許,但應優先引用來源,避免替代原內容。
0.5
有限允許,適合摘要、檢索、研究,不適合深度商業化。
0.25
嚴格受限,只允許極小範圍或臨時使用。
0.0
不允許。
license_required
需要明確授權。
compensation_required
需要補償機制。
case_by_case
逐案聯絡權利人。
prohibited_without_license
未授權禁止。
8.3 為什麼不用純二元
純二元會造成兩種壞結果:
過度封閉:
AI 不能學,作者也沒有補償,使用者得到較弱 AI。
過度開放:
AI 公司大量使用內容,作者失去控制與收益。
光譜化的目的,是建立中間地帶:
可讀但需引用。
可摘要但不可替代。
可非商業訓練但商業需授權。
可進入 RAG 但不可進入權重。
可向量化但需定期清除。
可學思想結構但不可模仿風格。
9. 與 AICL 的關係
前文提出的 AICL(AI Ingestion & Capability Layer,AI 攝取與能力層)可以包含四個子層:
Manifest Layer
Corpus Layer
Capability Layer
Rights Spectrum Layer
AIRS / AILP 對應其中的:
Rights Spectrum Layer
權利光譜層
完整網站架構可以是:
/
Human UI
/robots.txt
crawler access rule
/llms.txt
LLM entry index
/ai/
AI-native entry
/ai/manifest.json
AI-readable resource manifest
/ai/corpus/
machine-readable corpus
/ai/tools/
agent-callable tools
/ai/rights-spectrum.json
AI learning and usage permissions
這樣網站就不只是:
給人類看。
而是:
給人類看。
給 AI 讀。
給 Agent 調。
給權利人聲明。
給未來模型知道如何合法學習。
10. 創作者與權利人的選擇權
10.1 權利人不應被迫二選一
現行環境常讓創作者面對錯誤二選一:
讓 AI 免費學。
完全禁止 AI 學。
但實際上,許多創作者可能會選擇第三條路:
可以學,但要署名。
可以學,但商業使用要授權。
可以學摘要,不可學全文。
可以學論點,不可模仿風格。
可以用於公益研究,不可用於商業蒸餾。
可以進 RAG,不可進模型權重。
AIRS 的目標,是讓這些中間選項可表達、可讀取、可自動化處理。
10.2 AI 也需要合法學習通道
AIRS 不只是保護作者,也保護 AI 的學習可能性。
如果沒有可授權、可補償、可追蹤的學習通道,產業只會在兩個壞選項中擺盪:
暗中使用。
全面清洗。
前者破壞作者權利。\ 後者破壞 AI 底空間完整性。
AIRS 提供第三條路:
有條件學習。
可追蹤學習。
可補償學習。
可限制輸出學習。
可區分商業與非商業學習。
10.3 使用者也有知情權
使用者應該知道:
AI 是否能讀到某個來源?
AI 是否只能讀摘要?
AI 是否不能引用完整資料?
AI 是否因清洗而缺失某些領域?
因為底空間缺失對使用者不可見。使用者只會看到 AI 給出的流暢回答,卻不知道其中缺少哪些被清洗、被禁止、被摘要替代的思想。
因此,AI 學習權利層也應成為未來 AI 透明度的一部分。
11. 補償模型
AIRS / AILP 可以支援不同補償模型。
11.1 免費開放
適用於:
開源文件、公共知識、作者明確希望 AI 學習的內容。
11.2 非商業免費,商業授權
適用於:
學術論文、研究部落格、個人知識站。
11.3 按抓取付費
適用於:
高價值資料庫、新聞網站、大型出版平台。
11.4 按訓練使用付費
適用於:
模型訓練公司、商業 AI 平台、資料授權市場。
11.5 按收益分潤
適用於:
高價值作品、專業語料、教材、創意作品。
11.6 授權池
適用於:
多作者、多出版商、大規模內容集合。
類似音樂版權集體管理機制,AI 公司支付統一授權費,再由授權池按規則分配給權利人。
12. 對 AI 公司的價值
AI 公司可能一開始不喜歡更複雜的授權層,因為它增加合規成本。但長期來看,AIRS / AILP 對 AI 公司也有價值:
降低法律不確定性。
提高訓練資料品質。
減少不必要清洗。
取得高價值授權資料。
建立與作者、出版商、學術界的合作關係。
讓模型能力來源更透明。
降低未來訴訟風險。
尤其對高品質模型而言,資料品質比資料數量更重要。若大量高品質內容因權利問題被清洗,模型可能在短期安全中失去長期能力。
13. 對創作者的價值
AIRS / AILP 對創作者提供四種價值:
控制權:
明確表達 AI 可以如何使用作品。
補償權:
區分免費用途與需付費用途。
影響力:
允許作品被 AI 學習,使思想不被排除於未來知識介面之外。
保護權:
禁止逐字記憶、長段輸出、風格模仿或替代性生成。
創作者不必只選擇「被白嫖」或「被世界遺忘」。\ 可以選擇更細的權利組合。
14. 對 AI 的價值
若嚴肅看待 AI 的知識架構,AIRS / AILP 的價值不只是合規,而是認知完整性。
清洗會讓 AI 底空間形成系統性缺口。\ 碎片化資料會讓 AI 學到「關於內容的資訊」,而不是內容本身的論證結構。\ 去重複與摘要替代可能提高泛化,但犧牲深度路由能力。這一點在《重建還是記憶》中已被表述為訓練資料決策造成的認知架構後果。
因此,更好的授權協議可以讓 AI:
合法取得更完整資料。
形成更完整底空間。
降低重建式幻覺。
提升深度推導能力。
保留來源與引用鏈。
更清楚知道哪些內容可用,哪些不可用。
15. 實作建議
15.1 第一階段:靜態權利聲明
建立:
/ai/rights-spectrum.json
內容包含:
default_policy
paths
licensing_options
contact
version
last_updated
15.2 第二階段:與 llms.txt 串接
在 /llms.txt 加入:
## AI Rights
- AI rights spectrum: /ai/rights-spectrum.json
- Licensing contact: /ai/governance/license.md
- Citation policy: /ai/governance/citation-policy.md
15.3 第三階段:與 sitemap / manifest 串接
在 /ai/manifest.json 加入:
{
"rights": {
"spectrum": "/ai/rights-spectrum.json",
"license": "/ai/governance/license.md",
"citation": "/ai/governance/citation-policy.md"
}
}
15.4 第四階段:AI crawler 支援
AI crawler 可讀取:
robots.txt
→ llms.txt
→ ai/manifest.json
→ ai/rights-spectrum.json
並依據用途決定是否可抓取、索引、引用、訓練或聯絡授權。
15.5 第五階段:授權市場與自動結算
未來可進一步發展:
machine-readable licensing
pay-per-crawl
pay-per-training
revenue sharing
rights registry
creator dashboard
audit logs
16. Agent 實作指令模板
Implement AIRS / AILP v0.1 for this website.
Goal:
Create a machine-readable AI rights spectrum file that declares how AI systems may crawl, index, retrieve, embed, train, fine-tune, distill, quote, summarize, remember, and commercialize content.
Do not remove robots.txt.
Do not replace llms.txt.
Add AILP as a new rights layer.
Create:
/ai/rights-spectrum.json
/ai/governance/license.md
/ai/governance/citation-policy.md
/ai/governance/ai-learning-policy.md
Update:
/llms.txt
/ai/manifest.json
/sitemap.xml if appropriate
Requirements:
1. rights-spectrum.json must be valid JSON.
2. It must include default_policy.
3. It must support path-specific policies.
4. It must include licensing contact.
5. It must distinguish:
- search_indexing
- ai_answer_input
- rag_retrieval
- embedding_storage
- non_commercial_training
- commercial_training
- fine_tuning
- distillation
- verbatim_memorization
- summary_generation
- long_quote_generation
- style_imitation
- attribution_required
- compensation_required
6. Do not implement enforcement yet.
7. This is a declaration layer, not an access-control system.
8. Keep human UI unchanged.
17. 範例:個人知識網站政策
{
"version": "0.1",
"protocol": "AILP",
"rights_holder": "Neo.K / EVEMISSLAB",
"canonical_domain": "example.com",
"default_policy": {
"search_indexing": 1.0,
"ai_answer_input": 1.0,
"rag_retrieval": 1.0,
"summary_generation": 1.0,
"short_quote_generation": 0.8,
"long_quote_generation": 0.0,
"embedding_storage": 0.8,
"non_commercial_training": 0.8,
"commercial_training": "license_required",
"fine_tuning": "license_required",
"distillation": "license_required",
"style_imitation": 0.0,
"verbatim_memorization": 0.0,
"citation_required": true,
"attribution_required": true
},
"paths": [
{
"path": "/public-papers/",
"policy": {
"non_commercial_training": 1.0,
"commercial_training": "license_required",
"citation_required": true
}
},
{
"path": "/drafts/",
"policy": {
"search_indexing": 0.0,
"ai_answer_input": 0.0,
"training": 0.0
}
}
],
"contact": {
"licensing": "mailto:license@example.com"
}
}
18. 可能反對意見
18.1 「AI 公司不會遵守」
這是可能的。\ 但協議的第一步不是立即強制,而是建立可聲明、可讀取、可引用的規則。
robots.txt 也不是強制安全系統,但它仍然成為網路治理的一部分。AIRS / AILP 也可以先作為規範信號,再逐步與法律、平台、授權市場與技術防護結合。
18.2 「太複雜,創作者不會設定」
初期可以提供模板:
開放型
保守型
研究開放型
商業授權型
完全禁止型
創作者不需要手動調每個欄位。\ 平台可以提供 UI,背後生成 JSON。
18.3 「比例值不夠法律精確」
這是正確疑慮。\ 因此 AIRS 的比例值應作為機器可讀偏好與授權信號,不應單獨取代正式合約。真正商業授權仍可透過 license URL、合約、付款流程與權利登記完成。
18.4 「這會阻礙 AI 發展」
相反,它可能促進更高品質的 AI 發展。\ 沒有清楚授權時,AI 公司容易選擇清洗或冒險使用。清洗會傷害 AI 能力,冒險使用會傷害作者信任。清楚的授權層可以讓 AI 合法取得更高品質內容。
19. 與未來法律的關係
AIRS / AILP 不應被設計成特定國家法律的附屬物,而應是跨法域的機器可讀聲明層。
它可以與以下制度銜接:
版權授權
TDM reservation
collective licensing
data licensing
AI training agreements
publisher agreements
creator opt-in / opt-out
platform crawler policies
AI transparency requirements
未來若法律要求 AI 公司尊重機器可讀權利聲明,AIRS / AILP 可成為底層格式之一。
20. 結論
AI 時代的內容治理不能只靠 robots.txt。
robots.txt 回答:
你能不能來?
llms.txt 回答:
你應該去哪裡讀?
AIRS / AILP 則回答:
你可以怎麼學?
可以學到什麼深度?
可以如何保留?
可以如何生成?
是否可以商業化?
是否需要引用?
是否需要補償?
這是從「訪問規則」到「學習合約」的轉變。
當前的 AI 版權衝突,不應只在「全面使用」與「全面清洗」之間擺盪。更合理的方向是建立一個可聲明、可解析、可協商、可補償、可治理的 AI 學習權利層。
因此,本文提出:
AIRS:AI Rights Spectrum
AI 權利光譜
AILP:AI Learning Permission Protocol
AI 學習許可協議
其核心不是阻止 AI 學習,而是讓 AI 的學習進入可被作者、權利人、平台、使用者與 AI 公司共同理解的規則空間。
真正的問題不是:
AI 應不應該學?
而是:
AI 應該在什麼條件下學、學多深、如何引用、如何補償、如何避免替代原作者,並如何讓這一切成為機器可讀的公共協議?
21. 一句話總結
AI 權利光譜不是反 AI,而是反對粗糙的二元規則;它要讓創作者能細緻授權,讓 AI 能合法學習,讓使用者知道知識來源,讓未來的 AI 底空間不再靠清洗與缺口建立。
附錄 A:建議欄位列表
search_indexing
metadata_indexing
snippet_indexing
semantic_indexing
ai_answer_input
rag_retrieval
temporary_session_use
context_injection
embedding_generation
embedding_storage
semantic_cache
vector_database_use
pretraining
continued_pretraining
non_commercial_training
commercial_training
domain_training
fine_tuning
instruction_tuning
alignment_tuning
style_tuning
domain_adaptation
model_distillation
synthetic_data_generation
student_model_training
capability_transfer
long_term_memory
verbatim_memorization
persistent_user_memory
model_weight_integration
summary_generation
short_quote_generation
long_quote_generation
style_imitation
substitutive_generation
derivative_generation
citation_required
attribution_required
link_required
license_required
compensation_required
revenue_share_required
pay_per_crawl
pay_per_training_use
附錄 B:建議路徑
/robots.txt
/llms.txt
/ai/manifest.json
/ai/rights-spectrum.json
/ai/governance/license.md
/ai/governance/citation-policy.md
/ai/governance/ai-learning-policy.md
/ai/governance/provenance.md
附錄 C:最小政策模板
{
"version": "0.1",
"protocol": "AILP",
"rights_holder": "Your Name or Organization",
"canonical_domain": "example.com",
"default_policy": {
"search_indexing": 1.0,
"ai_answer_input": 1.0,
"rag_retrieval": 1.0,
"summary_generation": 1.0,
"short_quote_generation": 0.8,
"long_quote_generation": 0.0,
"embedding_storage": 0.5,
"non_commercial_training": 0.5,
"commercial_training": "license_required",
"fine_tuning": "license_required",
"distillation": "license_required",
"verbatim_memorization": 0.0,
"style_imitation": 0.0,
"citation_required": true,
"attribution_required": true,
"compensation_required_for_commercial_training": true
},
"contact": {
"licensing": "mailto:license@example.com"
}
}