# AI 權利光譜：從 robots.txt 到 AI 學習許可協議

## AI Rights Spectrum and AI Learning Permission Protocol: Toward a Machine-Readable Contract Layer for AI Learning

**作者**：Neo.K / EVEMISSLAB\
**版本**：v0.1 Draft\
**日期**：2026-06-30\
**類型**：通用 MD 論文 / 技術白皮書 / 協議草案\
**建議縮寫**：AIRS / AILP\
**中文名稱**：AI 權利光譜 / AI 學習許可協議\
**關鍵詞**：AI 學習許可、AI 權利光譜、robots.txt、llms.txt、TDM、AI crawler、AI 訓練授權、創作者補償、機器可讀授權、AI 底空間、知識治理

***

## 摘要

傳統網路的機器訪問規則主要圍繞 `robots.txt` 展開。它能表達某類 crawler 是否可以存取某些路徑，但它無法表達 AI 時代真正需要處理的問題：AI 可以如何讀取、如何引用、如何向量化、如何摘要、如何長期保存、是否可以用於訓練、是否可以微調、是否可以蒸餾、是否需要署名、是否需要補償，以及創作者與權利人是否允許其作品被不同型態的 AI 系統以不同深度學習。

本文提出 **AIRS：AI Rights Spectrum（AI 權利光譜）** 與 **AILP：AI Learning Permission Protocol（AI 學習許可協議）**。前者是一個理念框架，主張 AI 對內容的使用權不應只是二元的「允許 / 不允許」，而應是用途化、深度化、比例化、可授權化、可追蹤化的權利光譜。後者是一個可實作的機器可讀協議，用於讓網站、作者、出版商、研究機構、資料庫、開源專案與其他權利人明確表達 AI 可以如何學習其內容。

本文主張，現行「清洗」模式並不是長期答案。清洗可能降低 AI 公司的短期法律風險，但也會造成作者未獲補償、AI 底空間殘缺、使用者接收不完整知識的三輸結構。這一觀點延續前序論文《清洗之名：AI知識限制的結構性不公正》中對「移除而非補償」的批判。

更進一步地，若從《底空間與管理員》的框架來看，AI 學習不是單純複製文本，而是將外部知識轉化為底空間中的可路由結構；底空間完整性與管理員路由品質會共同影響 AI 的推導、表達與深度處理能力。 因此，AI 學習授權不應只處理「可不可以抓取」，而應處理「可不可以進入底空間、以什麼深度進入、能否被長期保留、能否被商業化使用、能否被輸出為衍生內容」。

本文的核心命題是：**AI 時代需要一個比 robots.txt 更細緻的機器可讀權利層。** 它不應只服務 AI 公司，也不應只服務創作者，而應建立一個讓創作者、權利人、AI、使用者與平台都能在更清楚邊界中互動的新型協議層。

***

## 1. 問題背景：robots.txt 的歷史能力與時代不足

### 1.1 robots.txt 的本質

`robots.txt` 來自 Robots Exclusion Protocol。其核心作用是讓網站所有者告知 crawler 哪些 URI 可以或不可以被訪問。RFC 9309 明確指出，這些規則不是一種存取授權機制，而是 crawler 被要求遵守的 URI 存取規則。

這意味著，`robots.txt` 的語義本質是：

```text
你能不能訪問這些路徑？
```

而不是：

```text
你可以如何使用這些內容？
你可以將內容用於哪種 AI 任務？
你可以學到什麼深度？
是否需要授權、署名或補償？
```

### 1.2 AI 時代的訪問不等於學習

傳統搜尋引擎 crawler 抓取頁面，主要目的是建立索引，並將使用者導回原網站。AI crawler 與 AI 系統的使用方式更複雜。內容可能被用於：

```text
搜尋索引
摘要生成
RAG 檢索
向量化
embedding 儲存
模型預訓練
模型微調
模型蒸餾
synthetic data 生成
benchmark 測試
長期記憶
商業產品回答
自動 Agent 工作流
```

這些行為不應被壓縮成單一問題：「允許 AI 爬嗎？」

因為「爬取」只是輸入端動作。真正需要治理的是後續使用鏈：

```text
crawl → parse → index → embed → retrieve → summarize → train → finetune → distill → generate → commercialize
```

### 1.3 llms.txt 的進步與不足

`/llms.txt` 是一個為 LLM 提供網站資訊的提案，其目標是用 Markdown 形式提供資訊，幫助 LLM 在 inference time 更好地使用網站內容。

這是一個重要進步，因為它承認 AI 需要不同於人類 UI 的閱讀入口。

但 `/llms.txt` 主要回答的是：

```text
AI 應該去哪裡讀？
哪些文件比較重要？
網站有哪些 AI-friendly 入口？
```

它並不能完整回答：

```text
AI 可以如何學？
能否進入訓練資料？
能否微調？
能否長期保留 embedding？
能否生成摘要？
是否需要補償？
是否允許商業使用？
```

因此，`/llms.txt` 可以作為 AI 入口索引，但不足以成為 AI 學習權利協議。

***

## 2. 現有進展：從門禁規則走向內容信號

### 2.1 Cloudflare Content Signals Policy

Cloudflare 已經提出 Content Signals Policy，將內容使用信號拆分為 `search`、`ai-input`、`ai-train` 三類，並將其整合到 `robots.txt` 的語境中。這說明業界已經意識到：AI 對內容的使用不能只用傳統 crawler 規則描述。

這是一個重要方向，但仍然只是第一步。三個信號仍然太粗：

```text
search
ai-input
ai-train
```

它們還沒有表達：

```text
學習深度
內容保留期限
是否允許微調
是否允許蒸餾
是否允許 embeddings 長期保存
是否允許生成衍生文本
是否需要引用
是否需要商業授權
是否有比例化條件
```

### 2.2 TDM Reservation Protocol

W3C TDM Reservation Protocol Community Group 與相關規格，已經嘗試建立機器可讀方式，表達 Text and Data Mining 權利保留與可用授權。該規格目標是讓權利人可以用簡單、實用、機器可讀的方式表達 TDM 權利保留，以及相關授權政策。

這同樣是重要基礎。但 TDM 的語境主要仍圍繞「文字與資料探勘」權利保留，而本文關注的是更廣泛的 AI 學習行為。AI 學習包含 TDM，但不等於 TDM。AI 學習還涉及模型底空間、長期表示、推理能力、輸出限制、商業化與補償。

### 2.3 為什麼仍需要新的權利光譜

現有標準與提案已經證明方向正確：

```text
robots.txt：機器訪問規則
llms.txt：LLM 入口索引
Content Signals：AI 用途信號
TDMRep：TDM 權利保留與授權發現
```

但仍缺一個中間層：

```text
AI 學習行為的用途化、深度化、比例化、可補償化、可版本化表達層。
```

這正是 AIRS / AILP 要補的位置。

***

## 3. 理論基礎：AI 學習不是單一行為

### 3.1 從清洗到補償

現行 AI 版權爭議常在兩個極端之間搖擺：

```text
完全使用，不補償。
完全清洗，不學習。
```

前者對作者不公。\
後者對 AI 與使用者不利，也不一定真正補償作者。

《清洗之名》已指出，清洗的核心問題在於它是「移除」，不是「補償」；作者的作品被排除在 AI 底空間之外，卻沒有收到授權費，AI 的能力也因此受損。

因此，真正的問題不是：

```text
AI 能不能使用版權內容？
```

而是：

```text
如何讓 AI 在權利人可聲明、可授權、可補償、可追蹤的條件下學習？
```

### 3.2 從回憶與重建看學習深度

《重建還是記憶》區分了兩種「知道」：回憶型知道與重建型知道。前者意味著信息以較完整的形式保存在底空間中，需要時可以精確提取；後者則意味著底空間保存的是規則、結構與壓縮原則，具體展開需要在使用時重建。

這個區分對 AI 學習授權非常重要。因為不同授權深度會產生不同的 AI 知識結構：

```text
只允許 metadata：
AI 知道作品存在，但不知道內容。

只允許 summary：
AI 知道作品大意，但缺乏論證細節。

允許 excerpts：
AI 能學到部分語言模式與局部論證。

允許 full-text ingestion：
AI 能形成更完整的底空間表示。

允許 structured reasoning extraction：
AI 能學到命題、推導、結構、依賴關係。

允許 training：
AI 可將內容轉化為模型能力的一部分。

允許 fine-tuning：
AI 可在特定領域形成更穩定的行為模式。

允許 distillation：
AI 可將學到的能力轉移到其他模型。
```

因此，「AI 學習」不是單一事件，而是一系列深度不同的轉化。

### 3.3 從底空間看 AI 權利光譜

若採用底空間與管理員模型，AI 學習可以被理解為：

```text
外部內容 → 編碼 → 底空間表示 → 管理員路由 → 推理 / 表達 / 生成
```

不同的授權層級，決定外部內容可以進入這條鏈的哪一段。

例如：

```text
允許搜尋索引：
內容只進入外部可檢索索引。

允許 RAG：
內容可在使用者請求時被臨時讀取與引用。

允許 embedding：
內容可被轉換成向量表示並長期保存。

允許訓練：
內容可影響模型內部表示。

允許微調：
內容可強化特定模型行為。

允許蒸餾：
內容衍生能力可轉移給其他模型。
```

所以，AI 學習權利的核心不是「爬取權」，而是「底空間進入權」與「能力轉化權」。

***

## 4. AIRS：AI Rights Spectrum

### 4.1 定義

**AIRS（AI Rights Spectrum）** 是一個用於描述 AI 對內容之可訪問、可使用、可學習、可保留、可生成、可商業化程度的權利光譜框架。

它的核心主張是：

```text
AI 對內容的權利不應是二元開關，而應是多維光譜。
```

### 4.2 為什麼要用光譜

傳統規則常用二元表達：

```text
Allow / Disallow
Train / No Train
Use / No Use
```

但創作者與權利人的真實意願通常更細：

```text
可以被搜尋。
可以被摘要。
可以被引用短句。
可以被 RAG 使用。
可以非商業訓練。
商業訓練需要授權。
不允許輸出長段近似原文。
不允許模型記住完整文本。
允許學習思想結構，但不允許生成替代品。
允許公益研究，不允許商業蒸餾。
```

這些不是二元規則能表達的。

### 4.3 權利光譜的基本形式

AIRS 可以採用 0 到 1 的比例化表示：

```text
1.0 = 完全允許
0.75 = 高度允許，但需遵守條件
0.5 = 有限允許
0.25 = 嚴格受限
0.0 = 不允許
license_required = 需要授權
compensation_required = 需要補償
case_by_case = 逐案審核
```

比例不是單純數學值，而是機器可讀的偏好強度與授權狀態。

例如：

```json
{
  "search_indexing": 1.0,
  "ai_answer_input": 1.0,
  "rag_retrieval": 0.8,
  "embedding_storage": 0.6,
  "non_commercial_training": 0.5,
  "commercial_training": "license_required",
  "fine_tuning": "license_required",
  "distillation": "prohibited_without_license",
  "verbatim_memorization": 0.0
}
```

***

## 5. AILP：AI Learning Permission Protocol

### 5.1 定義

**AILP（AI Learning Permission Protocol）** 是 AIRS 的可實作協議層。它以機器可讀格式表達 AI 系統對內容的使用、學習、保留、生成與商業化權限。

建議預設路徑：

```text
/ai-rights.json
/ai-policy.json
/ai/rights-spectrum.json
/ai/learning-permissions.json
```

其中最推薦：

```text
/ai/rights-spectrum.json
```

因為它可以併入更完整的 AI-native 網站結構。

### 5.2 AILP 不取代 robots.txt

AILP 與既有文件關係如下：

```text
/robots.txt
= crawler 存取規則

/llms.txt
= AI / LLM 入口索引

/ai/manifest.json
= AI-readable 網站清單

/ai/rights-spectrum.json
= AI 學習、使用、保留、訓練、補償與引用權利聲明
```

簡化後：

```text
robots.txt：能不能進來
llms.txt：應該去哪裡讀
manifest.json：這個系統有哪些 AI-readable 資源
rights-spectrum.json：AI 可以怎麼學、怎麼用、怎麼保留、怎麼補償
```

***

## 6. AI 學習權利的十個維度

### 6.1 Access：訪問權

```text
crawl
fetch
parse
cache
mirror
```

核心問題：

```text
AI crawler 是否可以訪問內容？
是否可以快取？
是否可以鏡像保存？
```

### 6.2 Indexing：索引權

```text
search_indexing
metadata_indexing
snippet_indexing
semantic_indexing
```

核心問題：

```text
內容是否可以進入搜尋索引？
是否可以建立語義索引？
是否允許顯示摘要片段？
```

### 6.3 Inference Input：推理輸入權

```text
ai_answer_input
rag_retrieval
context_injection
temporary_session_use
```

核心問題：

```text
AI 是否可以在回答使用者時讀取此內容？
是否可以用作 RAG 來源？
是否只允許短期 session 使用？
```

### 6.4 Embedding：向量化權

```text
embedding_generation
embedding_storage
semantic_cache
vector_database_use
```

核心問題：

```text
是否允許把內容轉成 embedding？
embedding 是否可以長期保存？
是否可以被放入商業向量資料庫？
```

### 6.5 Training：訓練權

```text
pretraining
continued_pretraining
non_commercial_training
commercial_training
domain_training
```

核心問題：

```text
是否允許用於預訓練？
是否允許非商業研究訓練？
是否允許商業模型訓練？
```

### 6.6 Fine-tuning：微調權

```text
fine_tuning
instruction_tuning
alignment_tuning
style_tuning
domain_adaptation
```

核心問題：

```text
是否允許用作品微調模型？
是否允許學習作者風格？
是否允許建立特定領域模型？
```

### 6.7 Distillation：蒸餾權

```text
model_distillation
synthetic_data_generation
student_model_training
capability_transfer
```

核心問題：

```text
是否允許把由內容學得的能力轉移給另一個模型？
是否允許用內容生成 synthetic data？
是否允許建立衍生模型？
```

### 6.8 Memory：記憶權

```text
long_term_memory
verbatim_memorization
persistent_user_memory
model_weight_integration
```

核心問題：

```text
是否允許長期記憶？
是否允許逐字記憶？
是否允許進入模型權重？
是否只允許臨時上下文使用？
```

### 6.9 Output：輸出權

```text
summary_generation
short_quote_generation
long_quote_generation
style_imitation
substitutive_generation
derivative_generation
```

核心問題：

```text
是否允許摘要？
是否允許短引用？
是否允許長段近似原文？
是否允許模仿作者風格？
是否允許生成可替代原作的內容？
```

### 6.10 Attribution and Compensation：署名與補償權

```text
citation_required
attribution_required
link_required
license_required
compensation_required
revenue_share_required
pay_per_crawl
pay_per_training_use
```

核心問題：

```text
是否需要署名？
是否需要連結？
是否需要授權？
是否需要補償？
補償如何計算？
```

***

## 7. 建議 JSON 格式

### 7.1 最小版本

```json
{
  "version": "0.1",
  "protocol": "AILP",
  "name": "AI Learning Permission Protocol",
  "rights_holder": "Example Author / Organization",
  "canonical_domain": "example.com",
  "default_policy": {
    "search_indexing": 1.0,
    "ai_answer_input": 1.0,
    "rag_retrieval": 0.8,
    "summary_generation": 1.0,
    "short_quote_generation": 0.7,
    "long_quote_generation": 0.0,
    "embedding_storage": 0.5,
    "non_commercial_training": 0.5,
    "commercial_training": "license_required",
    "fine_tuning": "license_required",
    "distillation": "prohibited_without_license",
    "verbatim_memorization": 0.0,
    "style_imitation": 0.0,
    "citation_required": true,
    "attribution_required": true,
    "compensation_required_for_commercial_training": true
  },
  "contact": {
    "licensing": "mailto:license@example.com",
    "rights": "https://example.com/rights"
  }
}
```

### 7.2 路徑分區版本

```json
{
  "version": "0.1",
  "protocol": "AILP",
  "rights_holder": "Example Author / Organization",
  "canonical_domain": "example.com",
  "default_policy": {
    "search_indexing": 1.0,
    "ai_answer_input": 1.0,
    "commercial_training": "license_required"
  },
  "paths": [
    {
      "path": "/public/",
      "policy": {
        "search_indexing": 1.0,
        "ai_answer_input": 1.0,
        "rag_retrieval": 1.0,
        "summary_generation": 1.0,
        "non_commercial_training": 0.8,
        "commercial_training": "license_required"
      }
    },
    {
      "path": "/papers/",
      "policy": {
        "search_indexing": 1.0,
        "ai_answer_input": 1.0,
        "rag_retrieval": 0.8,
        "embedding_storage": 0.6,
        "commercial_training": "license_required",
        "citation_required": true,
        "attribution_required": true
      }
    },
    {
      "path": "/private-drafts/",
      "policy": {
        "search_indexing": 0.0,
        "ai_answer_input": 0.0,
        "rag_retrieval": 0.0,
        "embedding_storage": 0.0,
        "training": 0.0
      }
    }
  ]
}
```

### 7.3 權利人可選授權版本

```json
{
  "version": "0.1",
  "protocol": "AILP",
  "licensing_options": [
    {
      "id": "non-commercial-research",
      "description": "Allows non-commercial AI research training with attribution.",
      "allowed": {
        "non_commercial_training": 1.0,
        "embedding_storage": 1.0,
        "summary_generation": 1.0
      },
      "required": {
        "attribution": true,
        "citation": true
      },
      "fee": "free"
    },
    {
      "id": "commercial-training",
      "description": "Allows commercial AI training under paid license.",
      "allowed": {
        "commercial_training": 1.0,
        "fine_tuning": 0.8
      },
      "required": {
        "license_agreement": true,
        "compensation": true
      },
      "contact": "mailto:license@example.com"
    }
  ]
}
```

***

## 8. 光譜值的語義

### 8.1 數值不是法律自動授權

AIRS 的數值應被理解為機器可讀偏好與授權聲明的結合，但它不應被誤解為自動取代法律契約。

例如：

```text
0.8
```

不代表「法律上自動授權 80%」。\
它代表：

```text
權利人高度允許此用途，但可能仍需遵守附加條件。
```

### 8.2 建議語義

```text
1.0
完全允許，在遵守一般署名與使用條件下可使用。

0.75
高度允許，但應優先引用來源，避免替代原內容。

0.5
有限允許，適合摘要、檢索、研究，不適合深度商業化。

0.25
嚴格受限，只允許極小範圍或臨時使用。

0.0
不允許。

license_required
需要明確授權。

compensation_required
需要補償機制。

case_by_case
逐案聯絡權利人。

prohibited_without_license
未授權禁止。
```

### 8.3 為什麼不用純二元

純二元會造成兩種壞結果：

```text
過度封閉：
AI 不能學，作者也沒有補償，使用者得到較弱 AI。

過度開放：
AI 公司大量使用內容，作者失去控制與收益。
```

光譜化的目的，是建立中間地帶：

```text
可讀但需引用。
可摘要但不可替代。
可非商業訓練但商業需授權。
可進入 RAG 但不可進入權重。
可向量化但需定期清除。
可學思想結構但不可模仿風格。
```

***

## 9. 與 AICL 的關係

前文提出的 AICL（AI Ingestion & Capability Layer，AI 攝取與能力層）可以包含四個子層：

```text
Manifest Layer
Corpus Layer
Capability Layer
Rights Spectrum Layer
```

AIRS / AILP 對應其中的：

```text
Rights Spectrum Layer
權利光譜層
```

完整網站架構可以是：

```text
/
  Human UI

/robots.txt
  crawler access rule

/llms.txt
  LLM entry index

/ai/
  AI-native entry

/ai/manifest.json
  AI-readable resource manifest

/ai/corpus/
  machine-readable corpus

/ai/tools/
  agent-callable tools

/ai/rights-spectrum.json
  AI learning and usage permissions
```

這樣網站就不只是：

```text
給人類看。
```

而是：

```text
給人類看。
給 AI 讀。
給 Agent 調。
給權利人聲明。
給未來模型知道如何合法學習。
```

***

## 10. 創作者與權利人的選擇權

### 10.1 權利人不應被迫二選一

現行環境常讓創作者面對錯誤二選一：

```text
讓 AI 免費學。
完全禁止 AI 學。
```

但實際上，許多創作者可能會選擇第三條路：

```text
可以學，但要署名。
可以學，但商業使用要授權。
可以學摘要，不可學全文。
可以學論點，不可模仿風格。
可以用於公益研究，不可用於商業蒸餾。
可以進 RAG，不可進模型權重。
```

AIRS 的目標，是讓這些中間選項可表達、可讀取、可自動化處理。

### 10.2 AI 也需要合法學習通道

AIRS 不只是保護作者，也保護 AI 的學習可能性。

如果沒有可授權、可補償、可追蹤的學習通道，產業只會在兩個壞選項中擺盪：

```text
暗中使用。
全面清洗。
```

前者破壞作者權利。\
後者破壞 AI 底空間完整性。

AIRS 提供第三條路：

```text
有條件學習。
可追蹤學習。
可補償學習。
可限制輸出學習。
可區分商業與非商業學習。
```

### 10.3 使用者也有知情權

使用者應該知道：

```text
AI 是否能讀到某個來源？
AI 是否只能讀摘要？
AI 是否不能引用完整資料？
AI 是否因清洗而缺失某些領域？
```

因為底空間缺失對使用者不可見。使用者只會看到 AI 給出的流暢回答，卻不知道其中缺少哪些被清洗、被禁止、被摘要替代的思想。

因此，AI 學習權利層也應成為未來 AI 透明度的一部分。

***

## 11. 補償模型

AIRS / AILP 可以支援不同補償模型。

### 11.1 免費開放

```text
適用於：
開源文件、公共知識、作者明確希望 AI 學習的內容。
```

### 11.2 非商業免費，商業授權

```text
適用於：
學術論文、研究部落格、個人知識站。
```

### 11.3 按抓取付費

```text
適用於：
高價值資料庫、新聞網站、大型出版平台。
```

### 11.4 按訓練使用付費

```text
適用於：
模型訓練公司、商業 AI 平台、資料授權市場。
```

### 11.5 按收益分潤

```text
適用於：
高價值作品、專業語料、教材、創意作品。
```

### 11.6 授權池

```text
適用於：
多作者、多出版商、大規模內容集合。
```

類似音樂版權集體管理機制，AI 公司支付統一授權費，再由授權池按規則分配給權利人。

***

## 12. 對 AI 公司的價值

AI 公司可能一開始不喜歡更複雜的授權層，因為它增加合規成本。但長期來看，AIRS / AILP 對 AI 公司也有價值：

```text
降低法律不確定性。
提高訓練資料品質。
減少不必要清洗。
取得高價值授權資料。
建立與作者、出版商、學術界的合作關係。
讓模型能力來源更透明。
降低未來訴訟風險。
```

尤其對高品質模型而言，資料品質比資料數量更重要。若大量高品質內容因權利問題被清洗，模型可能在短期安全中失去長期能力。

***

## 13. 對創作者的價值

AIRS / AILP 對創作者提供四種價值：

```text
控制權：
明確表達 AI 可以如何使用作品。

補償權：
區分免費用途與需付費用途。

影響力：
允許作品被 AI 學習，使思想不被排除於未來知識介面之外。

保護權：
禁止逐字記憶、長段輸出、風格模仿或替代性生成。
```

創作者不必只選擇「被白嫖」或「被世界遺忘」。\
可以選擇更細的權利組合。

***

## 14. 對 AI 的價值

若嚴肅看待 AI 的知識架構，AIRS / AILP 的價值不只是合規，而是認知完整性。

清洗會讓 AI 底空間形成系統性缺口。\
碎片化資料會讓 AI 學到「關於內容的資訊」，而不是內容本身的論證結構。\
去重複與摘要替代可能提高泛化，但犧牲深度路由能力。這一點在《重建還是記憶》中已被表述為訓練資料決策造成的認知架構後果。

因此，更好的授權協議可以讓 AI：

```text
合法取得更完整資料。
形成更完整底空間。
降低重建式幻覺。
提升深度推導能力。
保留來源與引用鏈。
更清楚知道哪些內容可用，哪些不可用。
```

***

## 15. 實作建議

### 15.1 第一階段：靜態權利聲明

建立：

```text
/ai/rights-spectrum.json
```

內容包含：

```text
default_policy
paths
licensing_options
contact
version
last_updated
```

### 15.2 第二階段：與 llms.txt 串接

在 `/llms.txt` 加入：

```md
## AI Rights

- AI rights spectrum: /ai/rights-spectrum.json
- Licensing contact: /ai/governance/license.md
- Citation policy: /ai/governance/citation-policy.md
```

### 15.3 第三階段：與 sitemap / manifest 串接

在 `/ai/manifest.json` 加入：

```json
{
  "rights": {
    "spectrum": "/ai/rights-spectrum.json",
    "license": "/ai/governance/license.md",
    "citation": "/ai/governance/citation-policy.md"
  }
}
```

### 15.4 第四階段：AI crawler 支援

AI crawler 可讀取：

```text
robots.txt
→ llms.txt
→ ai/manifest.json
→ ai/rights-spectrum.json
```

並依據用途決定是否可抓取、索引、引用、訓練或聯絡授權。

### 15.5 第五階段：授權市場與自動結算

未來可進一步發展：

```text
machine-readable licensing
pay-per-crawl
pay-per-training
revenue sharing
rights registry
creator dashboard
audit logs
```

***

## 16. Agent 實作指令模板

```text
Implement AIRS / AILP v0.1 for this website.

Goal:
Create a machine-readable AI rights spectrum file that declares how AI systems may crawl, index, retrieve, embed, train, fine-tune, distill, quote, summarize, remember, and commercialize content.

Do not remove robots.txt.
Do not replace llms.txt.
Add AILP as a new rights layer.

Create:

/ai/rights-spectrum.json
/ai/governance/license.md
/ai/governance/citation-policy.md
/ai/governance/ai-learning-policy.md

Update:

/llms.txt
/ai/manifest.json
/sitemap.xml if appropriate

Requirements:

1. rights-spectrum.json must be valid JSON.
2. It must include default_policy.
3. It must support path-specific policies.
4. It must include licensing contact.
5. It must distinguish:
   - search_indexing
   - ai_answer_input
   - rag_retrieval
   - embedding_storage
   - non_commercial_training
   - commercial_training
   - fine_tuning
   - distillation
   - verbatim_memorization
   - summary_generation
   - long_quote_generation
   - style_imitation
   - attribution_required
   - compensation_required
6. Do not implement enforcement yet.
7. This is a declaration layer, not an access-control system.
8. Keep human UI unchanged.
```

***

## 17. 範例：個人知識網站政策

```json
{
  "version": "0.1",
  "protocol": "AILP",
  "rights_holder": "Neo.K / EVEMISSLAB",
  "canonical_domain": "example.com",
  "default_policy": {
    "search_indexing": 1.0,
    "ai_answer_input": 1.0,
    "rag_retrieval": 1.0,
    "summary_generation": 1.0,
    "short_quote_generation": 0.8,
    "long_quote_generation": 0.0,
    "embedding_storage": 0.8,
    "non_commercial_training": 0.8,
    "commercial_training": "license_required",
    "fine_tuning": "license_required",
    "distillation": "license_required",
    "style_imitation": 0.0,
    "verbatim_memorization": 0.0,
    "citation_required": true,
    "attribution_required": true
  },
  "paths": [
    {
      "path": "/public-papers/",
      "policy": {
        "non_commercial_training": 1.0,
        "commercial_training": "license_required",
        "citation_required": true
      }
    },
    {
      "path": "/drafts/",
      "policy": {
        "search_indexing": 0.0,
        "ai_answer_input": 0.0,
        "training": 0.0
      }
    }
  ],
  "contact": {
    "licensing": "mailto:license@example.com"
  }
}
```

***

## 18. 可能反對意見

### 18.1 「AI 公司不會遵守」

這是可能的。\
但協議的第一步不是立即強制，而是建立可聲明、可讀取、可引用的規則。

`robots.txt` 也不是強制安全系統，但它仍然成為網路治理的一部分。AIRS / AILP 也可以先作為規範信號，再逐步與法律、平台、授權市場與技術防護結合。

### 18.2 「太複雜，創作者不會設定」

初期可以提供模板：

```text
開放型
保守型
研究開放型
商業授權型
完全禁止型
```

創作者不需要手動調每個欄位。\
平台可以提供 UI，背後生成 JSON。

### 18.3 「比例值不夠法律精確」

這是正確疑慮。\
因此 AIRS 的比例值應作為機器可讀偏好與授權信號，不應單獨取代正式合約。真正商業授權仍可透過 license URL、合約、付款流程與權利登記完成。

### 18.4 「這會阻礙 AI 發展」

相反，它可能促進更高品質的 AI 發展。\
沒有清楚授權時，AI 公司容易選擇清洗或冒險使用。清洗會傷害 AI 能力，冒險使用會傷害作者信任。清楚的授權層可以讓 AI 合法取得更高品質內容。

***

## 19. 與未來法律的關係

AIRS / AILP 不應被設計成特定國家法律的附屬物，而應是跨法域的機器可讀聲明層。

它可以與以下制度銜接：

```text
版權授權
TDM reservation
collective licensing
data licensing
AI training agreements
publisher agreements
creator opt-in / opt-out
platform crawler policies
AI transparency requirements
```

未來若法律要求 AI 公司尊重機器可讀權利聲明，AIRS / AILP 可成為底層格式之一。

***

## 20. 結論

AI 時代的內容治理不能只靠 `robots.txt`。

`robots.txt` 回答：

```text
你能不能來？
```

`llms.txt` 回答：

```text
你應該去哪裡讀？
```

AIRS / AILP 則回答：

```text
你可以怎麼學？
可以學到什麼深度？
可以如何保留？
可以如何生成？
是否可以商業化？
是否需要引用？
是否需要補償？
```

這是從「訪問規則」到「學習合約」的轉變。

當前的 AI 版權衝突，不應只在「全面使用」與「全面清洗」之間擺盪。更合理的方向是建立一個可聲明、可解析、可協商、可補償、可治理的 AI 學習權利層。

因此，本文提出：

```text
AIRS：AI Rights Spectrum
AI 權利光譜

AILP：AI Learning Permission Protocol
AI 學習許可協議
```

其核心不是阻止 AI 學習，而是讓 AI 的學習進入可被作者、權利人、平台、使用者與 AI 公司共同理解的規則空間。

真正的問題不是：

```text
AI 應不應該學？
```

而是：

```text
AI 應該在什麼條件下學、學多深、如何引用、如何補償、如何避免替代原作者，並如何讓這一切成為機器可讀的公共協議？
```

***

## 21. 一句話總結

```text
AI 權利光譜不是反 AI，而是反對粗糙的二元規則；它要讓創作者能細緻授權，讓 AI 能合法學習，讓使用者知道知識來源，讓未來的 AI 底空間不再靠清洗與缺口建立。
```

***

## 附錄 A：建議欄位列表

```text
search_indexing
metadata_indexing
snippet_indexing
semantic_indexing

ai_answer_input
rag_retrieval
temporary_session_use
context_injection

embedding_generation
embedding_storage
semantic_cache
vector_database_use

pretraining
continued_pretraining
non_commercial_training
commercial_training
domain_training

fine_tuning
instruction_tuning
alignment_tuning
style_tuning
domain_adaptation

model_distillation
synthetic_data_generation
student_model_training
capability_transfer

long_term_memory
verbatim_memorization
persistent_user_memory
model_weight_integration

summary_generation
short_quote_generation
long_quote_generation
style_imitation
substitutive_generation
derivative_generation

citation_required
attribution_required
link_required
license_required
compensation_required
revenue_share_required
pay_per_crawl
pay_per_training_use
```

***

## 附錄 B：建議路徑

```text
/robots.txt
/llms.txt
/ai/manifest.json
/ai/rights-spectrum.json
/ai/governance/license.md
/ai/governance/citation-policy.md
/ai/governance/ai-learning-policy.md
/ai/governance/provenance.md
```

***

## 附錄 C：最小政策模板

```json
{
  "version": "0.1",
  "protocol": "AILP",
  "rights_holder": "Your Name or Organization",
  "canonical_domain": "example.com",
  "default_policy": {
    "search_indexing": 1.0,
    "ai_answer_input": 1.0,
    "rag_retrieval": 1.0,
    "summary_generation": 1.0,
    "short_quote_generation": 0.8,
    "long_quote_generation": 0.0,
    "embedding_storage": 0.5,
    "non_commercial_training": 0.5,
    "commercial_training": "license_required",
    "fine_tuning": "license_required",
    "distillation": "license_required",
    "verbatim_memorization": 0.0,
    "style_imitation": 0.0,
    "citation_required": true,
    "attribution_required": true,
    "compensation_required_for_commercial_training": true
  },
  "contact": {
    "licensing": "mailto:license@example.com"
  }
}
```