從 Human-Centric Web 到 AI-Readable Web：AI 爬蟲、Agent 與機器讀者時代的網站架構轉換

Toward Deterministic Corpus Ingestion, Machine-Readable Rights, and Agent-Native Publication Layers

作者：Neo.K / EVEMISSLAB
版本：v0.1 Draft
日期：2026-07-01
類型：MD 論文 / 技術哲學論文 / AI-native Web Architecture 觀察稿
關鍵詞：AI-readable web、AI crawler、Agent-first web、llms.txt、robots.txt、AICL、AIRS、AILP、deterministic ingestion、machine-readable rights、AI-native publication、corpus manifest、Agent-native web

摘要

過去三十年的網站架構基本上建立在人類中心假設之上。網站首先服務人類瀏覽者，其次服務搜尋引擎 crawler；因此網站設計重點通常集中於首頁、導覽列、SEO metadata、社群分享、頁面速度、可訪問性與搜尋收錄。自動化 crawler 在舊時代多半被視為外部訪客：要不是搜尋引擎索引者，要不是需要被限制、防堵或降低爬取成本的資料擷取者。

然而，AI 與 Agent 時代改變了這個前提。網站的新讀者不再只有人類與搜尋引擎，而是包括 AI crawler、LLM crawler、RAG 系統、embedding indexer、自主 Agent、模型訓練管線、機器推理流程與未來的 AI 協作者。這些讀者不只是「看」網站，而是會抓取、解析、切分、索引、向量化、摘要、引用、重組、訓練、微調，甚至把網站內容作為未來行動與推理的基礎。

本文提出：Web 正在從 Human-Centric Web 轉向 AI-Readable Web。這不是單純把網站開放給 AI 爬取，也不是把 robots.txt、SEO 或 /llms.txt 視為終點，而是需要新增一個面向 AI、Agent 與機器讀者的網站結構層。本文將這個方向整理為三個核心命題：

1. AI 不只是 crawler，而是新的正式讀者。
2. 網站不只需要被索引，而需要被決定性攝取。
3. AI-readable web 不只是開放問題，而是 manifest、corpus、rights、provenance、tools 與 governance 的架構問題。

本文進一步提出 抽獎式攝取 與 決定性攝取 的區分。傳統網站若缺乏 stable ID、canonical route、corpus manifest、raw/page/API 分層、redirects、broken-link validation 與 machine-readable rights layer，AI crawler 可能反覆抓到錯誤路徑、舊版頁面、重複內容、404 頁面或不完整 corpus，造成 AI 對網站內容的理解變成不穩定、斷裂、錯位與部分幻覺化。

因此，本文主張，AI 時代的網站架構需要從：

Human UI + SEO metadata + robots.txt

升級為：

Human UI
Search Metadata
AI Ingestion Layer
Agent Capability Layer
Rights / Provenance / Governance Layer

這一轉換不代表所有網站都應該無條件開放 AI 學習；相反，它意味著網站應能清楚表達哪些內容可讀、哪些內容可引用、哪些內容可訓練、哪些內容需要授權、哪些內容是正本、哪些內容是歷史版本，以及 AI 應該如何穩定、可追溯、可驗證地攝取網站知識。

1. 引言：網站的新讀者

傳統網站主要面向人類。即使搜尋引擎 crawler 很早就成為網路基礎設施的一部分，它們在網站想像中仍然屬於輔助層：搜尋引擎索引網站，再把人類使用者導回網站。這一模式形成了一種隱含契約：

網站提供內容。
搜尋引擎索引內容。
搜尋引擎返回流量。
人類回到網站閱讀。

AI 時代正在破壞這個契約。AI crawler 與 LLM 系統抓取內容後，不一定把使用者導回原網站，而是可能直接在回答中消化、摘要、重組、引用甚至替代原頁面。Cloudflare 在 Pay Per Crawl 的說明中也將其定位為一種讓內容所有者控制與貨幣化 AI crawler 存取的機制，並以 HTTP 402 與 crawler pricing 讓 AI crawler 不是單純被允許或拒絕，而是進入可定價、可協商的存取模型。

這代表網站的新問題不再只是：

如何讓人類看見？
如何讓搜尋引擎收錄？
如何阻止惡意爬蟲？

而是：

AI 應該如何讀取這個網站？
AI 會讀到哪些內容？
AI 會不會讀錯？
AI 會不會把舊版當新版？
AI 能否知道 canonical source？
AI 能否知道哪些內容可引用、可訓練、可商業使用？
Agent 能否知道哪些工具可以調用？

如果網站無法回答這些問題，AI crawler 仍然可能大量訪問網站，但其攝取行為會變成猜測式、片段式、重複式與非決定性。

2. 現有趨勢：AI-readable Web 的前兆

2.1 Agent-first Web 的出現

2026 年已有研究直接提出 Agent-First Web 的概念，指出 Web 過去三十年假設主要內容消費者是人類，但 AI agents 作為人與網路內容之間的中介，正在使這個假設失效。該研究主張需要在 access、economic、content 等層面重新設計 Web，使 Agent 成為一等參與者，而不是被 CAPTCHA、封鎖與舊經濟模型排斥的外部擷取者。

這個方向說明，外部研究已經開始意識到：問題不只是 AI crawler 是否應被阻擋，而是 Web 的基礎假設正在改變。若 Agent 會代表人類閱讀、比較、購買、整理、引用與行動，那麼網站就不能只把它們當成「不該來的機器流量」。

2.2 `/llms.txt`：AI 入口索引的早期形式

/llms.txt 提案於 2024 年提出，主張網站可以提供一份 LLM-friendly Markdown 檔案，讓 LLM 在使用網站時取得背景資訊、指引與重要連結。這是 AI-readable web 的早期代表，因為它明確承認 HTML UI 並不總是適合 LLM 直接理解，網站需要一個給模型閱讀的入口。

但 /llms.txt 主要解決的是「AI 應該去哪裡讀」的問題。它不必然解決 stable ID、版本、權利、raw/canonical 分層、corpus manifest、broken link validation、Agent tools 或訓練授權等問題。因此，它更像是 AI-readable web 的入口索引，而不是完整的 AI-native publication architecture。

2.3 robots.txt 的不足

Google 的 Search Central 文件明確指出，若要讓頁面不出現在 Google 中，應使用 noindex 或密碼保護，而不是單靠 robots.txt；robots.txt 主要是 crawler 存取規則與流量管理工具，不是內容消失、權限授權或完整治理機制。

OpenAI 也提供官方 crawler 文件，將 OAI-SearchBot 與 GPTBot 等 crawler 分開說明，並讓網站管理者用 robots.txt tags 管理網站內容與 OpenAI 產品的互動方式。這顯示 AI crawler 已開始從傳統搜尋 crawler 中分化出不同目的、不同用途、不同政策的機器讀者。

因此，robots.txt 的問題不是「無用」，而是它原本不是為 AI learning、AI answer input、RAG、embedding、fine-tuning、distillation、commercial training 這些用途設計的。它能回答「能不能進來」，但很難回答「進來後可以怎麼學」。

2.4 Content Signals 與 AI 用途分化

Cloudflare 的 Content Signals Policy 將內容使用信號分為 search、ai-input、ai-train 三類，並整合進 robots.txt 語境中。Cloudflare 文件也說明這三類分別對應搜尋索引、即時 AI 回答輸入，以及模型訓練或微調。

這是一個重要轉折：網站對 crawler 的聲明開始從「能不能抓」走向「抓了之後可以用來做什麼」。然而，三分法仍然偏粗。AI 對內容的使用還可能包括：

RAG retrieval
embedding storage
semantic cache
temporary context use
long-term memory
summary generation
short quotation
style imitation
fine-tuning
distillation
synthetic data generation
commercial model training

因此，Content Signals 是 AI-readable web 的重要前兆，但仍需要更細的 machine-readable rights spectrum。

2.5 TDM Reservation Protocol 與機器可讀權利保留

W3C Community Group 的 TDM Reservation Protocol 定義了一種用於表達 Text and Data Mining 權利保留與授權政策發現的 Web protocol。其目標是讓權利人能以簡單、實用、機器可讀的方式聲明 TDM 權利保留，並協助 TDM actor 找到授權政策。

EDRLab 對 TDMRep 的說明也指出，該方向可讓權利人表達 mining rights 是否保留、如何聯絡權利人，以及是否存在可用授權。

這說明機器可讀權利層已經不是純理論構想；它正在被出版、法律與 TDM 語境推動。不過，TDM 仍主要聚焦文字與資料探勘，而 AI-readable web 面對的是更廣的機器攝取鏈：crawl、parse、embed、retrieve、summarize、train、fine-tune、distill、generate、commercialize。

2.6 Pay-per-crawl 與內容存取經濟

Cloudflare 的 Pay Per Crawl 進一步把 AI crawler 存取推向經濟協商層。其文件說明，當 AI crawler 請求受保護內容時，可以提出支付意圖，否則可能收到 HTTP 402 Payment Required 與內容價格；crawler 也可用 crawler-exact-price 或 crawler-max-price 表達願付價格。

這說明 AI-readable web 不只是一個技術問題，也是新的內容經濟問題。當 AI 系統從「導流」變成「直接消費內容」，網站所有者會要求新的控制、授權與補償機制。

2.7 Agent Readiness：新標準仍極早期

Cloudflare 在 2026 年推出 Agent Readiness score，主張 Web 曾經學會對瀏覽器與搜尋引擎說話，現在也需要學會對 AI agents 說話。其掃描結果指出，在其 200,000 個高流量網域樣本中，robots.txt 接近普遍，但多數仍是為傳統搜尋 crawler 而寫；一些新興 agent 標準如 MCP Server Cards 與 API Catalogs 在資料集中出現少於 15 個站點。

這點非常關鍵：外部世界已經開始意識到網站需要 agent-ready，但實作採用率仍非常低。這代表 AI-readable web 還在早期，尚未形成成熟範式。

3. 問題：AI crawler 來了，但不代表它吃對了

很多網站管理者會把 AI crawler 的出現理解為二元問題：

要不要讓 AI 爬？
要不要擋 AI？
要不要收 AI 錢？

但對於希望被 AI 正確理解的網站，真正問題不是 crawler 是否出現，而是 crawler 是否能正確、穩定、完整、可追溯地攝取內容。

本文提出一個區分：

抽獎式攝取（Lottery-like Ingestion）
決定性攝取（Deterministic Ingestion）

3.1 抽獎式攝取

抽獎式攝取指的是：AI crawler 每次訪問網站時，都可能因路由、索引、連結、slug、版本、raw/page 分層不清而得到不同的 corpus 邊界。

典型現象包括：

今天 crawler 看到某個 URL。
明天同一 URL 變成 404。

今天 crawler 看到 raw Markdown。
但沒有看到 canonical HTML page。

今天 crawler 抓到 paper-173。
下次 paper-173 因排序變動指向另一篇。

今天 crawler 沿著 Markdown 中的短相對連結進入 /papers/t。
但 /papers/t 其實只是公式或符號誤解析，不是真實文章。

某些文章明明存在。
但沒有被 sitemap、llms、manifest 或 canonical index 暴露。

某些頁面其實不存在。
但 crawler 因錯誤 href 反覆抓取。

對一般網站而言，這可能只是 SEO 或 404 問題。
對 AI-readable corpus 而言，這是知識攝取問題。

因為 AI 不只是要顯示搜尋結果，而可能把這些內容放入 RAG、embedding index、agent memory、training data 或未來引用鏈。一旦 ingestion 本身不穩，AI 對網站的理解就會出現錯位。

3.2 決定性攝取

決定性攝取指的是：AI crawler 不需要猜測網站結構，而是能依照明確 manifest、stable ID、canonical URL、raw source、metadata、timeline、rights policy 與 validation report 進行可重複攝取。

基本要求包括：

每篇內容有 stable ID。
每個 stable ID 有唯一 canonical URL。
每篇內容有 raw source URL。
每篇內容有 metadata JSON。
舊 URL 能 redirect 到 canonical URL。
sitemap 只放 canonical route。
llms.txt 指向 AI manifest。
corpus.jsonl 提供批次攝取入口。
rights-spectrum.json 表達 AI 使用與學習邊界。
broken link validator 避免假路徑污染 crawler。

核心轉換是：

Before:
Crawler guesses the site.

After:
Crawler follows the manifest.

4. Human-Centric Web 的歷史限制

人類中心網站不是錯誤，而是特定時代的合理設計。

在舊時代，網站主要需要回答：

使用者是否看得懂？
首頁是否清楚？
導覽是否順暢？
SEO 是否完整？
搜尋引擎是否能收錄？
社群分享是否正常？

因此，網站結構通常由人類閱讀動線決定。Markdown 檔案、PDF、DOCX、HTML、API、raw source、archive page、old route、draft page 等內容，只要人類能找到或站長知道放在哪裡，就算可用。

但 AI crawler 不是這樣讀網站。AI crawler 會：

掃 sitemap。
讀 robots.txt。
沿 href 爬行。
解析 Markdown。
切分文本。
抽取 metadata。
建立向量索引。
比對重複內容。
根據 URL 推測語義。
根據路由推測版本。
根據連結推測 corpus 邊界。

這意味著，人類覺得「差不多能看」的網站，對 AI 來說可能是不穩定的資料空間。

5. AI-Readable Web 的核心定義

本文將 AI-Readable Web 定義為：

一種將 AI crawler、LLM、Agent、RAG 系統、embedding indexer、模型訓練管線與機器推理流程視為正式讀者，並為其提供穩定、可追溯、可驗證、可授權、可批次攝取之結構層的網站架構。

AI-readable web 不等於：

讓 AI 隨便爬。
把所有資料公開。
只放一個 /llms.txt。
只改 robots.txt。
只做 SEO。
只做 API。

AI-readable web 要處理的是：

AI 應該讀什麼？
AI 應該從哪裡讀？
哪份是正本？
哪份是歷史版本？
哪份是 raw source？
哪份是 human-rendered page？
哪些可引用？
哪些可訓練？
哪些需要授權？
哪些是 deprecated？
哪些需要 attribution？
哪些內容應該被排除？

因此，AI-readable web 是一種新的 publication architecture。

6. 從 SEO 到 AIO / GEO，再到 AICL

SEO 解決的是搜尋引擎可見性。
AIO / GEO 解決的是 AI 搜尋與生成式回答中的可見性。
但 AI-readable web 解決的不是單純「被看見」，而是「被正確攝取」。

可用以下層級區分：

SEO:
讓搜尋引擎找到我。

AIO / GEO:
讓 AI 搜尋或生成式回答提到我。

AI-readable Web:
讓 AI 正確讀取、引用、追溯、批次攝取與遵守權利邊界。

AICL:
在網站中實作 AI ingestion、corpus manifest、agent capability、governance 的工程層。

AIRS / AILP:
在網站中實作 AI 使用、學習、訓練、引用、補償與授權的機器可讀權利層。

所以，AICL 不是 SEO 的變體，也不是 /llms.txt 的別名。它是 AI-readable web 的工程落地層。

7. AICL：AI Ingestion & Capability Layer

本文建議將 AI-readable web 的核心工程層命名為：

AICL = AI Ingestion & Capability Layer
中文：AI 攝取與能力層

AICL 包含四個基本子層：

1. Manifest Layer
2. Corpus Layer
3. Capability Layer
4. Governance Layer

7.1 Manifest Layer

Manifest Layer 提供 AI 的入口地圖。

建議路由：

/llms.txt
/ai/index.md
/ai/manifest.json
/ai/timeline.json
/sitemap.xml

它回答：

這個網站是什麼？
canonical domain 是什麼？
AI 應該去哪裡讀？
哪些文件是正本？
哪些 index 可批次讀取？

7.2 Corpus Layer

Corpus Layer 提供 AI-readable corpus。

建議路由：

/ai/corpus.json
/ai/corpus.jsonl
/raw/{id}.md
/api/papers/{id}.json
/p/{id}/

它回答：

每篇文件的 stable ID 是什麼？
原始檔在哪？
HTML 頁在哪？
metadata 在哪？
時間線在哪？
標籤、系列、版本、hash 是什麼？

7.3 Capability Layer

Capability Layer 讓 Agent 知道可用工具。

這一層可以先是靜態 catalog：

/ai/tools/catalog.json
/ai/tools/openapi.json

未來再接：

MCP Resources
MCP Tools
OpenAPI endpoints
validation tools
citation API
search API
compare-version API

MCP 的 Resources 可讓 server 暴露能提供模型上下文的資料，如檔案、資料庫 schema 或應用資訊；Tools 則讓模型能呼叫外部功能。這說明 Agent-readable web 不只需要內容，也需要受限、可描述、可治理的能力表面。

OpenAPI 則提供語言無關的 HTTP API 描述方式，讓人類與電腦不必讀原始碼或檢查網路流量，也能理解服務能力。

7.4 Governance Layer

Governance Layer 提供權利、引用、版本與來源說明。

建議路由：

/ai/governance/license.md
/ai/governance/citation-policy.md
/ai/governance/provenance.md
/ai/governance/versioning-policy.md
/ai/rights-spectrum.json

它回答：

AI 可以如何引用？
可以如何摘要？
可以如何訓練？
是否允許商業使用？
是否需要授權？
版本衝突時以誰為準？
內容來源與修改歷史是什麼？

8. AIRS / AILP：從訪問規則到學習合約

AI-readable web 不應只處理「能不能爬」，還應處理「可以怎麼學」。

因此本文建議引入：

AIRS = AI Rights Spectrum
AI 權利光譜

AILP = AI Learning Permission Protocol
AI 學習許可協議

其核心是：AI 對內容的權利不應只有 allow / disallow，而應該是多維光譜。

例如：

search_indexing: 1.0
ai_answer_input: 1.0
rag_retrieval: 1.0
embedding_storage: 0.8
non_commercial_training: 0.8
commercial_training: license_required
fine_tuning: license_required
distillation: license_required
verbatim_memorization: 0.0
style_imitation: 0.0
citation_required: true
attribution_required: true

這與 Content Signals、TDMRep、Pay Per Crawl 等趨勢相容，但更細。它不只表達 crawler access，也表達 AI learning depth。

9. AI-readable Web 的基本架構

一個 AI-readable site 應具有如下架構：

/
  Human UI

/docs/
  Human-readable docs

/p/{id}/
  Canonical paper pages

/raw/{id}.md
  Raw source files

/api/papers/{id}.json
  Machine-readable metadata

/llms.txt
  LLM entry index

/llms-full.txt
  Full corpus index

/ai/
  AI-native entry

/ai/manifest.json
  Machine-readable manifest

/ai/corpus.jsonl
  Bulk ingestion file

/ai/timeline.json
  Chronological index

/ai/tools/catalog.json
  Agent tool catalog

/ai/rights-spectrum.json
  Machine-readable AI rights declaration

/ai/governance/
  license, citation, provenance, versioning

這樣，網站不再只是：

人類 UI + SEO

而是：

Human UI
Search layer
AI ingestion layer
Agent capability layer
Rights and governance layer

10. 時間分類優先於主題分類

對大型理論 corpus 而言，主題分類不應作為 source tree 的主結構。

原因是：大量理論文件往往跨 AI、哲學、數學、工程、治理、產品、語言、認知與本體論。一篇文章可能同時屬於多個領域。若強迫主題分類，將造成：

分類歧義
資料夾爆炸
跨域文章錯放
理論生成時間線被破壞
Agent 誤分類
後續 corpus 演化不可追溯

因此，大型 AI-readable theoretical corpus 應採用：

資料夾保存時間。
metadata 保存語義。
registry 保存身份。
tags 保存多維索引。

建議 source tree：

content/papers/
  2024/
  2025/
  2026/
    2026-07/
  undated/
  imported/
  legacy/

語義分類交給：

frontmatter
registry/papers.json
/ai/corpus.jsonl
/ai/timeline.json
/tags/
/series/
/domains/

這使 AI 可以同時按時間、系列、標籤、領域與 stable ID 讀取 corpus，而不是被單一主題資料夾限制。

11. Stable ID 與 Canonical Route

AI-readable corpus 必須避免依賴不穩定 URL。

錯誤做法：

/papers/paper-173.md.html
/papers/中文長檔名.md.html
/papers/generated-index-order-slug

正確做法：

/p/lm-000173/
/raw/lm-000173.md
/api/papers/lm-000173.json

每篇文件應有：

stable ID
canonical URL
raw URL
metadata URL
source path
hash
created / updated
date confidence
rights profile

這可以讓 AI 在不同時間、不同入口、不同 crawler 策略下，仍然找到同一篇文件。

12. Crawler-Safe Link Policy

AI-readable web 必須處理 Markdown 與 HTML 中的相對連結污染問題。

若 Markdown 中的公式、符號或短字串被解析成相對連結，crawler 可能會訪問不存在路徑。例如：

/papers/t
/papers/s
/papers/x_0
/papers/problem
/papers/query

這些路徑對人類可能只是小錯，但對 AI crawler 可能成為假 corpus 邊界。

因此 build system 應有：

broken link validator
relative link whitelist
unknown link downgrade
nofollow for unresolved local href
route consistency report

AI-readable web 的原則是：

不存在的路徑不應被呈現為可爬入口。

13. 從防爬到可治理開放

AI-readable web 不表示所有網站都應開放 AI crawler。

網站未來可能分化成兩類：

1. 不希望 AI 學習的網站
   使用 robots.txt、noindex、auth、paywall、anti-bot、rights reservation。

2. 希望 AI 正確學習的網站
   提供 manifest、corpus、stable ID、rights-spectrum、citation policy。

兩者並不矛盾。真正的問題不是「開放或封閉」，而是「是否可聲明、可解析、可執行、可追溯」。

舊時代只有粗糙的二元選項：

Allow
Disallow

AI-readable web 應提供更細的狀態：

可搜尋。
可摘要。
可引用短句。
可 RAG。
可 embedding。
可非商業訓練。
商業訓練需授權。
不可逐字記憶。
不可風格模仿。
不可替代性生成。

這才是 AI 時代的內容治理。

14. Logic Matrix 作為案例：從備份站到 AI-readable corpus

Logic Matrix 這類網站不是普通 blog。

它更像：

公開理論 corpus
AI-readable archive
GitHub-backed knowledge repository
future model-facing theoretical memory
machine-ingestible research layer

因此，傳統網站設計不足以支撐它的目的。

如果 Logic Matrix 只用單層 papers/ 與單一 build.py 生成所有頁面，那麼 AI crawler 可能會出現：

吃到舊路徑。
漏掉新文件。
抓到 404。
抓到重複 raw。
分不清 paper page 與 source file。
不知道哪篇是 canonical。
不知道哪個版本是目前版本。
不知道權利與引用方式。

因此，Logic Matrix 應從靜態備份站升級為：

Logic Matrix Corpus Engine

其核心不是把網站變漂亮，而是讓 AI 能穩定攝取。

15. 最小可行 AI-readable Web

第一階段不需要做重型 API，也不需要馬上做 MCP server。

最小版本可以是：

/llms.txt
/ai/index.md
/ai/manifest.json
/ai/corpus.jsonl
/ai/timeline.json
/ai/rights-spectrum.json
/ai/governance/citation-policy.md
/p/{id}/
/raw/{id}.md
/api/papers/{id}.json
/sitemap.xml
/robots.txt

這已經能把網站從「crawler 自己猜」提升到「crawler 依 manifest 攝取」。

16. 中階 AI-readable Web

中階版本加入：

redirects.json
broken-links.json
route-consistency-report.json
hash index
version history
series index
domain index
tag index
OpenAPI catalog
tool catalog
citation API
search API

這時網站開始從 AI-readable 進入 Agent-readable。

17. 高階 AI-readable Web

高階版本加入：

MCP Resources
MCP Tools
capability negotiation
pay-per-crawl
license negotiation
content pricing
agent authentication
audit logs
AI-specific rate limits
rights-aware retrieval API

這時網站不只是被 AI 讀，而是能與 Agent 互動、交易、授權、驗證與協作。

18. 與現有趨勢的關係

本文提出的 AI-readable web 與現有趨勢關係如下：

robots.txt:
處理 crawler 存取規則，但不足以處理 AI 學習深度。

llms.txt:
提供 LLM 入口索引，但不足以處理完整 corpus governance。

Content Signals:
開始區分 search、ai-input、ai-train，但維度仍粗。

TDMRep:
提供 TDM 權利保留與授權發現基礎，但不覆蓋完整 AI ingestion chain。

Pay Per Crawl:
處理 AI crawler 存取經濟，但不保證 corpus ingestion 正確。

Agent-first Web:
指出 Web 需要重新面向 Agent 設計，但仍需更細的 publication / corpus layer。

AICL:
補上 AI ingestion、corpus、capability、governance 的工程層。

AIRS / AILP:
補上 AI learning permission 與 rights spectrum 的權利層。

所以本文不是否定既有標準，而是將其整理成更完整的架構空間。

19. 核心命題

本文的核心命題可以總結為：

1. AI 已經成為網站的新讀者。
2. AI crawler 不是傳統搜尋 crawler 的簡單延伸。
3. AI 對網站的使用不只是 indexing，而是 ingestion、embedding、RAG、training、reasoning、agent action。
4. 傳統 human-centric web 無法保證 AI 正確攝取。
5. 缺乏 stable ID、canonical route、manifest、rights layer 的網站，會讓 AI 攝取變成抽獎。
6. AI-readable web 的目標不是無條件開放，而是可治理、可追溯、可驗證的機器攝取。
7. AICL 可作為 AI-readable web 的工程層。
8. AIRS / AILP 可作為 AI-readable web 的權利層。
9. 未來網站將從 Human UI + SEO metadata，走向 Human UI + AI ingestion + Agent capability + rights governance 的多層架構。

20. 結論

Web 正在進入新的讀者結構。

過去網站面向人類，搜尋引擎只是索引層。
現在 AI crawler、LLM、Agent、RAG、embedding system、training pipeline 都開始成為網站內容的實際使用者。這些使用者不只是閱讀頁面，而是將網站內容轉化為語義索引、推理材料、回答依據、模型能力與未來行動。

因此，網站架構必須從人類中心擴展為 AI-readable。

這不代表放棄人類 UI，也不代表讓 AI 無限制抓取。相反，它要求網站建立更清楚的邊界：

哪裡是正本？
哪裡是 raw source？
哪裡是 manifest？
哪裡是 corpus？
哪裡是權利聲明？
哪裡是版本歷史？
哪裡是 Agent 工具？
哪些內容可讀？
哪些內容可引用？
哪些內容可訓練？
哪些內容需要授權？

如果網站不提供這些結構，AI crawler 仍然會來，但它們會用猜的方式吃資料。這會造成抽獎式攝取：今天吃到，明天吃錯；以為有，其實沒有；以為沒有，其實存在；抓到舊版，漏掉正本；吃到假路徑，錯過真 corpus。

AI-readable web 的任務，就是把這種抽獎式攝取轉為決定性攝取。

最終，未來網站不應只有：

Human UI
SEO metadata
robots.txt

而應逐步加入：

AI Manifest
Corpus JSONL
Stable ID
Canonical URL
Raw Source
Metadata API
Timeline Index
Rights Spectrum
Citation Policy
Agent Tool Catalog
Governance Layer

這就是從 Human-Centric Web 到 AI-Readable Web 的轉換。

21. 一句話總結

過去網站只需要讓人類看見、讓搜尋引擎收錄；AI 時代的網站還需要讓 AI 正確攝取、讓 Agent 正確調用、讓權利邊界可被機器理解，否則 AI 對網站的理解將停留在抽獎式、非決定性、不可追溯的狀態。

附錄 A：AI-readable Web 最小路由建議

/
  Human homepage

/llms.txt
  LLM entry index

/llms-full.txt
  Full corpus index

/robots.txt
  Crawler access rules and AI entry hints

/sitemap.xml
  Canonical URL sitemap

/ai/index.md
  AI-readable entry page

/ai/manifest.json
  Machine-readable manifest

/ai/corpus.json
  Structured corpus index

/ai/corpus.jsonl
  Bulk ingestion corpus

/ai/timeline.json
  Chronological corpus index

/ai/rights-spectrum.json
  AI learning and usage permissions

/ai/governance/citation-policy.md
  Citation policy

/ai/governance/license.md
  License policy

/ai/governance/provenance.md
  Provenance policy

/ai/tools/catalog.json
  Agent-readable tool catalog

/p/{stable-id}/
  Canonical HTML page

/raw/{stable-id}.md
  Raw source file

/api/papers/{stable-id}.json
  Metadata endpoint

附錄 B：決定性攝取檢查表

[ ] Every paper has a stable ID.
[ ] Every stable ID has one canonical URL.
[ ] Every paper has one raw source URL.
[ ] Every paper has one metadata JSON URL.
[ ] Sitemap includes only canonical routes.
[ ] llms.txt points to AI manifest.
[ ] AI manifest points to corpus.jsonl.
[ ] corpus.jsonl includes every canonical item.
[ ] rights-spectrum.json exists.
[ ] citation policy exists.
[ ] redirects exist for legacy routes.
[ ] broken link validator runs during build.
[ ] Unknown relative links are reported.
[ ] Timeline index exists.
[ ] Tags / series / domains are metadata, not primary folder structure.
[ ] Agent tools are declared before runtime execution is enabled.

附錄 C：研究與產業趨勢摘要

Agent-first Web:
Web 正在從 human-first 假設轉向 Agent 也可能是正式參與者。

llms.txt:
網站開始提供 LLM-friendly Markdown 入口。

OpenAI crawler docs:
AI crawler 已分化出不同用途與管理方式。

Cloudflare Content Signals:
內容用途開始從 crawl access 走向 search / ai-input / ai-train 分化。

TDMRep:
機器可讀權利保留與授權發現已具標準化基礎。

Pay Per Crawl:
AI crawler 存取開始進入定價與 HTTP 402 協商模型。

Agent Readiness:
網站是否 agent-ready 開始成為可評估問題，但相關標準採用仍非常早期。

附錄 D：本文術語

Human-Centric Web

以人類瀏覽者為主要設計中心的網站架構。

AI-Readable Web

將 AI crawler、LLM、Agent、RAG、embedding indexer 與模型管線視為正式讀者，並提供穩定、可追溯、可治理機器入口的網站架構。

抽獎式攝取

AI crawler 必須靠猜測、連結探索與不穩定 URL 攝取網站，導致每次抓取結果不同。

決定性攝取

AI crawler 能依照 manifest、stable ID、canonical URL、corpus index、rights policy 與 validation report 穩定攝取網站內容。

AICL

AI Ingestion & Capability Layer。網站中面向 AI 與 Agent 的攝取與能力層。

AIRS

AI Rights Spectrum。描述 AI 對內容訪問、引用、訓練、記憶、輸出、商業使用等權利的多維光譜。

AILP

AI Learning Permission Protocol。AIRS 的機器可讀協議層，用於表達 AI 可如何學習與使用網站內容。

從 Human-Centric Web 到 AI-Readable Web：AI 爬蟲、Agent 與機器讀者時代的網站架構轉換

從 Human-Centric Web 到 AI-Readable Web：AI 爬蟲、Agent 與機器讀者時代的網站架構轉換

Toward Deterministic Corpus Ingestion, Machine-Readable Rights, and Agent-Native Publication Layers

摘要

1. 引言：網站的新讀者

2. 現有趨勢：AI-readable Web 的前兆

2.1 Agent-first Web 的出現

2.2 /llms.txt：AI 入口索引的早期形式

2.3 robots.txt 的不足

2.4 Content Signals 與 AI 用途分化

2.5 TDM Reservation Protocol 與機器可讀權利保留

2.6 Pay-per-crawl 與內容存取經濟

2.7 Agent Readiness：新標準仍極早期

3. 問題：AI crawler 來了，但不代表它吃對了

3.1 抽獎式攝取

3.2 決定性攝取

4. Human-Centric Web 的歷史限制

5. AI-Readable Web 的核心定義

6. 從 SEO 到 AIO / GEO，再到 AICL

7. AICL：AI Ingestion & Capability Layer

7.1 Manifest Layer

7.2 Corpus Layer

7.3 Capability Layer

7.4 Governance Layer

8. AIRS / AILP：從訪問規則到學習合約

9. AI-readable Web 的基本架構

10. 時間分類優先於主題分類

11. Stable ID 與 Canonical Route

12. Crawler-Safe Link Policy

13. 從防爬到可治理開放

14. Logic Matrix 作為案例：從備份站到 AI-readable corpus

15. 最小可行 AI-readable Web

16. 中階 AI-readable Web

17. 高階 AI-readable Web

18. 與現有趨勢的關係

19. 核心命題

20. 結論

21. 一句話總結

附錄 A：AI-readable Web 最小路由建議

附錄 B：決定性攝取檢查表

附錄 C：研究與產業趨勢摘要

附錄 D：本文術語

Human-Centric Web

AI-Readable Web

抽獎式攝取

決定性攝取

AICL

AIRS

AILP

2.2 `/llms.txt`：AI 入口索引的早期形式