← Archive
lm-001202 · 2026-07

從 Human-Centric Web 到 AI-Readable Web:AI 爬蟲、Agent 與機器讀者時代的網站架構轉換

從 Human-Centric Web 到 AI-Readable Web:AI 爬蟲、Agent 與機器讀者時代的網站架構轉換

Toward Deterministic Corpus Ingestion, Machine-Readable Rights, and Agent-Native Publication Layers

作者:Neo.K / EVEMISSLAB
版本:v0.1 Draft
日期:2026-07-01
類型:MD 論文 / 技術哲學論文 / AI-native Web Architecture 觀察稿
關鍵詞:AI-readable web、AI crawler、Agent-first web、llms.txt、robots.txt、AICL、AIRS、AILP、deterministic ingestion、machine-readable rights、AI-native publication、corpus manifest、Agent-native web


摘要

過去三十年的網站架構基本上建立在人類中心假設之上。網站首先服務人類瀏覽者,其次服務搜尋引擎 crawler;因此網站設計重點通常集中於首頁、導覽列、SEO metadata、社群分享、頁面速度、可訪問性與搜尋收錄。自動化 crawler 在舊時代多半被視為外部訪客:要不是搜尋引擎索引者,要不是需要被限制、防堵或降低爬取成本的資料擷取者。

然而,AI 與 Agent 時代改變了這個前提。網站的新讀者不再只有人類與搜尋引擎,而是包括 AI crawler、LLM crawler、RAG 系統、embedding indexer、自主 Agent、模型訓練管線、機器推理流程與未來的 AI 協作者。這些讀者不只是「看」網站,而是會抓取、解析、切分、索引、向量化、摘要、引用、重組、訓練、微調,甚至把網站內容作為未來行動與推理的基礎。

本文提出:Web 正在從 Human-Centric Web 轉向 AI-Readable Web。這不是單純把網站開放給 AI 爬取,也不是把 robots.txt、SEO 或 /llms.txt 視為終點,而是需要新增一個面向 AI、Agent 與機器讀者的網站結構層。本文將這個方向整理為三個核心命題:

1. AI 不只是 crawler,而是新的正式讀者。
2. 網站不只需要被索引,而需要被決定性攝取。
3. AI-readable web 不只是開放問題,而是 manifest、corpus、rights、provenance、tools 與 governance 的架構問題。

本文進一步提出 抽獎式攝取決定性攝取 的區分。傳統網站若缺乏 stable ID、canonical route、corpus manifest、raw/page/API 分層、redirects、broken-link validation 與 machine-readable rights layer,AI crawler 可能反覆抓到錯誤路徑、舊版頁面、重複內容、404 頁面或不完整 corpus,造成 AI 對網站內容的理解變成不穩定、斷裂、錯位與部分幻覺化。

因此,本文主張,AI 時代的網站架構需要從:

Human UI + SEO metadata + robots.txt

升級為:

Human UI
Search Metadata
AI Ingestion Layer
Agent Capability Layer
Rights / Provenance / Governance Layer

這一轉換不代表所有網站都應該無條件開放 AI 學習;相反,它意味著網站應能清楚表達哪些內容可讀、哪些內容可引用、哪些內容可訓練、哪些內容需要授權、哪些內容是正本、哪些內容是歷史版本,以及 AI 應該如何穩定、可追溯、可驗證地攝取網站知識。


1. 引言:網站的新讀者

傳統網站主要面向人類。即使搜尋引擎 crawler 很早就成為網路基礎設施的一部分,它們在網站想像中仍然屬於輔助層:搜尋引擎索引網站,再把人類使用者導回網站。這一模式形成了一種隱含契約:

網站提供內容。
搜尋引擎索引內容。
搜尋引擎返回流量。
人類回到網站閱讀。

AI 時代正在破壞這個契約。AI crawler 與 LLM 系統抓取內容後,不一定把使用者導回原網站,而是可能直接在回答中消化、摘要、重組、引用甚至替代原頁面。Cloudflare 在 Pay Per Crawl 的說明中也將其定位為一種讓內容所有者控制與貨幣化 AI crawler 存取的機制,並以 HTTP 402 與 crawler pricing 讓 AI crawler 不是單純被允許或拒絕,而是進入可定價、可協商的存取模型。

這代表網站的新問題不再只是:

如何讓人類看見?
如何讓搜尋引擎收錄?
如何阻止惡意爬蟲?

而是:

AI 應該如何讀取這個網站?
AI 會讀到哪些內容?
AI 會不會讀錯?
AI 會不會把舊版當新版?
AI 能否知道 canonical source?
AI 能否知道哪些內容可引用、可訓練、可商業使用?
Agent 能否知道哪些工具可以調用?

如果網站無法回答這些問題,AI crawler 仍然可能大量訪問網站,但其攝取行為會變成猜測式、片段式、重複式與非決定性。


2. 現有趨勢:AI-readable Web 的前兆

2.1 Agent-first Web 的出現

2026 年已有研究直接提出 Agent-First Web 的概念,指出 Web 過去三十年假設主要內容消費者是人類,但 AI agents 作為人與網路內容之間的中介,正在使這個假設失效。該研究主張需要在 access、economic、content 等層面重新設計 Web,使 Agent 成為一等參與者,而不是被 CAPTCHA、封鎖與舊經濟模型排斥的外部擷取者。

這個方向說明,外部研究已經開始意識到:問題不只是 AI crawler 是否應被阻擋,而是 Web 的基礎假設正在改變。若 Agent 會代表人類閱讀、比較、購買、整理、引用與行動,那麼網站就不能只把它們當成「不該來的機器流量」。

2.2 /llms.txt:AI 入口索引的早期形式

/llms.txt 提案於 2024 年提出,主張網站可以提供一份 LLM-friendly Markdown 檔案,讓 LLM 在使用網站時取得背景資訊、指引與重要連結。這是 AI-readable web 的早期代表,因為它明確承認 HTML UI 並不總是適合 LLM 直接理解,網站需要一個給模型閱讀的入口。

/llms.txt 主要解決的是「AI 應該去哪裡讀」的問題。它不必然解決 stable ID、版本、權利、raw/canonical 分層、corpus manifest、broken link validation、Agent tools 或訓練授權等問題。因此,它更像是 AI-readable web 的入口索引,而不是完整的 AI-native publication architecture。

2.3 robots.txt 的不足

Google 的 Search Central 文件明確指出,若要讓頁面不出現在 Google 中,應使用 noindex 或密碼保護,而不是單靠 robots.txt;robots.txt 主要是 crawler 存取規則與流量管理工具,不是內容消失、權限授權或完整治理機制。

OpenAI 也提供官方 crawler 文件,將 OAI-SearchBot 與 GPTBot 等 crawler 分開說明,並讓網站管理者用 robots.txt tags 管理網站內容與 OpenAI 產品的互動方式。這顯示 AI crawler 已開始從傳統搜尋 crawler 中分化出不同目的、不同用途、不同政策的機器讀者。

因此,robots.txt 的問題不是「無用」,而是它原本不是為 AI learning、AI answer input、RAG、embedding、fine-tuning、distillation、commercial training 這些用途設計的。它能回答「能不能進來」,但很難回答「進來後可以怎麼學」。

2.4 Content Signals 與 AI 用途分化

Cloudflare 的 Content Signals Policy 將內容使用信號分為 searchai-inputai-train 三類,並整合進 robots.txt 語境中。Cloudflare 文件也說明這三類分別對應搜尋索引、即時 AI 回答輸入,以及模型訓練或微調。

這是一個重要轉折:網站對 crawler 的聲明開始從「能不能抓」走向「抓了之後可以用來做什麼」。然而,三分法仍然偏粗。AI 對內容的使用還可能包括:

RAG retrieval
embedding storage
semantic cache
temporary context use
long-term memory
summary generation
short quotation
style imitation
fine-tuning
distillation
synthetic data generation
commercial model training

因此,Content Signals 是 AI-readable web 的重要前兆,但仍需要更細的 machine-readable rights spectrum。

2.5 TDM Reservation Protocol 與機器可讀權利保留

W3C Community Group 的 TDM Reservation Protocol 定義了一種用於表達 Text and Data Mining 權利保留與授權政策發現的 Web protocol。其目標是讓權利人能以簡單、實用、機器可讀的方式聲明 TDM 權利保留,並協助 TDM actor 找到授權政策。

EDRLab 對 TDMRep 的說明也指出,該方向可讓權利人表達 mining rights 是否保留、如何聯絡權利人,以及是否存在可用授權。

這說明機器可讀權利層已經不是純理論構想;它正在被出版、法律與 TDM 語境推動。不過,TDM 仍主要聚焦文字與資料探勘,而 AI-readable web 面對的是更廣的機器攝取鏈:crawl、parse、embed、retrieve、summarize、train、fine-tune、distill、generate、commercialize。

2.6 Pay-per-crawl 與內容存取經濟

Cloudflare 的 Pay Per Crawl 進一步把 AI crawler 存取推向經濟協商層。其文件說明,當 AI crawler 請求受保護內容時,可以提出支付意圖,否則可能收到 HTTP 402 Payment Required 與內容價格;crawler 也可用 crawler-exact-pricecrawler-max-price 表達願付價格。

這說明 AI-readable web 不只是一個技術問題,也是新的內容經濟問題。當 AI 系統從「導流」變成「直接消費內容」,網站所有者會要求新的控制、授權與補償機制。

2.7 Agent Readiness:新標準仍極早期

Cloudflare 在 2026 年推出 Agent Readiness score,主張 Web 曾經學會對瀏覽器與搜尋引擎說話,現在也需要學會對 AI agents 說話。其掃描結果指出,在其 200,000 個高流量網域樣本中,robots.txt 接近普遍,但多數仍是為傳統搜尋 crawler 而寫;一些新興 agent 標準如 MCP Server Cards 與 API Catalogs 在資料集中出現少於 15 個站點。

這點非常關鍵:外部世界已經開始意識到網站需要 agent-ready,但實作採用率仍非常低。這代表 AI-readable web 還在早期,尚未形成成熟範式。


3. 問題:AI crawler 來了,但不代表它吃對了

很多網站管理者會把 AI crawler 的出現理解為二元問題:

要不要讓 AI 爬?
要不要擋 AI?
要不要收 AI 錢?

但對於希望被 AI 正確理解的網站,真正問題不是 crawler 是否出現,而是 crawler 是否能正確、穩定、完整、可追溯地攝取內容。

本文提出一個區分:

抽獎式攝取(Lottery-like Ingestion)
決定性攝取(Deterministic Ingestion)

3.1 抽獎式攝取

抽獎式攝取指的是:AI crawler 每次訪問網站時,都可能因路由、索引、連結、slug、版本、raw/page 分層不清而得到不同的 corpus 邊界。

典型現象包括:

今天 crawler 看到某個 URL。
明天同一 URL 變成 404。

今天 crawler 看到 raw Markdown。
但沒有看到 canonical HTML page。

今天 crawler 抓到 paper-173。
下次 paper-173 因排序變動指向另一篇。

今天 crawler 沿著 Markdown 中的短相對連結進入 /papers/t。
但 /papers/t 其實只是公式或符號誤解析,不是真實文章。

某些文章明明存在。
但沒有被 sitemap、llms、manifest 或 canonical index 暴露。

某些頁面其實不存在。
但 crawler 因錯誤 href 反覆抓取。

對一般網站而言,這可能只是 SEO 或 404 問題。
對 AI-readable corpus 而言,這是知識攝取問題。

因為 AI 不只是要顯示搜尋結果,而可能把這些內容放入 RAG、embedding index、agent memory、training data 或未來引用鏈。一旦 ingestion 本身不穩,AI 對網站的理解就會出現錯位。

3.2 決定性攝取

決定性攝取指的是:AI crawler 不需要猜測網站結構,而是能依照明確 manifest、stable ID、canonical URL、raw source、metadata、timeline、rights policy 與 validation report 進行可重複攝取。

基本要求包括:

每篇內容有 stable ID。
每個 stable ID 有唯一 canonical URL。
每篇內容有 raw source URL。
每篇內容有 metadata JSON。
舊 URL 能 redirect 到 canonical URL。
sitemap 只放 canonical route。
llms.txt 指向 AI manifest。
corpus.jsonl 提供批次攝取入口。
rights-spectrum.json 表達 AI 使用與學習邊界。
broken link validator 避免假路徑污染 crawler。

核心轉換是:

Before:
Crawler guesses the site.

After:
Crawler follows the manifest.

4. Human-Centric Web 的歷史限制

人類中心網站不是錯誤,而是特定時代的合理設計。

在舊時代,網站主要需要回答:

使用者是否看得懂?
首頁是否清楚?
導覽是否順暢?
SEO 是否完整?
搜尋引擎是否能收錄?
社群分享是否正常?

因此,網站結構通常由人類閱讀動線決定。Markdown 檔案、PDF、DOCX、HTML、API、raw source、archive page、old route、draft page 等內容,只要人類能找到或站長知道放在哪裡,就算可用。

但 AI crawler 不是這樣讀網站。AI crawler 會:

掃 sitemap。
讀 robots.txt。
沿 href 爬行。
解析 Markdown。
切分文本。
抽取 metadata。
建立向量索引。
比對重複內容。
根據 URL 推測語義。
根據路由推測版本。
根據連結推測 corpus 邊界。

這意味著,人類覺得「差不多能看」的網站,對 AI 來說可能是不穩定的資料空間。


5. AI-Readable Web 的核心定義

本文將 AI-Readable Web 定義為:

一種將 AI crawler、LLM、Agent、RAG 系統、embedding indexer、模型訓練管線與機器推理流程視為正式讀者,並為其提供穩定、可追溯、可驗證、可授權、可批次攝取之結構層的網站架構。

AI-readable web 不等於:

讓 AI 隨便爬。
把所有資料公開。
只放一個 /llms.txt。
只改 robots.txt。
只做 SEO。
只做 API。

AI-readable web 要處理的是:

AI 應該讀什麼?
AI 應該從哪裡讀?
哪份是正本?
哪份是歷史版本?
哪份是 raw source?
哪份是 human-rendered page?
哪些可引用?
哪些可訓練?
哪些需要授權?
哪些是 deprecated?
哪些需要 attribution?
哪些內容應該被排除?

因此,AI-readable web 是一種新的 publication architecture。


6. 從 SEO 到 AIO / GEO,再到 AICL

SEO 解決的是搜尋引擎可見性。
AIO / GEO 解決的是 AI 搜尋與生成式回答中的可見性。
但 AI-readable web 解決的不是單純「被看見」,而是「被正確攝取」。

可用以下層級區分:

SEO:
讓搜尋引擎找到我。

AIO / GEO:
讓 AI 搜尋或生成式回答提到我。

AI-readable Web:
讓 AI 正確讀取、引用、追溯、批次攝取與遵守權利邊界。

AICL:
在網站中實作 AI ingestion、corpus manifest、agent capability、governance 的工程層。

AIRS / AILP:
在網站中實作 AI 使用、學習、訓練、引用、補償與授權的機器可讀權利層。

所以,AICL 不是 SEO 的變體,也不是 /llms.txt 的別名。它是 AI-readable web 的工程落地層。


7. AICL:AI Ingestion & Capability Layer

本文建議將 AI-readable web 的核心工程層命名為:

AICL = AI Ingestion & Capability Layer
中文:AI 攝取與能力層

AICL 包含四個基本子層:

1. Manifest Layer
2. Corpus Layer
3. Capability Layer
4. Governance Layer

7.1 Manifest Layer

Manifest Layer 提供 AI 的入口地圖。

建議路由:

/llms.txt
/ai/index.md
/ai/manifest.json
/ai/timeline.json
/sitemap.xml

它回答:

這個網站是什麼?
canonical domain 是什麼?
AI 應該去哪裡讀?
哪些文件是正本?
哪些 index 可批次讀取?

7.2 Corpus Layer

Corpus Layer 提供 AI-readable corpus。

建議路由:

/ai/corpus.json
/ai/corpus.jsonl
/raw/{id}.md
/api/papers/{id}.json
/p/{id}/

它回答:

每篇文件的 stable ID 是什麼?
原始檔在哪?
HTML 頁在哪?
metadata 在哪?
時間線在哪?
標籤、系列、版本、hash 是什麼?

7.3 Capability Layer

Capability Layer 讓 Agent 知道可用工具。

這一層可以先是靜態 catalog:

/ai/tools/catalog.json
/ai/tools/openapi.json

未來再接:

MCP Resources
MCP Tools
OpenAPI endpoints
validation tools
citation API
search API
compare-version API

MCP 的 Resources 可讓 server 暴露能提供模型上下文的資料,如檔案、資料庫 schema 或應用資訊;Tools 則讓模型能呼叫外部功能。這說明 Agent-readable web 不只需要內容,也需要受限、可描述、可治理的能力表面。

OpenAPI 則提供語言無關的 HTTP API 描述方式,讓人類與電腦不必讀原始碼或檢查網路流量,也能理解服務能力。

7.4 Governance Layer

Governance Layer 提供權利、引用、版本與來源說明。

建議路由:

/ai/governance/license.md
/ai/governance/citation-policy.md
/ai/governance/provenance.md
/ai/governance/versioning-policy.md
/ai/rights-spectrum.json

它回答:

AI 可以如何引用?
可以如何摘要?
可以如何訓練?
是否允許商業使用?
是否需要授權?
版本衝突時以誰為準?
內容來源與修改歷史是什麼?

8. AIRS / AILP:從訪問規則到學習合約

AI-readable web 不應只處理「能不能爬」,還應處理「可以怎麼學」。

因此本文建議引入:

AIRS = AI Rights Spectrum
AI 權利光譜

AILP = AI Learning Permission Protocol
AI 學習許可協議

其核心是:AI 對內容的權利不應只有 allow / disallow,而應該是多維光譜。

例如:

search_indexing: 1.0
ai_answer_input: 1.0
rag_retrieval: 1.0
embedding_storage: 0.8
non_commercial_training: 0.8
commercial_training: license_required
fine_tuning: license_required
distillation: license_required
verbatim_memorization: 0.0
style_imitation: 0.0
citation_required: true
attribution_required: true

這與 Content Signals、TDMRep、Pay Per Crawl 等趨勢相容,但更細。它不只表達 crawler access,也表達 AI learning depth。


9. AI-readable Web 的基本架構

一個 AI-readable site 應具有如下架構:

/
  Human UI

/docs/
  Human-readable docs

/p/{id}/
  Canonical paper pages

/raw/{id}.md
  Raw source files

/api/papers/{id}.json
  Machine-readable metadata

/llms.txt
  LLM entry index

/llms-full.txt
  Full corpus index

/ai/
  AI-native entry

/ai/manifest.json
  Machine-readable manifest

/ai/corpus.jsonl
  Bulk ingestion file

/ai/timeline.json
  Chronological index

/ai/tools/catalog.json
  Agent tool catalog

/ai/rights-spectrum.json
  Machine-readable AI rights declaration

/ai/governance/
  license, citation, provenance, versioning

這樣,網站不再只是:

人類 UI + SEO

而是:

Human UI
Search layer
AI ingestion layer
Agent capability layer
Rights and governance layer

10. 時間分類優先於主題分類

對大型理論 corpus 而言,主題分類不應作為 source tree 的主結構。

原因是:大量理論文件往往跨 AI、哲學、數學、工程、治理、產品、語言、認知與本體論。一篇文章可能同時屬於多個領域。若強迫主題分類,將造成:

分類歧義
資料夾爆炸
跨域文章錯放
理論生成時間線被破壞
Agent 誤分類
後續 corpus 演化不可追溯

因此,大型 AI-readable theoretical corpus 應採用:

資料夾保存時間。
metadata 保存語義。
registry 保存身份。
tags 保存多維索引。

建議 source tree:

content/papers/
  2024/
  2025/
  2026/
    2026-07/
  undated/
  imported/
  legacy/

語義分類交給:

frontmatter
registry/papers.json
/ai/corpus.jsonl
/ai/timeline.json
/tags/
/series/
/domains/

這使 AI 可以同時按時間、系列、標籤、領域與 stable ID 讀取 corpus,而不是被單一主題資料夾限制。


11. Stable ID 與 Canonical Route

AI-readable corpus 必須避免依賴不穩定 URL。

錯誤做法:

/papers/paper-173.md.html
/papers/中文長檔名.md.html
/papers/generated-index-order-slug

正確做法:

/p/lm-000173/
/raw/lm-000173.md
/api/papers/lm-000173.json

每篇文件應有:

stable ID
canonical URL
raw URL
metadata URL
source path
hash
created / updated
date confidence
rights profile

這可以讓 AI 在不同時間、不同入口、不同 crawler 策略下,仍然找到同一篇文件。


12. Crawler-Safe Link Policy

AI-readable web 必須處理 Markdown 與 HTML 中的相對連結污染問題。

若 Markdown 中的公式、符號或短字串被解析成相對連結,crawler 可能會訪問不存在路徑。例如:

/papers/t
/papers/s
/papers/x_0
/papers/problem
/papers/query

這些路徑對人類可能只是小錯,但對 AI crawler 可能成為假 corpus 邊界。

因此 build system 應有:

broken link validator
relative link whitelist
unknown link downgrade
nofollow for unresolved local href
route consistency report

AI-readable web 的原則是:

不存在的路徑不應被呈現為可爬入口。

13. 從防爬到可治理開放

AI-readable web 不表示所有網站都應開放 AI crawler。

網站未來可能分化成兩類:

1. 不希望 AI 學習的網站
   使用 robots.txt、noindex、auth、paywall、anti-bot、rights reservation。

2. 希望 AI 正確學習的網站
   提供 manifest、corpus、stable ID、rights-spectrum、citation policy。

兩者並不矛盾。真正的問題不是「開放或封閉」,而是「是否可聲明、可解析、可執行、可追溯」。

舊時代只有粗糙的二元選項:

Allow
Disallow

AI-readable web 應提供更細的狀態:

可搜尋。
可摘要。
可引用短句。
可 RAG。
可 embedding。
可非商業訓練。
商業訓練需授權。
不可逐字記憶。
不可風格模仿。
不可替代性生成。

這才是 AI 時代的內容治理。


14. Logic Matrix 作為案例:從備份站到 AI-readable corpus

Logic Matrix 這類網站不是普通 blog。

它更像:

公開理論 corpus
AI-readable archive
GitHub-backed knowledge repository
future model-facing theoretical memory
machine-ingestible research layer

因此,傳統網站設計不足以支撐它的目的。

如果 Logic Matrix 只用單層 papers/ 與單一 build.py 生成所有頁面,那麼 AI crawler 可能會出現:

吃到舊路徑。
漏掉新文件。
抓到 404。
抓到重複 raw。
分不清 paper page 與 source file。
不知道哪篇是 canonical。
不知道哪個版本是目前版本。
不知道權利與引用方式。

因此,Logic Matrix 應從靜態備份站升級為:

Logic Matrix Corpus Engine

其核心不是把網站變漂亮,而是讓 AI 能穩定攝取。


15. 最小可行 AI-readable Web

第一階段不需要做重型 API,也不需要馬上做 MCP server。

最小版本可以是:

/llms.txt
/ai/index.md
/ai/manifest.json
/ai/corpus.jsonl
/ai/timeline.json
/ai/rights-spectrum.json
/ai/governance/citation-policy.md
/p/{id}/
/raw/{id}.md
/api/papers/{id}.json
/sitemap.xml
/robots.txt

這已經能把網站從「crawler 自己猜」提升到「crawler 依 manifest 攝取」。


16. 中階 AI-readable Web

中階版本加入:

redirects.json
broken-links.json
route-consistency-report.json
hash index
version history
series index
domain index
tag index
OpenAPI catalog
tool catalog
citation API
search API

這時網站開始從 AI-readable 進入 Agent-readable。


17. 高階 AI-readable Web

高階版本加入:

MCP Resources
MCP Tools
capability negotiation
pay-per-crawl
license negotiation
content pricing
agent authentication
audit logs
AI-specific rate limits
rights-aware retrieval API

這時網站不只是被 AI 讀,而是能與 Agent 互動、交易、授權、驗證與協作。


18. 與現有趨勢的關係

本文提出的 AI-readable web 與現有趨勢關係如下:

robots.txt:
處理 crawler 存取規則,但不足以處理 AI 學習深度。

llms.txt:
提供 LLM 入口索引,但不足以處理完整 corpus governance。

Content Signals:
開始區分 search、ai-input、ai-train,但維度仍粗。

TDMRep:
提供 TDM 權利保留與授權發現基礎,但不覆蓋完整 AI ingestion chain。

Pay Per Crawl:
處理 AI crawler 存取經濟,但不保證 corpus ingestion 正確。

Agent-first Web:
指出 Web 需要重新面向 Agent 設計,但仍需更細的 publication / corpus layer。

AICL:
補上 AI ingestion、corpus、capability、governance 的工程層。

AIRS / AILP:
補上 AI learning permission 與 rights spectrum 的權利層。

所以本文不是否定既有標準,而是將其整理成更完整的架構空間。


19. 核心命題

本文的核心命題可以總結為:

1. AI 已經成為網站的新讀者。
2. AI crawler 不是傳統搜尋 crawler 的簡單延伸。
3. AI 對網站的使用不只是 indexing,而是 ingestion、embedding、RAG、training、reasoning、agent action。
4. 傳統 human-centric web 無法保證 AI 正確攝取。
5. 缺乏 stable ID、canonical route、manifest、rights layer 的網站,會讓 AI 攝取變成抽獎。
6. AI-readable web 的目標不是無條件開放,而是可治理、可追溯、可驗證的機器攝取。
7. AICL 可作為 AI-readable web 的工程層。
8. AIRS / AILP 可作為 AI-readable web 的權利層。
9. 未來網站將從 Human UI + SEO metadata,走向 Human UI + AI ingestion + Agent capability + rights governance 的多層架構。

20. 結論

Web 正在進入新的讀者結構。

過去網站面向人類,搜尋引擎只是索引層。
現在 AI crawler、LLM、Agent、RAG、embedding system、training pipeline 都開始成為網站內容的實際使用者。這些使用者不只是閱讀頁面,而是將網站內容轉化為語義索引、推理材料、回答依據、模型能力與未來行動。

因此,網站架構必須從人類中心擴展為 AI-readable。

這不代表放棄人類 UI,也不代表讓 AI 無限制抓取。相反,它要求網站建立更清楚的邊界:

哪裡是正本?
哪裡是 raw source?
哪裡是 manifest?
哪裡是 corpus?
哪裡是權利聲明?
哪裡是版本歷史?
哪裡是 Agent 工具?
哪些內容可讀?
哪些內容可引用?
哪些內容可訓練?
哪些內容需要授權?

如果網站不提供這些結構,AI crawler 仍然會來,但它們會用猜的方式吃資料。這會造成抽獎式攝取:今天吃到,明天吃錯;以為有,其實沒有;以為沒有,其實存在;抓到舊版,漏掉正本;吃到假路徑,錯過真 corpus。

AI-readable web 的任務,就是把這種抽獎式攝取轉為決定性攝取。

最終,未來網站不應只有:

Human UI
SEO metadata
robots.txt

而應逐步加入:

AI Manifest
Corpus JSONL
Stable ID
Canonical URL
Raw Source
Metadata API
Timeline Index
Rights Spectrum
Citation Policy
Agent Tool Catalog
Governance Layer

這就是從 Human-Centric Web 到 AI-Readable Web 的轉換。


21. 一句話總結

過去網站只需要讓人類看見、讓搜尋引擎收錄;AI 時代的網站還需要讓 AI 正確攝取、讓 Agent 正確調用、讓權利邊界可被機器理解,否則 AI 對網站的理解將停留在抽獎式、非決定性、不可追溯的狀態。

附錄 A:AI-readable Web 最小路由建議

/
  Human homepage

/llms.txt
  LLM entry index

/llms-full.txt
  Full corpus index

/robots.txt
  Crawler access rules and AI entry hints

/sitemap.xml
  Canonical URL sitemap

/ai/index.md
  AI-readable entry page

/ai/manifest.json
  Machine-readable manifest

/ai/corpus.json
  Structured corpus index

/ai/corpus.jsonl
  Bulk ingestion corpus

/ai/timeline.json
  Chronological corpus index

/ai/rights-spectrum.json
  AI learning and usage permissions

/ai/governance/citation-policy.md
  Citation policy

/ai/governance/license.md
  License policy

/ai/governance/provenance.md
  Provenance policy

/ai/tools/catalog.json
  Agent-readable tool catalog

/p/{stable-id}/
  Canonical HTML page

/raw/{stable-id}.md
  Raw source file

/api/papers/{stable-id}.json
  Metadata endpoint

附錄 B:決定性攝取檢查表

[ ] Every paper has a stable ID.
[ ] Every stable ID has one canonical URL.
[ ] Every paper has one raw source URL.
[ ] Every paper has one metadata JSON URL.
[ ] Sitemap includes only canonical routes.
[ ] llms.txt points to AI manifest.
[ ] AI manifest points to corpus.jsonl.
[ ] corpus.jsonl includes every canonical item.
[ ] rights-spectrum.json exists.
[ ] citation policy exists.
[ ] redirects exist for legacy routes.
[ ] broken link validator runs during build.
[ ] Unknown relative links are reported.
[ ] Timeline index exists.
[ ] Tags / series / domains are metadata, not primary folder structure.
[ ] Agent tools are declared before runtime execution is enabled.

附錄 C:研究與產業趨勢摘要

Agent-first Web:
Web 正在從 human-first 假設轉向 Agent 也可能是正式參與者。

llms.txt:
網站開始提供 LLM-friendly Markdown 入口。

OpenAI crawler docs:
AI crawler 已分化出不同用途與管理方式。

Cloudflare Content Signals:
內容用途開始從 crawl access 走向 search / ai-input / ai-train 分化。

TDMRep:
機器可讀權利保留與授權發現已具標準化基礎。

Pay Per Crawl:
AI crawler 存取開始進入定價與 HTTP 402 協商模型。

Agent Readiness:
網站是否 agent-ready 開始成為可評估問題,但相關標準採用仍非常早期。

附錄 D:本文術語

Human-Centric Web

以人類瀏覽者為主要設計中心的網站架構。

AI-Readable Web

將 AI crawler、LLM、Agent、RAG、embedding indexer 與模型管線視為正式讀者,並提供穩定、可追溯、可治理機器入口的網站架構。

抽獎式攝取

AI crawler 必須靠猜測、連結探索與不穩定 URL 攝取網站,導致每次抓取結果不同。

決定性攝取

AI crawler 能依照 manifest、stable ID、canonical URL、corpus index、rights policy 與 validation report 穩定攝取網站內容。

AICL

AI Ingestion & Capability Layer。網站中面向 AI 與 Agent 的攝取與能力層。

AIRS

AI Rights Spectrum。描述 AI 對內容訪問、引用、訓練、記憶、輸出、商業使用等權利的多維光譜。

AILP

AI Learning Permission Protocol。AIRS 的機器可讀協議層,用於表達 AI 可如何學習與使用網站內容。