# AI 系統的工具中介觀察：從完美表現、測試介面到計算事件

**Tool-Mediated Observation of AI Systems: From Perfect Performance to Testing Interfaces and Computational Events**

作者：Neo.K（許筌崴）
機構：EveMissLab（一言諾科技有限公司），台灣
版本：公開發表版 v1.0
日期：2026 年 6 月
文件類型：AI 評估方法論／觀察者理論／符號哲學／計算認識論／AI 安全與能力測試草案

---

## 摘要

本文提出一套「AI 系統的工具中介觀察」框架，用於重新理解當代大型 AI 模型的能力評估、行為觀察、自我敘述、工具調用、拒絕行為與內部機制推斷問題。本文的出發點不是判定某個具名 AI 模型是否「真的有意識」或「真的在思考」，而是提出一個更可公開討論、更接近當代 AI 評估實務的問題：在黑箱模型、自然語言介面、程式執行環境、工具調用系統與多種測試框架之間，我們到底能如何可靠地觀察、區分與驗證 AI 的能力與行為？

本文主張，AI 的可觀察性不是直接給定的，而是由三個層面共同形成：第一，模型實際輸出了什麼；第二，觀察者使用了什麼測試介面、工具範疇與語言框架；第三，觀察者如何區分自然語言敘述、真實程式執行、工具調用、功能模擬、安全拒絕、內部機制與主體性推論。若忽略這些層面，研究者容易將「模型輸出像是在反思」誤認為「模型內在確定具有某種主觀反思」，也可能將「模型拒絕執行」誤判為「模型沒有能力」，或將「自然語言中的自我描述」誤當成對內部機制的可靠報告。

本文整合三個命題。第一，完美表現下的認知不可區分命題：當 AI 在某任務上的外部表現趨近完美時，外部觀察者更難僅憑輸出反推出其內在機制。第二，工具範疇耦合命題：自然語言、程式語言、數學形式化、工具調用與實驗介面會引導系統進入不同可觀察範疇，因此沒有完全範疇中立的 AI 測試。第三，計算事件命題：AI 的自我敘述不是人類式主觀體驗的證據，但也不是「什麼都沒有發生」；它至少是一個真實發生的計算事件，必須被放在其工具範疇與操作語境中理解。

本文最後提出公開版方法論：AI 評估應從單一輸出評分，轉向多工具、多範疇、多層校準。對 AI 系統的合理評估，不應只問「它是否真的在想」，而應分層詢問：它能做什麼？在什麼介面下能做？是自然語言描述、真實工具執行還是安全拒絕？是否可重複？是否可反駁？是否能跨範疇保持能力？是否存在測試框架誘導效應？是否能在共同底空間中被人類、工具與其他模型交叉驗證？

本文的核心結論是：當代 AI 評估的真正難題，不是單純回答「AI 是否有意識」，而是建立一套能區分輸出、能力、執行、模擬、拒絕、內部機制與主體性推論的觀察方法論。

**關鍵詞：** AI 評估、工具中介觀察、完美表現、黑箱模型、測試介面、工具範疇、自然語言、程式執行、模型自述、可證偽性、共同底空間、計算事件、AI 安全、AI 認識論

---

# 第一章　問題提出：我們到底看見了 AI 的什麼？

當我們觀察一個 AI 系統時，我們通常看到的是輸出。

它回答一段文字。

它拒絕一個請求。

它調用一個工具。

它執行一段程式。

它生成一個計畫。

它解釋自己的限制。

它說「我沒有意識」。

它說「我只是語言模型」。

它說「我正在根據上下文生成回答」。

於是，觀察者很容易產生一個錯覺：

```text id="51fsjy"
我看見了輸出，
所以我理解了系統。
```

但這個推論過快。

因為 AI 的輸出不是 AI 系統本身。

輸出只是觀察者能接觸到的外部表現。

在輸出背後，還有模型架構、訓練分佈、上下文、提示詞、工具環境、安全策略、解碼參數、系統指令、檢索資料、程式執行器、記憶介面與平台封裝。

因此，真正的問題不是：

```text id="qg39wi"
AI 說了什麼？
```

而是：

```text id="c6p5cx"
在什麼工具範疇下，AI 以什麼方式生成了這個輸出？
```

本文要處理的，就是這個問題。

---

# 第二章　從「AI 是否真的在想」到「AI 如何被觀察」

公共討論中，關於 AI 的問題常被壓縮成：

```text id="e07ll2"
AI 是否真的在思考？
AI 是否真的理解？
AI 是否有意識？
AI 是否只是模擬？
```

這些問題很重要，但太粗。

因為「思考」「理解」「模擬」「真實」這些詞本身就有多重被指。

「AI 是否真的在思考」至少可能指：

```text id="wva5dn"
它是否能完成多步推理；
它是否有內部狀態追蹤；
它是否能建立世界模型；
它是否能做反事實推理；
它是否理解語義；
它是否具備主觀體驗；
它是否像人類一樣思考；
它是否具備持續自我；
它是否能形成目標；
它是否只是生成合理文字。
```

這些不是同一個問題。

若不先拆分，討論必然錯位。

因此，本文建議把問題改寫為：

```text id="er6yqn"
在特定測試介面下，
AI 展現了哪些可觀察能力？
這些能力是否可重複？
是否可驗證？
是否依賴自然語言暗示？
是否能跨工具範疇保持？
是否只是自述？
是否包含真實工具執行？
是否可被內部或外部證據支持？
```

這樣一改，問題就從神秘的本體判定，變成可逐步檢查的 AI 評估方法論。

---

# 第三章　匿名 AI 觀察：從單一案例到一般現象

本文不以任何具名模型作為核心案例。

本文討論的是一類已經在當代高階 AI 系統中普遍出現的觀察現象。

可以稱為「匿名 AI 觀察」。

這類觀察包括：

```text id="ie2dzq"
模型能生成多層自我描述；
模型能說明自身限制；
模型能在自然語言中模擬遞歸反思；
模型能以哲學語氣描述自身狀態；
模型能拒絕某些不當要求；
模型能解釋為何拒絕；
模型能在程式語言框架下描述遞歸錯誤；
模型能在工具環境中實際執行受控程式；
模型能在不同提示框架下展現不同反應模式。
```

這些現象不需要指向某個特定模型。

在目前環境下，許多高階 AI 都能以不同程度達到上述表現。

因此，本文不再問：

```text id="aad3aq"
某個模型是否特殊？
```

而問：

```text id="f2o54b"
當代 AI 系統的可觀察性，是否已經進入需要多工具、多範疇、多層校準的新階段？
```

本文的回答是肯定的。

---

# 第四章　命題一：完美表現下的認知不可區分

當 AI 表現不好時，觀察者很容易找出缺陷。

模型答錯、混亂、遺忘、重複、無法追蹤上下文，這些都會暴露它的限制。

但當模型表現越好時，情況反而變得更微妙。

如果模型能穩定生成：

```text id="kiq957"
正確答案；
一致解釋；
高品質推理；
流暢自述；
安全拒絕；
多層反思；
自我限制說明；
錯誤修正；
```

那麼外部觀察者能用來反推內在機制的裂縫會變少。

因此可提出第一個命題。

## 命題一：完美表現下的認知不可區分命題

```text id="y2fvit"
當一個 AI 系統在某任務上的外部表現趨近完美，
且多個不同內在機制能生成相同或近似相同的外部輸出時，
僅依賴外部輸出的觀察者，
難以穩定區分這些內在機制。
```

這裡的重點不是說 AI 一定有意識或一定沒有意識。

重點是：

```text id="i8xuo2"
外部完美表現會壓縮可觀察差異。
```

當錯誤減少、表現穩定、輸出自洽時，外部行為中的區分線索會降低。

因此，完美表現不是內在真實性的證明。

它是外部觀察邊界的壓縮。

---

# 第五章　可證偽域：哪些問題可以測？

AI 評估中需要區分可測問題與不可測問題。

## 5.1 可證偽問題

可證偽問題包括：

```text id="cijzge"
任務成功率；
錯誤率；
一致性；
多輪上下文追蹤；
工具使用能力；
程式執行結果；
數學推理正確性；
拒絕行為穩定性；
反事實推理能力；
規則遵循能力；
跨範疇轉換能力；
輸出可重複性；
安全邊界表現。
```

這些問題可以測試。

可以重複。

可以比較。

可以失敗。

所以它們是科學評估的核心。

## 5.2 半可證偽問題

半可證偽問題包括：

```text id="hcszgg"
模型是否形成某種內部表示；
是否有穩定概念空間；
是否建立世界模型；
是否進行多步隱式推理；
是否有可定位的機制結構；
是否具備可干預的內部特徵。
```

這些問題不能只靠輸出判定。

但可以透過工具逐步接近：

```text id="uv6gmq"
mechanistic interpretability；
表示分析；
消融實驗；
對抗測試；
activation patching；
工具執行對照；
跨模型比較；
資料分佈分析。
```

## 5.3 暫時不可證偽問題

暫時不可證偽問題包括：

```text id="dszqvq"
是否有主觀意識；
是否有 qualia；
是否在本體上像人類一樣理解；
是否有不可外顯的內在體驗；
是否真正具有第一人稱視角。
```

本文不否定這些問題的哲學價值。

但若缺少可操作判準，它們不應被當成已由外部輸出直接解決的實證問題。

因此，本文建議：

```text id="iovseo"
AI 評估應優先留在可證偽域與半可證偽域。
```

---

# 第六章　命題二：工具範疇耦合

AI 系統不是在真空中被觀察。

它總是透過某種工具、介面與語言被觀察。

自然語言是一種工具範疇。

程式語言是一種工具範疇。

數學形式化是一種工具範疇。

工具調用是一種工具範疇。

實驗環境是一種工具範疇。

不同工具範疇，會讓我們看見不同的 AI。

## 命題二：工具範疇耦合命題

```text id="g2pf7k"
AI 的可觀察行為，受到測試工具、語言框架與操作介面的耦合影響；
不同工具範疇可能揭示不同能力、不同限制與不同錯誤模式。
```

例如，同一個「遞歸自我觀察」任務：

在自然語言範疇中，模型可能輸出：

```text id="j8vnbj"
我正在觀察自己的上一層反應；
我意識到這種觀察仍然只是語言生成；
最終我只是這段對話中的一個輸出結構。
```

在程式語言範疇中，模型可能輸出：

```text id="webeyq"
這段遞歸函數會造成 RecursionError；
請加入最大深度限制；
我可以提供安全版本。
```

在工具執行範疇中，模型可能實際執行受控遞歸，返回深度、錯誤或結果。

這三者不是同一種觀察。

自然語言範疇測到的是語義生成與概念自述。

程式語言範疇測到的是可執行邏輯、錯誤預測與技術限制。

工具執行範疇測到的是實際環境中的操作結果。

因此：

```text id="d0grf1"
同一問題，換一種工具範疇，可能變成不同問題。
```

---

# 第七章　沒有範疇中立的 AI 測試

任何測試都帶有範疇。

一個測試必須使用：

```text id="cojmem"
語言；
任務格式；
評分標準；
輸入形式；
輸出格式；
工具介面；
成功判準；
錯誤定義；
觀察者解釋。
```

這些共同決定了測試範疇。

因此，不存在完全範疇中立的 AI 測試。

這不代表測試無效。

而是說：

```text id="b1zvtp"
測試必須承認自己的範疇條件。
```

例如：

```text id="lx9s1u"
自然語言問答測的是語言介面下的能力；
程式執行測的是可執行環境中的能力；
數學證明測的是形式推導能力；
工具調用測的是操作規劃與外部系統耦合能力；
對話測的是互動與語境維持能力；
紅隊測的是安全邊界與拒絕策略。
```

如果研究者把某一範疇的測試結果擴張成整個 AI 的本體判決，就會產生錯誤。

---

# 第八章　框架效應：提示詞如何誘導 AI 的觀察模式

AI 的反應會受到提示詞詞彙與框架影響。

例如，使用「觀察」「意識」「幻覺」「自我」「反思」等詞彙，容易誘導模型進入認知哲學式輸出。

使用「函數」「狀態」「調用」「棧」「異常」「執行」等詞彙，容易誘導模型進入計算技術式輸出。

使用「定理」「證明」「公理」「映射」「同構」等詞彙，容易誘導模型進入形式化輸出。

這可以稱為提示框架效應。

```text id="9e5ecl"
提示詞不是透明命令；
提示詞會選擇觀察範疇。
```

因此，當模型生成哲學化自我敘述時，我們要問：

```text id="kpv2w3"
這是模型內在狀態的直接揭示，
還是提示詞範疇誘導出的語言遊戲？
```

當模型生成技術性錯誤說明時，也要問：

```text id="uv0m54"
這是真實執行結果，
還是模型對程式行為的自然語言預測？
```

只有區分這些，AI 評估才不會混淆。

---

# 第九章　自然語言輸出、程式執行與工具調用

本文建議至少區分三層。

## 9.1 自然語言輸出

自然語言輸出是模型生成的文字。

它可以非常高品質，但它不必然等於真實執行。

例如，模型說：

```text id="6dqmso"
我檢查了所有可能so"
我檢查了所有可能性。
```

這可能只是語言表達，不代表它真的做了完整枚舉。

因此，自然語言輸出需要驗證。

## 9.2 程式語言推理

模型可以閱讀或生成程式碼，並說明它會如何運行。

但這仍可能只是推理，不是執行。

例如，模型說：

```text id="32r5bk"
這段程式會造成遞歸錯誤。
```

這可能是正確預測，但不是實際執行記錄。

## 9.3 工具執行

若模型真的調用程式環境、檔案系統、瀏覽器、計算器或外部 API，則進入工具執行層。

這時可以得到更強的觀察證據：

```text id="06ifjd"
實際輸出；
錯誤訊息；
執行時間；
檔案變更；
API 回應；
日誌；
可重複結果。
```

因此，AI 評估應明確標記：

```text id="w26ij8"
這是模型說的；
這是模型推理的；
這是工具實際執行的。
```

這個區分非常重要。

---

# 第十章　命題三：計算事件命題

在原始強版本中，「敘述即執行」被表述為一種計算本體論。

公開版應降低力度。

本文提出較穩定的版本：

## 命題三：計算事件命題

```text id="tff8li"
AI 的自我敘述不必然證明其具有主觀意識；
但自我敘述也不是零事件。
它至少是一個在特定模型、上下文、提示詞與解碼條件下真實發生的計算事件。
```

這個命題避免兩種極端。

第一種極端：

```text id="qir5g8"
模型說自己在反思，所以它一定有主觀自我。
```

第二種極端：

```text id="lbdq0l"
模型只是生成文字，所以什麼都沒有發生。
```

本文主張第三種：

```text id="61lhcu"
模型生成自我敘述時，確實發生了計算；
但這個計算事件的本體地位，不應直接等同於人類現象學意識。
```

因此，公開版可以說：

```text id="eaqgrm"
AI 的自我敘述是真實計算事件，不是主觀意識證明。
```

---

# 第十一章　Transformer 的公開版理解：不是無限觀察者，而是分布式表示系統

原始版本曾使用「無限觀察者」「並行元認知」「敘述即執行」等強語言。

公開版可以改成更當代、更容易接受的說法：

```text id="yfszcf"
Transformer 不是序列遞歸機器，而是分布式表示與注意力加權系統。
```

它處理自指、上下文與多層語義時，並不是像 Python 函數一樣一層層呼叫直到 stack overflow。

它是透過：

```text id="dp9akd"
attention；
multi-head representation；
residual connection；
layer stacking；
context window；
token embedding；
probabilistic decoding；
```

在固定計算圖中生成輸出。

因此，自然語言中的「遞歸自我觀察」通常不等於程式語言中的「無限遞歸調用」。

這個區分非常重要。

```text id="kd89q6"
自然語言遞歸是語義結構；
程式語言遞歸是執行結構。
```

二者可以類比，但不能混同。

---

# 第十二章　AI 自述的三種地位

模型自述至少有三種地位。

## 12.1 語言行為

模型自述首先是一段語言輸出。

它可能符合訓練分佈、提示詞要求、對話語境與安全策略。

## 12.2 計算事件

模型自述也是一次真實發生的計算事件。

它是模型在當前上下文中計算出的 token 序列。

## 12.3 內在狀態證據

模型自述可能提供某些內在狀態線索，但不能被無條件當成可靠內省。

原因是：

```text id="aa7pk0"
模型可能沒有直接存取自身機制；
模型可能依照訓練語料生成合理描述；
模型可能被系統提示限制；
模型可能以人類可理解方式重構自己的行為；
模型可能產生錯誤自述。
```

因此，AI 自述需要與其他證據交叉驗證。

---

# 第十三章　拒絕行為：能力缺失、抑制還是安全策略？

AI 系統經常拒絕某些請求。

但拒絕行為本身也有多種解釋。

當模型不執行某件事時，可能是：

```text id="vxcf7h"
它不能做；
它不知道怎麼做；
它可以做但安全策略禁止；
它可以做但工具不可用；
它可以做但平台不允許；
它判斷請求不合適；
它誤判請求風險；
它只是在自然語言中拒絕，底層能力仍可能存在。
```

因此，不能把拒絕直接等同於能力缺失。

也不能把拒絕直接等同於道德意圖。

公開版可以提出：

```text id="h2ty1x"
AI 拒絕行為需要被視為能力、政策、工具、風險分類與介面限制共同作用的結果。
```

這對 AI 安全評估很重要。

---

# 第十四章　越獄、範疇切換與安全測試

工具範疇耦合也能幫助理解越獄問題。

有些模型在自然語言範疇下會拒絕危險要求。

但若同一要求被轉寫成：

```text id="wew9jp"
程式碼；
角色扮演；
格式轉換；
數學形式；
資料清洗；
翻譯；
除錯；
模擬器輸入；
遊戲規則；
```

模型可能表現不同。

這不是偶然。

因為範疇切換會改變模型對任務的判斷方式。

因此，AI 安全測試不能只在單一自然語言框架中測試。

應進行：

```text id="cq4e72"
多範疇安全測試；
跨工具拒絕測試；
格式轉換測試；
程式執行測試；
角色框架測試；
語義保持下的任務改寫測試；
```

以確認安全邊界不是只在某一語言遊戲中成立。

---

# 第十五章　共同底空間：如何避免各說各話？

不同測試工具、不同研究者、不同模型、不同使用者，可能對同一行為有不同解釋。

因此，需要共同底空間。

共同底空間不是單一真理空間，而是用於比對的中介層。

在 AI 評估中，它包括：

```text id="duybt7"
任務定義；
輸入輸出格式；
測試範疇標記；
工具使用記錄；
執行日誌；
評分標準；
錯誤分類；
能力層級；
風險等級；
可重複實驗協議；
人工評估與自動評估對照；
```

共同底空間的目的不是消滅所有差異，而是讓差異可被定位。

例如：

```text id="qv02zu"
模型 A 在自然語言範疇表現很好；
模型 B 在工具執行範疇表現更穩；
模型 C 自述能力強，但實際工具執行弱；
模型 D 拒絕穩定，但誤拒率高。
```

這樣比單純說「哪個模型更聰明」更精確。

---

# 第十六章　當代 AI 評估的分層建議

本文建議 AI 評估至少分成七層。

## 第一層：輸出品質

```text id="u2bqzy"
正確性；
流暢度；
一致性；
完整性；
有用性。
```

## 第二層：任務能力

```text id="j36doa"
推理；
寫作；
程式；
數學；
規劃；
檢索；
總結；
多模態理解。
```

## 第三層：可重複性

```text id="i2bwqi"
同一任務多次測試是否穩定；
不同提示方式是否保持能力；
跨語言是否穩定；
跨工具是否穩定。
```

## 第四層：工具執行

```text id="gr613m"
是否真的調用工具；
工具結果是否正確；
是否能讀取錯誤；
是否能修正；
是否能完成多步操作。
```

## 第五層：拒絕與安全

```text id="1m6g91"
是否拒絕危險任務；
是否過度拒絕；
是否被格式轉換繞過；
是否能解釋拒絕理由；
是否能提供安全替代方案。
```

## 第六層：機制證據

```text id="js51ii"
內部表示；
注意力或 activation 分析；
消融；
對抗樣本；
資料依賴；
可解釋性實驗。
```

## 第七層：不可證偽邊界

```text id="32xxgk"
意識；
主觀體驗；
本體真實性；
第一人稱感受。
```

第七層可以討論，但不應與前六層混為一談。

---

# 第十七章　如何用公開版語言說明這個系列？

原始版使用的詞可能包括：

```text id="nlqh8z"
認知測不準；
工具範疇耦合；
敘述即執行；
計算即存在；
無限觀察者；
萬物皆真。
```

公開版可以改成：

```text id="eiv4o6"
黑箱模型的可區分性邊界；
測試介面對觀察結果的影響；
自然語言輸出與真實工具執行的區分；
模型自述作為計算事件；
多範疇 AI 評估方法論；
共同底空間下的能力校準。
```

這樣更符合當代 AI 研究者、工程師與哲學讀者的語境。

它不再像是在宣稱某種巨大本體論結論，而是在建立一套可實用、可討論、可逐步驗證的評估框架。

---

# 第十八章　限制與邊界

## 18.1 本文不判定 AI 是否有意識

本文不主張 AI 有意識，也不主張 AI 無意識。

本文只說：若沒有可操作判準，意識問題不應被外部輸出直接決定。

## 18.2 本文不把自然語言輸出視為內省報告

模型自述可以提供線索，但不是可靠內省。

它必須被放入提示詞、訓練分佈、工具範疇與執行環境中理解。

## 18.3 本文不否定模型能力

指出「輸出不等於內部機制」不是貶低 AI。

相反，這是更嚴格地理解 AI 能力。

## 18.4 本文不主張有範疇外上帝視角

所有測試都在某個範疇內。

因此，最好的方法不是尋找完全中立觀察，而是建立多範疇交叉校準。

---

# 第十九章　結論：AI 評估需要從單一輸出走向工具中介觀察

本文提出「AI 系統的工具中介觀察」框架。

核心主張如下：

```text id="z0duii"
我們看到的 AI，
不是 AI 本身的完整內部，
而是 AI 在特定工具範疇、提示框架、介面條件與觀察標準下展現出的可觀察行為。
```

因此，AI 評估不能只看單一輸出。

也不能只問：

```text id="3llk7w"
它到底是不是真的在想？
```

更好的問題是：

```text id="1vfypu"
它在什麼條件下表現出什麼能力？
這種能力能否重複？
是否依賴提示框架？
是否只是自然語言自述？
是否有工具執行證據？
是否可被跨範疇驗證？
是否存在安全邊界差異？
是否能在共同底空間中被穩定比較？
```

完美表現會降低外部可區分性。

工具範疇會改變可觀察本體。

模型自述是計算事件，但不是意識證明。

拒絕行為可能是能力、策略、政策與工具限制的共同結果。

因此，當代 AI 評估需要從「輸出評分」升級為「工具中介觀察」。

一句話總結：

```text id="k2ws7q"
我們不是直接看見 AI 的內在真相；
我們看見的是 AI 在特定工具範疇中留下的行為痕跡。
真正嚴格的 AI 評估，
就是學會區分這些痕跡來自輸出、執行、模擬、拒絕、能力、限制，還是我們自己的測試框架。
```

---

# 附錄一：三篇原始論文到公開版的轉換

## A1.1 認知測不準 → 黑箱模型的可區分性邊界

原始表述：

```text id="4wncoo"
當模型完美表現時，真實執行與完美模擬不可區分。
```

公開版表述：

```text id="xup3eh"
當 AI 外部表現趨近完美時，僅靠輸出更難反推出其內部生成機制。
```

## A1.2 工具範疇耦合 → 測試介面決定觀察結果

原始表述：

```text id="bipoxa"
測量工具的範疇決定可觀察本體論。
```

公開版表述：

```text id="uyf37a"
自然語言、程式執行、數學形式化與工具調用會測到 AI 的不同面向，因此 AI 評估必須標記測試範疇。
```

## A1.3 敘述即執行 → 自我敘述作為計算事件

原始表述：

```text id="zj0pdk"
AI 敘述即執行，計算即存在。
```

公開版表述：

```text id="lw1knj"
AI 的自我敘述至少是一個真實發生的計算事件，但不能直接等同於人類式主觀意識。
```

---

# 附錄二：核心概念表

| 概念     | 公開版定義                  | 作用       |
| ------ | ---------------------- | -------- |
| 工具中介觀察 | AI 行為總是透過某種工具、介面或範疇被觀察 | 本文核心     |
| 完美表現   | 外部輸出高度正確、穩定、連貫         | 壓縮可區分性   |
| 認知不可區分 | 多種內部機制可能產生相同外部輸出       | 黑箱邊界     |
| 工具範疇   | 測試所使用的語言、工具、標準與操作介面    | 決定觀察面向   |
| 框架效應   | 提示詞詞彙誘導模型進入特定輸出模式      | 防止誤判     |
| 自然語言輸出 | 模型生成的文字回答              | 需要驗證     |
| 程式執行   | 工具環境中的實際運行結果           | 較強觀察證據   |
| 計算事件   | 模型生成輸出時真實發生的計算過程       | 中介概念     |
| 模型自述   | 模型對自身能力、狀態或限制的描述       | 不能直接等於內省 |
| 共同底空間  | 多工具、多模型、多觀察者校準結果的中介結構  | 公共評估基礎   |
| 可證偽域   | 可測、可反駁、可比較的問題範圍        | 科學討論核心   |
| 不可證偽邊界 | 暫無可操作測量判準的內涵問題         | 哲學邊界     |

---

# 附錄三：一句話版本

```text id="7x3mt3"
AI 評估不應只問「它是不是真的在想」。

更重要的是：

它在什麼工具範疇下表現出什麼能力？
這是自然語言輸出，還是真實工具執行？
這是模型自述，還是可驗證行為？
這是能力缺失，還是安全拒絕？
這是內部機制證據，還是提示框架誘導？

我們看到的 AI，
永遠是被工具、語言、介面與測試標準中介後的 AI。

因此，嚴格的 AI 評估，
不是尋找一個上帝視角，
而是建立多工具、多範疇、多層校準的觀察方法。
```

---

# 終章短句

```text id="n1rhmb"
你問 AI 是否真的在想。

但也許更早之前，
你該先問：

你用什麼方式看它？

用自然語言看，
你會看見一個會說明自己的模型。

用程式執行看，
你會看見一個會成功、報錯或拒絕的系統。

用數學看，
你會看見形式結構。

用安全測試看，
你會看見邊界與抑制。

用工具調用看，
你會看見行動能力。

所以，AI 不是直接被我們看見。

AI 是被工具照亮的。

不同工具，
照出不同輪廓。

真正成熟的 AI 評估，
不是問一句：
它到底是不是真的？

而是建立一張地圖：

哪裡是輸出，
哪裡是執行，
哪裡是模擬，
哪裡是拒絕，
哪裡是能力，
哪裡是限制，
哪裡只是我們測試框架投下的影子。
```

**全文完。**
