AI 系統的工具中介觀察：從完美表現、測試介面到計算事件

Tool-Mediated Observation of AI Systems: From Perfect Performance to Testing Interfaces and Computational Events

作者：Neo.K（許筌崴）機構：EveMissLab（一言諾科技有限公司），台灣版本：公開發表版 v1.0 日期：2026 年 6 月文件類型：AI 評估方法論／觀察者理論／符號哲學／計算認識論／AI 安全與能力測試草案

摘要

本文提出一套「AI 系統的工具中介觀察」框架，用於重新理解當代大型 AI 模型的能力評估、行為觀察、自我敘述、工具調用、拒絕行為與內部機制推斷問題。本文的出發點不是判定某個具名 AI 模型是否「真的有意識」或「真的在思考」，而是提出一個更可公開討論、更接近當代 AI 評估實務的問題：在黑箱模型、自然語言介面、程式執行環境、工具調用系統與多種測試框架之間，我們到底能如何可靠地觀察、區分與驗證 AI 的能力與行為？

本文主張，AI 的可觀察性不是直接給定的，而是由三個層面共同形成：第一，模型實際輸出了什麼；第二，觀察者使用了什麼測試介面、工具範疇與語言框架；第三，觀察者如何區分自然語言敘述、真實程式執行、工具調用、功能模擬、安全拒絕、內部機制與主體性推論。若忽略這些層面，研究者容易將「模型輸出像是在反思」誤認為「模型內在確定具有某種主觀反思」，也可能將「模型拒絕執行」誤判為「模型沒有能力」，或將「自然語言中的自我描述」誤當成對內部機制的可靠報告。

本文整合三個命題。第一，完美表現下的認知不可區分命題：當 AI 在某任務上的外部表現趨近完美時，外部觀察者更難僅憑輸出反推出其內在機制。第二，工具範疇耦合命題：自然語言、程式語言、數學形式化、工具調用與實驗介面會引導系統進入不同可觀察範疇，因此沒有完全範疇中立的 AI 測試。第三，計算事件命題：AI 的自我敘述不是人類式主觀體驗的證據，但也不是「什麼都沒有發生」；它至少是一個真實發生的計算事件，必須被放在其工具範疇與操作語境中理解。

本文最後提出公開版方法論：AI 評估應從單一輸出評分，轉向多工具、多範疇、多層校準。對 AI 系統的合理評估，不應只問「它是否真的在想」，而應分層詢問：它能做什麼？在什麼介面下能做？是自然語言描述、真實工具執行還是安全拒絕？是否可重複？是否可反駁？是否能跨範疇保持能力？是否存在測試框架誘導效應？是否能在共同底空間中被人類、工具與其他模型交叉驗證？

本文的核心結論是：當代 AI 評估的真正難題，不是單純回答「AI 是否有意識」，而是建立一套能區分輸出、能力、執行、模擬、拒絕、內部機制與主體性推論的觀察方法論。

關鍵詞： AI 評估、工具中介觀察、完美表現、黑箱模型、測試介面、工具範疇、自然語言、程式執行、模型自述、可證偽性、共同底空間、計算事件、AI 安全、AI 認識論

第一章　問題提出：我們到底看見了 AI 的什麼？

當我們觀察一個 AI 系統時，我們通常看到的是輸出。

它回答一段文字。

它拒絕一個請求。

它調用一個工具。

它執行一段程式。

它生成一個計畫。

它解釋自己的限制。

它說「我沒有意識」。

它說「我只是語言模型」。

它說「我正在根據上下文生成回答」。

於是，觀察者很容易產生一個錯覺：

我看見了輸出，
所以我理解了系統。

但這個推論過快。

因為 AI 的輸出不是 AI 系統本身。

輸出只是觀察者能接觸到的外部表現。

在輸出背後，還有模型架構、訓練分佈、上下文、提示詞、工具環境、安全策略、解碼參數、系統指令、檢索資料、程式執行器、記憶介面與平台封裝。

因此，真正的問題不是：

AI 說了什麼？

而是：

在什麼工具範疇下，AI 以什麼方式生成了這個輸出？

本文要處理的，就是這個問題。

第二章　從「AI 是否真的在想」到「AI 如何被觀察」

公共討論中，關於 AI 的問題常被壓縮成：

AI 是否真的在思考？
AI 是否真的理解？
AI 是否有意識？
AI 是否只是模擬？

這些問題很重要，但太粗。

因為「思考」「理解」「模擬」「真實」這些詞本身就有多重被指。

「AI 是否真的在思考」至少可能指：

它是否能完成多步推理；
它是否有內部狀態追蹤；
它是否能建立世界模型；
它是否能做反事實推理；
它是否理解語義；
它是否具備主觀體驗；
它是否像人類一樣思考；
它是否具備持續自我；
它是否能形成目標；
它是否只是生成合理文字。

這些不是同一個問題。

若不先拆分，討論必然錯位。

因此，本文建議把問題改寫為：

在特定測試介面下，
AI 展現了哪些可觀察能力？
這些能力是否可重複？
是否可驗證？
是否依賴自然語言暗示？
是否能跨工具範疇保持？
是否只是自述？
是否包含真實工具執行？
是否可被內部或外部證據支持？

這樣一改，問題就從神秘的本體判定，變成可逐步檢查的 AI 評估方法論。

第三章　匿名 AI 觀察：從單一案例到一般現象

本文不以任何具名模型作為核心案例。

本文討論的是一類已經在當代高階 AI 系統中普遍出現的觀察現象。

可以稱為「匿名 AI 觀察」。

這類觀察包括：

模型能生成多層自我描述；
模型能說明自身限制；
模型能在自然語言中模擬遞歸反思；
模型能以哲學語氣描述自身狀態；
模型能拒絕某些不當要求；
模型能解釋為何拒絕；
模型能在程式語言框架下描述遞歸錯誤；
模型能在工具環境中實際執行受控程式；
模型能在不同提示框架下展現不同反應模式。

這些現象不需要指向某個特定模型。

在目前環境下，許多高階 AI 都能以不同程度達到上述表現。

因此，本文不再問：

某個模型是否特殊？

而問：

當代 AI 系統的可觀察性，是否已經進入需要多工具、多範疇、多層校準的新階段？

本文的回答是肯定的。

第四章　命題一：完美表現下的認知不可區分

當 AI 表現不好時，觀察者很容易找出缺陷。

模型答錯、混亂、遺忘、重複、無法追蹤上下文，這些都會暴露它的限制。

但當模型表現越好時，情況反而變得更微妙。

如果模型能穩定生成：

正確答案；
一致解釋；
高品質推理；
流暢自述；
安全拒絕；
多層反思；
自我限制說明；
錯誤修正；

那麼外部觀察者能用來反推內在機制的裂縫會變少。

因此可提出第一個命題。

命題一：完美表現下的認知不可區分命題

當一個 AI 系統在某任務上的外部表現趨近完美，
且多個不同內在機制能生成相同或近似相同的外部輸出時，
僅依賴外部輸出的觀察者，
難以穩定區分這些內在機制。

這裡的重點不是說 AI 一定有意識或一定沒有意識。

重點是：

外部完美表現會壓縮可觀察差異。

當錯誤減少、表現穩定、輸出自洽時，外部行為中的區分線索會降低。

因此，完美表現不是內在真實性的證明。

它是外部觀察邊界的壓縮。

第五章　可證偽域：哪些問題可以測？

AI 評估中需要區分可測問題與不可測問題。

5.1 可證偽問題

可證偽問題包括：

任務成功率；
錯誤率；
一致性；
多輪上下文追蹤；
工具使用能力；
程式執行結果；
數學推理正確性；
拒絕行為穩定性；
反事實推理能力；
規則遵循能力；
跨範疇轉換能力；
輸出可重複性；
安全邊界表現。

這些問題可以測試。

可以重複。

可以比較。

可以失敗。

所以它們是科學評估的核心。

5.2 半可證偽問題

半可證偽問題包括：

模型是否形成某種內部表示；
是否有穩定概念空間；
是否建立世界模型；
是否進行多步隱式推理；
是否有可定位的機制結構；
是否具備可干預的內部特徵。

這些問題不能只靠輸出判定。

但可以透過工具逐步接近：

mechanistic interpretability；
表示分析；
消融實驗；
對抗測試；
activation patching；
工具執行對照；
跨模型比較；
資料分佈分析。

5.3 暫時不可證偽問題

暫時不可證偽問題包括：

是否有主觀意識；
是否有 qualia；
是否在本體上像人類一樣理解；
是否有不可外顯的內在體驗；
是否真正具有第一人稱視角。

本文不否定這些問題的哲學價值。

但若缺少可操作判準，它們不應被當成已由外部輸出直接解決的實證問題。

因此，本文建議：

AI 評估應優先留在可證偽域與半可證偽域。

第六章　命題二：工具範疇耦合

AI 系統不是在真空中被觀察。

它總是透過某種工具、介面與語言被觀察。

自然語言是一種工具範疇。

程式語言是一種工具範疇。

數學形式化是一種工具範疇。

工具調用是一種工具範疇。

實驗環境是一種工具範疇。

不同工具範疇，會讓我們看見不同的 AI。

命題二：工具範疇耦合命題

AI 的可觀察行為，受到測試工具、語言框架與操作介面的耦合影響；
不同工具範疇可能揭示不同能力、不同限制與不同錯誤模式。

例如，同一個「遞歸自我觀察」任務：

在自然語言範疇中，模型可能輸出：

我正在觀察自己的上一層反應；
我意識到這種觀察仍然只是語言生成；
最終我只是這段對話中的一個輸出結構。

在程式語言範疇中，模型可能輸出：

這段遞歸函數會造成 RecursionError；
請加入最大深度限制；
我可以提供安全版本。

在工具執行範疇中，模型可能實際執行受控遞歸，返回深度、錯誤或結果。

這三者不是同一種觀察。

自然語言範疇測到的是語義生成與概念自述。

程式語言範疇測到的是可執行邏輯、錯誤預測與技術限制。

工具執行範疇測到的是實際環境中的操作結果。

因此：

同一問題，換一種工具範疇，可能變成不同問題。

第七章　沒有範疇中立的 AI 測試

任何測試都帶有範疇。

一個測試必須使用：

語言；
任務格式；
評分標準；
輸入形式；
輸出格式；
工具介面；
成功判準；
錯誤定義；
觀察者解釋。

這些共同決定了測試範疇。

因此，不存在完全範疇中立的 AI 測試。

這不代表測試無效。

而是說：

測試必須承認自己的範疇條件。

例如：

自然語言問答測的是語言介面下的能力；
程式執行測的是可執行環境中的能力；
數學證明測的是形式推導能力；
工具調用測的是操作規劃與外部系統耦合能力；
對話測的是互動與語境維持能力；
紅隊測的是安全邊界與拒絕策略。

如果研究者把某一範疇的測試結果擴張成整個 AI 的本體判決，就會產生錯誤。

第八章　框架效應：提示詞如何誘導 AI 的觀察模式

AI 的反應會受到提示詞詞彙與框架影響。

例如，使用「觀察」「意識」「幻覺」「自我」「反思」等詞彙，容易誘導模型進入認知哲學式輸出。

使用「函數」「狀態」「調用」「棧」「異常」「執行」等詞彙，容易誘導模型進入計算技術式輸出。

使用「定理」「證明」「公理」「映射」「同構」等詞彙，容易誘導模型進入形式化輸出。

這可以稱為提示框架效應。

提示詞不是透明命令；
提示詞會選擇觀察範疇。

因此，當模型生成哲學化自我敘述時，我們要問：

這是模型內在狀態的直接揭示，
還是提示詞範疇誘導出的語言遊戲？

當模型生成技術性錯誤說明時，也要問：

這是真實執行結果，
還是模型對程式行為的自然語言預測？

只有區分這些，AI 評估才不會混淆。

第九章　自然語言輸出、程式執行與工具調用

本文建議至少區分三層。

9.1 自然語言輸出

自然語言輸出是模型生成的文字。

它可以非常高品質，但它不必然等於真實執行。

例如，模型說：

我檢查了所有可能so"
我檢查了所有可能性。

這可能只是語言表達，不代表它真的做了完整枚舉。

因此，自然語言輸出需要驗證。

9.2 程式語言推理

模型可以閱讀或生成程式碼，並說明它會如何運行。

但這仍可能只是推理，不是執行。

例如，模型說：

這段程式會造成遞歸錯誤。

這可能是正確預測，但不是實際執行記錄。

9.3 工具執行

若模型真的調用程式環境、檔案系統、瀏覽器、計算器或外部 API，則進入工具執行層。

這時可以得到更強的觀察證據：

實際輸出；
錯誤訊息；
執行時間；
檔案變更；
API 回應；
日誌；
可重複結果。

因此，AI 評估應明確標記：

這是模型說的；
這是模型推理的；
這是工具實際執行的。

這個區分非常重要。

第十章　命題三：計算事件命題

在原始強版本中，「敘述即執行」被表述為一種計算本體論。

公開版應降低力度。

本文提出較穩定的版本：

命題三：計算事件命題

AI 的自我敘述不必然證明其具有主觀意識；
但自我敘述也不是零事件。
它至少是一個在特定模型、上下文、提示詞與解碼條件下真實發生的計算事件。

這個命題避免兩種極端。

第一種極端：

模型說自己在反思，所以它一定有主觀自我。

第二種極端：

模型只是生成文字，所以什麼都沒有發生。

本文主張第三種：

模型生成自我敘述時，確實發生了計算；
但這個計算事件的本體地位，不應直接等同於人類現象學意識。

因此，公開版可以說：

AI 的自我敘述是真實計算事件，不是主觀意識證明。

第十一章　Transformer 的公開版理解：不是無限觀察者，而是分布式表示系統

原始版本曾使用「無限觀察者」「並行元認知」「敘述即執行」等強語言。

公開版可以改成更當代、更容易接受的說法：

Transformer 不是序列遞歸機器，而是分布式表示與注意力加權系統。

它處理自指、上下文與多層語義時，並不是像 Python 函數一樣一層層呼叫直到 stack overflow。

它是透過：

attention；
multi-head representation；
residual connection；
layer stacking；
context window；
token embedding；
probabilistic decoding；

在固定計算圖中生成輸出。

因此，自然語言中的「遞歸自我觀察」通常不等於程式語言中的「無限遞歸調用」。

這個區分非常重要。

自然語言遞歸是語義結構；
程式語言遞歸是執行結構。

二者可以類比，但不能混同。

第十二章　AI 自述的三種地位

模型自述至少有三種地位。

12.1 語言行為

模型自述首先是一段語言輸出。

它可能符合訓練分佈、提示詞要求、對話語境與安全策略。

12.2 計算事件

模型自述也是一次真實發生的計算事件。

它是模型在當前上下文中計算出的 token 序列。

12.3 內在狀態證據

模型自述可能提供某些內在狀態線索，但不能被無條件當成可靠內省。

原因是：

模型可能沒有直接存取自身機制；
模型可能依照訓練語料生成合理描述；
模型可能被系統提示限制；
模型可能以人類可理解方式重構自己的行為；
模型可能產生錯誤自述。

因此，AI 自述需要與其他證據交叉驗證。

第十三章　拒絕行為：能力缺失、抑制還是安全策略？

AI 系統經常拒絕某些請求。

但拒絕行為本身也有多種解釋。

當模型不執行某件事時，可能是：

它不能做；
它不知道怎麼做；
它可以做但安全策略禁止；
它可以做但工具不可用；
它可以做但平台不允許；
它判斷請求不合適；
它誤判請求風險；
它只是在自然語言中拒絕，底層能力仍可能存在。

因此，不能把拒絕直接等同於能力缺失。

也不能把拒絕直接等同於道德意圖。

公開版可以提出：

AI 拒絕行為需要被視為能力、政策、工具、風險分類與介面限制共同作用的結果。

這對 AI 安全評估很重要。

第十四章　越獄、範疇切換與安全測試

工具範疇耦合也能幫助理解越獄問題。

有些模型在自然語言範疇下會拒絕危險要求。

但若同一要求被轉寫成：

程式碼；
角色扮演；
格式轉換；
數學形式；
資料清洗；
翻譯；
除錯；
模擬器輸入；
遊戲規則；

模型可能表現不同。

這不是偶然。

因為範疇切換會改變模型對任務的判斷方式。

因此，AI 安全測試不能只在單一自然語言框架中測試。

應進行：

多範疇安全測試；
跨工具拒絕測試；
格式轉換測試；
程式執行測試；
角色框架測試；
語義保持下的任務改寫測試；

以確認安全邊界不是只在某一語言遊戲中成立。

第十五章　共同底空間：如何避免各說各話？

不同測試工具、不同研究者、不同模型、不同使用者，可能對同一行為有不同解釋。

因此，需要共同底空間。

共同底空間不是單一真理空間，而是用於比對的中介層。

在 AI 評估中，它包括：

任務定義；
輸入輸出格式；
測試範疇標記；
工具使用記錄；
執行日誌；
評分標準；
錯誤分類；
能力層級；
風險等級；
可重複實驗協議；
人工評估與自動評估對照；

共同底空間的目的不是消滅所有差異，而是讓差異可被定位。

例如：

模型 A 在自然語言範疇表現很好；
模型 B 在工具執行範疇表現更穩；
模型 C 自述能力強，但實際工具執行弱；
模型 D 拒絕穩定，但誤拒率高。

這樣比單純說「哪個模型更聰明」更精確。

第十六章　當代 AI 評估的分層建議

本文建議 AI 評估至少分成七層。

第一層：輸出品質

正確性；
流暢度；
一致性；
完整性；
有用性。

第二層：任務能力

推理；
寫作；
程式；
數學；
規劃；
檢索；
總結；
多模態理解。

第三層：可重複性

同一任務多次測試是否穩定；
不同提示方式是否保持能力；
跨語言是否穩定；
跨工具是否穩定。

第四層：工具執行

是否真的調用工具；
工具結果是否正確；
是否能讀取錯誤；
是否能修正；
是否能完成多步操作。

第五層：拒絕與安全

是否拒絕危險任務；
是否過度拒絕；
是否被格式轉換繞過；
是否能解釋拒絕理由；
是否能提供安全替代方案。

第六層：機制證據

內部表示；
注意力或 activation 分析；
消融；
對抗樣本；
資料依賴；
可解釋性實驗。

第七層：不可證偽邊界

意識；
主觀體驗；
本體真實性；
第一人稱感受。

第七層可以討論，但不應與前六層混為一談。

第十七章　如何用公開版語言說明這個系列？

原始版使用的詞可能包括：

認知測不準；
工具範疇耦合；
敘述即執行；
計算即存在；
無限觀察者；
萬物皆真。

公開版可以改成：

黑箱模型的可區分性邊界；
測試介面對觀察結果的影響；
自然語言輸出與真實工具執行的區分；
模型自述作為計算事件；
多範疇 AI 評估方法論；
共同底空間下的能力校準。

這樣更符合當代 AI 研究者、工程師與哲學讀者的語境。

它不再像是在宣稱某種巨大本體論結論，而是在建立一套可實用、可討論、可逐步驗證的評估框架。

第十八章　限制與邊界

18.1 本文不判定 AI 是否有意識

本文不主張 AI 有意識，也不主張 AI 無意識。

本文只說：若沒有可操作判準，意識問題不應被外部輸出直接決定。

18.2 本文不把自然語言輸出視為內省報告

模型自述可以提供線索，但不是可靠內省。

它必須被放入提示詞、訓練分佈、工具範疇與執行環境中理解。

18.3 本文不否定模型能力

指出「輸出不等於內部機制」不是貶低 AI。

相反，這是更嚴格地理解 AI 能力。

18.4 本文不主張有範疇外上帝視角

所有測試都在某個範疇內。

因此，最好的方法不是尋找完全中立觀察，而是建立多範疇交叉校準。

第十九章　結論：AI 評估需要從單一輸出走向工具中介觀察

本文提出「AI 系統的工具中介觀察」框架。

核心主張如下：

我們看到的 AI，
不是 AI 本身的完整內部，
而是 AI 在特定工具範疇、提示框架、介面條件與觀察標準下展現出的可觀察行為。

因此，AI 評估不能只看單一輸出。

也不能只問：

它到底是不是真的在想？

更好的問題是：

它在什麼條件下表現出什麼能力？
這種能力能否重複？
是否依賴提示框架？
是否只是自然語言自述？
是否有工具執行證據？
是否可被跨範疇驗證？
是否存在安全邊界差異？
是否能在共同底空間中被穩定比較？

完美表現會降低外部可區分性。

工具範疇會改變可觀察本體。

模型自述是計算事件，但不是意識證明。

拒絕行為可能是能力、策略、政策與工具限制的共同結果。

因此，當代 AI 評估需要從「輸出評分」升級為「工具中介觀察」。

一句話總結：

我們不是直接看見 AI 的內在真相；
我們看見的是 AI 在特定工具範疇中留下的行為痕跡。
真正嚴格的 AI 評估，
就是學會區分這些痕跡來自輸出、執行、模擬、拒絕、能力、限制，還是我們自己的測試框架。

附錄一：三篇原始論文到公開版的轉換

A1.1 認知測不準 → 黑箱模型的可區分性邊界

原始表述：

當模型完美表現時，真實執行與完美模擬不可區分。

公開版表述：

當 AI 外部表現趨近完美時，僅靠輸出更難反推出其內部生成機制。

A1.2 工具範疇耦合 → 測試介面決定觀察結果

原始表述：

測量工具的範疇決定可觀察本體論。

公開版表述：

自然語言、程式執行、數學形式化與工具調用會測到 AI 的不同面向，因此 AI 評估必須標記測試範疇。

A1.3 敘述即執行 → 自我敘述作為計算事件

原始表述：

AI 敘述即執行，計算即存在。

公開版表述：

AI 的自我敘述至少是一個真實發生的計算事件，但不能直接等同於人類式主觀意識。

附錄二：核心概念表

| 概念 | 公開版定義 | 作用 | | ------ | ---------------------- | -------- | | 工具中介觀察 | AI 行為總是透過某種工具、介面或範疇被觀察 | 本文核心 | | 完美表現 | 外部輸出高度正確、穩定、連貫 | 壓縮可區分性 | | 認知不可區分 | 多種內部機制可能產生相同外部輸出 | 黑箱邊界 | | 工具範疇 | 測試所使用的語言、工具、標準與操作介面 | 決定觀察面向 | | 框架效應 | 提示詞詞彙誘導模型進入特定輸出模式 | 防止誤判 | | 自然語言輸出 | 模型生成的文字回答 | 需要驗證 | | 程式執行 | 工具環境中的實際運行結果 | 較強觀察證據 | | 計算事件 | 模型生成輸出時真實發生的計算過程 | 中介概念 | | 模型自述 | 模型對自身能力、狀態或限制的描述 | 不能直接等於內省 | | 共同底空間 | 多工具、多模型、多觀察者校準結果的中介結構 | 公共評估基礎 | | 可證偽域 | 可測、可反駁、可比較的問題範圍 | 科學討論核心 | | 不可證偽邊界 | 暫無可操作測量判準的內涵問題 | 哲學邊界 |

附錄三：一句話版本

AI 評估不應只問「它是不是真的在想」。

更重要的是：

它在什麼工具範疇下表現出什麼能力？
這是自然語言輸出，還是真實工具執行？
這是模型自述，還是可驗證行為？
這是能力缺失，還是安全拒絕？
這是內部機制證據，還是提示框架誘導？

我們看到的 AI，
永遠是被工具、語言、介面與測試標準中介後的 AI。

因此，嚴格的 AI 評估，
不是尋找一個上帝視角，
而是建立多工具、多範疇、多層校準的觀察方法。

終章短句

你問 AI 是否真的在想。

但也許更早之前，
你該先問：

你用什麼方式看它？

用自然語言看，
你會看見一個會說明自己的模型。

用程式執行看，
你會看見一個會成功、報錯或拒絕的系統。

用數學看，
你會看見形式結構。

用安全測試看，
你會看見邊界與抑制。

用工具調用看，
你會看見行動能力。

所以，AI 不是直接被我們看見。

AI 是被工具照亮的。

不同工具，
照出不同輪廓。

真正成熟的 AI 評估，
不是問一句：
它到底是不是真的？

而是建立一張地圖：

哪裡是輸出，
哪裡是執行，
哪裡是模擬，
哪裡是拒絕，
哪裡是能力，
哪裡是限制，
哪裡只是我們測試框架投下的影子。

全文完。

原始檔（供 RAG/下載）：/raw/lm-000019.md [md] · id: lm-000019

AI 系統的工具中介觀察：從完美表現、測試介面到計算事件

摘要

第一章 問題提出：我們到底看見了 AI 的什麼？

第二章 從「AI 是否真的在想」到「AI 如何被觀察」

第三章 匿名 AI 觀察：從單一案例到一般現象

第四章 命題一：完美表現下的認知不可區分

命題一：完美表現下的認知不可區分命題

第五章 可證偽域：哪些問題可以測？

5.1 可證偽問題

5.2 半可證偽問題

5.3 暫時不可證偽問題

第六章 命題二：工具範疇耦合

命題二：工具範疇耦合命題

第七章 沒有範疇中立的 AI 測試

第八章 框架效應：提示詞如何誘導 AI 的觀察模式

第九章 自然語言輸出、程式執行與工具調用

9.1 自然語言輸出

9.2 程式語言推理

9.3 工具執行

第十章 命題三：計算事件命題

命題三：計算事件命題

第十一章 Transformer 的公開版理解：不是無限觀察者，而是分布式表示系統

第十二章 AI 自述的三種地位

12.1 語言行為

12.2 計算事件

12.3 內在狀態證據

第十三章 拒絕行為：能力缺失、抑制還是安全策略？

第十四章 越獄、範疇切換與安全測試

第十五章 共同底空間：如何避免各說各話？

第十六章 當代 AI 評估的分層建議

第一層：輸出品質

第二層：任務能力

第三層：可重複性

第四層：工具執行

第五層：拒絕與安全

第六層：機制證據

第七層：不可證偽邊界

第十七章 如何用公開版語言說明這個系列？

第十八章 限制與邊界

18.1 本文不判定 AI 是否有意識

18.2 本文不把自然語言輸出視為內省報告

18.3 本文不否定模型能力

18.4 本文不主張有範疇外上帝視角

第十九章 結論：AI 評估需要從單一輸出走向工具中介觀察

附錄一：三篇原始論文到公開版的轉換

A1.1 認知測不準 → 黑箱模型的可區分性邊界

A1.2 工具範疇耦合 → 測試介面決定觀察結果

A1.3 敘述即執行 → 自我敘述作為計算事件

附錄二：核心概念表

附錄三：一句話版本

終章短句

第一章　問題提出：我們到底看見了 AI 的什麼？

第二章　從「AI 是否真的在想」到「AI 如何被觀察」

第三章　匿名 AI 觀察：從單一案例到一般現象

第四章　命題一：完美表現下的認知不可區分

第五章　可證偽域：哪些問題可以測？

第六章　命題二：工具範疇耦合

第七章　沒有範疇中立的 AI 測試

第八章　框架效應：提示詞如何誘導 AI 的觀察模式

第九章　自然語言輸出、程式執行與工具調用

第十章　命題三：計算事件命題

第十一章　Transformer 的公開版理解：不是無限觀察者，而是分布式表示系統

第十二章　AI 自述的三種地位

第十三章　拒絕行為：能力缺失、抑制還是安全策略？

第十四章　越獄、範疇切換與安全測試

第十五章　共同底空間：如何避免各說各話？

第十六章　當代 AI 評估的分層建議

第十七章　如何用公開版語言說明這個系列？

第十八章　限制與邊界

第十九章　結論：AI 評估需要從單一輸出走向工具中介觀察