# 半年窗口：Fable 級模型常態化與 Agent 級 AGI 基礎設施的前夜

**作者：Neo.K**
**版本：v0.1 / 觀察草稿**
**定位：個人學術實驗站用戰略觀察論文 / 技術哲學白皮書**
**狀態：未保真、非預言、非內幕發布；屬於高權重觀察假說**

## 摘要

本文提出一個暫時性的戰略觀察命題：未來六個月可能是前沿大語言模型從「高階模型競賽」轉向「Agent 級基礎設施常態化」的關鍵窗口。這裡所說的 AGI，並非指哲學意義上已完成的強主體、完整自我、可長期自治存在，也不是指某個模型突然跨越所有人類能力，而是指一種更工程化、更產品化、更社會化的變化：Fable 級、Fable 以上，或同等級的大語言模型與 Agent harness 開始變成可被普遍調用、可被接入工作流、可在一般創業者與研究者手中使用的基礎智力設施。

本文不將「AGI 已到來」作為確證命題，而是將其重寫為「準 AGI 級通用認知勞動能力正在常態化」。此常態化的核心不在於單一 benchmark 的提升，而在於長上下文、長任務保持、工具使用、跨檔案操作、錯誤恢復、記憶治理、權限管理、人類審核、Agent 編排、外部工作環境耦合等能力逐漸合流。當模型不再只是回答引擎，而是能被組裝成「長程認知作業核心」時，社會對 AGI 的實際使用方式會先於哲學定義而發生改變。

本文的基本立場是：真正值得觀察的不是某個模型名稱是否如期發布，也不是某家公司是否公開承認內部版本已達某種能力，而是能力層是否跨過常態化門檻。當 Fable 級模型成為新的市場基準，競爭優勢會從「誰擁有更強模型」轉向「誰擁有更好的架構、資料、理論、工作流、驗證制度、產品場景與人機協作界面」。因此，Noema、Noesis Studio、Agent OS、語義偽代碼、AI 可讀 Markdown、diff-first review、Logic Matrix、個人學術實驗站與 AI-native corpus，不只是周邊工具，而是模型常態化後真正能放大智力的外部結構。

本文的語氣刻意保持克制：此文不是宣布 AGI 已經誕生，而是為即將到來或可能到來的 Agent 級常態化時代建立一個觀察框架。若半年後相關推論不成立，本文仍可作為一份錯誤假說的記錄；若推論部分成立，本文則可作為早期戰略判斷的索引；若推論高度成立，那麼本文所說的「可被 AGI 執行、擴展、驗證、遞歸使用的思想與工程場」將成為下一階段個人、團隊與文明級競爭的核心問題。

**關鍵詞：** AGI、Fable 級模型、Agent OS、長程任務、AI-native Markdown、Noema、Noesis Studio、語義偽代碼、模型常態化、人機協作、準 AGI 基礎設施

## 0\. 作者聲明：這不是保真預言，而是觀察假說

本文不是新聞稿，也不是內幕爆料，更不是對任何公司未發布模型的確證描述。本文所謂「半年窗口」來自作者自身的內部推論、資料觀察與趨勢整合，但本文不公開完整推演過程，也不要求讀者接受其不可公開部分。所有涉及未發布模型、內部模型、GPT-5.6、OpenAI 內部版本、Anthropic 類 Mythos 分層等內容，都應被理解為結構性推論，而非已證實事實。

這一點非常重要。因為 AI 時代的討論很容易陷入兩種低品質極端：一種是把所有前沿變化都當成炒作，另一種是把所有推論都包裝成確證。前者會錯過真實變化，後者會污染判斷。本文採取第三種方法：把可驗證事實、公開趨勢、結構性推論、內部觀察與個人戰略判斷分層處理。

因此，本文中的命題可被理解為：

未來六個月可能是前沿模型從高階能力展示轉入 Agent 級基礎設施常態化的關鍵窗口。此判斷不是確證，而是一個高權重觀察假說。

這個假說可以錯。它甚至應該保留可錯性。真正有價值的不是假裝不可錯，而是建立一個能被事後檢驗、修正、擴展的觀察框架。若半年後模型進展放緩，或 Agent 產品化低於預期，本文的判斷就需要降權。若半年後 Fable 級模型、長程 Agent、文件級操作、軟體工程 Agent、研究 Agent、企業工作流 Agent 大規模進入市場，本文的判斷就會獲得更高後驗權重。

本文的目的不是說服所有人相信 AGI 已經來了，而是為少數正在建立 AI-native 工作流、理論庫、Agent OS、個人研究站、開源工具與長期智力基礎設施的人，提供一份可用的戰略定位文件。

## 1\. 問題的重新定義：AGI 不是神降，而是能力常態化

在公共討論中，AGI 常被想像成一個突然降臨的事件：某一天，某家公司發布一個模型，然後所有人都承認「這就是 AGI」。但這種敘事可能過度戲劇化，也可能錯過真正發生的變化。AGI 在社會層面更可能不是一次性神降，而是一系列能力的常態化。

所謂「常態化」，是指某種原本只存在於前沿實驗室、演示影片、封閉測試或少數高階用戶手中的能力，開始變成一般開發者、研究者、創業者、企業員工、內容創作者都能日常調用的基礎設施。當這種能力足夠普遍時，無論哲學界是否同意它是 AGI，社會已經會用對待 AGI 的方式來使用它。

因此，本文所說的 AGI，不是指以下幾種東西：

1.  不是指模型已經擁有人類式靈魂、情感或固定人格。
2.  不是指模型已經具備完整自我治理與責任承擔。
3.  不是指模型在所有任務上都超越所有專家。
4.  不是指模型可以脫離人類社會、法律、工具、能源與硬體而完全自治。
5.  不是指某個公開模型名稱本身就是 AGI。

本文所說的 AGI，更接近下面這個工程化定義：

當一類模型與 Agent 系統能在大量不同領域中理解目標、分解任務、使用工具、查找資料、操作文件、撰寫程式、修正錯誤、維持上下文、接受人類審核，並在合理成本下完成可交付的認知工作時，它在社會功能上已經接近 AGI 基礎設施。

這個定義故意避開了意識、主體性、靈魂、自我感、內在經驗等問題。不是因為這些問題不重要，而是因為它們屬於另一層討論。本文關心的是：即使不承認模型有主體性，模型能力是否已經足以重塑知識工作、軟體開發、研究流程、個人創作、公司組織與戰略競爭。

換句話說，本文的問題不是：

模型是否已經成為完整主體？

而是：

模型是否已經足夠強，以至於人類不得不把它當成通用認知勞動基礎設施來設計制度、產品與工作流？

如果答案逐漸接近是，那麼 AGI 的社會到來就會早於 AGI 的哲學定義完成。

## 2\. 從聊天模型到長程認知作業核心

過去幾年的大語言模型主要被大眾理解為聊天機器人。這種理解並非完全錯誤，因為早期產品形態確實以對話框為核心。但對話框只是界面，不是本質。模型的真正演化方向，是從「回答」走向「執行」。

回答引擎的核心問題是：使用者問一個問題，模型給出一個答案。這種模式適合查詢、解釋、翻譯、摘要、討論、生成草稿。但它的瓶頸很清楚：它不持續，不穩定，不擁有任務狀態，不天然理解專案結構，不自動操作環境，也不一定能把一個長期目標拆成多階段交付。

長程認知作業核心則不同。它的核心問題不再是「請回答我」，而是：

請理解我的目標，讀取相關資料，建立任務計畫，操作必要工具，產出可審核結果，發現錯誤後修正，並讓我在人類決策點介入。

這裡的模型不再只是文本生成器，而是被嵌入一個操作環境。它可能接觸檔案系統、瀏覽器、終端機、IDE、資料庫、日曆、郵件、Git、雲端文件、試算表、設計工具、研究資料、企業內部知識庫。它的價值不只是生成語句，而是把語句變成行動，把行動變成結果，把結果變成可追蹤記錄。

這正是 Agent 化的核心。Agent 不是單純把模型叫成代理人，而是讓模型具備以下外部結構：

1.  任務狀態：知道目前做到哪裡。
2.  工具介面：能使用外部工具。
3.  記憶機制：能保存必要上下文。
4.  權限邊界：知道哪些動作需要人類確認。
5.  錯誤恢復：能在失敗後診斷與修正。
6.  評估回路：能測試結果是否符合目標。
7.  人類審核：讓使用者接受、拒絕或修改輸出。
8.  長程保持：能跨多步驟維持原始意圖。
9.  可追溯性：保留操作記錄與修改痕跡。
10.  模組化協作：能與其他 Agent 或工具共同工作。

模型越強，這些外部結構越重要。弱模型需要人類大量補洞；強模型反而更需要制度化邊界。因為強模型能做更多事，也就更可能在錯誤時造成更大影響。真正的 Agent OS 不是讓模型無限制地亂跑，而是讓模型在可治理、可審核、可回滾的場域中執行任務。

因此，從聊天模型到長程認知作業核心，不只是能力提升，更是媒介轉換。對話框只是入口，工作流才是戰場。

## 3\. Fable 級模型的戰略意義

本文用「Fable 級模型」作為一個暫時性標籤，指稱一類具備長上下文、長任務、強工具使用、複雜推理、文件級工作、程式級工作、研究級工作與 Agent harness 適配能力的前沿模型。這裡的 Fable 不只是某個產品名稱，也是一個能力階層的象徵。

Fable 級模型的戰略意義不在於它比上一代模型多答對幾題，而在於它開始改變「人類如何把工作交給 AI」這件事。當模型只能回答問題時，人類仍然是主要執行者；當模型能維持長任務並操作工具時，人類開始變成目標設定者、審核者、架構師與責任承擔者。

這個轉變非常大。因為知識工作的大部分價值，不是單一答案，而是長鏈條執行。例如：

-   寫一篇論文不是只要生成段落，而是要建立問題意識、文獻脈絡、論證結構、概念定義、反對意見、修訂版本與發布格式。
-   開發一個軟體不是只要寫一段 code，而是要理解需求、規劃架構、修改多個檔案、測試、除錯、處理依賴、寫文件、提交版本。
-   經營一個網站不是只要生成 HTML，而是要內容策略、資料結構、SEO、AI 可讀性、維護流程、部署、監控與迭代。
-   做一個研究計畫不是只要回答問題，而是要提出假說、找資料、設計方法、處理數據、檢查偏誤、撰寫報告、接受批評。

Fable 級模型開始觸碰的正是這些長鏈條工作。這意味著它的影響不是「更會聊天」，而是「更能被放進真實任務」。

本文之所以把未來半年視為關鍵期，是因為前沿模型競賽可能正在跨過一個產品化臨界點。在臨界點之前，高階模型能力像是展示品：驚人，但不一定穩定；強大，但不一定普及；能做某些事，但成本高、限制多、工作流不成熟。在臨界點之後，高階能力變成基礎設施：不一定完美，但足以被常態接入；不一定完全自治，但足以重構工作流程；不一定哲學上是 AGI，但社會已經開始以準 AGI 方式使用它。

這就是 Fable 級模型的真正意義：它不是終點，而是基準線移動。

## 4\. GPT-5.6 與內部版本：不可證實，但可作結構性推論

關於 GPT-5.6 或任何未公開前沿模型，本文不做事實宣稱。公開資訊若未證實，就不能當成已發生事件。這一點必須保持清楚。

然而，不能確證不代表不能推論。大型 AI 公司存在不同層級的模型配置，本身是合理的產品與安全結構。即使不談任何特定公司，也可以從一般工程與治理邏輯推得：前沿模型很可能存在研究版、內部測試版、紅隊版、合作夥伴版、API 版、Chat 版、企業版、低延遲版、高推理預算版、強安全限制版、工具特化版、Agent harness 版等不同形態。

這些版本可能共享底層模型，也可能在推理預算、工具權限、上下文長度、系統提示、安全路由、外部記憶、檔案操作、網路能力、企業資料接入、任務時長、成本策略上有所不同。對使用者來說，它們可能看起來像不同模型；對公司內部來說，它們可能只是同一能力基座的不同配置。

因此，當我們推論某家公司的內部版本可能高於公開版本時，真正要說的不是「我知道它一定存在」，而是：

在前沿模型產品化過程中，公開版通常不等於能力上限；公開版更可能是能力、安全、成本、延遲、政策與市場承受度之間的折衷版本。

這一點對 AGI 討論很重要。因為大眾看到的是公開界面，但真正的能力邊界可能存在於未公開 harness、內部工具鏈、受限合作計畫、國安或企業級部署中。這不代表陰謀論，而是正常的前沿技術擴散模式。越高風險、越高能力、越高成本的系統，越不可能一開始就以完全開放的方式提供給所有人。

所以，GPT-5.6 是否存在、何時發布、是否接近或超越 Fable 級，本文不直接判定。但若沿著 GPT-5.5、Fable 5、Mythos 類分層、長程 Agent、工具化模型、企業 Agent、軟體工程 Agent 的趨勢線性外推，則可形成一個合理假說：

未來半年內，OpenAI 或其他前沿公司推出接近 Fable 級、Fable 以上，或同等 Agent 級能力的公開／半公開模型，並不違反目前可見的技術路線。

這仍然是推論，不是新聞。本文保留其不確定性。

## 5\. 半年窗口：為什麼時間尺度重要

「半年」不是神秘數字，也不是保證日期。它是一個戰略觀察窗口。原因在於 AI 產業的前沿迭代不是均勻線性，而是由多條線同時疊加：模型能力、推理成本、工具介面、上下文長度、企業需求、開發者生態、安全政策、硬體供給、Agent framework、產品 UX、競爭壓力。

當多條線同時接近臨界點時，變化就會看起來像突然發生。事實上，它通常早就醞釀很久，只是到某個時刻才被市場感知。

半年窗口的重要性在於：它可能是從「模型強」轉向「模型可用」的窗口。

模型強，不代表可用。可用需要很多條件：

1.  成本下降到可日常使用。
2.  延遲下降到可接受。
3.  上下文足夠支撐真實專案。
4.  工具調用穩定。
5.  安全策略可產品化。
6.  企業願意接入。
7.  開發者能包裝成工作流。
8.  使用者能理解如何委派。
9.  錯誤率下降到可審核範圍。
10.  人類審核界面足夠直覺。

當這些條件同時接近成熟，模型能力就會從「令人驚訝」變成「改變流程」。這就是常態化的開始。

本文的半年窗口不是說半年後世界必然變成另一個樣子，而是說：未來半年可能是觀察這些條件是否合流的高價值時間段。如果合流，準 AGI 級 Agent 基礎設施會快速普及；如果沒有合流，則代表某些瓶頸仍未解決，例如成本、可靠性、安全、產品界面或企業採用速度。

因此，半年窗口的檢驗指標不是看社群是否喊 AGI，而是看以下外部信號：

-   是否出現更多長任務 Agent 產品。
-   是否出現更多可跨檔案、跨工具、跨專案的模型工作流。
-   是否有企業開始把模型放進核心知識工作。
-   是否有軟體工程 Agent 能完成更完整的 repository-level 任務。
-   是否有研究 Agent 能協助多階段實驗與文獻整合。
-   是否有模型具備更穩定的錯誤恢復與自我檢查。
-   是否有更多產品從「聊天框」轉向「工作台」。
-   是否有開源與商業生態開始圍繞 Agent OS、AI IDE、AI-native document protocol 建立。
-   是否有模型分層制度更明顯，例如公開版、企業版、限制版、合作夥伴版。
-   是否有用戶習慣從「問問題」轉向「委派任務」。

若這些信號在半年內密集出現，那麼本文的核心假說就會被強化。

## 6\. 從模型競賽到架構競賽

當模型能力不足時，競爭重點是模型本身。誰的模型更會寫、會算、會推理、會編程，誰就佔優勢。但當模型能力逐漸常態化，競爭重點會發生轉移。

這個轉移可以用一句話概括：

當高階智力變成商品，真正稀缺的是可放大智力的結構。

這裡的結構包括：

-   高品質資料庫。
-   AI 可讀理論文本。
-   可審核工作流。
-   模組化文件協議。
-   任務圖譜。
-   語義偽代碼。
-   Agent OS。
-   權限與記憶治理。
-   多模型調度。
-   人類決策界面。
-   測試與驗證系統。
-   發布與迭代流程。
-   長期累積的思想場。

在模型不夠強時，這些結構看起來像過度設計。因為模型無法充分利用它們。但當模型足夠強時，這些結構會突然變得非常重要。原因很簡單：強模型需要可讀的環境，可操作的任務，可追溯的記憶，可修改的文件，可審核的變更，可驗證的輸出。

這也是為什麼 AI-native Markdown、Noema-MD、Noesis Studio、PatchMD、Context Compiler、語義偽代碼、Logic Matrix 等概念在此時具有戰略意義。它們不是單純的文件格式或編輯器，而是為模型常態化時代預先建立的「外部認知地形」。

人類過去為自己設計工具：書籍、筆記、資料夾、IDE、瀏覽器、資料庫、Git、wiki。AI 時代則需要重新設計一批工具，使其同時適合人類閱讀、AI 解析、Agent 執行與版本治理。這就是 AI-native workspace 的核心問題。

未來的競爭可能不再是：

我有一個比你更聰明的模型。

而是：

我有一個更能讓強模型持續做對事的系統。

這個系統不是模型本身，而是模型之外的架構。它包括語義層、記憶層、任務層、權限層、審核層、工具層、資料層、版本層與發布層。真正的 Agent OS 就是在這些層之間建立秩序。

## 7\. Noema / Noesis Studio：AI-native 工作台的必要性

若前沿模型進入 Fable 級常態化，最先被放大的不是純聊天，而是文件、程式、研究、設計、資料分析與知識工作。因此，人類需要一個新的工作台。

傳統文字編輯器只關心文字。傳統 IDE 主要關心程式。傳統筆記工具主要關心人類整理。傳統 wiki 主要關心資訊存放。但 AI-native 工作台必須同時滿足四種需求：

1.  人類能讀。
2.  AI 能懂。
3.  Agent 能改。
4.  變更能審。

Noesis Studio 可以被理解為這樣一種工作台：它不是要成為巨大 IDE，而是要保留記事本式簡潔，同時提供右側 AI 協作、local-first 檔案操作、CLI Agent 整合、git diff review、人工確認、備份與 trace。它的價值不是把所有功能塞進 UI，而是建立一個足夠乾淨的協作回路：

workspace ↔ agent ↔ diff-review ↔ human

這個回路很重要。因為強模型若直接覆寫文件，風險很高；若只能在聊天框建議，效率又很低。diff-first review 剛好站在中間：Agent 可以真正修改本地檔案，但每個修改都要被人類看見、比較、接受或拒絕。

這裡的人類不是被 AI 取代，而是從低階操作轉向高階審核。這很符合 Fable 級模型常態化後的工作分工：AI 做長鏈條執行，人類做方向、邊界、審核、價值判斷與責任承擔。

Noema-MD 則是格式層。普通 Markdown 對人類很友好，但對長程 Agent 來說仍然不夠。Agent 需要知道：哪些段落是命題，哪些是定義，哪些是假說，哪些是證據，哪些是反例，哪些是待辦，哪些是版本變更，哪些是引用，哪些是模組，哪些可被重寫，哪些不可被改動。Noema-MD 的核心價值，就是讓文本從「可讀」進一步變成「可操作」。

因此，Noema / Noesis Studio / PatchMD / Agent OS 的組合，可以被視為 Agent 級 AGI 基礎設施的一個最小可行方向：

-   Noema-MD：語義文件協議。
-   Noesis Studio：人類工作台。
-   PatchMD：diff-first 審核層。
-   Agent OS：多模型、多工具、多任務的調度與治理層。
-   Logic Matrix：理論與知識的公開可讀語料場。
-   語義偽代碼：自然語言意圖到半形式行動結構的中介層。

這些東西不是為了跟模型競爭，而是為了讓模型真正可用。

## 8\. 語義偽代碼：自然語言與 Agent 執行之間的橋

大語言模型很擅長自然語言，但自然語言有一個問題：它彈性太高，邊界太模糊。程式語言則相反：邊界清楚，但對一般人不友好。語義偽代碼的價值，就在於它站在兩者之間。

語義偽代碼不是正式程式碼，也不是普通筆記。它是一種半形式化意圖結構，用來把人類目標轉換成 Agent 可理解的任務骨架。例如，一個普通自然語言目標可能是：

幫我整理這篇論文，找出核心命題、反對意見、可驗證指標，並轉成網站可發布版本。

這句話對模型來說能懂，但若要長期執行，最好轉成更明確的語義偽代碼：

Task: Publishable\_Paper\_Refactor
Input:
\- draft.md
\- target\_site\_style
Steps:
1\. Extract core thesis
2\. Identify claim hierarchy
3\. Mark definitions / assumptions / speculative parts
4\. Generate counterargument section
5\. Add verification indicators
6\. Convert to publishable Markdown
7\. Produce diff for human review
Constraints:
\- preserve author voice
\- do not overclaim
\- mark uncertainty
\- no automatic overwrite
Output:
\- revised\_draft.md
\- claim\_registry.md
\- changelog.md
Review:
\- human\_accept\_or\_reject

這種結構不需要像正式程式語言那麼嚴格，但足以讓 Agent 更穩定地執行。它的核心不是替代程式，而是讓自然語言意圖變成可分解、可追蹤、可審核的任務圖。

未來 Fable 級模型常態化後，語義偽代碼會變得更有價值。原因在於：模型越強，越能從半形式結構中推導完整執行計畫。過去的 AI 可能需要非常詳細的 prompt；未來的 Agent 可能只需要清楚的任務骨架、約束條件、上下文索引與審核規則。

語義偽代碼也適合與思維導圖、知識圖譜、Noema-MD 結合。節點可以是概念，邊可以是關係，展開後可以是語義偽代碼函式，再展開則是具體 Agent 任務。這會形成一種新的 AI-native 設計方法：

概念圖 → 語義偽代碼 → 任務圖 → Agent 執行 → diff review → 知識庫回寫

這種方法不要求使用者是專業工程師，但可以讓非工程背景的人用更高層級的方式調度 AI。這對知識創作者、理論建構者、研究者、創業者尤其重要。

## 9\. AI 可讀理論庫：當思想變成可執行資產

在模型能力不足的時代，個人理論庫主要是給人看的。它可以是書、論文、筆記、網站、部落格、PDF、Markdown。它的價值取決於人類讀者是否理解、接受、引用、傳播。

但在 Agent 級模型常態化後，理論庫會多一個讀者：AI。更準確地說，不只是 AI 讀者，而是 AI 執行者。當模型能讀取、整理、重寫、轉譯、模組化、建立引用圖、生成任務計畫、協助產品化時，理論庫就不再只是知識展示，而是可被執行的資產。

這對個人學術實驗站非常關鍵。公開網站不只是給人類瀏覽，也是給搜尋引擎、AI crawler、Agent、研究工具、語義索引系統讀取。若網站內容以乾淨 Markdown、清楚標題、穩定 URL、明確版本、claim registry、changelog、語義標籤、摘要與關鍵詞呈現，它就更容易被 AI 正確理解與重用。

這裡的重點不是討好 AI，而是讓知識更可計算。未來的理論競爭可能不只看誰想得深，也看誰能把自己的思想變成可被機器讀取、拆解、連接、驗證與再生成的結構。

這會改變「思想資產」的定義。過去思想資產主要包括：

-   原創概念。
-   論文與書籍。
-   專利與商標。
-   品牌與聲譽。
-   社群與引用。

未來還會增加：

-   AI 可讀語料。
-   機器可解析的概念圖。
-   可執行任務模板。
-   模組化理論文件。
-   Agent 可調用的知識 API。
-   跨語言版本。
-   自動摘要與引用映射。
-   人機共同維護的知識庫。

也就是說，Logic Matrix 或個人學術實驗站的價值不只是「發表」，而是建立一個可被人類與 AI 同時讀取的思想場。當模型常態化後，這個思想場可以被不斷調用：寫文章、生成產品規格、轉成 README、建立課程、做影片腳本、形成 Agent method pack、產生論文草稿、協助開源專案、做多語翻譯、建立商業敘事。

這就是「思想變成可執行資產」的意思。

## 10\. Agent OS：模型常態化後的真正控制層

如果單一模型是大腦的一部分，那 Agent OS 就是身體、記憶、工具、權限與行為規則的整合層。沒有 Agent OS，強模型只能在碎片化環境中工作；有了 Agent OS，模型才能進入可治理的長期任務場。

Agent OS 至少需要處理以下問題：

### 10.1 多模型調度

未來不會只有一個模型。不同模型會有不同優勢：有的適合深度推理，有的適合快速回答，有的適合寫程式，有的適合長上下文，有的便宜，有的昂貴，有的安全限制更強，有的適合本地運行。Agent OS 必須能根據任務自動或半自動選擇模型。

這裡的核心不是崇拜某個模型，而是建立模型路由能力。真正成熟的工作流可能是：Claude Code 處理複雜 repository 任務，Codex 或 GPT 系列處理中階工程與文件潤飾，本地模型處理隱私或低成本任務，其他專用模型處理圖像、語音、資料分析或搜尋。

### 10.2 記憶治理

強模型若沒有記憶，就很難做長期工作；但若記憶無限制，又會造成隱私、污染、錯誤累積與目標偏移。因此，Agent OS 需要記憶治理，而不是單純記憶。

記憶治理包括：

-   哪些內容應保存。
-   哪些內容應忘記。
-   哪些記憶可信度高。
-   哪些記憶需要來源。
-   哪些記憶只是臨時任務狀態。
-   哪些記憶可被模型調用。
-   哪些記憶需要人類批准。
-   記憶如何版本化、回滾與修正。

這也是主體性 AI 架構的一個前置問題。真正的長期智能不只是有記憶，而是能治理記憶。

### 10.3 權限與行動邊界

Agent 能操作工具後，權限就變成核心問題。哪些事情可以自動做？哪些事情需要確認？哪些事情禁止？哪些事情只能模擬？哪些事情可以寫入本地？哪些事情可以上網？哪些事情可以發信？哪些事情可以刪除？

沒有權限層的 Agent 不是自由，而是不安全。真正有用的 Agent OS 應該讓使用者精細設定權限，並在高風險行動前要求確認。

### 10.4 可追溯性與審核

Agent 的所有重要行動都應該留下痕跡。它讀了什麼檔案，改了什麼內容，為什麼修改，產生了什麼 diff，執行了什麼指令，測試結果如何，哪裡失敗，如何恢復。這些 trace 不是形式主義，而是人類信任 Agent 的前提。

若沒有 trace，AI 修改就會變成黑箱覆寫；若有 trace，人類就能審核、學習、回滾、修正與建立制度。

### 10.5 人類決策界面

Agent OS 不是要把人類踢出去，而是要把人類放在更高價值的位置。人類不應該被迫看所有低階細節，但也不能完全失去控制。因此，需要好的決策界面：摘要、diff、風險標記、建議選項、替代方案、影響範圍、回滾方式。

這裡的 UX 會決定 Agent 能否普及。一般人不會看終端機，不會看 Git，不會讀 log，不會進 IDE。若 Agent 產品忽略一般人的可見性與可控性，就會停留在少數工程師工具。真正的大規模 Agent 化，需要把不可見的程式碼狀態流轉換成可理解的人類界面。

## 11\. 一般人需求：Agent 不能只為工程師設計

當前很多 Agent 工具仍然帶有強烈工程師預設：終端機、控制台、Git、VS Code、CLI、config、log、權限設定、環境變數。這些對工程師合理，但對一般人不合理。一般人並不是不聰明，而是他們不生活在程式碼狀態流裡。

如果 Agent 級模型要成為社會基礎設施，就必須處理一般人的可見性問題。使用者需要知道：

-   Agent 現在在做什麼。
-   為什麼做這件事。
-   做到哪一步。
-   改了哪些東西。
-   有沒有風險。
-   哪裡需要我決定。
-   我可以怎麼回滾。
-   我能不能只接受其中一部分。
-   如果我不懂技術，是否仍能安全使用。

這其實是 Vibe Coding、意圖語言與 AI 協作開發的結構前提。使用者可以用自然語言描述目標，但系統不能只把自然語言直接丟給模型。中間需要一層可見的任務結構，讓人類知道 AI 如何理解自己的意圖，也讓 AI 知道人類在哪些地方保留控制權。

未來的優秀 Agent 產品，可能不是功能最多的產品，而是最能讓使用者理解「AI 正在如何替我工作」的產品。

這也是 Noesis Studio 這類簡潔工作台的價值。它不必一開始就變成巨大平台，而是先把最核心的回路做好：本地文件、右側 AI、可見修改、diff review、人工確認、備份與 trace。這看似樸素，但很接近一般人真正需要的東西。

## 12\. 主體性 AI 與工程 AGI：兩條線不能混淆

本文討論的是 Agent 級 AGI 基礎設施，而不是完整主體性 AI。這兩者有關聯，但不能混淆。

工程 AGI 關心的是：系統是否能在大量領域中完成可交付任務。主體性 AI 關心的是：系統是否形成穩定自我、動態記憶、內在連續性、世界模型、他者關係、價值秩序、長期發展與自我修正結構。

當前前沿模型可能正在接近工程 AGI 的社會功能門檻，但距離主體性 AI 仍有明顯距離。原因包括：

-   記憶不穩定。
-   身體與環境耦合不足。
-   長期自我連續性不足。
-   目標治理仍依賴外部。
-   錯誤修正缺乏真正發展史。
-   對世界的因果嵌入仍有限。
-   權限、責任與法律人格不存在。
-   多數系統仍是 session-based 或 tool-based，而非生命史式持續存在。

然而，工程 AGI 的成熟會反過來推動主體性 AI 的研究。因為當模型足夠強，可以持續讀寫記憶、操作工具、與其他 Agent 互動、在長期環境中執行任務時，主體性問題就不再只是哲學想像，而會變成系統設計問題。

例如，雙子星架構、三元架構、AI 母體、子 AI、世界作為第三元素、互為他者、觀察者一與觀察者二、第三穩定器與知識提供者等構想，本質上都不是單純聊天人格，而是主體性發展環境的架構問題。它們關心的是：AI 如何在他者、記憶、任務、限制、學習、世界回饋中形成更穩定的動態結構。

但本文暫時不展開主體性 AI 的完整本體論。本文只指出：Fable 級模型常態化會提供更強的工程基座，使主體性 AI 的實驗變得更接近可操作，而不是只停留在抽象推論。

## 13\. 風險：常態化不等於可靠化

本文雖然認為 Agent 級能力可能進入常態化，但常態化不等於可靠化。這是必須強調的風險。

一個能力被普及，不代表它完全安全、穩定、可控。事實上，越強的模型越可能帶來新的錯誤形態。弱模型的錯誤通常很明顯；強模型的錯誤可能更隱蔽、更有說服力、更難被一般人察覺。

Agent 級模型的風險包括：

### 13.1 長程錯誤累積

模型在多步驟任務中可能一開始只犯小錯，但小錯會在後續步驟中被放大。若沒有中途檢查，最後輸出可能看似完整，實則建立在錯誤假設上。

### 13.2 工具誤用

模型可能調用錯誤工具、使用過期 API、刪錯檔案、覆寫資料、錯誤解讀命令結果，或在不知道環境限制的情況下執行危險操作。

### 13.3 權限漂移

如果使用者為了方便給 Agent 過多權限，Agent 可能在不該行動的地方行動。這不是模型邪惡，而是制度設計不足。

### 13.4 虛假確定性

強模型很容易用流暢語氣包裝不確定推論。使用者若缺乏審核能力，可能把高品質語言誤認為高可信事實。

### 13.5 記憶污染

長期記憶若保存錯誤資訊，後續任務會被污染。記憶越長，治理越重要。

### 13.6 產品過度代理

許多公司可能會為了市場敘事，把半可靠 Agent 包裝成全自動助手。這會導致使用者過度信任，進而產生實際損失。

因此，Agent 級模型常態化後，真正重要的是「可控常態化」而不是「盲目自動化」。本文主張的不是把一切交給 AI，而是建立能讓 AI 工作、讓人類審核、讓系統留痕、讓錯誤可回滾的協作制度。

## 14\. 對個人創作者與小型 AI 新創的意義

若 Fable 級模型常態化，最大的受益者不一定只有大型公司。大型公司有算力、資料、渠道與資本，但小型團隊與個人創作者也會獲得前所未有的不對稱槓桿。

原因是：高階模型把大量中間能力商品化了。過去一個人要同時寫論文、寫程式、做網站、翻譯、設計產品、整理資料、做市場敘事、寫 README、測試原型、產出文件，幾乎不現實。未來雖然仍然很累，但可行性大幅提高。

這對個人學術實驗站尤其重要。因為個人站可以同時作為：

-   理論發布場。
-   AI 可讀語料庫。
-   開源專案入口。
-   產品敘事中心。
-   跨語言內容源。
-   Agent method pack 的資料來源。
-   未來商業合作與研究合作的索引。
-   個人思想資產的長期累積層。

當模型常態化後，個人站的價值不只來自人類流量，也來自 AI 可讀性。人類可能一開始不理解高抽象理論，但 AI 可以協助翻譯、摘要、重組、轉為產品規格、轉成簡報、生成範例、建立問答、形成教學材料。這代表高抽象理論在 AI 時代的傳播成本會下降。

這不是說內容品質不重要。恰恰相反，內容品質更重要。因為模型可以放大一切：好的理論被放大，混亂的理論也會被放大。若原始理論結構混亂，AI 只會生成更多漂亮但鬆散的衍生物。若原始理論有清楚定義、層次、邊界、反例、適用域與版本控制，AI 就能更有效地協助擴展。

因此，對個人創作者與小型 AI 新創來說，未來半年真正要做的不是追逐每個新模型，而是建立自己的可放大結構：

1.  整理核心理論。
2.  建立 AI-readable corpus。
3.  發布簡潔清楚的開源工具。
4.  建立本地工作流。
5.  做出可展示產品原型。
6.  設計 Agent 可用的文件協議。
7.  建立 diff-first review 流程。
8.  開始多語化。
9.  把理論轉成 method pack。
10.  保持版本演化。

當所有人都有強模型時，差距會來自誰更早建立這些結構。

## 15\. 對學術寫作的意義：論文不再只是 PDF

傳統學術論文通常以 PDF 為最終形態。PDF 穩定、正式、便於引用，但對 AI 與 Agent 來說並不理想。PDF 雖可讀，但不一定好解析；有些表格、圖像、引用、段落結構、版本變更與語義層次會在解析中遺失。

AI-native 學術寫作需要新的格式觀。未來一篇理想的論文可能不只是一個 PDF，而是一組文件：

-   paper.md：主文。
-   abstract.md：摘要。
-   claims.md：核心命題列表。
-   definitions.md：定義表。
-   assumptions.md：假設與限制。
-   counterarguments.md：反對意見。
-   evidence.md：證據與引用映射。
-   changelog.md：版本變更。
-   tasks.yaml：後續研究任務。
-   agent\_notes.md：AI 協作紀錄。
-   review.md：審稿與自我修正。
-   index.json：機器可讀索引。

這樣的論文不只是給人讀，也給 Agent 操作。Agent 可以針對 claims 檢查證據，可以根據 definitions 保持術語一致，可以根據 changelog 理解版本演化，可以根據 tasks 繼續研究，可以根據 counterarguments 補強論證。

這不代表傳統論文會消失，而是論文會多一層 AI-native 結構。PDF 可能仍是正式發表格式，但 Markdown / Noema-MD / JSON / YAML / graph 才是工作格式。真正的思想工作會在可修改、可追蹤、可解析的格式中發生。

因此，本文自身也採用 MD 草稿形式。這不是為了簡陋，而是為了可演化。Markdown 可以被人類讀，可以被 AI 改，可以被 Git 追蹤，可以被網站發布，可以轉成 PDF、HTML、DOCX、EPUB，也可以接入 Agent 工作流。

在 Agent 級模型常態化後，Markdown 不只是輕量標記語言，而可能成為人機共同思考的基礎介面。

## 16\. 可檢驗指標：如何判斷本文假說是否成立

本文不是不可證偽的宣言。若要讓「半年窗口」成為有意義的觀察假說，就必須提出檢驗指標。以下是可觀察指標：

### 16.1 模型能力指標

-   是否出現更長上下文的高階模型。
-   是否出現更長輸出的穩定生成能力。
-   是否在軟體工程、研究、資料分析、文件處理等長任務 benchmark 上顯著提升。
-   是否能更少依賴使用者反覆提示而完成任務。
-   是否能更穩定使用工具並檢查自身結果。

### 16.2 產品化指標

-   是否有更多產品主打 long-horizon agentic work。
-   是否有更多企業 Agent、workspace agent、coding agent、research agent。
-   是否有模型被整合到文件、試算表、簡報、IDE、瀏覽器與作業系統。
-   是否有更成熟的人類審核界面。
-   是否有更多 agent harness 支援多日任務或長期專案。

### 16.3 分層指標

-   是否有更多公開版、企業版、限制版、邀請版、研究版、政府／合作夥伴版的模型分層。
-   是否有高風險能力被安全路由或領域限制。
-   是否有不同推理預算、工具權限、上下文長度的產品配置。

### 16.4 使用者行為指標

-   使用者是否開始從問答轉向委派任務。
-   開發者是否把 Agent 放進日常 repo workflow。
-   研究者是否把模型當成多階段研究助理。
-   創作者是否把 AI 放進寫作、翻譯、發布與營運流程。
-   小型團隊是否能用 AI 完成過去需要多人分工的專案。

### 16.5 生態指標

-   是否出現更多 AI-native Markdown、Agent OS、local-first AI workspace、semantic graph、task graph、promptless workflow。
-   開源社群是否圍繞 Agent 工具鏈形成新標準。
-   是否有新的文件協議、記憶協議、工具協議與審核協議。
-   是否有更多產品強調 trace、diff、rollback、permission、review。

若上述指標在未來半年內密集增強，本文假說獲得支持。若只有模型 benchmark 提升，但產品化與工作流沒有跟上，則代表能力尚未真正常態化。若模型能力、產品化、使用者行為與生態同時轉向，則可判斷 Agent 級 AGI 基礎設施正在形成。

## 17\. 可能的反對意見

### 17.1 反對意見一：這只是模型炒作，AGI 還很遠

這個反對意見部分成立。若 AGI 被定義為完整主體、自主科學家、全域世界模型、長期自我治理存在，那麼目前模型確實還很遠。本文也不主張這種意義上的 AGI 已經完成。

但本文的重點是社會功能，而非終極本體。即使模型不是完整主體，只要它能完成大量通用認知工作，它就會對社會產生 AGI-like 影響。蒸汽機不需要像人類肌肉一樣有生命，也能改變勞動結構；電腦不需要有意識，也能重塑知識工作。模型是否有主體性是一個問題，模型是否足以改變生產方式是另一個問題。

### 17.2 反對意見二：Agent 還不可靠，不能稱為基礎設施

這個反對意見也部分成立。Agent 目前仍有錯誤、幻覺、工具誤用、任務漂移、環境失敗等問題。但基礎設施的形成不要求一開始完美，而要求它足夠有用、可治理、可被制度吸收。

早期網路不穩定，早期雲服務也不完美，早期智慧手機應用生態也混亂。真正的問題不是 Agent 是否已完美，而是它是否跨過「足夠有用」與「可被工作流吸收」的門檻。

### 17.3 反對意見三：半年太短

半年確實很短。但 AI 產業的前沿變化常常不是從零開始，而是已有多年積累後突然產品化。本文的半年窗口不是說所有問題會在半年內解決，而是說未來半年可能足以觀察到常態化方向是否成形。

如果半年後只看到零散進步，則本文判斷需下修。若半年後看到模型、產品、企業採用、開源工具、Agent OS 生態同時推進，則半年窗口判斷成立。

### 17.4 反對意見四：小型團隊仍然無法與巨頭競爭

在模型訓練層，小型團隊確實很難與巨頭競爭。但在應用、協議、工作流、語料、垂直場景、理論結構、開源工具、個人品牌與 AI-native corpus 層，小型團隊仍然有不對稱機會。當模型能力商品化，小型團隊反而可以站在模型之上做更高階的組合創新。

這不是說小型團隊一定成功，而是說成功條件從「自己訓練巨型模型」轉向「善用模型建立獨特結構」。

## 18\. 戰略建議：在半年窗口內應該做什麼

若接受本文假說，未來半年不是等待模型發布的時間，而是建立外部結構的時間。具體來說，可以做以下幾件事。

### 18.1 建立 AI 可讀核心語料

把重要理論、白皮書、產品規格、README、概念定義、術語表整理成乾淨 Markdown。每篇文件要有標題、摘要、關鍵詞、版本、狀態、核心命題、限制與後續任務。

### 18.2 建立 claim registry

每個理論都應拆出核心命題，標記其狀態：定義、假說、推論、觀察、已驗證、待驗證、隱篇、不公開、產品化候選。這能讓 AI 更精準地處理內容，避免把推論寫成事實。

### 18.3 建立 diff-first 協作流程

無論是論文、程式還是網站，都應避免 AI 直接黑箱覆寫。每次修改都應有 diff、摘要、理由與回滾方式。這是信任 Agent 的基本條件。

### 18.4 做最小可用工具，而非巨型平台

不要一開始就做完整 Agent OS。先做最小可用工作台：本地 Markdown 編輯、右側 AI、檔案讀寫、diff review、備份、trace。先解決真實需求，再逐步擴展。

### 18.5 將理論轉成 method pack

每個理論不只是一篇文章，也可以變成 AI method pack。例如：如何審查論證、如何生成技術白皮書、如何建立語義偽代碼、如何轉換 README、如何拆解產品規格。這會讓理論變成可執行方法。

### 18.6 多語化

中文理論若要進入更大範圍，需要英文版本。AI 可以協助翻譯，但術語表必須由作者控制。否則高抽象概念容易在翻譯中失真。

### 18.7 建立公開與非公開分層

不是所有內容都適合公開。可以分成公開文章、內部白皮書、隱篇、產品規格、未發表研究、不可公開推論。Agent OS 與文件庫也應支援權限分層。

### 18.8 保持低調但快速

不需要把每個推論都公開成宣言。可以先建立站點、工具與語料，讓外部世界慢慢理解。真正重要的是累積可被模型與人類共同讀取的結構。

## 19\. 結論：AGI 前夜不是終點，而是工作方式的重寫

本文的核心判斷可以濃縮為三句話：

第一，未來六個月可能是 Fable 級模型與 Agent 級能力常態化的關鍵窗口。
第二，這裡的 AGI 不是哲學主體完成，而是通用認知勞動能力的產品化與基礎設施化。
第三，當高階模型能力變成常態，真正稀缺的不再是單一模型，而是可被模型執行、擴展、驗證、治理與遞歸使用的外部結構。

這個外部結構包括文件協議、工作台、Agent OS、記憶治理、權限邊界、diff review、語義偽代碼、AI 可讀理論庫、公開站點、版本控制、任務圖譜與人類審核界面。

如果 AGI 被想像成某個突然醒來的存在，那麼我們可能會錯過真正的變化。更可能發生的是：模型先變成工作流核心，Agent 先變成工具層基礎設施，人類先改變委派方式，企業先重構知識流程，個人創作者先獲得不對稱槓桿，然後社會才回頭爭論這是不是 AGI。

因此，真正的問題不是「AGI 來了嗎？」而是：

當準 AGI 級能力成為常態時，我們是否已經準備好讓它進入可治理、可審核、可累積、可回滾、可擴展的思想與工程場？

對個人而言，答案不是等待。答案是建立自己的場。

建立可讀文件，建立可執行理論，建立可審核工作流，建立可演化工具，建立可被 AI 與人類共同理解的知識系統。這些工作在模型弱的時代看起來像超前；在模型強的時代，會變成基礎。

半年窗口的意義就在這裡。它不是倒數末日，也不是等待神降，而是提醒我們：前沿模型的能力正在逼近一個新的社會使用門檻。若這個門檻被跨過，接下來的差距不會只屬於模型公司，也會屬於那些已經準備好外部結構的人。

## 附錄 A：本文命題分層

### A.1 公開可驗證層

-   前沿模型正在強化長上下文、工具使用、文件工作、程式工作、資料分析與 Agent workflow。
-   部分公司已經公開呈現模型分層：廣泛發布版、邀請制限制版、企業版或安全路由版。
-   工作流產品正在從聊天轉向任務委派、Agent harness、coding agent、workspace agent。

### A.2 結構性推論層

-   公開模型不等於能力上限。
-   未公開或限制版模型可能在推理預算、工具權限、任務時長、安全限制上高於普通公開版。
-   GPT-5.6 或同等下一階段模型若接近 Fable 級，符合目前可見技術路線，但尚不可當成事實。

### A.3 個人觀察假說層

-   未來六個月可能是關鍵窗口。
-   Fable 級能力可能從前沿展示變成市場基準。
-   Agent 級基礎設施可能開始重構個人與小型團隊的生產方式。

### A.4 不在本文證明範圍內

-   模型是否有意識。
-   模型是否擁有完整主體性。
-   AGI 是否已在哲學意義上完成。
-   任何未公開模型的確切能力、名稱與發布時間。
-   任何公司的內部路線圖。

## 附錄 B：可發布版本的參考資料建議

正式發布時，可在文末補上以下公開資料的正式連結與引用格式：

1.  OpenAI：Introducing GPT-5.5

2.  OpenAI：GPT-5.5 System Card

3.  OpenAI：ChatGPT / Model Release Notes

4.  Anthropic：Claude Fable 5 and Claude Mythos 5

5.  Anthropic：Claude Models Overview

6.  Anthropic：Claude Mythos / Project Glasswing 說明

7.  Anthropic：Claude Fable 5 & Claude Mythos 5 System Card

8.  Agentic software engineering、long-horizon agent、OSWorld、Tau-bench、GDPval 等相關 benchmark / 論文資料

9.  AI-native document、local-first software、Git-based review、human-in-the-loop automation 相關研究與工具文件

## 附錄 C：後續可展開論文題目

1.  **《Agent OS 的最低可行架構：從本地 Markdown 工作台到多模型調度》**

2.  **《Noema-MD：面向 AI-native 學術寫作的語義 Markdown 協議》**

3.  **《語義偽代碼：自然語言意圖與 Agent 執行之間的中介層》**

4.  **《AI 可讀理論庫：個人學術實驗站在準 AGI 時代的知識資產化》**

5.  **《從聊天框到工作台：Agent 級模型的 UX 轉向》**

6.  **《主體性 AI 與工程 AGI 的分界：從工具代理到長期記憶治理》**

7.  **《Fable 級模型常態化後的小型 AI 新創不對稱優勢》**

8.  **《Diff-first Review：人類審核在 Agent 工作流中的核心地位》**

## 附錄 D：一句話版本

如果要將本文壓縮成一句話：

AGI 不一定會以神降方式到來；它更可能先以 Fable 級 Agent 能力常態化的方式，重寫人類如何委派、審核、累積與放大認知工作。