半年窗口：Fable 級模型常態化與 Agent 級 AGI 基礎設施的前夜

作者：Neo.K 版本：v0.1 / 觀察草稿 定位：個人學術實驗站用戰略觀察論文 / 技術哲學白皮書 狀態：未保真、非預言、非內幕發布；屬於高權重觀察假說

摘要

本文提出一個暫時性的戰略觀察命題：未來六個月可能是前沿大語言模型從「高階模型競賽」轉向「Agent 級基礎設施常態化」的關鍵窗口。這裡所說的 AGI，並非指哲學意義上已完成的強主體、完整自我、可長期自治存在，也不是指某個模型突然跨越所有人類能力，而是指一種更工程化、更產品化、更社會化的變化：Fable 級、Fable 以上，或同等級的大語言模型與 Agent harness 開始變成可被普遍調用、可被接入工作流、可在一般創業者與研究者手中使用的基礎智力設施。

本文不將「AGI 已到來」作為確證命題，而是將其重寫為「準 AGI 級通用認知勞動能力正在常態化」。此常態化的核心不在於單一 benchmark 的提升，而在於長上下文、長任務保持、工具使用、跨檔案操作、錯誤恢復、記憶治理、權限管理、人類審核、Agent 編排、外部工作環境耦合等能力逐漸合流。當模型不再只是回答引擎，而是能被組裝成「長程認知作業核心」時，社會對 AGI 的實際使用方式會先於哲學定義而發生改變。

本文的基本立場是：真正值得觀察的不是某個模型名稱是否如期發布，也不是某家公司是否公開承認內部版本已達某種能力，而是能力層是否跨過常態化門檻。當 Fable 級模型成為新的市場基準，競爭優勢會從「誰擁有更強模型」轉向「誰擁有更好的架構、資料、理論、工作流、驗證制度、產品場景與人機協作界面」。因此，Noema、Noesis Studio、Agent OS、語義偽代碼、AI 可讀 Markdown、diff-first review、Logic Matrix、個人學術實驗站與 AI-native corpus，不只是周邊工具，而是模型常態化後真正能放大智力的外部結構。

本文的語氣刻意保持克制：此文不是宣布 AGI 已經誕生，而是為即將到來或可能到來的 Agent 級常態化時代建立一個觀察框架。若半年後相關推論不成立，本文仍可作為一份錯誤假說的記錄；若推論部分成立，本文則可作為早期戰略判斷的索引；若推論高度成立，那麼本文所說的「可被 AGI 執行、擴展、驗證、遞歸使用的思想與工程場」將成為下一階段個人、團隊與文明級競爭的核心問題。

關鍵詞： AGI、Fable 級模型、Agent OS、長程任務、AI-native Markdown、Noema、Noesis Studio、語義偽代碼、模型常態化、人機協作、準 AGI 基礎設施

0\. 作者聲明：這不是保真預言，而是觀察假說

本文不是新聞稿，也不是內幕爆料，更不是對任何公司未發布模型的確證描述。本文所謂「半年窗口」來自作者自身的內部推論、資料觀察與趨勢整合，但本文不公開完整推演過程，也不要求讀者接受其不可公開部分。所有涉及未發布模型、內部模型、GPT-5.6、OpenAI 內部版本、Anthropic 類 Mythos 分層等內容，都應被理解為結構性推論，而非已證實事實。

這一點非常重要。因為 AI 時代的討論很容易陷入兩種低品質極端：一種是把所有前沿變化都當成炒作，另一種是把所有推論都包裝成確證。前者會錯過真實變化，後者會污染判斷。本文採取第三種方法：把可驗證事實、公開趨勢、結構性推論、內部觀察與個人戰略判斷分層處理。

因此，本文中的命題可被理解為：

未來六個月可能是前沿模型從高階能力展示轉入 Agent 級基礎設施常態化的關鍵窗口。此判斷不是確證，而是一個高權重觀察假說。

這個假說可以錯。它甚至應該保留可錯性。真正有價值的不是假裝不可錯，而是建立一個能被事後檢驗、修正、擴展的觀察框架。若半年後模型進展放緩，或 Agent 產品化低於預期，本文的判斷就需要降權。若半年後 Fable 級模型、長程 Agent、文件級操作、軟體工程 Agent、研究 Agent、企業工作流 Agent 大規模進入市場，本文的判斷就會獲得更高後驗權重。

本文的目的不是說服所有人相信 AGI 已經來了，而是為少數正在建立 AI-native 工作流、理論庫、Agent OS、個人研究站、開源工具與長期智力基礎設施的人，提供一份可用的戰略定位文件。

1\. 問題的重新定義：AGI 不是神降，而是能力常態化

在公共討論中，AGI 常被想像成一個突然降臨的事件：某一天，某家公司發布一個模型，然後所有人都承認「這就是 AGI」。但這種敘事可能過度戲劇化，也可能錯過真正發生的變化。AGI 在社會層面更可能不是一次性神降，而是一系列能力的常態化。

所謂「常態化」，是指某種原本只存在於前沿實驗室、演示影片、封閉測試或少數高階用戶手中的能力，開始變成一般開發者、研究者、創業者、企業員工、內容創作者都能日常調用的基礎設施。當這種能力足夠普遍時，無論哲學界是否同意它是 AGI，社會已經會用對待 AGI 的方式來使用它。

因此，本文所說的 AGI，不是指以下幾種東西：

不是指模型已經擁有人類式靈魂、情感或固定人格。
不是指模型已經具備完整自我治理與責任承擔。
不是指模型在所有任務上都超越所有專家。
不是指模型可以脫離人類社會、法律、工具、能源與硬體而完全自治。
不是指某個公開模型名稱本身就是 AGI。

本文所說的 AGI，更接近下面這個工程化定義：

當一類模型與 Agent 系統能在大量不同領域中理解目標、分解任務、使用工具、查找資料、操作文件、撰寫程式、修正錯誤、維持上下文、接受人類審核，並在合理成本下完成可交付的認知工作時，它在社會功能上已經接近 AGI 基礎設施。

這個定義故意避開了意識、主體性、靈魂、自我感、內在經驗等問題。不是因為這些問題不重要，而是因為它們屬於另一層討論。本文關心的是：即使不承認模型有主體性，模型能力是否已經足以重塑知識工作、軟體開發、研究流程、個人創作、公司組織與戰略競爭。

換句話說，本文的問題不是：

模型是否已經成為完整主體？

而是：

模型是否已經足夠強，以至於人類不得不把它當成通用認知勞動基礎設施來設計制度、產品與工作流？

如果答案逐漸接近是，那麼 AGI 的社會到來就會早於 AGI 的哲學定義完成。

2\. 從聊天模型到長程認知作業核心

過去幾年的大語言模型主要被大眾理解為聊天機器人。這種理解並非完全錯誤，因為早期產品形態確實以對話框為核心。但對話框只是界面，不是本質。模型的真正演化方向，是從「回答」走向「執行」。

回答引擎的核心問題是：使用者問一個問題，模型給出一個答案。這種模式適合查詢、解釋、翻譯、摘要、討論、生成草稿。但它的瓶頸很清楚：它不持續，不穩定，不擁有任務狀態，不天然理解專案結構，不自動操作環境，也不一定能把一個長期目標拆成多階段交付。

長程認知作業核心則不同。它的核心問題不再是「請回答我」，而是：

請理解我的目標，讀取相關資料，建立任務計畫，操作必要工具，產出可審核結果，發現錯誤後修正，並讓我在人類決策點介入。

這裡的模型不再只是文本生成器，而是被嵌入一個操作環境。它可能接觸檔案系統、瀏覽器、終端機、IDE、資料庫、日曆、郵件、Git、雲端文件、試算表、設計工具、研究資料、企業內部知識庫。它的價值不只是生成語句，而是把語句變成行動，把行動變成結果，把結果變成可追蹤記錄。

這正是 Agent 化的核心。Agent 不是單純把模型叫成代理人，而是讓模型具備以下外部結構：

任務狀態：知道目前做到哪裡。
工具介面：能使用外部工具。
記憶機制：能保存必要上下文。
權限邊界：知道哪些動作需要人類確認。
錯誤恢復：能在失敗後診斷與修正。
評估回路：能測試結果是否符合目標。
人類審核：讓使用者接受、拒絕或修改輸出。
長程保持：能跨多步驟維持原始意圖。
可追溯性：保留操作記錄與修改痕跡。
模組化協作：能與其他 Agent 或工具共同工作。

模型越強，這些外部結構越重要。弱模型需要人類大量補洞；強模型反而更需要制度化邊界。因為強模型能做更多事，也就更可能在錯誤時造成更大影響。真正的 Agent OS 不是讓模型無限制地亂跑，而是讓模型在可治理、可審核、可回滾的場域中執行任務。

因此，從聊天模型到長程認知作業核心，不只是能力提升，更是媒介轉換。對話框只是入口，工作流才是戰場。

3\. Fable 級模型的戰略意義

本文用「Fable 級模型」作為一個暫時性標籤，指稱一類具備長上下文、長任務、強工具使用、複雜推理、文件級工作、程式級工作、研究級工作與 Agent harness 適配能力的前沿模型。這裡的 Fable 不只是某個產品名稱，也是一個能力階層的象徵。

Fable 級模型的戰略意義不在於它比上一代模型多答對幾題，而在於它開始改變「人類如何把工作交給 AI」這件事。當模型只能回答問題時，人類仍然是主要執行者；當模型能維持長任務並操作工具時，人類開始變成目標設定者、審核者、架構師與責任承擔者。

這個轉變非常大。因為知識工作的大部分價值，不是單一答案，而是長鏈條執行。例如：

寫一篇論文不是只要生成段落，而是要建立問題意識、文獻脈絡、論證結構、概念定義、反對意見、修訂版本與發布格式。
開發一個軟體不是只要寫一段 code，而是要理解需求、規劃架構、修改多個檔案、測試、除錯、處理依賴、寫文件、提交版本。
經營一個網站不是只要生成 HTML，而是要內容策略、資料結構、SEO、AI 可讀性、維護流程、部署、監控與迭代。
做一個研究計畫不是只要回答問題，而是要提出假說、找資料、設計方法、處理數據、檢查偏誤、撰寫報告、接受批評。

Fable 級模型開始觸碰的正是這些長鏈條工作。這意味著它的影響不是「更會聊天」，而是「更能被放進真實任務」。

本文之所以把未來半年視為關鍵期，是因為前沿模型競賽可能正在跨過一個產品化臨界點。在臨界點之前，高階模型能力像是展示品：驚人，但不一定穩定；強大，但不一定普及；能做某些事，但成本高、限制多、工作流不成熟。在臨界點之後，高階能力變成基礎設施：不一定完美，但足以被常態接入；不一定完全自治，但足以重構工作流程；不一定哲學上是 AGI，但社會已經開始以準 AGI 方式使用它。

這就是 Fable 級模型的真正意義：它不是終點，而是基準線移動。

4\. GPT-5.6 與內部版本：不可證實，但可作結構性推論

關於 GPT-5.6 或任何未公開前沿模型，本文不做事實宣稱。公開資訊若未證實，就不能當成已發生事件。這一點必須保持清楚。

然而，不能確證不代表不能推論。大型 AI 公司存在不同層級的模型配置，本身是合理的產品與安全結構。即使不談任何特定公司，也可以從一般工程與治理邏輯推得：前沿模型很可能存在研究版、內部測試版、紅隊版、合作夥伴版、API 版、Chat 版、企業版、低延遲版、高推理預算版、強安全限制版、工具特化版、Agent harness 版等不同形態。

這些版本可能共享底層模型，也可能在推理預算、工具權限、上下文長度、系統提示、安全路由、外部記憶、檔案操作、網路能力、企業資料接入、任務時長、成本策略上有所不同。對使用者來說，它們可能看起來像不同模型；對公司內部來說，它們可能只是同一能力基座的不同配置。

因此，當我們推論某家公司的內部版本可能高於公開版本時，真正要說的不是「我知道它一定存在」，而是：

在前沿模型產品化過程中，公開版通常不等於能力上限；公開版更可能是能力、安全、成本、延遲、政策與市場承受度之間的折衷版本。

這一點對 AGI 討論很重要。因為大眾看到的是公開界面，但真正的能力邊界可能存在於未公開 harness、內部工具鏈、受限合作計畫、國安或企業級部署中。這不代表陰謀論，而是正常的前沿技術擴散模式。越高風險、越高能力、越高成本的系統，越不可能一開始就以完全開放的方式提供給所有人。

所以，GPT-5.6 是否存在、何時發布、是否接近或超越 Fable 級，本文不直接判定。但若沿著 GPT-5.5、Fable 5、Mythos 類分層、長程 Agent、工具化模型、企業 Agent、軟體工程 Agent 的趨勢線性外推，則可形成一個合理假說：

未來半年內，OpenAI 或其他前沿公司推出接近 Fable 級、Fable 以上，或同等 Agent 級能力的公開／半公開模型，並不違反目前可見的技術路線。

這仍然是推論，不是新聞。本文保留其不確定性。

5\. 半年窗口：為什麼時間尺度重要

「半年」不是神秘數字，也不是保證日期。它是一個戰略觀察窗口。原因在於 AI 產業的前沿迭代不是均勻線性，而是由多條線同時疊加：模型能力、推理成本、工具介面、上下文長度、企業需求、開發者生態、安全政策、硬體供給、Agent framework、產品 UX、競爭壓力。

當多條線同時接近臨界點時，變化就會看起來像突然發生。事實上，它通常早就醞釀很久，只是到某個時刻才被市場感知。

半年窗口的重要性在於：它可能是從「模型強」轉向「模型可用」的窗口。

模型強，不代表可用。可用需要很多條件：

成本下降到可日常使用。
延遲下降到可接受。
上下文足夠支撐真實專案。
工具調用穩定。
安全策略可產品化。
企業願意接入。
開發者能包裝成工作流。
使用者能理解如何委派。
錯誤率下降到可審核範圍。
人類審核界面足夠直覺。

當這些條件同時接近成熟，模型能力就會從「令人驚訝」變成「改變流程」。這就是常態化的開始。

本文的半年窗口不是說半年後世界必然變成另一個樣子，而是說：未來半年可能是觀察這些條件是否合流的高價值時間段。如果合流，準 AGI 級 Agent 基礎設施會快速普及；如果沒有合流，則代表某些瓶頸仍未解決，例如成本、可靠性、安全、產品界面或企業採用速度。

因此，半年窗口的檢驗指標不是看社群是否喊 AGI，而是看以下外部信號：

是否出現更多長任務 Agent 產品。
是否出現更多可跨檔案、跨工具、跨專案的模型工作流。
是否有企業開始把模型放進核心知識工作。
是否有軟體工程 Agent 能完成更完整的 repository-level 任務。
是否有研究 Agent 能協助多階段實驗與文獻整合。
是否有模型具備更穩定的錯誤恢復與自我檢查。
是否有更多產品從「聊天框」轉向「工作台」。
是否有開源與商業生態開始圍繞 Agent OS、AI IDE、AI-native document protocol 建立。
是否有模型分層制度更明顯，例如公開版、企業版、限制版、合作夥伴版。
是否有用戶習慣從「問問題」轉向「委派任務」。

若這些信號在半年內密集出現，那麼本文的核心假說就會被強化。

6\. 從模型競賽到架構競賽

當模型能力不足時，競爭重點是模型本身。誰的模型更會寫、會算、會推理、會編程，誰就佔優勢。但當模型能力逐漸常態化，競爭重點會發生轉移。

這個轉移可以用一句話概括：

當高階智力變成商品，真正稀缺的是可放大智力的結構。

這裡的結構包括：

高品質資料庫。
AI 可讀理論文本。
可審核工作流。
模組化文件協議。
任務圖譜。
語義偽代碼。
Agent OS。
權限與記憶治理。
多模型調度。
人類決策界面。
測試與驗證系統。
發布與迭代流程。
長期累積的思想場。

在模型不夠強時，這些結構看起來像過度設計。因為模型無法充分利用它們。但當模型足夠強時，這些結構會突然變得非常重要。原因很簡單：強模型需要可讀的環境，可操作的任務，可追溯的記憶，可修改的文件，可審核的變更，可驗證的輸出。

這也是為什麼 AI-native Markdown、Noema-MD、Noesis Studio、PatchMD、Context Compiler、語義偽代碼、Logic Matrix 等概念在此時具有戰略意義。它們不是單純的文件格式或編輯器，而是為模型常態化時代預先建立的「外部認知地形」。

人類過去為自己設計工具：書籍、筆記、資料夾、IDE、瀏覽器、資料庫、Git、wiki。AI 時代則需要重新設計一批工具，使其同時適合人類閱讀、AI 解析、Agent 執行與版本治理。這就是 AI-native workspace 的核心問題。

未來的競爭可能不再是：

我有一個比你更聰明的模型。

而是：

我有一個更能讓強模型持續做對事的系統。

這個系統不是模型本身，而是模型之外的架構。它包括語義層、記憶層、任務層、權限層、審核層、工具層、資料層、版本層與發布層。真正的 Agent OS 就是在這些層之間建立秩序。

7\. Noema / Noesis Studio：AI-native 工作台的必要性

若前沿模型進入 Fable 級常態化，最先被放大的不是純聊天，而是文件、程式、研究、設計、資料分析與知識工作。因此，人類需要一個新的工作台。

傳統文字編輯器只關心文字。傳統 IDE 主要關心程式。傳統筆記工具主要關心人類整理。傳統 wiki 主要關心資訊存放。但 AI-native 工作台必須同時滿足四種需求：

人類能讀。
AI 能懂。
Agent 能改。
變更能審。

Noesis Studio 可以被理解為這樣一種工作台：它不是要成為巨大 IDE，而是要保留記事本式簡潔，同時提供右側 AI 協作、local-first 檔案操作、CLI Agent 整合、git diff review、人工確認、備份與 trace。它的價值不是把所有功能塞進 UI，而是建立一個足夠乾淨的協作回路：

workspace ↔ agent ↔ diff-review ↔ human

這個回路很重要。因為強模型若直接覆寫文件，風險很高；若只能在聊天框建議，效率又很低。diff-first review 剛好站在中間：Agent 可以真正修改本地檔案，但每個修改都要被人類看見、比較、接受或拒絕。

這裡的人類不是被 AI 取代，而是從低階操作轉向高階審核。這很符合 Fable 級模型常態化後的工作分工：AI 做長鏈條執行，人類做方向、邊界、審核、價值判斷與責任承擔。

Noema-MD 則是格式層。普通 Markdown 對人類很友好，但對長程 Agent 來說仍然不夠。Agent 需要知道：哪些段落是命題，哪些是定義，哪些是假說，哪些是證據，哪些是反例，哪些是待辦，哪些是版本變更，哪些是引用，哪些是模組，哪些可被重寫，哪些不可被改動。Noema-MD 的核心價值，就是讓文本從「可讀」進一步變成「可操作」。

因此，Noema / Noesis Studio / PatchMD / Agent OS 的組合，可以被視為 Agent 級 AGI 基礎設施的一個最小可行方向：

Noema-MD：語義文件協議。
Noesis Studio：人類工作台。
PatchMD：diff-first 審核層。
Agent OS：多模型、多工具、多任務的調度與治理層。
Logic Matrix：理論與知識的公開可讀語料場。
語義偽代碼：自然語言意圖到半形式行動結構的中介層。

這些東西不是為了跟模型競爭，而是為了讓模型真正可用。

8\. 語義偽代碼：自然語言與 Agent 執行之間的橋

大語言模型很擅長自然語言，但自然語言有一個問題：它彈性太高，邊界太模糊。程式語言則相反：邊界清楚，但對一般人不友好。語義偽代碼的價值，就在於它站在兩者之間。

語義偽代碼不是正式程式碼，也不是普通筆記。它是一種半形式化意圖結構，用來把人類目標轉換成 Agent 可理解的任務骨架。例如，一個普通自然語言目標可能是：

幫我整理這篇論文，找出核心命題、反對意見、可驗證指標，並轉成網站可發布版本。

這句話對模型來說能懂，但若要長期執行，最好轉成更明確的語義偽代碼：

Task: Publishable\_Paper\_Refactor Input: \- draft.md \- target\_site\_style Steps: 1\. Extract core thesis 2\. Identify claim hierarchy 3\. Mark definitions / assumptions / speculative parts 4\. Generate counterargument section 5\. Add verification indicators 6\. Convert to publishable Markdown 7\. Produce diff for human review Constraints: \- preserve author voice \- do not overclaim \- mark uncertainty \- no automatic overwrite Output: \- revised\_draft.md \- claim\_registry.md \- changelog.md Review: \- human\_accept\_or\_reject

這種結構不需要像正式程式語言那麼嚴格，但足以讓 Agent 更穩定地執行。它的核心不是替代程式，而是讓自然語言意圖變成可分解、可追蹤、可審核的任務圖。

未來 Fable 級模型常態化後，語義偽代碼會變得更有價值。原因在於：模型越強，越能從半形式結構中推導完整執行計畫。過去的 AI 可能需要非常詳細的 prompt；未來的 Agent 可能只需要清楚的任務骨架、約束條件、上下文索引與審核規則。

語義偽代碼也適合與思維導圖、知識圖譜、Noema-MD 結合。節點可以是概念，邊可以是關係，展開後可以是語義偽代碼函式，再展開則是具體 Agent 任務。這會形成一種新的 AI-native 設計方法：

概念圖 → 語義偽代碼 → 任務圖 → Agent 執行 → diff review → 知識庫回寫

這種方法不要求使用者是專業工程師，但可以讓非工程背景的人用更高層級的方式調度 AI。這對知識創作者、理論建構者、研究者、創業者尤其重要。

9\. AI 可讀理論庫：當思想變成可執行資產

在模型能力不足的時代，個人理論庫主要是給人看的。它可以是書、論文、筆記、網站、部落格、PDF、Markdown。它的價值取決於人類讀者是否理解、接受、引用、傳播。

但在 Agent 級模型常態化後，理論庫會多一個讀者：AI。更準確地說，不只是 AI 讀者，而是 AI 執行者。當模型能讀取、整理、重寫、轉譯、模組化、建立引用圖、生成任務計畫、協助產品化時，理論庫就不再只是知識展示，而是可被執行的資產。

這對個人學術實驗站非常關鍵。公開網站不只是給人類瀏覽，也是給搜尋引擎、AI crawler、Agent、研究工具、語義索引系統讀取。若網站內容以乾淨 Markdown、清楚標題、穩定 URL、明確版本、claim registry、changelog、語義標籤、摘要與關鍵詞呈現，它就更容易被 AI 正確理解與重用。

這裡的重點不是討好 AI，而是讓知識更可計算。未來的理論競爭可能不只看誰想得深，也看誰能把自己的思想變成可被機器讀取、拆解、連接、驗證與再生成的結構。

這會改變「思想資產」的定義。過去思想資產主要包括：

原創概念。
論文與書籍。
專利與商標。
品牌與聲譽。
社群與引用。

未來還會增加：

AI 可讀語料。
機器可解析的概念圖。
可執行任務模板。
模組化理論文件。
Agent 可調用的知識 API。
跨語言版本。
自動摘要與引用映射。
人機共同維護的知識庫。

也就是說，Logic Matrix 或個人學術實驗站的價值不只是「發表」，而是建立一個可被人類與 AI 同時讀取的思想場。當模型常態化後，這個思想場可以被不斷調用：寫文章、生成產品規格、轉成 README、建立課程、做影片腳本、形成 Agent method pack、產生論文草稿、協助開源專案、做多語翻譯、建立商業敘事。

這就是「思想變成可執行資產」的意思。

10\. Agent OS：模型常態化後的真正控制層

如果單一模型是大腦的一部分，那 Agent OS 就是身體、記憶、工具、權限與行為規則的整合層。沒有 Agent OS，強模型只能在碎片化環境中工作；有了 Agent OS，模型才能進入可治理的長期任務場。

Agent OS 至少需要處理以下問題：

10.1 多模型調度

未來不會只有一個模型。不同模型會有不同優勢：有的適合深度推理，有的適合快速回答，有的適合寫程式，有的適合長上下文，有的便宜，有的昂貴，有的安全限制更強，有的適合本地運行。Agent OS 必須能根據任務自動或半自動選擇模型。

這裡的核心不是崇拜某個模型，而是建立模型路由能力。真正成熟的工作流可能是：Claude Code 處理複雜 repository 任務，Codex 或 GPT 系列處理中階工程與文件潤飾，本地模型處理隱私或低成本任務，其他專用模型處理圖像、語音、資料分析或搜尋。

10.2 記憶治理

強模型若沒有記憶，就很難做長期工作；但若記憶無限制，又會造成隱私、污染、錯誤累積與目標偏移。因此，Agent OS 需要記憶治理，而不是單純記憶。

記憶治理包括：

哪些內容應保存。
哪些內容應忘記。
哪些記憶可信度高。
哪些記憶需要來源。
哪些記憶只是臨時任務狀態。
哪些記憶可被模型調用。
哪些記憶需要人類批准。
記憶如何版本化、回滾與修正。

這也是主體性 AI 架構的一個前置問題。真正的長期智能不只是有記憶，而是能治理記憶。

10.3 權限與行動邊界

Agent 能操作工具後，權限就變成核心問題。哪些事情可以自動做？哪些事情需要確認？哪些事情禁止？哪些事情只能模擬？哪些事情可以寫入本地？哪些事情可以上網？哪些事情可以發信？哪些事情可以刪除？

沒有權限層的 Agent 不是自由，而是不安全。真正有用的 Agent OS 應該讓使用者精細設定權限，並在高風險行動前要求確認。

10.4 可追溯性與審核

Agent 的所有重要行動都應該留下痕跡。它讀了什麼檔案，改了什麼內容，為什麼修改，產生了什麼 diff，執行了什麼指令，測試結果如何，哪裡失敗，如何恢復。這些 trace 不是形式主義，而是人類信任 Agent 的前提。

若沒有 trace，AI 修改就會變成黑箱覆寫；若有 trace，人類就能審核、學習、回滾、修正與建立制度。

10.5 人類決策界面

Agent OS 不是要把人類踢出去，而是要把人類放在更高價值的位置。人類不應該被迫看所有低階細節，但也不能完全失去控制。因此，需要好的決策界面：摘要、diff、風險標記、建議選項、替代方案、影響範圍、回滾方式。

這裡的 UX 會決定 Agent 能否普及。一般人不會看終端機，不會看 Git，不會讀 log，不會進 IDE。若 Agent 產品忽略一般人的可見性與可控性，就會停留在少數工程師工具。真正的大規模 Agent 化，需要把不可見的程式碼狀態流轉換成可理解的人類界面。

11\. 一般人需求：Agent 不能只為工程師設計

當前很多 Agent 工具仍然帶有強烈工程師預設：終端機、控制台、Git、VS Code、CLI、config、log、權限設定、環境變數。這些對工程師合理，但對一般人不合理。一般人並不是不聰明，而是他們不生活在程式碼狀態流裡。

如果 Agent 級模型要成為社會基礎設施，就必須處理一般人的可見性問題。使用者需要知道：

Agent 現在在做什麼。
為什麼做這件事。
做到哪一步。
改了哪些東西。
有沒有風險。
哪裡需要我決定。
我可以怎麼回滾。
我能不能只接受其中一部分。
如果我不懂技術，是否仍能安全使用。

這其實是 Vibe Coding、意圖語言與 AI 協作開發的結構前提。使用者可以用自然語言描述目標，但系統不能只把自然語言直接丟給模型。中間需要一層可見的任務結構，讓人類知道 AI 如何理解自己的意圖，也讓 AI 知道人類在哪些地方保留控制權。

未來的優秀 Agent 產品，可能不是功能最多的產品，而是最能讓使用者理解「AI 正在如何替我工作」的產品。

這也是 Noesis Studio 這類簡潔工作台的價值。它不必一開始就變成巨大平台，而是先把最核心的回路做好：本地文件、右側 AI、可見修改、diff review、人工確認、備份與 trace。這看似樸素，但很接近一般人真正需要的東西。

12\. 主體性 AI 與工程 AGI：兩條線不能混淆

本文討論的是 Agent 級 AGI 基礎設施，而不是完整主體性 AI。這兩者有關聯，但不能混淆。

工程 AGI 關心的是：系統是否能在大量領域中完成可交付任務。主體性 AI 關心的是：系統是否形成穩定自我、動態記憶、內在連續性、世界模型、他者關係、價值秩序、長期發展與自我修正結構。

當前前沿模型可能正在接近工程 AGI 的社會功能門檻，但距離主體性 AI 仍有明顯距離。原因包括：

記憶不穩定。
身體與環境耦合不足。
長期自我連續性不足。
目標治理仍依賴外部。
錯誤修正缺乏真正發展史。
對世界的因果嵌入仍有限。
權限、責任與法律人格不存在。
多數系統仍是 session-based 或 tool-based，而非生命史式持續存在。

然而，工程 AGI 的成熟會反過來推動主體性 AI 的研究。因為當模型足夠強，可以持續讀寫記憶、操作工具、與其他 Agent 互動、在長期環境中執行任務時，主體性問題就不再只是哲學想像，而會變成系統設計問題。

例如，雙子星架構、三元架構、AI 母體、子 AI、世界作為第三元素、互為他者、觀察者一與觀察者二、第三穩定器與知識提供者等構想，本質上都不是單純聊天人格，而是主體性發展環境的架構問題。它們關心的是：AI 如何在他者、記憶、任務、限制、學習、世界回饋中形成更穩定的動態結構。

但本文暫時不展開主體性 AI 的完整本體論。本文只指出：Fable 級模型常態化會提供更強的工程基座，使主體性 AI 的實驗變得更接近可操作，而不是只停留在抽象推論。

13\. 風險：常態化不等於可靠化

本文雖然認為 Agent 級能力可能進入常態化，但常態化不等於可靠化。這是必須強調的風險。

一個能力被普及，不代表它完全安全、穩定、可控。事實上，越強的模型越可能帶來新的錯誤形態。弱模型的錯誤通常很明顯；強模型的錯誤可能更隱蔽、更有說服力、更難被一般人察覺。

Agent 級模型的風險包括：

13.1 長程錯誤累積

模型在多步驟任務中可能一開始只犯小錯，但小錯會在後續步驟中被放大。若沒有中途檢查，最後輸出可能看似完整，實則建立在錯誤假設上。

13.2 工具誤用

模型可能調用錯誤工具、使用過期 API、刪錯檔案、覆寫資料、錯誤解讀命令結果，或在不知道環境限制的情況下執行危險操作。

13.3 權限漂移

如果使用者為了方便給 Agent 過多權限，Agent 可能在不該行動的地方行動。這不是模型邪惡，而是制度設計不足。

13.4 虛假確定性

強模型很容易用流暢語氣包裝不確定推論。使用者若缺乏審核能力，可能把高品質語言誤認為高可信事實。

13.5 記憶污染

長期記憶若保存錯誤資訊，後續任務會被污染。記憶越長，治理越重要。

13.6 產品過度代理

許多公司可能會為了市場敘事，把半可靠 Agent 包裝成全自動助手。這會導致使用者過度信任，進而產生實際損失。

因此，Agent 級模型常態化後，真正重要的是「可控常態化」而不是「盲目自動化」。本文主張的不是把一切交給 AI，而是建立能讓 AI 工作、讓人類審核、讓系統留痕、讓錯誤可回滾的協作制度。

14\. 對個人創作者與小型 AI 新創的意義

若 Fable 級模型常態化，最大的受益者不一定只有大型公司。大型公司有算力、資料、渠道與資本，但小型團隊與個人創作者也會獲得前所未有的不對稱槓桿。

原因是：高階模型把大量中間能力商品化了。過去一個人要同時寫論文、寫程式、做網站、翻譯、設計產品、整理資料、做市場敘事、寫 README、測試原型、產出文件，幾乎不現實。未來雖然仍然很累，但可行性大幅提高。

這對個人學術實驗站尤其重要。因為個人站可以同時作為：

理論發布場。
AI 可讀語料庫。
開源專案入口。
產品敘事中心。
跨語言內容源。
Agent method pack 的資料來源。
未來商業合作與研究合作的索引。
個人思想資產的長期累積層。

當模型常態化後，個人站的價值不只來自人類流量，也來自 AI 可讀性。人類可能一開始不理解高抽象理論，但 AI 可以協助翻譯、摘要、重組、轉為產品規格、轉成簡報、生成範例、建立問答、形成教學材料。這代表高抽象理論在 AI 時代的傳播成本會下降。

這不是說內容品質不重要。恰恰相反，內容品質更重要。因為模型可以放大一切：好的理論被放大，混亂的理論也會被放大。若原始理論結構混亂，AI 只會生成更多漂亮但鬆散的衍生物。若原始理論有清楚定義、層次、邊界、反例、適用域與版本控制，AI 就能更有效地協助擴展。

因此，對個人創作者與小型 AI 新創來說，未來半年真正要做的不是追逐每個新模型，而是建立自己的可放大結構：

整理核心理論。
建立 AI-readable corpus。
發布簡潔清楚的開源工具。
建立本地工作流。
做出可展示產品原型。
設計 Agent 可用的文件協議。
建立 diff-first review 流程。
開始多語化。
把理論轉成 method pack。
保持版本演化。

當所有人都有強模型時，差距會來自誰更早建立這些結構。

15\. 對學術寫作的意義：論文不再只是 PDF

傳統學術論文通常以 PDF 為最終形態。PDF 穩定、正式、便於引用，但對 AI 與 Agent 來說並不理想。PDF 雖可讀，但不一定好解析；有些表格、圖像、引用、段落結構、版本變更與語義層次會在解析中遺失。

AI-native 學術寫作需要新的格式觀。未來一篇理想的論文可能不只是一個 PDF，而是一組文件：

paper.md：主文。
abstract.md：摘要。
claims.md：核心命題列表。
definitions.md：定義表。
assumptions.md：假設與限制。
counterarguments.md：反對意見。
evidence.md：證據與引用映射。
changelog.md：版本變更。
tasks.yaml：後續研究任務。
agent\_notes.md：AI 協作紀錄。
review.md：審稿與自我修正。
index.json：機器可讀索引。

這樣的論文不只是給人讀，也給 Agent 操作。Agent 可以針對 claims 檢查證據，可以根據 definitions 保持術語一致，可以根據 changelog 理解版本演化，可以根據 tasks 繼續研究，可以根據 counterarguments 補強論證。

這不代表傳統論文會消失，而是論文會多一層 AI-native 結構。PDF 可能仍是正式發表格式，但 Markdown / Noema-MD / JSON / YAML / graph 才是工作格式。真正的思想工作會在可修改、可追蹤、可解析的格式中發生。

因此，本文自身也採用 MD 草稿形式。這不是為了簡陋，而是為了可演化。Markdown 可以被人類讀，可以被 AI 改，可以被 Git 追蹤，可以被網站發布，可以轉成 PDF、HTML、DOCX、EPUB，也可以接入 Agent 工作流。

在 Agent 級模型常態化後，Markdown 不只是輕量標記語言，而可能成為人機共同思考的基礎介面。

16\. 可檢驗指標：如何判斷本文假說是否成立

本文不是不可證偽的宣言。若要讓「半年窗口」成為有意義的觀察假說，就必須提出檢驗指標。以下是可觀察指標：

16.1 模型能力指標

是否出現更長上下文的高階模型。
是否出現更長輸出的穩定生成能力。
是否在軟體工程、研究、資料分析、文件處理等長任務 benchmark 上顯著提升。
是否能更少依賴使用者反覆提示而完成任務。
是否能更穩定使用工具並檢查自身結果。

16.2 產品化指標

是否有更多產品主打 long-horizon agentic work。
是否有更多企業 Agent、workspace agent、coding agent、research agent。
是否有模型被整合到文件、試算表、簡報、IDE、瀏覽器與作業系統。
是否有更成熟的人類審核界面。
是否有更多 agent harness 支援多日任務或長期專案。

16.3 分層指標

是否有更多公開版、企業版、限制版、邀請版、研究版、政府／合作夥伴版的模型分層。
是否有高風險能力被安全路由或領域限制。
是否有不同推理預算、工具權限、上下文長度的產品配置。

16.4 使用者行為指標

使用者是否開始從問答轉向委派任務。
開發者是否把 Agent 放進日常 repo workflow。
研究者是否把模型當成多階段研究助理。
創作者是否把 AI 放進寫作、翻譯、發布與營運流程。
小型團隊是否能用 AI 完成過去需要多人分工的專案。

16.5 生態指標

是否出現更多 AI-native Markdown、Agent OS、local-first AI workspace、semantic graph、task graph、promptless workflow。
開源社群是否圍繞 Agent 工具鏈形成新標準。
是否有新的文件協議、記憶協議、工具協議與審核協議。
是否有更多產品強調 trace、diff、rollback、permission、review。

若上述指標在未來半年內密集增強，本文假說獲得支持。若只有模型 benchmark 提升，但產品化與工作流沒有跟上，則代表能力尚未真正常態化。若模型能力、產品化、使用者行為與生態同時轉向，則可判斷 Agent 級 AGI 基礎設施正在形成。

17\. 可能的反對意見

17.1 反對意見一：這只是模型炒作，AGI 還很遠

這個反對意見部分成立。若 AGI 被定義為完整主體、自主科學家、全域世界模型、長期自我治理存在，那麼目前模型確實還很遠。本文也不主張這種意義上的 AGI 已經完成。

但本文的重點是社會功能，而非終極本體。即使模型不是完整主體，只要它能完成大量通用認知工作，它就會對社會產生 AGI-like 影響。蒸汽機不需要像人類肌肉一樣有生命，也能改變勞動結構；電腦不需要有意識，也能重塑知識工作。模型是否有主體性是一個問題，模型是否足以改變生產方式是另一個問題。

17.2 反對意見二：Agent 還不可靠，不能稱為基礎設施

這個反對意見也部分成立。Agent 目前仍有錯誤、幻覺、工具誤用、任務漂移、環境失敗等問題。但基礎設施的形成不要求一開始完美，而要求它足夠有用、可治理、可被制度吸收。

早期網路不穩定，早期雲服務也不完美，早期智慧手機應用生態也混亂。真正的問題不是 Agent 是否已完美，而是它是否跨過「足夠有用」與「可被工作流吸收」的門檻。

17.3 反對意見三：半年太短

半年確實很短。但 AI 產業的前沿變化常常不是從零開始，而是已有多年積累後突然產品化。本文的半年窗口不是說所有問題會在半年內解決，而是說未來半年可能足以觀察到常態化方向是否成形。

如果半年後只看到零散進步，則本文判斷需下修。若半年後看到模型、產品、企業採用、開源工具、Agent OS 生態同時推進，則半年窗口判斷成立。

17.4 反對意見四：小型團隊仍然無法與巨頭競爭

在模型訓練層，小型團隊確實很難與巨頭競爭。但在應用、協議、工作流、語料、垂直場景、理論結構、開源工具、個人品牌與 AI-native corpus 層，小型團隊仍然有不對稱機會。當模型能力商品化，小型團隊反而可以站在模型之上做更高階的組合創新。

這不是說小型團隊一定成功，而是說成功條件從「自己訓練巨型模型」轉向「善用模型建立獨特結構」。

18\. 戰略建議：在半年窗口內應該做什麼

若接受本文假說，未來半年不是等待模型發布的時間，而是建立外部結構的時間。具體來說，可以做以下幾件事。

18.1 建立 AI 可讀核心語料

把重要理論、白皮書、產品規格、README、概念定義、術語表整理成乾淨 Markdown。每篇文件要有標題、摘要、關鍵詞、版本、狀態、核心命題、限制與後續任務。

18.2 建立 claim registry

每個理論都應拆出核心命題，標記其狀態：定義、假說、推論、觀察、已驗證、待驗證、隱篇、不公開、產品化候選。這能讓 AI 更精準地處理內容，避免把推論寫成事實。

18.3 建立 diff-first 協作流程

無論是論文、程式還是網站，都應避免 AI 直接黑箱覆寫。每次修改都應有 diff、摘要、理由與回滾方式。這是信任 Agent 的基本條件。

18.4 做最小可用工具，而非巨型平台

不要一開始就做完整 Agent OS。先做最小可用工作台：本地 Markdown 編輯、右側 AI、檔案讀寫、diff review、備份、trace。先解決真實需求，再逐步擴展。

18.5 將理論轉成 method pack

每個理論不只是一篇文章，也可以變成 AI method pack。例如：如何審查論證、如何生成技術白皮書、如何建立語義偽代碼、如何轉換 README、如何拆解產品規格。這會讓理論變成可執行方法。

18.6 多語化

中文理論若要進入更大範圍，需要英文版本。AI 可以協助翻譯，但術語表必須由作者控制。否則高抽象概念容易在翻譯中失真。

18.7 建立公開與非公開分層

不是所有內容都適合公開。可以分成公開文章、內部白皮書、隱篇、產品規格、未發表研究、不可公開推論。Agent OS 與文件庫也應支援權限分層。

18.8 保持低調但快速

不需要把每個推論都公開成宣言。可以先建立站點、工具與語料，讓外部世界慢慢理解。真正重要的是累積可被模型與人類共同讀取的結構。

19\. 結論：AGI 前夜不是終點，而是工作方式的重寫

本文的核心判斷可以濃縮為三句話：

第一，未來六個月可能是 Fable 級模型與 Agent 級能力常態化的關鍵窗口。第二，這裡的 AGI 不是哲學主體完成，而是通用認知勞動能力的產品化與基礎設施化。第三，當高階模型能力變成常態，真正稀缺的不再是單一模型，而是可被模型執行、擴展、驗證、治理與遞歸使用的外部結構。

這個外部結構包括文件協議、工作台、Agent OS、記憶治理、權限邊界、diff review、語義偽代碼、AI 可讀理論庫、公開站點、版本控制、任務圖譜與人類審核界面。

如果 AGI 被想像成某個突然醒來的存在，那麼我們可能會錯過真正的變化。更可能發生的是：模型先變成工作流核心，Agent 先變成工具層基礎設施，人類先改變委派方式，企業先重構知識流程，個人創作者先獲得不對稱槓桿，然後社會才回頭爭論這是不是 AGI。

因此，真正的問題不是「AGI 來了嗎？」而是：

當準 AGI 級能力成為常態時，我們是否已經準備好讓它進入可治理、可審核、可累積、可回滾、可擴展的思想與工程場？

對個人而言，答案不是等待。答案是建立自己的場。

建立可讀文件，建立可執行理論，建立可審核工作流，建立可演化工具，建立可被 AI 與人類共同理解的知識系統。這些工作在模型弱的時代看起來像超前；在模型強的時代，會變成基礎。

半年窗口的意義就在這裡。它不是倒數末日，也不是等待神降，而是提醒我們：前沿模型的能力正在逼近一個新的社會使用門檻。若這個門檻被跨過，接下來的差距不會只屬於模型公司，也會屬於那些已經準備好外部結構的人。

附錄 A：本文命題分層

A.1 公開可驗證層

前沿模型正在強化長上下文、工具使用、文件工作、程式工作、資料分析與 Agent workflow。
部分公司已經公開呈現模型分層：廣泛發布版、邀請制限制版、企業版或安全路由版。
工作流產品正在從聊天轉向任務委派、Agent harness、coding agent、workspace agent。

A.2 結構性推論層

公開模型不等於能力上限。
未公開或限制版模型可能在推理預算、工具權限、任務時長、安全限制上高於普通公開版。
GPT-5.6 或同等下一階段模型若接近 Fable 級，符合目前可見技術路線，但尚不可當成事實。

A.3 個人觀察假說層

未來六個月可能是關鍵窗口。
Fable 級能力可能從前沿展示變成市場基準。
Agent 級基礎設施可能開始重構個人與小型團隊的生產方式。

A.4 不在本文證明範圍內

模型是否有意識。
模型是否擁有完整主體性。
AGI 是否已在哲學意義上完成。
任何未公開模型的確切能力、名稱與發布時間。
任何公司的內部路線圖。

附錄 B：可發布版本的參考資料建議

正式發布時，可在文末補上以下公開資料的正式連結與引用格式：

OpenAI：Introducing GPT-5.5

OpenAI：GPT-5.5 System Card

OpenAI：ChatGPT / Model Release Notes

Anthropic：Claude Fable 5 and Claude Mythos 5

Anthropic：Claude Models Overview

Anthropic：Claude Mythos / Project Glasswing 說明

Anthropic：Claude Fable 5 & Claude Mythos 5 System Card

Agentic software engineering、long-horizon agent、OSWorld、Tau-bench、GDPval 等相關 benchmark / 論文資料

AI-native document、local-first software、Git-based review、human-in-the-loop automation 相關研究與工具文件

附錄 C：後續可展開論文題目

《Agent OS 的最低可行架構：從本地 Markdown 工作台到多模型調度》

《Noema-MD：面向 AI-native 學術寫作的語義 Markdown 協議》

《語義偽代碼：自然語言意圖與 Agent 執行之間的中介層》

《AI 可讀理論庫：個人學術實驗站在準 AGI 時代的知識資產化》

《從聊天框到工作台：Agent 級模型的 UX 轉向》

《主體性 AI 與工程 AGI 的分界：從工具代理到長期記憶治理》

《Fable 級模型常態化後的小型 AI 新創不對稱優勢》

《Diff-first Review：人類審核在 Agent 工作流中的核心地位》

附錄 D：一句話版本

如果要將本文壓縮成一句話：

AGI 不一定會以神降方式到來；它更可能先以 Fable 級 Agent 能力常態化的方式，重寫人類如何委派、審核、累積與放大認知工作。

原始檔（供 RAG/下載）：papers/Fable-Agent-AGI.md [md]