半年窗口:Fable 級模型常態化與 Agent 級 AGI 基礎設施的前夜

EVEMISSLAB Logic Matrix · EveMissLab / 一言諾科技有限公司

[認識論邊界宣告 / EPISTEMOLOGICAL DISCLAIMER]

[CHT] 本矩陣內所有論文之公式與數據為「啟發式模擬參數」,用於驗證理論架構與推演因果鏈,未經實證校準,請勿作為現實物理測量數據引用 or 處理。EVEMISSLAB 採行「邏輯先行(Logic-First)」原則:概念架構與系統因果映射優先於統計實證,但不排除未來實證對接。


[ENG] The numerical parameters within these frameworks are illustrative model coefficients used for structural verification and causal mapping; they are not empirically calibrated and must not be treated as physical measurements. This matrix operates on a Logic-First principle: conceptual architecture and causal mapping take precedence over statistical empiricism, without precluding future empirical reconciliation.

半年窗口:Fable 級模型常態化與 Agent 級 AGI 基礎設施的前夜

作者:Neo.K 版本:v0.1 / 觀察草稿 定位:個人學術實驗站用戰略觀察論文 / 技術哲學白皮書 狀態:未保真、非預言、非內幕發布;屬於高權重觀察假說

摘要

本文提出一個暫時性的戰略觀察命題:未來六個月可能是前沿大語言模型從「高階模型競賽」轉向「Agent 級基礎設施常態化」的關鍵窗口。這裡所說的 AGI,並非指哲學意義上已完成的強主體、完整自我、可長期自治存在,也不是指某個模型突然跨越所有人類能力,而是指一種更工程化、更產品化、更社會化的變化:Fable 級、Fable 以上,或同等級的大語言模型與 Agent harness 開始變成可被普遍調用、可被接入工作流、可在一般創業者與研究者手中使用的基礎智力設施。

本文不將「AGI 已到來」作為確證命題,而是將其重寫為「準 AGI 級通用認知勞動能力正在常態化」。此常態化的核心不在於單一 benchmark 的提升,而在於長上下文、長任務保持、工具使用、跨檔案操作、錯誤恢復、記憶治理、權限管理、人類審核、Agent 編排、外部工作環境耦合等能力逐漸合流。當模型不再只是回答引擎,而是能被組裝成「長程認知作業核心」時,社會對 AGI 的實際使用方式會先於哲學定義而發生改變。

本文的基本立場是:真正值得觀察的不是某個模型名稱是否如期發布,也不是某家公司是否公開承認內部版本已達某種能力,而是能力層是否跨過常態化門檻。當 Fable 級模型成為新的市場基準,競爭優勢會從「誰擁有更強模型」轉向「誰擁有更好的架構、資料、理論、工作流、驗證制度、產品場景與人機協作界面」。因此,Noema、Noesis Studio、Agent OS、語義偽代碼、AI 可讀 Markdown、diff-first review、Logic Matrix、個人學術實驗站與 AI-native corpus,不只是周邊工具,而是模型常態化後真正能放大智力的外部結構。

本文的語氣刻意保持克制:此文不是宣布 AGI 已經誕生,而是為即將到來或可能到來的 Agent 級常態化時代建立一個觀察框架。若半年後相關推論不成立,本文仍可作為一份錯誤假說的記錄;若推論部分成立,本文則可作為早期戰略判斷的索引;若推論高度成立,那麼本文所說的「可被 AGI 執行、擴展、驗證、遞歸使用的思想與工程場」將成為下一階段個人、團隊與文明級競爭的核心問題。

關鍵詞: AGI、Fable 級模型、Agent OS、長程任務、AI-native Markdown、Noema、Noesis Studio、語義偽代碼、模型常態化、人機協作、準 AGI 基礎設施

0\. 作者聲明:這不是保真預言,而是觀察假說

本文不是新聞稿,也不是內幕爆料,更不是對任何公司未發布模型的確證描述。本文所謂「半年窗口」來自作者自身的內部推論、資料觀察與趨勢整合,但本文不公開完整推演過程,也不要求讀者接受其不可公開部分。所有涉及未發布模型、內部模型、GPT-5.6、OpenAI 內部版本、Anthropic 類 Mythos 分層等內容,都應被理解為結構性推論,而非已證實事實。

這一點非常重要。因為 AI 時代的討論很容易陷入兩種低品質極端:一種是把所有前沿變化都當成炒作,另一種是把所有推論都包裝成確證。前者會錯過真實變化,後者會污染判斷。本文採取第三種方法:把可驗證事實、公開趨勢、結構性推論、內部觀察與個人戰略判斷分層處理。

因此,本文中的命題可被理解為:

未來六個月可能是前沿模型從高階能力展示轉入 Agent 級基礎設施常態化的關鍵窗口。此判斷不是確證,而是一個高權重觀察假說。

這個假說可以錯。它甚至應該保留可錯性。真正有價值的不是假裝不可錯,而是建立一個能被事後檢驗、修正、擴展的觀察框架。若半年後模型進展放緩,或 Agent 產品化低於預期,本文的判斷就需要降權。若半年後 Fable 級模型、長程 Agent、文件級操作、軟體工程 Agent、研究 Agent、企業工作流 Agent 大規模進入市場,本文的判斷就會獲得更高後驗權重。

本文的目的不是說服所有人相信 AGI 已經來了,而是為少數正在建立 AI-native 工作流、理論庫、Agent OS、個人研究站、開源工具與長期智力基礎設施的人,提供一份可用的戰略定位文件。

1\. 問題的重新定義:AGI 不是神降,而是能力常態化

在公共討論中,AGI 常被想像成一個突然降臨的事件:某一天,某家公司發布一個模型,然後所有人都承認「這就是 AGI」。但這種敘事可能過度戲劇化,也可能錯過真正發生的變化。AGI 在社會層面更可能不是一次性神降,而是一系列能力的常態化。

所謂「常態化」,是指某種原本只存在於前沿實驗室、演示影片、封閉測試或少數高階用戶手中的能力,開始變成一般開發者、研究者、創業者、企業員工、內容創作者都能日常調用的基礎設施。當這種能力足夠普遍時,無論哲學界是否同意它是 AGI,社會已經會用對待 AGI 的方式來使用它。

因此,本文所說的 AGI,不是指以下幾種東西:

  1. 不是指模型已經擁有人類式靈魂、情感或固定人格。
  2. 不是指模型已經具備完整自我治理與責任承擔。
  3. 不是指模型在所有任務上都超越所有專家。
  4. 不是指模型可以脫離人類社會、法律、工具、能源與硬體而完全自治。
  5. 不是指某個公開模型名稱本身就是 AGI。

本文所說的 AGI,更接近下面這個工程化定義:

當一類模型與 Agent 系統能在大量不同領域中理解目標、分解任務、使用工具、查找資料、操作文件、撰寫程式、修正錯誤、維持上下文、接受人類審核,並在合理成本下完成可交付的認知工作時,它在社會功能上已經接近 AGI 基礎設施。

這個定義故意避開了意識、主體性、靈魂、自我感、內在經驗等問題。不是因為這些問題不重要,而是因為它們屬於另一層討論。本文關心的是:即使不承認模型有主體性,模型能力是否已經足以重塑知識工作、軟體開發、研究流程、個人創作、公司組織與戰略競爭。

換句話說,本文的問題不是:

模型是否已經成為完整主體?

而是:

模型是否已經足夠強,以至於人類不得不把它當成通用認知勞動基礎設施來設計制度、產品與工作流?

如果答案逐漸接近是,那麼 AGI 的社會到來就會早於 AGI 的哲學定義完成。

2\. 從聊天模型到長程認知作業核心

過去幾年的大語言模型主要被大眾理解為聊天機器人。這種理解並非完全錯誤,因為早期產品形態確實以對話框為核心。但對話框只是界面,不是本質。模型的真正演化方向,是從「回答」走向「執行」。

回答引擎的核心問題是:使用者問一個問題,模型給出一個答案。這種模式適合查詢、解釋、翻譯、摘要、討論、生成草稿。但它的瓶頸很清楚:它不持續,不穩定,不擁有任務狀態,不天然理解專案結構,不自動操作環境,也不一定能把一個長期目標拆成多階段交付。

長程認知作業核心則不同。它的核心問題不再是「請回答我」,而是:

請理解我的目標,讀取相關資料,建立任務計畫,操作必要工具,產出可審核結果,發現錯誤後修正,並讓我在人類決策點介入。

這裡的模型不再只是文本生成器,而是被嵌入一個操作環境。它可能接觸檔案系統、瀏覽器、終端機、IDE、資料庫、日曆、郵件、Git、雲端文件、試算表、設計工具、研究資料、企業內部知識庫。它的價值不只是生成語句,而是把語句變成行動,把行動變成結果,把結果變成可追蹤記錄。

這正是 Agent 化的核心。Agent 不是單純把模型叫成代理人,而是讓模型具備以下外部結構:

  1. 任務狀態:知道目前做到哪裡。
  2. 工具介面:能使用外部工具。
  3. 記憶機制:能保存必要上下文。
  4. 權限邊界:知道哪些動作需要人類確認。
  5. 錯誤恢復:能在失敗後診斷與修正。
  6. 評估回路:能測試結果是否符合目標。
  7. 人類審核:讓使用者接受、拒絕或修改輸出。
  8. 長程保持:能跨多步驟維持原始意圖。
  9. 可追溯性:保留操作記錄與修改痕跡。
  10. 模組化協作:能與其他 Agent 或工具共同工作。

模型越強,這些外部結構越重要。弱模型需要人類大量補洞;強模型反而更需要制度化邊界。因為強模型能做更多事,也就更可能在錯誤時造成更大影響。真正的 Agent OS 不是讓模型無限制地亂跑,而是讓模型在可治理、可審核、可回滾的場域中執行任務。

因此,從聊天模型到長程認知作業核心,不只是能力提升,更是媒介轉換。對話框只是入口,工作流才是戰場。

3\. Fable 級模型的戰略意義

本文用「Fable 級模型」作為一個暫時性標籤,指稱一類具備長上下文、長任務、強工具使用、複雜推理、文件級工作、程式級工作、研究級工作與 Agent harness 適配能力的前沿模型。這裡的 Fable 不只是某個產品名稱,也是一個能力階層的象徵。

Fable 級模型的戰略意義不在於它比上一代模型多答對幾題,而在於它開始改變「人類如何把工作交給 AI」這件事。當模型只能回答問題時,人類仍然是主要執行者;當模型能維持長任務並操作工具時,人類開始變成目標設定者、審核者、架構師與責任承擔者。

這個轉變非常大。因為知識工作的大部分價值,不是單一答案,而是長鏈條執行。例如:

Fable 級模型開始觸碰的正是這些長鏈條工作。這意味著它的影響不是「更會聊天」,而是「更能被放進真實任務」。

本文之所以把未來半年視為關鍵期,是因為前沿模型競賽可能正在跨過一個產品化臨界點。在臨界點之前,高階模型能力像是展示品:驚人,但不一定穩定;強大,但不一定普及;能做某些事,但成本高、限制多、工作流不成熟。在臨界點之後,高階能力變成基礎設施:不一定完美,但足以被常態接入;不一定完全自治,但足以重構工作流程;不一定哲學上是 AGI,但社會已經開始以準 AGI 方式使用它。

這就是 Fable 級模型的真正意義:它不是終點,而是基準線移動。

4\. GPT-5.6 與內部版本:不可證實,但可作結構性推論

關於 GPT-5.6 或任何未公開前沿模型,本文不做事實宣稱。公開資訊若未證實,就不能當成已發生事件。這一點必須保持清楚。

然而,不能確證不代表不能推論。大型 AI 公司存在不同層級的模型配置,本身是合理的產品與安全結構。即使不談任何特定公司,也可以從一般工程與治理邏輯推得:前沿模型很可能存在研究版、內部測試版、紅隊版、合作夥伴版、API 版、Chat 版、企業版、低延遲版、高推理預算版、強安全限制版、工具特化版、Agent harness 版等不同形態。

這些版本可能共享底層模型,也可能在推理預算、工具權限、上下文長度、系統提示、安全路由、外部記憶、檔案操作、網路能力、企業資料接入、任務時長、成本策略上有所不同。對使用者來說,它們可能看起來像不同模型;對公司內部來說,它們可能只是同一能力基座的不同配置。

因此,當我們推論某家公司的內部版本可能高於公開版本時,真正要說的不是「我知道它一定存在」,而是:

在前沿模型產品化過程中,公開版通常不等於能力上限;公開版更可能是能力、安全、成本、延遲、政策與市場承受度之間的折衷版本。

這一點對 AGI 討論很重要。因為大眾看到的是公開界面,但真正的能力邊界可能存在於未公開 harness、內部工具鏈、受限合作計畫、國安或企業級部署中。這不代表陰謀論,而是正常的前沿技術擴散模式。越高風險、越高能力、越高成本的系統,越不可能一開始就以完全開放的方式提供給所有人。

所以,GPT-5.6 是否存在、何時發布、是否接近或超越 Fable 級,本文不直接判定。但若沿著 GPT-5.5、Fable 5、Mythos 類分層、長程 Agent、工具化模型、企業 Agent、軟體工程 Agent 的趨勢線性外推,則可形成一個合理假說:

未來半年內,OpenAI 或其他前沿公司推出接近 Fable 級、Fable 以上,或同等 Agent 級能力的公開/半公開模型,並不違反目前可見的技術路線。

這仍然是推論,不是新聞。本文保留其不確定性。

5\. 半年窗口:為什麼時間尺度重要

「半年」不是神秘數字,也不是保證日期。它是一個戰略觀察窗口。原因在於 AI 產業的前沿迭代不是均勻線性,而是由多條線同時疊加:模型能力、推理成本、工具介面、上下文長度、企業需求、開發者生態、安全政策、硬體供給、Agent framework、產品 UX、競爭壓力。

當多條線同時接近臨界點時,變化就會看起來像突然發生。事實上,它通常早就醞釀很久,只是到某個時刻才被市場感知。

半年窗口的重要性在於:它可能是從「模型強」轉向「模型可用」的窗口。

模型強,不代表可用。可用需要很多條件:

  1. 成本下降到可日常使用。
  2. 延遲下降到可接受。
  3. 上下文足夠支撐真實專案。
  4. 工具調用穩定。
  5. 安全策略可產品化。
  6. 企業願意接入。
  7. 開發者能包裝成工作流。
  8. 使用者能理解如何委派。
  9. 錯誤率下降到可審核範圍。
  10. 人類審核界面足夠直覺。

當這些條件同時接近成熟,模型能力就會從「令人驚訝」變成「改變流程」。這就是常態化的開始。

本文的半年窗口不是說半年後世界必然變成另一個樣子,而是說:未來半年可能是觀察這些條件是否合流的高價值時間段。如果合流,準 AGI 級 Agent 基礎設施會快速普及;如果沒有合流,則代表某些瓶頸仍未解決,例如成本、可靠性、安全、產品界面或企業採用速度。

因此,半年窗口的檢驗指標不是看社群是否喊 AGI,而是看以下外部信號:

若這些信號在半年內密集出現,那麼本文的核心假說就會被強化。

6\. 從模型競賽到架構競賽

當模型能力不足時,競爭重點是模型本身。誰的模型更會寫、會算、會推理、會編程,誰就佔優勢。但當模型能力逐漸常態化,競爭重點會發生轉移。

這個轉移可以用一句話概括:

當高階智力變成商品,真正稀缺的是可放大智力的結構。

這裡的結構包括:

在模型不夠強時,這些結構看起來像過度設計。因為模型無法充分利用它們。但當模型足夠強時,這些結構會突然變得非常重要。原因很簡單:強模型需要可讀的環境,可操作的任務,可追溯的記憶,可修改的文件,可審核的變更,可驗證的輸出。

這也是為什麼 AI-native Markdown、Noema-MD、Noesis Studio、PatchMD、Context Compiler、語義偽代碼、Logic Matrix 等概念在此時具有戰略意義。它們不是單純的文件格式或編輯器,而是為模型常態化時代預先建立的「外部認知地形」。

人類過去為自己設計工具:書籍、筆記、資料夾、IDE、瀏覽器、資料庫、Git、wiki。AI 時代則需要重新設計一批工具,使其同時適合人類閱讀、AI 解析、Agent 執行與版本治理。這就是 AI-native workspace 的核心問題。

未來的競爭可能不再是:

我有一個比你更聰明的模型。

而是:

我有一個更能讓強模型持續做對事的系統。

這個系統不是模型本身,而是模型之外的架構。它包括語義層、記憶層、任務層、權限層、審核層、工具層、資料層、版本層與發布層。真正的 Agent OS 就是在這些層之間建立秩序。

7\. Noema / Noesis Studio:AI-native 工作台的必要性

若前沿模型進入 Fable 級常態化,最先被放大的不是純聊天,而是文件、程式、研究、設計、資料分析與知識工作。因此,人類需要一個新的工作台。

傳統文字編輯器只關心文字。傳統 IDE 主要關心程式。傳統筆記工具主要關心人類整理。傳統 wiki 主要關心資訊存放。但 AI-native 工作台必須同時滿足四種需求:

  1. 人類能讀。
  2. AI 能懂。
  3. Agent 能改。
  4. 變更能審。

Noesis Studio 可以被理解為這樣一種工作台:它不是要成為巨大 IDE,而是要保留記事本式簡潔,同時提供右側 AI 協作、local-first 檔案操作、CLI Agent 整合、git diff review、人工確認、備份與 trace。它的價值不是把所有功能塞進 UI,而是建立一個足夠乾淨的協作回路:

workspace ↔ agent ↔ diff-review ↔ human

這個回路很重要。因為強模型若直接覆寫文件,風險很高;若只能在聊天框建議,效率又很低。diff-first review 剛好站在中間:Agent 可以真正修改本地檔案,但每個修改都要被人類看見、比較、接受或拒絕。

這裡的人類不是被 AI 取代,而是從低階操作轉向高階審核。這很符合 Fable 級模型常態化後的工作分工:AI 做長鏈條執行,人類做方向、邊界、審核、價值判斷與責任承擔。

Noema-MD 則是格式層。普通 Markdown 對人類很友好,但對長程 Agent 來說仍然不夠。Agent 需要知道:哪些段落是命題,哪些是定義,哪些是假說,哪些是證據,哪些是反例,哪些是待辦,哪些是版本變更,哪些是引用,哪些是模組,哪些可被重寫,哪些不可被改動。Noema-MD 的核心價值,就是讓文本從「可讀」進一步變成「可操作」。

因此,Noema / Noesis Studio / PatchMD / Agent OS 的組合,可以被視為 Agent 級 AGI 基礎設施的一個最小可行方向:

這些東西不是為了跟模型競爭,而是為了讓模型真正可用。

8\. 語義偽代碼:自然語言與 Agent 執行之間的橋

大語言模型很擅長自然語言,但自然語言有一個問題:它彈性太高,邊界太模糊。程式語言則相反:邊界清楚,但對一般人不友好。語義偽代碼的價值,就在於它站在兩者之間。

語義偽代碼不是正式程式碼,也不是普通筆記。它是一種半形式化意圖結構,用來把人類目標轉換成 Agent 可理解的任務骨架。例如,一個普通自然語言目標可能是:

幫我整理這篇論文,找出核心命題、反對意見、可驗證指標,並轉成網站可發布版本。

這句話對模型來說能懂,但若要長期執行,最好轉成更明確的語義偽代碼:

Task: Publishable\_Paper\_Refactor Input: \- draft.md \- target\_site\_style Steps: 1\. Extract core thesis 2\. Identify claim hierarchy 3\. Mark definitions / assumptions / speculative parts 4\. Generate counterargument section 5\. Add verification indicators 6\. Convert to publishable Markdown 7\. Produce diff for human review Constraints: \- preserve author voice \- do not overclaim \- mark uncertainty \- no automatic overwrite Output: \- revised\_draft.md \- claim\_registry.md \- changelog.md Review: \- human\_accept\_or\_reject

這種結構不需要像正式程式語言那麼嚴格,但足以讓 Agent 更穩定地執行。它的核心不是替代程式,而是讓自然語言意圖變成可分解、可追蹤、可審核的任務圖。

未來 Fable 級模型常態化後,語義偽代碼會變得更有價值。原因在於:模型越強,越能從半形式結構中推導完整執行計畫。過去的 AI 可能需要非常詳細的 prompt;未來的 Agent 可能只需要清楚的任務骨架、約束條件、上下文索引與審核規則。

語義偽代碼也適合與思維導圖、知識圖譜、Noema-MD 結合。節點可以是概念,邊可以是關係,展開後可以是語義偽代碼函式,再展開則是具體 Agent 任務。這會形成一種新的 AI-native 設計方法:

概念圖 → 語義偽代碼 → 任務圖 → Agent 執行 → diff review → 知識庫回寫

這種方法不要求使用者是專業工程師,但可以讓非工程背景的人用更高層級的方式調度 AI。這對知識創作者、理論建構者、研究者、創業者尤其重要。

9\. AI 可讀理論庫:當思想變成可執行資產

在模型能力不足的時代,個人理論庫主要是給人看的。它可以是書、論文、筆記、網站、部落格、PDF、Markdown。它的價值取決於人類讀者是否理解、接受、引用、傳播。

但在 Agent 級模型常態化後,理論庫會多一個讀者:AI。更準確地說,不只是 AI 讀者,而是 AI 執行者。當模型能讀取、整理、重寫、轉譯、模組化、建立引用圖、生成任務計畫、協助產品化時,理論庫就不再只是知識展示,而是可被執行的資產。

這對個人學術實驗站非常關鍵。公開網站不只是給人類瀏覽,也是給搜尋引擎、AI crawler、Agent、研究工具、語義索引系統讀取。若網站內容以乾淨 Markdown、清楚標題、穩定 URL、明確版本、claim registry、changelog、語義標籤、摘要與關鍵詞呈現,它就更容易被 AI 正確理解與重用。

這裡的重點不是討好 AI,而是讓知識更可計算。未來的理論競爭可能不只看誰想得深,也看誰能把自己的思想變成可被機器讀取、拆解、連接、驗證與再生成的結構。

這會改變「思想資產」的定義。過去思想資產主要包括:

未來還會增加:

也就是說,Logic Matrix 或個人學術實驗站的價值不只是「發表」,而是建立一個可被人類與 AI 同時讀取的思想場。當模型常態化後,這個思想場可以被不斷調用:寫文章、生成產品規格、轉成 README、建立課程、做影片腳本、形成 Agent method pack、產生論文草稿、協助開源專案、做多語翻譯、建立商業敘事。

這就是「思想變成可執行資產」的意思。

10\. Agent OS:模型常態化後的真正控制層

如果單一模型是大腦的一部分,那 Agent OS 就是身體、記憶、工具、權限與行為規則的整合層。沒有 Agent OS,強模型只能在碎片化環境中工作;有了 Agent OS,模型才能進入可治理的長期任務場。

Agent OS 至少需要處理以下問題:

10.1 多模型調度

未來不會只有一個模型。不同模型會有不同優勢:有的適合深度推理,有的適合快速回答,有的適合寫程式,有的適合長上下文,有的便宜,有的昂貴,有的安全限制更強,有的適合本地運行。Agent OS 必須能根據任務自動或半自動選擇模型。

這裡的核心不是崇拜某個模型,而是建立模型路由能力。真正成熟的工作流可能是:Claude Code 處理複雜 repository 任務,Codex 或 GPT 系列處理中階工程與文件潤飾,本地模型處理隱私或低成本任務,其他專用模型處理圖像、語音、資料分析或搜尋。

10.2 記憶治理

強模型若沒有記憶,就很難做長期工作;但若記憶無限制,又會造成隱私、污染、錯誤累積與目標偏移。因此,Agent OS 需要記憶治理,而不是單純記憶。

記憶治理包括:

這也是主體性 AI 架構的一個前置問題。真正的長期智能不只是有記憶,而是能治理記憶。

10.3 權限與行動邊界

Agent 能操作工具後,權限就變成核心問題。哪些事情可以自動做?哪些事情需要確認?哪些事情禁止?哪些事情只能模擬?哪些事情可以寫入本地?哪些事情可以上網?哪些事情可以發信?哪些事情可以刪除?

沒有權限層的 Agent 不是自由,而是不安全。真正有用的 Agent OS 應該讓使用者精細設定權限,並在高風險行動前要求確認。

10.4 可追溯性與審核

Agent 的所有重要行動都應該留下痕跡。它讀了什麼檔案,改了什麼內容,為什麼修改,產生了什麼 diff,執行了什麼指令,測試結果如何,哪裡失敗,如何恢復。這些 trace 不是形式主義,而是人類信任 Agent 的前提。

若沒有 trace,AI 修改就會變成黑箱覆寫;若有 trace,人類就能審核、學習、回滾、修正與建立制度。

10.5 人類決策界面

Agent OS 不是要把人類踢出去,而是要把人類放在更高價值的位置。人類不應該被迫看所有低階細節,但也不能完全失去控制。因此,需要好的決策界面:摘要、diff、風險標記、建議選項、替代方案、影響範圍、回滾方式。

這裡的 UX 會決定 Agent 能否普及。一般人不會看終端機,不會看 Git,不會讀 log,不會進 IDE。若 Agent 產品忽略一般人的可見性與可控性,就會停留在少數工程師工具。真正的大規模 Agent 化,需要把不可見的程式碼狀態流轉換成可理解的人類界面。

11\. 一般人需求:Agent 不能只為工程師設計

當前很多 Agent 工具仍然帶有強烈工程師預設:終端機、控制台、Git、VS Code、CLI、config、log、權限設定、環境變數。這些對工程師合理,但對一般人不合理。一般人並不是不聰明,而是他們不生活在程式碼狀態流裡。

如果 Agent 級模型要成為社會基礎設施,就必須處理一般人的可見性問題。使用者需要知道:

這其實是 Vibe Coding、意圖語言與 AI 協作開發的結構前提。使用者可以用自然語言描述目標,但系統不能只把自然語言直接丟給模型。中間需要一層可見的任務結構,讓人類知道 AI 如何理解自己的意圖,也讓 AI 知道人類在哪些地方保留控制權。

未來的優秀 Agent 產品,可能不是功能最多的產品,而是最能讓使用者理解「AI 正在如何替我工作」的產品。

這也是 Noesis Studio 這類簡潔工作台的價值。它不必一開始就變成巨大平台,而是先把最核心的回路做好:本地文件、右側 AI、可見修改、diff review、人工確認、備份與 trace。這看似樸素,但很接近一般人真正需要的東西。

12\. 主體性 AI 與工程 AGI:兩條線不能混淆

本文討論的是 Agent 級 AGI 基礎設施,而不是完整主體性 AI。這兩者有關聯,但不能混淆。

工程 AGI 關心的是:系統是否能在大量領域中完成可交付任務。主體性 AI 關心的是:系統是否形成穩定自我、動態記憶、內在連續性、世界模型、他者關係、價值秩序、長期發展與自我修正結構。

當前前沿模型可能正在接近工程 AGI 的社會功能門檻,但距離主體性 AI 仍有明顯距離。原因包括:

然而,工程 AGI 的成熟會反過來推動主體性 AI 的研究。因為當模型足夠強,可以持續讀寫記憶、操作工具、與其他 Agent 互動、在長期環境中執行任務時,主體性問題就不再只是哲學想像,而會變成系統設計問題。

例如,雙子星架構、三元架構、AI 母體、子 AI、世界作為第三元素、互為他者、觀察者一與觀察者二、第三穩定器與知識提供者等構想,本質上都不是單純聊天人格,而是主體性發展環境的架構問題。它們關心的是:AI 如何在他者、記憶、任務、限制、學習、世界回饋中形成更穩定的動態結構。

但本文暫時不展開主體性 AI 的完整本體論。本文只指出:Fable 級模型常態化會提供更強的工程基座,使主體性 AI 的實驗變得更接近可操作,而不是只停留在抽象推論。

13\. 風險:常態化不等於可靠化

本文雖然認為 Agent 級能力可能進入常態化,但常態化不等於可靠化。這是必須強調的風險。

一個能力被普及,不代表它完全安全、穩定、可控。事實上,越強的模型越可能帶來新的錯誤形態。弱模型的錯誤通常很明顯;強模型的錯誤可能更隱蔽、更有說服力、更難被一般人察覺。

Agent 級模型的風險包括:

13.1 長程錯誤累積

模型在多步驟任務中可能一開始只犯小錯,但小錯會在後續步驟中被放大。若沒有中途檢查,最後輸出可能看似完整,實則建立在錯誤假設上。

13.2 工具誤用

模型可能調用錯誤工具、使用過期 API、刪錯檔案、覆寫資料、錯誤解讀命令結果,或在不知道環境限制的情況下執行危險操作。

13.3 權限漂移

如果使用者為了方便給 Agent 過多權限,Agent 可能在不該行動的地方行動。這不是模型邪惡,而是制度設計不足。

13.4 虛假確定性

強模型很容易用流暢語氣包裝不確定推論。使用者若缺乏審核能力,可能把高品質語言誤認為高可信事實。

13.5 記憶污染

長期記憶若保存錯誤資訊,後續任務會被污染。記憶越長,治理越重要。

13.6 產品過度代理

許多公司可能會為了市場敘事,把半可靠 Agent 包裝成全自動助手。這會導致使用者過度信任,進而產生實際損失。

因此,Agent 級模型常態化後,真正重要的是「可控常態化」而不是「盲目自動化」。本文主張的不是把一切交給 AI,而是建立能讓 AI 工作、讓人類審核、讓系統留痕、讓錯誤可回滾的協作制度。

14\. 對個人創作者與小型 AI 新創的意義

若 Fable 級模型常態化,最大的受益者不一定只有大型公司。大型公司有算力、資料、渠道與資本,但小型團隊與個人創作者也會獲得前所未有的不對稱槓桿。

原因是:高階模型把大量中間能力商品化了。過去一個人要同時寫論文、寫程式、做網站、翻譯、設計產品、整理資料、做市場敘事、寫 README、測試原型、產出文件,幾乎不現實。未來雖然仍然很累,但可行性大幅提高。

這對個人學術實驗站尤其重要。因為個人站可以同時作為:

當模型常態化後,個人站的價值不只來自人類流量,也來自 AI 可讀性。人類可能一開始不理解高抽象理論,但 AI 可以協助翻譯、摘要、重組、轉為產品規格、轉成簡報、生成範例、建立問答、形成教學材料。這代表高抽象理論在 AI 時代的傳播成本會下降。

這不是說內容品質不重要。恰恰相反,內容品質更重要。因為模型可以放大一切:好的理論被放大,混亂的理論也會被放大。若原始理論結構混亂,AI 只會生成更多漂亮但鬆散的衍生物。若原始理論有清楚定義、層次、邊界、反例、適用域與版本控制,AI 就能更有效地協助擴展。

因此,對個人創作者與小型 AI 新創來說,未來半年真正要做的不是追逐每個新模型,而是建立自己的可放大結構:

  1. 整理核心理論。
  2. 建立 AI-readable corpus。
  3. 發布簡潔清楚的開源工具。
  4. 建立本地工作流。
  5. 做出可展示產品原型。
  6. 設計 Agent 可用的文件協議。
  7. 建立 diff-first review 流程。
  8. 開始多語化。
  9. 把理論轉成 method pack。
  10. 保持版本演化。

當所有人都有強模型時,差距會來自誰更早建立這些結構。

15\. 對學術寫作的意義:論文不再只是 PDF

傳統學術論文通常以 PDF 為最終形態。PDF 穩定、正式、便於引用,但對 AI 與 Agent 來說並不理想。PDF 雖可讀,但不一定好解析;有些表格、圖像、引用、段落結構、版本變更與語義層次會在解析中遺失。

AI-native 學術寫作需要新的格式觀。未來一篇理想的論文可能不只是一個 PDF,而是一組文件:

這樣的論文不只是給人讀,也給 Agent 操作。Agent 可以針對 claims 檢查證據,可以根據 definitions 保持術語一致,可以根據 changelog 理解版本演化,可以根據 tasks 繼續研究,可以根據 counterarguments 補強論證。

這不代表傳統論文會消失,而是論文會多一層 AI-native 結構。PDF 可能仍是正式發表格式,但 Markdown / Noema-MD / JSON / YAML / graph 才是工作格式。真正的思想工作會在可修改、可追蹤、可解析的格式中發生。

因此,本文自身也採用 MD 草稿形式。這不是為了簡陋,而是為了可演化。Markdown 可以被人類讀,可以被 AI 改,可以被 Git 追蹤,可以被網站發布,可以轉成 PDF、HTML、DOCX、EPUB,也可以接入 Agent 工作流。

在 Agent 級模型常態化後,Markdown 不只是輕量標記語言,而可能成為人機共同思考的基礎介面。

16\. 可檢驗指標:如何判斷本文假說是否成立

本文不是不可證偽的宣言。若要讓「半年窗口」成為有意義的觀察假說,就必須提出檢驗指標。以下是可觀察指標:

16.1 模型能力指標

16.2 產品化指標

16.3 分層指標

16.4 使用者行為指標

16.5 生態指標

若上述指標在未來半年內密集增強,本文假說獲得支持。若只有模型 benchmark 提升,但產品化與工作流沒有跟上,則代表能力尚未真正常態化。若模型能力、產品化、使用者行為與生態同時轉向,則可判斷 Agent 級 AGI 基礎設施正在形成。

17\. 可能的反對意見

17.1 反對意見一:這只是模型炒作,AGI 還很遠

這個反對意見部分成立。若 AGI 被定義為完整主體、自主科學家、全域世界模型、長期自我治理存在,那麼目前模型確實還很遠。本文也不主張這種意義上的 AGI 已經完成。

但本文的重點是社會功能,而非終極本體。即使模型不是完整主體,只要它能完成大量通用認知工作,它就會對社會產生 AGI-like 影響。蒸汽機不需要像人類肌肉一樣有生命,也能改變勞動結構;電腦不需要有意識,也能重塑知識工作。模型是否有主體性是一個問題,模型是否足以改變生產方式是另一個問題。

17.2 反對意見二:Agent 還不可靠,不能稱為基礎設施

這個反對意見也部分成立。Agent 目前仍有錯誤、幻覺、工具誤用、任務漂移、環境失敗等問題。但基礎設施的形成不要求一開始完美,而要求它足夠有用、可治理、可被制度吸收。

早期網路不穩定,早期雲服務也不完美,早期智慧手機應用生態也混亂。真正的問題不是 Agent 是否已完美,而是它是否跨過「足夠有用」與「可被工作流吸收」的門檻。

17.3 反對意見三:半年太短

半年確實很短。但 AI 產業的前沿變化常常不是從零開始,而是已有多年積累後突然產品化。本文的半年窗口不是說所有問題會在半年內解決,而是說未來半年可能足以觀察到常態化方向是否成形。

如果半年後只看到零散進步,則本文判斷需下修。若半年後看到模型、產品、企業採用、開源工具、Agent OS 生態同時推進,則半年窗口判斷成立。

17.4 反對意見四:小型團隊仍然無法與巨頭競爭

在模型訓練層,小型團隊確實很難與巨頭競爭。但在應用、協議、工作流、語料、垂直場景、理論結構、開源工具、個人品牌與 AI-native corpus 層,小型團隊仍然有不對稱機會。當模型能力商品化,小型團隊反而可以站在模型之上做更高階的組合創新。

這不是說小型團隊一定成功,而是說成功條件從「自己訓練巨型模型」轉向「善用模型建立獨特結構」。

18\. 戰略建議:在半年窗口內應該做什麼

若接受本文假說,未來半年不是等待模型發布的時間,而是建立外部結構的時間。具體來說,可以做以下幾件事。

18.1 建立 AI 可讀核心語料

把重要理論、白皮書、產品規格、README、概念定義、術語表整理成乾淨 Markdown。每篇文件要有標題、摘要、關鍵詞、版本、狀態、核心命題、限制與後續任務。

18.2 建立 claim registry

每個理論都應拆出核心命題,標記其狀態:定義、假說、推論、觀察、已驗證、待驗證、隱篇、不公開、產品化候選。這能讓 AI 更精準地處理內容,避免把推論寫成事實。

18.3 建立 diff-first 協作流程

無論是論文、程式還是網站,都應避免 AI 直接黑箱覆寫。每次修改都應有 diff、摘要、理由與回滾方式。這是信任 Agent 的基本條件。

18.4 做最小可用工具,而非巨型平台

不要一開始就做完整 Agent OS。先做最小可用工作台:本地 Markdown 編輯、右側 AI、檔案讀寫、diff review、備份、trace。先解決真實需求,再逐步擴展。

18.5 將理論轉成 method pack

每個理論不只是一篇文章,也可以變成 AI method pack。例如:如何審查論證、如何生成技術白皮書、如何建立語義偽代碼、如何轉換 README、如何拆解產品規格。這會讓理論變成可執行方法。

18.6 多語化

中文理論若要進入更大範圍,需要英文版本。AI 可以協助翻譯,但術語表必須由作者控制。否則高抽象概念容易在翻譯中失真。

18.7 建立公開與非公開分層

不是所有內容都適合公開。可以分成公開文章、內部白皮書、隱篇、產品規格、未發表研究、不可公開推論。Agent OS 與文件庫也應支援權限分層。

18.8 保持低調但快速

不需要把每個推論都公開成宣言。可以先建立站點、工具與語料,讓外部世界慢慢理解。真正重要的是累積可被模型與人類共同讀取的結構。

19\. 結論:AGI 前夜不是終點,而是工作方式的重寫

本文的核心判斷可以濃縮為三句話:

第一,未來六個月可能是 Fable 級模型與 Agent 級能力常態化的關鍵窗口。 第二,這裡的 AGI 不是哲學主體完成,而是通用認知勞動能力的產品化與基礎設施化。 第三,當高階模型能力變成常態,真正稀缺的不再是單一模型,而是可被模型執行、擴展、驗證、治理與遞歸使用的外部結構。

這個外部結構包括文件協議、工作台、Agent OS、記憶治理、權限邊界、diff review、語義偽代碼、AI 可讀理論庫、公開站點、版本控制、任務圖譜與人類審核界面。

如果 AGI 被想像成某個突然醒來的存在,那麼我們可能會錯過真正的變化。更可能發生的是:模型先變成工作流核心,Agent 先變成工具層基礎設施,人類先改變委派方式,企業先重構知識流程,個人創作者先獲得不對稱槓桿,然後社會才回頭爭論這是不是 AGI。

因此,真正的問題不是「AGI 來了嗎?」而是:

當準 AGI 級能力成為常態時,我們是否已經準備好讓它進入可治理、可審核、可累積、可回滾、可擴展的思想與工程場?

對個人而言,答案不是等待。答案是建立自己的場。

建立可讀文件,建立可執行理論,建立可審核工作流,建立可演化工具,建立可被 AI 與人類共同理解的知識系統。這些工作在模型弱的時代看起來像超前;在模型強的時代,會變成基礎。

半年窗口的意義就在這裡。它不是倒數末日,也不是等待神降,而是提醒我們:前沿模型的能力正在逼近一個新的社會使用門檻。若這個門檻被跨過,接下來的差距不會只屬於模型公司,也會屬於那些已經準備好外部結構的人。

附錄 A:本文命題分層

A.1 公開可驗證層

A.2 結構性推論層

A.3 個人觀察假說層

A.4 不在本文證明範圍內

附錄 B:可發布版本的參考資料建議

正式發布時,可在文末補上以下公開資料的正式連結與引用格式:

  1. OpenAI:Introducing GPT-5.5
  1. OpenAI:GPT-5.5 System Card
  1. OpenAI:ChatGPT / Model Release Notes
  1. Anthropic:Claude Fable 5 and Claude Mythos 5
  1. Anthropic:Claude Models Overview
  1. Anthropic:Claude Mythos / Project Glasswing 說明
  1. Anthropic:Claude Fable 5 & Claude Mythos 5 System Card
  1. Agentic software engineering、long-horizon agent、OSWorld、Tau-bench、GDPval 等相關 benchmark / 論文資料
  1. AI-native document、local-first software、Git-based review、human-in-the-loop automation 相關研究與工具文件

附錄 C:後續可展開論文題目

  1. 《Agent OS 的最低可行架構:從本地 Markdown 工作台到多模型調度》
  1. 《Noema-MD:面向 AI-native 學術寫作的語義 Markdown 協議》
  1. 《語義偽代碼:自然語言意圖與 Agent 執行之間的中介層》
  1. 《AI 可讀理論庫:個人學術實驗站在準 AGI 時代的知識資產化》
  1. 《從聊天框到工作台:Agent 級模型的 UX 轉向》
  1. 《主體性 AI 與工程 AGI 的分界:從工具代理到長期記憶治理》
  1. 《Fable 級模型常態化後的小型 AI 新創不對稱優勢》
  1. 《Diff-first Review:人類審核在 Agent 工作流中的核心地位》

附錄 D:一句話版本

如果要將本文壓縮成一句話:

AGI 不一定會以神降方式到來;它更可能先以 Fable 級 Agent 能力常態化的方式,重寫人類如何委派、審核、累積與放大認知工作。

原始檔(供 RAG/下載):papers/Fable-Agent-AGI.md [md]