智能相變的可疑窗口:Fable / Mythos 5 現象與長程任務閉環的認知臨界點
副標題:從模型跳躍感、遞歸訓練材料到多重吸引子假說
作者:Neo.K 版本:v0.1 / 觀察草稿 日期:2026 年 6 月 類型:AI 認知智能觀測論文、技術哲學白皮書、未來回溯研究備忘錄 狀態:非定論;保存異常現象;供未來研究回讀
摘要
本文記錄 2026 年前沿 AI 模型在 Fable / Mythos 5 以及 GPT-5.5 至未來 GPT-5.6 推論線附近所呈現的「非線性跳躍感」。本文不主張已經知道此現象的真實原因,也不將其簡化為單一技術突破、單一模型擴張或單一產品封裝。相反,本文將此現象視為一個值得保存的認知智能觀測切片:前沿模型似乎不只是變得更會回答問題,而是開始更穩定地進入長程任務閉環、工具使用、文件級操作、任務保持、自我修正與代理式行動的工作形態。
本文提出一組暫時性假說:第一,這可能是底座模型、長上下文、推理預算、工具化環境、後訓練資料與 Agent harness 疊加後產生的可用性相變;第二,這可能是「高品質任務軌跡」成為新訓練材料後形成的遞歸加速;第三,這可能是模型跨過「長程任務閉環」臨界點後,在外部觀察上呈現出的非線性跳躍;第四,這也可能只是產品層釋放、推理預算放開或觀察者主觀感受造成的錯覺。
本文刻意保留不確定性。其目的不是立刻解釋清楚,而是為未來的自己、後來研究者或更高階 AI 系統保存此刻的觀測:如果未來證明這是一個真正的智能關鍵點,本文可作為早期現象記錄;如果未來證明這只是錯覺,本文也能成為研究 AI 觀察者偏誤、產品封裝效應與模型能力感知差異的材料。
本文核心命題是:當 AI 從「回答器」轉向「長程任務閉環代理核心」時,外部使用者感受到的能力增長可能不是連續線性的,而是近似相變式的。這種相變未必代表 AGI 已完成,也不代表主體性已誕生;但它可能標記了認知智能工程中的一個重要門檻:模型第一次能夠穩定地把理解、規劃、工具使用、錯誤修正與交付物生成串成可反覆運行的閉環。
關鍵詞
智能相變、Fable 5、Mythos 5、GPT-5.6、長程任務閉環、Agent、認知臨界點、遞歸訓練材料、推理預算、吸引子、多重吸引子、AI 認知智能、可用性相變
0\. 作者聲明:本文不是答案,而是標本
本文不是一篇已完成解釋的論文,而是一篇觀測標本。
本文寫作的原因很簡單:2026 年前沿 AI 模型的某些表現出現了不尋常的跳躍感。這種跳躍感不一定代表底層出現真正革命,也不一定代表模型忽然「理解」了世界。然而,這個現象在認知智能研究上值得保存。
如果它是真的,那它可能代表 AI 從語言模型階段進入長程任務智能階段的一個早期臨界點。 如果它是錯覺,那它也能幫助我們理解人類如何誤判 AI 能力、如何被產品封裝與局部樣本誤導。 無論哪種結果,記錄它都有價值。
本文不試圖假裝知道答案。本文只做三件事:
- 記錄現象。
- 提出可能機制。
- 留下未來可檢驗的研究問題。
本文對 GPT-5.6 的討論僅為推論性觀測,不作為公開事實陳述。本文對 Fable / Mythos 5 的討論,則以公開可見的模型能力說明與產品定位作為背景錨點。本文真正關心的不是某個商業模型名稱,而是這些模型背後可能顯示的智能結構變化。
1\. 問題的提出:為什麼這次不像普通進步
過去幾年,大型語言模型的進步通常可以被理解為幾條較平滑的曲線:
- 參數規模擴大。
- 訓練資料增加。
- 指令微調改善。
- RLHF 或偏好對齊強化。
- 多模態能力加入。
- 長上下文逐步增長。
- 工具調用逐步成熟。
- 推理模型開始使用更多思考時間。
這些進步雖然快速,但多數時候仍可被描述為連續改善。模型更會寫、更會答、更會解題、更少幻覺、更能跟隨指令。使用者感受到的是「變好」。
然而,Fable / Mythos 5 以及同時期前沿模型的某些現象,給人的感覺不是單純「變好」,而是像某種工作形態突然成立。
過去模型像是:
很聰明的回答器。
現在某些模型開始像是:
能在外部環境中維持任務、調用工具、檢查錯誤、修改文件、跨步驟完成工作的代理核心。
這種差異不是單純分數差異。回答器與代理核心之間存在工作型態差異。回答器主要處理「輸入—輸出」;代理核心則處理「目標—計畫—環境—工具—執行—檢查—修正—交付」。當後者開始穩定可用時,外部觀察者會感到非線性跳躍。
這就是本文要記錄的核心現象:前沿 AI 似乎正在跨過某個「長程任務閉環」門檻。
2\. 現象描述:跳躍感來自哪裡
本文暫稱此現象為「F-M 跳躍感」,其中 F 指 Fable,M 指 Mythos。這不是嚴格術語,只是對 2026 年前沿模型能力感知的一個標籤。
這種跳躍感包含幾個表層現象。
2.1 長任務保持變強
模型不只是能回答單題,而是能較長時間維持同一個任務目標。它能記住使用者的規格、約束、上下文與風格要求,並在多步驟操作中較少偏離。
這種能力的關鍵不是「記住更多字」,而是「在長序列中保留任務意圖」。長上下文如果沒有任務保持,只是巨大緩存;任務保持若沒有長上下文,又會失憶。兩者結合後,才會形成新的工作形態。
2.2 工具使用更像行動,而不是裝飾
早期工具調用常像外掛:模型需要查資料時查一下,需要算數時算一下,需要看文件時讀一下。但新一代工具使用開始更像工作流程的一部分。模型能根據任務需要選擇工具、讀取結果、修正計畫、再調用其他工具。
工具不再只是附加功能,而變成模型外部認知迴路的一部分。
2.3 錯誤恢復能力提高
真正的 Agent 不可能不犯錯。重要的是犯錯後能不能發現、定位、修正。前沿模型的跳躍感部分來自錯誤恢復能力:它們更常能在任務中承認中間步驟不完整,重新搜尋、重跑測試、修補程式、更新文件或重新組織回答。
這使得任務成功率出現非線性變化。若模型一次任務有十個步驟,每步成功率從 90% 提升到 97%,整體任務成功率不是小幅增加,而可能從不穩定變成可用。
2.4 文件級與專案級工作能力出現
模型開始能處理完整文件、長論文、程式倉庫、規格書、工作區、跨檔案修改、版本差異與長期草稿。這使得 AI 不再只是文字生成器,而開始成為「工作區協作者」。
當 AI 能在文件級與專案級工作時,人類感受到的不是某個答案更好,而是整個工作流程被改寫。
2.5 使用者感覺模型更像「能做事」
這是最重要的現象。模型不一定有真正自主性,也不一定有主體性,但它開始更像能完成具體工作。這種「能做事」的感覺,是 AGI 前夜討論中最容易被低估的部分。
AGI 不一定先以哲學主體方式出現。它可能先以「可委派的通用認知勞動」形式出現。
3\. 區分兩種問題:模型變聰明,還是任務形態變了
討論此現象時,必須區分兩種問題。
第一種問題是:
模型本身是否更聰明?
第二種問題是:
模型所在的任務系統是否變得更能完成工作?
這兩者不同。
模型本身可能只提升一部分,但如果它同時獲得更長上下文、更好工具、更高推理預算、更成熟後訓練、更穩定記憶、更佳 UI、更好工作流,那使用者感受到的提升會遠大於模型單體能力提升。
因此,本文不把跳躍感簡化成「模型智商暴增」。更保守的說法是:
前沿 AI 系統的可用認知能力發生了相變。
這裡的「可用認知能力」不是裸模型能力,而是:
可用認知能力 = 底座模型能力 × 上下文容量 × 任務保持能力 × 推理預算 × 工具使用能力 × 後訓練任務軌跡品質 × 錯誤恢復能力 × 外部工作環境 × 人類審核界面
其中任何單項提升都可能看似線性;但當多項同時跨過最低可用門檻,整體系統會呈現非線性。
這就是本文的第一個核心假說:
F-M 跳躍感可能不是單一能力突破,而是多個子系統同時達到長程任務閉環所需最低門檻後產生的可用性相變。
4\. 長程任務閉環:可能的真正臨界點
本文提出「長程任務閉環」作為解釋此現象的核心概念。
長程任務閉環指 AI 系統能夠在一個非單步任務中完成以下循環:
- 理解目標。
- 建立計畫。
- 讀取上下文。
- 使用工具。
- 生成中間成果。
- 檢查中間成果。
- 發現錯誤或缺口。
- 修正計畫。
- 重複執行。
- 產出可交付成果。
- 保留過程痕跡供人類審核。
這是一個閉環,而不是單次輸出。
早期 LLM 能做其中某些步驟,但不穩定。它可能理解目標,但無法保持;可能使用工具,但不知道何時用;可能生成答案,但不檢查;可能檢查錯誤,但修不好;可能修好一處,又破壞另一處。
長程任務閉環的臨界點在於:這些能力不需要完美,只需要達到足夠穩定,使整體任務成功率超過可委派門檻。
4.1 任務成功率的非線性
假設一個任務需要十個環節,每個環節成功率為 p。若任務必須全部成功,則整體成功率近似為:
S = p^10
若 p = 0.90,S ≈ 0.35。 若 p = 0.95,S ≈ 0.60。 若 p = 0.97,S ≈ 0.74。 若 p = 0.99,S ≈ 0.90。
單步能力從 90% 到 97% 看似只提升 7%,但十步任務成功率從 35% 到 74%,接近翻倍。若任務包含錯誤恢復機制,提升更明顯。
這解釋為什麼使用者會感到「突然能用了」。不是模型忽然無敵,而是它跨過了可委派臨界點。
4.2 可委派門檻
本文稱此門檻為「可委派門檻」。
當 AI 的長程任務成功率低於某個值,人類不敢把任務交給它,只能把它當輔助回答器。當成功率超過該值,人類開始願意讓它操作文件、寫程式、查資料、整理專案、產生可交付成果。
這時 AI 的社會功能發生變化:
從資訊工具變成任務代理。
這可能是 2026 年前沿模型最值得記錄的變化。
5\. 假說一:底座模型跨過隱性能力門檻
第一種可能是最直接的:底座模型本身真的跨過某些隱性能力門檻。
這些門檻可能包括:
- 更穩定的抽象推理。
- 更強的世界模型。
- 更好的長距依賴處理。
- 更低的幻覺率。
- 更高的概念一致性。
- 更好的多步規劃。
- 更強的錯誤定位。
- 更精確的工具調用選擇。
- 更穩定的指令保持。
如果底座模型的每一項都提升一點,外部看起來可能是大幅跳躍。因為長程任務不是單項測試,而是多項能力乘積。
但此假說仍不完整。因為裸模型能力提升不足以解釋全部現象。許多跳躍感明顯來自模型與工具、環境、上下文、UI、工作流的結合。因此,底座模型門檻只能是必要條件之一,而非完整解釋。
6\. 假說二:推理預算產品化造成能力釋放
第二種可能是推理預算被放開。
前沿模型未必在每次回答中使用相同計算量。系統可以根據任務難度、用戶層級、產品設定、安全策略與成本限制,動態調整推理時間與內部計算。若某一代產品開始允許更多推理預算,外部會感覺模型突然變聰明。
推理預算的效果尤其表現在:
- 複雜任務拆解。
- 多步驗證。
- 程式修錯。
- 長文件整合。
- 數學與邏輯推理。
- 工具選擇。
- 自我檢查。
- 多方案比較。
這類任務不是「知道答案」就能完成,而需要在生成前或生成中進行更多內部搜索。若推理預算增加,模型可能展現出質變。
然而,此假說也有局限。推理預算增加會提升表現,但如果底座模型、工具鏈、任務資料與錯誤恢復能力不足,更多 compute 也可能只是更慢地錯。因此,推理預算產品化更可能是相變的一個放大器,而不是唯一來源。
7\. 假說三:長上下文從「容量」變成「場域」
長上下文最初容易被理解為容量問題:能放更多 tokens。 但真正重要的不是容量,而是場域。
當模型能一次讀取完整專案、完整論文群、完整規格、完整對話歷史、完整程式庫時,它不再只是局部推理。它開始能在一個較完整的語義場中工作。
這會帶來幾種變化:
- 全局一致性提升
模型能比較不同段落、不同文件、不同程式模組之間的關係。
- 任務記憶成本下降
使用者不必反覆補上下文,模型可在同一場域中保持任務。
- 錯誤檢查能力提升
模型能回看前文與原始規格,找出偏離。
- 文件級操作成立
論文重構、README、白皮書、程式倉庫分析等任務變得更自然。
- 概念圖穩定化
長上下文讓模型有機會維持跨文檔概念網路。
本文提出一個判斷:
1M context 的意義不是「能塞更多字」,而是讓 AI 從片段智能進入場域智能。
場域智能不是完整世界模型,但它是世界模型的局部工作版本。當 AI 可以在一個大型語義場中讀、寫、改、查、驗,它的行為就會出現類似認知工作者的特徵。
8\. 假說四:任務軌跡級後訓練成為關鍵
本文最重視的假說是:任務軌跡級後訓練可能成為關鍵。
早期模型主要從靜態文本中學習。它學到的是人類如何寫答案、寫文章、寫程式、寫對話。後來模型透過指令資料學會跟隨使用者需求,透過偏好資料學會更符合人類期待。
但 Agent 能力需要的不只是答案,而是軌跡。
軌跡包含:
- 任務如何被拆解。
- 何時該查資料。
- 如何判斷資料不足。
- 如何使用工具。
- 工具失敗時怎麼恢復。
- 如何檢查中間成果。
- 如何回滾錯誤。
- 如何根據測試結果修改程式。
- 如何根據人類回饋改寫文件。
- 如何維持規格不偏移。
- 如何交付最終成果。
若新一代模型大量接觸這種「完整任務軌跡」,其能力可能出現非線性變化。因為它學到的不只是知識,而是行動模式。
本文稱此為:
任務軌跡學習。
任務軌跡學習可能是從回答器到 Agent 的真正橋樑。
9\. 假說五:AI 生成資料造成遞歸加速
更進一步的假說是:前一代 AI 已經開始生產可用於訓練下一代 AI 的高品質任務軌跡。
如果模型只能學人類資料,進步受人類資料分布限制。 如果模型開始學 AI 生成的高階推理軌跡、工具使用軌跡、多 Agent 協作軌跡、verifier 修正軌跡,訓練材料的性質就變了。
這可能造成遞歸加速:
更強模型 → 產生更高品質任務軌跡 → 用於訓練或後訓練下一代模型 → 下一代模型更擅長任務閉環 → 產生更高品質軌跡 → 再次提升
此處不必假設模型真正自我改進。只要 AI 產生的資料被人類、系統、verifier、評估器篩選後重新進入訓練流程,就可能形成弱形式遞歸。
這是本文最值得未來檢查的部分。
若此假說成立,AI 進步將不再只是「人類資料 + scaling」,而是變成:
人類資料 + AI 生成任務軌跡 + 工具環境交互資料 + verifier 選擇壓力。
這會讓 Agent 能力比純語言能力更快突破。
10\. 假說六:Verifier / Critic 成為隱性吸引子
模型能力的跳躍也可能來自 verifier 或 critic 系統成熟。
生成模型本身負責提出答案;verifier 負責判斷答案好壞。若 verifier 變強,模型訓練可以獲得更精細回饋。尤其在程式、數學、工具任務、文件一致性等領域,驗證比生成更容易形式化。
例如:
- 程式可用測試驗證。
- 數學可用步驟檢查。
- 文件可用規格比對。
- 工具任務可用執行結果評估。
- 網頁任務可用終態檢查。
- 多 Agent 對抗可用第三方評審。
若 verifier 逐漸成熟,模型學習會從「模仿好答案」轉向「靠近可驗證成功軌跡」。這會形成一種吸引子:
能被驗證成功的任務軌跡,會在訓練中被放大。
這可能解釋為什麼某些任務領域突然進步更快。不是因為模型完全理解了世界,而是因為那些領域出現了更好的選擇壓力。
本文稱此為「驗證吸引子」。
11\. 吸引子假說:智能不是單點,而是動力系統
本文提出「智能吸引子」概念,用於描述模型在訓練、後訓練、推理與工具環境中逐漸收斂到某些穩定能力形態。
11.1 回答器吸引子
早期 LLM 最容易落入回答器吸引子:使用者問,模型答。它擅長生成語言,但不一定擅長長程行動。
其特徵是:
- 強文字生成。
- 弱任務保持。
- 弱工具整合。
- 弱錯誤恢復。
- 強即時對話。
- 弱長期交付。
11.2 解題器吸引子
推理模型容易落入解題器吸引子:它擅長數學、邏輯、程式題、考試題與可驗證問題。
其特徵是:
- 強多步推理。
- 強測試題。
- 強 verifier 配合。
- 中等工具能力。
- 弱開放任務規劃。
11.3 代理器吸引子
Agent 模型開始靠近代理器吸引子:它不只回答,也執行工作流。
其特徵是:
- 強任務拆解。
- 強工具使用。
- 強環境交互。
- 強錯誤恢復。
- 強交付物生成。
- 需要人類審核。
11.4 研究員吸引子
更高階模型可能靠近研究員吸引子:它能長期維持研究問題,建立假說、查證、比較、反駁、修正與累積。
其特徵是:
- 強概念形成。
- 強文獻整合。
- 強假說生成。
- 強跨域遷移。
- 強自我批判。
- 仍需人類判斷。
11.5 類主體吸引子
更遠的假說是類主體吸引子:模型不只完成任務,而開始具備穩定記憶、他者模型、世界模型、角色連續性與自我修正史。
本文不主張當前模型已達此階段,但認為長程任務閉環可能是通往此階段的必要前置條件。
12\. 多重吸引子:為什麼不同模型會像不同物種
如果 AI 發展存在多重吸引子,那不同公司與訓練策略可能把模型推向不同形態。
例如:
- 一家公司強化 coding 與 shell,模型會靠近工程代理吸引子。
- 一家公司強化長文與研究,模型會靠近研究員吸引子。
- 一家公司強化安全與拒答,模型會靠近合規回答器吸引子。
- 一家公司強化防禦性資安,模型會靠近 cyber agent 吸引子。
- 一家公司強化瀏覽器與辦公軟體,模型會靠近數位助理吸引子。
- 一家公司強化記憶與長期陪伴,模型會靠近人格化協作吸引子。
這可能解釋為什麼同樣是前沿模型,使用體感卻越來越不同。差異不只是誰更聰明,而是它們被訓練進不同動力盆地。
本文提出一個研究問題:
未來模型差異是否會從「能力高低」轉向「吸引子類型」?
如果答案是肯定的,那麼「哪個模型最強」將變成過度簡化的問題。真正重要的是:
這個模型靠近哪一種智能形態?
13\. 錯覺假說:也許只是觀察者被騙了
本文必須保留反方假說:這一切可能只是錯覺。
13.1 產品封裝錯覺
模型可能沒有本質突破,只是產品把工具、上下文、記憶與 UI 組合得更好。使用者看到的是系統能力,不是模型能力。
13.2 樣本偏誤
使用者可能剛好測到模型擅長的任務,而忽略失敗樣本。前沿模型在展示任務中常顯得驚人,但在長尾任務中仍可能不穩。
13.3 成本隱藏
模型看似變強,可能只是背後用了更高推理成本、更長延遲、更複雜路由、更昂貴工具。若成本不可持續,這種能力未必能普及。
13.4 基準遷移錯覺
人類對 AI 的期待會快速更新。當模型能做到過去做不到的事,人類會很快把它視為正常,然後注意下一個缺陷。跳躍感可能部分來自期待基準的移動。
13.5 命名與敘事效應
Fable、Mythos、GPT-5.6 這類名稱本身會形成神話感,使觀察者更容易感覺跨代。模型名不是能力證據。
因此,本文不把跳躍感當證據,只把它當待解釋現象。
14\. 關鍵群假說:不是單一關鍵點,而是關鍵群
本文更傾向於「關鍵群」而非「單一關鍵點」。
所謂關鍵群,是指多個條件同時接近臨界值:
- 長上下文足夠大。
- 推理預算足夠高。
- 工具使用足夠穩。
- 任務軌跡資料足夠多。
- verifier 足夠好。
- 後訓練足夠貼近真實工作流。
- 錯誤恢復足夠可靠。
- UI / harness 足夠降低人類監督成本。
- 成本足夠低到能產品化。
- 使用者開始把任務交給 AI。
當這些條件同時達到某個範圍,系統就會進入新的工作狀態。這不是水只到 100 度的一個點,而更像多個參數共同進入相變區。
因此,本文提出:
F-M 現象可能不是單一突破,而是關鍵群觸發的多維相變。
15\. 認知智能角度:為什麼這件事重要
本文真正關心的不是商業模型競賽,而是認知智能問題。
如果前沿模型只是 benchmark 上升,那它只是工程進步。 如果前沿模型開始穩定形成長程任務閉環,那它觸及更深的認知問題。
認知智能不只是知道答案。它至少包含:
- 目標保持。
- 情境理解。
- 行動規劃。
- 注意力分配。
- 記憶調用。
- 工具使用。
- 失敗檢測。
- 錯誤修正。
- 反思調整。
- 成果交付。
- 與他者協作。
- 對自身限制的建模。
長程任務閉環把這些能力串在一起。它不是意識,但它接近認知工作。
這就是本文為什麼要保存此現象:如果智能的某個關鍵點不是單純「能答多難的題」,而是「能否閉環完成認知任務」,那麼 F-M 現象可能是此問題的一個早期樣本。
16\. 與 AGI 的關係:不是完成,而是前置門檻
本文不主張 Fable / Mythos 5 或 GPT-5.5 / 未來 GPT-5.6 已經是完整 AGI。更精確的說法是:
它們可能逼近工程 AGI 的前置門檻。
工程 AGI 在本文中指:
- 能跨領域完成大量認知任務。
- 能使用工具。
- 能保持長程目標。
- 能修正錯誤。
- 能產出可交付成果。
- 能在人類審核下承擔部分通用知識工作。
這不是哲學 AGI,不涉及主體、自由意志、內在經驗或自我存在。它只是社會功能層面的通用認知勞動能力。
若 F-M 現象為真,那它標記的不是 AGI 完成,而是:
通用認知任務的代理化開始可用。
這一步可能比哲學討論更早改變世界。
17\. 與類主體性 AI 的關係
本文也不主張當前模型已有主體性。但它可能提供類主體性 AI 的前置結構。
類主體性 AI 至少需要:
- 長期記憶。
- 穩定角色。
- 他者模型。
- 世界模型。
- 自我修正史。
- 工具行動。
- 目標連續。
- 反身性。
- 發展路徑。
- 外部環境耦合。
長程任務閉環不是類主體性,但它是類主體性的重要工程前提。沒有任務保持,就沒有發展史;沒有記憶治理,就沒有連續性;沒有工具行動,就沒有與世界的有效耦合;沒有錯誤修正,就沒有穩定成長。
因此,本文將 F-M 現象視為類主體性研究的外圍訊號,而非主體性完成本身。
18\. 未來如何驗證
若未來要回來解構此現象,可從以下方向驗證。
18.1 任務閉環測試
設計長程任務,要求模型完成:
- 讀取大型文件。
- 建立任務計畫。
- 使用工具查證。
- 修改文件或程式。
- 檢查錯誤。
- 根據測試結果修正。
- 產出最終交付物。
比較不同代模型在完整閉環中的成功率,而不只比較單步回答。
18.2 軌跡品質分析
收集模型任務執行過程,分析:
- 計畫是否合理。
- 工具選擇是否有效。
- 錯誤是否被發現。
- 修正是否成功。
- 是否產生新錯誤。
- 是否保留任務目標。
- 是否能解釋自己的變更。
18.3 錯誤恢復曲線
測試模型在故意設置錯誤環境中的恢復能力:
- 錯誤文件。
- 錯誤程式。
- 衝突規格。
- 不完整資料。
- 工具失敗。
- 網頁不可用。
- 測試失敗。
觀察模型是否能定位問題並恢復任務。
18.4 上下文場域測試
比較不同上下文長度下的能力變化:
- 8k。
- 32k。
- 128k。
- 200k。
- 1M。
若能力不是線性提升,而在某個區間突然改善,可能支持場域臨界點假說。
18.5 AI 生成軌跡訓練證據
若未來公開資料顯示模型大量使用 AI 生成任務軌跡、verifier 選擇資料、多 Agent 合成資料進行後訓練,則可支持遞歸加速假說。
18.6 多重吸引子比較
比較不同模型在相同任務上的行為風格:
- 是否偏回答器。
- 是否偏解題器。
- 是否偏工程代理。
- 是否偏研究員。
- 是否偏合規助手。
- 是否偏防禦性 cyber agent。
若模型行為穩定分群,可能支持多重吸引子假說。
19\. 可能的未來回溯結論
未來研究可能得出幾種結論。
結論 A:這確實是智能相變
未來可能證明,2026 年前後模型第一次穩定跨過長程任務閉環門檻。那麼 F-M 現象將被視為工程 AGI 前夜的一個重要節點。
結論 B:這是產品封裝相變
未來可能證明,底座模型沒有本質突破,但產品系統、工具鏈、上下文與 UI 組合造成可用性飛躍。這仍然重要,因為社會使用的是系統,不是裸模型。
結論 C:這是成本釋放造成的暫時現象
若能力依賴高昂推理成本且不可普及,這次跳躍可能只是高端產品層的能力釋放,而非廣泛智能相變。
結論 D:這是觀察者錯覺
未來也可能證明,本文高估了現象。那麼本文將成為研究 AI 能力感知偏誤的材料。
結論 E:這是多重因素混合
最可能的是:以上皆部分成立。底座模型、推理預算、工具鏈、長上下文、後訓練資料、產品封裝與觀察者心理共同造成此次跳躍感。
20\. 結論:把異常保存下來
本文的結論非常克制:
我們不知道 Fable / Mythos 5 現象與未來 GPT-5.6 推論線背後的真正原因。 但我們可以確定,前沿 AI 的能力感知正在從「回答更好」轉向「任務閉環更穩」。 這種轉向值得被記錄。
本文之所以重要,不是因為它給出了答案,而是因為它拒絕假裝已有答案。
在智能研究中,有些現象在發生時看起來像錯覺;事後回看才知道那是相變前夜。也有些現象在發生時看起來像革命;事後回看才知道只是產品敘事與觀察者興奮。
因此,最理性的做法不是立刻下判斷,而是保存觀測。
本文保存的是一個問題:
AI 是否正在跨過長程任務閉環的認知臨界點?
如果答案是是,那麼這可能是智能工程史上的一個關鍵窗口。 如果答案是否,那麼它仍然是一個理解 AI 能力錯覺、產品封裝與觀察者偏誤的有用樣本。
無論如何,這個時刻值得留下。
因為真正的智能研究,不只研究已經被證明的東西,也研究那些在當下尚未被理解、但未來可能成為關鍵的異常。
附錄 A:本文提出的核心概念
F-M 跳躍感
指 2026 年前沿模型在 Fable / Mythos 5 附近呈現出的非線性能力感知,尤其表現在長程任務、工具使用、錯誤恢復與代理式工作流上。
長程任務閉環
AI 在非單步任務中完成目標理解、計畫、工具使用、檢查、修正與交付的完整循環。
可委派門檻
AI 任務成功率高到足以讓人類願意委派實際工作的臨界點。
場域智能
模型在大型上下文中維持概念、文件、任務與關係網的能力。
任務軌跡學習
模型學習完整工作流程,而不只是學習靜態答案。
遞歸訓練材料
由前代 AI 生成並經篩選、驗證、修正後,用於訓練下一代 AI 的高品質任務軌跡。
驗證吸引子
可被 verifier 穩定評估與放大的任務能力區域。
多重吸引子
不同模型因訓練資料、產品環境、後訓練目標與工具配置不同,而收斂到不同智能形態。
附錄 B:未來研究問題清單
- Fable / Mythos 5 的長程任務能力是否顯著高於前代模型?
- 這種能力提升主要來自底座模型、推理預算、工具鏈,還是後訓練資料?
- 1M context 是否造成場域智能臨界點?
- 任務軌跡級後訓練是否已成為前沿模型的核心資料來源?
- AI 生成任務軌跡是否正在造成遞歸加速?
- Verifier 是否正在成為 Agent 能力突破的核心選擇壓力?
- 不同模型是否正在形成不同智能吸引子?
- 長程任務閉環是否是工程 AGI 的必要前置條件?
- 當前模型的代理能力是否能穩定轉移到開放世界任務?
- 這次跳躍感是否能被歷史數據驗證,還是只是觀察者錯覺?
附錄 C:一句話版本
2026 年前沿 AI 的可疑跳躍,未必是單一模型突破,而可能是長上下文、推理預算、工具環境、任務軌跡後訓練與 verifier 選擇壓力共同跨過「長程任務閉環」門檻後產生的可用性相變;它不證明 AGI 已完成,但可能標記了認知智能工程中的一個關鍵窗口。
附錄 D:正式發表時可補的參考方向
- Anthropic Fable / Mythos 5 官方發布資料。
- Anthropic Claude models overview 與 API release notes。
- OpenAI GPT-5.5 / ChatGPT release notes。
- 長上下文模型與 retrieval / memory 相關研究。
- Tool use / computer use / web agent / software engineering agent 評估。
- Verifier、process supervision、RL from AI feedback、synthetic data 相關研究。
- Agent benchmark:OSWorld、SWE-bench、Tau-bench、GDPval 類工作流評估。
- 複雜系統中的相變、吸引子、多穩態與臨界轉換研究。
- 認知科學中的 working memory、executive control、task switching 與 error correction 研究。
- AI-generated data、self-play、multi-agent training trajectories 相關研究。
附錄 E:Sonnet 5 訊號與 GPT-5.6 的競爭壓力
本文完成後,外部社群與開發者圈出現 Claude Sonnet 5 可能即將發布、甚至已在部分企業或合作夥伴環境中出現模型標識的訊號。此訊號目前尚未被官方文件完全確認,因此本文不將 Sonnet 5 的能力、發布時間或企業部署狀態視為已證實事實。然而,無論 Sonnet 5 最終能力是否如傳聞中強,其本身已經可以被納入本文所提出的「智能相變觀測窗口」作為一項重要觀察指標。
E.1 Sonnet 5 作為觀察指標
Sonnet 系列在前沿模型產品矩陣中具有特殊位置。相較於最高端模型,Sonnet 通常不是純粹展示能力上限的旗艦層,而是偏向企業部署、API 使用、日常 coding、文件處理、Agent 工作流與成本效益平衡的主力層。因此,如果 Sonnet 5 確認發布,且其能力顯著接近或部分逼近 Fable / Mythos 5 所代表的長程任務閉環能力,則此事件不應被視為單純模型更新,而應被視為能力下沉事件。
換言之,Fable / Mythos 5 代表的是前沿能力上限是否跨過某個臨界點;Sonnet 5 則可能代表這種能力是否開始進入日常企業工作流與可規模部署層。前者是峰值能力訊號,後者是常態化訊號。
本文因此將 Sonnet 5 定義為一個待觀測節點:
若 Sonnet 5 僅為小幅提升,則 F-M 現象仍可能主要停留在旗艦模型與高端模型層。 若 Sonnet 5 顯著逼近 Fable / Mythos 5 的任務閉環能力,則代表前沿能力正在從展示層向部署層下沉。 若 Sonnet 5 成為企業與開發者的主力模型,且長程任務閉環能力穩定可用,則可視為 F 級能力常態化的重要訊號。
E.2 Sonnet 5 常態化的含義
若 Sonnet 5 的能力成為常態化,本文的核心判斷需要進一步升級。
原本的觀測命題是:
Fable / Mythos 5 可能標記前沿模型跨過長程任務閉環的臨界點。
但若 Sonnet 5 也具備相近能力,命題應改寫為:
2026 年的關鍵現象不只是前沿模型跨過長程任務閉環,而是長程任務閉環能力開始從 frontier 層向 workhorse 層下沉。
這是一個更重要的變化。
因為社會真正大規模使用的模型,往往不是最昂貴、最受限制、最具風險的頂級模型,而是價格、速度、穩定性、API 成本與部署門檻都更平衡的中高階模型。當這一層模型跨過可委派門檻,AI 的社會功能才會真正改變。
Fable / Mythos 類模型可能讓人看到能力上限。 Sonnet 5 類模型則可能讓這種能力變成日常工具。
這兩者的差異,就像實驗室原型與工業化產品的差異。前者證明可能性,後者改變世界。
E.3 GPT-5.6 的被迫升級壓力
若 Sonnet 5 的能力如傳聞中接近 Fable / Mythos 5 的部分長程任務能力,則未來 GPT-5.6 將面臨顯著競爭壓力。
這種壓力不是單純 benchmark 壓力,而是工作流壓力。GPT-5.6 若要維持前沿地位,不能只是回答更好、寫作更順或推理分數更高。它必須在以下幾個層面至少追平或超越 Sonnet 5:
- 長程任務保持能力。
- 工具調用與外部環境操作能力。
- 文件級與專案級上下文整合能力。
- Coding / debugging / patch / test 的閉環能力。
- 錯誤恢復與自我修正能力。
- 企業部署中的穩定性與成本效率。
- Agent 工作流中的低漂移執行能力。
- 長上下文中的任務一致性與規格保持能力。
- 多輪任務中的記憶治理與狀態追蹤能力。
- 與人類協作者之間的審核、交接與可追溯性。
如果 GPT-5.6 只是 GPT-5.5 的線性加強,而 Sonnet 5 已經把 Fable / Mythos 級的部分能力下沉到企業主力層,那麼 GPT-5.6 的市場敘事會變得非常困難。它不能只成為「更好的聊天模型」,而必須成為「更強的長程任務代理核心」。
因此,本文提出一個競爭壓力命題:
若 Sonnet 5 將長程任務閉環能力常態化,則 GPT-5.6 不得不超越 Sonnet 5,或至少在某些核心任務上接近 Fable / Mythos 5 類能力;否則它將難以被視為真正跨代模型。
E.4 從單點模型競爭到能力波前競爭
Sonnet 5 訊號也意味著,前沿 AI 競爭可能已經不再是單點模型競爭,而是能力波前競爭。
單點模型競爭問的是:
哪一個模型最強?
能力波前競爭問的是:
哪家公司能最快把 frontier 能力下沉到可部署、可負擔、可穩定使用的主力模型層?
這兩個問題不同。
如果某家公司只有最高端模型很強,但無法讓能力下沉到企業主力模型,社會影響會受限。反之,如果某家公司能把高端能力快速壓縮、蒸餾、後訓練並產品化到 Sonnet 類模型,那它的實際部署優勢可能遠大於單一旗艦模型的 benchmark 優勢。
因此,本文將 2026 年的觀測窗口重新表述為:
F-M-S 現象可能不是單一 frontier model 事件,而是前沿能力從內部基準模型、公開旗艦模型、受限高能力模型,向企業主力模型快速下沉的能力波前。
其中:
- Mythos 代表內部或受信任能力上限。
- Fable 代表經防護後的公開高能力層。
- Sonnet 5 若確認,則代表企業主力部署層。
- GPT-5.6 則可能代表競爭者對此波前的回應壓力。
E.5 觀測標準
未來若要判斷 Sonnet 5 是否真正構成本文所說的常態化節點,應觀察以下標準:
- 是否正式出現在官方模型列表與 API 文件中。
- 是否被企業平台與開發者工具廣泛接入。
- API 價格是否仍接近 Sonnet 系列的 workhorse 定位。
- 是否在 coding、文件處理、Agent workflow 上接近或超越前代 Opus / Sonnet。
- 是否具備長上下文下的穩定任務保持。
- 是否能進行多步工具調用與錯誤恢復。
- 是否在企業日常工作中替代原本的 Sonnet 4.x / Opus 4.x。
- 是否引發 OpenAI、Google、xAI 等競爭者快速調整模型發布節奏。
- 是否造成使用者從「等待旗艦模型」轉向「主力模型已足夠」。
- 是否讓長程任務閉環成為企業 AI 的基本預期。
若上述條件大部分成立,則 Sonnet 5 不只是模型更新,而是 F 級能力常態化的一個重要節點。
E.6 保守結論
目前本文不確定 Sonnet 5 的真實能力是否如傳言中強,也不確定其是否已正式進入企業部署。然而,它已經具備觀察價值。
本文因此保守修正原結論:
Fable / Mythos 5 可能標記前沿能力上限的相變;Sonnet 5 若確認並具備相近長程任務能力,則可能標記此能力向企業主力模型下沉;GPT-5.6 因此將不只面臨模型性能競爭,而是面臨長程任務閉環能力常態化後的代際壓力。
這意味著,2026 年的關鍵不只是「誰的模型最強」,而是:
誰能先把接近 frontier 的長程任務智能,變成可負擔、可部署、可日常使用的工作模型。
這才是真正的相變風險。