← Archive
lm-001217 · 2026-07

高品質資料不會枯竭:從靜態資料存量論到動態資料生產與判準治理

高品質資料不會枯竭:從靜態資料存量論到動態資料生產與判準治理

摘要

作者:Neo.K (許筌崴) 機構:EveMissLab (一言諾科技有限公司) 日期:2026年7月 版本:v0.1 公開論文初稿

近年 AI 研究與產業討論中,常出現「高品質資料即將枯竭」的命題。此命題具有其合理性,尤其當討論對象被限定為公開、可爬取、人體生成的高品質文字資料時,資料存量確實可能成為大型語言模型持續擴展的瓶頸。Epoch AI 的資料枯竭研究即指出,若趨勢持續,語言模型可能在 2026 至 2032 年之間充分利用公開人體生成文字資料的存量。

然而,本文主張,「高品質資料枯竭論」描述的是前生成式社會與早期生成式 AI 階段下的靜態資料存量問題,而不是 AI 時代完整資料生產系統的終局狀態。隨著生成式 AI、Agent 系統、人機協作、合成資料、互動軌跡資料、修正資料、評測資料、邊界樣本與判準資料的出現,高品質資料不會簡單地走向枯竭,而會進入一個新的階段:高品質資料過剩、資料品質混雜、資料選擇成本上升、資料治理成為核心瓶頸。

本文提出「動態資料生產論」,主張未來 AI 資料問題的核心將不再是「有沒有足夠高品質資料」,而是「如何辨識、排序、驗證、標記、吸收與蒸餾高品質資料」。在此框架下,AI 幻覺與模型崩潰不是對合成資料的終局反駁,而是要求資料生產系統必須加入錨點、驗證器、分層標記、判準模型與版本治理。本文進一步將此論點接入宏觀—中觀—微觀標記架構,說明未來真正稀缺的不是資料本身,而是資料判準系統。

關鍵詞: 高品質資料、資料枯竭、合成資料、Agent、模型崩潰、AI 幻覺、宏觀標記法、分層標記、判準治理、資料過剩、動態資料生產


1. 引言

在大型語言模型快速發展後,資料是否會枯竭成為重要議題。許多討論認為,公開網路中的高品質人類文字資料有限,而大型模型訓練需求持續增長,因此 AI 可能很快遇到資料瓶頸。此推論並非沒有根據。若我們只考慮既有網路資料、公開文字語料、書籍、論文、百科、論壇與網頁內容,那麼資料確實是有限存量。

然而,本文主張,這種推論存在一個時代性限制:它主要建立在「資料是既有存量」的前提上。

換言之,資料枯竭論通常將資料理解為:

既有文本
既有網頁
既有書籍
既有論文
既有人類寫作
既有公開語料

但生成式 AI 與 Agent 系統出現後,資料不再只是靜態存量,而開始變成動態生產流。

未來資料來源不只包括舊資料,還包括:

AI 生成資料
人機協作資料
Agent 任務軌跡
AI 修正資料
模型失敗資料
邊界樣本資料
評測資料
驗證資料
使用者互動資料
專家校準資料
理論生成資料
程式執行資料
多模型分歧資料

因此,真正的問題會從:

高品質資料是否會不夠?

轉變為:

高品質資料越來越多時,AI 如何知道哪些資料值得學習?

本文將此轉向稱為:

從靜態資料存量論,轉向動態資料生產與判準治理。


2. 高品質資料枯竭論的合理性

本文並不主張高品質資料枯竭論完全錯誤。相反,它在特定假設下是合理的。

若假設如下:

1. 模型主要依賴公開人類文字資料。
2. 高品質資料主要來自既有語料。
3. AI 生成資料品質不穩定。
4. 合成資料可能導致模型崩潰。
5. 人類新產生資料的速度低於模型訓練需求。
6. 資料品質隨網路污染下降。

那麼資料枯竭論可以成立。

Epoch AI 的研究明確將問題設定為「human-generated public text」,也就是公開、人體生成文字資料的可用存量。其 2024 年分析指出,若趨勢持續,語言模型可能在 2026 至 2032 年之間充分利用這類資料存量。

因此,資料枯竭論真正描述的是:

在公開人類文字資料作為主要訓練來源的框架下,LLM 擴展可能遇到資料存量限制。

這是有效命題。

但它不是完整命題。

因為它沒有充分處理生成式 AI 全面進入社會後,資料生產方式本身會發生的非線性變化。


3. 資料枯竭論的時代限制

資料枯竭論的核心限制在於,它多半使用線性推演:

既有高品質資料有限
模型訓練需求上升
因此資料即將枯竭

這個推演在早期 AI 時代合理,因為當時資料主要來自人類既有創作,AI 主要是資料消耗者,而不是資料生產者、資料修正者、資料評測者與資料擴增者。

但生成式 AI 出現後,資料生產機制改變了。

AI 不只是消耗資料,也開始產生:

草稿
解釋
摘要
變體
反例
程式
測試案例
推理軌跡
任務紀錄
錯誤案例
修正版本
評測樣本
邊界案例

Agent 系統進一步使資料變成行動過程,而不只是文本結果。每一次任務執行,都可能產生:

任務理解資料
規劃資料
工具調用資料
外部查詢資料
錯誤恢復資料
成功軌跡資料
失敗軌跡資料
人類介入資料
最終輸出資料

因此,資料不再只是「既有內容」,而是「被任務、模型、工具、人類與環境共同生成的動態軌跡」。

這使資料問題從存量問題變成流量問題、治理問題與判準問題。


4. 動態資料生產論

本文提出「動態資料生產論」。

動態資料生產論主張,在生成式 AI 與 Agent 系統普及後,高品質資料不再只是既有靜態資料存量,而是由人類、AI、Agent、工具、環境、評測系統與修正流程共同生成的動態資料流。

此動態資料流至少包含七種類型。

4.1 人機協作資料

AI 解放與放大人類能力後,許多人會產生過去無法產生的作品。

例如:

普通人能寫出更完整文章。
工程師能更快產生程式與技術文件。
研究者能更快整理假說與文獻。
創作者能更快生成世界觀與劇本。
創業者能更快形成產品白皮書。

這不是單純 AI 替代人類,而是 AI 放大人類的生成能力。 因此,人類新產生的高品質資料總量可能上升,而不是下降。

4.2 AI 輔助理論生成資料

過去能寫出長篇理論、技術白皮書、方法論論文的人很少。 但 AI 使高密度理論寫作變得更容易。

一個具備高密度想法的人,可以透過 AI 快速產生:

初稿
嚴格版
白皮書
工程版
Agent 規格
中英文版本
摘要版
公開版
論文系列

因此,高品質理論資料不必然枯竭。 相反,理論資料可能進入爆發期。

4.3 Agent 任務軌跡資料

Agent 不只是生成回答,而是執行任務。 每一次任務都能產生資料。

例如:

任務成功軌跡
任務失敗軌跡
工具選擇紀錄
錯誤修正紀錄
外部資料查詢紀錄
中間推理紀錄
人類確認紀錄
最終交付紀錄

這些資料對訓練未來 Agent 極有價值。 因為它們不只是答案,而是「如何完成任務」的過程資料。

4.4 修正資料

AI 產生錯誤後,若被人類、工具、測試器或另一個 AI 修正,就會產生修正資料。

修正資料包含:

原始錯誤
錯誤類型
錯誤位置
修正版本
修正理由
驗證結果

這類資料品質很高,因為它明確展示了「錯誤如何被轉化為正確」。

4.5 評測資料

AI 系統越複雜,越需要評測。 評測本身會生成大量高品質資料:

測試題
邊界題
對抗樣本
評分規則
錯誤分類
通過樣本
失敗樣本
模型比較結果

EvalAssist 等研究已經將合成資料用於 LLM-as-Judge 評估流程中,幫助人類中心的評估標準設計與 criteria refinement。

這意味著,資料不只來自內容生產,也來自評測生產。

4.6 邊界樣本資料

高品質資料不只包括正確答案,也包括接近錯誤邊界的資料。

例如:

部分正確但缺少條件
看似合理但偷換概念
格式正確但事實錯誤
創意高但不可驗證
推理完整但前提錯誤

這些資料對模型學習判準非常有價值。 它們不是垃圾,而是判準訓練資料。

4.7 判準資料

未來最重要的資料之一,是判準資料。

判準資料不是單純回答,而是:

這個回答為什麼可用?
這個回答為什麼不可用?
這個推理錯在哪裡?
這個任務為什麼失敗?
這個理論為什麼值得保留?
這個樣本是否應該進入訓練集?

判準資料是高品質資料中的高品質資料。 因為它訓練的不是模型記憶,而是模型選擇能力。


5. 高品質資料的定義需要更新

資料枯竭論常常預設高品質資料是:

人類已寫好的好文章
高品質書籍
高品質網頁
百科資料
論文資料
程式碼資料

這是舊定義。

在 AI 時代,高品質資料應重新定義為:

能夠穩定提升模型能力、判準能力、任務能力、修正能力、泛化能力或世界理解能力的資料。

依此定義,高品質資料不只包括最終答案,還包括:

高品質問題
高品質錯誤
高品質修正
高品質反例
高品質邊界樣本
高品質任務軌跡
高品質評測規則
高品質人機互動
高品質失敗紀錄
高品質判準標記

這是一個重要轉向:

高品質資料不再等於「漂亮答案」,而是等於「能使模型變得更好的資料」。

因此,錯誤資料也可能是高品質資料。 失敗軌跡也可能是高品質資料。 被打叉的樣本也可能是高品質資料。 只要它能訓練模型更好地判斷、修正、避免錯誤,它就具有高品質資料價值。


6. 合成資料與模型崩潰:不是反駁,而是治理要求

反對高品質資料不會枯竭的人,常會提出合成資料與模型崩潰問題。

這個問題是真實的。 Nature 的 model collapse 研究指出,模型若遞迴地訓練在前代模型生成資料上,可能逐漸遺失原始資料分布資訊,尾部資訊會消失,模型分布會收斂到低變異的點估計。

因此,本文不主張:

AI 生成資料可以無限制取代真實資料。

本文主張的是:

AI 生成資料若要成為高品質資料,必須經過錨定、驗證、標記、篩選、累積與治理。

換言之,模型崩潰不是對合成資料的終局否定,而是提出了一個資料治理要求。

後續研究也指出,不同合成資料使用方式會導致不同結果。若用純合成資料替代真實資料,模型容易崩潰;但若將合成資料與真實資料一起累積,模型可以保持穩定,測試損失不必然發散。

另外,也有研究指出,對合成資料進行驗證可以幫助防止模型崩潰;即使驗證器不完美,也可能有效選出更有用的合成資料。

因此,關鍵不是:

能不能用合成資料?

而是:

如何驗證合成資料?
如何保留真實錨點?
如何避免遞迴污染?
如何標記資料來源?
如何區分可學習資料與不可學習資料?

這正是宏觀—中觀—微觀標記法的用武之地。


7. AI 幻覺不是終局,而是可標記錯誤來源

AI 幻覺是生成式 AI 的核心風險之一。 早期資料枯竭論常將幻覺視為合成資料無法取代人類資料的理由。

此判斷有合理性,但仍不完整。

幻覺確實會污染資料。 但幻覺本身也可以成為資料。

若一個 AI 產生幻覺,而系統能記錄:

幻覺內容
幻覺類型
幻覺來源
錯誤位置
修正方式
驗證過程
避免策略

那麼這筆資料就不再只是污染,而是幻覺治理資料。

換言之:

未標記的幻覺 = 污染
已標記的幻覺 = 訓練資料
已修正的幻覺 = 高品質修正資料
已分類的幻覺 = 判準資料

這是本文的重要命題之一。

未來 AI 系統不是完全不會犯錯,而是錯誤會被記錄、標記、分類、修正、回收與蒸餾。 當錯誤被治理後,它就可能從負資產轉化為正資產。


8. 從資料枯竭到資料過剩

當生成式 AI、Agent、人機協作、評測系統與判準治理共同運作後,高品質資料可能不會枯竭,反而會過剩。

此處的過剩不是指所有資料都好,而是指:

可能有價值的資料太多
候選高品質資料太多
需要審查的資料太多
需要排序的資料太多
需要判準的資料太多

未來 AI 面對的核心問題會變成:

哪些資料值得進入訓練?
哪些資料只適合作為負例?
哪些資料適合作為評測?
哪些資料需要人工審查?
哪些資料是前沿命題?
哪些資料只是語言流暢但沒有價值?
哪些資料是高新穎度但尚未驗證?
哪些資料是低品質重複?

因此,資料問題會從:

資料不足

轉向:

判準不足
選擇不足
治理不足
吸收能力不足

這是非線性的時代轉向。


9. 資料稀缺性的重新定位

本文不否認某些資料仍然稀缺。

例如:

真實世界高成本實驗資料
醫療高品質標註資料
法律高可信案例資料
專家級審查資料
高風險任務真實操作資料
人類深度偏好資料
極端罕見事件資料

這些資料仍然珍貴。

但這不等於高品質資料整體枯竭。 更準確地說,未來會出現資料稀缺性的分化:

資料類型 未來趨勢
公開人類文字資料 可能接近存量上限
普通合成文本 大量過剩
高品質合成資料 依賴驗證與標記
Agent 軌跡資料 快速增加
人機協作資料 快速增加
專家驗證資料 仍然稀缺
真實世界實驗資料 仍然稀缺
判準資料 變得極度重要
邊界樣本資料 會成為高價值資料
修正資料 會快速增值

因此,未來不是資料全部枯竭,也不是資料全部無限。 而是不同資料層級會重新分化。


10. 判準才是真正瓶頸

若高品質候選資料越來越多,真正瓶頸就不是資料,而是判準。

判準包含:

資料是否正確?
資料是否可驗證?
資料是否有新穎性?
資料是否有訓練價值?
資料是否安全?
資料是否可蒸餾?
資料是否可泛化?
資料是否只是重複?
資料是否值得保留?
資料是否應該公開?
資料是否需要人類審查?

因此,未來 AI 資料工程的核心會是:

從資料收集能力,轉向資料判準能力。

這正好接上前序論文提出的宏觀—中觀—微觀標記架構。


11. 宏觀—中觀—微觀標記作為資料過剩時代的治理層

當資料量過大時,不能直接全部進入高成本審查。 需要分層治理。

11.1 宏觀標記:先判斷是否值得進入系統

宏觀標記回答:

這筆資料整體是否可用?
是否值得保留?
是否需要重審?
是否明顯排除?

在資料過剩時代,宏觀標記是第一層生存條件。

11.2 中觀標記:分類資料狀態

中觀標記回答:

這筆資料是哪一類資料?
錯誤類型是什麼?
風險類型是什麼?
用途是什麼?

例如:

事實資料
理論資料
修正資料
幻覺資料
邊界資料
Agent 軌跡資料
高風險資料
前沿假說資料

11.3 微觀標記:定位高價值資料內部結構

微觀標記回答:

具體錯在哪裡?
哪個推論有問題?
哪個句子需要修?
哪個步驟導致任務失敗?
哪個概念值得保留?

微觀標記不應用於全部資料,而應用於高價值、高風險、高分歧、高潛力資料。

11.4 分層治理結論

在高品質資料過剩時代,宏觀—中觀—微觀標記不是附加功能,而是核心基礎設施。

資料生成
↓
宏觀篩選
↓
中觀分類
↓
微觀修正
↓
資料蒸餾
↓
模型更新
↓
新資料生成

這形成動態資料生產閉環。


12. 高品質資料的非線性增殖

早期資料枯竭論常是線性推演:

資料存量有限
模型需求增加
資料會被耗盡

但生成式 AI 社會的資料增長更接近非線性系統:

AI 提高人類生產力
↓
人類產生更多高品質想法與作品
↓
AI 協助擴寫、修正、翻譯、形式化
↓
Agent 產生任務軌跡與工具使用資料
↓
評測系統產生邊界樣本
↓
標記系統產生判準資料
↓
修正系統產生錯誤—修正對
↓
新資料再訓練更強 AI
↓
更強 AI 再放大人類與 Agent 生產力

此過程不是單向消耗,而是循環增殖。

當然,這個循環若沒有治理,可能產生污染與崩潰。 但若有錨點、驗證、標記與判準,則它可能成為高品質資料生成機制。

因此,本文不主張:

資料會自然變好。

本文主張:

資料在治理後,可能形成非線性高品質增殖。

13. 人類潛能放大效應

高品質資料不會枯竭的另一個原因,是 AI 放大了人類潛能。

許多人過去不是沒有想法,而是缺少:

寫作能力
整理能力
程式能力
翻譯能力
論文化能力
視覺化能力
資料分析能力
產品化能力

AI 降低了這些門檻。

這意味著,過去沉默的人類知識、個人經驗、專業直覺、跨領域想法與半成形理論,可能被 AI 轉化為可讀、可存檔、可標記、可討論、可驗證的資料。

因此,AI 不只是生成資料,也是在解放原本未被表達的人類資料。

此處可以提出一個命題:

AI 不只是產生合成資料,也釋放潛在的人類資料。

這是資料枯竭論常忽略的部分。


14. 從「資料」到「資料生態」

高品質資料不應再被理解為孤立樣本,而應被理解為資料生態。

一個完整資料生態包含:

原始資料
生成資料
修正資料
驗證資料
標記資料
評測資料
失敗資料
成功資料
邊界資料
人類偏好資料
Agent 軌跡資料
版本資料
來源資料
判準資料

這些資料彼此連接。

例如,一篇 AI 生成的論文草稿可以衍生出:

人工修正版
AI 嚴格版
錯誤標記版
引用補強版
工程規格版
反方批判版
摘要版
多語言版
測試問題集
判準標記集

因此,一個原始想法不只生成一筆資料,而是可以生成一整個資料族群。

這就是資料生態,而不是資料存量。


15. 對資料枯竭論的修正命題

本文不主張簡單地說:

高品質資料枯竭論錯了。

更精確的修正是:

高品質資料枯竭論在「公開人類文字資料作為主要訓練來源」的假設內具有合理性;但在生成式 AI、Agent、人機協作、合成資料、評測資料、修正資料與判準治理進入社會後,高品質資料將從靜態存量轉化為動態生產流,因此未來核心瓶頸將從資料不足轉向資料辨識、驗證、排序、標記與治理。

這個修正命題避免了兩種極端:

第一種極端是:

資料一定會枯竭,所以 AI 擴展快到終點。

第二種極端是:

AI 可以無限生成資料,所以資料問題不存在。

本文拒絕兩者。

本文主張第三種:

資料不會簡單枯竭,但資料治理會成為核心瓶頸。

16. 實驗設計

若要驗證本文命題,可以設計以下實驗。

16.1 人機協作資料增殖實驗

觀察一組人類創作者、工程師或研究者,在有 AI 協助與無 AI 協助下的資料產出差異。

評估:

產出數量
可用比例
新穎性
可讀性
可驗證性
後續可修正性
AI 標記通過率

假說:

AI 會顯著提高部分人群的高品質資料產出能力。

16.2 Agent 軌跡資料價值實驗

收集 Agent 成功與失敗任務軌跡,標記後訓練模型。

評估:

任務成功率提升
工具使用錯誤下降
失敗原因識別能力
修正能力

假說:

Agent 軌跡資料可成為高品質資料來源。

16.3 幻覺轉化實驗

將 AI 幻覺資料分為三組:

未標記幻覺
中觀標記幻覺
微觀修正幻覺

觀察哪一組最能降低後續模型錯誤。

假說:

被分類與修正的幻覺資料可轉化為高品質判準資料。

16.4 合成資料治理實驗

比較三種訓練方式:

純真實資料
真實資料 + 未標記合成資料
真實資料 + 已驗證合成資料 + 分層標記資料

評估:

模型性能
幻覺率
泛化能力
尾部分布保留
模型崩潰風險

假說:

經過驗證與分層標記的合成資料,會優於未治理的合成資料。

16.5 判準瓶頸實驗

在高資料量環境中,測試限制條件分別為:

資料量不足
標記能力不足
驗證能力不足
判準模型不足
人類審核不足

觀察哪個因素最影響模型品質。

假說:

當資料生成能力上升後,判準與治理能力會成為主要瓶頸。


17. 可反駁條件

本文命題具有可反駁性。若出現以下結果,本文主張將被削弱:

  1. AI 協作沒有顯著提高人類高品質資料產出;
  2. Agent 軌跡資料無法提升模型任務能力;
  3. 合成資料即使經過驗證與標記仍普遍導致模型退化;
  4. 幻覺資料即使被標記與修正,也無法降低未來錯誤;
  5. 邊界樣本與失敗樣本對訓練沒有價值;
  6. 高品質資料增長速度長期低於模型資料需求;
  7. 判準模型無法有效區分高品質與低品質資料;
  8. 資料治理成本高於資料生成收益;
  9. 人機協作生成的大量資料高度同質化,缺乏新穎性。

這些條件確保本文不是不可反駁的樂觀論,而是一個可實驗檢驗的資料工程命題。


18. 風險與限制

18.1 高品質候選資料不等於高品質訓練資料

AI 時代可能產生大量看似高品質的資料,但其中許多可能只是語言流暢、結構完整,卻缺少真實價值。

因此,必須區分:

高品質表象
高品質內容
高品質判準
高品質訓練價值

18.2 資料過剩可能造成選擇災難

資料太多不一定是好事。 若沒有判準,資料過剩會造成:

低品質資料混入
重複資料膨脹
模型同質化
錯誤放大
訓練成本上升
審查成本上升

18.3 生成式資料可能降低原創性

若大量資料由相似模型生成,可能出現風格同質化與概念重複。 因此,資料治理必須追蹤:

來源多樣性
模型多樣性
人類介入程度
新穎性
反例密度
邊界樣本比例

18.4 真實世界資料仍然不可替代

許多資料不能由 AI 幻想生成,例如醫療實驗、物理實驗、真實市場行為、法律判決後果、工程系統故障等。

因此,本文不否認真實世界資料的重要性。 本文只是主張,高品質資料整體不應被等同於公開文字存量。

18.5 判準本身也會偏誤

若判準模型偏誤,資料治理系統會把偏誤制度化。

因此,判準也需要:

版本化
多模型評審
人類抽樣校準
反方測試
前沿命題保留機制

19. 與前序論文系列的關係

本文可視為前序宏觀標記法系列的第五篇。

前序論文提出:

1. 宏觀標記法:
   用通過 / 不通過建立二元判準資料場。

2. 宏觀標記法嚴格版:
   區分 RLHF、RLAIF、LLM-as-Judge 與判準蒸餾。

3. 分層標記架構:
   建立宏觀—中觀—微觀資料標記生產線。

4. 自指型資料治理:
   讓提出標記方法的論文本身也接受同一方法標記。

5. 本文:
   將上述方法放入高品質資料過剩時代,說明未來真正瓶頸不是資料存量,而是資料判準與治理。

因此,本系列的整體邏輯是:

資料會越來越多
↓
需要宏觀標記
↓
需要中觀分類
↓
需要微觀定位
↓
需要自指治理
↓
需要判準治理整個資料生態

20. 結論

本文提出「高品質資料不會枯竭」的修正命題。此命題並不是粗暴否定既有資料枯竭研究,而是指出其適用範圍與時代假設。當討論對象被限定為公開人體生成文字資料時,資料存量限制確實可能成為大型語言模型擴展的瓶頸。然而,在生成式 AI、Agent、人機協作、合成資料、任務軌跡、修正資料、評測資料、邊界資料與判準資料共同出現後,高品質資料不再只是靜態存量,而是逐漸轉化為動態生產流。

因此,未來 AI 資料問題的核心不會只是「資料是否足夠」,而是「如何辨識資料價值」。資料過剩時代真正稀缺的是判準:如何知道哪些資料可學、哪些資料應排除、哪些資料應作為負例、哪些資料需要修正、哪些資料值得保留、哪些資料是前沿命題、哪些資料只是流暢但空洞的生成物。

本文進一步指出,AI 幻覺與模型崩潰不是對生成式資料的終局反駁,而是對資料治理的要求。未標記的幻覺是污染,已標記與修正的幻覺則可能成為高品質訓練資料。未治理的合成資料可能導致退化,但經過錨定、驗證、標記與累積策略的合成資料,可能成為重要資料來源。

最終,本文的核心命題是:

高品質資料不會簡單枯竭;它會從靜態存量轉化為動態生產流。未來真正稀缺的不是資料,而是辨識、驗證、標記、排序、吸收與蒸餾資料的判準系統。


一句話版本

高品質資料枯竭論描述的是公開人類文字資料作為主要訓練來源時的線性存量問題;但在生成式 AI、Agent 與人機協作全面展開後,高品質資料會從靜態存量轉化為動態生產流,真正瓶頸將變成資料辨識、驗證、標記與判準治理。


附錄 A:核心命題

  1. 高品質資料枯竭論在公開人類文字資料框架內有合理性。
  2. 但公開人類文字資料不等於未來全部高品質資料。
  3. 生成式 AI 使資料從靜態存量變成動態生產流。
  4. Agent 會產生大量任務軌跡資料。
  5. AI 會放大人類潛能,使更多人產生高品質作品與理論。
  6. 幻覺若未標記是污染,若被標記與修正則可成為高品質資料。
  7. 合成資料不是無條件可用,必須經過驗證與治理。
  8. 高品質資料的定義應從「人類寫得好」轉向「能使模型變得更好」。
  9. 未來資料問題會從資料不足轉向資料過剩。
  10. 真正稀缺的是判準系統,而不是資料本身。

附錄 B:靜態資料存量論與動態資料生產論比較

面向 靜態資料存量論 動態資料生產論
資料理解 既有存量 持續生成流
主要來源 公開人類文字 人類、AI、Agent、工具、評測、修正
核心問題 資料會不會用完 資料如何被辨識與治理
合成資料 高風險替代品 經治理後的補充與增殖來源
錯誤資料 應排除污染 可標記為負例與修正資料
幻覺 資料污染 可治理的錯誤樣本
稀缺物 高品質文本 高品質判準
未來瓶頸 資料存量 驗證、標記、排序、吸收

附錄 C:高品質資料的新分類

A. 原始高品質資料
    書籍、論文、專家文章、程式碼、真實實驗資料

B. 人機協作高品質資料
    AI 輔助寫作、AI 輔助研究、AI 輔助工程文件

C. Agent 軌跡高品質資料
    任務成功軌跡、工具調用紀錄、錯誤恢復紀錄

D. 修正型高品質資料
    錯誤版本、修正版本、修正理由、驗證結果

E. 評測型高品質資料
    測試題、邊界案例、對抗樣本、評分規則

F. 判準型高品質資料
    通過 / 不通過、錯誤碼、微觀標記、審查理由

G. 前沿理論高品質資料
    尚未成熟但內部一致、可形式化、可工程化的理論文本

附錄 D:資料過剩時代的治理流程

資料生成
↓
來源記錄
↓
宏觀標記
↓
中觀分類
↓
微觀標記
↓
驗證器檢查
↓
人類抽樣審查
↓
資料路由
    ├── 訓練資料
    ├── 負例資料
    ├── 評測資料
    ├── 修正資料
    ├── 前沿資料
    └── 暫存資料
↓
模型更新
↓
新資料生成

附錄 E:資料枯竭論的修正公式

舊命題:

Human_Public_Text_Stock is finite.
Model_Data_Demand increases.
Therefore, high-quality data will run out.

本文修正:

Human_Public_Text_Stock is finite.
But High_Quality_Data is not identical to Human_Public_Text_Stock.

High_Quality_Data =
Human_Data
+ Human_AI_Collaborative_Data
+ Agent_Trajectory_Data
+ Verified_Synthetic_Data
+ Correction_Data
+ Evaluation_Data
+ Boundary_Data
+ Criterion_Data

Therefore:
The main bottleneck shifts from data stock to data governance.