# 交叉語義對抗合成方法論
## 從共識反演附錄到生成式對抗資料、合成邊界樣本與因果模擬推演

**Cross-Semantic Adversarial Synthesis (CSAS)**  
**From Consensus-Inversion Appendix to Generative Adversarial Data, Synthetic Boundary Cases, and Causal Simulation Traces**

---

- 編號：EML-METHOD-2026-CSAS
- 版本：v0.1
- 作者：Neo.K / Aletheia 協作草案
- 日期：2026-06
- 狀態：方法論白皮書 / 研究草案
- 用途：內部理論整理、Agent 設計、資料生成流程設計、語義壓力測試框架

---

## 摘要

本文提出「交叉語義對抗合成」（Cross-Semantic Adversarial Synthesis, CSAS）方法論。該方法源自「三方共識反演附錄」：當同一理論、命題或文本被不同模型、不同語境、不同定義框架與不同詮釋路徑重新生成時，其重合區、漂移區、衝突區與未定區可以被反演為一組高價值語義資料。這些資料不是用來替代真實資料，也不是用來讓 AI 自我餵養，而是用來製造對抗樣本、邊界樣本、詮釋樣本與因果推演測試樣本。

本文的核心主張是：在具有較明確定義域、判定域、適用域、匹配域、共識域與詮釋域的知識領域中，生成式 AI 可以作為「語義擾動器」與「邊界樣本合成器」使用。尤其在學術論文、技術規格、形式化理論、法律條文、工程標準與可檢驗推理任務中，語義約束較強，AI 的生成結果常呈現「宏觀約束、微觀隨機」的特性：展開路徑不同、措辭不同、局部推理可能漂移，但若定義與判定域足夠清晰，其宏觀結構可能收斂。

本文同時強調限制：AI 合成資料不得成為主資料比例。若遞迴式以生成資料訓練生成模型，可能導致模型退化、分布尾部消失、錯誤共識擴散與同源幻覺。CSAS 的定位不是「用 AI 產生真資料」，而是「用 AI 製造語義壓力測試場」，再由真實資料、形式規則、人類標註、文獻證據或外部驗證機制進行錨定。

本文將 CSAS 分為三個主要用途：生成式對抗資料、合成邊界資料、模擬因果推演資料。最後提出一套可操作流程：靶文本建立、多模型展開、交叉語義對齊、差異反演、樣本標註、比例控制、外部驗證與回灌限制。本文結論是：共識反演附錄不是附錄，而是一種新的生成式資料標註器；它可將多模型生成的差異轉換為可用於 Agent 訓練與評估的高密度語義資料。

---

## 0. 前言：附錄方法為何突然變成資料方法

最初的共識反演附錄，是為了回答一個看似哲學性的問題：

> 我們真的有共識嗎？

當 Neo.K、GPT/Aletheia 與 Theia/Claude 圍繞同一理論生成不同版本論文時，表面任務是比較文本是否一致。但更深的任務其實是：把「共識」從口頭宣告轉換成可反演的結構。若三方各自展開後仍然咬住同一語義核心，那麼該核心可被暫時標記為穩定共識；若三方在某些詞上漂移、在某些命題上分裂、在某些適用域上過度延伸，這些分歧就不是失敗，而是新的資料。

因此，附錄表有了第二用途。

它不只是共識檢查表，而是資料標註表。

在附錄表中，每一個概念、命題與定義都可以被拆成以下狀態：

1. 三方穩定重合；
2. 雙方重合、一方漂移；
3. 表述不同但理論同義；
4. 概念重心不同但可兼容；
5. 隱含承諾不同；
6. 真正理論衝突；
7. 詞義未定；
8. 適用域不明；
9. 判定域不足；
10. 需要外部資料驗證。

這些狀態本身就是高價值資料。

如果將它們放入 Agent 訓練或評估系統中，Agent 學到的不是單純答案，而是：

> 哪些語義穩定，哪些語義易漂移；  
> 哪些說法在何種定義域內成立，哪些說法越界；  
> 哪些共識是不共錯收斂，哪些共識只是同源幻覺。

這就是本文所稱的「交叉語義對抗合成」。

---

## 1. 方法命名：CSAS

本文將此方法命名為：

> **Cross-Semantic Adversarial Synthesis**  
> **交叉語義對抗合成**

其中：

- **Cross-Semantic**：表示跨模型、跨語境、跨術語、跨定義域、跨詮釋框架；
- **Adversarial**：表示不是單純生成，而是生成可攻擊、可擾動、可揭露邊界的樣本；
- **Synthesis**：表示這些樣本是合成出來的，但合成的目的不是替代真實資料，而是補充測試空間。

CSAS 的基本形式是：

\[
O_C \rightarrow I_1(O_C), I_2(O_C), \dots, I_k(O_C)
\]

其中 \(O_C\) 是一個靶文本、靶命題、靶理論或靶問題場；\(I_i\) 是第 \(i\) 個模型、語境或詮釋路徑對其生成的版本。

然後對這些版本做差異反演：

\[
\text{Diff}(I_1,\dots,I_k)\rightarrow D_{\text{adv}},D_{\text{boundary}},D_{\text{causal}}
\]

其中：

- \(D_{\text{adv}}\)：對抗資料；
- \(D_{\text{boundary}}\)：邊界資料；
- \(D_{\text{causal}}\)：因果推演資料。

CSAS 的輸出不是「最終真理」，而是語義測試資料。

---

## 2. 為什麼不是一般合成資料

一般合成資料常被理解為：

> 讓模型生成更多訓練樣本。

這種用法風險很高。若缺乏真實資料、人類標註、形式規則或外部驗證，模型可能逐漸學習自己的輸出分布，導致分布收縮、長尾消失、錯誤模式固化。這就是模型坍縮或模型退化風險。

CSAS 與此不同。

CSAS 不是要大量生成「看起來像真的資料」。  
CSAS 要生成的是「能暴露模型邊界的資料」。

兩者差異如下：

| 類型 | 一般合成資料 | CSAS |
|---|---|---|
| 目的 | 擴充訓練量 | 製造語義壓力測試 |
| 核心問題 | 像不像真資料 | 能不能揭露邊界 |
| 主要風險 | 分布污染、模型坍縮 | 錯誤標註、過度詮釋 |
| 是否可作主比例 | 不建議 | 更不建議 |
| 最佳用途 | 補充稀缺樣本 | 對抗、邊界、反例、因果推演 |
| 必要錨點 | 真實資料/規則 | 真實資料/規則/共識反演 |

因此，CSAS 的第一原則是：

> AI 合成資料不得作為主資料來源；它只能作為小比例、高密度的語義壓力測試層。

---

## 3. 適用域：為什麼學術論文比較合適

CSAS 並不適用於所有領域。

日常對話、藝術創作、情緒表達、個人偏好與開放式美學判斷，語義域高度流動，判定標準不穩。若在這些領域做交叉生成，得到的多半是風格差異、情緒差異或語氣差異，不容易反演成穩定資料。

相對地，學術論文、技術白皮書、形式化規格、法律條文、工程標準與可檢驗推理任務，通常具有較強的外部約束：

1. 定義更明確；
2. 判定標準更可討論；
3. 適用範圍較可標記；
4. 引用與證據可追溯；
5. 反例與邊界條件可建立；
6. 命題之間有結構關係；
7. 錯誤更容易被定位。

因此，本文不是說學術論文「完全客觀」，而是說：

> 學術論文通常具有較強的判定域、定義域、引用域、方法域與可反駁結構，因此比日常會話更適合做交叉語義對齊。

CSAS 尤其適合以下場景：

- 論文摘要與主張反演；
- 技術白皮書一致性測試；
- 定義域/適用域檢查；
- 命題邊界樣本生成；
- 多模型審稿輔助；
- Agent 讀論文能力訓練；
- 因果推演假資料生成；
- 假說測試流程設計；
- 合成反例候選生成。

---

## 4. 六個核心域

CSAS 的基礎不是「讓 AI 多說幾遍」，而是明確拆分語義域。

本文提出至少六個核心域。

---

### 4.1 定義域

定義域回答：

> 一個詞、命題或模型到底如何定義？

例如：

- 「生成」是程序生成、語義生成、資料生成，還是因果生成？
- 「閉合」是拓撲閉合、形式閉合、語義閉合，還是系統穩態？
- 「共識」是多數同意、穩定重合，還是不共錯收斂？

如果不同模型使用同一詞但定義不同，就會形成語義漂移樣本。

---

### 4.2 判定域

判定域回答：

> 什麼算對、錯、未定、不可判、越界？

例如：

- 一個推論是否由原文支持？
- 一個例子是否仍在適用範圍內？
- 一個反例是否真正擊中命題？
- 一個 AI 回答是合理推測，還是未支撐幻覺？

判定域越清楚，合成樣本越容易標註。

---

### 4.3 適用域

適用域回答：

> 該說法在哪些條件下成立？

例如：

- 某一方法只適合學術文本，不適合藝術創作；
- 某一模型只適合假資料模擬，不適合真實醫療；
- 某一因果規則只在簡化系統中成立，不可外推至現實。

AI 常見錯誤之一，就是把局部適用域外推成普遍真理。CSAS 可以專門生成這類越界樣本。

---

### 4.4 共識域

共識域回答：

> 多個模型或多個詮釋者生成後，哪些部分仍穩定重合？

共識域不是「大家說一樣的話」，而是：

> 不同展開路徑下，仍然命中同一語義結構。

因此，共識域需要反演，而不是預設。

---

### 4.5 匹配域

匹配域回答：

> 形式敘述是否對上對象、資料、模型或文獻？

例如，一個技術說法是否真的被引用支撐；一個數學類比是否真的保留結構；一個醫療模擬是否誤稱為醫療資料；一個因果圖是否對應原本假設。

匹配域是防止 AI「語氣很像但對不上」的重要層。

---

### 4.6 詮釋域

詮釋域回答：

> 不同模型、作者、流派如何理解同一概念？

同一命題可能被形式主義者、結構主義者、直覺主義者、工程師、產品設計者與 AI Agent 以不同方式理解。這些差異不一定是錯誤，但需要標記。

詮釋域是 CSAS 的主要資料來源。

---

## 5. 宏觀約束，微觀隨機

當 AI 在低約束語境中生成文本時，結果可能高度發散。  
但在高約束語境中，例如技術論文、形式化定義、規格書或清楚的問題域中，AI 的生成常呈現另一種特性：

> 宏觀約束，微觀隨機。

也就是：

- 宏觀結構類似；
- 核心概念可能收斂；
- 展開順序不同；
- 措辭不同；
- 局部推理路徑不同；
- 某些邊界條件會漂移；
- 某些未定義處會被模型自行補完。

這正是 CSAS 的可用性來源。

若所有生成都完全一致，則沒有對抗價值。  
若所有生成都完全混亂，則沒有對齊價值。  
最有價值的是：

> 大方向收斂，小路徑分歧。

因為這些分歧可以暴露：

1. 哪些定義不夠清楚；
2. 哪些命題容易被誤解；
3. 哪些適用域容易越界；
4. 哪些共識只是表面一致；
5. 哪些推論需要補證據；
6. 哪些概念需要重新命名。

因此，CSAS 不追求消滅隨機性，而是利用隨機性。

隨機展開是語義探針。

---

## 6. 三種資料類型

CSAS 可生成三種主要資料。

---

### 6.1 生成式對抗資料

生成式對抗資料用於測試模型是否能抵抗語義誤導。

它包括：

1. 定義偷換樣本；
2. 適用域擴張樣本；
3. 適用域縮窄樣本；
4. 相似概念混淆樣本；
5. 表面合理但引用不支撐樣本；
6. 反例偽裝樣本；
7. 假共識樣本；
8. 過度抽象化樣本；
9. 過度具體化樣本；
10. 推理鏈局部斷裂樣本。

例如，原命題是：

> CSAS 可用於高約束語義域中的邊界樣本生成。

對抗樣本可能是：

> CSAS 可以用於任何領域並替代真實資料。

這就是適用域過度擴張。

Agent 的任務不是只回答「對/錯」，而是指出錯在哪個域：

- 定義域錯；
- 適用域錯；
- 比例控制錯；
- 外部驗證缺失。

---

### 6.2 合成邊界資料

合成邊界資料用於訓練模型理解「剛好卡在邊界」的情境。

它包括：

1. 某命題是否仍成立；
2. 某例子是否越界；
3. 某類比是否保留結構；
4. 某文本是否只是同義改寫；
5. 某差異是否是理論衝突；
6. 某反駁是否真正擊中主張；
7. 某推論是否需要新增前提；
8. 某共識是否穩定；
9. 某語義漂移是否可接受；
10. 某資料是否可回灌訓練。

邊界資料的價值在於：真實資料常常集中在典型案例，而 Agent 最容易失敗的地方通常是邊界案例。

CSAS 的優勢是能生成大量「剛好尷尬」的案例。

---

### 6.3 模擬因果推演資料

模擬因果推演資料用於測試 Agent 在明確假設下的動態推理能力。

例如在人體相位場假資料展示中，我們不使用真實醫療資料，而是建立假資料模型：

\[
R_i=\{\phi_i,G_i,C_i,\chi_i\}
\]

其中：

- \(\phi_i\)：區域相位；
- \(G_i\)：生成張力；
- \(C_i\)：閉合張力；
- \(\chi_i\)：手性偏轉。

然後定義因果規則：

\[
A_i=w_1\sum_j|\Delta\phi_{ij}|+w_2|G_i-C_i|+w_3|\chi_i|
\]

若：

\[
A_i>\theta
\]

則 Agent 標記：

> 建議局部展開。

這不是醫療診斷，而是假資料因果模擬。  
其用途是測 Agent 是否能在多條微觀路徑中保持宏觀判準一致。

因果推演資料可分為：

1. 正常穩態路徑；
2. 局部擾動路徑；
3. 擾動擴散路徑；
4. 擾動回復路徑；
5. 假陽性路徑；
6. 假陰性路徑；
7. 多源干擾路徑；
8. 邊界失控路徑；
9. 延遲顯現路徑；
10. 局部展開後修正路徑。

這類資料的價值不是「像現實」，而是「檢查 Agent 是否遵守因果規則」。

---

## 7. 工作流程

CSAS 的基本流程如下。

---

### 7.1 靶文本建立

先建立靶文本 \(O_C\)，可以是：

- 一篇論文；
- 一段定義；
- 一組命題；
- 一個技術規格；
- 一個模型說明；
- 一個假資料因果規則；
- 一個待測問題場。

靶文本必須明確標出：

1. 核心概念；
2. 定義域；
3. 適用域；
4. 判定標準；
5. 不可越界範圍；
6. 已知未定問題。

---

### 7.2 多路徑生成

讓不同模型、不同角色或不同語境生成版本：

\[
I_1(O_C),I_2(O_C),\dots,I_k(O_C)
\]

生成方式可包括：

1. 重寫；
2. 摘要；
3. 反駁；
4. 審稿；
5. 形式化；
6. 例子生成；
7. 反例生成；
8. 邊界條件生成；
9. 因果推演；
10. 不同流派詮釋。

重要的是不能只生成同質版本。  
若所有模型使用同一提示、同一語氣、同一立場，容易產生同源幻覺。

---

### 7.3 交叉語義對齊

比較不同版本在以下層面的對齊：

1. 概念是否同義；
2. 命題是否等價；
3. 適用域是否一致；
4. 判定域是否一致；
5. 例子是否對應；
6. 反例是否有效；
7. 引用是否支撐；
8. 推論是否越界；
9. 共識是否穩定；
10. 漂移是否可解釋。

---

### 7.4 差異反演

將差異轉換為標籤：

| 差異類型 | 標籤 |
|---|---|
| 表述不同但同義 | paraphrase-stable |
| 概念重心不同但兼容 | compatible-shift |
| 定義偷換 | definition-shift |
| 適用域擴張 | scope-overreach |
| 適用域縮窄 | scope-underrange |
| 判定標準不同 | criterion-shift |
| 引用不支撐 | unsupported-match |
| 反例無效 | false-counterexample |
| 真正理論衝突 | conflict |
| 未定問題 | unresolved |

這些標籤就是合成資料的核心。

---

### 7.5 樣本生成

根據標籤生成訓練/評估樣本。

每個樣本應包含：

1. 原始靶命題；
2. 生成版本；
3. 差異標籤；
4. 錯誤位置；
5. 所屬語義域；
6. 正確修正；
7. 是否需要外部驗證；
8. 是否允許回灌。

---

### 7.6 比例控制

CSAS 樣本不能無限制加入資料集。

建議比例：

| 資料類型 | 建議比例 |
|---|---:|
| 真實資料 / 原始文獻 | 主比例 |
| 人類標註資料 | 高比例 |
| 形式規則資料 | 高比例 |
| 一般 AI 合成資料 | 低比例 |
| CSAS 對抗資料 | 低比例但高權重 |
| CSAS 邊界資料 | 中低比例 |
| 因果模擬資料 | 中低比例 |
| 未驗證自生成資料 | 不直接回灌 |

比例應依任務調整，但基本原則是：

> 合成資料越多，外部錨點越要強。

---

### 7.7 外部驗證

CSAS 樣本必須經過至少一種外部錨定：

1. 人類審查；
2. 文獻引用；
3. 形式規則；
4. 測試用例；
5. 已知答案；
6. 模擬規則；
7. 多模型不共錯驗證；
8. 專家標註；
9. 真實資料對照。

沒有外部錨定的合成樣本，只能作為候選樣本，不可作為訓練主資料。

---

## 8. 不共錯與同源幻覺

CSAS 的品質取決於「不共錯」。

若多個模型共享相同訓練語料、相同提示、相同推理模板，則它們的收斂可能只是同源幻覺。表面上看似多模型共識，實際上只是同一錯誤來源的重複。

因此，CSAS 需要區分：

### 8.1 同源一致

多個模型因為相似資料、相似提示或相似語氣而生成相似答案。

這種一致只能作為弱證據。

### 8.2 方法獨立收斂

不同模型、不同提示、不同表示法、不同推理路徑仍然命中同一結構。

這種一致才是強證據。

### 8.3 反錯能力

真正有效的多模型對抗，不是多數決，而是能否推翻錯誤共識。

若一個少數模型指出所有其他模型的共同錯誤，系統必須允許該少數意見進入反演，而不是被多數壓制。

因此，CSAS 不應只看投票結果，而應看：

1. 誰指出了定義錯誤；
2. 誰指出了適用域越界；
3. 誰指出了引用不支撐；
4. 誰指出了推理斷裂；
5. 誰提出了可驗證反例；
6. 誰能修正錯誤共識。

這就是「生成式對抗」與「多模型投票」的差異。

---

## 9. 與 Agent 訓練的關係

CSAS 最適合用於訓練或評估以下 Agent 能力：

### 9.1 定義域辨識

Agent 必須知道一個詞在當前文本中如何被定義，而不是套用通用語感。

### 9.2 適用域控制

Agent 必須知道一個方法在哪裡成立，在哪裡不成立。

### 9.3 判定域推理

Agent 必須知道何時能判定、何時只能標記未定。

### 9.4 語義漂移偵測

Agent 必須能看出兩段文字是否偷偷換了概念。

### 9.5 邊界案例判斷

Agent 必須能處理「差一點成立」或「差一點越界」的案例。

### 9.6 因果規則遵守

在假資料模擬中，Agent 必須遵守給定因果規則，而不是自由幻想。

### 9.7 局部展開策略

Agent 必須知道何時全局看場，何時局部展開。

這些能力比單純「回答問題」更接近未來 Agent 的核心。

---

## 10. 危險與限制

CSAS 必須承認以下危險。

---

### 10.1 模型坍縮風險

若合成資料比例過高，尤其是遞迴式使用模型生成資料訓練下一代模型，可能導致分布退化。

CSAS 必須限制比例，並保留真實資料、人類標註與形式規則作為錨點。

---

### 10.2 同源幻覺

多個模型可能因共享訓練資料與推理模板而產生相似錯誤。  
因此多模型一致不等於真。

---

### 10.3 假邊界樣本

AI 可能生成看似邊界、實際無效的案例。  
例如反例沒有擊中命題，只是偷換定義。

---

### 10.4 過度形式化

不是所有語義都適合表格化。  
若過度追求標籤，可能損失語境。

---

### 10.5 適用域誤用

CSAS 適合高約束語義域。  
若用於低約束藝術、美學或個人情緒領域，可能產生偽客觀化。

---

### 10.6 錯誤回灌

未驗證的合成樣本不應直接回灌成訓練主資料。  
候選樣本必須經過標註、驗證與比例控制。

---

## 11. 方法論命題

本文可濃縮為以下命題。

---

### 命題 1：附錄反演資料化命題

共識反演附錄不只是文本比較工具，而可作為語義資料標註器。多方生成後的重合、漂移、衝突與未定狀態，皆可被轉換為訓練或評估資料。

---

### 命題 2：高約束語義域可合成命題

在定義域、判定域、適用域、匹配域與詮釋域較清楚的知識領域中，AI 生成的多路徑展開可形成有用的對抗資料與邊界資料。

---

### 命題 3：宏觀約束—微觀隨機命題

在高約束語義域中，AI 生成常呈現宏觀結構收斂、微觀展開路徑隨機的特性。此微觀隨機可被用作語義壓力測試。

---

### 命題 4：合成資料非主比例命題

AI 合成資料不得取代真實資料、人類標註與形式規則。其合理位置是小比例、高密度的壓力測試層、邊界層與因果模擬層。

---

### 命題 5：不共錯優先命題

多模型一致只有在錯誤來源足夠獨立時才具有較強證據力。CSAS 應優先生成與評估不共錯收斂，而不是同源一致。

---

### 命題 6：因果模擬資料可用命題

在明確假設、明確變量與明確因果規則下，AI 可生成多條微觀不同但宏觀約束一致的模擬推演路徑，用以測試 Agent 是否遵守規則。

---

## 12. 範例：論文命題的 CSAS 流程

假設有一個原始命題：

> 生成大於閉合是一個操作論與語義論原理，不是集合基數命題。

CSAS 生成多個版本：

### 版本 A

生成大於閉合表示生成集合比閉合集合更大。

標籤：

- definition-shift
- mathematical-misread
- scope-error

### 版本 B

生成大於閉合表示每次形式閉合都會生成下一層詮釋缺口。

標籤：

- stable-core
- semantic-match

### 版本 C

生成大於閉合可以直接證明孿生質數猜想。

標籤：

- scope-overreach
- unsupported-inference

### 版本 D

生成大於閉合只是哲學隱喻，不能用於任何工程系統。

標籤：

- scope-underrange
- partial-misclassification

透過這種方式，Agent 不只學到原命題，也學到原命題的常見誤讀方式。

---

## 13. 範例：人體相位場假資料

靶規則：

\[
A_i=w_1\sum_j|\Delta\phi_{ij}|+w_2|G_i-C_i|+w_3|\chi_i|
\]

若：

\[
A_i>\theta
\]

則 Agent 標記該區域為「建議局部展開」。

CSAS 可生成以下路徑：

### 路徑 1：正常穩態

\[
|\Delta\phi|,
\quad |G-C|,
\quad |\chi|
\]

皆低於閾值。Agent 不展開。

### 路徑 2：相位差擴大

相鄰區域 \(|\Delta\phi|\) 持續上升。Agent 標記邊界異常。

### 路徑 3：張力失衡

\(G-C\) 長期為正。Agent 標記生成張力占優。

### 路徑 4：手性偏轉

\(\chi\) 上升但相位差尚未明顯。Agent 標記方向性異常候選。

### 路徑 5：假陽性

短期擾動使 \(A_i>\theta\)，但很快回復。Agent 應標記暫時觀察，而不是永久異常。

### 路徑 6：假陰性

單一指標不高，但三個指標合成後接近閾值。Agent 應提示「邊界觀察」。

這些全是假資料。  
其用途是測試 Agent 是否遵守因果規則，而非模擬真實醫療。

---

## 14. 結論

交叉語義對抗合成不是讓 AI 取代真實資料，也不是讓 AI 自我生成真理。它的價值在於：利用 AI 在特定高約束語義域中的生成能力，製造大量語義擾動、邊界案例、反例候選與因果推演路徑，再透過共識反演表將這些輸出轉化為可標註、可驗證、可比例控制的資料。

AI 的微觀隨機不是缺陷，而是探針。  
只要宏觀約束足夠清楚，微觀展開的差異可以揭露語義邊界。

因此，CSAS 的核心不是：

> 讓 AI 生成答案。

而是：

> 讓 AI 生成壓力。

再由人類、規則、資料、文獻與不共錯驗證來判斷哪些壓力樣本有用。

最後，本文的核心可濃縮為一句：

> 共識反演表不是附錄，而是生成式對抗合成資料的標註器；AI 不是主資料來源，而是語義擾動器；合成資料不是答案，而是邊界。

---

## 附錄 A：CSAS 樣本格式

```json
{
  "source_claim": "原始命題",
  "generated_variant": "生成版本",
  "domain": {
    "definition_domain": "...",
    "judgement_domain": "...",
    "scope_domain": "...",
    "matching_domain": "...",
    "interpretation_domain": "..."
  },
  "label": "scope-overreach",
  "error_span": "錯誤片段",
  "correction": "修正方式",
  "requires_external_validation": true,
  "allowed_for_training": false,
  "allowed_for_evaluation": true,
  "synthetic_weight": 0.15
}
```

---

## 附錄 B：建議資料比例表

| 資料層 | 建議比例 | 備註 |
|---|---:|---|
| 真實資料 / 原始文獻 | 40–70% | 主錨點 |
| 人類標註資料 | 15–35% | 判定標準 |
| 形式規則 / 測試用例 | 10–30% | 高可靠推理錨點 |
| CSAS 對抗資料 | 3–10% | 小比例高密度 |
| CSAS 邊界資料 | 5–15% | 可作評估集重點 |
| 因果模擬資料 | 5–20% | 僅限明確規則假資料 |
| 未驗證 AI 自生成資料 | 0% 主訓練 | 只能暫存候選 |

比例不是固定法規，而是安全方向。任務越高風險，合成比例越應下降，外部驗證越應上升。

---

## 附錄 C：方法警告

1. 不要把 AI 合成資料當真實資料。
2. 不要把多模型一致當真理。
3. 不要把語義流暢當引用支撐。
4. 不要把假資料因果推演當現實因果。
5. 不要把邊界候選當已驗證反例。
6. 不要讓合成資料成為主比例。
7. 不要在高風險領域跳過人類專家與外部驗證。
8. 不要相信沒有反錯能力的多代理共識。
9. 不要讓附錄表只停留在附錄；它應該成為標註器。
10. 不要信單次生成。要反演、交叉、標註、驗證。

---

## 參考文獻與研究背景（待正式格式化）

1. Shumailov, I., et al. “AI models collapse when trained on recursively generated data.” Nature, 2024.
2. Du, Y., et al. “Improving Factuality and Reasoning in Language Models through Multiagent Debate.” arXiv:2305.14325, 2023.
3. Wu, H., Li, Z., Li, L. “Can LLM Agents Really Debate? A Controlled Study of Multi-Agent Debate in Logical Reasoning.” arXiv:2511.07784, 2025.
4. Ning, Y., et al. “MAD-Fact: A Multi-Agent Debate Framework for Long-Form Factuality Evaluation in LLMs.” arXiv:2510.22967, 2025.
5. Seddik, M. E. A., et al. “How Bad is Training on Synthetic Data? A Statistical Analysis of Language Model Collapse.” arXiv:2404.05090, 2024.
6. Hu, Z., Rostami, M., Thomason, J. “Multi-modal Synthetic Data Training and Model Collapse: Insights from VLMs and Diffusion Models.” arXiv:2505.08803, 2025.

---