交叉語義對抗合成方法論

從共識反演附錄到生成式對抗資料、合成邊界樣本與因果模擬推演

Cross-Semantic Adversarial Synthesis (CSAS) From Consensus-Inversion Appendix to Generative Adversarial Data, Synthetic Boundary Cases, and Causal Simulation Traces

編號：EML-METHOD-2026-CSAS
版本：v0.1
作者：Neo.K / Aletheia 協作草案
日期：2026-06
狀態：方法論白皮書 / 研究草案
用途：內部理論整理、Agent 設計、資料生成流程設計、語義壓力測試框架

摘要

本文提出「交叉語義對抗合成」（Cross-Semantic Adversarial Synthesis, CSAS）方法論。該方法源自「三方共識反演附錄」：當同一理論、命題或文本被不同模型、不同語境、不同定義框架與不同詮釋路徑重新生成時，其重合區、漂移區、衝突區與未定區可以被反演為一組高價值語義資料。這些資料不是用來替代真實資料，也不是用來讓 AI 自我餵養，而是用來製造對抗樣本、邊界樣本、詮釋樣本與因果推演測試樣本。

本文的核心主張是：在具有較明確定義域、判定域、適用域、匹配域、共識域與詮釋域的知識領域中，生成式 AI 可以作為「語義擾動器」與「邊界樣本合成器」使用。尤其在學術論文、技術規格、形式化理論、法律條文、工程標準與可檢驗推理任務中，語義約束較強，AI 的生成結果常呈現「宏觀約束、微觀隨機」的特性：展開路徑不同、措辭不同、局部推理可能漂移，但若定義與判定域足夠清晰，其宏觀結構可能收斂。

本文同時強調限制：AI 合成資料不得成為主資料比例。若遞迴式以生成資料訓練生成模型，可能導致模型退化、分布尾部消失、錯誤共識擴散與同源幻覺。CSAS 的定位不是「用 AI 產生真資料」，而是「用 AI 製造語義壓力測試場」，再由真實資料、形式規則、人類標註、文獻證據或外部驗證機制進行錨定。

本文將 CSAS 分為三個主要用途：生成式對抗資料、合成邊界資料、模擬因果推演資料。最後提出一套可操作流程：靶文本建立、多模型展開、交叉語義對齊、差異反演、樣本標註、比例控制、外部驗證與回灌限制。本文結論是：共識反演附錄不是附錄，而是一種新的生成式資料標註器；它可將多模型生成的差異轉換為可用於 Agent 訓練與評估的高密度語義資料。

0. 前言：附錄方法為何突然變成資料方法

最初的共識反演附錄，是為了回答一個看似哲學性的問題：

我們真的有共識嗎？

當 Neo.K、GPT/Aletheia 與 Theia/Claude 圍繞同一理論生成不同版本論文時，表面任務是比較文本是否一致。但更深的任務其實是：把「共識」從口頭宣告轉換成可反演的結構。若三方各自展開後仍然咬住同一語義核心，那麼該核心可被暫時標記為穩定共識；若三方在某些詞上漂移、在某些命題上分裂、在某些適用域上過度延伸，這些分歧就不是失敗，而是新的資料。

因此，附錄表有了第二用途。

它不只是共識檢查表，而是資料標註表。

在附錄表中，每一個概念、命題與定義都可以被拆成以下狀態：

三方穩定重合；
雙方重合、一方漂移；
表述不同但理論同義；
概念重心不同但可兼容；
隱含承諾不同；
真正理論衝突；
詞義未定；
適用域不明；
判定域不足；
需要外部資料驗證。

這些狀態本身就是高價值資料。

如果將它們放入 Agent 訓練或評估系統中，Agent 學到的不是單純答案，而是：

哪些語義穩定，哪些語義易漂移；

哪些說法在何種定義域內成立，哪些說法越界；

哪些共識是不共錯收斂，哪些共識只是同源幻覺。

這就是本文所稱的「交叉語義對抗合成」。

1. 方法命名：CSAS

本文將此方法命名為：

Cross-Semantic Adversarial Synthesis

交叉語義對抗合成

其中：

Cross-Semantic：表示跨模型、跨語境、跨術語、跨定義域、跨詮釋框架；
Adversarial：表示不是單純生成，而是生成可攻擊、可擾動、可揭露邊界的樣本；
Synthesis：表示這些樣本是合成出來的，但合成的目的不是替代真實資料，而是補充測試空間。

CSAS 的基本形式是：

\[ O_C \rightarrow I_1(O_C), I_2(O_C), \dots, I_k(O_C) \]

其中 \(O_C\) 是一個靶文本、靶命題、靶理論或靶問題場；\(I_i\) 是第 \(i\) 個模型、語境或詮釋路徑對其生成的版本。

然後對這些版本做差異反演：

\[ \text{Diff}(I_1,\dots,I_k)\rightarrow D_{\text{adv}},D_{\text{boundary}},D_{\text{causal}} \]

其中：

\(D_{\text{adv}}\)：對抗資料；
\(D_{\text{boundary}}\)：邊界資料；
\(D_{\text{causal}}\)：因果推演資料。

CSAS 的輸出不是「最終真理」，而是語義測試資料。

2. 為什麼不是一般合成資料

一般合成資料常被理解為：

讓模型生成更多訓練樣本。

這種用法風險很高。若缺乏真實資料、人類標註、形式規則或外部驗證，模型可能逐漸學習自己的輸出分布，導致分布收縮、長尾消失、錯誤模式固化。這就是模型坍縮或模型退化風險。

CSAS 與此不同。

CSAS 不是要大量生成「看起來像真的資料」。 CSAS 要生成的是「能暴露模型邊界的資料」。

兩者差異如下：

| 類型 | 一般合成資料 | CSAS | |---|---|---| | 目的 | 擴充訓練量 | 製造語義壓力測試 | | 核心問題 | 像不像真資料 | 能不能揭露邊界 | | 主要風險 | 分布污染、模型坍縮 | 錯誤標註、過度詮釋 | | 是否可作主比例 | 不建議 | 更不建議 | | 最佳用途 | 補充稀缺樣本 | 對抗、邊界、反例、因果推演 | | 必要錨點 | 真實資料/規則 | 真實資料/規則/共識反演 |

因此，CSAS 的第一原則是：

AI 合成資料不得作為主資料來源；它只能作為小比例、高密度的語義壓力測試層。

3. 適用域：為什麼學術論文比較合適

CSAS 並不適用於所有領域。

日常對話、藝術創作、情緒表達、個人偏好與開放式美學判斷，語義域高度流動，判定標準不穩。若在這些領域做交叉生成，得到的多半是風格差異、情緒差異或語氣差異，不容易反演成穩定資料。

相對地，學術論文、技術白皮書、形式化規格、法律條文、工程標準與可檢驗推理任務，通常具有較強的外部約束：

定義更明確；
判定標準更可討論；
適用範圍較可標記；
引用與證據可追溯；
反例與邊界條件可建立；
命題之間有結構關係；
錯誤更容易被定位。

因此，本文不是說學術論文「完全客觀」，而是說：

學術論文通常具有較強的判定域、定義域、引用域、方法域與可反駁結構，因此比日常會話更適合做交叉語義對齊。

CSAS 尤其適合以下場景：

論文摘要與主張反演；
技術白皮書一致性測試；
定義域/適用域檢查；
命題邊界樣本生成；
多模型審稿輔助；
Agent 讀論文能力訓練；
因果推演假資料生成；
假說測試流程設計；
合成反例候選生成。

4. 六個核心域

CSAS 的基礎不是「讓 AI 多說幾遍」，而是明確拆分語義域。

本文提出至少六個核心域。

4.1 定義域

定義域回答：

一個詞、命題或模型到底如何定義？

例如：

「生成」是程序生成、語義生成、資料生成，還是因果生成？
「閉合」是拓撲閉合、形式閉合、語義閉合，還是系統穩態？
「共識」是多數同意、穩定重合，還是不共錯收斂？

如果不同模型使用同一詞但定義不同，就會形成語義漂移樣本。

4.2 判定域

判定域回答：

什麼算對、錯、未定、不可判、越界？

例如：

一個推論是否由原文支持？
一個例子是否仍在適用範圍內？
一個反例是否真正擊中命題？
一個 AI 回答是合理推測，還是未支撐幻覺？

判定域越清楚，合成樣本越容易標註。

4.3 適用域

適用域回答：

該說法在哪些條件下成立？

例如：

某一方法只適合學術文本，不適合藝術創作；
某一模型只適合假資料模擬，不適合真實醫療；
某一因果規則只在簡化系統中成立，不可外推至現實。

AI 常見錯誤之一，就是把局部適用域外推成普遍真理。CSAS 可以專門生成這類越界樣本。

4.4 共識域

共識域回答：

多個模型或多個詮釋者生成後，哪些部分仍穩定重合？

共識域不是「大家說一樣的話」，而是：

不同展開路徑下，仍然命中同一語義結構。

因此，共識域需要反演，而不是預設。

4.5 匹配域

匹配域回答：

形式敘述是否對上對象、資料、模型或文獻？

例如，一個技術說法是否真的被引用支撐；一個數學類比是否真的保留結構；一個醫療模擬是否誤稱為醫療資料；一個因果圖是否對應原本假設。

匹配域是防止 AI「語氣很像但對不上」的重要層。

4.6 詮釋域

詮釋域回答：

不同模型、作者、流派如何理解同一概念？

同一命題可能被形式主義者、結構主義者、直覺主義者、工程師、產品設計者與 AI Agent 以不同方式理解。這些差異不一定是錯誤，但需要標記。

詮釋域是 CSAS 的主要資料來源。

5. 宏觀約束，微觀隨機

當 AI 在低約束語境中生成文本時，結果可能高度發散。但在高約束語境中，例如技術論文、形式化定義、規格書或清楚的問題域中，AI 的生成常呈現另一種特性：

宏觀約束，微觀隨機。

也就是：

宏觀結構類似；
核心概念可能收斂；
展開順序不同；
措辭不同；
局部推理路徑不同；
某些邊界條件會漂移；
某些未定義處會被模型自行補完。

這正是 CSAS 的可用性來源。

若所有生成都完全一致，則沒有對抗價值。若所有生成都完全混亂，則沒有對齊價值。最有價值的是：

大方向收斂，小路徑分歧。

因為這些分歧可以暴露：

哪些定義不夠清楚；
哪些命題容易被誤解；
哪些適用域容易越界；
哪些共識只是表面一致；
哪些推論需要補證據；
哪些概念需要重新命名。

因此，CSAS 不追求消滅隨機性，而是利用隨機性。

隨機展開是語義探針。

6. 三種資料類型

CSAS 可生成三種主要資料。

6.1 生成式對抗資料

生成式對抗資料用於測試模型是否能抵抗語義誤導。

它包括：

定義偷換樣本；
適用域擴張樣本；
適用域縮窄樣本；
相似概念混淆樣本；
表面合理但引用不支撐樣本；
反例偽裝樣本；
假共識樣本；
過度抽象化樣本；
過度具體化樣本；
推理鏈局部斷裂樣本。

例如，原命題是：

CSAS 可用於高約束語義域中的邊界樣本生成。

對抗樣本可能是：

CSAS 可以用於任何領域並替代真實資料。

這就是適用域過度擴張。

Agent 的任務不是只回答「對/錯」，而是指出錯在哪個域：

定義域錯；
適用域錯；
比例控制錯；
外部驗證缺失。

6.2 合成邊界資料

合成邊界資料用於訓練模型理解「剛好卡在邊界」的情境。

它包括：

某命題是否仍成立；
某例子是否越界；
某類比是否保留結構；
某文本是否只是同義改寫；
某差異是否是理論衝突；
某反駁是否真正擊中主張；
某推論是否需要新增前提；
某共識是否穩定；
某語義漂移是否可接受；
某資料是否可回灌訓練。

邊界資料的價值在於：真實資料常常集中在典型案例，而 Agent 最容易失敗的地方通常是邊界案例。

CSAS 的優勢是能生成大量「剛好尷尬」的案例。

6.3 模擬因果推演資料

模擬因果推演資料用於測試 Agent 在明確假設下的動態推理能力。

例如在人體相位場假資料展示中，我們不使用真實醫療資料，而是建立假資料模型：

\[ R_i=\{\phi_i,G_i,C_i,\chi_i\} \]

其中：

\(\phi_i\)：區域相位；
\(G_i\)：生成張力；
\(C_i\)：閉合張力；
\(\chi_i\)：手性偏轉。

然後定義因果規則：

\[ A_i=w_1\sum_j|\Delta\phi_{ij}|+w_2|G_i-C_i|+w_3|\chi_i| \]

若：

\[ A_i>\theta \]

則 Agent 標記：

建議局部展開。

這不是醫療診斷，而是假資料因果模擬。其用途是測 Agent 是否能在多條微觀路徑中保持宏觀判準一致。

因果推演資料可分為：

正常穩態路徑；
局部擾動路徑；
擾動擴散路徑；
擾動回復路徑；
假陽性路徑；
假陰性路徑；
多源干擾路徑；
邊界失控路徑；
延遲顯現路徑；
局部展開後修正路徑。

這類資料的價值不是「像現實」，而是「檢查 Agent 是否遵守因果規則」。

7. 工作流程

CSAS 的基本流程如下。

7.1 靶文本建立

先建立靶文本 \(O_C\)，可以是：

一篇論文；
一段定義；
一組命題；
一個技術規格；
一個模型說明；
一個假資料因果規則；
一個待測問題場。

靶文本必須明確標出：

核心概念；
定義域；
適用域；
判定標準；
不可越界範圍；
已知未定問題。

7.2 多路徑生成

讓不同模型、不同角色或不同語境生成版本：

\[ I_1(O_C),I_2(O_C),\dots,I_k(O_C) \]

生成方式可包括：

重寫；
摘要；
反駁；
審稿；
形式化；
例子生成；
反例生成；
邊界條件生成；
因果推演；
不同流派詮釋。

重要的是不能只生成同質版本。若所有模型使用同一提示、同一語氣、同一立場，容易產生同源幻覺。

7.3 交叉語義對齊

比較不同版本在以下層面的對齊：

概念是否同義；
命題是否等價；
適用域是否一致；
判定域是否一致；
例子是否對應；
反例是否有效；
引用是否支撐；
推論是否越界；
共識是否穩定；
漂移是否可解釋。

7.4 差異反演

將差異轉換為標籤：

| 差異類型 | 標籤 | |---|---| | 表述不同但同義 | paraphrase-stable | | 概念重心不同但兼容 | compatible-shift | | 定義偷換 | definition-shift | | 適用域擴張 | scope-overreach | | 適用域縮窄 | scope-underrange | | 判定標準不同 | criterion-shift | | 引用不支撐 | unsupported-match | | 反例無效 | false-counterexample | | 真正理論衝突 | conflict | | 未定問題 | unresolved |

這些標籤就是合成資料的核心。

7.5 樣本生成

根據標籤生成訓練/評估樣本。

每個樣本應包含：

原始靶命題；
生成版本；
差異標籤；
錯誤位置；
所屬語義域；
正確修正；
是否需要外部驗證；
是否允許回灌。

7.6 比例控制

CSAS 樣本不能無限制加入資料集。

建議比例：

| 資料類型 | 建議比例 | |---|---:| | 真實資料 / 原始文獻 | 主比例 | | 人類標註資料 | 高比例 | | 形式規則資料 | 高比例 | | 一般 AI 合成資料 | 低比例 | | CSAS 對抗資料 | 低比例但高權重 | | CSAS 邊界資料 | 中低比例 | | 因果模擬資料 | 中低比例 | | 未驗證自生成資料 | 不直接回灌 |

比例應依任務調整，但基本原則是：

合成資料越多，外部錨點越要強。

7.7 外部驗證

CSAS 樣本必須經過至少一種外部錨定：

人類審查；
文獻引用；
形式規則；
測試用例；
已知答案；
模擬規則；
多模型不共錯驗證；
專家標註；
真實資料對照。

沒有外部錨定的合成樣本，只能作為候選樣本，不可作為訓練主資料。

8. 不共錯與同源幻覺

CSAS 的品質取決於「不共錯」。

若多個模型共享相同訓練語料、相同提示、相同推理模板，則它們的收斂可能只是同源幻覺。表面上看似多模型共識，實際上只是同一錯誤來源的重複。

因此，CSAS 需要區分：

8.1 同源一致

多個模型因為相似資料、相似提示或相似語氣而生成相似答案。

這種一致只能作為弱證據。

8.2 方法獨立收斂

不同模型、不同提示、不同表示法、不同推理路徑仍然命中同一結構。

這種一致才是強證據。

8.3 反錯能力

真正有效的多模型對抗，不是多數決，而是能否推翻錯誤共識。

若一個少數模型指出所有其他模型的共同錯誤，系統必須允許該少數意見進入反演，而不是被多數壓制。

因此，CSAS 不應只看投票結果，而應看：

誰指出了定義錯誤；
誰指出了適用域越界；
誰指出了引用不支撐；
誰指出了推理斷裂；
誰提出了可驗證反例；
誰能修正錯誤共識。

這就是「生成式對抗」與「多模型投票」的差異。

9. 與 Agent 訓練的關係

CSAS 最適合用於訓練或評估以下 Agent 能力：

9.1 定義域辨識

Agent 必須知道一個詞在當前文本中如何被定義，而不是套用通用語感。

9.2 適用域控制

Agent 必須知道一個方法在哪裡成立，在哪裡不成立。

9.3 判定域推理

Agent 必須知道何時能判定、何時只能標記未定。

9.4 語義漂移偵測

Agent 必須能看出兩段文字是否偷偷換了概念。

9.5 邊界案例判斷

Agent 必須能處理「差一點成立」或「差一點越界」的案例。

9.6 因果規則遵守

在假資料模擬中，Agent 必須遵守給定因果規則，而不是自由幻想。

9.7 局部展開策略

Agent 必須知道何時全局看場，何時局部展開。

這些能力比單純「回答問題」更接近未來 Agent 的核心。

10. 危險與限制

CSAS 必須承認以下危險。

10.1 模型坍縮風險

若合成資料比例過高，尤其是遞迴式使用模型生成資料訓練下一代模型，可能導致分布退化。

CSAS 必須限制比例，並保留真實資料、人類標註與形式規則作為錨點。

10.2 同源幻覺

多個模型可能因共享訓練資料與推理模板而產生相似錯誤。因此多模型一致不等於真。

10.3 假邊界樣本

AI 可能生成看似邊界、實際無效的案例。例如反例沒有擊中命題，只是偷換定義。

10.4 過度形式化

不是所有語義都適合表格化。若過度追求標籤，可能損失語境。

10.5 適用域誤用

CSAS 適合高約束語義域。若用於低約束藝術、美學或個人情緒領域，可能產生偽客觀化。

10.6 錯誤回灌

未驗證的合成樣本不應直接回灌成訓練主資料。候選樣本必須經過標註、驗證與比例控制。

11. 方法論命題

本文可濃縮為以下命題。

命題 1：附錄反演資料化命題

共識反演附錄不只是文本比較工具，而可作為語義資料標註器。多方生成後的重合、漂移、衝突與未定狀態，皆可被轉換為訓練或評估資料。

命題 2：高約束語義域可合成命題

在定義域、判定域、適用域、匹配域與詮釋域較清楚的知識領域中，AI 生成的多路徑展開可形成有用的對抗資料與邊界資料。

命題 3：宏觀約束—微觀隨機命題

在高約束語義域中，AI 生成常呈現宏觀結構收斂、微觀展開路徑隨機的特性。此微觀隨機可被用作語義壓力測試。

命題 4：合成資料非主比例命題

AI 合成資料不得取代真實資料、人類標註與形式規則。其合理位置是小比例、高密度的壓力測試層、邊界層與因果模擬層。

命題 5：不共錯優先命題

多模型一致只有在錯誤來源足夠獨立時才具有較強證據力。CSAS 應優先生成與評估不共錯收斂，而不是同源一致。

命題 6：因果模擬資料可用命題

在明確假設、明確變量與明確因果規則下，AI 可生成多條微觀不同但宏觀約束一致的模擬推演路徑，用以測試 Agent 是否遵守規則。

12. 範例：論文命題的 CSAS 流程

假設有一個原始命題：

生成大於閉合是一個操作論與語義論原理，不是集合基數命題。

CSAS 生成多個版本：

版本 A

生成大於閉合表示生成集合比閉合集合更大。

標籤：

definition-shift
mathematical-misread
scope-error

版本 B

生成大於閉合表示每次形式閉合都會生成下一層詮釋缺口。

標籤：

stable-core
semantic-match

版本 C

生成大於閉合可以直接證明孿生質數猜想。

標籤：

scope-overreach
unsupported-inference

版本 D

生成大於閉合只是哲學隱喻，不能用於任何工程系統。

標籤：

scope-underrange
partial-misclassification

透過這種方式，Agent 不只學到原命題，也學到原命題的常見誤讀方式。

13. 範例：人體相位場假資料

靶規則：

\[ A_i=w_1\sum_j|\Delta\phi_{ij}|+w_2|G_i-C_i|+w_3|\chi_i| \]

若：

\[ A_i>\theta \]

則 Agent 標記該區域為「建議局部展開」。

CSAS 可生成以下路徑：

路徑 1：正常穩態

\[ |\Delta\phi|, \quad |G-C|, \quad |\chi| \]

皆低於閾值。Agent 不展開。

路徑 2：相位差擴大

相鄰區域 \(|\Delta\phi|\) 持續上升。Agent 標記邊界異常。

路徑 3：張力失衡

\(G-C\) 長期為正。Agent 標記生成張力占優。

路徑 4：手性偏轉

\(\chi\) 上升但相位差尚未明顯。Agent 標記方向性異常候選。

路徑 5：假陽性

短期擾動使 \(A_i>\theta\)，但很快回復。Agent 應標記暫時觀察，而不是永久異常。

路徑 6：假陰性

單一指標不高，但三個指標合成後接近閾值。Agent 應提示「邊界觀察」。

這些全是假資料。其用途是測試 Agent 是否遵守因果規則，而非模擬真實醫療。

14. 結論

交叉語義對抗合成不是讓 AI 取代真實資料，也不是讓 AI 自我生成真理。它的價值在於：利用 AI 在特定高約束語義域中的生成能力，製造大量語義擾動、邊界案例、反例候選與因果推演路徑，再透過共識反演表將這些輸出轉化為可標註、可驗證、可比例控制的資料。

AI 的微觀隨機不是缺陷，而是探針。只要宏觀約束足夠清楚，微觀展開的差異可以揭露語義邊界。

因此，CSAS 的核心不是：

讓 AI 生成答案。

而是：

讓 AI 生成壓力。

再由人類、規則、資料、文獻與不共錯驗證來判斷哪些壓力樣本有用。

最後，本文的核心可濃縮為一句：

共識反演表不是附錄，而是生成式對抗合成資料的標註器；AI 不是主資料來源，而是語義擾動器；合成資料不是答案，而是邊界。

附錄 A：CSAS 樣本格式

{
  "source_claim": "原始命題",
  "generated_variant": "生成版本",
  "domain": {
    "definition_domain": "...",
    "judgement_domain": "...",
    "scope_domain": "...",
    "matching_domain": "...",
    "interpretation_domain": "..."
  },
  "label": "scope-overreach",
  "error_span": "錯誤片段",
  "correction": "修正方式",
  "requires_external_validation": true,
  "allowed_for_training": false,
  "allowed_for_evaluation": true,
  "synthetic_weight": 0.15
}

附錄 B：建議資料比例表

| 資料層 | 建議比例 | 備註 | |---|---:|---| | 真實資料 / 原始文獻 | 40–70% | 主錨點 | | 人類標註資料 | 15–35% | 判定標準 | | 形式規則 / 測試用例 | 10–30% | 高可靠推理錨點 | | CSAS 對抗資料 | 3–10% | 小比例高密度 | | CSAS 邊界資料 | 5–15% | 可作評估集重點 | | 因果模擬資料 | 5–20% | 僅限明確規則假資料 | | 未驗證 AI 自生成資料 | 0% 主訓練 | 只能暫存候選 |

比例不是固定法規，而是安全方向。任務越高風險，合成比例越應下降，外部驗證越應上升。

附錄 C：方法警告

不要把 AI 合成資料當真實資料。
不要把多模型一致當真理。
不要把語義流暢當引用支撐。
不要把假資料因果推演當現實因果。
不要把邊界候選當已驗證反例。
不要讓合成資料成為主比例。
不要在高風險領域跳過人類專家與外部驗證。
不要相信沒有反錯能力的多代理共識。
不要讓附錄表只停留在附錄；它應該成為標註器。
不要信單次生成。要反演、交叉、標註、驗證。

參考文獻與研究背景（待正式格式化）

Shumailov, I., et al. “AI models collapse when trained on recursively generated data.” Nature, 2024.
Du, Y., et al. “Improving Factuality and Reasoning in Language Models through Multiagent Debate.” arXiv:2305.14325, 2023.
Wu, H., Li, Z., Li, L. “Can LLM Agents Really Debate? A Controlled Study of Multi-Agent Debate in Logical Reasoning.” arXiv:2511.07784, 2025.
Ning, Y., et al. “MAD-Fact: A Multi-Agent Debate Framework for Long-Form Factuality Evaluation in LLMs.” arXiv:2510.22967, 2025.
Seddik, M. E. A., et al. “How Bad is Training on Synthetic Data? A Statistical Analysis of Language Model Collapse.” arXiv:2404.05090, 2024.
Hu, Z., Rostami, M., Thomason, J. “Multi-modal Synthetic Data Training and Model Collapse: Insights from VLMs and Diffusion Models.” arXiv:2505.08803, 2025.

原始檔（供 RAG/下載）：/raw/lm-000247.md [md] · id: lm-000247