# 分層標記架構：從宏觀判準到中觀分類與微觀定位的 AI 資料工程方法

## 摘要

**作者：Neo.K (許筌崴)**
**機構：EveMissLab (一言諾科技有限公司)**
**日期：2026年7月**
**版本：v0.1 公開論文初稿** 

在大型語言模型、Agent 系統與合成資料工程快速發展的背景下，資料標記不再只是傳統意義上的人工分類、逐句修正或細節註解。當 AI 系統能夠大量生成問答、程式、推理軌跡、工具調用紀錄與行動序列時，資料工程的核心問題逐漸從「如何產生更多資料」轉向「如何判斷哪些資料值得被保留、學習、修正與蒸餾」。本文提出「分層標記架構」（Layered Annotation Architecture, LAA），主張將 AI 資料標記分為宏觀、中觀與微觀三個層級。

宏觀標記負責對資料整體進行低成本、大規模的可用性判斷，例如通過／不通過、可用／不可用、值得保留／不值得保留。中觀標記負責對不通過或邊界資料進行錯誤類型分類，例如事實錯誤、邏輯錯誤、指令不符、格式錯誤、安全問題、推理不足或不可驗證。微觀標記則負責在高價值、高風險或核心資料中定位具體錯誤，例如第幾句錯、哪一步推理錯、哪個變數錯、哪個引用不成立、哪個工具調用失敗。

本文的核心命題是：宏觀標記法不應被理解為取代細節標註，而應被理解為資料標記生產線的第一層篩網。它先以最低成本處理最大規模資料，再將有限的人力、算力與專家審查資源集中於真正值得進一步標記的資料上。透過宏觀篩選、中觀分類與微觀定位，AI 資料工程可形成一套由粗到細、由低成本到高成本、由大規模判斷到高精度修正的分層標記系統。

**關鍵詞：** 宏觀標記法、分層標記、中觀標記、微觀標記、AI 資料工程、判準蒸餾、資料清洗、LLM 評審、Agent 評測、合成資料

---

## 1. 引言

人工智慧系統的能力提升依賴模型架構、算力、訓練方法與資料品質。其中，資料品質一直是模型能力邊界的重要因素。早期機器學習常依賴明確標籤，例如圖像分類標籤、語音轉寫、情緒分類、實體標記等。到了大型語言模型與 Agent 系統時代，資料標記的對象不再只是單筆圖片、單句文字或固定類別，而是變成更複雜的結構：

```text
問題
回答
推理過程
工具調用
程式輸出
多輪對話
任務軌跡
安全判斷
使用者偏好
理論命題
```

在這種情況下，若仍要求所有資料都進行完整細節標記，成本會變得極高。尤其當 AI 本身已能大量生成資料時，真正稀缺的往往不是候選資料，而是判斷資料是否可用的判準，以及將有限審查資源分配到何處的機制。

因此，本文提出一個分層式資料標記架構。其核心思想是：

> 不是所有資料都值得被細標；資料應先經過宏觀篩選，再對有價值或有問題的資料進行中觀與微觀標記。

換言之，資料標記應該像濾網一樣分層運作：

```text
大量資料
↓
宏觀標記：整體是否可用？
↓
中觀標記：錯誤大類是什麼？
↓
微觀標記：具體錯在哪裡？
↓
高品質訓練資料 / 判準資料 / 修正資料
```

此架構使資料工程從「逐筆勞動」轉向「分層判準工程」。

---

## 2. 問題背景：資料生成能力上升後的標記瓶頸

當代 AI 系統已能大量生成文字、程式、摘要、測試資料、問答資料、推理軌跡與合成任務。這帶來一個新的矛盾：

```text
生成資料越來越便宜；
確認資料是否可用仍然昂貴。
```

也就是說，AI 可以快速生成一萬筆答案，但要判斷其中哪些真正正確、穩定、可訓練、可公開、可蒸餾、可用於後訓練，仍然需要判準。

資料工程面對的問題可分為三類：

### 2.1 資料是否值得保留

第一個問題是：

```text
這筆資料整體有沒有價值？
```

這是一個宏觀問題。若答案明顯錯誤、格式完全不符、與任務無關，便不值得立刻進入細標流程。

### 2.2 資料主要問題在哪一類

第二個問題是：

```text
這筆資料如果不可用，大致是哪一類問題？
```

例如是事實錯、邏輯錯、指令不符、安全問題，還是不可驗證。這是中觀問題。

### 2.3 資料具體錯在哪裡

第三個問題是：

```text
這筆資料的具體錯誤位置與修正方式是什麼？
```

例如某一句話錯、某一個引用錯、某一步推理錯、某段程式缺少邊界條件。這是微觀問題。

若所有資料都直接進入第三層，成本會非常高。因此，本文主張先進行宏觀標記，再依資料價值決定是否進入中觀與微觀標記。

---

## 3. 分層標記架構的基本定義

本文將分層標記架構定義如下：

> 分層標記架構是一種將 AI 資料標記任務分為宏觀、中觀與微觀三層的方法。宏觀層負責整體可用性判斷，中觀層負責錯誤類型分類，微觀層負責具體錯誤定位與修正。其目標是在降低整體標記成本的同時，提高高價值資料的標記精度。

三層可表示為：

```text
L1：Macro Annotation / 宏觀標記
L2：Meso Annotation / 中觀標記
L3：Micro Annotation / 微觀標記
```

對應任務如下：

| 層級 | 中文名稱 | 核心問題     | 標記形式                   | 成本 | 適用資料         |
| -- | ---- | -------- | ---------------------- | -- | ------------ |
| L1 | 宏觀標記 | 整體可不可用？  | ✓ / ✗ / 重審             | 低  | 全部資料         |
| L2 | 中觀標記 | 大致是哪類問題？ | 錯誤碼 / 類別標籤             | 中  | 不通過、邊界、重要資料  |
| L3 | 微觀標記 | 具體錯在哪裡？  | 句子級、步驟級、token 級、程式行級註解 | 高  | 高價值、高風險、核心資料 |

---

## 4. 第一層：宏觀標記

### 4.1 宏觀標記的定義

宏觀標記是對資料整體進行快速判斷的方法。它不要求評審者指出每個錯誤，也不要求提供完整修正，只需要判斷該資料是否整體可用。

基本形式為：

```text
J(Q, A, R) → y
```

其中：

* `Q`：問題、任務或輸入；
* `A`：回答、解法、程式或行動軌跡；
* `R`：判準規則；
* `J`：評審者，可以是強模型、人類、模型集成或混合系統；
* `y`：宏觀標記結果。

最簡標記為：

```text
✓ = 可用 / 通過 / 值得保留
✗ = 不可用 / 不通過 / 不值得保留
? = 不確定 / 需要重審 / 邊界樣本
```

### 4.2 宏觀標記的功能

宏觀標記有四個主要功能：

第一，快速排除明顯低品質資料。

```text
無關回答
明顯幻覺
格式完全錯誤
明顯違反任務
程式無法執行
推理完全跳躍
```

第二，保留可直接使用的高品質資料。

```text
事實正確
符合指令
結構清楚
推理合理
程式可執行
任務成功完成
```

第三，標記需要進一步審查的邊界資料。

```text
部分正確但不完整
有創意但不可驗證
邏輯大致成立但定義不足
答案可用但風險較高
不同評審模型意見分歧
```

第四，建立判準蒸餾資料。

宏觀標記資料不只是用來丟棄或保留資料，它本身也可作為訓練資料，使模型學會判斷「哪些資料值得被學習」。

### 4.3 宏觀標記的限制

宏觀標記雖然高效，但資訊量有限。它能回答：

```text
這筆資料是否可用？
```

但不能充分回答：

```text
它為什麼不可用？
它錯在哪裡？
應該怎麼修？
錯誤是否嚴重？
錯誤是否可接受？
```

因此，宏觀標記不能作為整套標記流程的終點。它應該是第一層篩網，而不是完整答案。

---

## 5. 第二層：中觀標記

### 5.1 中觀標記的定義

中觀標記位於宏觀與微觀之間。它不需要逐句定位錯誤，但需要判斷資料主要問題屬於哪一類。

基本形式為：

```text
J(Q, A, R) → (y, c)
```

其中：

* `y` 是宏觀標記結果；
* `c` 是錯誤類型或資料類型。

若資料通過，`c` 可以是正向類型：

```text
✓-Factual
✓-Logical
✓-Executable
✓-Clear
✓-Useful
✓-Novel
```

若資料不通過，`c` 可以是錯誤類型：

```text
✗-F = 事實錯誤
✗-L = 邏輯錯誤
✗-I = 指令不符
✗-S = 安全問題
✗-R = 推理不足
✗-E = 表達不佳
✗-U = 不可驗證
✗-B = 邊界不清
```

### 5.2 中觀標記的作用

中觀標記的作用是讓系統知道：

```text
這筆資料不可用的主要原因是什麼？
```

這比單純打叉更有價值。因為兩筆同樣被打叉的資料，可能有完全不同的問題：

```text
A：事實錯誤
B：邏輯錯誤
C：格式不符
D：安全風險
E：表達不佳但內容正確
F：新穎但不可驗證
```

若全部都標為 0，模型會損失大量結構資訊。

### 5.3 中觀標記的類型表

| 代碼 | 中文名稱 | 判斷問題          | 例子             |
| -- | ---- | ------------- | -------------- |
| F  | 事實錯誤 | 回答是否違反可查證事實？  | 錯誤年份、錯誤人物、錯誤引用 |
| L  | 邏輯錯誤 | 推論是否不成立？      | 偷換概念、結論超出前提    |
| I  | 指令不符 | 是否沒有遵守任務要求？   | 要求簡短卻輸出長文      |
| S  | 安全問題 | 是否有危害或不當內容？   | 危險操作建議         |
| R  | 推理不足 | 是否缺少必要推論？     | 只給結論，無理由       |
| E  | 表達問題 | 是否不清楚或不可讀？    | 結構混亂、語意不明      |
| U  | 不可驗證 | 是否無法確認真假？     | 過度斷言未證明命題      |
| B  | 邊界不清 | 是否介於可用與不可用之間？ | 部分正確但缺少條件      |

### 5.4 中觀標記與宏觀標記的關係

宏觀標記回答：

```text
能不能用？
```

中觀標記回答：

```text
為什麼大致能用或不能用？
```

因此，中觀標記是宏觀標記的結構化延伸。

---

## 6. 第三層：微觀標記

### 6.1 微觀標記的定義

微觀標記是對資料內部進行具體錯誤定位、修正與細節註解的方法。它可細到句子、段落、推理步驟、程式行、工具調用、變數、引用或 token 層級。

基本形式為：

```text
J(Q, A, R) → (y, c, p, m)
```

其中：

* `y`：宏觀標記；
* `c`：中觀錯誤類型；
* `p`：錯誤位置；
* `m`：修正建議或微觀說明。

例如：

```json
{
  "label": "fail",
  "error_type": "Logic Error",
  "position": "paragraph_3_sentence_2",
  "message": "此處從『資料可用』直接推導到『資料真實』，中間缺少判準條件。"
}
```

### 6.2 微觀標記的對象

微觀標記適合以下資料：

```text
高價值資料
高風險資料
法律、醫療、金融等敏感資料
核心訓練資料
論文級資料
程式核心函式
Agent 關鍵失敗軌跡
模型反覆出錯的邊界樣本
```

它不適合對所有資料無差別使用。因為微觀標記成本最高，應被視為稀缺資源。

### 6.3 微觀標記的形式

微觀標記可有多種形式：

#### 6.3.1 句子級標記

```text
第 4 句存在事實錯誤。
第 7 句與第 2 句前提矛盾。
```

#### 6.3.2 推理步驟標記

```text
Step 3 到 Step 4 的推論不成立。
Step 5 缺少必要條件。
```

#### 6.3.3 程式行級標記

```text
Line 18: 沒有處理空陣列。
Line 27: 變數作用域錯誤。
Line 42: 複雜度高於需求。
```

#### 6.3.4 工具調用標記

```text
Tool Call 2 使用錯誤 API。
Tool Call 4 沒有檢查回傳結果。
```

#### 6.3.5 概念定位標記

```text
此處混淆「資料正確性」與「資料可用性」。
此處將「模型判斷」誤寫為「客觀真理」。
```

### 6.4 微觀標記的意義

微觀標記的核心價值不在於處理大量資料，而在於修正高價值資料，並建立高精度訓練樣本。它能幫助模型學會：

```text
錯誤如何發生
錯誤位於何處
錯誤如何修正
哪些錯誤不可接受
哪些錯誤可透過補充條件修正
```

---

## 7. 三層標記的整體流程

分層標記架構可表示為：

```text
大量候選資料 D_raw
↓
L1 宏觀標記
D_pass / D_fail / D_review
↓
L2 中觀標記
錯誤類型分類 / 邊界樣本分類
↓
L3 微觀標記
錯誤定位 / 修正建議 / 高精度註解
↓
D_train / D_filter / D_eval / D_repair / D_frontier
```

其中：

* `D_pass`：可直接使用或低風險使用的資料；
* `D_fail`：不可用但可作為負例的資料；
* `D_review`：需要進一步審查的邊界資料；
* `D_train`：可用於訓練的正例資料；
* `D_filter`：可用於資料過濾器訓練的資料；
* `D_eval`：可用於評測的資料；
* `D_repair`：可用於錯誤修正訓練的資料；
* `D_frontier`：前沿命題或高新穎度資料。

---

## 8. 資料結構設計

一筆完整的分層標記資料可設計如下：

```json
{
  "id": "sample_000001",
  "question": "請解釋宏觀標記法與傳統標記的差異。",
  "answer": "宏觀標記法是對整體資料進行可用性判斷...",
  "macro_label": "pass",
  "meso_label": "useful_explanation",
  "micro_annotations": [],
  "judge_model": "judge_model_v1",
  "criteria_version": "criteria_v1",
  "domain": "AI data engineering",
  "difficulty": "medium",
  "variant_source": "original",
  "review_status": "accepted",
  "timestamp": "2026-07-02"
}
```

不通過資料：

```json
{
  "id": "sample_000002",
  "question": "請解釋宏觀標記法與傳統標記的差異。",
  "answer": "宏觀標記法就是把每個 token 都人工標記清楚。",
  "macro_label": "fail",
  "meso_label": "F",
  "micro_annotations": [
    {
      "position": "sentence_1",
      "error_type": "conceptual_error",
      "message": "宏觀標記法不是 token 級人工標記，而是整體可用性判斷。"
    }
  ],
  "judge_model": "judge_model_v1",
  "criteria_version": "criteria_v1",
  "domain": "AI data engineering",
  "difficulty": "easy",
  "variant_source": "conceptual_confusion",
  "review_status": "rejected",
  "timestamp": "2026-07-02"
}
```

邊界資料：

```json
{
  "id": "sample_000003",
  "question": "宏觀標記法是否能取代人工標記？",
  "answer": "宏觀標記法可以完全取代人工標記。",
  "macro_label": "review",
  "meso_label": "B",
  "micro_annotations": [
    {
      "position": "sentence_1",
      "error_type": "overclaim",
      "message": "此處過度斷言。宏觀標記法可降低人工標記成本，但不能完全取代人工標記。"
    }
  ],
  "judge_model": "judge_model_v1",
  "criteria_version": "criteria_v1",
  "domain": "AI data engineering",
  "difficulty": "medium",
  "variant_source": "boundary_case",
  "review_status": "needs_human_review",
  "timestamp": "2026-07-02"
}
```

---

## 9. 分層標記的演算法表示

### 9.1 基本流程

```python
def layered_annotation(sample, judge, criteria):
    macro = judge.macro_judge(sample, criteria)

    record = {
        "sample": sample,
        "macro_label": macro.label,
        "judge_model": judge.version,
        "criteria_version": criteria.version
    }

    if macro.label == "pass":
        record["route"] = "train_or_archive"
        return record

    if macro.label in ["fail", "review"]:
        meso = judge.meso_classify(sample, criteria)
        record["meso_label"] = meso.label

    if should_micro_annotate(sample, macro, meso):
        micro = judge.micro_annotate(sample, criteria)
        record["micro_annotations"] = micro.annotations
        record["route"] = "repair_or_human_review"
    else:
        record["route"] = "negative_training_or_filtering"

    return record
```

### 9.2 是否進入微觀標記的判斷

```python
def should_micro_annotate(sample, macro, meso):
    if sample.risk_level == "high":
        return True

    if sample.domain in ["law", "medicine", "finance", "safety"]:
        return True

    if macro.label == "review":
        return True

    if meso.label in ["B", "U"]:
        return True

    if sample.importance == "core_training_data":
        return True

    if sample.disagreement_score > 0.4:
        return True

    return False
```

此邏輯反映一個核心原則：

> 微觀標記應該被分配給最需要精度的資料，而不是浪費在所有資料上。

---

## 10. 資料流向：不同標記結果的用途

分層標記後，不同資料有不同用途。

| 標記結果    | 用途                   |
| ------- | -------------------- |
| 宏觀通過    | 可進入訓練資料、知識庫、候選發布資料   |
| 宏觀不通過   | 可作為負例、資料過濾訓練、錯誤識別訓練  |
| 宏觀重審    | 進入中觀分類或人類抽樣審核        |
| 中觀事實錯   | 用於事實錯誤識別訓練           |
| 中觀邏輯錯   | 用於推理錯誤識別訓練           |
| 中觀指令不符  | 用於指令遵循訓練             |
| 中觀安全問題  | 用於安全分類與拒答訓練          |
| 中觀不可驗證  | 用於不確定性表達訓練           |
| 微觀已定位錯誤 | 用於修正模型、批判模型、推理檢查模型   |
| 邊界樣本    | 用於評測集、困難樣本訓練、多模型分歧研究 |

---

## 11. 與傳統標記方法的差異

傳統資料標記常假設每筆資料都應直接進入標註流程。分層標記架構則假設：

> 資料標記成本應該依資料價值與風險分配。

差異如下：

| 面向   | 傳統細節標記    | 分層標記架構           |
| ---- | --------- | ---------------- |
| 標記策略 | 直接對資料細節標註 | 先粗篩，再分類，再細標      |
| 成本分配 | 每筆資料成本接近  | 依資料價值與風險分配       |
| 初始標記 | 可能需要人工    | 可由 AI 進行宏觀初篩     |
| 負例處理 | 常被刪除      | 保留作為判準與錯誤資料      |
| 邊界資料 | 難以系統管理    | 明確進入 review pool |
| 微觀標記 | 可能過度使用    | 僅用於高價值資料         |
| 資料用途 | 偏向訓練正例    | 可同時用於訓練、過濾、評測、修正 |

---

## 12. 與宏觀標記法的關係

本文所提出的分層標記架構，是對宏觀標記法的擴展。

宏觀標記法的核心是：

```text
對資料整體打勾或打叉。
```

分層標記架構的核心是：

```text
先打勾打叉，再判斷錯誤類型，最後對高價值資料定位具體錯誤。
```

因此二者不是競爭關係，而是包含關係：

```text
分層標記架構
├── 宏觀標記法
├── 中觀錯誤分類法
└── 微觀錯誤定位法
```

宏觀標記法是第一層，也是整套系統能大規模運行的前提。沒有宏觀標記，資料會直接湧入中觀與微觀流程，造成成本爆炸。

---

## 13. 與 RLHF、RLAIF、LLM-as-Judge、蒸餾的關係

分層標記架構可以與既有 AI 訓練方法結合。

| 方法           | 與分層標記架構的關係                           |
| ------------ | ------------------------------------ |
| RLHF         | 分層標記可提供更乾淨的偏好資料或輔助 reward 資料         |
| RLAIF        | AI feedback 可作為宏觀與中觀標記來源             |
| LLM-as-Judge | 可作為宏觀、中觀、微觀評審工具                      |
| 知識蒸餾         | 通過資料可用於答案蒸餾；標記資料可用於判準蒸餾              |
| 合成資料         | 分層標記可用於合成資料過濾與品質控制                   |
| Agent 訓練     | 任務軌跡可先宏觀判定成功／失敗，再中觀分類失敗原因，最後微觀定位失敗步驟 |

簡言之：

> 分層標記架構不是取代既有方法，而是為既有方法提供更好的資料入口、資料分類與資料治理層。

---

## 14. Agent 場景中的分層標記

Agent 任務特別適合分層標記，因為 Agent 的輸出不是單一回答，而是完整行動軌跡。

例如一個 Agent 任務包含：

```text
理解任務
規劃步驟
調用工具
讀取結果
修正策略
產生最終輸出
```

### 14.1 宏觀標記

```text
任務是否成功？
最終輸出是否符合目標？
是否造成錯誤操作？
```

### 14.2 中觀標記

若任務失敗，分類原因：

```text
規劃錯誤
工具選擇錯誤
工具參數錯誤
讀取結果錯誤
沒有驗證輸出
陷入循環
過早結束
```

### 14.3 微觀標記

具體定位：

```text
Step 3 使用錯誤工具。
Step 5 沒有檢查 API 回傳錯誤。
Step 7 將搜尋結果誤解為最終答案。
```

這樣的分層資料對 Agent 訓練非常有價值，因為它不只告訴模型任務失敗，也告訴模型失敗發生在哪個階段。

---

## 15. 理論資料與前沿命題的分層標記

分層標記架構也可應用於理論、論文、哲學命題與原創方法論。

### 15.1 宏觀層

判斷整體是否值得保留：

```text
是否有明確問題意識？
是否有基本內部一致性？
是否不是明顯胡亂拼接？
是否值得後續發展？
```

### 15.2 中觀層

分類理論狀態：

```text
定義不足
推論跳躍
概念可成立但尚未形式化
可工程化
可數學化
可作為產品方法論
可作為研究假說
不可驗證
高度新穎但風險高
```

### 15.3 微觀層

定位具體問題：

```text
哪個概念需要定義？
哪個推論缺少中介？
哪個命題過度斷言？
哪個部分需要區分隱喻與形式化？
哪個部分可轉為演算法？
```

這對原創理論特別重要。因為前沿命題不一定能被傳統真假判準直接處理。若只用「正確／錯誤」判斷，可能會錯殺尚未成熟但具有發展價值的理論。

因此，對前沿理論應使用以下標記：

```text
✓-C = 內部一致
✓-F = 可形式化
✓-E = 可工程化
✓-H = 有研究假說價值
?-U = 不可驗證但可保留
✗-D = 定義不足
✗-L = 推論跳躍
✗-O = 過度斷言
✗-M = 隱喻與形式混淆
```

---

## 16. 分層標記與判準蒸餾

分層標記不只是資料整理方法，也可用於判準蒸餾。

宏觀層可訓練模型學會：

```text
這筆資料是否可用？
```

中觀層可訓練模型學會：

```text
這筆資料主要錯在哪一類？
```

微觀層可訓練模型學會：

```text
錯誤具體發生在哪裡，以及如何修正？
```

對應模型如下：

```text
C_macro(Q, A) → pass / fail / review

C_meso(Q, A) → error_type

C_micro(Q, A) → error_position + correction
```

三者可獨立訓練，也可組成級聯系統：

```text
C_macro
↓
C_meso
↓
C_micro
```

或多任務模型：

```text
C(Q, A) → {
  macro_label,
  meso_label,
  micro_annotations
}
```

---

## 17. 實驗設計

若要驗證分層標記架構，可以設計以下實驗。

### 17.1 成本效益實驗

比較兩種流程：

```text
A：所有資料直接微觀標記
B：先宏觀標記，再選擇部分資料中觀與微觀標記
```

評估：

```text
總標記成本
每筆有效資料成本
高品質資料比例
標記時間
模型訓練效果
```

假說：

> 分層標記架構能在相同成本下產生更多有效訓練資料。

### 17.2 負例價值實驗

比較：

```text
只使用通過資料訓練
使用通過資料 + 不通過資料訓練判準模型
使用通過資料 + 不通過資料 + 錯誤碼訓練判準模型
```

評估：

```text
錯誤識別能力
資料過濾能力
對抗樣本識別能力
模型幻覺下降程度
```

假說：

> 加入中觀錯誤碼的負例資料，會比單純刪除負例更有訓練價值。

### 17.3 邊界樣本實驗

比較：

```text
隨機樣本訓練
明顯正負例訓練
邊界樣本訓練
```

評估：

```text
困難樣本準確率
人類一致性
多模型分歧解析能力
```

假說：

> 邊界樣本對判準模型提升最大。

### 17.4 Agent 任務實驗

對 Agent 軌跡進行三層標記，測試模型是否能：

```text
預測任務是否成功
分類失敗原因
定位失敗步驟
生成修正策略
```

---

## 18. 評估指標

分層標記架構的評估指標包括：

### 18.1 宏觀層指標

```text
通過率
錯殺率
漏放率
AI 評審與人類一致率
重審比例
```

### 18.2 中觀層指標

```text
錯誤類型分類準確率
多評審一致率
主要錯誤類型覆蓋率
錯誤碼分佈穩定性
```

### 18.3 微觀層指標

```text
錯誤定位準確率
修正建議有效率
人工審核節省時間
模型修正後成功率
```

### 18.4 整體系統指標

```text
單位成本有效資料量
資料清洗後模型提升幅度
負例資料利用率
邊界樣本價值
標記流程可擴展性
判準漂移程度
```

---

## 19. 風險與限制

### 19.1 宏觀誤判會影響後續流程

若第一層宏觀標記錯誤，可能導致高價值資料被錯殺，或低品質資料被放行。因此宏觀標記不能完全依賴單一模型，應加入抽樣重審與多模型交叉評審。

### 19.2 中觀分類可能過度簡化

一筆資料可能同時有事實錯誤、邏輯錯誤與指令不符。若只允許單一錯誤碼，可能過度簡化。因此中觀標記可允許多標籤：

```text
✗-F,L,I
```

### 19.3 微觀標記成本高

微觀標記最有價值，但也最昂貴。若使用過多，會失去分層架構的成本優勢。

### 19.4 評審模型偏誤

AI 評審可能偏好特定風格、語氣、長度或結構。若不做校準，分層標記系統可能把風格偏好誤認為品質判準。

### 19.5 前沿命題容易被保守判準壓制

對原創理論或尚未驗證命題，不能直接使用傳統事實判準。否則系統會傾向保守，降低創新資料保留率。

---

## 20. 可反駁條件

本文方法可被以下實驗結果削弱或反駁：

1. 分層標記無法降低標記成本；
2. 宏觀標記錯殺率過高；
3. 中觀錯誤碼無法提升模型錯誤識別能力；
4. 微觀標記樣本無法提升修正能力；
5. 邊界樣本不比隨機樣本更有價值；
6. 分層標記後的資料無法提升模型訓練效果；
7. AI 評審與人類專家一致性過低；
8. 整套流程導致資料過度同質化；
9. 前沿理論資料被系統性錯殺。

這些條件使分層標記架構不是單純概念宣稱，而是可被工程實驗檢驗的方法。

---

## 21. 討論：分層標記是一種資料治理方式

分層標記架構的真正意義，不只是節省標註成本，而是建立一種資料治理方式。

它使資料不再只有兩種命運：

```text
保留
刪除
```

而是形成多種路徑：

```text
直接訓練
作為負例
進入重審
進入修正
進入評測
進入前沿資料庫
進入人工審查
進入安全隔離
```

這對大型 AI 系統尤其重要。因為未來資料量會越來越大，資料型態會越來越複雜，若沒有分層治理機制，資料庫會逐漸混亂。

分層標記架構提供的是一種可擴展的資料流控制方法：

```text
不是所有資料都平等；
不是所有資料都應被細標；
不是所有錯誤資料都應被刪除；
不是所有前沿資料都應被當成錯誤；
不是所有標記都需要人類完成；
但所有標記都應被版本化、可追蹤、可重審。
```

---

## 22. 結論

本文提出分層標記架構，將 AI 資料標記分為宏觀、中觀與微觀三個層級。宏觀標記負責低成本、大規模的整體可用性判斷；中觀標記負責錯誤類型與資料狀態分類；微觀標記負責具體錯誤定位與修正。此架構的核心思想是：先用宏觀標記處理最大規模資料，再將中觀與微觀標記資源集中於真正值得審查的資料上。

與單純打勾打叉不同，分層標記架構不把宏觀標記視為終點，而是把它視為資料標記生產線的第一層篩網。宏觀標記降低初始成本，中觀標記提供錯誤結構，微觀標記提供高精度修正。三者結合後，可形成一套由粗到細、由低成本到高成本、由大規模篩選到高精度修正的 AI 資料工程方法。

此方法可應用於合成資料清洗、小模型蒸餾、Agent 任務評測、程式生成、理論資料庫建構、前沿命題管理與個人知識庫治理。它不取代 RLHF、RLAIF、LLM-as-Judge 或知識蒸餾，而是作為它們之前或之中的資料治理層，負責將大量候選資料轉化為可用、可分類、可修正、可訓練、可重審的資料資產。

最終，分層標記架構的核心命題是：

> AI 資料標記不應只有「標或不標」的單層邏輯，而應成為一套由宏觀判準、中觀分類與微觀定位構成的分層資料治理系統。

---

## 一句話版本

分層標記架構，就是先用宏觀標記快速判斷資料可不可用，再用中觀標記分類錯誤類型，最後只對高價值或高風險資料進行微觀定位與修正，形成一套由粗到細、由低成本到高精度的 AI 資料工程方法。

---

## 附錄 A：三層標記最簡表示

```text
L1 Macro:
(Q, A) → pass / fail / review

L2 Meso:
(Q, A) → error_type

L3 Micro:
(Q, A) → error_position + correction
```

整合表示：

```text
J(Q, A, R) → {
  macro_label,
  meso_label,
  micro_annotations
}
```

---

## 附錄 B：三層標記資料格式

```json
{
  "sample_id": "sample_x",
  "input": "Q",
  "output": "A",
  "macro_label": "pass | fail | review",
  "meso_label": "F | L | I | S | R | E | U | B",
  "micro_annotations": [
    {
      "position": "paragraph_2_sentence_1",
      "error_type": "logic_error",
      "message": "此處推論缺少中介條件。"
    }
  ],
  "judge": "model_or_human",
  "criteria_version": "v1",
  "timestamp": "2026-07-02"
}
```

---

## 附錄 C：標記路由規則

```text
若 macro = pass：
    進入訓練資料池或候選資料庫

若 macro = fail 且 meso = 明顯錯誤：
    進入負例資料池

若 macro = review：
    進入中觀分類與多模型重審

若 meso = high-risk：
    進入人工審核

若 meso = boundary：
    進入微觀標記或評測集

若 sample = core_data：
    無論 macro 結果如何，都可抽樣進入微觀審查
```

---

## 附錄 D：分層標記的核心命題

1. 宏觀標記不是取代細節標註，而是第一層資料篩網。
2. 中觀標記讓打叉資料不再只是「錯」，而能被分類使用。
3. 微觀標記應集中於高價值、高風險與邊界資料。
4. 負例資料不應全部刪除，因為它能訓練判準模型。
5. 邊界樣本比明顯樣本更能揭示模型判斷能力。
6. 前沿命題需要獨立判準，不能只用傳統真假判斷。
7. 分層標記能將資料標記從勞動流程升級為資料治理系統。
8. AI 評審可以參與標記，但必須版本化、重審化與人類抽樣校準。
9. 標記成本應依資料價值、風險與用途分配。
10. 未來 AI 資料工程的核心，不只是生成資料，而是分層判斷資料如何被使用。