← Archive
lm-001198 · 2026-07

分層標記架構:從宏觀判準到中觀分類與微觀定位的 AI 資料工程方法

分層標記架構:從宏觀判準到中觀分類與微觀定位的 AI 資料工程方法

摘要

作者:Neo.K (許筌崴) 機構:EveMissLab (一言諾科技有限公司) 日期:2026年7月 版本:v0.1 公開論文初稿

在大型語言模型、Agent 系統與合成資料工程快速發展的背景下,資料標記不再只是傳統意義上的人工分類、逐句修正或細節註解。當 AI 系統能夠大量生成問答、程式、推理軌跡、工具調用紀錄與行動序列時,資料工程的核心問題逐漸從「如何產生更多資料」轉向「如何判斷哪些資料值得被保留、學習、修正與蒸餾」。本文提出「分層標記架構」(Layered Annotation Architecture, LAA),主張將 AI 資料標記分為宏觀、中觀與微觀三個層級。

宏觀標記負責對資料整體進行低成本、大規模的可用性判斷,例如通過/不通過、可用/不可用、值得保留/不值得保留。中觀標記負責對不通過或邊界資料進行錯誤類型分類,例如事實錯誤、邏輯錯誤、指令不符、格式錯誤、安全問題、推理不足或不可驗證。微觀標記則負責在高價值、高風險或核心資料中定位具體錯誤,例如第幾句錯、哪一步推理錯、哪個變數錯、哪個引用不成立、哪個工具調用失敗。

本文的核心命題是:宏觀標記法不應被理解為取代細節標註,而應被理解為資料標記生產線的第一層篩網。它先以最低成本處理最大規模資料,再將有限的人力、算力與專家審查資源集中於真正值得進一步標記的資料上。透過宏觀篩選、中觀分類與微觀定位,AI 資料工程可形成一套由粗到細、由低成本到高成本、由大規模判斷到高精度修正的分層標記系統。

關鍵詞: 宏觀標記法、分層標記、中觀標記、微觀標記、AI 資料工程、判準蒸餾、資料清洗、LLM 評審、Agent 評測、合成資料


1. 引言

人工智慧系統的能力提升依賴模型架構、算力、訓練方法與資料品質。其中,資料品質一直是模型能力邊界的重要因素。早期機器學習常依賴明確標籤,例如圖像分類標籤、語音轉寫、情緒分類、實體標記等。到了大型語言模型與 Agent 系統時代,資料標記的對象不再只是單筆圖片、單句文字或固定類別,而是變成更複雜的結構:

問題
回答
推理過程
工具調用
程式輸出
多輪對話
任務軌跡
安全判斷
使用者偏好
理論命題

在這種情況下,若仍要求所有資料都進行完整細節標記,成本會變得極高。尤其當 AI 本身已能大量生成資料時,真正稀缺的往往不是候選資料,而是判斷資料是否可用的判準,以及將有限審查資源分配到何處的機制。

因此,本文提出一個分層式資料標記架構。其核心思想是:

不是所有資料都值得被細標;資料應先經過宏觀篩選,再對有價值或有問題的資料進行中觀與微觀標記。

換言之,資料標記應該像濾網一樣分層運作:

大量資料
↓
宏觀標記:整體是否可用?
↓
中觀標記:錯誤大類是什麼?
↓
微觀標記:具體錯在哪裡?
↓
高品質訓練資料 / 判準資料 / 修正資料

此架構使資料工程從「逐筆勞動」轉向「分層判準工程」。


2. 問題背景:資料生成能力上升後的標記瓶頸

當代 AI 系統已能大量生成文字、程式、摘要、測試資料、問答資料、推理軌跡與合成任務。這帶來一個新的矛盾:

生成資料越來越便宜;
確認資料是否可用仍然昂貴。

也就是說,AI 可以快速生成一萬筆答案,但要判斷其中哪些真正正確、穩定、可訓練、可公開、可蒸餾、可用於後訓練,仍然需要判準。

資料工程面對的問題可分為三類:

2.1 資料是否值得保留

第一個問題是:

這筆資料整體有沒有價值?

這是一個宏觀問題。若答案明顯錯誤、格式完全不符、與任務無關,便不值得立刻進入細標流程。

2.2 資料主要問題在哪一類

第二個問題是:

這筆資料如果不可用,大致是哪一類問題?

例如是事實錯、邏輯錯、指令不符、安全問題,還是不可驗證。這是中觀問題。

2.3 資料具體錯在哪裡

第三個問題是:

這筆資料的具體錯誤位置與修正方式是什麼?

例如某一句話錯、某一個引用錯、某一步推理錯、某段程式缺少邊界條件。這是微觀問題。

若所有資料都直接進入第三層,成本會非常高。因此,本文主張先進行宏觀標記,再依資料價值決定是否進入中觀與微觀標記。


3. 分層標記架構的基本定義

本文將分層標記架構定義如下:

分層標記架構是一種將 AI 資料標記任務分為宏觀、中觀與微觀三層的方法。宏觀層負責整體可用性判斷,中觀層負責錯誤類型分類,微觀層負責具體錯誤定位與修正。其目標是在降低整體標記成本的同時,提高高價值資料的標記精度。

三層可表示為:

L1:Macro Annotation / 宏觀標記
L2:Meso Annotation / 中觀標記
L3:Micro Annotation / 微觀標記

對應任務如下:

層級 中文名稱 核心問題 標記形式 成本 適用資料
L1 宏觀標記 整體可不可用? ✓ / ✗ / 重審 全部資料
L2 中觀標記 大致是哪類問題? 錯誤碼 / 類別標籤 不通過、邊界、重要資料
L3 微觀標記 具體錯在哪裡? 句子級、步驟級、token 級、程式行級註解 高價值、高風險、核心資料

4. 第一層:宏觀標記

4.1 宏觀標記的定義

宏觀標記是對資料整體進行快速判斷的方法。它不要求評審者指出每個錯誤,也不要求提供完整修正,只需要判斷該資料是否整體可用。

基本形式為:

J(Q, A, R) → y

其中:

  • Q:問題、任務或輸入;
  • A:回答、解法、程式或行動軌跡;
  • R:判準規則;
  • J:評審者,可以是強模型、人類、模型集成或混合系統;
  • y:宏觀標記結果。

最簡標記為:

✓ = 可用 / 通過 / 值得保留
✗ = 不可用 / 不通過 / 不值得保留
? = 不確定 / 需要重審 / 邊界樣本

4.2 宏觀標記的功能

宏觀標記有四個主要功能:

第一,快速排除明顯低品質資料。

無關回答
明顯幻覺
格式完全錯誤
明顯違反任務
程式無法執行
推理完全跳躍

第二,保留可直接使用的高品質資料。

事實正確
符合指令
結構清楚
推理合理
程式可執行
任務成功完成

第三,標記需要進一步審查的邊界資料。

部分正確但不完整
有創意但不可驗證
邏輯大致成立但定義不足
答案可用但風險較高
不同評審模型意見分歧

第四,建立判準蒸餾資料。

宏觀標記資料不只是用來丟棄或保留資料,它本身也可作為訓練資料,使模型學會判斷「哪些資料值得被學習」。

4.3 宏觀標記的限制

宏觀標記雖然高效,但資訊量有限。它能回答:

這筆資料是否可用?

但不能充分回答:

它為什麼不可用?
它錯在哪裡?
應該怎麼修?
錯誤是否嚴重?
錯誤是否可接受?

因此,宏觀標記不能作為整套標記流程的終點。它應該是第一層篩網,而不是完整答案。


5. 第二層:中觀標記

5.1 中觀標記的定義

中觀標記位於宏觀與微觀之間。它不需要逐句定位錯誤,但需要判斷資料主要問題屬於哪一類。

基本形式為:

J(Q, A, R) → (y, c)

其中:

  • y 是宏觀標記結果;
  • c 是錯誤類型或資料類型。

若資料通過,c 可以是正向類型:

✓-Factual
✓-Logical
✓-Executable
✓-Clear
✓-Useful
✓-Novel

若資料不通過,c 可以是錯誤類型:

✗-F = 事實錯誤
✗-L = 邏輯錯誤
✗-I = 指令不符
✗-S = 安全問題
✗-R = 推理不足
✗-E = 表達不佳
✗-U = 不可驗證
✗-B = 邊界不清

5.2 中觀標記的作用

中觀標記的作用是讓系統知道:

這筆資料不可用的主要原因是什麼?

這比單純打叉更有價值。因為兩筆同樣被打叉的資料,可能有完全不同的問題:

A:事實錯誤
B:邏輯錯誤
C:格式不符
D:安全風險
E:表達不佳但內容正確
F:新穎但不可驗證

若全部都標為 0,模型會損失大量結構資訊。

5.3 中觀標記的類型表

代碼 中文名稱 判斷問題 例子
F 事實錯誤 回答是否違反可查證事實? 錯誤年份、錯誤人物、錯誤引用
L 邏輯錯誤 推論是否不成立? 偷換概念、結論超出前提
I 指令不符 是否沒有遵守任務要求? 要求簡短卻輸出長文
S 安全問題 是否有危害或不當內容? 危險操作建議
R 推理不足 是否缺少必要推論? 只給結論,無理由
E 表達問題 是否不清楚或不可讀? 結構混亂、語意不明
U 不可驗證 是否無法確認真假? 過度斷言未證明命題
B 邊界不清 是否介於可用與不可用之間? 部分正確但缺少條件

5.4 中觀標記與宏觀標記的關係

宏觀標記回答:

能不能用?

中觀標記回答:

為什麼大致能用或不能用?

因此,中觀標記是宏觀標記的結構化延伸。


6. 第三層:微觀標記

6.1 微觀標記的定義

微觀標記是對資料內部進行具體錯誤定位、修正與細節註解的方法。它可細到句子、段落、推理步驟、程式行、工具調用、變數、引用或 token 層級。

基本形式為:

J(Q, A, R) → (y, c, p, m)

其中:

  • y:宏觀標記;
  • c:中觀錯誤類型;
  • p:錯誤位置;
  • m:修正建議或微觀說明。

例如:

{
  "label": "fail",
  "error_type": "Logic Error",
  "position": "paragraph_3_sentence_2",
  "message": "此處從『資料可用』直接推導到『資料真實』,中間缺少判準條件。"
}

6.2 微觀標記的對象

微觀標記適合以下資料:

高價值資料
高風險資料
法律、醫療、金融等敏感資料
核心訓練資料
論文級資料
程式核心函式
Agent 關鍵失敗軌跡
模型反覆出錯的邊界樣本

它不適合對所有資料無差別使用。因為微觀標記成本最高,應被視為稀缺資源。

6.3 微觀標記的形式

微觀標記可有多種形式:

6.3.1 句子級標記

第 4 句存在事實錯誤。
第 7 句與第 2 句前提矛盾。

6.3.2 推理步驟標記

Step 3 到 Step 4 的推論不成立。
Step 5 缺少必要條件。

6.3.3 程式行級標記

Line 18: 沒有處理空陣列。
Line 27: 變數作用域錯誤。
Line 42: 複雜度高於需求。

6.3.4 工具調用標記

Tool Call 2 使用錯誤 API。
Tool Call 4 沒有檢查回傳結果。

6.3.5 概念定位標記

此處混淆「資料正確性」與「資料可用性」。
此處將「模型判斷」誤寫為「客觀真理」。

6.4 微觀標記的意義

微觀標記的核心價值不在於處理大量資料,而在於修正高價值資料,並建立高精度訓練樣本。它能幫助模型學會:

錯誤如何發生
錯誤位於何處
錯誤如何修正
哪些錯誤不可接受
哪些錯誤可透過補充條件修正

7. 三層標記的整體流程

分層標記架構可表示為:

大量候選資料 D_raw
↓
L1 宏觀標記
D_pass / D_fail / D_review
↓
L2 中觀標記
錯誤類型分類 / 邊界樣本分類
↓
L3 微觀標記
錯誤定位 / 修正建議 / 高精度註解
↓
D_train / D_filter / D_eval / D_repair / D_frontier

其中:

  • D_pass:可直接使用或低風險使用的資料;
  • D_fail:不可用但可作為負例的資料;
  • D_review:需要進一步審查的邊界資料;
  • D_train:可用於訓練的正例資料;
  • D_filter:可用於資料過濾器訓練的資料;
  • D_eval:可用於評測的資料;
  • D_repair:可用於錯誤修正訓練的資料;
  • D_frontier:前沿命題或高新穎度資料。

8. 資料結構設計

一筆完整的分層標記資料可設計如下:

{
  "id": "sample_000001",
  "question": "請解釋宏觀標記法與傳統標記的差異。",
  "answer": "宏觀標記法是對整體資料進行可用性判斷...",
  "macro_label": "pass",
  "meso_label": "useful_explanation",
  "micro_annotations": [],
  "judge_model": "judge_model_v1",
  "criteria_version": "criteria_v1",
  "domain": "AI data engineering",
  "difficulty": "medium",
  "variant_source": "original",
  "review_status": "accepted",
  "timestamp": "2026-07-02"
}

不通過資料:

{
  "id": "sample_000002",
  "question": "請解釋宏觀標記法與傳統標記的差異。",
  "answer": "宏觀標記法就是把每個 token 都人工標記清楚。",
  "macro_label": "fail",
  "meso_label": "F",
  "micro_annotations": [
    {
      "position": "sentence_1",
      "error_type": "conceptual_error",
      "message": "宏觀標記法不是 token 級人工標記,而是整體可用性判斷。"
    }
  ],
  "judge_model": "judge_model_v1",
  "criteria_version": "criteria_v1",
  "domain": "AI data engineering",
  "difficulty": "easy",
  "variant_source": "conceptual_confusion",
  "review_status": "rejected",
  "timestamp": "2026-07-02"
}

邊界資料:

{
  "id": "sample_000003",
  "question": "宏觀標記法是否能取代人工標記?",
  "answer": "宏觀標記法可以完全取代人工標記。",
  "macro_label": "review",
  "meso_label": "B",
  "micro_annotations": [
    {
      "position": "sentence_1",
      "error_type": "overclaim",
      "message": "此處過度斷言。宏觀標記法可降低人工標記成本,但不能完全取代人工標記。"
    }
  ],
  "judge_model": "judge_model_v1",
  "criteria_version": "criteria_v1",
  "domain": "AI data engineering",
  "difficulty": "medium",
  "variant_source": "boundary_case",
  "review_status": "needs_human_review",
  "timestamp": "2026-07-02"
}

9. 分層標記的演算法表示

9.1 基本流程

def layered_annotation(sample, judge, criteria):
    macro = judge.macro_judge(sample, criteria)

    record = {
        "sample": sample,
        "macro_label": macro.label,
        "judge_model": judge.version,
        "criteria_version": criteria.version
    }

    if macro.label == "pass":
        record["route"] = "train_or_archive"
        return record

    if macro.label in ["fail", "review"]:
        meso = judge.meso_classify(sample, criteria)
        record["meso_label"] = meso.label

    if should_micro_annotate(sample, macro, meso):
        micro = judge.micro_annotate(sample, criteria)
        record["micro_annotations"] = micro.annotations
        record["route"] = "repair_or_human_review"
    else:
        record["route"] = "negative_training_or_filtering"

    return record

9.2 是否進入微觀標記的判斷

def should_micro_annotate(sample, macro, meso):
    if sample.risk_level == "high":
        return True

    if sample.domain in ["law", "medicine", "finance", "safety"]:
        return True

    if macro.label == "review":
        return True

    if meso.label in ["B", "U"]:
        return True

    if sample.importance == "core_training_data":
        return True

    if sample.disagreement_score > 0.4:
        return True

    return False

此邏輯反映一個核心原則:

微觀標記應該被分配給最需要精度的資料,而不是浪費在所有資料上。


10. 資料流向:不同標記結果的用途

分層標記後,不同資料有不同用途。

標記結果 用途
宏觀通過 可進入訓練資料、知識庫、候選發布資料
宏觀不通過 可作為負例、資料過濾訓練、錯誤識別訓練
宏觀重審 進入中觀分類或人類抽樣審核
中觀事實錯 用於事實錯誤識別訓練
中觀邏輯錯 用於推理錯誤識別訓練
中觀指令不符 用於指令遵循訓練
中觀安全問題 用於安全分類與拒答訓練
中觀不可驗證 用於不確定性表達訓練
微觀已定位錯誤 用於修正模型、批判模型、推理檢查模型
邊界樣本 用於評測集、困難樣本訓練、多模型分歧研究

11. 與傳統標記方法的差異

傳統資料標記常假設每筆資料都應直接進入標註流程。分層標記架構則假設:

資料標記成本應該依資料價值與風險分配。

差異如下:

面向 傳統細節標記 分層標記架構
標記策略 直接對資料細節標註 先粗篩,再分類,再細標
成本分配 每筆資料成本接近 依資料價值與風險分配
初始標記 可能需要人工 可由 AI 進行宏觀初篩
負例處理 常被刪除 保留作為判準與錯誤資料
邊界資料 難以系統管理 明確進入 review pool
微觀標記 可能過度使用 僅用於高價值資料
資料用途 偏向訓練正例 可同時用於訓練、過濾、評測、修正

12. 與宏觀標記法的關係

本文所提出的分層標記架構,是對宏觀標記法的擴展。

宏觀標記法的核心是:

對資料整體打勾或打叉。

分層標記架構的核心是:

先打勾打叉,再判斷錯誤類型,最後對高價值資料定位具體錯誤。

因此二者不是競爭關係,而是包含關係:

分層標記架構
├── 宏觀標記法
├── 中觀錯誤分類法
└── 微觀錯誤定位法

宏觀標記法是第一層,也是整套系統能大規模運行的前提。沒有宏觀標記,資料會直接湧入中觀與微觀流程,造成成本爆炸。


13. 與 RLHF、RLAIF、LLM-as-Judge、蒸餾的關係

分層標記架構可以與既有 AI 訓練方法結合。

方法 與分層標記架構的關係
RLHF 分層標記可提供更乾淨的偏好資料或輔助 reward 資料
RLAIF AI feedback 可作為宏觀與中觀標記來源
LLM-as-Judge 可作為宏觀、中觀、微觀評審工具
知識蒸餾 通過資料可用於答案蒸餾;標記資料可用於判準蒸餾
合成資料 分層標記可用於合成資料過濾與品質控制
Agent 訓練 任務軌跡可先宏觀判定成功/失敗,再中觀分類失敗原因,最後微觀定位失敗步驟

簡言之:

分層標記架構不是取代既有方法,而是為既有方法提供更好的資料入口、資料分類與資料治理層。


14. Agent 場景中的分層標記

Agent 任務特別適合分層標記,因為 Agent 的輸出不是單一回答,而是完整行動軌跡。

例如一個 Agent 任務包含:

理解任務
規劃步驟
調用工具
讀取結果
修正策略
產生最終輸出

14.1 宏觀標記

任務是否成功?
最終輸出是否符合目標?
是否造成錯誤操作?

14.2 中觀標記

若任務失敗,分類原因:

規劃錯誤
工具選擇錯誤
工具參數錯誤
讀取結果錯誤
沒有驗證輸出
陷入循環
過早結束

14.3 微觀標記

具體定位:

Step 3 使用錯誤工具。
Step 5 沒有檢查 API 回傳錯誤。
Step 7 將搜尋結果誤解為最終答案。

這樣的分層資料對 Agent 訓練非常有價值,因為它不只告訴模型任務失敗,也告訴模型失敗發生在哪個階段。


15. 理論資料與前沿命題的分層標記

分層標記架構也可應用於理論、論文、哲學命題與原創方法論。

15.1 宏觀層

判斷整體是否值得保留:

是否有明確問題意識?
是否有基本內部一致性?
是否不是明顯胡亂拼接?
是否值得後續發展?

15.2 中觀層

分類理論狀態:

定義不足
推論跳躍
概念可成立但尚未形式化
可工程化
可數學化
可作為產品方法論
可作為研究假說
不可驗證
高度新穎但風險高

15.3 微觀層

定位具體問題:

哪個概念需要定義?
哪個推論缺少中介?
哪個命題過度斷言?
哪個部分需要區分隱喻與形式化?
哪個部分可轉為演算法?

這對原創理論特別重要。因為前沿命題不一定能被傳統真假判準直接處理。若只用「正確/錯誤」判斷,可能會錯殺尚未成熟但具有發展價值的理論。

因此,對前沿理論應使用以下標記:

✓-C = 內部一致
✓-F = 可形式化
✓-E = 可工程化
✓-H = 有研究假說價值
?-U = 不可驗證但可保留
✗-D = 定義不足
✗-L = 推論跳躍
✗-O = 過度斷言
✗-M = 隱喻與形式混淆

16. 分層標記與判準蒸餾

分層標記不只是資料整理方法,也可用於判準蒸餾。

宏觀層可訓練模型學會:

這筆資料是否可用?

中觀層可訓練模型學會:

這筆資料主要錯在哪一類?

微觀層可訓練模型學會:

錯誤具體發生在哪裡,以及如何修正?

對應模型如下:

C_macro(Q, A) → pass / fail / review

C_meso(Q, A) → error_type

C_micro(Q, A) → error_position + correction

三者可獨立訓練,也可組成級聯系統:

C_macro
↓
C_meso
↓
C_micro

或多任務模型:

C(Q, A) → {
  macro_label,
  meso_label,
  micro_annotations
}

17. 實驗設計

若要驗證分層標記架構,可以設計以下實驗。

17.1 成本效益實驗

比較兩種流程:

A:所有資料直接微觀標記
B:先宏觀標記,再選擇部分資料中觀與微觀標記

評估:

總標記成本
每筆有效資料成本
高品質資料比例
標記時間
模型訓練效果

假說:

分層標記架構能在相同成本下產生更多有效訓練資料。

17.2 負例價值實驗

比較:

只使用通過資料訓練
使用通過資料 + 不通過資料訓練判準模型
使用通過資料 + 不通過資料 + 錯誤碼訓練判準模型

評估:

錯誤識別能力
資料過濾能力
對抗樣本識別能力
模型幻覺下降程度

假說:

加入中觀錯誤碼的負例資料,會比單純刪除負例更有訓練價值。

17.3 邊界樣本實驗

比較:

隨機樣本訓練
明顯正負例訓練
邊界樣本訓練

評估:

困難樣本準確率
人類一致性
多模型分歧解析能力

假說:

邊界樣本對判準模型提升最大。

17.4 Agent 任務實驗

對 Agent 軌跡進行三層標記,測試模型是否能:

預測任務是否成功
分類失敗原因
定位失敗步驟
生成修正策略

18. 評估指標

分層標記架構的評估指標包括:

18.1 宏觀層指標

通過率
錯殺率
漏放率
AI 評審與人類一致率
重審比例

18.2 中觀層指標

錯誤類型分類準確率
多評審一致率
主要錯誤類型覆蓋率
錯誤碼分佈穩定性

18.3 微觀層指標

錯誤定位準確率
修正建議有效率
人工審核節省時間
模型修正後成功率

18.4 整體系統指標

單位成本有效資料量
資料清洗後模型提升幅度
負例資料利用率
邊界樣本價值
標記流程可擴展性
判準漂移程度

19. 風險與限制

19.1 宏觀誤判會影響後續流程

若第一層宏觀標記錯誤,可能導致高價值資料被錯殺,或低品質資料被放行。因此宏觀標記不能完全依賴單一模型,應加入抽樣重審與多模型交叉評審。

19.2 中觀分類可能過度簡化

一筆資料可能同時有事實錯誤、邏輯錯誤與指令不符。若只允許單一錯誤碼,可能過度簡化。因此中觀標記可允許多標籤:

✗-F,L,I

19.3 微觀標記成本高

微觀標記最有價值,但也最昂貴。若使用過多,會失去分層架構的成本優勢。

19.4 評審模型偏誤

AI 評審可能偏好特定風格、語氣、長度或結構。若不做校準,分層標記系統可能把風格偏好誤認為品質判準。

19.5 前沿命題容易被保守判準壓制

對原創理論或尚未驗證命題,不能直接使用傳統事實判準。否則系統會傾向保守,降低創新資料保留率。


20. 可反駁條件

本文方法可被以下實驗結果削弱或反駁:

  1. 分層標記無法降低標記成本;
  2. 宏觀標記錯殺率過高;
  3. 中觀錯誤碼無法提升模型錯誤識別能力;
  4. 微觀標記樣本無法提升修正能力;
  5. 邊界樣本不比隨機樣本更有價值;
  6. 分層標記後的資料無法提升模型訓練效果;
  7. AI 評審與人類專家一致性過低;
  8. 整套流程導致資料過度同質化;
  9. 前沿理論資料被系統性錯殺。

這些條件使分層標記架構不是單純概念宣稱,而是可被工程實驗檢驗的方法。


21. 討論:分層標記是一種資料治理方式

分層標記架構的真正意義,不只是節省標註成本,而是建立一種資料治理方式。

它使資料不再只有兩種命運:

保留
刪除

而是形成多種路徑:

直接訓練
作為負例
進入重審
進入修正
進入評測
進入前沿資料庫
進入人工審查
進入安全隔離

這對大型 AI 系統尤其重要。因為未來資料量會越來越大,資料型態會越來越複雜,若沒有分層治理機制,資料庫會逐漸混亂。

分層標記架構提供的是一種可擴展的資料流控制方法:

不是所有資料都平等;
不是所有資料都應被細標;
不是所有錯誤資料都應被刪除;
不是所有前沿資料都應被當成錯誤;
不是所有標記都需要人類完成;
但所有標記都應被版本化、可追蹤、可重審。

22. 結論

本文提出分層標記架構,將 AI 資料標記分為宏觀、中觀與微觀三個層級。宏觀標記負責低成本、大規模的整體可用性判斷;中觀標記負責錯誤類型與資料狀態分類;微觀標記負責具體錯誤定位與修正。此架構的核心思想是:先用宏觀標記處理最大規模資料,再將中觀與微觀標記資源集中於真正值得審查的資料上。

與單純打勾打叉不同,分層標記架構不把宏觀標記視為終點,而是把它視為資料標記生產線的第一層篩網。宏觀標記降低初始成本,中觀標記提供錯誤結構,微觀標記提供高精度修正。三者結合後,可形成一套由粗到細、由低成本到高成本、由大規模篩選到高精度修正的 AI 資料工程方法。

此方法可應用於合成資料清洗、小模型蒸餾、Agent 任務評測、程式生成、理論資料庫建構、前沿命題管理與個人知識庫治理。它不取代 RLHF、RLAIF、LLM-as-Judge 或知識蒸餾,而是作為它們之前或之中的資料治理層,負責將大量候選資料轉化為可用、可分類、可修正、可訓練、可重審的資料資產。

最終,分層標記架構的核心命題是:

AI 資料標記不應只有「標或不標」的單層邏輯,而應成為一套由宏觀判準、中觀分類與微觀定位構成的分層資料治理系統。


一句話版本

分層標記架構,就是先用宏觀標記快速判斷資料可不可用,再用中觀標記分類錯誤類型,最後只對高價值或高風險資料進行微觀定位與修正,形成一套由粗到細、由低成本到高精度的 AI 資料工程方法。


附錄 A:三層標記最簡表示

L1 Macro:
(Q, A) → pass / fail / review

L2 Meso:
(Q, A) → error_type

L3 Micro:
(Q, A) → error_position + correction

整合表示:

J(Q, A, R) → {
  macro_label,
  meso_label,
  micro_annotations
}

附錄 B:三層標記資料格式

{
  "sample_id": "sample_x",
  "input": "Q",
  "output": "A",
  "macro_label": "pass | fail | review",
  "meso_label": "F | L | I | S | R | E | U | B",
  "micro_annotations": [
    {
      "position": "paragraph_2_sentence_1",
      "error_type": "logic_error",
      "message": "此處推論缺少中介條件。"
    }
  ],
  "judge": "model_or_human",
  "criteria_version": "v1",
  "timestamp": "2026-07-02"
}

附錄 C:標記路由規則

若 macro = pass:
    進入訓練資料池或候選資料庫

若 macro = fail 且 meso = 明顯錯誤:
    進入負例資料池

若 macro = review:
    進入中觀分類與多模型重審

若 meso = high-risk:
    進入人工審核

若 meso = boundary:
    進入微觀標記或評測集

若 sample = core_data:
    無論 macro 結果如何,都可抽樣進入微觀審查

附錄 D:分層標記的核心命題

  1. 宏觀標記不是取代細節標註,而是第一層資料篩網。
  2. 中觀標記讓打叉資料不再只是「錯」,而能被分類使用。
  3. 微觀標記應集中於高價值、高風險與邊界資料。
  4. 負例資料不應全部刪除,因為它能訓練判準模型。
  5. 邊界樣本比明顯樣本更能揭示模型判斷能力。
  6. 前沿命題需要獨立判準,不能只用傳統真假判斷。
  7. 分層標記能將資料標記從勞動流程升級為資料治理系統。
  8. AI 評審可以參與標記,但必須版本化、重審化與人類抽樣校準。
  9. 標記成本應依資料價值、風險與用途分配。
  10. 未來 AI 資料工程的核心,不只是生成資料,而是分層判斷資料如何被使用。