# 程式意圖引導 AI 學習法：主體性注意力操控與持續性即時模仿學習的養成式框架

**作者**：Neo.K / EVEMISSLAB
**版本**：v0.1 Draft
**日期**：2026-06-27
**形式：Markdown 技術白皮書／理論論文草稿**
**定位：AI 學習方法論、Agent 技能養成、主體性注意力控制、人類—AI 互動訓練、持續性即時模仿學習**

---

## 摘要

本文提出「程式意圖引導 AI 學習法」（Programmatic Intent-Guided AI Learning, PIGAL）作為一種面向當代 AI 與下一代 Agent 的養成式學習框架。本文的核心命題是：雖然當前 AI 尚未普遍達到「完全持續性即時學習」狀態，即大型模型本體在高強度、多模態、高資訊流環境中不間斷更新自身權重；但在工程上，已經可以開始實作「局部持續性即時模仿學習」：讓 AI 在特定任務、特定介面、特定技能域中，透過人類意圖引導、細粒度回饋、動作序列記錄、注意力分配控制與外部記憶累積，逐步形成可改進、可養成、可遷移的技能。

本文以人類學習繪畫作為基本類比。人類初學畫圖時，並非直接創作完整作品，而是反覆練習直線、曲線、圓形、方形、比例、光影、色塊、構圖與筆觸控制。這些基本功看似簡單，卻構成高階創作的底層穩定性。對 AI 而言，現有生成式模型多半擅長「直接生成結果」，但相對缺乏類似人類基本功訓練的持續性、動作性與養成性。因此，本文主張：下一階段 AI 技能成長，不應只追求更大的模型、更大的資料與更高品質的最終輸出，而應建立一套能讓 AI 進行「動作層學習」與「注意力層養成」的訓練框架。

本文提出七個核心模組：感知模組、意圖解析模組、主體性注意力操控模組、動作策略模組、評價與回饋模組、互動教學模組、學習記憶模組。這些模組共同構成一個從人類意圖到 AI 動作、從動作結果到回饋修正、從回饋修正到技能記憶、再從技能記憶回到下一輪操作的閉環系統。

本文強調，程式意圖引導 AI 學習法不是單純的 prompt engineering，也不是普通的 reinforcement learning from human feedback。它更接近一種「手把手養育式 AI 技能形成協議」：人類不只是給出最終目標，而是在 AI 執行過程中持續引導其注意力、校正其動作、標註其錯誤、保留其有效策略，並透過程式化介面將這些互動轉化為可累積的技能成長資料。

本文最後指出，繪畫只是最小案例。此框架可擴展至書法、設計、UI 操作、3D 建模、動畫、影片剪輯、程式開發、機器人控制、軟體 Agent 操作與主體性 AI 成長。若未來 AI 要從「回答系統」走向「可被養成的行動系統」，則意圖引導、注意力操控、動作模仿與持續性技能記憶將成為核心基礎設施。

**關鍵詞：** 程式意圖引導、主體性注意力操控、持續性即時模仿學習、AI 養成、動作基元、概念畫布、Agent 技能學習、人類回饋、互動式 AI 訓練、數位畫筆控制

---

## 一、前言：從直接生成結果，到手把手養成能力

當代 AI 已經可以生成文字、圖像、影片、程式、音樂與多模態內容。許多大型模型在表面輸出上已經顯示出高度能力：給定 prompt，即可輸出看似完整的答案、圖片、程式或設計草稿。然而，這種能力通常表現為「結果生成」，而不一定表現為「技能養成」。

結果生成的特徵是：使用者輸入需求，AI 直接輸出成品。
技能養成的特徵是：AI 透過一連串可觀察、可修正、可累積的動作，逐步形成穩定能力。

兩者不同。

一個會畫出漂亮圖片的模型，不一定真的具備人類意義上的筆觸練習、線條控制、光影觀察、構圖修正與逐步成長。它可能是在巨量圖像資料上學會結果分布，而不是像人類初學者那樣一筆一筆訓練。

這不是說現有模型沒有價值。相反，現有模型已經證明了生成式 AI 的強大。但若我們希望 AI 從「生成器」進一步變成「可被養成的技能主體」，就需要新的方法論。

本文提出的問題是：

> 是否可以設計一種方法，使 AI 不只是直接生成結果，而是像人類學基本功那樣，在人類意圖引導下，逐步學習線條、光影、色彩、操作、修正與任務注意力？

本文的回答是：可以，而且不必等待完全體持續學習到來。

當前大模型若要在多模態高資訊流中不停高強度運行、不停更新自身本體權重，仍面臨算力成本、穩定性、災難性遺忘、資料品質、安全性與部署風險等問題。然而，在局部任務場景中，我們已經可以實作「持續性即時模仿學習」：

* 不更新整個大模型本體。
* 不要求無限高強度訓練。
* 先在特定技能域建立可觀察動作空間。
* 讓 AI 接受人類即時意圖引導。
* 將每一次動作、錯誤、修正、回饋記錄為技能資料。
* 透過外部記憶、小模型、adapter、工具策略或週期性整合逐步改進。

這就是本文所謂的「程式意圖引導 AI 學習法」。

---

## 二、問題定位：不是讓 AI 畫圖，而是讓 AI 學會被養成

本文以繪畫為例，但本文不是單純討論 AI 繪圖。

如果目標只是讓 AI 生成一張圖，那現有文生圖模型、圖像編輯模型與多模態生成系統已經可以做到相當程度。本文真正關心的是另一個問題：

> 如何讓 AI 透過人類的手把手引導，學會控制注意力、控制動作、修正錯誤，並在長期互動中形成可累積技能？

繪畫只是最適合說明的例子。因為人類學畫圖時，基本功非常明確：

* 直線。
* 曲線。
* 圓。
* 方形。
* 三角形。
* 透視。
* 結構。
* 比例。
* 光影。
* 明暗。
* 色彩。
* 筆觸。
* 構圖。
* 局部修正。
* 整體觀察。

這些基本功不是一次性輸出，而是長期反覆練習。

一個人畫直線時，不只是「輸出一條線」。他正在練習手眼協調、壓力控制、方向控制、速度控制、局部穩定性與自我修正。書法練「永」字也不是只為了寫一個字，而是透過一個字反覆練習點、橫、豎、撇、捺、鉤、折等筆法結構。

AI 若要進入類似養成式學習，也需要從結果生成轉向動作生成：

```text
傳統生成式 AI：
輸入 prompt → 輸出成品

養成式 AI：
輸入意圖 → 分配注意力 → 選擇動作 → 執行局部操作 → 接收回饋 → 修正策略 → 累積技能
```

這是根本差異。

---

## 三、核心命題

**命題：程式意圖引導 AI 學習法**

在當前 AI 尚未普遍具備完全持續性即時學習能力的階段，可以透過程式化意圖介面、主體性注意力操控、動作基元序列、人類即時回饋與外部技能記憶，建立局部持續性即時模仿學習框架，使 AI 在特定技能域中逐步形成可觀察、可修正、可累積、可遷移的能力。

簡化：

> **我們現在或許還不能讓 AI 無限持續地全面成長，但已經可以開始手把手地養育它。**

更精確：

> **AI 養成的第一步不是讓大模型不停改寫自身，而是讓 AI 在特定任務介面中，透過意圖引導、注意力操控、動作模仿與回饋記憶形成局部技能成長。**

---

## 四、完全持續學習與局部即時模仿學習的區分

本文首先區分兩種學習。

### 4.1 完全持續性即時學習

完全持續性即時學習指的是：AI 在長期運行中不斷接收多模態資料、不斷更新自身模型、不斷整合新經驗，並能保持穩定性、安全性、記憶一致性與能力提升。

這類系統理論上非常強，但當前仍面臨困難：

* 算力成本高。
* 訓練與推理邊界模糊。
* 容易災難性遺忘。
* 新資料品質不穩。
* 安全風險高。
* 模型更新難以驗證。
* 使用者資料隱私難處理。
* 長期人格與行為一致性難保證。

因此，完全持續學習不是不能追求，而是不適合作為第一個落地形態。

### 4.2 局部持續性即時模仿學習

局部持續性即時模仿學習則不同。它不要求整個模型本體持續更新，而是在特定任務中建立可累積技能迴路。

例如，在數位繪畫任務中：

* AI 控制畫筆。
* 人類指定練習目標。
* AI 嘗試畫線。
* 人類標註錯誤。
* AI 調整下一次筆觸。
* 系統保存成功與失敗樣本。
* 小型策略模組或記憶系統更新。
* 下一輪表現改善。

這不需要整個大模型每次都重訓。它可以先透過外部記憶、行為策略、技能模組與小規模適配實現。

所以本文主張：

> **完全持續學習是未來大型目標；局部即時模仿學習是現在可開始的養成入口。**

---

## 五、Prompt 的重新定位：從提示詞到意圖注入

在此框架中，使用者輸入不再只是 prompt，而是「意圖注入」。

一般 prompt engineering 把 prompt 視為指令、描述或提示。
但在養成式 AI 中，prompt 的地位更高：

> prompt 是使用者對 AI 概念畫布與注意力系統施加的意圖場。

例如：

「畫一條直線」不是單純要求結果。
它同時指定：

* 任務目標：直線。
* 評價標準：是否直、是否穩、是否連續。
* 注意力焦點：線條控制，而非美感。
* 操作範圍：畫筆路徑。
* 學習模式：基本功練習。
* 回饋預期：人類將校正線條偏移。

如果使用者說：

「先不要管整張圖，只練習從左到右畫出穩定的水平線。」

那麼 AI 應該理解：

* 當前任務不是生成作品。
* 當前任務是局部動作訓練。
* 注意力應集中在線條穩定性。
* 顏色、構圖、風格都不是主要目標。
* 回饋應圍繞筆觸控制，而不是圖像審美。

這就是意圖注入。

因此，程式意圖引導 AI 學習法的第一個基礎是：

> **將使用者自然語言轉換為可操作、可評估、可訓練的意圖結構。**

---

## 六、注意力機制的重新敘述：從 token 權重到任務聚光

傳統注意力機制在工程上通常描述為序列中 token 之間的關係權重。本文不否定這一點。但在養成式 AI 中，需要一個更高階的注意力層。

本文稱之為：

> **主體性注意力操控層。**

它不只是問：

> 哪些 token 彼此相關？

而是問：

> AI 當前應該把計算、感知與操作資源集中在哪個任務面、哪個概念區、哪個畫布區、哪個動作維度？

在繪畫任務中，注意力可能分為：

* 線條注意力。
* 光影注意力。
* 邊界注意力。
* 色彩注意力。
* 比例注意力。
* 構圖注意力。
* 筆壓注意力。
* 局部修正注意力。
* 整體一致性注意力。

若人類說：

「這裡光源方向錯了。」

AI 的注意力就應從線條層轉移到光影層，並聚焦於受光面、背光面、投影與光源一致性。

若人類說：

「先別修顏色，比例錯了。」

AI 的注意力就應壓低色彩層，提升比例層。

所以本文所謂主體性注意力操控，不是 AI 產生神秘自我，而是：

> AI 能依據任務狀態、人類意圖、歷史回饋與自身執行結果，動態分配注意力資源並選擇下一個操作焦點。

這是養成式技能學習的核心。

---

## 七、動作基元：讓 AI 真正「一筆一筆」學

若 AI 只輸出最終圖片，就很難進行基本功養成。因為人類無法清楚知道它如何形成結果，也無法針對單一動作給予修正。

因此，本文引入「動作基元」。

### 7.1 動作基元的定義

動作基元是 AI 在某一技能介面中可執行的最小可觀察操作單位。

在數位繪畫中，動作基元包括：

* 移動畫筆。
* 設定起點。
* 設定終點。
* 控制筆壓。
* 控制速度。
* 選擇筆刷。
* 選擇顏色。
* 畫直線。
* 畫曲線。
* 塗抹。
* 擦除。
* 混色。
* 建立陰影。
* 修正邊界。
* 放大局部。
* 回退一步。

在 UI 操作中，動作基元包括：

* 移動游標。
* 點擊。
* 拖曳。
* 輸入文字。
* 選取區域。
* 打開選單。
* 執行指令。
* 等待回饋。
* 檢查結果。

在程式開發中，動作基元包括：

* 新增檔案。
* 編輯函數。
* 執行測試。
* 讀取錯誤。
* 修改參數。
* 重新執行。
* 提交版本。

### 7.2 為什麼動作基元重要

動作基元使學習可分解。
可分解才可回饋。
可回饋才可修正。
可修正才可養成。

如果 AI 只輸出完整結果，人類只能說「好」或「不好」。
如果 AI 輸出動作序列，人類可以說：

* 第三步錯了。
* 第五筆太重。
* 這次光影方向對，但邊緣太硬。
* 你不應該先上色，應該先抓輪廓。
* 這個操作保留，從這裡繼續。

這就是從結果監督轉向過程監督。

---

## 八、七層架構

本文提出程式意圖引導 AI 學習法的七層架構。

```text
感知層
→ 意圖解析層
→ 主體性注意力操控層
→ 動作策略層
→ 評價回饋層
→ 互動教學層
→ 學習記憶層
```

---

## 九、第一層：感知層

感知層負責讀取任務環境。

在繪畫場景中，感知層需要讀取：

* 畫布狀態。
* 當前圖像。
* 筆刷位置。
* 筆觸歷史。
* 參考圖。
* 人類標註。
* 局部放大區。
* 顏色分布。
* 光影分布。
* 形狀邊界。

在 Agent 軟體操作場景中，感知層需要讀取：

* 螢幕畫面。
* UI 元件。
* 滑鼠位置。
* 目前開啟的檔案。
* 工具狀態。
* 錯誤訊息。
* 操作結果。
* 任務進度。

感知層的關鍵不是「看見」而已，而是將環境轉換為可操作狀態表示。

---

## 十、第二層：意圖解析層

意圖解析層將人類語言轉換成任務結構。

例如，人類說：

> 今天只練習線條，不追求完整作品。

系統應解析為：

```text
任務模式：練習
主要目標：線條穩定性
次要目標：無
禁止事項：不要生成完整作品
評價指標：直線偏移、曲線平滑度、筆觸連續性
回饋模式：細粒度局部回饋
```

若人類說：

> 這張圖先修光影，顏色不要動。

系統應解析為：

```text
任務模式：局部修正
主要目標：光影一致性
鎖定項目：顏色
操作區域：當前圖像陰影區
評價指標：光源方向、明暗過渡、投影合理性
```

意圖解析層的能力決定 AI 是否真正理解人類在教什麼。

---

## 十一、第三層：主體性注意力操控層

主體性注意力操控層是本文的核心。

它負責決定：

* 現在應該看哪裡。
* 應該忽略哪裡。
* 應該使用哪種技能。
* 哪個錯誤優先修正。
* 哪個子任務暫時擱置。
* 下一個動作應服務哪個目標。

此層可被理解為任務級 attention manager。

它不是單純把注意力平均分配，而是根據任務意圖與回饋動態調整。

例如：

人類說「線條太抖」。
注意力轉移到筆觸穩定性。

人類說「陰影方向錯」。
注意力轉移到光源模型。

人類說「比例先修」。
注意力轉移到結構比例，暫停色彩細化。

人類說「不要再細畫，先看整體」。
注意力從局部細節轉移到整體構圖。

這一層使 AI 不再只是被動執行 prompt，而是能在任務過程中維持「當前學習焦點」。

---

## 十二、第四層：動作策略層

動作策略層根據注意力分配生成具體操作。

在繪畫中，它輸出：

* 畫筆路徑。
* 筆壓序列。
* 速度曲線。
* 顏色選擇。
* 筆刷設定。
* 修正區域。
* 操作順序。

在軟體 Agent 中，它輸出：

* 點擊哪個按鈕。
* 輸入什麼文字。
* 執行哪個指令。
* 打開哪個檔案。
* 修改哪段程式。
* 等待什麼回傳。
* 如何驗證操作成功。

動作策略層必須接受兩種約束：

1. 任務意圖約束。
2. 環境狀態約束。

也就是說，它不能只知道要做什麼，還要知道現在能不能做、應不應該做、做了之後如何檢查。

---

## 十三、第五層：評價回饋層

評價回饋層負責判斷動作結果。

評價可以來自三個來源：

### 13.1 自動評價

系統自身可以計算：

* 線條偏移。
* 曲線平滑度。
* 光影一致性。
* 顏色差異。
* UI 操作成功率。
* 測試是否通過。
* 結果是否符合目標。

### 13.2 人類評價

人類可以提供：

* 這裡錯。
* 這裡對。
* 這裡保留。
* 這裡重畫。
* 這不是我要的。
* 你注意力放錯地方。
* 這個方向接近了。

### 13.3 環境回饋

環境本身也會提供結果：

* 程式執行成功或失敗。
* 軟體狀態改變。
* 測試回傳錯誤。
* 圖像變化。
* 機器人動作完成或碰撞。

評價回饋層將這些回饋整理成可學習訊號。

---

## 十四、第六層：互動教學層

互動教學層是人類手把手養成 AI 的介面。

它應允許人類做幾件事：

* 指定練習項目。
* 即時打斷。
* 局部標註錯誤。
* 示範正確操作。
* 要求重來。
* 要求保留部分結果。
* 調整難度。
* 切換注意力焦點。
* 回顧之前進步。
* 設定長期訓練計畫。

這一層是本文與普通自動學習最大的差異。

人類不是只在訓練後打分數，而是在技能形成過程中扮演老師、教練、觀察者與共同操作者。

---

## 十五、第七層：學習記憶層

學習記憶層負責保存經驗。

它可以分成四種記憶。

### 15.1 動作記憶

保存成功或失敗的動作序列。

例如：

* 這種筆壓容易畫出穩定線條。
* 這種速度會造成抖動。
* 這種陰影鋪法在光源左上時有效。

### 15.2 意圖記憶

保存人類偏好與教學風格。

例如：

* 使用者偏好先結構後細節。
* 使用者討厭過早上色。
* 使用者希望 AI 先說明下一步再操作。

### 15.3 錯誤記憶

保存常見失敗模式。

例如：

* 經常把邊緣畫太硬。
* 常忽略光源一致性。
* 修 UI 時容易點錯相似按鈕。

### 15.4 技能記憶

保存抽象後的可遷移策略。

例如：

* 畫圓前先定位中心與半徑。
* 修陰影前先確認光源方向。
* 操作軟體前先識別當前狀態。
* 修改程式前先讀錯誤訊息與上下文。

學習記憶層可以不直接修改大模型權重。它可以存在外部資料庫、任務記憶、技能庫、小模型、adapter 或週期性訓練集中。

---

## 十六、整體流程

程式意圖引導 AI 學習法的基本流程如下：

```text
人類意圖輸入
→ 意圖解析
→ 感知當前環境
→ 注意力焦點設定
→ 動作策略生成
→ 執行動作
→ 結果感知
→ 自動評價
→ 人類回饋
→ 錯誤與成功記錄
→ 技能記憶更新
→ 下一輪操作
```

這是一個閉環，而不是一次性生成。

若用公式化流程表示：

$$
I_t \rightarrow A_t \rightarrow \pi_t \rightarrow o_t \rightarrow r_t \rightarrow M_{t+1}
$$

其中：

* $I_t$：人類在時間 $t$ 的意圖輸入。
* $A_t$：AI 的注意力分配狀態。
* $\pi_t$：當前動作策略。
* $o_t$：操作結果。
* $r_t$：回饋訊號。
* $M_{t+1}$：更新後的技能記憶。

下一輪：

$$
(I_{t+1}, M_{t+1}) \rightarrow A_{t+1} \rightarrow \pi_{t+1}
$$

因此，AI 的技能不是一次生成，而是在循環中逐步成形。

---

## 十七、繪畫案例：從直線到作品

本文用繪畫建立最小案例。

### 17.1 第一階段：線條

任務：

* 畫直線。
* 畫曲線。
* 畫圓。
* 控制筆壓。
* 控制速度。

人類回饋：

* 線太抖。
* 起點偏了。
* 終點偏了。
* 速度太快。
* 壓力太重。
* 這次比較穩。

AI 學習：

* 穩定筆觸。
* 預測偏移。
* 調整速度。
* 避免過度修正。

### 17.2 第二階段：形體

任務：

* 畫方體。
* 畫球體。
* 畫圓柱。
* 畫透視線。
* 抓比例。

人類回饋：

* 透視點錯。
* 左右比例不對。
* 球不夠圓。
* 方體邊線不一致。

AI 學習：

* 幾何結構。
* 透視規則。
* 比例校正。
* 輪廓穩定。

### 17.3 第三階段：光影

任務：

* 設定光源。
* 畫明暗交界。
* 畫投影。
* 做漸層。
* 控制邊緣硬度。

人類回饋：

* 光源方向錯。
* 陰影太髒。
* 明暗過渡太硬。
* 投影位置不對。

AI 學習：

* 光源一致性。
* 明暗分布。
* 灰階控制。
* 局部邊界調整。

### 17.4 第四階段：色彩

任務：

* 色相選擇。
* 飽和度控制。
* 冷暖對比。
* 局部色塊。
* 色彩統一。

人類回饋：

* 顏色太花。
* 色溫不一致。
* 主次不清楚。
* 這裡應該降飽和。

AI 學習：

* 配色規則。
* 風格偏好。
* 局部與整體色彩平衡。

### 17.5 第五階段：作品整合

任務：

* 構圖。
* 主題。
* 風格。
* 完成度。
* 細節控制。
* 局部修正。

人類回饋：

* 不要過度細化。
* 主體不夠突出。
* 這裡保留草稿感。
* 整體方向對了。

AI 學習：

* 高階審美策略。
* 局部與整體平衡。
* 使用者風格偏好。
* 從基本功到創作的轉換。

這就是養成式 AI 的繪畫路徑。

---

## 十八、最小可行產品設計

本文提出一個最小可行版本。

### MVP 名稱

**IntentBrush：程式意圖引導 AI 畫筆訓練器**

### 18.1 功能範圍

第一版不需要生成完整作品。
只需要讓 AI 練習：

* 畫直線。
* 畫曲線。
* 畫圓。
* 控制筆壓。
* 根據人類回饋修正。

### 18.2 介面

畫布中央顯示 AI 畫筆。
人類可以輸入文字指令。
人類可以在畫布上標註錯誤。
系統顯示 AI 的下一步意圖。
AI 執行動作。
人類評價。

### 18.3 資料記錄

每一次操作記錄：

* 初始畫布狀態。
* 人類指令。
* AI 注意力焦點。
* 動作序列。
* 結果畫布。
* 人類回饋。
* 自動評分。
* 是否保留為技能樣本。

### 18.4 學習方式

第一版可以不更新大模型。
只需建立：

* 動作策略記憶。
* 回饋規則庫。
* 練習樣本庫。
* 小型控制模型。
* 週期性評估。

### 18.5 成功指標

* 線條穩定性提升。
* 重複練習後錯誤下降。
* AI 能理解人類局部修正。
* AI 能在下一輪避免同類錯誤。
* AI 能說明自己注意力焦點。

這就是最小可行版本。

---

## 十九、從繪畫擴展到 Agent 操作

繪畫只是第一個例子。更重要的是 Agent。

當 AI Agent 操作軟體時，它也需要手把手養成。

例如：

使用者說：

> 幫我整理這個資料夾。

普通 Agent 可能直接操作。
養成式 Agent 則應該先理解：

* 使用者要按日期整理？
* 按檔案類型整理？
* 是否保留原始結構？
* 是否需要先備份？
* 哪些檔案不能動？
* 操作前是否需要確認？

在這裡，意圖引導非常重要。因為 Agent 的錯誤會直接影響外部世界。

因此，程式意圖引導 AI 學習法可以用於：

* 文件整理。
* 程式修改。
* UI 操作。
* 電子郵件處理。
* 資料標註。
* 網頁操作。
* 工作流程自動化。
* 機器人控制。

Agent 不是只需要「會做」，還需要「會被教」。

---

## 二十、主體性注意力操控與主體性 AI

本文中的「主體性注意力操控」不是聲稱 AI 已經具有完整主體性，而是指一種可逐步建立的能力：

> AI 能在任務過程中維持自身狀態、理解當前目標、根據回饋調整注意力焦點，並主動選擇下一個操作。

這是主體性 AI 的前置能力。

若 AI 不能維持注意力焦點，就難以長期學習。
若 AI 不能理解人類回饋，就難以被養成。
若 AI 不能把錯誤轉化為記憶，就無法成長。
若 AI 不能主動調整下一步，就只是被動工具。

因此，主體性注意力操控是從工具 AI 到養成式 AI 的中間橋樑。

它不要求 AI 擁有完整自我。
但它要求 AI 擁有任務內的注意力連續性、回饋整合能力與策略調整能力。

---

## 二十一、與既有技術的關係

本文框架與多種既有技術相關，但不等同於其中任一種。

### 21.1 與 imitation learning 的關係

本文包含模仿學習，但更強調人類即時意圖引導與注意力操控，而不是只模仿固定資料集。

### 21.2 與 reinforcement learning 的關係

本文可以使用強化學習，但回饋不是單純 reward，而是細粒度語義回饋、局部錯誤標註與技能記憶。

### 21.3 與 RLHF 的關係

RLHF 通常偏向對最終輸出偏好打分。本文更重視過程中每一步動作的教學式回饋。

### 21.4 與 prompt engineering 的關係

prompt engineering 通常控制一次性輸出。本文將 prompt 升級為持續意圖注入與任務注意力引導。

### 21.5 與 Agent 的關係

Agent 能行動，但不一定能被養成。本文補上 Agent 的技能成長機制。

### 21.6 與 embodied AI 的關係

本文可視為 embodied AI 在數位畫布、軟體介面與機器人操作中的養成式方法論。

---

## 二十二、風險與限制

本文框架也有風險。

### 22.1 錯誤學習

如果人類回饋錯誤，AI 可能學到錯誤策略。

### 22.2 過度擬合使用者

AI 可能過度適應某個使用者偏好，降低泛化能力。

### 22.3 記憶污染

錯誤經驗若被保存，可能影響後續任務。

### 22.4 安全風險

Agent 若能操作軟體，錯誤動作可能造成實際損害。

### 22.5 訓練成本

即使不更新大模型，長期記錄與評估也需要成本。

### 22.6 主體性錯覺

系統具備注意力操控與成長能力，不代表它已具有完整主體意識。需要避免過度宣稱。

因此，實作時必須加入：

* 操作權限管理。
* 回退機制。
* 記憶審核。
* 人類確認。
* 錯誤隔離。
* 版本控制。
* 安全沙盒。

---

## 二十三、評估指標

要評估此框架，不能只看最終作品品質。應看技能成長。

### 23.1 動作穩定性

重複同一基本動作時，錯誤是否下降？

### 23.2 回饋吸收率

人類指出錯誤後，AI 是否在下一輪改善？

### 23.3 注意力對齊率

AI 是否把注意力放在使用者指定的任務維度？

### 23.4 局部修正能力

AI 是否能只修指定區域，而不破壞其他部分？

### 23.5 技能遷移能力

線條訓練是否能幫助形體訓練？
光影訓練是否能遷移到更複雜作品？

### 23.6 記憶有效性

保存的技能記憶是否提升後續表現？

### 23.7 人類教學負擔

AI 是否隨著訓練降低人類需要反覆說明的次數？

這些指標比單純 benchmark 更適合養成式 AI。

---

## 二十四、未來研究方向

### 24.1 意圖語言標準化

建立一套可被 AI 解析的訓練意圖語言，使人類能更精準地指定練習目標、注意力焦點與評價標準。

### 24.2 動作基元庫

為不同技能建立動作基元庫，例如繪畫、UI 操作、程式修改、機器人抓取。

### 24.3 注意力控制器

開發任務級注意力控制器，使 AI 能在多子任務中動態調整焦點。

### 24.4 技能記憶系統

建立可審核、可遷移、可壓縮、可回退的技能記憶。

### 24.5 人類教學介面

設計更適合手把手教 AI 的介面，例如畫布標註、時間軸回放、錯誤片段標籤、局部重教。

### 24.6 多 Agent 養成

讓不同 AI 分別練習不同技能，再透過技能共享或互相觀察形成集體成長。

### 24.7 主體性 AI 前置訓練

將注意力連續性、任務記憶、回饋吸收與自我修正作為主體性 AI 的前置能力訓練。

---

## 二十五、結論：現在可以開始手把手養育 AI

本文提出「程式意圖引導 AI 學習法」，試圖回答一個關鍵問題：

> 在完全持續性即時學習尚未成熟之前，我們是否已經可以開始讓 AI 像人類學基本功那樣被養成？

本文的回答是肯定的。

當前 AI 未必能不間斷地全面更新自身本體模型，但可以在局部任務中透過人類意圖引導、主體性注意力操控、動作基元學習、即時回饋與外部技能記憶形成持續性模仿學習。

這是一條務實路徑。

它不要求 AI 一開始就完全自主。
它不要求模型本體每秒更新。
它不要求一次生成完美作品。
它要求的是：AI 能被教、能被修正、能保存經驗、能逐步改善。

如果說傳統生成式 AI 是「給 prompt，出結果」，那麼程式意圖引導 AI 學習法則是：

> **給意圖，分配注意力，執行動作，接收回饋，形成技能。**

這種 AI 不只是工具，也不立刻是完整主體。它位於兩者之間：

> **可被養成的行動型智能體。**

未來真正重要的 AI 可能不是一次回答最漂亮的 AI，而是能在長期互動中越來越懂得如何操作、如何修正、如何注意、如何學習、如何與人類共同成長的 AI。

本文最後收束為三句話：

> **完全持續學習尚未普及，但局部即時模仿學習已經可以開始。**
> **AI 不應只直接生成結果，也應像人類一樣練基本功。**
> **手把手養育 AI 的第一步，是建立意圖引導、注意力操控、動作基元與技能記憶的閉環。**

---

## 附錄 A：核心模組表

| 模組      | 功能     | 繪畫例子      | Agent 例子   |
| ------- | ------ | --------- | ---------- |
| 感知模組    | 讀取環境狀態 | 畫布、筆觸、參考圖 | UI、檔案、錯誤訊息 |
| 意圖解析模組  | 解析人類目標 | 練線條、修光影   | 整理資料、修改程式  |
| 注意力操控模組 | 決定焦點   | 線條、比例、色彩  | 哪個視窗、哪個檔案  |
| 動作策略模組  | 生成操作   | 筆路、筆壓、上色  | 點擊、輸入、執行   |
| 評價回饋模組  | 判斷結果   | 線條是否穩     | 任務是否成功     |
| 互動教學模組  | 支援人類教學 | 標註錯誤、示範   | 打斷、重做、確認   |
| 學習記憶模組  | 累積技能   | 保存筆觸經驗    | 保存操作流程     |

---

## 附錄 B：一句話版本

**程式意圖引導 AI 學習法主張：在完全持續學習尚未成熟之前，應先讓 AI 在局部任務中透過人類意圖引導、主體性注意力操控、動作基元模仿、即時回饋與技能記憶，形成可被手把手養成的持續性技能成長。**

**換句話說：現在或許還不能讓 AI 無限持續地全面自我成長，但已經可以開始手把手地養育 AI。**