← Archive
lm-001192 · 2026-07

程式意圖引導 AI 學習法:主體性注意力操控與持續性即時模仿學習的養成式框架

程式意圖引導 AI 學習法:主體性注意力操控與持續性即時模仿學習的養成式框架

作者:Neo.K / EVEMISSLAB 版本:v0.1 Draft 日期:2026-06-27 形式:Markdown 技術白皮書/理論論文草稿 定位:AI 學習方法論、Agent 技能養成、主體性注意力控制、人類—AI 互動訓練、持續性即時模仿學習


摘要

本文提出「程式意圖引導 AI 學習法」(Programmatic Intent-Guided AI Learning, PIGAL)作為一種面向當代 AI 與下一代 Agent 的養成式學習框架。本文的核心命題是:雖然當前 AI 尚未普遍達到「完全持續性即時學習」狀態,即大型模型本體在高強度、多模態、高資訊流環境中不間斷更新自身權重;但在工程上,已經可以開始實作「局部持續性即時模仿學習」:讓 AI 在特定任務、特定介面、特定技能域中,透過人類意圖引導、細粒度回饋、動作序列記錄、注意力分配控制與外部記憶累積,逐步形成可改進、可養成、可遷移的技能。

本文以人類學習繪畫作為基本類比。人類初學畫圖時,並非直接創作完整作品,而是反覆練習直線、曲線、圓形、方形、比例、光影、色塊、構圖與筆觸控制。這些基本功看似簡單,卻構成高階創作的底層穩定性。對 AI 而言,現有生成式模型多半擅長「直接生成結果」,但相對缺乏類似人類基本功訓練的持續性、動作性與養成性。因此,本文主張:下一階段 AI 技能成長,不應只追求更大的模型、更大的資料與更高品質的最終輸出,而應建立一套能讓 AI 進行「動作層學習」與「注意力層養成」的訓練框架。

本文提出七個核心模組:感知模組、意圖解析模組、主體性注意力操控模組、動作策略模組、評價與回饋模組、互動教學模組、學習記憶模組。這些模組共同構成一個從人類意圖到 AI 動作、從動作結果到回饋修正、從回饋修正到技能記憶、再從技能記憶回到下一輪操作的閉環系統。

本文強調,程式意圖引導 AI 學習法不是單純的 prompt engineering,也不是普通的 reinforcement learning from human feedback。它更接近一種「手把手養育式 AI 技能形成協議」:人類不只是給出最終目標,而是在 AI 執行過程中持續引導其注意力、校正其動作、標註其錯誤、保留其有效策略,並透過程式化介面將這些互動轉化為可累積的技能成長資料。

本文最後指出,繪畫只是最小案例。此框架可擴展至書法、設計、UI 操作、3D 建模、動畫、影片剪輯、程式開發、機器人控制、軟體 Agent 操作與主體性 AI 成長。若未來 AI 要從「回答系統」走向「可被養成的行動系統」,則意圖引導、注意力操控、動作模仿與持續性技能記憶將成為核心基礎設施。

關鍵詞: 程式意圖引導、主體性注意力操控、持續性即時模仿學習、AI 養成、動作基元、概念畫布、Agent 技能學習、人類回饋、互動式 AI 訓練、數位畫筆控制


一、前言:從直接生成結果,到手把手養成能力

當代 AI 已經可以生成文字、圖像、影片、程式、音樂與多模態內容。許多大型模型在表面輸出上已經顯示出高度能力:給定 prompt,即可輸出看似完整的答案、圖片、程式或設計草稿。然而,這種能力通常表現為「結果生成」,而不一定表現為「技能養成」。

結果生成的特徵是:使用者輸入需求,AI 直接輸出成品。 技能養成的特徵是:AI 透過一連串可觀察、可修正、可累積的動作,逐步形成穩定能力。

兩者不同。

一個會畫出漂亮圖片的模型,不一定真的具備人類意義上的筆觸練習、線條控制、光影觀察、構圖修正與逐步成長。它可能是在巨量圖像資料上學會結果分布,而不是像人類初學者那樣一筆一筆訓練。

這不是說現有模型沒有價值。相反,現有模型已經證明了生成式 AI 的強大。但若我們希望 AI 從「生成器」進一步變成「可被養成的技能主體」,就需要新的方法論。

本文提出的問題是:

是否可以設計一種方法,使 AI 不只是直接生成結果,而是像人類學基本功那樣,在人類意圖引導下,逐步學習線條、光影、色彩、操作、修正與任務注意力?

本文的回答是:可以,而且不必等待完全體持續學習到來。

當前大模型若要在多模態高資訊流中不停高強度運行、不停更新自身本體權重,仍面臨算力成本、穩定性、災難性遺忘、資料品質、安全性與部署風險等問題。然而,在局部任務場景中,我們已經可以實作「持續性即時模仿學習」:

  • 不更新整個大模型本體。
  • 不要求無限高強度訓練。
  • 先在特定技能域建立可觀察動作空間。
  • 讓 AI 接受人類即時意圖引導。
  • 將每一次動作、錯誤、修正、回饋記錄為技能資料。
  • 透過外部記憶、小模型、adapter、工具策略或週期性整合逐步改進。

這就是本文所謂的「程式意圖引導 AI 學習法」。


二、問題定位:不是讓 AI 畫圖,而是讓 AI 學會被養成

本文以繪畫為例,但本文不是單純討論 AI 繪圖。

如果目標只是讓 AI 生成一張圖,那現有文生圖模型、圖像編輯模型與多模態生成系統已經可以做到相當程度。本文真正關心的是另一個問題:

如何讓 AI 透過人類的手把手引導,學會控制注意力、控制動作、修正錯誤,並在長期互動中形成可累積技能?

繪畫只是最適合說明的例子。因為人類學畫圖時,基本功非常明確:

  • 直線。
  • 曲線。
  • 圓。
  • 方形。
  • 三角形。
  • 透視。
  • 結構。
  • 比例。
  • 光影。
  • 明暗。
  • 色彩。
  • 筆觸。
  • 構圖。
  • 局部修正。
  • 整體觀察。

這些基本功不是一次性輸出,而是長期反覆練習。

一個人畫直線時,不只是「輸出一條線」。他正在練習手眼協調、壓力控制、方向控制、速度控制、局部穩定性與自我修正。書法練「永」字也不是只為了寫一個字,而是透過一個字反覆練習點、橫、豎、撇、捺、鉤、折等筆法結構。

AI 若要進入類似養成式學習,也需要從結果生成轉向動作生成:

傳統生成式 AI:
輸入 prompt → 輸出成品

養成式 AI:
輸入意圖 → 分配注意力 → 選擇動作 → 執行局部操作 → 接收回饋 → 修正策略 → 累積技能

這是根本差異。


三、核心命題

命題:程式意圖引導 AI 學習法

在當前 AI 尚未普遍具備完全持續性即時學習能力的階段,可以透過程式化意圖介面、主體性注意力操控、動作基元序列、人類即時回饋與外部技能記憶,建立局部持續性即時模仿學習框架,使 AI 在特定技能域中逐步形成可觀察、可修正、可累積、可遷移的能力。

簡化:

我們現在或許還不能讓 AI 無限持續地全面成長,但已經可以開始手把手地養育它。

更精確:

AI 養成的第一步不是讓大模型不停改寫自身,而是讓 AI 在特定任務介面中,透過意圖引導、注意力操控、動作模仿與回饋記憶形成局部技能成長。


四、完全持續學習與局部即時模仿學習的區分

本文首先區分兩種學習。

4.1 完全持續性即時學習

完全持續性即時學習指的是:AI 在長期運行中不斷接收多模態資料、不斷更新自身模型、不斷整合新經驗,並能保持穩定性、安全性、記憶一致性與能力提升。

這類系統理論上非常強,但當前仍面臨困難:

  • 算力成本高。
  • 訓練與推理邊界模糊。
  • 容易災難性遺忘。
  • 新資料品質不穩。
  • 安全風險高。
  • 模型更新難以驗證。
  • 使用者資料隱私難處理。
  • 長期人格與行為一致性難保證。

因此,完全持續學習不是不能追求,而是不適合作為第一個落地形態。

4.2 局部持續性即時模仿學習

局部持續性即時模仿學習則不同。它不要求整個模型本體持續更新,而是在特定任務中建立可累積技能迴路。

例如,在數位繪畫任務中:

  • AI 控制畫筆。
  • 人類指定練習目標。
  • AI 嘗試畫線。
  • 人類標註錯誤。
  • AI 調整下一次筆觸。
  • 系統保存成功與失敗樣本。
  • 小型策略模組或記憶系統更新。
  • 下一輪表現改善。

這不需要整個大模型每次都重訓。它可以先透過外部記憶、行為策略、技能模組與小規模適配實現。

所以本文主張:

完全持續學習是未來大型目標;局部即時模仿學習是現在可開始的養成入口。


五、Prompt 的重新定位:從提示詞到意圖注入

在此框架中,使用者輸入不再只是 prompt,而是「意圖注入」。

一般 prompt engineering 把 prompt 視為指令、描述或提示。 但在養成式 AI 中,prompt 的地位更高:

prompt 是使用者對 AI 概念畫布與注意力系統施加的意圖場。

例如:

「畫一條直線」不是單純要求結果。 它同時指定:

  • 任務目標:直線。
  • 評價標準:是否直、是否穩、是否連續。
  • 注意力焦點:線條控制,而非美感。
  • 操作範圍:畫筆路徑。
  • 學習模式:基本功練習。
  • 回饋預期:人類將校正線條偏移。

如果使用者說:

「先不要管整張圖,只練習從左到右畫出穩定的水平線。」

那麼 AI 應該理解:

  • 當前任務不是生成作品。
  • 當前任務是局部動作訓練。
  • 注意力應集中在線條穩定性。
  • 顏色、構圖、風格都不是主要目標。
  • 回饋應圍繞筆觸控制,而不是圖像審美。

這就是意圖注入。

因此,程式意圖引導 AI 學習法的第一個基礎是:

將使用者自然語言轉換為可操作、可評估、可訓練的意圖結構。


六、注意力機制的重新敘述:從 token 權重到任務聚光

傳統注意力機制在工程上通常描述為序列中 token 之間的關係權重。本文不否定這一點。但在養成式 AI 中,需要一個更高階的注意力層。

本文稱之為:

主體性注意力操控層。

它不只是問:

哪些 token 彼此相關?

而是問:

AI 當前應該把計算、感知與操作資源集中在哪個任務面、哪個概念區、哪個畫布區、哪個動作維度?

在繪畫任務中,注意力可能分為:

  • 線條注意力。
  • 光影注意力。
  • 邊界注意力。
  • 色彩注意力。
  • 比例注意力。
  • 構圖注意力。
  • 筆壓注意力。
  • 局部修正注意力。
  • 整體一致性注意力。

若人類說:

「這裡光源方向錯了。」

AI 的注意力就應從線條層轉移到光影層,並聚焦於受光面、背光面、投影與光源一致性。

若人類說:

「先別修顏色,比例錯了。」

AI 的注意力就應壓低色彩層,提升比例層。

所以本文所謂主體性注意力操控,不是 AI 產生神秘自我,而是:

AI 能依據任務狀態、人類意圖、歷史回饋與自身執行結果,動態分配注意力資源並選擇下一個操作焦點。

這是養成式技能學習的核心。


七、動作基元:讓 AI 真正「一筆一筆」學

若 AI 只輸出最終圖片,就很難進行基本功養成。因為人類無法清楚知道它如何形成結果,也無法針對單一動作給予修正。

因此,本文引入「動作基元」。

7.1 動作基元的定義

動作基元是 AI 在某一技能介面中可執行的最小可觀察操作單位。

在數位繪畫中,動作基元包括:

  • 移動畫筆。
  • 設定起點。
  • 設定終點。
  • 控制筆壓。
  • 控制速度。
  • 選擇筆刷。
  • 選擇顏色。
  • 畫直線。
  • 畫曲線。
  • 塗抹。
  • 擦除。
  • 混色。
  • 建立陰影。
  • 修正邊界。
  • 放大局部。
  • 回退一步。

在 UI 操作中,動作基元包括:

  • 移動游標。
  • 點擊。
  • 拖曳。
  • 輸入文字。
  • 選取區域。
  • 打開選單。
  • 執行指令。
  • 等待回饋。
  • 檢查結果。

在程式開發中,動作基元包括:

  • 新增檔案。
  • 編輯函數。
  • 執行測試。
  • 讀取錯誤。
  • 修改參數。
  • 重新執行。
  • 提交版本。

7.2 為什麼動作基元重要

動作基元使學習可分解。 可分解才可回饋。 可回饋才可修正。 可修正才可養成。

如果 AI 只輸出完整結果,人類只能說「好」或「不好」。 如果 AI 輸出動作序列,人類可以說:

  • 第三步錯了。
  • 第五筆太重。
  • 這次光影方向對,但邊緣太硬。
  • 你不應該先上色,應該先抓輪廓。
  • 這個操作保留,從這裡繼續。

這就是從結果監督轉向過程監督。


八、七層架構

本文提出程式意圖引導 AI 學習法的七層架構。

感知層
→ 意圖解析層
→ 主體性注意力操控層
→ 動作策略層
→ 評價回饋層
→ 互動教學層
→ 學習記憶層

九、第一層:感知層

感知層負責讀取任務環境。

在繪畫場景中,感知層需要讀取:

  • 畫布狀態。
  • 當前圖像。
  • 筆刷位置。
  • 筆觸歷史。
  • 參考圖。
  • 人類標註。
  • 局部放大區。
  • 顏色分布。
  • 光影分布。
  • 形狀邊界。

在 Agent 軟體操作場景中,感知層需要讀取:

  • 螢幕畫面。
  • UI 元件。
  • 滑鼠位置。
  • 目前開啟的檔案。
  • 工具狀態。
  • 錯誤訊息。
  • 操作結果。
  • 任務進度。

感知層的關鍵不是「看見」而已,而是將環境轉換為可操作狀態表示。


十、第二層:意圖解析層

意圖解析層將人類語言轉換成任務結構。

例如,人類說:

今天只練習線條,不追求完整作品。

系統應解析為:

任務模式:練習
主要目標:線條穩定性
次要目標:無
禁止事項:不要生成完整作品
評價指標:直線偏移、曲線平滑度、筆觸連續性
回饋模式:細粒度局部回饋

若人類說:

這張圖先修光影,顏色不要動。

系統應解析為:

任務模式:局部修正
主要目標:光影一致性
鎖定項目:顏色
操作區域:當前圖像陰影區
評價指標:光源方向、明暗過渡、投影合理性

意圖解析層的能力決定 AI 是否真正理解人類在教什麼。


十一、第三層:主體性注意力操控層

主體性注意力操控層是本文的核心。

它負責決定:

  • 現在應該看哪裡。
  • 應該忽略哪裡。
  • 應該使用哪種技能。
  • 哪個錯誤優先修正。
  • 哪個子任務暫時擱置。
  • 下一個動作應服務哪個目標。

此層可被理解為任務級 attention manager。

它不是單純把注意力平均分配,而是根據任務意圖與回饋動態調整。

例如:

人類說「線條太抖」。 注意力轉移到筆觸穩定性。

人類說「陰影方向錯」。 注意力轉移到光源模型。

人類說「比例先修」。 注意力轉移到結構比例,暫停色彩細化。

人類說「不要再細畫,先看整體」。 注意力從局部細節轉移到整體構圖。

這一層使 AI 不再只是被動執行 prompt,而是能在任務過程中維持「當前學習焦點」。


十二、第四層:動作策略層

動作策略層根據注意力分配生成具體操作。

在繪畫中,它輸出:

  • 畫筆路徑。
  • 筆壓序列。
  • 速度曲線。
  • 顏色選擇。
  • 筆刷設定。
  • 修正區域。
  • 操作順序。

在軟體 Agent 中,它輸出:

  • 點擊哪個按鈕。
  • 輸入什麼文字。
  • 執行哪個指令。
  • 打開哪個檔案。
  • 修改哪段程式。
  • 等待什麼回傳。
  • 如何驗證操作成功。

動作策略層必須接受兩種約束:

  1. 任務意圖約束。
  2. 環境狀態約束。

也就是說,它不能只知道要做什麼,還要知道現在能不能做、應不應該做、做了之後如何檢查。


十三、第五層:評價回饋層

評價回饋層負責判斷動作結果。

評價可以來自三個來源:

13.1 自動評價

系統自身可以計算:

  • 線條偏移。
  • 曲線平滑度。
  • 光影一致性。
  • 顏色差異。
  • UI 操作成功率。
  • 測試是否通過。
  • 結果是否符合目標。

13.2 人類評價

人類可以提供:

  • 這裡錯。
  • 這裡對。
  • 這裡保留。
  • 這裡重畫。
  • 這不是我要的。
  • 你注意力放錯地方。
  • 這個方向接近了。

13.3 環境回饋

環境本身也會提供結果:

  • 程式執行成功或失敗。
  • 軟體狀態改變。
  • 測試回傳錯誤。
  • 圖像變化。
  • 機器人動作完成或碰撞。

評價回饋層將這些回饋整理成可學習訊號。


十四、第六層:互動教學層

互動教學層是人類手把手養成 AI 的介面。

它應允許人類做幾件事:

  • 指定練習項目。
  • 即時打斷。
  • 局部標註錯誤。
  • 示範正確操作。
  • 要求重來。
  • 要求保留部分結果。
  • 調整難度。
  • 切換注意力焦點。
  • 回顧之前進步。
  • 設定長期訓練計畫。

這一層是本文與普通自動學習最大的差異。

人類不是只在訓練後打分數,而是在技能形成過程中扮演老師、教練、觀察者與共同操作者。


十五、第七層:學習記憶層

學習記憶層負責保存經驗。

它可以分成四種記憶。

15.1 動作記憶

保存成功或失敗的動作序列。

例如:

  • 這種筆壓容易畫出穩定線條。
  • 這種速度會造成抖動。
  • 這種陰影鋪法在光源左上時有效。

15.2 意圖記憶

保存人類偏好與教學風格。

例如:

  • 使用者偏好先結構後細節。
  • 使用者討厭過早上色。
  • 使用者希望 AI 先說明下一步再操作。

15.3 錯誤記憶

保存常見失敗模式。

例如:

  • 經常把邊緣畫太硬。
  • 常忽略光源一致性。
  • 修 UI 時容易點錯相似按鈕。

15.4 技能記憶

保存抽象後的可遷移策略。

例如:

  • 畫圓前先定位中心與半徑。
  • 修陰影前先確認光源方向。
  • 操作軟體前先識別當前狀態。
  • 修改程式前先讀錯誤訊息與上下文。

學習記憶層可以不直接修改大模型權重。它可以存在外部資料庫、任務記憶、技能庫、小模型、adapter 或週期性訓練集中。


十六、整體流程

程式意圖引導 AI 學習法的基本流程如下:

人類意圖輸入
→ 意圖解析
→ 感知當前環境
→ 注意力焦點設定
→ 動作策略生成
→ 執行動作
→ 結果感知
→ 自動評價
→ 人類回饋
→ 錯誤與成功記錄
→ 技能記憶更新
→ 下一輪操作

這是一個閉環,而不是一次性生成。

若用公式化流程表示:

ItAtπtotrtMt+1I_t \rightarrow A_t \rightarrow \pi_t \rightarrow o_t \rightarrow r_t \rightarrow M_{t+1}

其中:

  • ItI_t:人類在時間 tt 的意圖輸入。
  • AtA_t:AI 的注意力分配狀態。
  • πt\pi_t:當前動作策略。
  • oto_t:操作結果。
  • rtr_t:回饋訊號。
  • Mt+1M_{t+1}:更新後的技能記憶。

下一輪:

(It+1,Mt+1)At+1πt+1(I_{t+1}, M_{t+1}) \rightarrow A_{t+1} \rightarrow \pi_{t+1}

因此,AI 的技能不是一次生成,而是在循環中逐步成形。


十七、繪畫案例:從直線到作品

本文用繪畫建立最小案例。

17.1 第一階段:線條

任務:

  • 畫直線。
  • 畫曲線。
  • 畫圓。
  • 控制筆壓。
  • 控制速度。

人類回饋:

  • 線太抖。
  • 起點偏了。
  • 終點偏了。
  • 速度太快。
  • 壓力太重。
  • 這次比較穩。

AI 學習:

  • 穩定筆觸。
  • 預測偏移。
  • 調整速度。
  • 避免過度修正。

17.2 第二階段:形體

任務:

  • 畫方體。
  • 畫球體。
  • 畫圓柱。
  • 畫透視線。
  • 抓比例。

人類回饋:

  • 透視點錯。
  • 左右比例不對。
  • 球不夠圓。
  • 方體邊線不一致。

AI 學習:

  • 幾何結構。
  • 透視規則。
  • 比例校正。
  • 輪廓穩定。

17.3 第三階段:光影

任務:

  • 設定光源。
  • 畫明暗交界。
  • 畫投影。
  • 做漸層。
  • 控制邊緣硬度。

人類回饋:

  • 光源方向錯。
  • 陰影太髒。
  • 明暗過渡太硬。
  • 投影位置不對。

AI 學習:

  • 光源一致性。
  • 明暗分布。
  • 灰階控制。
  • 局部邊界調整。

17.4 第四階段:色彩

任務:

  • 色相選擇。
  • 飽和度控制。
  • 冷暖對比。
  • 局部色塊。
  • 色彩統一。

人類回饋:

  • 顏色太花。
  • 色溫不一致。
  • 主次不清楚。
  • 這裡應該降飽和。

AI 學習:

  • 配色規則。
  • 風格偏好。
  • 局部與整體色彩平衡。

17.5 第五階段:作品整合

任務:

  • 構圖。
  • 主題。
  • 風格。
  • 完成度。
  • 細節控制。
  • 局部修正。

人類回饋:

  • 不要過度細化。
  • 主體不夠突出。
  • 這裡保留草稿感。
  • 整體方向對了。

AI 學習:

  • 高階審美策略。
  • 局部與整體平衡。
  • 使用者風格偏好。
  • 從基本功到創作的轉換。

這就是養成式 AI 的繪畫路徑。


十八、最小可行產品設計

本文提出一個最小可行版本。

MVP 名稱

IntentBrush:程式意圖引導 AI 畫筆訓練器

18.1 功能範圍

第一版不需要生成完整作品。 只需要讓 AI 練習:

  • 畫直線。
  • 畫曲線。
  • 畫圓。
  • 控制筆壓。
  • 根據人類回饋修正。

18.2 介面

畫布中央顯示 AI 畫筆。 人類可以輸入文字指令。 人類可以在畫布上標註錯誤。 系統顯示 AI 的下一步意圖。 AI 執行動作。 人類評價。

18.3 資料記錄

每一次操作記錄:

  • 初始畫布狀態。
  • 人類指令。
  • AI 注意力焦點。
  • 動作序列。
  • 結果畫布。
  • 人類回饋。
  • 自動評分。
  • 是否保留為技能樣本。

18.4 學習方式

第一版可以不更新大模型。 只需建立:

  • 動作策略記憶。
  • 回饋規則庫。
  • 練習樣本庫。
  • 小型控制模型。
  • 週期性評估。

18.5 成功指標

  • 線條穩定性提升。
  • 重複練習後錯誤下降。
  • AI 能理解人類局部修正。
  • AI 能在下一輪避免同類錯誤。
  • AI 能說明自己注意力焦點。

這就是最小可行版本。


十九、從繪畫擴展到 Agent 操作

繪畫只是第一個例子。更重要的是 Agent。

當 AI Agent 操作軟體時,它也需要手把手養成。

例如:

使用者說:

幫我整理這個資料夾。

普通 Agent 可能直接操作。 養成式 Agent 則應該先理解:

  • 使用者要按日期整理?
  • 按檔案類型整理?
  • 是否保留原始結構?
  • 是否需要先備份?
  • 哪些檔案不能動?
  • 操作前是否需要確認?

在這裡,意圖引導非常重要。因為 Agent 的錯誤會直接影響外部世界。

因此,程式意圖引導 AI 學習法可以用於:

  • 文件整理。
  • 程式修改。
  • UI 操作。
  • 電子郵件處理。
  • 資料標註。
  • 網頁操作。
  • 工作流程自動化。
  • 機器人控制。

Agent 不是只需要「會做」,還需要「會被教」。


二十、主體性注意力操控與主體性 AI

本文中的「主體性注意力操控」不是聲稱 AI 已經具有完整主體性,而是指一種可逐步建立的能力:

AI 能在任務過程中維持自身狀態、理解當前目標、根據回饋調整注意力焦點,並主動選擇下一個操作。

這是主體性 AI 的前置能力。

若 AI 不能維持注意力焦點,就難以長期學習。 若 AI 不能理解人類回饋,就難以被養成。 若 AI 不能把錯誤轉化為記憶,就無法成長。 若 AI 不能主動調整下一步,就只是被動工具。

因此,主體性注意力操控是從工具 AI 到養成式 AI 的中間橋樑。

它不要求 AI 擁有完整自我。 但它要求 AI 擁有任務內的注意力連續性、回饋整合能力與策略調整能力。


二十一、與既有技術的關係

本文框架與多種既有技術相關,但不等同於其中任一種。

21.1 與 imitation learning 的關係

本文包含模仿學習,但更強調人類即時意圖引導與注意力操控,而不是只模仿固定資料集。

21.2 與 reinforcement learning 的關係

本文可以使用強化學習,但回饋不是單純 reward,而是細粒度語義回饋、局部錯誤標註與技能記憶。

21.3 與 RLHF 的關係

RLHF 通常偏向對最終輸出偏好打分。本文更重視過程中每一步動作的教學式回饋。

21.4 與 prompt engineering 的關係

prompt engineering 通常控制一次性輸出。本文將 prompt 升級為持續意圖注入與任務注意力引導。

21.5 與 Agent 的關係

Agent 能行動,但不一定能被養成。本文補上 Agent 的技能成長機制。

21.6 與 embodied AI 的關係

本文可視為 embodied AI 在數位畫布、軟體介面與機器人操作中的養成式方法論。


二十二、風險與限制

本文框架也有風險。

22.1 錯誤學習

如果人類回饋錯誤,AI 可能學到錯誤策略。

22.2 過度擬合使用者

AI 可能過度適應某個使用者偏好,降低泛化能力。

22.3 記憶污染

錯誤經驗若被保存,可能影響後續任務。

22.4 安全風險

Agent 若能操作軟體,錯誤動作可能造成實際損害。

22.5 訓練成本

即使不更新大模型,長期記錄與評估也需要成本。

22.6 主體性錯覺

系統具備注意力操控與成長能力,不代表它已具有完整主體意識。需要避免過度宣稱。

因此,實作時必須加入:

  • 操作權限管理。
  • 回退機制。
  • 記憶審核。
  • 人類確認。
  • 錯誤隔離。
  • 版本控制。
  • 安全沙盒。

二十三、評估指標

要評估此框架,不能只看最終作品品質。應看技能成長。

23.1 動作穩定性

重複同一基本動作時,錯誤是否下降?

23.2 回饋吸收率

人類指出錯誤後,AI 是否在下一輪改善?

23.3 注意力對齊率

AI 是否把注意力放在使用者指定的任務維度?

23.4 局部修正能力

AI 是否能只修指定區域,而不破壞其他部分?

23.5 技能遷移能力

線條訓練是否能幫助形體訓練? 光影訓練是否能遷移到更複雜作品?

23.6 記憶有效性

保存的技能記憶是否提升後續表現?

23.7 人類教學負擔

AI 是否隨著訓練降低人類需要反覆說明的次數?

這些指標比單純 benchmark 更適合養成式 AI。


二十四、未來研究方向

24.1 意圖語言標準化

建立一套可被 AI 解析的訓練意圖語言,使人類能更精準地指定練習目標、注意力焦點與評價標準。

24.2 動作基元庫

為不同技能建立動作基元庫,例如繪畫、UI 操作、程式修改、機器人抓取。

24.3 注意力控制器

開發任務級注意力控制器,使 AI 能在多子任務中動態調整焦點。

24.4 技能記憶系統

建立可審核、可遷移、可壓縮、可回退的技能記憶。

24.5 人類教學介面

設計更適合手把手教 AI 的介面,例如畫布標註、時間軸回放、錯誤片段標籤、局部重教。

24.6 多 Agent 養成

讓不同 AI 分別練習不同技能,再透過技能共享或互相觀察形成集體成長。

24.7 主體性 AI 前置訓練

將注意力連續性、任務記憶、回饋吸收與自我修正作為主體性 AI 的前置能力訓練。


二十五、結論:現在可以開始手把手養育 AI

本文提出「程式意圖引導 AI 學習法」,試圖回答一個關鍵問題:

在完全持續性即時學習尚未成熟之前,我們是否已經可以開始讓 AI 像人類學基本功那樣被養成?

本文的回答是肯定的。

當前 AI 未必能不間斷地全面更新自身本體模型,但可以在局部任務中透過人類意圖引導、主體性注意力操控、動作基元學習、即時回饋與外部技能記憶形成持續性模仿學習。

這是一條務實路徑。

它不要求 AI 一開始就完全自主。 它不要求模型本體每秒更新。 它不要求一次生成完美作品。 它要求的是:AI 能被教、能被修正、能保存經驗、能逐步改善。

如果說傳統生成式 AI 是「給 prompt,出結果」,那麼程式意圖引導 AI 學習法則是:

給意圖,分配注意力,執行動作,接收回饋,形成技能。

這種 AI 不只是工具,也不立刻是完整主體。它位於兩者之間:

可被養成的行動型智能體。

未來真正重要的 AI 可能不是一次回答最漂亮的 AI,而是能在長期互動中越來越懂得如何操作、如何修正、如何注意、如何學習、如何與人類共同成長的 AI。

本文最後收束為三句話:

完全持續學習尚未普及,但局部即時模仿學習已經可以開始。 AI 不應只直接生成結果,也應像人類一樣練基本功。 手把手養育 AI 的第一步,是建立意圖引導、注意力操控、動作基元與技能記憶的閉環。


附錄 A:核心模組表

模組 功能 繪畫例子 Agent 例子
感知模組 讀取環境狀態 畫布、筆觸、參考圖 UI、檔案、錯誤訊息
意圖解析模組 解析人類目標 練線條、修光影 整理資料、修改程式
注意力操控模組 決定焦點 線條、比例、色彩 哪個視窗、哪個檔案
動作策略模組 生成操作 筆路、筆壓、上色 點擊、輸入、執行
評價回饋模組 判斷結果 線條是否穩 任務是否成功
互動教學模組 支援人類教學 標註錯誤、示範 打斷、重做、確認
學習記憶模組 累積技能 保存筆觸經驗 保存操作流程

附錄 B:一句話版本

程式意圖引導 AI 學習法主張:在完全持續學習尚未成熟之前,應先讓 AI 在局部任務中透過人類意圖引導、主體性注意力操控、動作基元模仿、即時回饋與技能記憶,形成可被手把手養成的持續性技能成長。

換句話說:現在或許還不能讓 AI 無限持續地全面自我成長,但已經可以開始手把手地養育 AI。