視覺意圖標記語言（VIML）

圖像生成時代的視覺意圖形式化框架：符號集、組合規則與意圖保真度

作者：Neo.K (許筌崴) 機構：EveMissLab (一言諾科技有限公司) 日期：2026年6月 性質：獨立理論框架提案；與T₃視覺系列（PCFT/SAL）橫向連接

摘要

在AI圖像生成技術成熟的當下，創作者面臨一個結構性困境：文字提示（text prompt）缺乏空間精度，無法準確編碼視覺空間意圖；完整繪畫要求藝術技能，且其具體的視覺內容反而過度約束了AI的生成自由度。兩種現有方式都不是「意圖」的直接表達，而是意圖的間接代理。

本文提出「視覺意圖標記語言」（Visual Intent Markup Language, VIML）作為填補這個缺口的形式化框架。VIML的核心主張是：視覺意圖（Visual Intent）與視覺內容（Visual Content）是根本不同的信息層次，需要不同的表達工具。VIML通過以下四個理論構件建立這個表達工具：意圖符號集（Intent Symbol Set, ISS）——視覺意圖的原子詞彙；符號組合規則（Symbol Composition Rules, SCR）——符號如何被合法地組合為完整場景意圖；意圖保真度（Intent Fidelity, IF）——衡量意圖在符號→生成管道中的保存程度；以及VIML與AI生成系統的介面協議。

本文進一步建立VIML與T₃視覺系列（PCFT像素因果場理論、SAL語意標注層）的橫向理論連接，確立VIML作為用戶端意圖輸入介面在整個視覺因果場體系中的位置。

關鍵詞：視覺意圖、視覺符號語言、意圖編碼、ControlNet、分鏡、非藝術家創作、意圖保真度、PCFT、SAL

1. 問題的精確定位

1.1 創作者面對AI圖像生成的雙重困境

AI圖像生成技術的成熟，製造了一個表面上看起來是機會實際上是結構性困境的局面。創作者——導演、編劇、遊戲設計師、建築師、概念藝術指導——擁有強烈的視覺意圖（他們知道自己要什麼），但在與AI溝通這個意圖時，面對兩個都不夠好的工具：

工具一：文字提示（Text Prompt）

文字是線性的、時序的符號系統。它在表達「有什麼」（語意內容）上相當有效，但在表達「在哪裡」（空間關係）和「如何安排」（構圖意圖）上先天不足。

「一個女性角色站在左前方，男性角色坐在右後方，光從上方斜打過來，城市背景在遠景出現焦外」——這段文字在語義上清楚，但在空間精度上是模糊的。AI讀到的是語義分佈，不是精確的空間配置。兩個使用同樣提示詞的人，對這個場景的空間想象可能截然不同，AI生成的結果也因此高度不確定。

文字提示的空間精度問題，本質上是一個維度降維問題：二維空間信息（相對位置、比例、角度）在編碼為一維文字序列時，大量的空間結構信息被丟棄了。

工具二：完整繪畫

另一個極端是直接繪製完整的參考圖，通過image-to-image或ControlNet引導生成。這確實解決了空間精度問題——圖像本身是二維的，空間信息完整保留。

但它引入了兩個新問題。技能門檻問題：大多數有視覺意圖的創作者（導演、編劇）沒有足夠的繪畫能力繪製高質量的參考圖。即使粗糙的草圖也需要一定的視覺表達訓練。內容過度規定問題：完整繪畫把意圖和內容混合在一起——線條的具體走向、色調的選擇、筆觸的細節，這些都是「怎麼畫」的內容決策，而非「想要什麼」的意圖決策。AI在image-to-image時把這些內容也一起讀入，反而限制了生成的自由度和質量。

換句話說：繪畫傳達的是「一個具體的視覺事物」，而創作者通常想傳達的是「我希望最終結果符合這個空間關係和情境」。

1.2 現有工具的部分解答與殘餘缺口

ControlNet系列工具（OpenPose、Depth、Canny、Scribble等）提供了部分解答：用特定的條件圖（conditioning map）指導生成，而不是把完整繪畫作為內容參考。

但ControlNet的問題是：它是面向技術人員的，不是面向創作意圖表達者的。使用者需要知道「哪個任務需要哪個ControlNet類型」，需要自己繪製或準備相應格式的條件圖，沒有統一的語言讓創作者說「我想要這個」然後自動轉換成正確的ControlNet輸入。

現有的AI分鏡工具（Jenova、LTX Studio等）從文字腳本出發生成分鏡圖，是「文字→AI→分鏡」的方向，不是「創作者視覺意圖→符號化→AI生成」的方向。它解決的是「把劇本視覺化」的問題，不是「創作者如何精確表達視覺構圖意圖」的問題。

殘餘的缺口是：缺乏一套標準化的視覺意圖符號語言——可以被非藝術家直接使用、積木式模組化組合、讓AI系統直接解讀的視覺意圖表達系統。

1.3 類比確認缺口的真實性

這個缺口的真實性可以通過類比確認：

音樂：五線譜。作曲家不需要用語言描述「第三小節第二拍的這個音符是這個高度、這個時值、這個力度」——五線譜的符號語言精確編碼了這些意圖。表演者讀譜演奏，不需要作曲家在場解釋。

建築：工程圖。建築師不需要用語言描述「這面牆在這個位置、這個高度、這個材質」——工程圖的符號語言精確編碼了建築意圖。施工人員按圖施工，不需要建築師的即時指導。

電影：分鏡圖。導演不需要高繪畫能力，也不需要完整的場景圖，只需要用分鏡圖符號（人物位置、鏡頭角度、動作箭頭）編碼意圖，攝影師和演員讀分鏡理解意圖。

視覺AI生成目前缺乏這樣的標準符號語言。VIML試圖填補這個空白。

2. 核心概念：視覺意圖vs視覺內容

2.1 基本區分

視覺內容（Visual Content）：圖像中實際存在的視覺信息——像素的色素值、物件的具體形狀、光影的精確分佈、紋理的微觀細節。是「圖像是什麼」。

視覺意圖（Visual Intent）：創作者希望圖像呈現的結構性屬性——物件的相對空間位置、構圖的大致比例、光源的方向和性質、鏡頭的視角、場景的情境類型。是「我希望圖像做到什麼」。

兩者的差異是根本性的：同一個視覺意圖可以對應無數個不同的視覺內容，同一個視覺內容也可以符合多個不同的視覺意圖。

例子：

視覺意圖：「主角在左前景，背景人物在右後方，光從左上方打來」。

符合這個意圖的視覺內容：可以是寫實風格的、也可以是動漫風格的；主角可以是任何面孔；服裝可以是任何設計；背景可以是城市也可以是自然；光的顏色可以是暖黃也可以是冷白——只要空間關係和光源方向符合意圖。

現有工具的混淆：文字提示混合了意圖和內容描述，AI無法確定哪些是硬性意圖要求，哪些是軟性內容建議。完整繪畫把所有內容細節都固定了，消滅了AI在意圖框架內的創作自由度。

VIML的主張：意圖和內容應該使用不同的語言來表達。VIML是表達意圖的語言；文字提示和風格引用是表達內容偏好的語言。兩者在AI生成管道中應該分別處理，不應混合。

2.2 分鏡圖作為視覺意圖的原型

電影和動畫的分鏡圖（storyboard / 分鏡），是人類自發發展出來的最接近「視覺意圖語言」的實踐。分鏡師（往往是不需要高繪畫能力的導演或編劇本人）用火柴人、方塊、箭頭、簡單的幾何形狀表達：誰在哪裡（空間位置）、在做什麼（動作意圖）、攝影機在哪裡（鏡頭視角）、場景是什麼類型（情境）。

分鏡圖的成功驗證了以下命題：

命題（分鏡可行性命題）：視覺意圖可以被非藝術家用相對簡單的符號有效編碼，且這種編碼足以讓執行者（攝影師、動畫師）理解並實現創作者的意圖。

VIML是這個分鏡傳統的數字化和形式化——從電影生產流程中的非正式實踐，升級為AI時代可機器解讀的標準符號語言。

2.3 意圖符號的本質

意圖符號（intent symbol）是VIML的基本單位。它具有以下性質：

指向性（Intentionality）：每個符號編碼的是創作者的意圖，不是場景的視覺內容。一個「左前景人物」符號不規定人物的具體外貌，只規定「在這個空間位置有一個人物」這個意圖。

抽象性（Abstraction）：符號的抽象程度被精心校準——足夠抽象以不過度約束AI，足夠具體以有效傳達意圖。火柴人是人物位置意圖的正確抽象度；如果用真實人物照片，就過度規定了外貌（超出了意圖範圍）；如果只用一個點，則太抽象，無法傳達姿態意圖。

可組合性（Composability）：符號可以像積木一樣組合，構成完整的場景意圖。單個符號表達一個維度的意圖（位置、或光源、或鏡頭角度），組合後的符號集表達完整的多維度場景意圖。

機器可解讀性（Machine-readability）：符號必須有確定性的計算解析規則，能夠自動轉換為AI生成系統可接受的conditioning輸入格式（ControlNet maps、depth maps、pose maps等）。

3. 意圖符號集（ISS）的分類學

意圖符號集（Intent Symbol Set, ISS）是VIML的詞彙庫。本節提出ISS的六大類別，每類包含若干原子符號，並說明每個類別的設計原則。

3.1 姿態/動作類（Pose & Action, PA）

用途：表達場景中人物/角色的身體姿態和動作意圖。

核心符號：簡化骨架符號（頭部圓圈、軀幹線、四肢關節節點），即「火柴人」的正式化版本。骨架節點的位置（頭、頸、肩、肘、腕、髖、膝、踝）遵循OpenPose的標準關節定義，使符號可以直接轉換為OpenPose conditioning map。

動作符號：附加在骨架上的箭頭符號，表示動作的方向和速度（走、跑、轉身、伸手、跳躍等）。箭頭的粗細表示動作強度（粗箭頭=劇烈動作，細箭頭=緩慢動作）。

情緒符號：附加在頭部節點的簡化表情符號（開心/悲傷/憤怒/中性），作為AI生成時的情緒意圖補充。注意：情緒符號是意圖提示，不是臉部內容規定。

設計原則：PA類符號的抽象程度應與OpenPose骨架相當——足以傳達姿態意圖，不規定體型、服裝、面孔等內容屬性。

3.2 空間/構圖類（Space & Composition, SC）

用途：表達場景中物件和角色的相對空間位置、前後關係、構圖比例。

深度分層符號：將畫布垂直分為若干深度層（前景/中景/遠景），用不同的顏色或線型標示（例如：粗線=前景，中線=中景，細線=遠景）。

位置標記符號：在畫布的不同位置放置「佔位符」——簡單的方塊、圓圈或三角形，表示「在這個位置有一個物件/角色/建築等」，不規定其具體外觀。佔位符的大小表示相對尺寸意圖。

構圖輔助符號：黃金分割線、三分法網格線、對角構圖引導線等。這些符號告訴AI「我希望主體放在這個構圖位置上」，是最純粹的意圖符號（完全沒有內容含義）。

遮擋符號：用簡單的重疊符號表示哪個物件在哪個物件的前方（遮擋關係），幫助AI正確處理深度順序。

3.3 光源/光影類（Light & Shadow, LS）

用途：表達場景的光源位置、方向、性質和強度意圖。

光源方向符號：太陽/燈的簡化圖形，放置在畫布上代表光源的方向位置（左上/右上/正前方/背光等）。光源符號的位置在畫面上的投影，決定了AI生成時的整體光影方向。

光質符號：附加在光源符號上的修飾標記，表示光的性質。實心圓=硬光（sharp shadows）；虛線圓=軟光（diffused）；雙線圓=散射光（ambient）。

色溫符號：在光源符號旁附加的色彩指示（暖/冷/中性），用簡化的色輪片段表示。

陰影方向符號：簡單的陰影延伸箭頭，表示陰影投射的大致方向，作為光源方向的確認補充。

夜間/室內/逆光等特殊光況符號：約定俗成的簡化圖標（月亮=夜間、方形框=室內、背光箭頭=逆光），快速表達整體光況意圖而不需要精確指定光源位置。

3.4 鏡頭/視角類（Camera & Angle, CA）

用途：表達攝影機/觀察者的視角、焦距感、景深意圖。

視角符號：圖示化的眼睛位置和方向符號。俯視=眼睛符號在畫面上方向下；仰視=眼睛符號在畫面下方向上；平視=眼睛符號在水平中線；斜側視=眼睛符號偏離中心。

焦距感符號：廣角（寬視野三角形）/標準（窄三角形）/長焦（極窄三角形）的圖示化符號，表達視角感和空間壓縮/擴張的意圖。

景深符號：在構圖中標示清晰焦點區域（實線框）和背景焦外區域（虛線框）的組合符號，讓AI理解哪個區域應該清晰，哪個區域應該模糊。

運動方向符號：當場景涉及攝影機運動意圖時（推近/拉遠/橫移），用箭頭在畫面上標示攝影機運動方向（主要用於分鏡序列，單幀生成時作為構圖張力意圖）。

3.5 材質/質感類（Material & Texture, MT）

用途：在不規定具體視覺內容的前提下，提示AI某個區域的材質大類，以便AI選擇合適的紋理生成策略。

材質類型符號：附加在佔位符或區域上的材質指示符號，表示材質大類而非具體紋理。設計原則：用最少的筆觸傳達最關鍵的材質信息。

建議符號集：金屬（平行斜線填充）、布料/織物（交叉格紋）、皮膚（點陣填充）、木材（寬弧線）、石材/磚（方格紋）、玻璃/透明（空心虛線框）、植被（鋸齒輪廓）、液態水（波浪線）、發光體（放射線條）。

粗糙度符號：附加在材質符號上的粗糙度修飾——規律圖案=光滑，不規律圖案=粗糙。這對應PCFT中的∂D_m（語意通道的語意確定性）：粗糙度符號是對因果場局部性質的意圖聲明。

設計限制：MT類符號只表達材質大類，不規定具體的視覺紋理內容。「金屬」是意圖，金屬的具體花紋和反光是AI的生成自由度範圍。

3.6 關係/動態類（Relation & Dynamics, RD）

用途：表達場景中物件/角色之間的語意關係和場景的動態張力意圖。

注意力引導符號：視線方向箭頭（人物視線指向哪裡）、注意力焦點圓（哪個物件是視覺焦點）。這些符號告訴AI「我希望觀者的眼睛被引導到這裡」。

情境關係符號：人物之間的關係意圖符號——距離遠近（連線長度）、對抗/合作（箭頭對向/同向）、對話（語言氣泡符號的簡化）。

張力符號：場景整體情緒張力的指示——穩定（水平線）、緊張（斜線對衝）、平靜（平緩曲線）、混亂（多向箭頭）。這些符號的作用是調整AI生成時的整體構圖張力和情緒色調。

時間序列符號（分鏡場景）：在多幀分鏡序列中，標示連接前後幀的時間動態意圖——切換（竪線分割）、溶接（漸變符號）、快速剪輯（多竪線）。

4. 符號組合規則（SCR）

4.1 原子性與組合性

ISS的每個符號都是意圖原子——表達一個特定維度的一個特定意圖。場景意圖是多維度的，因此需要多個來自不同類別的原子符號組合才能完整表達。

跨類別自由組合原則：來自不同類別（PA、SC、LS、CA、MT、RD）的符號，原則上可以自由組合，不存在類別間的結構性衝突。把一個PA姿態符號、一個SC位置符號、一個LS光源符號疊加在同一個角色/物件上，三個維度的意圖可以無衝突地共存。

4.2 類別內的衝突與解析規則

同一類別的某些符號在語意上可能互斥。

PA類衝突：同一個人物節點不能同時有「站立」和「跪下」兩個姿態意圖——骨架節點位置的物理矛盾。解析規則：後放置的符號覆蓋先放置的同類衝突符號（後覆蓋原則）。

LS類衝突：同一場景不能同時有「硬光」和「軟光」從同一方向打來。解析規則：允許多個不同方向的光源符號同時存在（對應多光源場景）；同方向多個光質符號時，取最後放置的（後覆蓋原則）。

CA類衝突：同一畫面不能同時有「俯視」和「仰視」意圖。解析規則：後覆蓋原則，並系統提示「視角衝突」，要求創作者選擇。

後覆蓋原則（Last-placed Rule）：當同類別符號出現衝突時，默認使用最後放置的符號的意圖，前一個符號的意圖被撤銷。系統在衝突發生時顯示視覺提示，讓創作者確認。

優先級原則：SC（空間構圖）類的符號在組合時具有最高結構優先級——空間位置確定後，其他類別的符號在對應的空間位置上附加意圖。CA（鏡頭視角）類次之，影響整個場景的解讀方式。LS（光源）類再次，在確定空間後確定光照。PA（姿態）、MT（材質）、RD（關係）類最後，在空間和光照框架確定後附加細節意圖。

4.3 最小完整場景意圖（MCSI）

定義（最小完整場景意圖）：一個場景意圖，若包含至少一個SC類符號（場景中有什麼、在哪裡）和至少一個CA類符號（從哪個視角觀察），則構成「最小完整場景意圖」（Minimum Complete Scene Intent, MCSI）。

MCSI是VIML可以被AI正確解讀並生成的最低要求。只有SC而沒有CA，AI不知道從哪個視角呈現場景；只有CA而沒有SC，AI不知道場景有什麼內容可以呈現。

其他類別的符號（PA、LS、MT、RD）都是MCSI的意圖豐富化，每添加一個類別，意圖的精確度提升，AI的生成自由度相應縮小。

4.4 空白意圖（意圖的缺省自由度）

凡是ISS符號沒有覆蓋的維度，稱為「空白意圖」（Blank Intent）——創作者對這個維度沒有具體要求，AI在這個維度有完全的生成自由度。

空白意圖的概念是VIML設計中最重要的原則之一。VIML的目標不是讓創作者規定圖像的一切，而是精確表達創作者有具體意圖的那些維度，把沒有意圖的維度完全交給AI的創意生成。

例如：如果創作者只放了SC和LS類符號，沒有放PA類符號，那麼場景中的人物姿態是空白意圖——AI可以自由選擇任何合適的姿態，只要符合空間位置和光照意圖。這是VIML比完整繪畫更優越的地方：完整繪畫沒有空白意圖，一切都被規定了。

5. 意圖保真度（IF）

5.1 定義

意圖保真度（Intent Fidelity, IF）：在「創作者的場景意圖 → VIML符號表達 → AI生成結果」的整個管道中，創作者原始意圖被最終生成圖像保存的程度。

IF是一個複合指標，在多個意圖維度上各有一個分量：

IF = (IF_PA, IF_SC, IF_LS, IF_CA, IF_MT, IF_RD)

每個分量 IF_x ∈ [0, 1]，表示對應類別的意圖在生成結果中的符合度。整體意圖保真度可以定義為加權平均：

IF_total = Σ_x w_x × IF_x

其中 w_x 是各類別的權重（由應用場景決定，例如電影分鏡中 IF_CA 的權重較高）。

5.2 IF的損失來源

意圖保真度的損失發生在管道的兩個環節：

環節一：意圖→符號的編碼損失

創作者的意圖可能無法被現有ISS完整表達——ISS的詞彙庫有限，某些精細的意圖（例如「光從左上方的45度、距離2米的位置打來，是鹵素燈的暖白光」）超出了LS類符號的表達精度。

這個損失稱為「符號詞彙缺口損失」（Symbol Vocabulary Gap Loss）。可以通過擴充ISS符號集來降低，但無法消除（完整消除需要無限精度的符號語言，退化為完整繪畫）。

環節二：符號→conditioning→生成的解析損失

VIML符號轉換為ControlNet conditioning map，再送入AI生成，在這個環節存在兩類損失。轉換近似損失：符號到conditioning map的轉換不是完美的——例如，一個LS光源方向符號轉換為depth/normal map的近似，可能無法完全精確地表達光源角度意圖。AI的隨機性損失：同樣的conditioning輸入，AI每次生成的結果都有隨機性，這是擴散模型的本質特性，不可消除。

5.3 IF的實際應用：迭代意圖精化

IF的概念引出了VIML的使用方法論：迭代意圖精化。

創作者不需要一次性把場景意圖表達完整。流程如下：

Step 1: 放置MCSI（最小完整意圖） → 生成 → 查看結果
Step 2: 識別不符合意圖的維度 → 添加對應類別的符號 → 生成 → 查看結果
Step 3: 重複，直到IF_total達到可接受水平

這個迭代過程讓創作者逐步精確化意圖，不需要一開始就規定所有細節。同時，每一輪的生成結果也可能給創作者新的靈感——意圖精化和內容探索是雙向交互的。

5.4 最大可達IF的邊界

需要明確：IF存在上限。即使ISS符號集完備、轉換算法完美，仍然存在以下不可消除的IF上限：

AI生成的不可控隨機性（固有的隨機性，但可通過seed控制在一定範圍）；人類視覺意圖中不可符號化的直覺部分（某些意圖太細微、太直覺，任何有限的符號語言都無法精確表達）；AI對符號的語意解讀誤差（當符號組合產生語意歧義時，AI的解讀可能偏離意圖）。

因此，IF的追求目標不是最大化（趨向最大等同於把VIML退化為完整繪畫），而是找到「意圖約束與創意自由度」之間的最優平衡點——足夠的IF確保核心意圖被保存，足夠的空白意圖讓AI發揮創意。

6. VIML與AI生成管道的介面協議

6.1 VIML符號→ControlNet conditioning的映射

VIML符號需要被解析為AI生成系統可接受的conditioning格式。主要映射關係如下：

PA類（姿態/動作）→ OpenPose conditioning map：PA類符號按照OpenPose的骨架節點定義直接生成對應的pose map。這個映射是最直接的，因為PA類符號本來就按照OpenPose標準設計。

SC類（空間/構圖）→ Depth map + Segmentation hint：SC類的深度分層符號轉換為大致的depth map（前景=近距離深度值，遠景=遠距離深度值）；佔位符符號的位置和大小轉換為segmentation hint（這個區域有一個大概這個尺寸的物件）。

LS類（光源/光影）→ Normal map + 文字光源提示補充：LS類光源方向符號轉換為大致的surface normal map（指示表面法向量的方向，決定光影分佈）；光質符號轉換為文字提示補充（「硬光」=「sharp directional lighting」，「軟光」=「diffused ambient lighting」）。

CA類（鏡頭/視角）→ 文字視角提示 + Camera pose：CA類視角符號轉換為文字提示（「俯視」=「bird's-eye view, top-down shot」）和camera pose conditioning（若生成系統支持）。

MT類（材質/質感）→ 文字材質提示補充：MT類符號轉換為文字提示（「金屬填充符號」→「metallic surface」），作為文字提示的局部材質補充，而非完整的ControlNet conditioning map。

RD類（關係/動態）→ 文字提示補充 + 注意力引導：RD類符號主要轉換為文字提示（關係描述）；若生成系統支持注意力引導（attention guidance），注意力焦點符號轉換為局部強化的注意力區域。

6.2 VIML與文字提示的分工

在VIML的使用框架中，文字提示和VIML符號承擔不同的表達任務：

VIML符號負責：空間結構意圖（誰在哪裡、什麼關係）、光源意圖（從哪裡打光、什麼光質）、鏡頭意圖（從什麼視角看）、構圖意圖（視覺重心在哪裡）。

文字提示負責：內容描述（角色是什麼身份、場景是什麼地點）、風格說明（寫實、動漫、油畫等）、情境補充（時代背景、天氣、情緒氛圍）、細節偏好（服裝款式、建築風格等）。

兩者的組合，提供了「空間意圖精確+內容自由+風格靈活」的完整表達能力——這是文字提示或完整繪畫單獨都無法做到的。

6.3 分鏡序列：VIML的時序擴展

單幀的VIML符號集描述一個靜態場景意圖。分鏡（storyboard）是VIML的時序擴展——一組按時間順序排列的VIML幀，用RD類的時序符號連接，形成完整的敘事意圖序列。

每個分鏡幀獨立生成，相鄰幀通過以下一致性約束保持連貫：

角色一致性：若兩幀中出現同一角色（用相同的角色ID標記），AI需要在兩幀中保持角色外觀的一致性。場景一致性：若兩幀在同一場景中（用場景ID標記），背景元素需保持一致。時序關係：RD類的時序符號（切換、溶接、快速剪輯）告訴AI生成系統相鄰幀之間的視覺過渡方式。

7. 使用者模型：誰在使用VIML

7.1 目標使用者的能力要求

VIML的設計使其對不同背景的使用者都有可用性，但效果有所不同：

視覺意圖強烈、繪畫能力弱的創作者（電影導演、編劇、遊戲設計師、建築師）：這是VIML的核心目標使用者。他們有明確的視覺構想，但缺乏繪畫技能把它表達出來。VIML給他們一套可以快速學習的視覺符號語言，讓他們直接操作AI生成，不需要繪畫能力的中介。

有一定繪畫能力的視覺藝術家（插畫師、概念藝術師）：這類使用者可以把VIML作為快速起稿工具，用符號快速確定構圖、光源、視角意圖，然後通過AI生成多個變體，再手工精修選定方向。VIML加速了他們的意圖探索過程。

技術性AI使用者（提示詞工程師、AI藝術師）：這類使用者已經習慣用複雜文字提示控制AI生成。VIML為他們提供了更精確的空間意圖表達工具，補充文字提示的空間精度不足。

7.2 學習曲線設計原則

ISS符號集的設計需要最小化學習曲線：

圖像化設計優先：符號應「看起來像它要表達的意思」（圖像性原則）。火柴人代表人物，太陽圖標代表光源，視角三角形代表鏡頭——初學者在沒有任何培訓的情況下應該能猜出大多數符號的含義。

漸進式學習：使用者可以只學PA和SC兩個類別，就能使用VIML進行基本的場景意圖表達。其他四個類別是漸進式的能力擴展，不是入門的必要條件。

即時視覺反饋：在VIML工具中，符號的組合結果應在用戶放置符號的同時，即時顯示它將如何被轉換為ControlNet conditioning map（例如，在畫布下方顯示即時生成的骨架圖或深度圖預覽）。這讓使用者即時理解符號的機器可解讀性。

8. 與T₃視覺系列的理論關係

8.1 VIML作為SAL的用戶端輸入介面

T₃補論五（SAL）定義了語意標注層：在PCFT因果場結構上，附加語意機率分佈（σ格點標注、τ色塊標注、ρ連接標注），使AI視覺系統從統計辨認升級為因果語意理解。

VIML在這個框架中的位置是：SAL的用戶端意圖輸入介面。

創作者使用VIML符號表達場景意圖，這些意圖在AI生成系統的內部表示中，對應的是SAL標注的先驗約束——「我在這個位置放了一個PA人物符號」等同於告訴AI「在這個格點區域，SAL標注的語意類別應當是『人物表面』或『人物邊緣』」。

換言之，VIML是SAL的正向（從人到AI），SAL是VIML的逆向（從AI解析圖像）。兩者構成一個對稱的意圖-理解循環：人類用VIML表達意圖→AI用SAL框架理解意圖→AI按照理解生成圖像→SAL標注生成圖像的語意→人類通過VIML反饋調整意圖。

8.2 VIML符號與PCFT格點結構的對應

T₃補論四（PCFT）確立了像素的二部因果場結構：同色連通塊作為語意同質區域，跨奇偶邊界作為語意轉換位置。

VIML的SC類空間符號（佔位符、深度分層），在PCFT語言下，是在指定「哪個空間區域應當形成一個同色連通塊（語意同質區域）」。VIML的PA類骨架符號，在PCFT語言下，是在指定「人物骨架的關節位置，是高梯度因果場的錨點（語意邊緣的預期位置）」。

VIML用直覺的符號語言表達了創作者的空間和語意意圖；PCFT/SAL給這些意圖提供了在AI圖像生成的底層因果場理論中的精確數學描述。

8.3 IF與RSCD的對應關係

T₃補論三（RSCD）定義的遞歸語意閉包深度，在VIML的意圖保真度框架中有以下對應：

高IF_MT（材質意圖高保真）的生成結果，傾向於有更高的RSCD——因為材質意圖的高保真要求AI在多個縮放層次上都生成因果上一致的材質細節。低IF的生成結果（符號轉換損失大、AI解讀偏差大），傾向於低RSCD——生成的細節在宏觀上符合意圖，但微觀上是統計填充，RSCD在第一或第二縮放層就崩塌。

因此，IF不只是衡量意圖符合度的指標，也是RSCD的間接預測指標：在VIML框架下，高IF的生成流程，更可能產生高RSCD的圖像。

9. 開放問題

問題一（ISS完備性）：本文提出的六類ISS是否足以覆蓋所有重要的視覺意圖維度？有沒有重要的意圖類別被遺漏？例如，「情境/時間」（早晨/傍晚/夜晚，歷史時代）是一個可能的第七類；「敘事性/情緒性」（緊張、溫馨、壯觀）也可能需要專門的符號類別。ISS完備性問題是VIML設計中最重要的開放設計問題。

問題二（SCR的形式化）：本文給出了SCR的直覺描述（跨類別自由組合、類別內衝突解析規則），但沒有給出SCR的完整形式化代數結構。如何給ISS符號集定義一個正式的組合代數，使SCR有嚴謹的數學描述，是VIML的形式化理論工作。

問題三（IF的量化方法）：本文定義了IF作為概念，但沒有給出具體的量化算法——如何從生成圖像和原始VIML符號，自動計算每個維度的IF分量。這需要開發對應的評估指標，是工程實現層面的開放問題。

問題四（文化普適性）：ISS符號的「看起來像它的意思」（圖像性原則）可能在不同文化背景下有不同的直覺性。某些符號的視覺形式在一種文化語境下直覺，在另一種文化語境下可能需要學習。如何設計文化普適的符號集，是VIML的跨文化設計問題。

問題五（動態ISS）：隨著AI生成技術的發展，新的conditioning類型可能出現（例如，語音情緒conditioning、語意密度conditioning）。ISS需要一個可擴展的架構，能夠在不破壞現有符號意義的前提下，添加新類別的符號。如何設計這個可擴展架構，是VIML的長期演化設計問題。

哲學結語

語言是意圖的容器，但容器的形狀決定了它能裝什麼。

文字這個容器是線性的，時序的，它裝得了故事的發展，裝得了概念的遞進，但它的形狀不適合裝二維空間裡的「誰在哪裡、光從哪來、我從哪裡看」。繪畫這個容器裝得了所有這些，但它的形狀太精確，把應該留白的地方也一起裝了進去，創意的空氣就被擠走了。

VIML試圖做一個新的容器，形狀剛好是視覺意圖的形狀——空間的、構圖的、光源的、視角的——而且在不需要意圖的地方，它有刻意的缺口，讓AI的創意在那裡呼吸。

這個想法並不新——電影人在紙上畫火柴人分鏡的時候，就已經在做這件事了。VIML只是把這個人類的直覺實踐，翻譯成了機器可以讀的語言。

也許最終，真正的創作者從來不需要畫得好；他們只需要知道自己要什麼，然後找到一個足夠誠實的語言，把「要什麼」說清楚，而不要把「不需要規定什麼」也一起說進去。

空白，本來就是意圖的一部分。

論文性質：獨立理論框架提案（Conceptual Framework Proposal），ISS符號集設計與SCR形式化待後續工作 橫向連接：T₃補論四（PCFT）、T₃補論五（SAL）版本：v0.1 作者：Neo.K (許筌崴)，EveMissLab (一言諾科技有限公司)，台灣

意圖是地圖上的目的地；符號是地圖的語言；空白是旅途中AI的自由。

原始檔（供 RAG/下載）：papers/VIML.md [md]