視覺意圖標記語言(VIML )

EVEMISSLAB Logic Matrix · EveMissLab / 一言諾科技有限公司

[認識論邊界宣告 / EPISTEMOLOGICAL DISCLAIMER]

[CHT] 本矩陣內所有論文之公式與數據為「啟發式模擬參數」,用於驗證理論架構與推演因果鏈,未經實證校準,請勿作為現實物理測量數據引用 or 處理。EVEMISSLAB 採行「邏輯先行(Logic-First)」原則:概念架構與系統因果映射優先於統計實證,但不排除未來實證對接。


[ENG] The numerical parameters within these frameworks are illustrative model coefficients used for structural verification and causal mapping; they are not empirically calibrated and must not be treated as physical measurements. This matrix operates on a Logic-First principle: conceptual architecture and causal mapping take precedence over statistical empiricism, without precluding future empirical reconciliation.

視覺意圖標記語言(VIML)

圖像生成時代的視覺意圖形式化框架:符號集、組合規則與意圖保真度

作者:Neo.K (許筌崴) 機構:EveMissLab (一言諾科技有限公司) 日期:2026年6月 性質:獨立理論框架提案;與T₃視覺系列(PCFT/SAL)橫向連接


摘要

在AI圖像生成技術成熟的當下,創作者面臨一個結構性困境:文字提示(text prompt)缺乏空間精度,無法準確編碼視覺空間意圖;完整繪畫要求藝術技能,且其具體的視覺內容反而過度約束了AI的生成自由度。兩種現有方式都不是「意圖」的直接表達,而是意圖的間接代理。

本文提出「視覺意圖標記語言」(Visual Intent Markup Language, VIML)作為填補這個缺口的形式化框架。VIML的核心主張是:視覺意圖(Visual Intent)與視覺內容(Visual Content)是根本不同的信息層次,需要不同的表達工具。VIML通過以下四個理論構件建立這個表達工具:意圖符號集(Intent Symbol Set, ISS)——視覺意圖的原子詞彙;符號組合規則(Symbol Composition Rules, SCR)——符號如何被合法地組合為完整場景意圖;意圖保真度(Intent Fidelity, IF)——衡量意圖在符號→生成管道中的保存程度;以及VIML與AI生成系統的介面協議。

本文進一步建立VIML與T₃視覺系列(PCFT像素因果場理論、SAL語意標注層)的橫向理論連接,確立VIML作為用戶端意圖輸入介面在整個視覺因果場體系中的位置。

關鍵詞:視覺意圖、視覺符號語言、意圖編碼、ControlNet、分鏡、非藝術家創作、意圖保真度、PCFT、SAL


1. 問題的精確定位

1.1 創作者面對AI圖像生成的雙重困境

AI圖像生成技術的成熟,製造了一個表面上看起來是機會實際上是結構性困境的局面。創作者——導演、編劇、遊戲設計師、建築師、概念藝術指導——擁有強烈的視覺意圖(他們知道自己要什麼),但在與AI溝通這個意圖時,面對兩個都不夠好的工具:

工具一:文字提示(Text Prompt)

文字是線性的、時序的符號系統。它在表達「有什麼」(語意內容)上相當有效,但在表達「在哪裡」(空間關係)和「如何安排」(構圖意圖)上先天不足。

「一個女性角色站在左前方,男性角色坐在右後方,光從上方斜打過來,城市背景在遠景出現焦外」——這段文字在語義上清楚,但在空間精度上是模糊的。AI讀到的是語義分佈,不是精確的空間配置。兩個使用同樣提示詞的人,對這個場景的空間想象可能截然不同,AI生成的結果也因此高度不確定。

文字提示的空間精度問題,本質上是一個維度降維問題:二維空間信息(相對位置、比例、角度)在編碼為一維文字序列時,大量的空間結構信息被丟棄了。

工具二:完整繪畫

另一個極端是直接繪製完整的參考圖,通過image-to-image或ControlNet引導生成。這確實解決了空間精度問題——圖像本身是二維的,空間信息完整保留。

但它引入了兩個新問題。技能門檻問題:大多數有視覺意圖的創作者(導演、編劇)沒有足夠的繪畫能力繪製高質量的參考圖。即使粗糙的草圖也需要一定的視覺表達訓練。內容過度規定問題:完整繪畫把意圖和內容混合在一起——線條的具體走向、色調的選擇、筆觸的細節,這些都是「怎麼畫」的內容決策,而非「想要什麼」的意圖決策。AI在image-to-image時把這些內容也一起讀入,反而限制了生成的自由度和質量。

換句話說:繪畫傳達的是「一個具體的視覺事物」,而創作者通常想傳達的是「我希望最終結果符合這個空間關係和情境」。

1.2 現有工具的部分解答與殘餘缺口

ControlNet系列工具(OpenPose、Depth、Canny、Scribble等)提供了部分解答:用特定的條件圖(conditioning map)指導生成,而不是把完整繪畫作為內容參考。

但ControlNet的問題是:它是面向技術人員的,不是面向創作意圖表達者的。使用者需要知道「哪個任務需要哪個ControlNet類型」,需要自己繪製或準備相應格式的條件圖,沒有統一的語言讓創作者說「我想要這個」然後自動轉換成正確的ControlNet輸入。

現有的AI分鏡工具(Jenova、LTX Studio等)從文字腳本出發生成分鏡圖,是「文字→AI→分鏡」的方向,不是「創作者視覺意圖→符號化→AI生成」的方向。它解決的是「把劇本視覺化」的問題,不是「創作者如何精確表達視覺構圖意圖」的問題。

殘餘的缺口是:缺乏一套標準化的視覺意圖符號語言——可以被非藝術家直接使用、積木式模組化組合、讓AI系統直接解讀的視覺意圖表達系統。

1.3 類比確認缺口的真實性

這個缺口的真實性可以通過類比確認:

音樂:五線譜。作曲家不需要用語言描述「第三小節第二拍的這個音符是這個高度、這個時值、這個力度」——五線譜的符號語言精確編碼了這些意圖。表演者讀譜演奏,不需要作曲家在場解釋。

建築:工程圖。建築師不需要用語言描述「這面牆在這個位置、這個高度、這個材質」——工程圖的符號語言精確編碼了建築意圖。施工人員按圖施工,不需要建築師的即時指導。

電影:分鏡圖。導演不需要高繪畫能力,也不需要完整的場景圖,只需要用分鏡圖符號(人物位置、鏡頭角度、動作箭頭)編碼意圖,攝影師和演員讀分鏡理解意圖。

視覺AI生成目前缺乏這樣的標準符號語言。VIML試圖填補這個空白。


2. 核心概念:視覺意圖vs視覺內容

2.1 基本區分

視覺內容(Visual Content):圖像中實際存在的視覺信息——像素的色素值、物件的具體形狀、光影的精確分佈、紋理的微觀細節。是「圖像是什麼」。

視覺意圖(Visual Intent):創作者希望圖像呈現的結構性屬性——物件的相對空間位置、構圖的大致比例、光源的方向和性質、鏡頭的視角、場景的情境類型。是「我希望圖像做到什麼」。

兩者的差異是根本性的:同一個視覺意圖可以對應無數個不同的視覺內容,同一個視覺內容也可以符合多個不同的視覺意圖。

例子

視覺意圖:「主角在左前景,背景人物在右後方,光從左上方打來」。

符合這個意圖的視覺內容:可以是寫實風格的、也可以是動漫風格的;主角可以是任何面孔;服裝可以是任何設計;背景可以是城市也可以是自然;光的顏色可以是暖黃也可以是冷白——只要空間關係和光源方向符合意圖。

現有工具的混淆:文字提示混合了意圖和內容描述,AI無法確定哪些是硬性意圖要求,哪些是軟性內容建議。完整繪畫把所有內容細節都固定了,消滅了AI在意圖框架內的創作自由度。

VIML的主張:意圖和內容應該使用不同的語言來表達。VIML是表達意圖的語言;文字提示和風格引用是表達內容偏好的語言。兩者在AI生成管道中應該分別處理,不應混合。

2.2 分鏡圖作為視覺意圖的原型

電影和動畫的分鏡圖(storyboard / 分鏡),是人類自發發展出來的最接近「視覺意圖語言」的實踐。分鏡師(往往是不需要高繪畫能力的導演或編劇本人)用火柴人、方塊、箭頭、簡單的幾何形狀表達:誰在哪裡(空間位置)、在做什麼(動作意圖)、攝影機在哪裡(鏡頭視角)、場景是什麼類型(情境)。

分鏡圖的成功驗證了以下命題:

命題(分鏡可行性命題):視覺意圖可以被非藝術家用相對簡單的符號有效編碼,且這種編碼足以讓執行者(攝影師、動畫師)理解並實現創作者的意圖。

VIML是這個分鏡傳統的數字化和形式化——從電影生產流程中的非正式實踐,升級為AI時代可機器解讀的標準符號語言。

2.3 意圖符號的本質

意圖符號(intent symbol)是VIML的基本單位。它具有以下性質:

指向性(Intentionality):每個符號編碼的是創作者的意圖,不是場景的視覺內容。一個「左前景人物」符號不規定人物的具體外貌,只規定「在這個空間位置有一個人物」這個意圖。

抽象性(Abstraction):符號的抽象程度被精心校準——足夠抽象以不過度約束AI,足夠具體以有效傳達意圖。火柴人是人物位置意圖的正確抽象度;如果用真實人物照片,就過度規定了外貌(超出了意圖範圍);如果只用一個點,則太抽象,無法傳達姿態意圖。

可組合性(Composability):符號可以像積木一樣組合,構成完整的場景意圖。單個符號表達一個維度的意圖(位置、或光源、或鏡頭角度),組合後的符號集表達完整的多維度場景意圖。

機器可解讀性(Machine-readability):符號必須有確定性的計算解析規則,能夠自動轉換為AI生成系統可接受的conditioning輸入格式(ControlNet maps、depth maps、pose maps等)。


3. 意圖符號集(ISS)的分類學

意圖符號集(Intent Symbol Set, ISS)是VIML的詞彙庫。本節提出ISS的六大類別,每類包含若干原子符號,並說明每個類別的設計原則。

3.1 姿態/動作類(Pose & Action, PA)

用途:表達場景中人物/角色的身體姿態和動作意圖。

核心符號:簡化骨架符號(頭部圓圈、軀幹線、四肢關節節點),即「火柴人」的正式化版本。骨架節點的位置(頭、頸、肩、肘、腕、髖、膝、踝)遵循OpenPose的標準關節定義,使符號可以直接轉換為OpenPose conditioning map。

動作符號:附加在骨架上的箭頭符號,表示動作的方向和速度(走、跑、轉身、伸手、跳躍等)。箭頭的粗細表示動作強度(粗箭頭=劇烈動作,細箭頭=緩慢動作)。

情緒符號:附加在頭部節點的簡化表情符號(開心/悲傷/憤怒/中性),作為AI生成時的情緒意圖補充。注意:情緒符號是意圖提示,不是臉部內容規定。

設計原則:PA類符號的抽象程度應與OpenPose骨架相當——足以傳達姿態意圖,不規定體型、服裝、面孔等內容屬性。

3.2 空間/構圖類(Space & Composition, SC)

用途:表達場景中物件和角色的相對空間位置、前後關係、構圖比例。

深度分層符號:將畫布垂直分為若干深度層(前景/中景/遠景),用不同的顏色或線型標示(例如:粗線=前景,中線=中景,細線=遠景)。

位置標記符號:在畫布的不同位置放置「佔位符」——簡單的方塊、圓圈或三角形,表示「在這個位置有一個物件/角色/建築等」,不規定其具體外觀。佔位符的大小表示相對尺寸意圖。

構圖輔助符號:黃金分割線、三分法網格線、對角構圖引導線等。這些符號告訴AI「我希望主體放在這個構圖位置上」,是最純粹的意圖符號(完全沒有內容含義)。

遮擋符號:用簡單的重疊符號表示哪個物件在哪個物件的前方(遮擋關係),幫助AI正確處理深度順序。

3.3 光源/光影類(Light & Shadow, LS)

用途:表達場景的光源位置、方向、性質和強度意圖。

光源方向符號:太陽/燈的簡化圖形,放置在畫布上代表光源的方向位置(左上/右上/正前方/背光等)。光源符號的位置在畫面上的投影,決定了AI生成時的整體光影方向。

光質符號:附加在光源符號上的修飾標記,表示光的性質。實心圓=硬光(sharp shadows);虛線圓=軟光(diffused);雙線圓=散射光(ambient)。

色溫符號:在光源符號旁附加的色彩指示(暖/冷/中性),用簡化的色輪片段表示。

陰影方向符號:簡單的陰影延伸箭頭,表示陰影投射的大致方向,作為光源方向的確認補充。

夜間/室內/逆光等特殊光況符號:約定俗成的簡化圖標(月亮=夜間、方形框=室內、背光箭頭=逆光),快速表達整體光況意圖而不需要精確指定光源位置。

3.4 鏡頭/視角類(Camera & Angle, CA)

用途:表達攝影機/觀察者的視角、焦距感、景深意圖。

視角符號:圖示化的眼睛位置和方向符號。俯視=眼睛符號在畫面上方向下;仰視=眼睛符號在畫面下方向上;平視=眼睛符號在水平中線;斜側視=眼睛符號偏離中心。

焦距感符號:廣角(寬視野三角形)/標準(窄三角形)/長焦(極窄三角形)的圖示化符號,表達視角感和空間壓縮/擴張的意圖。

景深符號:在構圖中標示清晰焦點區域(實線框)和背景焦外區域(虛線框)的組合符號,讓AI理解哪個區域應該清晰,哪個區域應該模糊。

運動方向符號:當場景涉及攝影機運動意圖時(推近/拉遠/橫移),用箭頭在畫面上標示攝影機運動方向(主要用於分鏡序列,單幀生成時作為構圖張力意圖)。

3.5 材質/質感類(Material & Texture, MT)

用途:在不規定具體視覺內容的前提下,提示AI某個區域的材質大類,以便AI選擇合適的紋理生成策略。

材質類型符號:附加在佔位符或區域上的材質指示符號,表示材質大類而非具體紋理。設計原則:用最少的筆觸傳達最關鍵的材質信息。

建議符號集: 金屬(平行斜線填充)、布料/織物(交叉格紋)、皮膚(點陣填充)、木材(寬弧線)、石材/磚(方格紋)、玻璃/透明(空心虛線框)、植被(鋸齒輪廓)、液態水(波浪線)、發光體(放射線條)。

粗糙度符號:附加在材質符號上的粗糙度修飾——規律圖案=光滑,不規律圖案=粗糙。這對應PCFT中的∂D_m(語意通道的語意確定性):粗糙度符號是對因果場局部性質的意圖聲明。

設計限制:MT類符號只表達材質大類,不規定具體的視覺紋理內容。「金屬」是意圖,金屬的具體花紋和反光是AI的生成自由度範圍。

3.6 關係/動態類(Relation & Dynamics, RD)

用途:表達場景中物件/角色之間的語意關係和場景的動態張力意圖。

注意力引導符號:視線方向箭頭(人物視線指向哪裡)、注意力焦點圓(哪個物件是視覺焦點)。這些符號告訴AI「我希望觀者的眼睛被引導到這裡」。

情境關係符號:人物之間的關係意圖符號——距離遠近(連線長度)、對抗/合作(箭頭對向/同向)、對話(語言氣泡符號的簡化)。

張力符號:場景整體情緒張力的指示——穩定(水平線)、緊張(斜線對衝)、平靜(平緩曲線)、混亂(多向箭頭)。這些符號的作用是調整AI生成時的整體構圖張力和情緒色調。

時間序列符號(分鏡場景):在多幀分鏡序列中,標示連接前後幀的時間動態意圖——切換(竪線分割)、溶接(漸變符號)、快速剪輯(多竪線)。


4. 符號組合規則(SCR)

4.1 原子性與組合性

ISS的每個符號都是意圖原子——表達一個特定維度的一個特定意圖。場景意圖是多維度的,因此需要多個來自不同類別的原子符號組合才能完整表達。

跨類別自由組合原則:來自不同類別(PA、SC、LS、CA、MT、RD)的符號,原則上可以自由組合,不存在類別間的結構性衝突。把一個PA姿態符號、一個SC位置符號、一個LS光源符號疊加在同一個角色/物件上,三個維度的意圖可以無衝突地共存。

4.2 類別內的衝突與解析規則

同一類別的某些符號在語意上可能互斥。

PA類衝突:同一個人物節點不能同時有「站立」和「跪下」兩個姿態意圖——骨架節點位置的物理矛盾。解析規則:後放置的符號覆蓋先放置的同類衝突符號(後覆蓋原則)。

LS類衝突:同一場景不能同時有「硬光」和「軟光」從同一方向打來。解析規則:允許多個不同方向的光源符號同時存在(對應多光源場景);同方向多個光質符號時,取最後放置的(後覆蓋原則)。

CA類衝突:同一畫面不能同時有「俯視」和「仰視」意圖。解析規則:後覆蓋原則,並系統提示「視角衝突」,要求創作者選擇。

後覆蓋原則(Last-placed Rule):當同類別符號出現衝突時,默認使用最後放置的符號的意圖,前一個符號的意圖被撤銷。系統在衝突發生時顯示視覺提示,讓創作者確認。

優先級原則:SC(空間構圖)類的符號在組合時具有最高結構優先級——空間位置確定後,其他類別的符號在對應的空間位置上附加意圖。CA(鏡頭視角)類次之,影響整個場景的解讀方式。LS(光源)類再次,在確定空間後確定光照。PA(姿態)、MT(材質)、RD(關係)類最後,在空間和光照框架確定後附加細節意圖。

4.3 最小完整場景意圖(MCSI)

定義(最小完整場景意圖):一個場景意圖,若包含至少一個SC類符號(場景中有什麼、在哪裡)和至少一個CA類符號(從哪個視角觀察),則構成「最小完整場景意圖」(Minimum Complete Scene Intent, MCSI)。

MCSI是VIML可以被AI正確解讀並生成的最低要求。只有SC而沒有CA,AI不知道從哪個視角呈現場景;只有CA而沒有SC,AI不知道場景有什麼內容可以呈現。

其他類別的符號(PA、LS、MT、RD)都是MCSI的意圖豐富化,每添加一個類別,意圖的精確度提升,AI的生成自由度相應縮小。

4.4 空白意圖(意圖的缺省自由度)

凡是ISS符號沒有覆蓋的維度,稱為「空白意圖」(Blank Intent)——創作者對這個維度沒有具體要求,AI在這個維度有完全的生成自由度。

空白意圖的概念是VIML設計中最重要的原則之一。VIML的目標不是讓創作者規定圖像的一切,而是精確表達創作者有具體意圖的那些維度,把沒有意圖的維度完全交給AI的創意生成。

例如:如果創作者只放了SC和LS類符號,沒有放PA類符號,那麼場景中的人物姿態是空白意圖——AI可以自由選擇任何合適的姿態,只要符合空間位置和光照意圖。這是VIML比完整繪畫更優越的地方:完整繪畫沒有空白意圖,一切都被規定了。


5. 意圖保真度(IF)

5.1 定義

意圖保真度(Intent Fidelity, IF):在「創作者的場景意圖 → VIML符號表達 → AI生成結果」的整個管道中,創作者原始意圖被最終生成圖像保存的程度。

IF是一個複合指標,在多個意圖維度上各有一個分量:

IF = (IF_PA, IF_SC, IF_LS, IF_CA, IF_MT, IF_RD)

每個分量 IF_x ∈ [0, 1],表示對應類別的意圖在生成結果中的符合度。整體意圖保真度可以定義為加權平均:

IF_total = Σ_x w_x × IF_x

其中 w_x 是各類別的權重(由應用場景決定,例如電影分鏡中 IF_CA 的權重較高)。

5.2 IF的損失來源

意圖保真度的損失發生在管道的兩個環節:

環節一:意圖→符號的編碼損失

創作者的意圖可能無法被現有ISS完整表達——ISS的詞彙庫有限,某些精細的意圖(例如「光從左上方的45度、距離2米的位置打來,是鹵素燈的暖白光」)超出了LS類符號的表達精度。

這個損失稱為「符號詞彙缺口損失」(Symbol Vocabulary Gap Loss)。可以通過擴充ISS符號集來降低,但無法消除(完整消除需要無限精度的符號語言,退化為完整繪畫)。

環節二:符號→conditioning→生成的解析損失

VIML符號轉換為ControlNet conditioning map,再送入AI生成,在這個環節存在兩類損失。轉換近似損失:符號到conditioning map的轉換不是完美的——例如,一個LS光源方向符號轉換為depth/normal map的近似,可能無法完全精確地表達光源角度意圖。AI的隨機性損失:同樣的conditioning輸入,AI每次生成的結果都有隨機性,這是擴散模型的本質特性,不可消除。

5.3 IF的實際應用:迭代意圖精化

IF的概念引出了VIML的使用方法論:迭代意圖精化

創作者不需要一次性把場景意圖表達完整。流程如下:

Step 1: 放置MCSI(最小完整意圖) → 生成 → 查看結果
Step 2: 識別不符合意圖的維度 → 添加對應類別的符號 → 生成 → 查看結果
Step 3: 重複,直到IF_total達到可接受水平

這個迭代過程讓創作者逐步精確化意圖,不需要一開始就規定所有細節。同時,每一輪的生成結果也可能給創作者新的靈感——意圖精化和內容探索是雙向交互的。

5.4 最大可達IF的邊界

需要明確:IF存在上限。即使ISS符號集完備、轉換算法完美,仍然存在以下不可消除的IF上限:

AI生成的不可控隨機性(固有的隨機性,但可通過seed控制在一定範圍);人類視覺意圖中不可符號化的直覺部分(某些意圖太細微、太直覺,任何有限的符號語言都無法精確表達);AI對符號的語意解讀誤差(當符號組合產生語意歧義時,AI的解讀可能偏離意圖)。

因此,IF的追求目標不是最大化(趨向最大等同於把VIML退化為完整繪畫),而是找到「意圖約束與創意自由度」之間的最優平衡點——足夠的IF確保核心意圖被保存,足夠的空白意圖讓AI發揮創意。


6. VIML與AI生成管道的介面協議

6.1 VIML符號→ControlNet conditioning的映射

VIML符號需要被解析為AI生成系統可接受的conditioning格式。主要映射關係如下:

PA類(姿態/動作)→ OpenPose conditioning map:PA類符號按照OpenPose的骨架節點定義直接生成對應的pose map。這個映射是最直接的,因為PA類符號本來就按照OpenPose標準設計。

SC類(空間/構圖)→ Depth map + Segmentation hint:SC類的深度分層符號轉換為大致的depth map(前景=近距離深度值,遠景=遠距離深度值);佔位符符號的位置和大小轉換為segmentation hint(這個區域有一個大概這個尺寸的物件)。

LS類(光源/光影)→ Normal map + 文字光源提示補充:LS類光源方向符號轉換為大致的surface normal map(指示表面法向量的方向,決定光影分佈);光質符號轉換為文字提示補充(「硬光」=「sharp directional lighting」,「軟光」=「diffused ambient lighting」)。

CA類(鏡頭/視角)→ 文字視角提示 + Camera pose:CA類視角符號轉換為文字提示(「俯視」=「bird's-eye view, top-down shot」)和camera pose conditioning(若生成系統支持)。

MT類(材質/質感)→ 文字材質提示補充:MT類符號轉換為文字提示(「金屬填充符號」→「metallic surface」),作為文字提示的局部材質補充,而非完整的ControlNet conditioning map。

RD類(關係/動態)→ 文字提示補充 + 注意力引導:RD類符號主要轉換為文字提示(關係描述);若生成系統支持注意力引導(attention guidance),注意力焦點符號轉換為局部強化的注意力區域。

6.2 VIML與文字提示的分工

在VIML的使用框架中,文字提示和VIML符號承擔不同的表達任務:

VIML符號負責:空間結構意圖(誰在哪裡、什麼關係)、光源意圖(從哪裡打光、什麼光質)、鏡頭意圖(從什麼視角看)、構圖意圖(視覺重心在哪裡)。

文字提示負責:內容描述(角色是什麼身份、場景是什麼地點)、風格說明(寫實、動漫、油畫等)、情境補充(時代背景、天氣、情緒氛圍)、細節偏好(服裝款式、建築風格等)。

兩者的組合,提供了「空間意圖精確+內容自由+風格靈活」的完整表達能力——這是文字提示或完整繪畫單獨都無法做到的。

6.3 分鏡序列:VIML的時序擴展

單幀的VIML符號集描述一個靜態場景意圖。分鏡(storyboard)是VIML的時序擴展——一組按時間順序排列的VIML幀,用RD類的時序符號連接,形成完整的敘事意圖序列。

每個分鏡幀獨立生成,相鄰幀通過以下一致性約束保持連貫:

角色一致性:若兩幀中出現同一角色(用相同的角色ID標記),AI需要在兩幀中保持角色外觀的一致性。場景一致性:若兩幀在同一場景中(用場景ID標記),背景元素需保持一致。時序關係:RD類的時序符號(切換、溶接、快速剪輯)告訴AI生成系統相鄰幀之間的視覺過渡方式。


7. 使用者模型:誰在使用VIML

7.1 目標使用者的能力要求

VIML的設計使其對不同背景的使用者都有可用性,但效果有所不同:

視覺意圖強烈、繪畫能力弱的創作者(電影導演、編劇、遊戲設計師、建築師):這是VIML的核心目標使用者。他們有明確的視覺構想,但缺乏繪畫技能把它表達出來。VIML給他們一套可以快速學習的視覺符號語言,讓他們直接操作AI生成,不需要繪畫能力的中介。

有一定繪畫能力的視覺藝術家(插畫師、概念藝術師):這類使用者可以把VIML作為快速起稿工具,用符號快速確定構圖、光源、視角意圖,然後通過AI生成多個變體,再手工精修選定方向。VIML加速了他們的意圖探索過程。

技術性AI使用者(提示詞工程師、AI藝術師):這類使用者已經習慣用複雜文字提示控制AI生成。VIML為他們提供了更精確的空間意圖表達工具,補充文字提示的空間精度不足。

7.2 學習曲線設計原則

ISS符號集的設計需要最小化學習曲線:

圖像化設計優先:符號應「看起來像它要表達的意思」(圖像性原則)。火柴人代表人物,太陽圖標代表光源,視角三角形代表鏡頭——初學者在沒有任何培訓的情況下應該能猜出大多數符號的含義。

漸進式學習:使用者可以只學PA和SC兩個類別,就能使用VIML進行基本的場景意圖表達。其他四個類別是漸進式的能力擴展,不是入門的必要條件。

即時視覺反饋:在VIML工具中,符號的組合結果應在用戶放置符號的同時,即時顯示它將如何被轉換為ControlNet conditioning map(例如,在畫布下方顯示即時生成的骨架圖或深度圖預覽)。這讓使用者即時理解符號的機器可解讀性。


8. 與T₃視覺系列的理論關係

8.1 VIML作為SAL的用戶端輸入介面

T₃補論五(SAL)定義了語意標注層:在PCFT因果場結構上,附加語意機率分佈(σ格點標注、τ色塊標注、ρ連接標注),使AI視覺系統從統計辨認升級為因果語意理解。

VIML在這個框架中的位置是:SAL的用戶端意圖輸入介面

創作者使用VIML符號表達場景意圖,這些意圖在AI生成系統的內部表示中,對應的是SAL標注的先驗約束——「我在這個位置放了一個PA人物符號」等同於告訴AI「在這個格點區域,SAL標注的語意類別應當是『人物表面』或『人物邊緣』」。

換言之,VIML是SAL的正向(從人到AI),SAL是VIML的逆向(從AI解析圖像)。兩者構成一個對稱的意圖-理解循環:人類用VIML表達意圖→AI用SAL框架理解意圖→AI按照理解生成圖像→SAL標注生成圖像的語意→人類通過VIML反饋調整意圖。

8.2 VIML符號與PCFT格點結構的對應

T₃補論四(PCFT)確立了像素的二部因果場結構:同色連通塊作為語意同質區域,跨奇偶邊界作為語意轉換位置。

VIML的SC類空間符號(佔位符、深度分層),在PCFT語言下,是在指定「哪個空間區域應當形成一個同色連通塊(語意同質區域)」。VIML的PA類骨架符號,在PCFT語言下,是在指定「人物骨架的關節位置,是高梯度因果場的錨點(語意邊緣的預期位置)」。

VIML用直覺的符號語言表達了創作者的空間和語意意圖;PCFT/SAL給這些意圖提供了在AI圖像生成的底層因果場理論中的精確數學描述。

8.3 IF與RSCD的對應關係

T₃補論三(RSCD)定義的遞歸語意閉包深度,在VIML的意圖保真度框架中有以下對應:

高IF_MT(材質意圖高保真)的生成結果,傾向於有更高的RSCD——因為材質意圖的高保真要求AI在多個縮放層次上都生成因果上一致的材質細節。低IF的生成結果(符號轉換損失大、AI解讀偏差大),傾向於低RSCD——生成的細節在宏觀上符合意圖,但微觀上是統計填充,RSCD在第一或第二縮放層就崩塌。

因此,IF不只是衡量意圖符合度的指標,也是RSCD的間接預測指標:在VIML框架下,高IF的生成流程,更可能產生高RSCD的圖像。


9. 開放問題

問題一(ISS完備性):本文提出的六類ISS是否足以覆蓋所有重要的視覺意圖維度?有沒有重要的意圖類別被遺漏?例如,「情境/時間」(早晨/傍晚/夜晚,歷史時代)是一個可能的第七類;「敘事性/情緒性」(緊張、溫馨、壯觀)也可能需要專門的符號類別。ISS完備性問題是VIML設計中最重要的開放設計問題。

問題二(SCR的形式化):本文給出了SCR的直覺描述(跨類別自由組合、類別內衝突解析規則),但沒有給出SCR的完整形式化代數結構。如何給ISS符號集定義一個正式的組合代數,使SCR有嚴謹的數學描述,是VIML的形式化理論工作。

問題三(IF的量化方法):本文定義了IF作為概念,但沒有給出具體的量化算法——如何從生成圖像和原始VIML符號,自動計算每個維度的IF分量。這需要開發對應的評估指標,是工程實現層面的開放問題。

問題四(文化普適性):ISS符號的「看起來像它的意思」(圖像性原則)可能在不同文化背景下有不同的直覺性。某些符號的視覺形式在一種文化語境下直覺,在另一種文化語境下可能需要學習。如何設計文化普適的符號集,是VIML的跨文化設計問題。

問題五(動態ISS):隨著AI生成技術的發展,新的conditioning類型可能出現(例如,語音情緒conditioning、語意密度conditioning)。ISS需要一個可擴展的架構,能夠在不破壞現有符號意義的前提下,添加新類別的符號。如何設計這個可擴展架構,是VIML的長期演化設計問題。


哲學結語

語言是意圖的容器,但容器的形狀決定了它能裝什麼。

文字這個容器是線性的,時序的,它裝得了故事的發展,裝得了概念的遞進,但它的形狀不適合裝二維空間裡的「誰在哪裡、光從哪來、我從哪裡看」。繪畫這個容器裝得了所有這些,但它的形狀太精確,把應該留白的地方也一起裝了進去,創意的空氣就被擠走了。

VIML試圖做一個新的容器,形狀剛好是視覺意圖的形狀——空間的、構圖的、光源的、視角的——而且在不需要意圖的地方,它有刻意的缺口,讓AI的創意在那裡呼吸。

這個想法並不新——電影人在紙上畫火柴人分鏡的時候,就已經在做這件事了。VIML只是把這個人類的直覺實踐,翻譯成了機器可以讀的語言。

也許最終,真正的創作者從來不需要畫得好;他們只需要知道自己要什麼,然後找到一個足夠誠實的語言,把「要什麼」說清楚,而不要把「不需要規定什麼」也一起說進去。

空白,本來就是意圖的一部分。


論文性質:獨立理論框架提案(Conceptual Framework Proposal),ISS符號集設計與SCR形式化待後續工作 橫向連接:T₃補論四(PCFT)、T₃補論五(SAL) 版本:v0.1 作者:Neo.K (許筌崴),EveMissLab (一言諾科技有限公司),台灣

意圖是地圖上的目的地;符號是地圖的語言;空白是旅途中AI的自由。

原始檔(供 RAG/下載):papers/VIML.md [md]