T₃系列補論四:像素因果場理論
離散奇偶結構、連續統重建與圖像超解析度的統一框架
作者:Neo.K (許筌崴) 機構:EveMissLab (一言諾科技有限公司) 日期:2026年6月 性質:T₃視覺增強系列補論——前序文件見T₃·v0.1、v0.2(精細化雙通道)、補論三(RSCD與MSC)
摘要
本文提出「像素因果場理論」(Pixel Causal Field Theory, PCFT)作為圖像超解析度問題的統一理論框架。核心命題是:所有數字圖像本質上都是某種連續因果場在離散格點上的採樣投影,而超解析度的根本任務是反推並延伸這個連續場,而非在像素之間插值或從訓練分佈中幻覺生成細節。
本文確立以下理論要素:(一)圖像的本質二分類——攝影(物理光因果場的投影)與心象畫(語意因果場的投影);(二)像素格點形成棋盤奇偶二部圖,其結構與系列前序論文《球形貪吃蛇問題》的離散奇偶守恆同形;(三)因果信息沿異色格點之間的跨奇偶通道傳播;(四)像素的原子信息單元是(位置,色素值)的不可分配對,而非色素值本身;(五)同色連通塊是場的幾何合一區域,但其中每個格點的位置身份仍獨立不可替代。
基於此框架,本文給出超解析度的因果場延伸算法綱領,並將整個理論整合進T₃的∂D_s通道、RSCD(遞歸語意閉包深度)與MSC(微觀語意坍縮)的形式化體系。
關鍵詞:像素因果場、離散奇偶結構、連續統重建、二部圖、超解析度、∂D_s因果詮釋、RSCD、攝影信息論、心象畫語意場
1. 引言
1.1 超解析度技術的根本困境
現有超解析度(Super-Resolution, SR)技術沿三條路線發展,每條路線都隱含著一個未被明說的信息論假設:
插值路線(雙線性、雙三次、Lanczos等)假設:缺失的高解析度值,等於現有低解析度值在空間上的加權平均。這個假設在數學上是一種帶限信號重建(Nyquist-Shannon採樣定理的應用),但它預設了信號是帶限的、且帶限邊界已知——而自然圖像和人工繪畫都不滿足這個前提。結果是:插值產生平滑但模糊的放大,高頻信息(∂D_s)被系統性地壓平。
生成幻覺路線(GAN、擴散模型等)假設:缺失的高解析度值,可以從訓練集的統計分佈中採樣得到。其優化目標是感知品質或對抗辨別,而非信息忠實度。這類方法能生成「看起來真實」的細節,但生成的細節在語意上可能與原圖像的底層因果結構不一致——正如T₃系列補論三所識別的,這正是MSC(微觀語意坍縮)的AI版本:生成的細節RSCD=1,放大一層後即失去語意閉包。
可逆縮放路線(IRN等)假設:縮小過程中丟失的高頻信息,可以被編碼進一個潛在變量z,並在放大時從z還原。這是三條路線中信息論上最嚴謹的,但它的設計目標是「配對縮放還原」,不是「從單張低解析度圖像反推連續場」。
三條路線的共同盲點是:都在像素空間(離散值域)內操作,而沒有問「這些離散像素在其中被採樣的連續場是什麼」。
本文提出的框架把問題的定義層往下移一層:超解析度不是「給定低解析度像素矩陣,如何生成高解析度像素矩陣」,而是「給定連續因果場的低密度採樣,如何反推連續場並以更高密度重新採樣」。
1.2 理論位置與系列脈絡
本文在T₃系列中的位置如下:
T₃·v0.1(三相狀態視覺增強假說)識別了視覺震撼感的三維算子(精細化∂D、真實化∂R、飽和化∂S),建立視覺密度路徑。
T₃·v0.2(精細化算子雙通道分解)識別∂D需要拆分為空間通道∂D_s和語意通道∂D_m,並提出視覺底空間命題猜想(VSB)。
T₃補論三(RSCD與MSC)定義遞歸語意閉包深度(RSCD)作為∂D_m的多尺度推廣,定義微觀語意坍縮(MSC)作為AI生成圖像的系統性失敗模式。
本文(T₃補論四)提供∂D_s的因果場詮釋,給出超解析度的統一理論框架,並確立RSCD在因果場語言下的精確物理意義。
本文與以下前序論文直接交叉引用:
《一個點能否填滿一塊體積》(單點填充論文):連續統維度債、空間填充曲線的不可避免自交性。
《球形貪吃蛇問題》(格點哈密頓路徑論文):離散格點的奇偶守恆、二部圖結構作為可達性的根本障礙。
2. 圖像的本質二分類
2.1 基本框架
數字圖像在本質上是一個函數:
I : Z² → C
其中Z²是整數格點的集合(像素座標),C是色彩空間(例如,RGB的[0,255]³,或連續化的[0,1]³)。
但這個定義只描述了圖像的表現層,沒有描述它的信息層。要理解信息層,必須問:這個離散函數I是怎麼來的?它採樣自什麼?
答案把所有圖像分成本質上不同的兩類。
2.2 攝影:物理光因果場的離散投影
攝影圖像是物理世界的光場(light field)在感光元件上的離散採樣投影。
定義物理光因果場 F_phys: R² → C 為:光線從場景中的物體表面出發,經過若干次反射、折射、散射,在成像平面上形成的連續輻射分佈。這個場在任意位置的值,由以下物理過程共同決定:光源的位置、強度與光譜;表面的BRDF(雙向反射分佈函數);介質的吸收與散射;透鏡的光學方程;感光元件的響應函數。
攝影圖像I是F_phys在格點Z²上的採樣:
I(i,j) = F_phys(i,j) 對所有 (i,j) ∈ Z²
關鍵性質:F_phys受物理因果律嚴格約束——特定位置的輻射值,由光線傳播方程(Maxwell方程組的幾何光學近似)唯一確定。因此,已知光源位置與場景幾何,原則上可以從少量採樣反推F_phys的完整結構,並在任意密度重新採樣。
信噪比的意涵:攝影的信息噪聲來源是確定且有限的:感光器噪聲、量化誤差、鏡頭像差、運動模糊等。理論上,這些噪聲可以被建模和去除,還原出接近真實的F_phys。
電磁頻譜的完備性備注:上述定義中的F_phys在原則上定義在完整電磁頻譜上,從無線電波到γ射線均為同一個連續因果場的不同頻段截面。標準可見光攝影是其中約400–700nm窄帶的三通道積分採樣——RGB三個通道本身是感光元件對連續可見光譜積分的結果,在進入數字格點之前已完成一次維度壓縮。這意味著,即便是「標準圖像」中的色素值,也已經是連續頻譜信息的有損投影。
此框架在其他採樣頻段下同樣成立:紅外攝影、紫外攝影、醫學影像(CT、MRI)、衛星多光譜圖像、螢光顯微鏡,都是在各自頻段對F_phys進行採樣,因果場的數學結構不因採樣頻段的選擇而改變。藝術創作中,雖然人眼只感知可見光,且大多數圖像僅描繪常規光源(白光、暖黃光),但這只是慣例的限制,不是理論框架的限制。理論的完備性:F_phys覆蓋全頻段;實踐的優先性:可見光三通道採樣是目前最普及的情況。第4.4節關於色素比例分析的方法論,在上述任何採樣頻段下原則上均可適用,只需將「RGB三通道」替換為對應頻段的輻射強度向量。
2.3 心象畫:語意因果場的離散投影
人類繪製的心象畫(手繪插圖、動漫、概念藝術等)是藝術家內部語意表徵在畫布上的離散物質化。
定義語意因果場 F_sem: R² → C 為:藝術家在創作過程中,以視覺語言對所描繪的概念對象(場景、角色、情緒)進行的連續性表達。這個場在任意位置的值,由以下語意過程決定:場景的幾何邏輯(透視、遮擋、比例);材質與光照的視覺慣例(不一定物理準確);風格化選擇(線條粗細、色彩飽和度、陰影處理);敘事性內容(強調哪些細節、弱化哪些)。
心象畫圖像I是F_sem在格點Z²上的採樣:
I(i,j) ≈ F_sem(i,j) 對所有 (i,j) ∈ Z²
此處使用「≈」而非「=」,原因是人類繪製過程本身有離散工具的限制(筆觸的最小尺寸)和手部運動的隨機性,導致最終結果是對F_sem的近似而非精確採樣。
信噪比的意涵:心象畫的信息噪聲來源更複雜且更難消除:藝術家的手部顫抖、媒介的物理限制(顏料的流動、像素的量化)、刻意的風格化偏差(藝術家主動選擇偏離「物理正確」的表達)。其中風格化偏差不是噪聲,而是F_sem本身的一部分;而媒介限制才是真正的噪聲。兩者的分離,需要對F_sem的先驗知識。
2.4 兩類的共同結構
儘管物理因果場和語意因果場的生成機制截然不同,它們在信息論結構上是同形的:
兩者都是定義在R²上的連續函數;都是通過某個採樣過程投影到離散格點Z²上;都包含超出格點密度可完整表示的連續信息;都在原則上可以從採樣反推並以更高密度重建。
差異在因果函數的性質:F_phys受物理定律(微分方程)約束,F_sem受視覺語意邏輯約束。兩種約束都提供了足以驅動高密度重建的先驗信息——只是形式不同。
3. 連續統、維度債與離散採樣
3.1 連續統的維度債(接環:單點填充論文)
在《一個點能否填滿一塊體積》中,已確立以下古典結論:
不存在同時滿足「連續、單射(不重複)、滿射到正面積/正體積」的路徑(Netto定理/域不變性)。能填滿正面積的連續路徑必然放棄單射,以測度零點集上的自我接觸為代價(Peano-Hilbert空間填充曲線)。有限長度的曲線其像在R^n(n≥2)中Lebesgue測度為零——填滿正面積必然要求無限長度(維度債)。
這個結論在圖像論中的對應是:連續場F(無論F_phys還是F_sem)本質上是一個定義在R²上的無限信息量的連續函數。對它進行格點採樣,必然損失高頻信息(正如Nyquist-Shannon定理指出的,有限採樣率的有限帶寬)。
維度債的圖像論版本:任何在有限格點密度上的採樣,都積欠了連續場的「維度債」——缺失了那些空間頻率高於採樣格點的奈奎斯特頻率的信息。超解析度的任務,本質上是「還債」——但它不能從空無中創造,只能從因果場的先驗結構推算。
3.2 採樣的二部圖結構
在格點採樣中,有一個初等但深刻的結構性事實:標準的4連通格點圖是二部圖。
這個性質在《球形貪吃蛇問題》中已作為核心命題(命題2)精確陳述:在Z^n的標準格子中,定義奇偶染色後,每條邊都連接異色頂點,圖是二部圖。
在二維圖像的語境中:
定義(棋盤奇偶分類):對任意像素位置(i,j) ∈ Z²,定義其奇偶類par(i,j) = (i+j) mod 2。
黑色像素集合:B = {(i,j) : par(i,j) = 0}
白色像素集合:W = {(i,j) : par(i,j) = 1}
在4連通結構下(上下左右四個面鄰),每個像素的所有直接鄰居都在異色集合中。構成二部圖G = (Z², E₄),二部分割為(B, W)。
這個結構的存在,不是人為的分析選擇,而是格點幾何的客觀性質。
3.3 採樣的信息論意涵
二部圖結構對採樣信息的意涵是:
圖像信息沿格點傳播時,必然交替經過黑白兩種奇偶類的格點——因果鏈不能在同色格點之間直接跳躍。每個格點的值,在因果結構中,是由其異色鄰居決定的(而非同色鄰居)。
這不只是幾何上的描述,而是因果結構的形式化表達。採樣到B類格點的信息和採樣到W類格點的信息,是互補的而非冗餘的——它們在連續場的不同「相位」上採樣,共同重建出完整的連續信息。
4. 因果場的數學結構
4.1 因果函數的定義
定義(因果函數):對連續場F: R² → C,定義在格點(i,j)處的因果函數φ_{i,j}: C^k → C 為:給定(i,j)的k個直接鄰居的場值,推算(i,j)處場值的函數。
形式上:
F(i,j) = φ_{i,j}(F(i±1,j), F(i,j±1)) + ε_{i,j}
其中ε_{i,j}是採樣誤差(對攝影,為感光噪聲;對心象畫,為繪製偏差)。
理想情況下ε_{i,j} ≈ 0,此時因果函數完整刻畫了格點(i,j)與其異色鄰居之間的信息依存關係。
注意:這裡的φ_{i,j}依賴位置(i,j)本身(因為不同位置的光學/語意因果規律可能不同),也依賴鄰居的奇偶類(因為黑→白與白→黑的方向可能有不同的因果強度)。
4.2 攝影的物理因果函數
在攝影圖像中,F_phys由Maxwell方程組的幾何光學近似唯一確定。在光滑材質表面的局部,F_phys滿足以下近似:
Lambertian漫射:在局部表面元素上,像素值≈ (光源方向 · 表面法向量) × 表面反射率 × 光源強度
這個近似給出了局部的因果函數——相鄰像素之間的值差,由光源方向相對於表面的空間梯度決定。具體而言:
φ_phys(F(i±1,j), F(i,j±1)) ≈ F(i,j) + ∇F · δr
其中∇F是場在(i,j)處的梯度(由物理光學確定),δr是位移向量。
對已知光源幾何的場景,∇F可以從有限鄰居的值估算,因此φ_phys在局部是可逆推的。更複雜的場景(多光源、鏡面反射、次表面散射)需要更複雜的物理模型,但原則上仍然受確定性的物理因果律約束。
重要推論:攝影圖像的超解析度,在物理正確的理論框架下,等同於從有限採樣點估算局部光場梯度∇F_phys,並在更高密度的格點上計算場值。這不需要「發明」細節——細節由物理方程唯一確定,只是需要估算。
4.3 心象畫的語意因果函數
在心象畫中,F_sem由藝術家的視覺邏輯約束,而不是物理定律。語意因果函數φ_sem在局部的表現:
硬邊(線稿邊緣):F_sem在短距離內從一個色塊跳變到另一個色塊。因果函數在跳變處是不連續的(或高梯度的)。
軟邊(漸層):F_sem在一定範圍內平滑變化,類似但不完全符合物理光照梯度。
平坦色塊:F_sem在整片區域內接近常數,因果函數梯度接近零。
心象畫的φ_sem比F_phys更難從少量樣本反推,因為:
第一,沒有物理方程作為先驗約束,φ_sem依賴於藝術家的個體風格(不同藝術家的φ_sem不同)。
第二,φ_sem可能包含刻意的「非物理」選擇(誇張的色彩、風格化的邊緣),這些選擇是F_sem的一部分,不應在重建中被「修正」。
第三,相同的局部像素值在不同語意上下文中可能有不同的φ_sem(同樣的橙色,在皮膚上和在火焰上的語意因果關係完全不同)。
儘管如此,φ_sem的局部性(藝術家的風格在整幅畫中保持一致性)提供了可以被學習和利用的先驗信息。
4.4 因果函數的觀測估算:色素比例分析與光源影響反推
在理論上,因果函數φ由物理定律(攝影)或語意邏輯(心象畫)決定。但在實際的超解析度任務中,我們面對的是已經採樣完成的圖像I,而不是物理場景或藝術家的內部表徵。因此需要回答:如何從I本身的色素信息,反推出φ的關鍵參數——尤其是光源的影響分佈?
核心觀察是:圖像的色素值本身就編碼了光源的簽名(signature)。光源的顏色、方向、強度,在每個格點的RGB值中留下了可解讀的痕跡。通過適當的色素分析工具,可以從圖像自身提取光源信息,進而估算φ_phys或φ_sem的光源依存分量。
方法一:色彩通道比例分析(Channel Ratio Analysis)
設格點(i,j)的RGB值為(R, G, B)。在Lambertian光照模型下:
R = ρ_R × E_R
G = ρ_G × E_G
B = ρ_B × E_B
其中ρ是表面的本徵反射率(intrinsic reflectance,不依賴光照),E是到達該點的光源能量(依賴光照)。
通道比例R:G:B直接反映光源的相對光譜能量分佈。在均勻光照的平坦表面上,相鄰格點之間的比例應當穩定;比例的空間梯度,則揭示光源方向的變化。通過分析整幅圖像中比例的分佈規律,可以統計估算光源的色溫(color temperature)和方向。
方法二:色彩空間轉換(Color Space Transform)
不同的色彩空間對光照信息有不同的分離能力:
LAB色彩空間:L通道(亮度)主要編碼光源強度的幾何分佈(陰影、高光的空間模式);A和B通道(色度)主要編碼本徵反射率。通過分離L和AB,可以初步分解光照影響與本徵色彩。
HSV色彩空間:H(色相)對光照色溫敏感,V(明度)對光照強度敏感,S(飽和度)在特定光照條件下(如漫射光)有特定分佈模式。分析H通道的空間梯度,可以估算光源的方向性(directional vs. diffuse)。
對數色彩空間(Log-RGB):在此空間中,Lambertian模型中的「表面反射率 × 光照」的乘法關係變為加法,使光照分量的分離更為線性化,便於後續估算。
方法三:直方圖與調色板分析(Histogram and Palette Analysis)
圖像的顏色直方圖在統計上反映光源結構。典型特徵:
雙峰分佈:在某個色彩通道上出現雙峰,通常指示陰影(低值峰)和直接光照(高值峰)之間的光照對比,可從峰值位置估算光源強度比。
高光採樣:圖像中色素值接近最大值(飽和高光)的區域,其RGB比例最接近光源的真實色彩(因為高光處表面反射率的影響最小),是估算光源色溫的最純淨採樣點。
陰影採樣:圖像中最暗區域(深陰影)的RGB比例,反映環境光(ambient light)的色彩,與主光源的色溫對比,揭示場景的整體光照結構。
方法四:濾鏡差分分析(Filter Differential Analysis)
對同一圖像施加不同性質的濾鏡(如高斯模糊、邊緣增強、頻率域帶通濾波),比較濾鏡前後的色素分佈差異:
低頻分量:代表大尺度的光照漸變(gradual illumination changes),反映漫射光或遠距離光源的影響。
高頻分量:代表局部的光照不連續(如物體邊緣的明暗交界),反映直射光的幾何投影。
通過分析不同頻率分量中的色素比例模式,可以在不同尺度上分別估算φ_phys的光照貢獻。
攝影的估算優先性
上述方法在攝影圖像上的適用性最強。這是因為攝影的F_phys由確定性的物理定律生成,色素值與光源參數之間的對應關係是原則上可解的逆問題。利用現有的Intrinsic Image Decomposition(本徵圖像分解)技術,可以在不需要場景幾何信息的條件下,從單張圖像估算反射率R和光照L的分離:
I(x,y) ≈ R(x,y) × L(x,y)
一旦L被估算出來,φ_phys的光照分量即可從L的空間梯度計算。這為因果場延伸算法提供了在純視覺輸入下估算φ_phys的實際路徑。
推廣至掌控光影的心象畫
對於藝術訓練精良、能精確掌控光影的藝術家繪製的心象畫,同樣的分析路徑可以應用——但帶有一個重要修正。
這類藝術家(如古典油畫大師、具備紮實光影訓練的插畫師)的作品中,φ_sem的光照分量遵循物理光照的視覺慣例,儘管不一定物理精確。其色素分佈模式與攝影的光照模式高度相似,因此上述四種分析方法都可以用於估算這類畫作中的「虛擬光源」參數——即藝術家在創作時假設的光源位置、色溫與強度。
具體而言,可以計算「光源影響比」(Light Influence Ratio, LIR):
LIR(i,j) = ||∇L̂(i,j)|| / ||∇R̂(i,j)||
其中∇L̂是估算的光照分量梯度,∇R̂是估算的反射率分量梯度。LIR高的區域,光照變化主導了色素值的空間變化;LIR低的區域,本徵色彩的空間分佈更重要。
在超解析度重建中,LIR提供了一個自然的計算資源分配指標:LIR高的區域(光照主導),因果函數的光照物理模型約束強,重建代價低;LIR低的區域(本徵色彩主導),需要更多依賴語意先驗,重建代價高。
對心象畫的誠實限制
需要明確的是:上述推導對「不掌控光影的心象畫」(風格化插圖、非寫實動漫等)的適用性有限。當藝術家主動偏離物理光照慣例時(如二次元風格的平面陰影、印象派的色彩自主)——此時φ_sem的光照分量不可以用物理模型估算,必須另行建立針對該風格的語意因果模型。這類案例回到了第4.3節的「語意因果函數學習」開放問題。
4.5 因果鏈的傳播方向
由二部圖結構,因果信息的傳播路徑在格點空間中是嚴格交替的:
B → W → B → W → ... (從黑格出發)
W → B → W → B → ... (從白格出發)
這意味著:要知道位置(i,j)(設為黑格)的因果函數值,需要其白色鄰居的值;要知道白色鄰居的值,需要再追溯其黑色鄰居的值。
在局部估算中,因果函數可以用鄰居直接計算。在大範圍重建中,因果鏈需要沿著二部圖結構向外傳播——類似於有限差分法求解偏微分方程,但傳播的不是數值,而是因果結構的一致性。
5. 同色塊的語意地位與位置的不可替代性
5.1 同色連通塊作為場的幾何單位
定義(同色連通塊):在8連通(含對角線)的意義下,若干同奇偶類的格點若形成連通子圖,則構成一個同色連通塊。(注意:在4連通下,同色格點不直接相鄰;8連通中才存在直接的對角相鄰。)
同色連通塊對應連續場F中的幾何同質區域:在這些區域中,場值的變化相對較小,因果梯度較低。具體類型:
攝影中的同色塊:對應同一物體表面的同一光照條件下的區域(平坦牆面、均勻天空)。
心象畫中的同色塊:對應同一色彩區域的平坦填充(角色皮膚的平坦部分、背景的純色塊)。
重要結論:在超解析度的計算中,同色連通塊的內部具有較低的重建代價。因果梯度低,意味著新插入格點的值與現有格點的值高度相關,只需低代價的局部延伸即可。
計算含義:超解析度算法的計算複雜度,在同色塊內部與塊邊界之間存在系統性差異。大部分代價集中在塊邊界(跨奇偶的高梯度區域),而非塊內部。
5.2 值域合一不等於位置合一
一個常見的直覺錯誤是:同色塊內的格點,既然在色素值上高度相似(甚至完全相同),可否在某種意義上被「合并」或「代表化」,從而減少需要重建的位置數量?
答案是否定的,而且原因是結構性的,非實用性的。
在因果場框架下,每個格點的身份由兩個獨立的組成部分共同決定:位置((i,j),決定奇偶類、在因果鏈上的角色、與鄰居的相對關係)和色素值(F(i,j),決定場在該位置的取值)。
命題(位置-值配對的原子性):在因果場理論中,信息的不可分原子單元是配對:
Atom(p) = (p, F(p)) p = (i,j) ∈ Z²
兩個原子Atom(p₁)和Atom(p₂),若p₁ ≠ p₂,則無論F(p₁)和F(p₂)的值是否相同,它們在因果場中是不同的節點,扮演不同的因果角色。
為何如此:設(i₁,j₁)和(i₂,j₂)是同色塊(同奇偶類)中的兩個格點,且F(i₁,j₁) = F(i₂,j₂)(相同的色素值)。但:
它們的鄰居集合不同(不同位置有不同的相鄰格點)。它們在因果鏈上的角色不同(它們各自的鄰居所形成的局部因果結構不同)。它們對超解析度新格點的因果貢獻不同(一個對某個特定中間格點有影響,另一個對不同的中間格點有影響)。
因此,即使在純白天空(所有像素RGB完全相同)中,每個格點的位置信息仍然攜帶了場的幾何結構信息——它告訴你這片連續統延伸到哪裡、形狀如何、邊界在何處。這些是不可被值域合并操作替代的。
對壓縮編碼的含義(觀察):這個原子性命題暗示,基於「同色連通塊合并」的圖像壓縮方案(如區域合并壓縮)在還原時,原則上損失的不只是細節,而是幾何結構信息。只有精確保留每個格點的位置-值配對,才能在超解析度重建時完整利用因果場信息。
6. 因果場延伸作為超解析度算法框架
6.1 問題的重新定義
超解析度的標準定義是:給定低解析度圖像I_LR: Z² → C,生成高解析度圖像I_HR: (1/n)Z² → C,使I_HR在主觀視覺品質上更好。
在因果場框架下,超解析度被重新定義為:
定義(因果場延伸問題):給定連續因果場F的低密度採樣I_LR(格點間距為d),估算F並在格點間距為d/n的更高密度採樣格點上計算場值,得到I_HR,使I_HR ≈ F在(d/n)Z²上的採樣。
這個重新定義有幾個關鍵差異:
第一,目標是忠實還原F,而非在主觀視覺品質上最大化。第二,「細節」不是被生成的,而是被推算的——它們存在於F的連續結構中,只是在低密度採樣時未被捕捉。第三,算法的質量標準是「因果一致性」:高解析度格點的值,是否與其在因果場中的鄰居關係一致。
6.2 算法框架的核心操作
以最簡單的2×放大為例。設原始格點在Z²上,放大後格點在(1/2)Z²上。需要在以下三類新位置插入格點:
水平中間格點:在(i+0.5, j)位置,夾在(i,j)和(i+1,j)之間。新格點的奇偶類為par(2i+1, 2j) = (2i+1+2j) mod 2 = 1,屬白色(設j為偶數時)。其因果鄰居為(i,j)(黑)和(i+1,j)(黑)——兩個黑格決定一個新白格。
垂直中間格點:在(i, j+0.5)位置,夾在(i,j)和(i,j+1)之間。類似地,其值由上下兩個異色鄰居的因果函數決定。
對角中間格點:在(i+0.5, j+0.5)位置,夾在四個原始格點之間。其值由四個異色/同色鄰居共同決定,代表該2×2塊的「中心」因果值。
核心操作:
I_HR(i+0.5, j) = φ̂(I_LR(i,j), I_LR(i+1,j), context(i,j))
I_HR(i, j+0.5) = φ̂(I_LR(i,j), I_LR(i,j+1), context(i,j))
I_HR(i+0.5, j+0.5) = φ̂(I_LR(i,j), I_LR(i+1,j), I_LR(i,j+1), I_LR(i+1,j+1), context(i,j))
其中φ̂是因果函數的估算,context(i,j)是局部上下文(攝影的物理模型參數,或心象畫的風格參數)。
對比現有方法:
雙三次插值:φ̂為固定的三次多項式,忽略context。在均勻場中(平坦塊內部)效果可接受,在高梯度邊界失效。
擴散模型超解析度:φ̂從訓練集的統計分佈中採樣,context被替換為統計先驗。結果忠實於訓練分佈,但不忠實於特定圖像的因果場F。
因果場延伸(本框架):φ̂從F的局部因果結構估算,context包含攝影的物理模型或心象畫的語意邏輯。結果忠實於F,代價是需要估算φ。
6.3 計算的分層結構
由第5節關於同色塊的分析,算法的計算代價在空間上是不均勻的:
同色塊內部(低因果梯度區域):因果函數φ在此區域接近恆等函數(梯度≈0),新格點的值≈鄰居的平均值。計算代價低,可以用簡單方法處理。在攝影中,對應均勻光照的平坦表面;在心象畫中,對應均勻填色的色塊內部。
跨奇偶邊界(高因果梯度區域):因果函數φ在此區域有顯著的梯度,新格點的值需要精確的因果推算。計算代價高,這是因果場延伸算法的真正核心。在攝影中,對應物體邊緣、紋理細節、反射高光;在心象畫中,對應線稿邊緣、筆觸細節、材質過渡。
算法策略建議:超解析度算法應先識別同色塊邊界(高梯度位置),集中計算資源在這些位置的因果推算,塊內部使用低代價方案。這是計算效率與重建精度的最優分配。
7. 與現有超解析度技術的對比
7.1 傳統插值方法的因果場詮釋
雙線性、雙三次等插值方法在因果場框架下,等同於使用了一個「平滑先驗的因果函數」:假設F在格點周圍是低階多項式(線性或三次)。
這個假設對低梯度區域(同色塊內部)是相當好的近似——F_phys和F_sem在平坦區域確實接近線性。但對高梯度區域(邊界),多項式近似嚴重低估了因果函數的實際梯度,導致放大後邊緣模糊。
從因果場角度看,傳統插值的根本問題是:它對所有格點使用相同的因果函數(固定多項式),而無視局部因果結構的差異性。
7.2 GAN與擴散模型的因果場詮釋
GAN和擴散模型在因果場框架下,等同於使用了「統計先驗的因果函數」:從訓練集中學習「什麼樣的細節在統計上最合理」,並生成符合這個統計先驗的高頻內容。
這個方法能生成視覺上令人信服的細節,因為統計先驗確實捕捉到了真實圖像中因果函數的統計規律性。但它有一個根本性的不忠實性:生成的細節是統計上最可能的,不一定是特定圖像的因果場F所要求的。
這正是MSC的機制:生成的高頻細節RSCD=1——在工作解析度下語意清晰,但不具有多尺度的因果一致性。再放大一層,生成的「細節」因為不是從F的真實因果結構推算出來的,無法繼續維持語意閉包。
7.3 可逆縮放(IRN)的因果場詮釋
IRN(可逆縮放網絡)在因果場框架下最接近本文的精神,但有一個關鍵差異:IRN通過引入潛在變量z來保存縮小時丟失的高頻信息,放大時從z還原。這是一個信息論上嚴謹的方案,但其設計是針對「配對縮放-還原」任務(先縮小同一張圖再放大),而非從單張低解析度圖像反推因果場。
在因果場框架下,IRN的z可以被詮釋為:F的高頻分量在低密度採樣中損失的信息的編碼。因果場延伸方法的主張是:在有充分的因果先驗的情況下,z的信息原則上可以從因果場的局部結構推算出來,不需要顯式編碼——因為F的因果律已經決定了高頻分量的值。
這個主張是本文框架最強的理論聲索,其充分性依賴於:因果先驗的精確程度(攝影的物理模型多精確,心象畫的語意模型多精確)。
8. 與T₃框架的整合
8.1 ∂D_s的因果場詮釋
T₃·v0.2中定義的空間通道∂D_s(高頻空間信息的豐富化),在因果場框架下獲得了精確的物理詮釋:
∂D_s = F在格點空間上的高頻因果梯度的密度
具體而言,∂D_s可以被量化為:
∂D_s(I) = ∫_{Z²} |∇F̂(p)| dp
其中∇F̂是從I的因果場估算中計算的場梯度,積分在所有格點上進行。
這個定義把∂D_s從一個感知現象(「感覺很精細」)轉化為了一個有因果場根基的可計算量。∂D_s高,等同於F在當前採樣密度下的高頻結構被充分捕捉。
8.2 RSCD的因果場精確意義
T₃補論三定義的RSCD(遞歸語意閉包深度),在因果場框架下獲得了精確的動力學意義:
RSCD = 因果場F的多尺度自洽深度
具體而言,RSCD描述的是:對圖像I所對應的因果場F,在連續縮放過程中,F的因果結構(因果函數φ的形式)在多少個尺度層級上保持一致性。
高RSCD = F在多個尺度層級上都具有確定的因果結構,因此無論縮放到哪個層次,都能找到有意義的因果關係。
低RSCD = F的因果結構只在宏觀尺度成立,在微觀尺度退化為統計噪聲(MSC的發生)。
人類極限藝術家的RSCD:杜勒銅版畫的RSCD高,正是因為藝術家在每個縮放層次都維持了明確的語意因果結構(每條線代表確定的輪廓,每個點代表確定的材質)。AI生成圖的RSCD低,正是因為擴散模型只在宏觀尺度保持了因果結構,微觀尺度由統計噪聲填充。
8.3 MSC的因果場失敗模式
MSC在因果場框架下的精確描述是:
MSC = 因果場F的局部估算在高放大倍率下崩塌為統計噪聲
當AI擴散模型生成超解析度圖像時,它用統計先驗替代了真實的因果函數φ。在工作解析度下,統計先驗足夠接近真實φ,視覺上看不出差異(RSCD=1在工作尺度成立)。但在放大後,統計先驗生成的「細節」因為沒有真實因果結構支撐,無法維持更細尺度的因果一致性——MSC發生,視覺上表現為「顆粒感」或「風格語法退格」。
因果場延伸框架的正確實現,在理論上能完全避免MSC:因為每個新格點的值,都是從真實的因果場F推算的,而非從統計分佈採樣的。
8.4 視覺底空間VSB的因果場聯繫
T₃·v0.2提出的視覺底空間命題猜想(VSB)——存在一個不可直接觀測的視覺底空間,使∂D_s和∂D_m都是其投影——在因果場框架下獲得了一個初步的候選結構:
V_base = 連續因果場F的全局結構空間
∂D_s(空間通道)是F在高頻梯度維度的投影;∂D_m(語意通道)是F在語意閉包一致性維度的投影;RSCD是F在多尺度自洽深度維度的測量。
這三個量都是F的不同側面,而F是它們的「底空間」。F不可直接觀測(我們只能觀測到它在離散格點上的採樣I),只能通過I間接推算——這符合VSB猜想關於底空間不可直接量化的主張。
此處的對應是啟發性的,尚非正式的範疇同構。正式建立V_base = F的空間這個等同,需要給出兩邊的保結構映射並驗證其一致性,本文不提供。
9. 開放問題
本文提出的框架引出若干需後續研究回答的開放問題:
問題一(攝影的因果函數估算):在給定低解析度圖像的情況下,如何從局部像素值精確估算物理光因果函數φ_phys?現有的基於物理的圖像重建方法(Intrinsic Image Decomposition等)提供了部分工具,但它們通常需要額外的場景幾何信息。如何在純視覺輸入的條件下估算φ_phys,是一個開放的逆問題。
問題二(心象畫的語意因果函數學習):φ_sem是依賴藝術家個體風格的函數。如何從單個藝術家的有限畫作樣本中學習其φ_sem,使其可以用於超解析度重建?這是一個結合風格遷移(Style Transfer)和因果推斷的交叉問題。
問題三(RSCD與因果場一致性的關係):本文主張RSCD = F的多尺度自洽深度,但這個等同目前是定性的。如何給出RSCD的因果場精確定義,並在量化上連接T₃補論三的形式化定義(基於語意閉包度C(I,k)的逐層計算),是一個需要形式化工作的開放問題。
問題四(二部圖結構在高維度的推廣):本文的框架建立在2D圖像的棋盤奇偶二部圖結構上。如何推廣到三維體素圖像(CT/MRI重建)?在三維立方格Z³的六連通情況下,對應的二部結構在《球形貪吃蛇問題》中已有詳細分析,但其在三維超解析度中的因果場詮釋尚未建立。
問題五(因果場延伸與IRN的統一):本文主張因果場延伸原則上不需要顯式的潛在變量z(IRN的方案),因為因果先驗包含了足夠的信息。但這個主張的充分性需要在具體的因果函數類型下被驗證。是否存在一個統一框架,使IRN的z和因果場延伸的φ̂是同一個信息的不同表示?這個統一如果成立,將為兩個方法的混合優化提供理論基礎。
10. 哲學結語
一張圖像是世界或心靈向格點的一次妥協。世界是連續的,格點是離散的,採樣是有損的。但損失的不是隨機的——它是有結構的,因為世界的因果律(對攝影)和心靈的視覺邏輯(對心象畫)都是確定的,都是可以追蹤的。
超解析度的問題,說到底,是一個關於「你相信這個世界是因果的嗎」的問題。相信,你就可以從有限的採樣推算因果場,補回那些因格點密度不足而未被捕捉的連續細節。不相信,你只能插值(假裝細節是平均的)或幻覺(假裝細節是統計的)。
棋盤奇偶結構不只是一個計算技巧。它說的是:在任何離散表徵中,信息從不是孤立的——每個格點的值,都在和它的鄰居對話,都是更大因果結構的局部採樣。黑格與白格的交替,是因果鏈不允許跳躍的形式化表達:信息要傳播,必須走過去,必須經過那個異色的中間節點。
而位置與色素的不可分,說的是另一件事:一個像素不只是一個顏色,它是在特定位置上的一個顏色。把兩者分開,就是把存在從它所在的地方抽離出來——剩下的只是一個沒有座標的數字,而不再是世界(或心靈)在那個位置上的一句陳述。
採樣是有損的,但損失是可追的。格點的貧窮,是連續統的債;而連續統的規律,是還清這個債的憑據。
論文性質:T₃系列補論四,理論框架,部分命題為猜想層級(標記於文中)
前序文件:T₃·v0.1 / T₃·v0.2 / T₃補論三(RSCD與MSC)/ 《球形貪吃蛇問題》/ 《一個點能否填滿一塊體積》
版本:v0.1
作者:Neo.K (許筌崴),EveMissLab (一言諾科技有限公司),台灣
理論的邊界,就是下一個問題的起點。