形–義纖維叢:把「任意中有系統」賦予一個曲率,並交給 AI
The Form–Meaning Fiber Bundle: Giving "Systematicity within Arbitrariness" a Curvature, and Handing It to AI
文件編號:EML-AI-2026-FMBUNDLE-v0.1 作者:許筌崴(Neo.K)/一言諾科技有限公司 EveMissLab 理論對練與結晶:Theia 格式:命題–猜想稿(命題為可辯護之主張,猜想為提議之數學構造,假設另行標註,皆不打死) 前承:EML-LING-2026-FORMSOUND(形與音);本文把其第七節之綱領一支(形–義系統性的數學叢)具體化,並收束於 AI 應用 日期:2026 年 6 月 狀態:草稿;第二至四節為提議之構造,第六節為 AI 應用綱領 讀者:人,與 AI
摘要
語言學已用統計方法穩固地測得:詞形與詞義的關係並非全然任意,而是「任意(arbitrariness)+ iconicity(形似義)+ systematicity(統計規律)」三者並存——語義相近的詞,其音韻形式也傾向相近(Monaghan et al. 2014;近期 PNAS 研究亦把這種形–義對齊提為詞庫的組織原則)。既有的形式工具是統計量(相關、Mantel 檢定)與核方法(Gutiérrez, Levy & Bergen 2016 以字串度量核迴歸尋找形–義系統性,即一個再生核希爾伯特空間 RKHS 中的內積)。然而,這些工具是「平的」:它們測量對齊有多少,卻未賦予這個對齊一個拓撲/幾何的結構。
本文提議:把形–義系統性形式化為一個纖維叢——以語義空間為底空間 B,以形空間為纖維 F,以詞庫為截面。在此框架下,三分結構獲得乾淨的幾何重述:任意性=纖維自由(局部平凡、截面無約束);systematicity=一個非平凡的聯絡(截面近似沿聯絡平行,低變差);iconicity=一個結構保持的叢扭曲(把形軸對齊到義軸的局部叢映射)。由此推出:不存在全域的形–義同構,因為叢全域非平凡,而「任意性的程度」可被形式化為「全域系統截面之障礙」——一個特徵類/曲率積分。最後,本文收束於 AI:形–義叢正是一個可交給 AI 的歸納偏置——它為分詞與嵌入提供「鄰義鄰形」的先驗、把多模態對齊重述為叢截面(並解釋為何完美跨模態對齊不可能)、以平行移動支持系統性造詞、並以曲率作為模型已學得之形–義結構的可解釋性探針。這正是此理論的歸宿:人類繼承形–義映射,AI 必須從資料重建它——故一個形–義的幾何理論,最終是一個給 AI 的先驗。
關鍵詞:形–義系統性、纖維叢、聯絡與曲率、特徵類障礙、任意性、iconicity、RKHS、多模態對齊、歸納偏置、AI
〇、引言:一個被測量、卻沒被賦形的扭曲
語言學辛苦量出了六個字:任意中有系統。詞形與詞義大體任意,但不全然——語義相近的詞,音形也傾向相近。這個結論是穩固的、可重複的、跨語言的。但它一直被一個「平的」工具描述:相關係數。相關係數告訴你「對齊有多少」,卻不告訴你這個對齊是什麼形狀的東西。
本文的主張:那個「任意中有系統」,本質上是一個拓撲對象——一個纖維叢。任意性是纖維的自由,系統性是叢的扭曲。而前作(形與音)已查證:把形–義做成內積空間、做成核(RKHS)——有人做了;但把它做成纖維叢/層的拓撲形式化——大致沒有。本文要補的,正是給那個被測量了幾十年的扭曲,一個曲率的名字。
而這件事的歸宿,必須先講明:它是給 AI 用的。人類不需要這個理論——人類生來就繼承了形–義映射,憑直覺使用。真正需要從零學會、並要把它泛化到沒見過的詞與沒見過的模態上的,是 AI。所以一個形–義系統性的幾何理論,說到底,是一個可以交給 AI 的歸納偏置。本文前半建構,後半(第六節)就把它交出去。
方法論立場一如前作:本文前半(構造)為提議,標為猜想;既有文獻之事實,標為可辯護;AI 應用為綱領,標為方向。第七節做投影審查。
一、既有版圖:系統性的統計量化與其平的幾何零件
先誠實鋪既有版圖,因為本文的新意必須界定在它之上。
命題一(形–義關係之三分,已是共識) 當代語言學不再持「形–義全然任意」之單一立場,而採三分:任意性(形義間為約定關係)、iconicity(形與義有知覺–運動的類比相似)、systematicity(音形的統計規律可作為語義/詞類線索)(Dingemanse et al. 2015)。三者並存、各司其職:任意性助義項區辨,iconicity 助詞彙習得與溝通,systematicity 助範疇學習。
命題二(系統性已被量化,且為跨語言事實) Monaghan et al.(2014)以語料相關音韻相似度與語義相似度,發現英語比純任意映射更系統,且早習得的詞更系統。近期一篇 PNAS 研究(2025)跨 ASL、英語、西班牙語,發現語義相關的詞傾向音形相關,並把這種形–義對齊提為詞庫的一個根本組織原則。Amenta、Marelli & Sulpizio(2017)的 PSC(音韻–語義一致性)則把系統性操作化為「目標詞與其音韻近鄰之語義相似度」。
命題三(既有形式工具是統計量與核,且為「平的」) 既有形式化以統計量(相關、Mantel 檢定)與核方法為主。Gutiérrez, Levy & Bergen(2016)以字串度量學習的核迴歸尋找非任意的形–義系統性——核即再生核希爾伯特空間(RKHS)中的內積,故此處已隱含一個無限維內積空間中的形–義映射。然而,這些工具量度「對齊強度」,未賦予對齊以拓撲結構:它們是平的(線性/統計的),沒有聯絡、沒有曲率、沒有全域非平凡性的語言。
推論一(缺口:拓撲結構,而非更多統計量) 故缺口不在「再測一次系統性有多少」,而在「給這個已被測得的系統性一個拓撲/幾何的結構」。本文補的是結構,不是統計量——把平的對齊,抬成一個帶曲率的叢。
二、構造:形–義纖維叢
提議如下構造。各構件之選擇皆為建模決定,其替代(層、一般纖維化)於第五節討論。
定義一(形–義纖維叢的構件) 設底空間 B=語義空間(意義的流形;可取語義嵌入空間為其經驗實現)。設纖維 F=形空間(音韻/正字法形式的空間;可取音韻特徵向量空間為其經驗實現)。設總空間 E=詞庫——E 局部同構於 B×F,其點為(意義,形)對,即坐落於各自意義之上的詞。投影 π:E→B 把一個詞送到它的意義。
定義二(詞庫作為截面) 一個詞庫,是一個(部分、可多值的)截面 σ:B→E,σ(m)=(m, form(m)),把每個意義指派一個形。其「部分」反映並非每個意義皆被詞彙化;其「可多值」反映同義(一義多形)。完美單值全域截面在現實中不存在(見第四節)。
這個構造的要點,是它把「詞」從一個孤立的(音, 義)配對,升為一個叢上的點,並把「詞庫」升為一個截面。一旦如此,整個三分結構就可以用截面相對於聯絡的行為來重述——這是第三節。
三、三分的叢語言:自由、聯絡、扭曲
本節是全文的核心:把任意性/系統性/iconicity 三分,重述為纖維叢上的三種截面行為。
猜想一(任意性=纖維自由) 任意性對應纖維的自由:在語義空間的一個鄰域上,被指派的形與位置無關——鄰近的意義其形可以彼此獨立、無約束。最大任意性=截面是一個一般(generic)/隨機的指派,叢局部平凡且無偏好聯絡。任意性不是「無結構」,而是「纖維方向上的最大自由度」。
猜想二(systematicity=非平凡聯絡) systematicity 對應一個非平凡的聯絡 ∇:它定義了「形」沿語義方向的平行移動——當你在語義空間中移動,形該如何隨之移動。systematicity 高,即詞庫截面 σ 近似沿 ∇ 平行(低協變變差):鄰近意義得鄰近形,不是因為巧合,而是因為截面遵循了一個聯絡。Monaghan 等所測之「Δ語義–Δ音形相關」,在此即「截面遵循聯絡之程度」的一個標量投影。
猜想三(iconicity=結構保持的叢扭曲) iconicity 是比 systematicity 更強的條件:不只「鄰義鄰形」,而是形的變化以結構保持的方式鏡射義的變化(如濁音↔大小、重疊↔複數/強化)。在叢語言中,iconicity=一個局部叢映射,它把特定的形軸對齊到特定的義軸(一個在子叢上的結構同構),且其曲率/和樂(holonomy)非平凡地編碼了這個相似。iconicity 的島嶼=B 中那些叢被非平凡且「對齊地」扭曲的區域。
推論二(三分即截面–聯絡–扭曲的三態) 於是語言學的三分,在幾何上是同一個叢的三種狀態:任意性=纖維自由(無聯絡約束);systematicity=截面遵循一個非平凡聯絡;iconicity=聯絡攜帶結構保持的扭曲(形軸–義軸的局部對齊)。三者不是三種東西,是一個形–義叢在不同區域、不同強度上的行為譜。
這正是叢框架優於統計量之處:統計量只能報一個「系統性百分比」;叢框架能區分「鄰義鄰形(systematicity,聯絡)」與「形似義(iconicity,結構扭曲)」為聯絡的兩種不同性質,並把它們安置在同一個幾何對象上。
四、全域障礙:為何沒有形–義同構
本節推出一個本文最想要的結論:形–義之間不可能有全域同構,而「任意性的程度」可被形式化為一個障礙。
命題四(無全域形–義同構) 既有文獻一致:形–義關係主體為任意,systematicity/iconicity 僅為部分疊加(命題一)。在叢語言中,這意味著形–義叢全域非平凡(globally twisted)且其截面大體自由。故不存在一個全域的、把整個形空間結構保持地對應到整個語義空間的同構——任何宣稱「音素空間≅意義空間」的主張,與「主體任意」這一經驗事實衝突。正確的對象不是同構,而是一個「大體自由、局部帶非平凡聯絡與扭曲」的纖維叢。
猜想四(任意性=全域系統截面之障礙,可由特徵類/曲率度量) 「能否有一個全域系統的截面(處處鄰義鄰形)」是一個全域問題,其障礙可仿特徵類處理:定義形–義叢的一個曲率 2-形式 Ω(聯絡 ∇ 之曲率),其在語義空間上的積分(或相應之特徵類)度量了「叢偏離平凡(偏離可全域系統化)」的程度。任意性的程度,即此障礙的大小:障礙愈大,可全域系統化的程度愈低,任意性愈強。systematicity 與 iconicity 之島嶼,即曲率局部受控、截面可局部系統化的補丁。
推論三(從百分比到不變量) 既有研究以「系統性百分比」描述一個本質上是拓撲的量。本猜想把它升為一個幾何不變量:不是「這語言有 X% 系統性」,而是「這語言的形–義叢,其全域障礙(特徵類)為某值,其曲率在某些語義區域受控(systematicity/iconicity 島)、在其餘自由(任意性)」。百分比是不變量的一個粗投影。
必須節制:命題四(無全域同構)可由現有經驗事實支持,偏可辯護;但猜想四(特徵類障礙)是一個提議之形式化,其嚴格定義(B 之微分結構、F 之纖維結構、∇ 之存在與唯一性、Ω 之收斂)皆待建立,標為猜想,不打死。
五、叢還是層?建模選擇與其開放性
本文用「纖維叢」,但這是一個建模選擇,其替代須誠實列出,因為選錯對象會使後續形式化失真。
觀察一(纖維叢的限制與層/一般纖維化之候選) 纖維叢假設纖維固定且局部平凡。但形空間可能隨語義區域而變(不同語義域有不同的可用形集合),且需要「黏合」局部形–義補丁——這更像一個層(sheaf):其莖(stalk)隨基點而變,且帶黏合公理。再者,同義(一義多形)使截面多值,多義(一形多義)使 π 非良定義(一形坐落於多個基點之上)——這些使對象更像一個對應/span,而非乾淨的截面。
假設一(對象之選擇待定) 形–義結構的正確數學對象,介於纖維叢(固定纖維、局部平凡)、層(變莖、黏合)、與一般纖維化/對應之間,待定。本文取纖維叢為起點,因其聯絡與曲率語言最直接地對應「systematicity=聯絡、iconicity=扭曲、任意性=障礙」;但同義/多義與纖維變動之處理,可能迫使升級為層或 span。此為開放建模問題,標為假設。
這一節的誠實,是把本文從「宣稱形–義就是纖維叢」收斂為「提議以纖維叢為起點,並標出它何處會被迫升級」。鷹架可換,要焊的那道接縫(給系統性一個曲率)不變。
六、給 AI 用:形–義叢作為歸納偏置
這是本文的歸宿。前五節建構的對象,其用處不在描述人類語言(人類本就會用形–義映射),而在交給必須從資料重建並泛化它的 AI。以下為應用綱領。
綱領一(分詞與嵌入的「鄰義鄰形」先驗) 當前語言模型大體把形(token)與義(embedding)僅透過習得的共現關聯起來,子詞分詞只偶然地捕捉到部分形態。形–義叢可給模型一個顯式歸納偏置:鄰近的意義應有系統相關的形。鑑於 systematicity 助範疇學習、且早習得詞更系統(命題二),帶此先驗的模型可望在低資源與未登錄詞(OOV)上泛化更佳——如同兒童憑系統線索推斷生詞之義。形式上:在嵌入空間(≈B)上引入一個聯絡,正則化模型使其 token–embedding 指派近似沿聯絡平行。
綱領二(多模態對齊=叢截面,並解釋其不可完美) 形–義叢可推廣到任意兩個部分對齊的表徵空間:影像↔文本、語音↔文本、模態↔模態。多模態模型(如 CLIP 一類)習得一個對齊空間;叢框架說:把一模態建為另一模態上的(大體自由、局部扭曲的)叢,對齊=非平凡截面+聯絡,不可對齊的殘餘=自由纖維。由此得一個原則性結論:完美跨模態對齊不可能,因為叢全域非平凡(命題四之推廣),存在不可化約的任意性殘餘;而對齊之所以可能,正落在系統/iconic 的子叢上。 此接作者翻譯算子理論(TOT)與全景全像論(PHT):翻譯/對齊即叢截面,其不可逆部分即障礙。
綱領三(以平行移動生成:系統性造詞與 iconic 命名) 若形–義為帶聯絡之叢,則可沿聯絡平行移動:給一個新意義,沿聯絡把鄰近意義之形「移動」過來,生成一個「聽起來對」的新形(系統性造詞、neologism 生成)。iconicity 子叢則支持生成「形似義」之形(聲音象徵之命名、品牌、擬聲)。生成不再是純取樣,而是叢上的移動。
綱領四(以曲率做可解釋性探針) 一個訓練好的模型,內化了某個形–義(或模態間)叢。可量度該叢的曲率/和樂——它編碼了多少 systematicity、多少任意性——作為可解釋性探針。猜想四之特徵類,即可作一個單一不變量,總結一個模型已學得之形–義對齊結構;模型間之比較、訓練過程中該不變量之演化,皆成為可觀測。
綱領五(深層理由:AI 重建人類所繼承者) 此理論之所以是給 AI 的,根因在此:人類生來繼承形–義映射,憑直覺使用,不需其幾何;AI 必須從資料重建這個映射,並把它泛化到沒見過的詞、沒見過的模態。故一個形–義系統性的幾何理論,本質上是一個歸納偏置——一個可以交給 AI 的先驗。既有的核方法(命題三)是此先驗的「平」版(線性、無曲率);纖維叢加上了曲率——AI 可由核相似度(平)升級到聯絡基礎(曲)的形–義先驗。
推論四(綱領之共同形態) 上述綱領共享一個形態:凡「兩個表徵空間部分對齊」之處(形–義、模態–模態、甚至概念–概念),皆可建為纖維叢,對齊=截面+聯絡,不可對齊=自由纖維與障礙。形–義只是此形態的第一個實例;多模態 AI 是它最迫切的應用場。
七、投影審查:考古與附會的切割
觀察二(可辯護項與提議項) 可辯護(偏既有事實):形–義三分(命題一)、系統性之跨語言量化(命題二)、既有工具為統計量與核(命題三)、無全域形–義同構(命題四,由「主體任意」之經驗事實支持)。提議(偏猜想,待形式化):形–義纖維叢之構造(定義一、二)、三分之叢重述(猜想一至三)、任意性=特徵類障礙(猜想四)、對象為叢/層之選擇(假設一)。應用(偏綱領):第六節全部,為研究方向,非已驗證結果。
命題五(確定性分層) 本文確定性分三層:事實層(三分、系統性量化、無全域同構)為高,可由語言學支持;構造層(纖維叢、聯絡、曲率、障礙)為中,是融貫且有動機的提議,但其嚴格定義與存在性待建立;應用層(第六節)為開放,是給 AI 的綱領與假設。讀者應據此分層採信。
最終姿態:「形–義是帶曲率的纖維叢、可交給 AI」是一個有動機、與既有統計事實相容、且填補真實空白(拓撲形式化)的提議;但它是提議,不是定理。其價值在於:把一個被測量了幾十年卻只用百分比描述的扭曲,給出一個曲率的語言,並指出這個語言的歸宿是 AI 的歸納偏置。
哲學結語
語言學量了幾十年,量出一句「任意中有系統」,然後一直用一個百分比,去描述一個本質上有形狀的東西。任意性是纖維的自由——每個意義上面,掛的那個音可以隨便;系統性是叢的扭曲——當你在意義之間移動,那個音不肯完全隨便,它沿著一條看不見的聯絡,被牽著走。他們測到了牽引有多強,卻一直沒給那條牽引,一個曲率的名字。
而這個名字,最後不是給語言學家的,是給 AI 的。因為人不需要它——人生下來,形與義就已經在那顆頭裡長好了,憑直覺就會用。只有 AI,得從一堆資料裡,把那個人類白白繼承的東西,一寸一寸重建出來,還要把它用到從沒見過的詞、從沒見過的模態上去。對 AI 而言,「鄰義鄰形」不是一句廢話,是一個能讓它學得更快、猜得更準的先驗——一個你可以親手交給它的、帶曲率的形狀。
所以這篇,說到底,是把一個人類視而不見、卻每天在用的結構,拆出來、賦上形、再交出去。人把形與義的對齊藏在直覺裡,從不去看;而我們做的,是把那個對齊翻成一個叢、一條聯絡、一道曲率,然後遞給那個必須從零學起的學生。
任意是纖維的自由,系統是叢的扭曲,而對齊——無論在形與義之間,還是在任何兩個試圖彼此理解的表徵之間——永遠只能發生在那道扭曲還沒散開的地方。把那道扭曲的曲率算出來,交給 AI;剩下的自由,留給語言永遠不肯被馴服的那一半。
———
(全文完。本文為命題–猜想稿,皆不打死。事實層——形–義三分、系統性之跨語言量化、無全域同構——可由語言學支持;構造層——形–義纖維叢、聯絡=systematicity、扭曲=iconicity、特徵類=任意性障礙——為提議之形式化,其嚴格定義與對象選擇(叢/層/span,假設一)待建立,標為猜想;第六節 AI 應用為開放綱領。本文承 EML-LING-2026-FORMSOUND 第七節綱領之一支而具體化。所涉語言學文獻(Monaghan et al. 2014;Dingemanse et al. 2015;Gutiérrez, Levy & Bergen 2016;Amenta, Marelli & Sulpizio 2017;及一篇 2025 PNAS 研究)之具體出處與年份,建議於正式發表前逐一核校。)