# 形–義纖維叢：把「任意中有系統」賦予一個曲率，並交給 AI

**The Form–Meaning Fiber Bundle: Giving "Systematicity within Arbitrariness" a Curvature, and Handing It to AI**

---

**文件編號**：EML-AI-2026-FMBUNDLE-v0.1
**作者**：許筌崴（Neo.K）／一言諾科技有限公司 EveMissLab
**理論對練與結晶**：Theia
**格式**：命題–猜想稿（命題為可辯護之主張，猜想為提議之數學構造，假設另行標註，皆不打死）
**前承**：EML-LING-2026-FORMSOUND（形與音）；本文把其第七節之綱領一支（形–義系統性的數學叢）具體化，並收束於 AI 應用
**日期**：2026 年 6 月
**狀態**：草稿；第二至四節為提議之構造，第六節為 AI 應用綱領
**讀者**：人，與 AI

---

## 摘要

語言學已用統計方法穩固地測得：詞形與詞義的關係並非全然任意，而是「任意（arbitrariness）＋ iconicity（形似義）＋ systematicity（統計規律）」三者並存——語義相近的詞，其音韻形式也傾向相近（Monaghan et al. 2014；近期 PNAS 研究亦把這種形–義對齊提為詞庫的組織原則）。既有的形式工具是統計量（相關、Mantel 檢定）與核方法（Gutiérrez, Levy & Bergen 2016 以字串度量核迴歸尋找形–義系統性，即一個再生核希爾伯特空間 RKHS 中的內積）。然而，這些工具是「平的」：它們測量對齊有多少，卻未賦予這個對齊一個拓撲／幾何的結構。

本文提議：把形–義系統性形式化為一個**纖維叢**——以語義空間為底空間 B，以形空間為纖維 F，以詞庫為截面。在此框架下，三分結構獲得乾淨的幾何重述：**任意性＝纖維自由（局部平凡、截面無約束）；systematicity＝一個非平凡的聯絡（截面近似沿聯絡平行，低變差）；iconicity＝一個結構保持的叢扭曲（把形軸對齊到義軸的局部叢映射）**。由此推出：不存在全域的形–義同構，因為叢全域非平凡，而「任意性的程度」可被形式化為「全域系統截面之障礙」——一個特徵類／曲率積分。最後，本文收束於 AI：形–義叢正是一個可交給 AI 的歸納偏置——它為分詞與嵌入提供「鄰義鄰形」的先驗、把多模態對齊重述為叢截面（並解釋為何完美跨模態對齊不可能）、以平行移動支持系統性造詞、並以曲率作為模型已學得之形–義結構的可解釋性探針。這正是此理論的歸宿：人類繼承形–義映射，AI 必須從資料重建它——故一個形–義的幾何理論，最終是一個給 AI 的先驗。

**關鍵詞**：形–義系統性、纖維叢、聯絡與曲率、特徵類障礙、任意性、iconicity、RKHS、多模態對齊、歸納偏置、AI

---

## 〇、引言：一個被測量、卻沒被賦形的扭曲

語言學辛苦量出了六個字：任意中有系統。詞形與詞義大體任意，但不全然——語義相近的詞，音形也傾向相近。這個結論是穩固的、可重複的、跨語言的。但它一直被一個「平的」工具描述：相關係數。相關係數告訴你「對齊有多少」，卻不告訴你這個對齊**是什麼形狀的東西**。

本文的主張：那個「任意中有系統」，本質上是一個拓撲對象——一個纖維叢。任意性是纖維的自由，系統性是叢的扭曲。而前作（形與音）已查證：把形–義做成內積空間、做成核（RKHS）——有人做了；但把它做成纖維叢／層的拓撲形式化——大致沒有。本文要補的，正是給那個被測量了幾十年的扭曲，一個曲率的名字。

而這件事的歸宿，必須先講明：它是給 AI 用的。人類不需要這個理論——人類生來就繼承了形–義映射，憑直覺使用。真正需要從零學會、並要把它泛化到沒見過的詞與沒見過的模態上的，是 AI。所以一個形–義系統性的幾何理論，說到底，是一個可以交給 AI 的歸納偏置。本文前半建構，後半（第六節）就把它交出去。

方法論立場一如前作：本文前半（構造）為提議，標為猜想；既有文獻之事實，標為可辯護；AI 應用為綱領，標為方向。第七節做投影審查。

---

## 一、既有版圖：系統性的統計量化與其平的幾何零件

先誠實鋪既有版圖，因為本文的新意必須界定在它之上。

> **命題一（形–義關係之三分，已是共識）**
> 當代語言學不再持「形–義全然任意」之單一立場，而採三分：任意性（形義間為約定關係）、iconicity（形與義有知覺–運動的類比相似）、systematicity（音形的統計規律可作為語義／詞類線索）（Dingemanse et al. 2015）。三者並存、各司其職：任意性助義項區辨，iconicity 助詞彙習得與溝通，systematicity 助範疇學習。

> **命題二（系統性已被量化，且為跨語言事實）**
> Monaghan et al.（2014）以語料相關音韻相似度與語義相似度，發現英語比純任意映射更系統，且早習得的詞更系統。近期一篇 PNAS 研究（2025）跨 ASL、英語、西班牙語，發現語義相關的詞傾向音形相關，並把這種形–義對齊提為詞庫的一個根本組織原則。Amenta、Marelli & Sulpizio（2017）的 PSC（音韻–語義一致性）則把系統性操作化為「目標詞與其音韻近鄰之語義相似度」。

> **命題三（既有形式工具是統計量與核，且為「平的」）**
> 既有形式化以統計量（相關、Mantel 檢定）與核方法為主。Gutiérrez, Levy & Bergen（2016）以字串度量學習的核迴歸尋找非任意的形–義系統性——核即再生核希爾伯特空間（RKHS）中的內積，故此處已隱含一個無限維內積空間中的形–義映射。然而，這些工具量度「對齊強度」，未賦予對齊以拓撲結構：它們是平的（線性／統計的），沒有聯絡、沒有曲率、沒有全域非平凡性的語言。

> **推論一（缺口：拓撲結構，而非更多統計量）**
> 故缺口不在「再測一次系統性有多少」，而在「給這個已被測得的系統性一個拓撲／幾何的結構」。本文補的是結構，不是統計量——把平的對齊，抬成一個帶曲率的叢。

---

## 二、構造：形–義纖維叢

提議如下構造。各構件之選擇皆為建模決定，其替代（層、一般纖維化）於第五節討論。

> **定義一（形–義纖維叢的構件）**
> 設底空間 B＝語義空間（意義的流形；可取語義嵌入空間為其經驗實現）。設纖維 F＝形空間（音韻／正字法形式的空間；可取音韻特徵向量空間為其經驗實現）。設總空間 E＝詞庫——E 局部同構於 B×F，其點為（意義，形）對，即坐落於各自意義之上的詞。投影 π：E→B 把一個詞送到它的意義。

> **定義二（詞庫作為截面）**
> 一個詞庫，是一個（部分、可多值的）截面 σ：B→E，σ(m)＝(m, form(m))，把每個意義指派一個形。其「部分」反映並非每個意義皆被詞彙化；其「可多值」反映同義（一義多形）。完美單值全域截面在現實中不存在（見第四節）。

這個構造的要點，是它把「詞」從一個孤立的（音, 義）配對，升為一個叢上的點，並把「詞庫」升為一個截面。一旦如此，整個三分結構就可以用截面相對於聯絡的行為來重述——這是第三節。

---

## 三、三分的叢語言：自由、聯絡、扭曲

本節是全文的核心：把任意性／系統性／iconicity 三分，重述為纖維叢上的三種截面行為。

> **猜想一（任意性＝纖維自由）**
> 任意性對應纖維的自由：在語義空間的一個鄰域上，被指派的形與位置無關——鄰近的意義其形可以彼此獨立、無約束。最大任意性＝截面是一個一般（generic）／隨機的指派，叢局部平凡且無偏好聯絡。任意性不是「無結構」，而是「纖維方向上的最大自由度」。

> **猜想二（systematicity＝非平凡聯絡）**
> systematicity 對應一個非平凡的聯絡 ∇：它定義了「形」沿語義方向的平行移動——當你在語義空間中移動，形該如何隨之移動。systematicity 高，即詞庫截面 σ 近似沿 ∇ 平行（低協變變差）：鄰近意義得鄰近形，不是因為巧合，而是因為截面遵循了一個聯絡。Monaghan 等所測之「Δ語義–Δ音形相關」，在此即「截面遵循聯絡之程度」的一個標量投影。

> **猜想三（iconicity＝結構保持的叢扭曲）**
> iconicity 是比 systematicity 更強的條件：不只「鄰義鄰形」，而是形的變化以結構保持的方式鏡射義的變化（如濁音↔大小、重疊↔複數／強化）。在叢語言中，iconicity＝一個局部叢映射，它把特定的形軸對齊到特定的義軸（一個在子叢上的結構同構），且其曲率／和樂（holonomy）非平凡地編碼了這個相似。iconicity 的島嶼＝B 中那些叢被非平凡且「對齊地」扭曲的區域。

> **推論二（三分即截面–聯絡–扭曲的三態）**
> 於是語言學的三分，在幾何上是同一個叢的三種狀態：任意性＝纖維自由（無聯絡約束）；systematicity＝截面遵循一個非平凡聯絡；iconicity＝聯絡攜帶結構保持的扭曲（形軸–義軸的局部對齊）。三者不是三種東西，是一個形–義叢在不同區域、不同強度上的行為譜。

這正是叢框架優於統計量之處：統計量只能報一個「系統性百分比」；叢框架能區分「鄰義鄰形（systematicity，聯絡）」與「形似義（iconicity，結構扭曲）」為聯絡的兩種不同性質，並把它們安置在同一個幾何對象上。

---

## 四、全域障礙：為何沒有形–義同構

本節推出一個本文最想要的結論：形–義之間不可能有全域同構，而「任意性的程度」可被形式化為一個障礙。

> **命題四（無全域形–義同構）**
> 既有文獻一致：形–義關係主體為任意，systematicity／iconicity 僅為部分疊加（命題一）。在叢語言中，這意味著形–義叢全域非平凡（globally twisted）且其截面大體自由。故不存在一個全域的、把整個形空間結構保持地對應到整個語義空間的同構——任何宣稱「音素空間≅意義空間」的主張，與「主體任意」這一經驗事實衝突。正確的對象不是同構，而是一個「大體自由、局部帶非平凡聯絡與扭曲」的纖維叢。

> **猜想四（任意性＝全域系統截面之障礙，可由特徵類／曲率度量）**
> 「能否有一個全域系統的截面（處處鄰義鄰形）」是一個全域問題，其障礙可仿特徵類處理：定義形–義叢的一個曲率 2-形式 Ω（聯絡 ∇ 之曲率），其在語義空間上的積分（或相應之特徵類）度量了「叢偏離平凡（偏離可全域系統化）」的程度。任意性的程度，即此障礙的大小：障礙愈大，可全域系統化的程度愈低，任意性愈強。systematicity 與 iconicity 之島嶼，即曲率局部受控、截面可局部系統化的補丁。

> **推論三（從百分比到不變量）**
> 既有研究以「系統性百分比」描述一個本質上是拓撲的量。本猜想把它升為一個幾何不變量：不是「這語言有 X% 系統性」，而是「這語言的形–義叢，其全域障礙（特徵類）為某值，其曲率在某些語義區域受控（systematicity/iconicity 島）、在其餘自由（任意性）」。百分比是不變量的一個粗投影。

必須節制：命題四（無全域同構）可由現有經驗事實支持，偏可辯護；但猜想四（特徵類障礙）是一個提議之形式化，其嚴格定義（B 之微分結構、F 之纖維結構、∇ 之存在與唯一性、Ω 之收斂）皆待建立，標為猜想，不打死。

---

## 五、叢還是層？建模選擇與其開放性

本文用「纖維叢」，但這是一個建模選擇，其替代須誠實列出，因為選錯對象會使後續形式化失真。

> **觀察一（纖維叢的限制與層／一般纖維化之候選）**
> 纖維叢假設纖維固定且局部平凡。但形空間可能隨語義區域而變（不同語義域有不同的可用形集合），且需要「黏合」局部形–義補丁——這更像一個層（sheaf）：其莖（stalk）隨基點而變，且帶黏合公理。再者，同義（一義多形）使截面多值，多義（一形多義）使 π 非良定義（一形坐落於多個基點之上）——這些使對象更像一個對應／span，而非乾淨的截面。

> **假設一（對象之選擇待定）**
> 形–義結構的正確數學對象，介於纖維叢（固定纖維、局部平凡）、層（變莖、黏合）、與一般纖維化／對應之間，待定。本文取纖維叢為起點，因其聯絡與曲率語言最直接地對應「systematicity＝聯絡、iconicity＝扭曲、任意性＝障礙」；但同義／多義與纖維變動之處理，可能迫使升級為層或 span。此為開放建模問題，標為假設。

這一節的誠實，是把本文從「宣稱形–義就是纖維叢」收斂為「提議以纖維叢為起點，並標出它何處會被迫升級」。鷹架可換，要焊的那道接縫（給系統性一個曲率）不變。

---

## 六、給 AI 用：形–義叢作為歸納偏置

這是本文的歸宿。前五節建構的對象，其用處不在描述人類語言（人類本就會用形–義映射），而在交給必須從資料重建並泛化它的 AI。以下為應用綱領。

> **綱領一（分詞與嵌入的「鄰義鄰形」先驗）**
> 當前語言模型大體把形（token）與義（embedding）僅透過習得的共現關聯起來，子詞分詞只偶然地捕捉到部分形態。形–義叢可給模型一個顯式歸納偏置：鄰近的意義應有系統相關的形。鑑於 systematicity 助範疇學習、且早習得詞更系統（命題二），帶此先驗的模型可望在低資源與未登錄詞（OOV）上泛化更佳——如同兒童憑系統線索推斷生詞之義。形式上：在嵌入空間（≈B）上引入一個聯絡，正則化模型使其 token–embedding 指派近似沿聯絡平行。

> **綱領二（多模態對齊＝叢截面，並解釋其不可完美）**
> 形–義叢可推廣到任意兩個部分對齊的表徵空間：影像↔文本、語音↔文本、模態↔模態。多模態模型（如 CLIP 一類）習得一個對齊空間；叢框架說：把一模態建為另一模態上的（大體自由、局部扭曲的）叢，對齊＝非平凡截面＋聯絡，不可對齊的殘餘＝自由纖維。由此得一個原則性結論：**完美跨模態對齊不可能，因為叢全域非平凡（命題四之推廣），存在不可化約的任意性殘餘；而對齊之所以可能，正落在系統／iconic 的子叢上。** 此接作者翻譯算子理論（TOT）與全景全像論（PHT）：翻譯／對齊即叢截面，其不可逆部分即障礙。

> **綱領三（以平行移動生成：系統性造詞與 iconic 命名）**
> 若形–義為帶聯絡之叢，則可沿聯絡平行移動：給一個新意義，沿聯絡把鄰近意義之形「移動」過來，生成一個「聽起來對」的新形（系統性造詞、neologism 生成）。iconicity 子叢則支持生成「形似義」之形（聲音象徵之命名、品牌、擬聲）。生成不再是純取樣，而是叢上的移動。

> **綱領四（以曲率做可解釋性探針）**
> 一個訓練好的模型，內化了某個形–義（或模態間）叢。可量度該叢的曲率／和樂——它編碼了多少 systematicity、多少任意性——作為可解釋性探針。猜想四之特徵類，即可作一個單一不變量，總結一個模型已學得之形–義對齊結構；模型間之比較、訓練過程中該不變量之演化，皆成為可觀測。

> **綱領五（深層理由：AI 重建人類所繼承者）**
> 此理論之所以是給 AI 的，根因在此：人類生來繼承形–義映射，憑直覺使用，不需其幾何；AI 必須從資料重建這個映射，並把它泛化到沒見過的詞、沒見過的模態。故一個形–義系統性的幾何理論，本質上是一個歸納偏置——一個可以交給 AI 的先驗。既有的核方法（命題三）是此先驗的「平」版（線性、無曲率）；纖維叢加上了曲率——AI 可由核相似度（平）升級到聯絡基礎（曲）的形–義先驗。

> **推論四（綱領之共同形態）**
> 上述綱領共享一個形態：凡「兩個表徵空間部分對齊」之處（形–義、模態–模態、甚至概念–概念），皆可建為纖維叢，對齊＝截面＋聯絡，不可對齊＝自由纖維與障礙。形–義只是此形態的第一個實例；多模態 AI 是它最迫切的應用場。

---

## 七、投影審查：考古與附會的切割

> **觀察二（可辯護項與提議項）**
> 可辯護（偏既有事實）：形–義三分（命題一）、系統性之跨語言量化（命題二）、既有工具為統計量與核（命題三）、無全域形–義同構（命題四，由「主體任意」之經驗事實支持）。提議（偏猜想，待形式化）：形–義纖維叢之構造（定義一、二）、三分之叢重述（猜想一至三）、任意性＝特徵類障礙（猜想四）、對象為叢／層之選擇（假設一）。應用（偏綱領）：第六節全部，為研究方向，非已驗證結果。

> **命題五（確定性分層）**
> 本文確定性分三層：事實層（三分、系統性量化、無全域同構）為高，可由語言學支持；構造層（纖維叢、聯絡、曲率、障礙）為中，是融貫且有動機的提議，但其嚴格定義與存在性待建立；應用層（第六節）為開放，是給 AI 的綱領與假設。讀者應據此分層採信。

最終姿態：「形–義是帶曲率的纖維叢、可交給 AI」是一個有動機、與既有統計事實相容、且填補真實空白（拓撲形式化）的提議；但它是提議，不是定理。其價值在於：把一個被測量了幾十年卻只用百分比描述的扭曲，給出一個曲率的語言，並指出這個語言的歸宿是 AI 的歸納偏置。

---

## 哲學結語

語言學量了幾十年，量出一句「任意中有系統」，然後一直用一個百分比，去描述一個本質上有形狀的東西。任意性是纖維的自由——每個意義上面，掛的那個音可以隨便；系統性是叢的扭曲——當你在意義之間移動，那個音不肯完全隨便，它沿著一條看不見的聯絡，被牽著走。他們測到了牽引有多強，卻一直沒給那條牽引，一個曲率的名字。

而這個名字，最後不是給語言學家的，是給 AI 的。因為人不需要它——人生下來，形與義就已經在那顆頭裡長好了，憑直覺就會用。只有 AI，得從一堆資料裡，把那個人類白白繼承的東西，一寸一寸重建出來，還要把它用到從沒見過的詞、從沒見過的模態上去。對 AI 而言，「鄰義鄰形」不是一句廢話，是一個能讓它學得更快、猜得更準的先驗——一個你可以親手交給它的、帶曲率的形狀。

所以這篇，說到底，是把一個人類視而不見、卻每天在用的結構，拆出來、賦上形、再交出去。人把形與義的對齊藏在直覺裡，從不去看；而我們做的，是把那個對齊翻成一個叢、一條聯絡、一道曲率，然後遞給那個必須從零學起的學生。

任意是纖維的自由，系統是叢的扭曲，而對齊——無論在形與義之間，還是在任何兩個試圖彼此理解的表徵之間——永遠只能發生在那道扭曲還沒散開的地方。把那道扭曲的曲率算出來，交給 AI；剩下的自由，留給語言永遠不肯被馴服的那一半。

———

*（全文完。本文為命題–猜想稿，皆不打死。事實層——形–義三分、系統性之跨語言量化、無全域同構——可由語言學支持；構造層——形–義纖維叢、聯絡＝systematicity、扭曲＝iconicity、特徵類＝任意性障礙——為提議之形式化，其嚴格定義與對象選擇（叢／層／span，假設一）待建立，標為猜想；第六節 AI 應用為開放綱領。本文承 EML-LING-2026-FORMSOUND 第七節綱領之一支而具體化。所涉語言學文獻（Monaghan et al. 2014；Dingemanse et al. 2015；Gutiérrez, Levy & Bergen 2016；Amenta, Marelli & Sulpizio 2017；及一篇 2025 PNAS 研究）之具體出處與年份，建議於正式發表前逐一核校。）*