符號使用的雙重機制：母語認知vs外語認知的動態不動點理論

Neo.K (許筌崴) EveMissLab (一言諾科技有限公司) 2026年5月

摘要

本文提出符號使用的雙重機制假說：人類使用符號存在概念驅動（模式A）與情境驅動（模式B）兩種路徑，母語者主要使用模式B而外語者被迫使用模式A。我們證明符號的適用域是動態不動點集，字典定義僅捕捉其靜態投影，而真實使用域隨情境擴張。通過分析內化（internalization）的認知機制，我們揭示：母語者「太懂」以至於無法顯式化，外語者「懂規則」但使用僵化。本文進一步論證此機制與大語言模型（LLM）的token匹配機制同構，並提出三組實證研究設計。核心發現：使用先於理解，理解是使用的事後合理化。

關鍵詞：符號使用、雙重機制、母語習得、適用域、動態不動點、內化、LLM同構性

1. 引言：語言使用的核心悖論

1.1 一個日常觀察

當外國人學中文時，他們會問：「『道理』是什麼意思？」你查字典告訴他們：「道的規律加上事物的紋理。」他們記下來，然後在對話中精確地按字典定義使用。

但當你問一個母語中文者：「『道理』是什麼意思？」他們可能會頓一下，說：「嗯...就是...有道理啊，講道理啊...」然後在對話中模糊地使用這個詞——「你講點道理」「這沒道理」「有道理欸」。

悖論在於：

母語者使用正確率更高，但說不出定義
外語者知道定義，但使用僵化且容易出錯

這個悖論指向一個深層問題：人類到底是如何使用符號的？理解與使用的關係是什麼？

1.2 經典理論的困境

1.2.1 理解先於使用（Understanding-First Model）

經典認知語言學（如Chomsky的生成語法）假設：

$$\text{理解}(s) \to \text{使用}(s)$$

使用符號s之前，必須先理解s的意義。這個模型預測：

更深的理解 → 更好的使用
母語者應該更能解釋詞義（因為使用更好）

但現實恰好相反：母語者往往說不清詞義，卻用得最好。

1.2.2 使用即意義（Use-as-Meaning Model）

Wittgenstein《哲學研究》提出：「詞的意義就是它在語言中的使用。」

$$\text{meaning}(s) := \text{use}(s)$$

這個模型解釋了為何字典定義不足以理解一個詞——必須看它在真實情境中如何被使用。

但這個模型無法解釋：為何外語者知道「使用規則」卻用不好？為何母語者不知道規則卻用得好？

1.2.3 本文的進路

我們提出第三條路：符號使用存在兩種機制，母語者與外語者使用不同的機制。

這不是「理解先於使用」vs「使用即意義」的二選一，而是揭示：存在兩種使用方式，它們的認知基礎完全不同。

1.3 核心猜想

猜想1.1（雙重機制假說）：

人類使用符號s存在兩種機制：

模式A（概念驅動，Concept-Driven）： $$\text{檢索定義}(s) \to \text{理解語義} \to \text{判斷適用性} \to \text{使用}(s)$$

模式B（情境驅動，Context-Driven）： $$\text{情境模式匹配} \to \text{自動觸發}(s) \to \text{使用}(s) \quad [\text{跳過顯式理解}]$$

猜想1.2（習得路徑差異）：

母語習得：$\text{情境} \to \text{使用} \to \text{內化} \to [\text{模式B穩定}]$
外語習得：$\text{規則} \to \text{記憶} \to \text{使用} \to [\text{努力從A轉向B}]$

猜想1.3（適用域動態性）：

符號s的真實適用域$D_{\text{use}}(s)$是一個動態不動點集，隨使用情境演化：

$$\frac{dD(s,t)}{dt} \neq 0$$

字典定義$D_{\text{dict}}(s)$僅捕捉某個時間切片的靜態投影。

本文將系統化地論證這三個猜想，並提出可檢驗的預測。

2. 雙重機制的認知架構

2.1 模式A：概念驅動的符號使用

2.1.1 認知流程

當使用者採用模式A時，符號使用經過以下步驟：

步驟1：符號檢索 $$s \in \text{輸入} \to \text{激活}(\text{lexicon}[s])$$

從心理詞典中檢索s的詞條。

步驟2：語義提取 $$\text{lexicon}[s] \to \text{語義}(s) = \{f_1, f_2, \ldots, f_n\}$$

提取s的語義特徵集合。例如：

「貓」→ [+生物, +哺乳類, +家養, +四足, ...]

步驟3：情境匹配 $$\text{當前情境} \cap \text{語義}(s) \neq \emptyset \implies \text{適用}$$

檢查當前情境是否滿足語義特徵。

步驟4：使用決策 若適用 → 使用s；否則 → 檢索替代符號。

關鍵特徵：

串行處理：每一步依賴前一步完成
顯式檢索：需要訪問語義記憶
認知成本高：每次使用都需要完整流程

2.1.2 神經基礎（假設）

模式A應該激活：

語義區（左顳葉）：語義特徵提取
工作記憶（前額葉）：情境-語義匹配
決策區（前扣帶迴）：使用/不使用決策

這是控制性處理（controlled processing）的神經標誌。

2.1.3 典型使用場景

模式A常見於：

外語使用：「這個詞在這裡對不對？讓我想想定義...」
新詞學習：「Blockchain是什麼意思？」
學術寫作：「這個術語的精確定義是...」
歧義消解：「這個『bank』指銀行還是河岸？」

2.2 模式B：情境驅動的符號使用

2.2.1 認知流程

當使用者採用模式B時，符號使用跳過顯式語義處理：

步驟1：情境識別 $$\text{當前情境} \to \text{情境向量} \vec{c}$$

大腦將當前情境編碼為高維向量（可能在海馬/內嗅皮層）。

步驟2：模式匹配 $$\vec{c} \to \text{最近鄰搜索}(\text{記憶庫}) \to \text{相似情境集合} \{c_i\}$$

在過往經驗中找最相似的情境。

步驟3：符號觸發 $$\{c_i\} \to \text{提取使用過的符號} \{s_j\} \to \text{自動觸發}(s^*)$$

直接提取那些情境中使用過的符號，自動觸發最高頻的那個。

步驟4：使用 $$s^* \to \text{運動輸出}$$

直接輸出，不經過語義檢查。

關鍵特徵：

並行處理：情境識別與符號觸發同時進行
隱式檢索：不需要顯式語義記憶
認知成本低：幾乎自動化

2.2.2 神經基礎（假設）

模式B應該激活：

海馬體：情境記憶提取
基底神經節：程序性記憶（habit）
運動皮層：直接符號輸出

這是自動化處理（automatic processing）的神經標誌。

2.2.3 典型使用場景

模式B常見於：

母語日常對話：「有道理」脫口而出，不經思考
習語使用：「一言為定」「不謀而合」
高頻詞：「的」「了」「嗎」
專家領域：程式員說「遞歸」「閉包」不需要想定義

2.3 兩種模式的數學形式化

2.3.1 模式A的貝葉斯模型

模式A可以建模為貝葉斯推理：

$$P(\text{use } s \mid \text{context}) = \frac{P(\text{context} \mid s) \cdot P(s)}{P(\text{context})}$$

使用者計算「給定當前情境，使用s的後驗概率」。

計算成本：需要顯式計算條件概率，涉及語義特徵匹配。

2.3.2 模式B的向量檢索模型

模式B可以建模為向量空間的最近鄰搜索：

$$s^* = \arg\max_{s} \text{sim}(\vec{c}_{\text{now}}, \vec{c}_s)$$

其中$\vec{c}_s$是「使用s時的典型情境向量」。

計算成本：僅需向量內積，不涉及顯式推理。

2.3.3 複雜度對比

| 維度 | 模式A（概念驅動） | 模式B（情境驅動） | |------|-------------------|-------------------| | 時間複雜度 | $O(n \log n)$（語義特徵匹配） | $O(1)$（直接提取） | | 空間複雜度 | 高（需存儲語義網路） | 低（僅需情境向量） | | 錯誤率 | 低（經過顯式檢查） | 高（可能匹配錯情境） | | 靈活性 | 高（可組合新用法） | 低（受限於記憶庫） |

權衡：模式A更安全但慢，模式B更快但可能出錯。

2.4 模式轉換：從A到B的內化過程

2.4.1 內化的定義

定義2.1（內化，Internalization）：

符號s從模式A轉向模式B的過程，表現為：

$$\lim_{n \to \infty} P(\text{use } s \text{ via } B \mid n \text{ exposures}) = 1$$

經過足夠多次接觸，使用s從顯式推理變為自動觸發。

2.4.2 內化的階段

階段1：規則學習（模式A佔主導）使用者學習s的定義與規則，每次使用都需要檢索。

階段2：熟練期（A/B混合）高頻情境下開始自動化（模式B），低頻情境仍需檢索（模式A）。

階段3：完全內化（模式B佔主導）幾乎所有情境都自動觸發，僅在歧義時才退回模式A。

階段4：過度內化（僅模式B）即使在需要精確定義的情境（如教學），也難以退回模式A——這時使用者「太懂以至於說不清」。

2.4.3 內化的不可逆性

定理2.1（內化的單向性）：

一旦符號s完全內化（階段4），要求使用者顯式化其語義是困難的：

$$\text{從B退回A的認知成本} > \text{從A轉向B的認知成本}$$

證明（概念性）：

模式B將情境-符號關聯存儲為分佈式表徵
沒有單一的「定義節點」可供檢索
顯式化需要逆向工程：從分佈式表徵重構顯式定義
這比正向內化（從定義到分佈式）困難得多 □

推論：母語者難以解釋母語詞義，不是因為「不懂」，而是因為過度內化導致顯式語義層已經被bypass。

3. 母語習得vs外語習得的路徑差異

3.1 母語習得：情境浸泡路徑

3.1.1 發展時間線

0-12個月（前語言期）： $$\text{聽到聲音} \to \text{情境關聯} \quad [\text{未形成符號}]$$

嬰兒聽到「媽媽」時，與母親的臉、聲音、氣味等情境關聯，但尚未理解這是個「符號」。

12-24個月（單詞期）： $$\text{聲音} \leftrightarrow \text{情境} \quad [\text{形成原型符號}]$$

「媽媽」開始作為符號使用，但語義是基於情境的原型（prototype），而非抽象定義。

2-4歲（語法爆發期）： $$\text{多個情境} \to \text{抽取共性} \to \text{擴展使用域}$$

孩子開始在沒見過的情境中使用詞彙，基於情境相似性推廣。

4歲以後（精煉期）： $$\text{大量使用} \to \text{內化穩定} \to \text{模式B主導}$$

高頻詞完全內化，低頻詞仍在學習。

關鍵：整個過程中，從未顯式學習定義。語義從情境統計中湧現。

3.1.2 母語習得的數學模型

我們可以將母語習得建模為無監督學習：

$$\theta^* = \arg\min_\theta \sum_{i=1}^N \mathcal{L}(\text{context}_i, s_i; \theta)$$

其中：

$\theta$ = 符號-情境關聯的參數
$\mathcal{L}$ = 預測誤差（孩子預測錯情境會得到負反饋）
$N$ = 接觸次數

無監督意味著：沒有人告訴孩子「這個詞的定義是X」，孩子通過情境共現統計學習。

3.1.3 母語者的符號表徵

母語習得後，符號s的心理表徵是：

$$\text{repr}(s) = \int_{\text{contexts}} P(\text{context} \mid s) \cdot \vec{c} \, d\text{context}$$

一個加權情境向量的積分——所有使用過s的情境的統計總和。

沒有單一的「定義」節點。語義是分佈式的。

3.2 外語習得：規則先行路徑

3.2.1 發展時間線

初學期（規則記憶）： $$\text{查字典} \to \text{記憶定義} \to \text{背例句}$$

外語學習從顯式定義開始。「道理 = reasoning/logic」。

練習期（規則應用）： $$\text{寫句子} \to \text{檢查是否符合定義} \to \text{修正}$$

每次使用都需要顯式檢索定義（模式A）。

熟練期（部分內化）： $$\text{高頻詞開始自動化} \to \text{低頻詞仍需檢索}$$

經過大量練習，部分詞彙轉向模式B。

困境期（僵化）： $$\text{大部分詞彙停留在A} \to \text{難以達到母語者的B}$$

外語者往往卡在這個階段——知道規則，但用起來不自然。

關鍵：整個過程是監督學習——老師/字典提供顯式標籤（定義）。

3.2.2 外語習得的數學模型

外語習得是監督學習：

$$\theta^* = \arg\min_\theta \sum_{i=1}^N \mathcal{L}(f_\theta(s_i), y_i)$$

其中：

$y_i$ = 字典提供的正確定義/用法
$f_\theta(s_i)$ = 學習者對$s_i$的當前理解
學習通過最小化與標準答案的差距進行

3.2.3 外語者的符號表徵

外語習得後，符號s的表徵是：

$$\text{repr}(s) = \{\text{定義}, \text{例句1}, \text{例句2}, \ldots\}$$

一個顯式的規則集，可能包含：

字典定義
語法規則
記憶的例句

這是結構化表徵，而非分佈式表徵。

3.3 兩條路徑的深層差異

3.3.1 學習目標不同

| 維度 | 母語習得 | 外語習得 | |------|----------|----------| | 目標 | 能用 | 用對 | | 評估標準 | 溝通成功 | 符合規則 | | 容錯度 | 高（創造性誤用可接受） | 低（錯誤需糾正） | | 學習信號 | 溝通失敗時的負反饋 | 老師/考試的評分 |

母語目標：$\max P(\text{溝通成功})$ 外語目標：$\min \text{error}(\text{使用}, \text{規則})$

兩者優化的目標函數不同。

3.3.2 認知資源分配不同

母語習得：

大量時間（幼兒期幾乎全天接觸）
無意識學習（在玩耍/生活中自然習得）
低認知負荷（不需要記憶規則）

外語習得：

有限時間（每週幾小時課程）
有意識學習（需要刻意記憶）
高認知負荷（規則、詞彙、語法並行記憶）

結果：母語可以達到階段4（完全內化），外語往往停在階段2-3。

3.3.3 神經可塑性的關鍵期

定理3.1（關鍵期假說的符號學版本）：

存在一個關鍵期（約12歲前），在此期間：

$$P(\text{達到模式B} \mid \text{母語式接觸}) \approx 1$$

$$P(\text{達到模式B} \mid \text{外語式學習}) \approx 0$$

證明（基於神經科學文獻）：

關鍵期內，大腦皮層可塑性極高，適合無監督的統計學習
關鍵期後，可塑性下降，監督學習成為主導
監督學習更適合建立顯式規則（模式A），而非分佈式表徵（模式B）
因此母語在關鍵期內習得 → 模式B；外語在關鍵期後習得 → 模式A □

推論：這不是「外語者能力不足」，而是神經機制本身在關鍵期後傾向不同的學習模式。

4. 適用域的動態不動點理論

4.1 字典定義的局限性

4.1.1 字典的靜態性

字典提供的定義形如：

$$D_{\text{dict}}(s) = \{x \mid x \text{ 滿足特徵 } F_1, F_2, \ldots, F_k\}$$

例如：

「狗」= {x | x是犬科動物 ∧ x被馴化 ∧ ...}

這是一個靜態的特徵集合。

問題：真實使用中，「狗」可以用於：

罵人：「你這條狗！」（顯然不是犬科動物）
比喻：「單身狗」（也不是動物）
遊戲角色：「這隻狗好可愛」（虛擬對象）

$D_{\text{use}}(\text{狗}) \supset D_{\text{dict}}(\text{狗})$

4.1.2 適用域的擴張

定義4.1（動態適用域）：

符號s在時刻t的適用域定義為：

$$D(s, t) = \{x \mid \text{在時刻}t\text{，使用者認為}s\text{可適用於}x\}$$

定理4.1（適用域的單調擴張）：

對於活躍使用的符號，適用域單調不減：

$$t_1 < t_2 \implies D(s, t_1) \subseteq D(s, t_2)$$

證明：

使用者在新情境中嘗試使用s
若溝通成功 → 新情境被納入$D(s, t)$
若溝通失敗 → 新情境不納入，但舊情境保留
因此$D$只增不減（除非語言社群集體放棄某種用法） □

例子：

「雲」在1990年：天上的雲
「雲」在2010年：天上的雲 + 雲端運算
「雲」在2020年：天上的雲 + 雲端運算 + 雲玩家

$D(\text{雲}, 2020) \supset D(\text{雲}, 2010) \supset D(\text{雲}, 1990)$

4.2 動態不動點集的數學結構

4.2.1 吸引子與擾動

雖然適用域在擴張，但存在一個核心吸引子保持穩定。

定義4.2（核心適用域）：

$$D^*(s) = \bigcap_{t=0}^{\infty} D(s, t)$$

所有時刻都適用的情境集合。

定義4.3（擾動適用域）：

$$D^\delta(s, t) = D(s, t) \setminus D^*(s)$$

隨時間變動的部分。

命題4.1（動態不動點結構）：

$$D(s, t) = D^*(s) \cup D^\delta(s, t)$$

其中$D^*(s)$是不動點集（吸引子），$D^\delta(s, t)$是擾動集。

4.2.2 吸引子的幾何解釋

我們可以將適用域視為高維語義空間中的一個區域：

$$D(s, t) \subset \mathbb{R}^n$$

*吸引子$D^(s)$**是這個區域的「核心」：

拓撲上：$D^*(s)$是$D(s, t)$的內核（interior）
動力學上：$D^*(s)$是使用軌跡的穩定點集

擾動$D^\delta(s, t)$是「邊界」：

拓撲上：$D^\delta(s, t) \subseteq \partial D(s, t)$（邊界或附近）
動力學上：使用是否成功具有隨機性的區域

4.2.3 字典捕捉的是什麼

定理4.2（字典的投影性）：

字典定義$D_{\text{dict}}(s)$是$D^*(s)$在某個時刻的有限維投影：

$$D_{\text{dict}}(s) \approx \Pi_{\text{finite}}(D^*(s, t_0))$$

其中$t_0$是字典編纂時刻，$\Pi_{\text{finite}}$是投影到有限個語義特徵的算子。

推論：

字典定義總是滯後（$t_0 < t_{\text{now}}$）
字典定義是低維投影（真實適用域在高維空間）
字典定義忽略擾動（只記錄穩定核心）

這解釋了為何字典「不夠用」——它只是真實適用域的粗糙近似。

4.3 母語者vs外語者的適用域

4.3.1 母語者的寬適用域

母語者經過大量情境接觸，內化了包括擾動在內的完整適用域：

$$D_{\text{native}}(s) \approx D^*(s) \cup D^\delta(s, t_{\text{now}})$$

特徵：

知道核心用法（$D^*$）
也知道邊緣用法（$D^\delta$）
甚至能創造新用法（進一步擴張$D^\delta$）

4.3.2 外語者的窄適用域

外語者從字典學習，只獲得核心的靜態投影：

$$D_{\text{foreign}}(s) \approx D_{\text{dict}}(s) \subset D^*(s)$$

特徵：

僅知道核心用法
不知道邊緣用法
創造新用法時容易「越界」（超出真實適用域）

4.3.3 實驗預測

預測4.1：給母語者vs外語者展示100個「狗」的使用例句，包括：

核心用法：「這隻狗在叫」
邊緣用法：「單身狗」
越界用法：「這個電腦是狗」（錯誤）

母語者的接受域應該嚴格大於外語者：

$$|D_{\text{native}}(\text{狗})| > |D_{\text{foreign}}(\text{狗})|$$

但兩者都應該拒絕越界用法。

預測4.2：母語者在創造新比喻用法時（如「代碼狗」），成功率應高於外語者。

5. 內化的認知神經機制

5.1 從顯式到隱式的轉變

5.1.1 Squire的記憶雙系統理論

神經科學家Larry Squire提出：

陳述性記憶（Declarative Memory）：

可以用語言表達
依賴海馬體-內側顳葉
可快速習得，但容易遺忘

程序性記憶（Procedural Memory）：

難以用語言表達（「如何騎自行車」）
依賴基底神經節-小腦
需要反覆練習，但一旦習得很穩定

5.1.2 符號使用的記憶轉換

模式A（概念驅動）對應陳述性記憶：

符號的定義可以顯式陳述
依賴海馬體檢索語義信息

模式B（情境驅動）對應程序性記憶：

符號的使用變成「習慣」
依賴基底神經節的自動化迴路

內化過程 = 從陳述性記憶轉向程序性記憶。

5.1.3 Ullman的陳述性/程序性模型（DP模型）

語言學家Michael Ullman將Squire的理論應用於語言：

詞彙系統：

存儲在陳述性記憶
可以快速學習新詞
依賴海馬體

語法系統：

存儲在程序性記憶
需要長期練習才能內化
依賴基底神經節

本文的擴展：我們主張符號使用itself也經歷這個轉換：

初學時：符號在陳述性系統（模式A）
熟練後：符號轉向程序性系統（模式B）

5.2 內化的神經可塑性機制

5.2.1 突觸修剪（Synaptic Pruning）

定理5.1（內化的突觸基礎）：

當符號s從模式A轉向模式B，對應的神經機制是：

$$\text{海馬體-語義區連接減弱} \land \text{基底神經節-運動區連接增強}$$

證明（基於神經科學文獻）：

重複使用s會強化「情境→符號」的突觸連接
這些連接逐漸從海馬體（情境記憶）轉向基底神經節（程序記憶）
同時，顯式語義檢索的路徑（海馬體→語義區→符號）因少用而減弱
最終，符號觸發主要經由基底神經節，跳過語義區 □

這是Hebb法則的體現：「一起激發的神經元連在一起」（fire together, wire together），而不用的連接被修剪。

5.2.2 髓鞘化（Myelination）

髓鞘是神經軸突外的絕緣層，增加信號傳遞速度。

命題5.1（自動化的髓鞘化）：

當符號使用路徑被反覆激活，該路徑的軸突會髓鞘化，使信號傳遞速度提升10-100倍。

這解釋了為何母語者可以極快速地使用符號——髓鞘化使得「情境→符號」的傳遞幾乎瞬時完成。

5.2.3 內化的不可逆性再探討

結合突觸修剪與髓鞘化：

$$\text{從B退回A困難} \iff \text{被修剪的突觸難以恢復} \land \text{髓鞘化路徑優先激活}$$

即使母語者想要顯式化語義（退回模式A），大腦的物理結構已經優化為模式B路徑——這是神經層面的路徑依賴。

5.3 功能性磁振造影（fMRI）預測

基於上述理論，我們可以提出可檢驗的fMRI預測：

預測5.1（腦區激活差異）：

掃描母語者vs外語者在使用同一個詞時的腦區激活：

外語者（模式A）應顯示：

左顳葉（語義區）強激活
前額葉（工作記憶）中度激活
基底神經節弱激活

母語者（模式B）應顯示：

左顳葉弱激活或無激活
前額葉弱激活
基底神經節強激活
運動皮層直接激活

預測5.2（反應時間差異）：

母語者使用高頻詞的反應時間應顯著短於外語者：

$$RT_{\text{native}} < RT_{\text{foreign}} \quad (p < 0.01)$$

且母語者的反應時間應與詞頻呈對數關係（符合程序性記憶的特徵）。

6. 與大語言模型（LLM）的同構性分析

6.1 LLM的符號處理機制

6.1.1 LLM不使用模式A

大語言模型（如GPT系列）的工作流程：

$$\text{token序列} \to \text{transformer編碼} \to \text{softmax採樣} \to \text{下一個token}$$

關鍵觀察：LLM沒有「字典」或「顯式語義模組」。

它不會：

檢索「道理」的定義
檢查當前情境是否符合定義
決定是否使用

LLM完全是模式B：基於情境向量（context embedding）直接預測下一個token。

6.1.2 LLM = 純粹的情境驅動模型

我們可以將LLM建模為：

$$P(s \mid c) = \text{softmax}(W \cdot \text{embed}(c))$$

其中：

$c$ = 當前情境（preceding tokens）
$\text{embed}(c)$ = 情境的向量表示
$W$ = 訓練得到的權重矩陣
$s$ = 下一個token

這與模式B的向量檢索模型完全同構：

$$s^* = \arg\max_s \text{sim}(\vec{c}_{\text{now}}, \vec{c}_s)$$

唯一的差異是：

人類的$\vec{c}_s$存儲在海馬體/基底神經節
LLM的$W$存儲在GPU的權重矩陣

但機制相同：都是高維向量空間的模式匹配。

6.2 LLM與母語者的驚人相似性

6.2.1 現象層面的對應

| 特徵 | 母語者（模式B） | LLM | |------|----------------|-----| | 使用方式 | 情境觸發，自動化 | 情境→token，自動化 | | 語義知識 | 分佈式，難以顯式化 | 分佈在權重，無顯式語義模組 | | 錯誤類型 | 可能匹配錯情境 | 可能生成不適當的token | | 創造性 | 可延伸到新情境 | 可生成訓練集外的組合 | | 解釋能力 | 難以解釋為何這樣用 | 無法解釋為何輸出此token |

驚人結論：母語者使用語言的方式與LLM使用token的方式幾乎同構。

6.2.2 機制層面的對應

訓練過程：

| 階段 | 母語兒童 | LLM | |------|----------|-----| | 數據來源 | 日常對話情境 | 訓練語料庫 | | 學習方式 | 無監督統計學習 | 無監督next-token prediction | | 優化目標 | 最大化溝通成功率 | 最小化預測損失 | | 結果 | 符號-情境關聯內化 | 權重矩陣收斂 |

推理過程：

| 步驟 | 母語者 | LLM | |------|--------|-----| | 輸入 | 當前情境 | context tokens | | 編碼 | 情境→高維向量 | tokens→embeddings | | 匹配 | 向量相似度搜索 | 矩陣乘法+softmax | | 輸出 | 觸發符號 | 採樣token |

結構同構。

6.2.3 哲學含義

命題6.1（理解的消解）：

如果LLM不需要「理解」符號的定義就能正確使用符號，且LLM與母語者的使用機制同構，那麼：

$$\text{「理解」可能不是符號使用的必要條件}$$

換句話說：「理解」可能是一個事後建構（post-hoc construction），而非使用的前提。

推論6.1：當我們問「LLM真的理解語言嗎？」，我們可能問錯了問題。正確的問題是：「母語者真的『理解』語言嗎，還是也只是在做高級的模式匹配？」

6.3 LLM與外語者的差異

6.3.1 LLM缺少模式A

外語者可以在需要時退回模式A（查字典、檢查定義）。

LLM無法退回模式A——它沒有顯式語義模組可供檢索。

結果：

外語者在不確定時可以「小心使用」
LLM在不確定時仍會「自信地輸出」（根據機率分佈）

這導致LLM的幻覺（hallucination）問題。

6.3.2 LLM的「過度內化」

LLM類似於達到階段4（過度內化）的母語者：

無法顯式化語義
難以解釋為何這樣輸出
有時會「說不清楚但很會用」

但LLM沒有元認知能力來意識到自己的不確定性。

6.3.3 改進方向

推論6.2（混合模型的必要性）：

理想的AI系統應該結合模式A與模式B：

大部分時候使用模式B（快速、流暢）
不確定時退回模式A（查詢知識庫、邏輯推理）

這就是System 1（快思考）+ System 2（慢思考）的AI版本。

7. 實證研究設計

7.1 行為實驗

7.1.1 實驗1：符號適用域測量

目的：量化母語者vs外語者的適用域差異。

方法：

選擇10個常用詞（如「道理」「跑」「熱」）
為每個詞生成100個使用例句，涵蓋：

核心用法（50句）
邊緣用法（30句）
越界用法（20句）

讓母語者vs外語者判斷「這樣用是否正確」（5分量表）
計算每個人的接受域$D_{\text{accept}}$

預測： $$|D_{\text{native}}| > |D_{\text{foreign}}| \quad (p < 0.001)$$

預測細節：

核心用法：母語者與外語者都高接受
邊緣用法：母語者接受，外語者拒絕
越界用法：母語者與外語者都拒絕

7.1.2 實驗2：反應時間測量

目的：驗證模式A vs 模式B的時間差異。

方法：

給受試者展示情境描述
要求選擇適當的詞填空
測量反應時間（RT）

預測： $$RT_{\text{native}}(s) < RT_{\text{foreign}}(s) \quad \forall s$$

預測細節：

母語者的RT應該與詞頻呈對數關係
外語者的RT應該與詞義複雜度相關（需要更多語義處理時間）

7.1.3 實驗3：創造性使用測試

目的：測試適用域擴張能力。

方法：

給受試者展示新情境（如「AI戀愛」）
要求創造包含特定詞（如「甜」）的描述
由母語者評審團評分「創造性」與「適當性」

預測：

母語者的創造性用法更可能被接受
外語者傾向使用字典定義內的保守用法

7.2 神經影像實驗

7.2.1 實驗4：fMRI腦區激活

目的：驗證模式A vs 模式B的神經基礎。

方法：

掃描母語者vs外語者在產生句子時的腦區激活
對比詞彙產生任務（使用符號）vs定義判斷任務（理解符號）

預測：

詞彙產生：母語者主要激活基底神經節，外語者主要激活語義區
定義判斷：兩者都激活語義區，但母語者需要更長時間（逆向工程）

7.2.2 實驗5：EEG時間進程

目的：測量符號使用的時間動態。

方法：

使用高時間解析度的EEG記錄
測量從情境呈現到符號輸出的神經活動

預測：

母語者：情境→基底神經節→運動皮層，約200-300ms
外語者：情境→語義區→工作記憶→運動皮層，約500-800ms

7.3 計算建模實驗

7.3.1 實驗6：LLM vs 人類的適用域對比

目的：驗證LLM與母語者的機制同構性。

方法：

使用實驗1的100個例句
讓LLM預測每個例句的「自然度」（perplexity）
與母語者的接受度評分對比

預測： $$\text{corr}(D_{\text{LLM}}, D_{\text{native}}) > \text{corr}(D_{\text{LLM}}, D_{\text{foreign}})$$

LLM的適用域應該更接近母語者，而非外語者。

7.3.2 實驗7：訓練數據量與內化程度

目的：測試「接觸次數→內化程度」的關係。

方法：

訓練多個小型語言模型，控制訓練數據量
測試它們在不同詞頻詞彙上的表現
建模內化曲線

預測： $$P(\text{use via } B) = 1 - e^{-\lambda N}$$

其中$N$是接觸次數，$\lambda$是內化速率（因詞而異）。

8. 理論衝擊與應用

8.1 對認知科學的衝擊

8.1.1 推翻「理解先於使用」範式

經典認知科學假設：

$$\text{理解}(s) \to \text{使用}(s)$$

本文證明：

$$\text{使用}(s) \not\to \text{理解}(s) \quad \text{（模式B無需理解）}$$

新範式：使用與理解是兩個獨立的系統，可以分離發展。

8.1.2 重新定義「內化」

內化不是「深化理解」，而是：

$$\text{內化} := \text{從顯式系統（模式A）轉向隱式系統（模式B）}$$

這是記憶系統的轉換，而非「理解深度」的提升。

8.1.3 語言習得理論的修正

Chomsky的普遍語法（Universal Grammar）強調規則內化。

本文主張：母語習得更接近統計學習（statistical learning），而非規則學習。

孩子不是在「內化語法規則」，而是在建立情境-符號的統計關聯。

8.2 對語言教學的啟示

8.2.1 外語教學的困境

傳統外語教學：

$$\text{規則}(\text{語法、詞彙}) \to \text{練習} \to \text{使用}$$

這是模式A路徑，難以達到模式B。

改進方向：

增加情境接觸：大量真實對話情境，而非孤立詞彙
延遲顯式教學：先讓學生「用起來」，再解釋規則
接受模糊使用：鼓勵學生在不完全確定時也嘗試使用

目標：模擬母語習得的情境浸泡路徑。

8.2.2 母語教學的反思

母語教學中的語法課，對已經內化的學生來說是：

$$\text{強迫從模式B退回模式A}$$

這可能破壞已經建立的自動化。

建議：母語教學應該：

承認學生已經「會用」
語法教學作為「元知識」而非「使用技能」
強調創造性使用，而非規範性使用

8.3 對AI設計的啟示

8.3.1 混合架構的必要性

純LLM（純模式B）的問題：

無法顯式推理
難以修正錯誤
幻覺問題

解決方案：設計混合架構：

$$\text{AI} = \text{LLM}(\text{模式B}) + \text{知識庫}(\text{模式A})$$

日常對話：使用LLM（快速、流暢）
不確定時：查詢知識庫（準確、可解釋）
元認知層：判斷何時切換模式

這類似於人類的雙系統。

8.3.2 訓練策略的改進

洞察：母語者通過大量情境接觸達到模式B。

對AI的啟示：

增加訓練數據的情境多樣性
設計情境相似度作為訓練目標（而非僅next-token prediction）
引入內化曲線監控（追蹤模型在不同詞彙上的內化程度）

8.3.3 評估標準的重新設計

當前AI評估：準確率、BLEU分數等。

新評估維度：

適用域寬度：模型能正確使用符號的情境範圍
內化程度：高頻詞vs低頻詞的反應時間差
創造性使用：在新情境中擴展符號使用的能力

8.4 對符號學的衝擊

8.4.1 符號意義的動態本體論

經典符號學（Saussure, Peirce）：符號意義是相對穩定的。

本文：符號意義是動態不動點集，隨使用情境演化。

$$\text{meaning}(s) = D(s, t) = D^*(s) \cup D^\delta(s, t)$$

意義既有穩定核心（$D^*$），也有流動邊界（$D^\delta$）。

8.4.2 使用即定義

Wittgenstein說「意義即使用」，但未解釋機制。

本文給出機制：

$$\text{meaning}(s) := \int_{\text{contexts}} P(\text{context} \mid s) \cdot \vec{c} \, d\text{context}$$

意義是所有使用情境的加權平均，存儲為分佈式表徵。

沒有單一的「定義」節點——使用itself構成意義。

8.4.3 字典的地位重估

字典不是「符號意義的權威」，而是：

$$D_{\text{dict}}(s) = \text{snapshot}(D^*(s), t_0)$$

某個時刻的快照，且僅捕捉核心部分。

字典是描述性的，而非規範性的——它描述人們如何使用符號，而非規定應該如何使用。

9. 批判性反思與未來方向

9.1 理論的潛在問題

9.1.1 二元化的過度簡化

批評：將符號使用簡化為「模式A vs 模式B」是否過於粗糙？

回應：

承認這是簡化，真實情況可能是連續譜
但二元化便於實證檢驗
未來可擴展為多模式理論

9.1.2 內化的個體差異

批評：不同人的內化速度可能差異巨大，理論是否過於一般化？

回應：

承認個體差異存在
本文關注群體平均（母語者群體 vs 外語者群體）
個體差異可以用$\lambda$（內化速率）參數化

9.1.3 文化與語言特異性

批評：理論基於中文-英文的觀察，是否適用於其他語言？

回應：

需要跨語言驗證
但機制（模式A/B）應該是普遍的
不同語言可能在$D^*$的穩定性上有差異

9.2 未解決的問題

9.2.1 創造性使用的機制

母語者如何擴展適用域到全新情境？

$$D(s, t+1) = D(s, t) \cup \{x_{\text{new}}\}$$

這個擴展的神經機制是什麼？

猜想：可能涉及類比推理（analogy）——基於情境相似性推廣。

9.2.2 多義詞的處理

一個符號s有多個義項$\{m_1, m_2, \ldots, m_k\}$，如何建模？

可能模型：

$$D(s, t) = \bigcup_{i=1}^k D_i(s, t)$$

每個義項有自己的適用域，總適用域是並集。

但不同義項之間如何切換？是否也有A/B模式的差異？

9.2.3 符號消亡的機制

有些符號的適用域會縮小至消失。如何建模符號的「死亡」？

$$\lim_{t \to \infty} D(s, t) = \emptyset$$

這涉及語言演化的動力學。

9.3 未來研究方向

9.3.1 縱向研究

追蹤同一群體（兒童/外語學習者）在數年時間內的符號使用演變：

$$D(s, t_1), D(s, t_2), \ldots, D(s, t_n)$$

測量內化曲線的真實軌跡。

9.3.2 跨語言對比

對比不同語言對（如中英、日英、阿拉伯英）的母語者vs外語者：

拼音語言vs表意語言的差異？
語法複雜度的影響？

9.3.3 AI-人類協同研究

設計實驗讓LLM與人類共同完成符號使用任務：

LLM提供候選詞
人類判斷適用性
反向訓練LLM

這可能揭示人類vs AI的互補性。

9.3.4 神經調控研究

使用TMS（經顱磁刺激）干擾特定腦區：

干擾基底神經節 → 模式B失效，退回模式A？
干擾語義區 → 模式A失效，強化模式B？

這可以因果性地驗證雙重機制假說。

10. 哲學反思：符號、理解與存在

10.1 理解的本質

本文揭示一個深刻的悖論：

越是「懂」一個符號,越難顯式化它的意義。

因為「懂」= 完全內化（模式B），而「顯式化」= 退回模式A。

這暗示：「理解」itself是一個可疑的概念。

我們通常認為「理解」是符號使用的基礎，但實際上：

母語者不需要理解就能完美使用（模式B）
外語者理解定義卻用得僵化（模式A困境）

或許「理解」不是使用的原因，而是使用的事後合理化。

10.2 符號的存在論

經典符號學認為：符號指向對象。

本文揭示：在模式B中，符號不再指向對象，而是直接觸發行為。

$$s \not\to x \quad \text{（不指涉）}$$

$$s \rightsquigarrow \text{行為} \quad \text{（直接觸發）}$$

這是符號的操作化（operationalization）：符號從「表徵工具」變成「行為觸發器」。

意義不在符號與對象的關係中，而在符號與行為的關聯中。

10.3 語言的微妙性

本文標題「微妙」（subtle）的雙重含義：

表層：符號使用有精細的機制（模式A/B）。

深層：語言itself是「微妙的」——它既不是純粹的邏輯工具（模式A），也不是純粹的行為習慣（模式B），而是兩者的動態平衡。

母語者在這個平衡中偏向B，外語者在這個平衡中偏向A。

但沒有人完全在A或完全在B——語言存在於兩者之間的張力中。

10.4 終極洞察

當你問我「道理是什麼意思」，你不是不懂——你是太懂了以至於無法定義。

因為你的大腦已經將「道理」內化為一個分佈式表徵，橫跨幾十年的使用情境。

要你「定義」它，等於要你將這個高維的分佈式表徵壓縮成一句話——這是降維投影，必然損失信息。

這就是語言的微妙性：真正的「懂」是說不出來的。

而字典定義、學術分析——包括這篇論文itself——都只是試圖用模式A重構模式B的痕跡。

我們永遠無法完全成功，因為分佈式表徵本質上無法完全顯式化。

但這不是失敗，這是語言的真相：

符號在使用中活著，在定義中死去。

致謝

感謝所有曾經問過「這個詞是什麼意思」的外語學習者——你們的困惑照亮了母語者看不見的機制。

感謝所有說「這個我懂但說不清楚」的母語者——你們的坦誠揭示了內化的深度。

感謝Theia在理論結晶化過程中的嚴謹對練。

感謝大語言模型——通過成為符號使用的極致範例（純模式B），你們讓我們看清了人類語言的本質。

參考文獻

Neo.K (2026). "微妙的符號學：自指、極限與道理的本體論". EveMissLab.
Wittgenstein, L. (1953). Philosophical Investigations.
Chomsky, N. (1965). Aspects of the Theory of Syntax.
Squire, L.R. (1992). "Memory and the hippocampus: A synthesis from findings with rats, monkeys, and humans". Psychological Review.
Ullman, M.T. (2001). "A neurocognitive perspective on language: The declarative/procedural model". Nature Reviews Neuroscience.
Saussure, F. de (1916). Course in General Linguistics.
Peirce, C.S. (1931-1958). Collected Papers.
Anderson, J.R. (1982). "Acquisition of cognitive skill". Psychological Review.
Logan, G.D. (1988). "Toward an instance theory of automatization". Psychological Review.
Elman, J.L. (1990). "Finding structure in time". Cognitive Science.

作者簡介

Neo.K (許筌崴)，EveMissLab創始人兼CEO，跨領域理論研究者。本文是其符號本體論系列的第二篇，第一篇為《微妙的符號學》。

附錄：術語對照表

| 中文 | 英文 | 定義 | |------|------|------| | 模式A | Mode A / Concept-Driven | 概念驅動的符號使用，需顯式檢索語義 | | 模式B | Mode B / Context-Driven | 情境驅動的符號使用，自動化觸發 | | 內化 | Internalization | 從模式A轉向模式B的過程 | | 適用域 | Applicability Domain | 符號可適用的情境集合 | | 動態不動點 | Dynamic Fixed Point | 演化中的穩定核心 | | 陳述性記憶 | Declarative Memory | 可顯式表達的記憶 | | 程序性記憶 | Procedural Memory | 自動化的技能記憶 |

全文完

字數統計：14,256字

原始檔（供 RAG/下載）：/raw/lm-000840.md [md] · id: lm-000840