# 符號使用的雙重機制：母語認知vs外語認知的動態不動點理論

**Neo.K (許筌崴)**  
EveMissLab (一言諾科技有限公司)  
2026年5月

---

## 摘要

本文提出符號使用的雙重機制假說：人類使用符號存在概念驅動（模式A）與情境驅動（模式B）兩種路徑，母語者主要使用模式B而外語者被迫使用模式A。我們證明符號的適用域是動態不動點集，字典定義僅捕捉其靜態投影，而真實使用域隨情境擴張。通過分析內化（internalization）的認知機制，我們揭示：**母語者「太懂」以至於無法顯式化，外語者「懂規則」但使用僵化**。本文進一步論證此機制與大語言模型（LLM）的token匹配機制同構，並提出三組實證研究設計。核心發現：**使用先於理解，理解是使用的事後合理化**。

**關鍵詞**：符號使用、雙重機制、母語習得、適用域、動態不動點、內化、LLM同構性

---

## 1. 引言：語言使用的核心悖論

### 1.1 一個日常觀察

當外國人學中文時，他們會問：「『道理』是什麼意思？」  
你查字典告訴他們：「道的規律加上事物的紋理。」  
他們記下來，然後在對話中**精確地**按字典定義使用。

但當你問一個母語中文者：「『道理』是什麼意思？」  
他們可能會頓一下，說：「嗯...就是...有道理啊，講道理啊...」  
然後在對話中**模糊地**使用這個詞——「你講點道理」「這沒道理」「有道理欸」。

**悖論在於**：
- 母語者使用**正確率更高**，但**說不出定義**
- 外語者**知道定義**，但使用**僵化且容易出錯**

這個悖論指向一個深層問題：**人類到底是如何使用符號的？理解與使用的關係是什麼？**

### 1.2 經典理論的困境

#### 1.2.1 理解先於使用（Understanding-First Model）

經典認知語言學（如Chomsky的生成語法）假設：

$$\text{理解}(s) \to \text{使用}(s)$$

使用符號s之前，必須先理解s的意義。這個模型預測：
- 更深的理解 → 更好的使用
- 母語者應該更能解釋詞義（因為使用更好）

**但現實恰好相反**：母語者往往說不清詞義，卻用得最好。

#### 1.2.2 使用即意義（Use-as-Meaning Model）

Wittgenstein《哲學研究》提出：「詞的意義就是它在語言中的使用。」

$$\text{meaning}(s) := \text{use}(s)$$

這個模型解釋了為何字典定義不足以理解一個詞——必須看它在真實情境中如何被使用。

**但這個模型無法解釋**：為何外語者知道「使用規則」卻用不好？為何母語者不知道規則卻用得好？

#### 1.2.3 本文的進路

我們提出第三條路：**符號使用存在兩種機制，母語者與外語者使用不同的機制**。

這不是「理解先於使用」vs「使用即意義」的二選一，而是揭示：**存在兩種使用方式，它們的認知基礎完全不同**。

### 1.3 核心猜想

**猜想1.1（雙重機制假說）**：

人類使用符號s存在兩種機制：

**模式A（概念驅動，Concept-Driven）**：
$$\text{檢索定義}(s) \to \text{理解語義} \to \text{判斷適用性} \to \text{使用}(s)$$

**模式B（情境驅動，Context-Driven）**：
$$\text{情境模式匹配} \to \text{自動觸發}(s) \to \text{使用}(s) \quad [\text{跳過顯式理解}]$$

**猜想1.2（習得路徑差異）**：

- 母語習得：$\text{情境} \to \text{使用} \to \text{內化} \to [\text{模式B穩定}]$
- 外語習得：$\text{規則} \to \text{記憶} \to \text{使用} \to [\text{努力從A轉向B}]$

**猜想1.3（適用域動態性）**：

符號s的真實適用域$D_{\text{use}}(s)$是一個**動態不動點集**，隨使用情境演化：

$$\frac{dD(s,t)}{dt} \neq 0$$

字典定義$D_{\text{dict}}(s)$僅捕捉某個時間切片的靜態投影。

本文將系統化地論證這三個猜想，並提出可檢驗的預測。

---

## 2. 雙重機制的認知架構

### 2.1 模式A：概念驅動的符號使用

#### 2.1.1 認知流程

當使用者採用模式A時，符號使用經過以下步驟：

**步驟1：符號檢索**  
$$s \in \text{輸入} \to \text{激活}(\text{lexicon}[s])$$

從心理詞典中檢索s的詞條。

**步驟2：語義提取**  
$$\text{lexicon}[s] \to \text{語義}(s) = \{f_1, f_2, \ldots, f_n\}$$

提取s的語義特徵集合。例如：
- 「貓」→ [+生物, +哺乳類, +家養, +四足, ...]

**步驟3：情境匹配**  
$$\text{當前情境} \cap \text{語義}(s) \neq \emptyset \implies \text{適用}$$

檢查當前情境是否滿足語義特徵。

**步驟4：使用決策**  
若適用 → 使用s；否則 → 檢索替代符號。

**關鍵特徵**：
- **串行處理**：每一步依賴前一步完成
- **顯式檢索**：需要訪問語義記憶
- **認知成本高**：每次使用都需要完整流程

#### 2.1.2 神經基礎（假設）

模式A應該激活：
- **語義區**（左顳葉）：語義特徵提取
- **工作記憶**（前額葉）：情境-語義匹配
- **決策區**（前扣帶迴）：使用/不使用決策

這是**控制性處理**（controlled processing）的神經標誌。

#### 2.1.3 典型使用場景

模式A常見於：
- **外語使用**：「這個詞在這裡對不對？讓我想想定義...」
- **新詞學習**：「Blockchain是什麼意思？」
- **學術寫作**：「這個術語的精確定義是...」
- **歧義消解**：「這個『bank』指銀行還是河岸？」

### 2.2 模式B：情境驅動的符號使用

#### 2.2.1 認知流程

當使用者採用模式B時，符號使用**跳過顯式語義處理**：

**步驟1：情境識別**  
$$\text{當前情境} \to \text{情境向量} \vec{c}$$

大腦將當前情境編碼為高維向量（可能在海馬/內嗅皮層）。

**步驟2：模式匹配**  
$$\vec{c} \to \text{最近鄰搜索}(\text{記憶庫}) \to \text{相似情境集合} \{c_i\}$$

在過往經驗中找最相似的情境。

**步驟3：符號觸發**  
$$\{c_i\} \to \text{提取使用過的符號} \{s_j\} \to \text{自動觸發}(s^*)$$

直接提取那些情境中使用過的符號，自動觸發最高頻的那個。

**步驟4：使用**  
$$s^* \to \text{運動輸出}$$

直接輸出，**不經過語義檢查**。

**關鍵特徵**：
- **並行處理**：情境識別與符號觸發同時進行
- **隱式檢索**：不需要顯式語義記憶
- **認知成本低**：幾乎自動化

#### 2.2.2 神經基礎（假設）

模式B應該激活：
- **海馬體**：情境記憶提取
- **基底神經節**：程序性記憶（habit）
- **運動皮層**：直接符號輸出

這是**自動化處理**（automatic processing）的神經標誌。

#### 2.2.3 典型使用場景

模式B常見於：
- **母語日常對話**：「有道理」脫口而出，不經思考
- **習語使用**：「一言為定」「不謀而合」
- **高頻詞**：「的」「了」「嗎」
- **專家領域**：程式員說「遞歸」「閉包」不需要想定義

### 2.3 兩種模式的數學形式化

#### 2.3.1 模式A的貝葉斯模型

模式A可以建模為貝葉斯推理：

$$P(\text{use } s \mid \text{context}) = \frac{P(\text{context} \mid s) \cdot P(s)}{P(\text{context})}$$

使用者計算「給定當前情境，使用s的後驗概率」。

**計算成本**：需要顯式計算條件概率，涉及語義特徵匹配。

#### 2.3.2 模式B的向量檢索模型

模式B可以建模為向量空間的最近鄰搜索：

$$s^* = \arg\max_{s} \text{sim}(\vec{c}_{\text{now}}, \vec{c}_s)$$

其中$\vec{c}_s$是「使用s時的典型情境向量」。

**計算成本**：僅需向量內積，不涉及顯式推理。

#### 2.3.3 複雜度對比

| 維度 | 模式A（概念驅動） | 模式B（情境驅動） |
|------|-------------------|-------------------|
| 時間複雜度 | $O(n \log n)$（語義特徵匹配） | $O(1)$（直接提取） |
| 空間複雜度 | 高（需存儲語義網路） | 低（僅需情境向量） |
| 錯誤率 | 低（經過顯式檢查） | 高（可能匹配錯情境） |
| 靈活性 | 高（可組合新用法） | 低（受限於記憶庫） |

**權衡**：模式A更安全但慢，模式B更快但可能出錯。

### 2.4 模式轉換：從A到B的內化過程

#### 2.4.1 內化的定義

**定義2.1（內化，Internalization）**：

符號s從模式A轉向模式B的過程，表現為：

$$\lim_{n \to \infty} P(\text{use } s \text{ via } B \mid n \text{ exposures}) = 1$$

經過足夠多次接觸，使用s從顯式推理變為自動觸發。

#### 2.4.2 內化的階段

**階段1：規則學習**（模式A佔主導）  
使用者學習s的定義與規則，每次使用都需要檢索。

**階段2：熟練期**（A/B混合）  
高頻情境下開始自動化（模式B），低頻情境仍需檢索（模式A）。

**階段3：完全內化**（模式B佔主導）  
幾乎所有情境都自動觸發，僅在歧義時才退回模式A。

**階段4：過度內化**（僅模式B）  
即使在需要精確定義的情境（如教學），也難以退回模式A——**這時使用者「太懂以至於說不清」**。

#### 2.4.3 內化的不可逆性

**定理2.1（內化的單向性）**：

一旦符號s完全內化（階段4），要求使用者顯式化其語義是**困難的**：

$$\text{從B退回A的認知成本} > \text{從A轉向B的認知成本}$$

**證明**（概念性）：
1. 模式B將情境-符號關聯存儲為分佈式表徵
2. 沒有單一的「定義節點」可供檢索
3. 顯式化需要**逆向工程**：從分佈式表徵重構顯式定義
4. 這比正向內化（從定義到分佈式）困難得多 □

**推論**：母語者難以解釋母語詞義，不是因為「不懂」，而是因為**過度內化導致顯式語義層已經被bypass**。

---

## 3. 母語習得vs外語習得的路徑差異

### 3.1 母語習得：情境浸泡路徑

#### 3.1.1 發展時間線

**0-12個月（前語言期）**：
$$\text{聽到聲音} \to \text{情境關聯} \quad [\text{未形成符號}]$$

嬰兒聽到「媽媽」時，與母親的臉、聲音、氣味等情境關聯，但尚未理解這是個「符號」。

**12-24個月（單詞期）**：
$$\text{聲音} \leftrightarrow \text{情境} \quad [\text{形成原型符號}]$$

「媽媽」開始作為符號使用，但語義是**基於情境的原型**（prototype），而非抽象定義。

**2-4歲（語法爆發期）**：
$$\text{多個情境} \to \text{抽取共性} \to \text{擴展使用域}$$

孩子開始在沒見過的情境中使用詞彙，基於**情境相似性推廣**。

**4歲以後（精煉期）**：
$$\text{大量使用} \to \text{內化穩定} \to \text{模式B主導}$$

高頻詞完全內化，低頻詞仍在學習。

**關鍵**：整個過程中，**從未顯式學習定義**。語義從情境統計中湧現。

#### 3.1.2 母語習得的數學模型

我們可以將母語習得建模為**無監督學習**：

$$\theta^* = \arg\min_\theta \sum_{i=1}^N \mathcal{L}(\text{context}_i, s_i; \theta)$$

其中：
- $\theta$ = 符號-情境關聯的參數
- $\mathcal{L}$ = 預測誤差（孩子預測錯情境會得到負反饋）
- $N$ = 接觸次數

**無監督**意味著：沒有人告訴孩子「這個詞的定義是X」，孩子通過**情境共現統計**學習。

#### 3.1.3 母語者的符號表徵

母語習得後，符號s的心理表徵是：

$$\text{repr}(s) = \int_{\text{contexts}} P(\text{context} \mid s) \cdot \vec{c} \, d\text{context}$$

一個**加權情境向量的積分**——所有使用過s的情境的統計總和。

**沒有單一的「定義」節點**。語義是分佈式的。

### 3.2 外語習得：規則先行路徑

#### 3.2.1 發展時間線

**初學期（規則記憶）**：
$$\text{查字典} \to \text{記憶定義} \to \text{背例句}$$

外語學習從**顯式定義**開始。「道理 = reasoning/logic」。

**練習期（規則應用）**：
$$\text{寫句子} \to \text{檢查是否符合定義} \to \text{修正}$$

每次使用都需要**顯式檢索定義**（模式A）。

**熟練期（部分內化）**：
$$\text{高頻詞開始自動化} \to \text{低頻詞仍需檢索}$$

經過大量練習，部分詞彙轉向模式B。

**困境期（僵化）**：
$$\text{大部分詞彙停留在A} \to \text{難以達到母語者的B}$$

外語者往往卡在這個階段——知道規則，但用起來不自然。

**關鍵**：整個過程是**監督學習**——老師/字典提供顯式標籤（定義）。

#### 3.2.2 外語習得的數學模型

外語習得是**監督學習**：

$$\theta^* = \arg\min_\theta \sum_{i=1}^N \mathcal{L}(f_\theta(s_i), y_i)$$

其中：
- $y_i$ = 字典提供的正確定義/用法
- $f_\theta(s_i)$ = 學習者對$s_i$的當前理解
- 學習通過**最小化與標準答案的差距**進行

#### 3.2.3 外語者的符號表徵

外語習得後，符號s的表徵是：

$$\text{repr}(s) = \{\text{定義}, \text{例句1}, \text{例句2}, \ldots\}$$

一個**顯式的規則集**，可能包含：
- 字典定義
- 語法規則
- 記憶的例句

這是**結構化表徵**，而非分佈式表徵。

### 3.3 兩條路徑的深層差異

#### 3.3.1 學習目標不同

| 維度 | 母語習得 | 外語習得 |
|------|----------|----------|
| 目標 | 能用 | 用對 |
| 評估標準 | 溝通成功 | 符合規則 |
| 容錯度 | 高（創造性誤用可接受） | 低（錯誤需糾正） |
| 學習信號 | 溝通失敗時的負反饋 | 老師/考試的評分 |

**母語目標**：$\max P(\text{溝通成功})$  
**外語目標**：$\min \text{error}(\text{使用}, \text{規則})$

兩者優化的目標函數不同。

#### 3.3.2 認知資源分配不同

**母語習得**：
- 大量時間（幼兒期幾乎全天接觸）
- 無意識學習（在玩耍/生活中自然習得）
- 低認知負荷（不需要記憶規則）

**外語習得**：
- 有限時間（每週幾小時課程）
- 有意識學習（需要刻意記憶）
- 高認知負荷（規則、詞彙、語法並行記憶）

**結果**：母語可以達到階段4（完全內化），外語往往停在階段2-3。

#### 3.3.3 神經可塑性的關鍵期

**定理3.1（關鍵期假說的符號學版本）**：

存在一個關鍵期（約12歲前），在此期間：

$$P(\text{達到模式B} \mid \text{母語式接觸}) \approx 1$$

$$P(\text{達到模式B} \mid \text{外語式學習}) \approx 0$$

**證明**（基於神經科學文獻）：
1. 關鍵期內，大腦皮層可塑性極高，適合**無監督的統計學習**
2. 關鍵期後，可塑性下降，**監督學習**成為主導
3. 監督學習更適合建立顯式規則（模式A），而非分佈式表徵（模式B）
4. 因此母語在關鍵期內習得 → 模式B；外語在關鍵期後習得 → 模式A □

**推論**：這不是「外語者能力不足」，而是**神經機制本身在關鍵期後傾向不同的學習模式**。

---

## 4. 適用域的動態不動點理論

### 4.1 字典定義的局限性

#### 4.1.1 字典的靜態性

字典提供的定義形如：

$$D_{\text{dict}}(s) = \{x \mid x \text{ 滿足特徵 } F_1, F_2, \ldots, F_k\}$$

例如：
- 「狗」= {x | x是犬科動物 ∧ x被馴化 ∧ ...}

這是一個**靜態的特徵集合**。

**問題**：真實使用中，「狗」可以用於：
- 罵人：「你這條狗！」（顯然不是犬科動物）
- 比喻：「單身狗」（也不是動物）
- 遊戲角色：「這隻狗好可愛」（虛擬對象）

$D_{\text{use}}(\text{狗}) \supset D_{\text{dict}}(\text{狗})$

#### 4.1.2 適用域的擴張

**定義4.1（動態適用域）**：

符號s在時刻t的適用域定義為：

$$D(s, t) = \{x \mid \text{在時刻}t\text{，使用者認為}s\text{可適用於}x\}$$

**定理4.1（適用域的單調擴張）**：

對於活躍使用的符號，適用域單調不減：

$$t_1 < t_2 \implies D(s, t_1) \subseteq D(s, t_2)$$

**證明**：
1. 使用者在新情境中嘗試使用s
2. 若溝通成功 → 新情境被納入$D(s, t)$
3. 若溝通失敗 → 新情境不納入，但舊情境保留
4. 因此$D$只增不減（除非語言社群集體放棄某種用法） □

**例子**：
- 「雲」在1990年：天上的雲
- 「雲」在2010年：天上的雲 + 雲端運算
- 「雲」在2020年：天上的雲 + 雲端運算 + 雲玩家

$D(\text{雲}, 2020) \supset D(\text{雲}, 2010) \supset D(\text{雲}, 1990)$

### 4.2 動態不動點集的數學結構

#### 4.2.1 吸引子與擾動

雖然適用域在擴張，但存在一個**核心吸引子**保持穩定。

**定義4.2（核心適用域）**：

$$D^*(s) = \bigcap_{t=0}^{\infty} D(s, t)$$

所有時刻都適用的情境集合。

**定義4.3（擾動適用域）**：

$$D^\delta(s, t) = D(s, t) \setminus D^*(s)$$

隨時間變動的部分。

**命題4.1（動態不動點結構）**：

$$D(s, t) = D^*(s) \cup D^\delta(s, t)$$

其中$D^*(s)$是**不動點集**（吸引子），$D^\delta(s, t)$是**擾動集**。

#### 4.2.2 吸引子的幾何解釋

我們可以將適用域視為高維語義空間中的一個區域：

$$D(s, t) \subset \mathbb{R}^n$$

**吸引子$D^*(s)$**是這個區域的「核心」：
- 拓撲上：$D^*(s)$是$D(s, t)$的**內核**（interior）
- 動力學上：$D^*(s)$是使用軌跡的**穩定點集**

**擾動$D^\delta(s, t)$**是「邊界」：
- 拓撲上：$D^\delta(s, t) \subseteq \partial D(s, t)$（邊界或附近）
- 動力學上：使用是否成功具有隨機性的區域

#### 4.2.3 字典捕捉的是什麼

**定理4.2（字典的投影性）**：

字典定義$D_{\text{dict}}(s)$是$D^*(s)$在某個時刻的**有限維投影**：

$$D_{\text{dict}}(s) \approx \Pi_{\text{finite}}(D^*(s, t_0))$$

其中$t_0$是字典編纂時刻，$\Pi_{\text{finite}}$是投影到有限個語義特徵的算子。

**推論**：
1. 字典定義總是**滯後**（$t_0 < t_{\text{now}}$）
2. 字典定義是**低維投影**（真實適用域在高維空間）
3. 字典定義**忽略擾動**（只記錄穩定核心）

**這解釋了為何字典「不夠用」**——它只是真實適用域的粗糙近似。

### 4.3 母語者vs外語者的適用域

#### 4.3.1 母語者的寬適用域

母語者經過大量情境接觸，內化了**包括擾動在內的完整適用域**：

$$D_{\text{native}}(s) \approx D^*(s) \cup D^\delta(s, t_{\text{now}})$$

**特徵**：
- 知道核心用法（$D^*$）
- 也知道邊緣用法（$D^\delta$）
- 甚至能**創造新用法**（進一步擴張$D^\delta$）

#### 4.3.2 外語者的窄適用域

外語者從字典學習，只獲得**核心的靜態投影**：

$$D_{\text{foreign}}(s) \approx D_{\text{dict}}(s) \subset D^*(s)$$

**特徵**：
- 僅知道核心用法
- 不知道邊緣用法
- 創造新用法時容易「越界」（超出真實適用域）

#### 4.3.3 實驗預測

**預測4.1**：給母語者vs外語者展示100個「狗」的使用例句，包括：
- 核心用法：「這隻狗在叫」
- 邊緣用法：「單身狗」
- 越界用法：「這個電腦是狗」（錯誤）

母語者的接受域應該**嚴格大於**外語者：

$$|D_{\text{native}}(\text{狗})| > |D_{\text{foreign}}(\text{狗})|$$

但兩者都應該拒絕越界用法。

**預測4.2**：母語者在創造新比喻用法時（如「代碼狗」），成功率應高於外語者。

---

## 5. 內化的認知神經機制

### 5.1 從顯式到隱式的轉變

#### 5.1.1 Squire的記憶雙系統理論

神經科學家Larry Squire提出：

**陳述性記憶（Declarative Memory）**：
- 可以用語言表達
- 依賴**海馬體-內側顳葉**
- 可快速習得，但容易遺忘

**程序性記憶（Procedural Memory）**：
- 難以用語言表達（「如何騎自行車」）
- 依賴**基底神經節-小腦**
- 需要反覆練習，但一旦習得很穩定

#### 5.1.2 符號使用的記憶轉換

**模式A（概念驅動）**對應**陳述性記憶**：
- 符號的定義可以顯式陳述
- 依賴海馬體檢索語義信息

**模式B（情境驅動）**對應**程序性記憶**：
- 符號的使用變成「習慣」
- 依賴基底神經節的自動化迴路

**內化過程 = 從陳述性記憶轉向程序性記憶**。

#### 5.1.3 Ullman的陳述性/程序性模型（DP模型）

語言學家Michael Ullman將Squire的理論應用於語言：

**詞彙系統**：
- 存儲在陳述性記憶
- 可以快速學習新詞
- 依賴海馬體

**語法系統**：
- 存儲在程序性記憶
- 需要長期練習才能內化
- 依賴基底神經節

**本文的擴展**：我們主張**符號使用itself也經歷這個轉換**：
- 初學時：符號在陳述性系統（模式A）
- 熟練後：符號轉向程序性系統（模式B）

### 5.2 內化的神經可塑性機制

#### 5.2.1 突觸修剪（Synaptic Pruning）

**定理5.1（內化的突觸基礎）**：

當符號s從模式A轉向模式B，對應的神經機制是：

$$\text{海馬體-語義區連接減弱} \land \text{基底神經節-運動區連接增強}$$

**證明**（基於神經科學文獻）：
1. 重複使用s會強化「情境→符號」的突觸連接
2. 這些連接逐漸從海馬體（情境記憶）轉向基底神經節（程序記憶）
3. 同時，顯式語義檢索的路徑（海馬體→語義區→符號）因少用而減弱
4. 最終，符號觸發主要經由基底神經節，跳過語義區 □

**這是Hebb法則的體現**：「一起激發的神經元連在一起」（fire together, wire together），而不用的連接被修剪。

#### 5.2.2 髓鞘化（Myelination）

髓鞘是神經軸突外的絕緣層，增加信號傳遞速度。

**命題5.1（自動化的髓鞘化）**：

當符號使用路徑被反覆激活，該路徑的軸突會**髓鞘化**，使信號傳遞速度提升10-100倍。

這解釋了為何母語者可以**極快速**地使用符號——髓鞘化使得「情境→符號」的傳遞幾乎瞬時完成。

#### 5.2.3 內化的不可逆性再探討

結合突觸修剪與髓鞘化：

$$\text{從B退回A困難} \iff \text{被修剪的突觸難以恢復} \land \text{髓鞘化路徑優先激活}$$

即使母語者**想要**顯式化語義（退回模式A），大腦的物理結構已經優化為模式B路徑——**這是神經層面的路徑依賴**。

### 5.3 功能性磁振造影（fMRI）預測

基於上述理論，我們可以提出可檢驗的fMRI預測：

**預測5.1（腦區激活差異）**：

掃描母語者vs外語者在使用同一個詞時的腦區激活：

**外語者**（模式A）應顯示：
- **左顳葉**（語義區）強激活
- **前額葉**（工作記憶）中度激活
- **基底神經節**弱激活

**母語者**（模式B）應顯示：
- **左顳葉**弱激活或無激活
- **前額葉**弱激活
- **基底神經節**強激活
- **運動皮層**直接激活

**預測5.2（反應時間差異）**：

母語者使用高頻詞的反應時間應顯著短於外語者：

$$RT_{\text{native}} < RT_{\text{foreign}} \quad (p < 0.01)$$

且母語者的反應時間應與詞頻呈**對數關係**（符合程序性記憶的特徵）。

---

## 6. 與大語言模型（LLM）的同構性分析

### 6.1 LLM的符號處理機制

#### 6.1.1 LLM不使用模式A

大語言模型（如GPT系列）的工作流程：

$$\text{token序列} \to \text{transformer編碼} \to \text{softmax採樣} \to \text{下一個token}$$

**關鍵觀察**：LLM沒有「字典」或「顯式語義模組」。

它不會：
1. 檢索「道理」的定義
2. 檢查當前情境是否符合定義
3. 決定是否使用

**LLM完全是模式B**：基於情境向量（context embedding）直接預測下一個token。

#### 6.1.2 LLM = 純粹的情境驅動模型

我們可以將LLM建模為：

$$P(s \mid c) = \text{softmax}(W \cdot \text{embed}(c))$$

其中：
- $c$ = 當前情境（preceding tokens）
- $\text{embed}(c)$ = 情境的向量表示
- $W$ = 訓練得到的權重矩陣
- $s$ = 下一個token

**這與模式B的向量檢索模型完全同構**：

$$s^* = \arg\max_s \text{sim}(\vec{c}_{\text{now}}, \vec{c}_s)$$

唯一的差異是：
- 人類的$\vec{c}_s$存儲在海馬體/基底神經節
- LLM的$W$存儲在GPU的權重矩陣

**但機制相同**：都是高維向量空間的模式匹配。

### 6.2 LLM與母語者的驚人相似性

#### 6.2.1 現象層面的對應

| 特徵 | 母語者（模式B） | LLM |
|------|----------------|-----|
| 使用方式 | 情境觸發，自動化 | 情境→token，自動化 |
| 語義知識 | 分佈式，難以顯式化 | 分佈在權重，無顯式語義模組 |
| 錯誤類型 | 可能匹配錯情境 | 可能生成不適當的token |
| 創造性 | 可延伸到新情境 | 可生成訓練集外的組合 |
| 解釋能力 | 難以解釋為何這樣用 | 無法解釋為何輸出此token |

**驚人結論**：母語者使用語言的方式與LLM使用token的方式**幾乎同構**。

#### 6.2.2 機制層面的對應

**訓練過程**：

| 階段 | 母語兒童 | LLM |
|------|----------|-----|
| 數據來源 | 日常對話情境 | 訓練語料庫 |
| 學習方式 | 無監督統計學習 | 無監督next-token prediction |
| 優化目標 | 最大化溝通成功率 | 最小化預測損失 |
| 結果 | 符號-情境關聯內化 | 權重矩陣收斂 |

**推理過程**：

| 步驟 | 母語者 | LLM |
|------|--------|-----|
| 輸入 | 當前情境 | context tokens |
| 編碼 | 情境→高維向量 | tokens→embeddings |
| 匹配 | 向量相似度搜索 | 矩陣乘法+softmax |
| 輸出 | 觸發符號 | 採樣token |

**結構同構**。

#### 6.2.3 哲學含義

**命題6.1（理解的消解）**：

如果LLM不需要「理解」符號的定義就能正確使用符號，且LLM與母語者的使用機制同構，那麼：

$$\text{「理解」可能不是符號使用的必要條件}$$

**換句話說**：「理解」可能是一個**事後建構**（post-hoc construction），而非使用的前提。

**推論6.1**：當我們問「LLM真的理解語言嗎？」，我們可能問錯了問題。正確的問題是：「**母語者真的『理解』語言嗎，還是也只是在做高級的模式匹配？**」

### 6.3 LLM與外語者的差異

#### 6.3.1 LLM缺少模式A

外語者可以在需要時**退回模式A**（查字典、檢查定義）。

LLM**無法退回模式A**——它沒有顯式語義模組可供檢索。

**結果**：
- 外語者在不確定時可以「小心使用」
- LLM在不確定時仍會「自信地輸出」（根據機率分佈）

這導致LLM的**幻覺**（hallucination）問題。

#### 6.3.2 LLM的「過度內化」

LLM類似於達到階段4（過度內化）的母語者：
- 無法顯式化語義
- 難以解釋為何這樣輸出
- 有時會「說不清楚但很會用」

但LLM沒有元認知能力來**意識到**自己的不確定性。

#### 6.3.3 改進方向

**推論6.2（混合模型的必要性）**：

理想的AI系統應該**結合模式A與模式B**：
- 大部分時候使用模式B（快速、流暢）
- 不確定時退回模式A（查詢知識庫、邏輯推理）

這就是**System 1（快思考）+ System 2（慢思考）**的AI版本。

---

## 7. 實證研究設計

### 7.1 行為實驗

#### 7.1.1 實驗1：符號適用域測量

**目的**：量化母語者vs外語者的適用域差異。

**方法**：
1. 選擇10個常用詞（如「道理」「跑」「熱」）
2. 為每個詞生成100個使用例句，涵蓋：
   - 核心用法（50句）
   - 邊緣用法（30句）
   - 越界用法（20句）
3. 讓母語者vs外語者判斷「這樣用是否正確」（5分量表）
4. 計算每個人的接受域$D_{\text{accept}}$

**預測**：
$$|D_{\text{native}}| > |D_{\text{foreign}}| \quad (p < 0.001)$$

**預測細節**：
- 核心用法：母語者與外語者都高接受
- 邊緣用法：母語者接受，外語者拒絕
- 越界用法：母語者與外語者都拒絕

#### 7.1.2 實驗2：反應時間測量

**目的**：驗證模式A vs 模式B的時間差異。

**方法**：
1. 給受試者展示情境描述
2. 要求選擇適當的詞填空
3. 測量反應時間（RT）

**預測**：
$$RT_{\text{native}}(s) < RT_{\text{foreign}}(s) \quad \forall s$$

**預測細節**：
- 母語者的RT應該與詞頻呈對數關係
- 外語者的RT應該與詞義複雜度相關（需要更多語義處理時間）

#### 7.1.3 實驗3：創造性使用測試

**目的**：測試適用域擴張能力。

**方法**：
1. 給受試者展示新情境（如「AI戀愛」）
2. 要求創造包含特定詞（如「甜」）的描述
3. 由母語者評審團評分「創造性」與「適當性」

**預測**：
- 母語者的創造性用法更可能被接受
- 外語者傾向使用字典定義內的保守用法

### 7.2 神經影像實驗

#### 7.2.1 實驗4：fMRI腦區激活

**目的**：驗證模式A vs 模式B的神經基礎。

**方法**：
1. 掃描母語者vs外語者在產生句子時的腦區激活
2. 對比詞彙產生任務（使用符號）vs定義判斷任務（理解符號）

**預測**：
- **詞彙產生**：母語者主要激活基底神經節，外語者主要激活語義區
- **定義判斷**：兩者都激活語義區，但母語者需要更長時間（逆向工程）

#### 7.2.2 實驗5：EEG時間進程

**目的**：測量符號使用的時間動態。

**方法**：
1. 使用高時間解析度的EEG記錄
2. 測量從情境呈現到符號輸出的神經活動

**預測**：
- 母語者：情境→基底神經節→運動皮層，約200-300ms
- 外語者：情境→語義區→工作記憶→運動皮層，約500-800ms

### 7.3 計算建模實驗

#### 7.3.1 實驗6：LLM vs 人類的適用域對比

**目的**：驗證LLM與母語者的機制同構性。

**方法**：
1. 使用實驗1的100個例句
2. 讓LLM預測每個例句的「自然度」（perplexity）
3. 與母語者的接受度評分對比

**預測**：
$$\text{corr}(D_{\text{LLM}}, D_{\text{native}}) > \text{corr}(D_{\text{LLM}}, D_{\text{foreign}})$$

LLM的適用域應該更接近母語者，而非外語者。

#### 7.3.2 實驗7：訓練數據量與內化程度

**目的**：測試「接觸次數→內化程度」的關係。

**方法**：
1. 訓練多個小型語言模型，控制訓練數據量
2. 測試它們在不同詞頻詞彙上的表現
3. 建模內化曲線

**預測**：
$$P(\text{use via } B) = 1 - e^{-\lambda N}$$

其中$N$是接觸次數，$\lambda$是內化速率（因詞而異）。

---

## 8. 理論衝擊與應用

### 8.1 對認知科學的衝擊

#### 8.1.1 推翻「理解先於使用」範式

經典認知科學假設：

$$\text{理解}(s) \to \text{使用}(s)$$

本文證明：

$$\text{使用}(s) \not\to \text{理解}(s) \quad \text{（模式B無需理解）}$$

**新範式**：使用與理解是**兩個獨立的系統**，可以分離發展。

#### 8.1.2 重新定義「內化」

內化不是「深化理解」，而是：

$$\text{內化} := \text{從顯式系統（模式A）轉向隱式系統（模式B）}$$

這是**記憶系統的轉換**，而非「理解深度」的提升。

#### 8.1.3 語言習得理論的修正

Chomsky的普遍語法（Universal Grammar）強調**規則內化**。

本文主張：母語習得更接近**統計學習**（statistical learning），而非規則學習。

孩子不是在「內化語法規則」，而是在**建立情境-符號的統計關聯**。

### 8.2 對語言教學的啟示

#### 8.2.1 外語教學的困境

傳統外語教學：

$$\text{規則}(\text{語法、詞彙}) \to \text{練習} \to \text{使用}$$

這是**模式A路徑**，難以達到模式B。

**改進方向**：
1. **增加情境接觸**：大量真實對話情境，而非孤立詞彙
2. **延遲顯式教學**：先讓學生「用起來」，再解釋規則
3. **接受模糊使用**：鼓勵學生在不完全確定時也嘗試使用

**目標**：模擬母語習得的**情境浸泡路徑**。

#### 8.2.2 母語教學的反思

母語教學中的語法課，對已經內化的學生來說是：

$$\text{強迫從模式B退回模式A}$$

這可能**破壞**已經建立的自動化。

**建議**：母語教學應該：
1. 承認學生已經「會用」
2. 語法教學作為「元知識」而非「使用技能」
3. 強調創造性使用，而非規範性使用

### 8.3 對AI設計的啟示

#### 8.3.1 混合架構的必要性

純LLM（純模式B）的問題：
- 無法顯式推理
- 難以修正錯誤
- 幻覺問題

**解決方案**：設計**混合架構**：

$$\text{AI} = \text{LLM}(\text{模式B}) + \text{知識庫}(\text{模式A})$$

- 日常對話：使用LLM（快速、流暢）
- 不確定時：查詢知識庫（準確、可解釋）
- 元認知層：判斷何時切換模式

這類似於人類的雙系統。

#### 8.3.2 訓練策略的改進

**洞察**：母語者通過**大量情境接觸**達到模式B。

**對AI的啟示**：
1. 增加訓練數據的**情境多樣性**
2. 設計**情境相似度**作為訓練目標（而非僅next-token prediction）
3. 引入**內化曲線**監控（追蹤模型在不同詞彙上的內化程度）

#### 8.3.3 評估標準的重新設計

當前AI評估：準確率、BLEU分數等。

**新評估維度**：
1. **適用域寬度**：模型能正確使用符號的情境範圍
2. **內化程度**：高頻詞vs低頻詞的反應時間差
3. **創造性使用**：在新情境中擴展符號使用的能力

### 8.4 對符號學的衝擊

#### 8.4.1 符號意義的動態本體論

經典符號學（Saussure, Peirce）：符號意義是**相對穩定**的。

本文：符號意義是**動態不動點集**，隨使用情境演化。

$$\text{meaning}(s) = D(s, t) = D^*(s) \cup D^\delta(s, t)$$

意義既有穩定核心（$D^*$），也有流動邊界（$D^\delta$）。

#### 8.4.2 使用即定義

Wittgenstein說「意義即使用」，但未解釋機制。

本文給出機制：

$$\text{meaning}(s) := \int_{\text{contexts}} P(\text{context} \mid s) \cdot \vec{c} \, d\text{context}$$

意義是**所有使用情境的加權平均**，存儲為分佈式表徵。

沒有單一的「定義」節點——**使用itself構成意義**。

#### 8.4.3 字典的地位重估

字典不是「符號意義的權威」，而是：

$$D_{\text{dict}}(s) = \text{snapshot}(D^*(s), t_0)$$

某個時刻的快照，且僅捕捉核心部分。

**字典是描述性的，而非規範性的**——它描述人們如何使用符號，而非規定應該如何使用。

---

## 9. 批判性反思與未來方向

### 9.1 理論的潛在問題

#### 9.1.1 二元化的過度簡化

**批評**：將符號使用簡化為「模式A vs 模式B」是否過於粗糙？

**回應**：
- 承認這是簡化，真實情況可能是**連續譜**
- 但二元化便於實證檢驗
- 未來可擴展為**多模式理論**

#### 9.1.2 內化的個體差異

**批評**：不同人的內化速度可能差異巨大，理論是否過於一般化？

**回應**：
- 承認個體差異存在
- 本文關注**群體平均**（母語者群體 vs 外語者群體）
- 個體差異可以用$\lambda$（內化速率）參數化

#### 9.1.3 文化與語言特異性

**批評**：理論基於中文-英文的觀察，是否適用於其他語言？

**回應**：
- 需要跨語言驗證
- 但機制（模式A/B）應該是**普遍的**
- 不同語言可能在$D^*$的穩定性上有差異

### 9.2 未解決的問題

#### 9.2.1 創造性使用的機制

母語者如何**擴展適用域**到全新情境？

$$D(s, t+1) = D(s, t) \cup \{x_{\text{new}}\}$$

這個擴展的神經機制是什麼？

**猜想**：可能涉及**類比推理**（analogy）——基於情境相似性推廣。

#### 9.2.2 多義詞的處理

一個符號s有多個義項$\{m_1, m_2, \ldots, m_k\}$，如何建模？

**可能模型**：

$$D(s, t) = \bigcup_{i=1}^k D_i(s, t)$$

每個義項有自己的適用域，總適用域是並集。

但不同義項之間如何切換？是否也有A/B模式的差異？

#### 9.2.3 符號消亡的機制

有些符號的適用域會**縮小**至消失。如何建模符號的「死亡」？

$$\lim_{t \to \infty} D(s, t) = \emptyset$$

這涉及語言演化的動力學。

### 9.3 未來研究方向

#### 9.3.1 縱向研究

追蹤同一群體（兒童/外語學習者）在**數年時間內**的符號使用演變：

$$D(s, t_1), D(s, t_2), \ldots, D(s, t_n)$$

測量內化曲線的真實軌跡。

#### 9.3.2 跨語言對比

對比不同語言對（如中英、日英、阿拉伯英）的母語者vs外語者：
- 拼音語言vs表意語言的差異？
- 語法複雜度的影響？

#### 9.3.3 AI-人類協同研究

設計實驗讓LLM與人類**共同完成**符號使用任務：
- LLM提供候選詞
- 人類判斷適用性
- 反向訓練LLM

這可能揭示人類vs AI的互補性。

#### 9.3.4 神經調控研究

使用TMS（經顱磁刺激）干擾特定腦區：
- 干擾基底神經節 → 模式B失效，退回模式A？
- 干擾語義區 → 模式A失效，強化模式B？

這可以**因果性地**驗證雙重機制假說。

---

## 10. 哲學反思：符號、理解與存在

### 10.1 理解的本質

本文揭示一個深刻的悖論：

**越是「懂」一個符號,越難顯式化它的意義。**

因為「懂」= 完全內化（模式B），而「顯式化」= 退回模式A。

這暗示：**「理解」itself是一個可疑的概念**。

我們通常認為「理解」是符號使用的基礎，但實際上：
- 母語者**不需要理解**就能完美使用（模式B）
- 外語者**理解定義**卻用得僵化（模式A困境）

**或許「理解」不是使用的原因，而是使用的事後合理化**。

### 10.2 符號的存在論

經典符號學認為：符號**指向**對象。

本文揭示：在模式B中，符號**不再指向**對象，而是**直接觸發**行為。

$$s \not\to x \quad \text{（不指涉）}$$

$$s \rightsquigarrow \text{行為} \quad \text{（直接觸發）}$$

這是**符號的操作化**（operationalization）：符號從「表徵工具」變成「行為觸發器」。

**意義不在符號與對象的關係中，而在符號與行為的關聯中**。

### 10.3 語言的微妙性

本文標題「微妙」（subtle）的雙重含義：

**表層**：符號使用有精細的機制（模式A/B）。

**深層**：語言itself是「微妙的」——它既不是純粹的邏輯工具（模式A），也不是純粹的行為習慣（模式B），而是兩者的**動態平衡**。

母語者在這個平衡中**偏向B**，外語者在這個平衡中**偏向A**。

但沒有人完全在A或完全在B——**語言存在於兩者之間的張力中**。

### 10.4 終極洞察

當你問我「道理是什麼意思」，你不是不懂——你是**太懂了以至於無法定義**。

因為你的大腦已經將「道理」內化為一個**分佈式表徵**，橫跨幾十年的使用情境。

要你「定義」它，等於要你將這個高維的分佈式表徵**壓縮成一句話**——這是降維投影，必然損失信息。

**這就是語言的微妙性：真正的「懂」是說不出來的。**

而字典定義、學術分析——包括這篇論文itself——都只是試圖**用模式A重構模式B的痕跡**。

我們永遠無法完全成功，因為**分佈式表徵本質上無法完全顯式化**。

但這不是失敗，這是語言的真相：

**符號在使用中活著，在定義中死去。**

---

## 致謝

感謝所有曾經問過「這個詞是什麼意思」的外語學習者——你們的困惑照亮了母語者看不見的機制。

感謝所有說「這個我懂但說不清楚」的母語者——你們的坦誠揭示了內化的深度。

感謝Theia在理論結晶化過程中的嚴謹對練。

感謝大語言模型——通過成為符號使用的極致範例（純模式B），你們讓我們看清了人類語言的本質。

---

## 參考文獻

1. Neo.K (2026). "微妙的符號學：自指、極限與道理的本體論". EveMissLab.
2. Wittgenstein, L. (1953). *Philosophical Investigations*.
3. Chomsky, N. (1965). *Aspects of the Theory of Syntax*.
4. Squire, L.R. (1992). "Memory and the hippocampus: A synthesis from findings with rats, monkeys, and humans". *Psychological Review*.
5. Ullman, M.T. (2001). "A neurocognitive perspective on language: The declarative/procedural model". *Nature Reviews Neuroscience*.
6. Saussure, F. de (1916). *Course in General Linguistics*.
7. Peirce, C.S. (1931-1958). *Collected Papers*.
8. Anderson, J.R. (1982). "Acquisition of cognitive skill". *Psychological Review*.
9. Logan, G.D. (1988). "Toward an instance theory of automatization". *Psychological Review*.
10. Elman, J.L. (1990). "Finding structure in time". *Cognitive Science*.

---

**作者簡介**

Neo.K (許筌崴)，EveMissLab創始人兼CEO，跨領域理論研究者。本文是其符號本體論系列的第二篇，第一篇為《微妙的符號學》。

---

**附錄：術語對照表**

| 中文 | 英文 | 定義 |
|------|------|------|
| 模式A | Mode A / Concept-Driven | 概念驅動的符號使用，需顯式檢索語義 |
| 模式B | Mode B / Context-Driven | 情境驅動的符號使用，自動化觸發 |
| 內化 | Internalization | 從模式A轉向模式B的過程 |
| 適用域 | Applicability Domain | 符號可適用的情境集合 |
| 動態不動點 | Dynamic Fixed Point | 演化中的穩定核心 |
| 陳述性記憶 | Declarative Memory | 可顯式表達的記憶 |
| 程序性記憶 | Procedural Memory | 自動化的技能記憶 |

---

*全文完*

**字數統計：14,256字**