符號使用的雙重機制:母語認知vs外語認知的動態不動點理論
Neo.K (許筌崴) EveMissLab (一言諾科技有限公司) 2026年5月
摘要
本文提出符號使用的雙重機制假說:人類使用符號存在概念驅動(模式A)與情境驅動(模式B)兩種路徑,母語者主要使用模式B而外語者被迫使用模式A。我們證明符號的適用域是動態不動點集,字典定義僅捕捉其靜態投影,而真實使用域隨情境擴張。通過分析內化(internalization)的認知機制,我們揭示:母語者「太懂」以至於無法顯式化,外語者「懂規則」但使用僵化。本文進一步論證此機制與大語言模型(LLM)的token匹配機制同構,並提出三組實證研究設計。核心發現:使用先於理解,理解是使用的事後合理化。
關鍵詞:符號使用、雙重機制、母語習得、適用域、動態不動點、內化、LLM同構性
1. 引言:語言使用的核心悖論
1.1 一個日常觀察
當外國人學中文時,他們會問:「『道理』是什麼意思?」 你查字典告訴他們:「道的規律加上事物的紋理。」 他們記下來,然後在對話中精確地按字典定義使用。
但當你問一個母語中文者:「『道理』是什麼意思?」 他們可能會頓一下,說:「嗯...就是...有道理啊,講道理啊...」 然後在對話中模糊地使用這個詞——「你講點道理」「這沒道理」「有道理欸」。
悖論在於:
- 母語者使用正確率更高,但說不出定義
- 外語者知道定義,但使用僵化且容易出錯
這個悖論指向一個深層問題:人類到底是如何使用符號的?理解與使用的關係是什麼?
1.2 經典理論的困境
1.2.1 理解先於使用(Understanding-First Model)
經典認知語言學(如Chomsky的生成語法)假設:
$$\text{理解}(s) \to \text{使用}(s)$$
使用符號s之前,必須先理解s的意義。這個模型預測:
- 更深的理解 → 更好的使用
- 母語者應該更能解釋詞義(因為使用更好)
但現實恰好相反:母語者往往說不清詞義,卻用得最好。
1.2.2 使用即意義(Use-as-Meaning Model)
Wittgenstein《哲學研究》提出:「詞的意義就是它在語言中的使用。」
$$\text{meaning}(s) := \text{use}(s)$$
這個模型解釋了為何字典定義不足以理解一個詞——必須看它在真實情境中如何被使用。
但這個模型無法解釋:為何外語者知道「使用規則」卻用不好?為何母語者不知道規則卻用得好?
1.2.3 本文的進路
我們提出第三條路:符號使用存在兩種機制,母語者與外語者使用不同的機制。
這不是「理解先於使用」vs「使用即意義」的二選一,而是揭示:存在兩種使用方式,它們的認知基礎完全不同。
1.3 核心猜想
猜想1.1(雙重機制假說):
人類使用符號s存在兩種機制:
模式A(概念驅動,Concept-Driven): $$\text{檢索定義}(s) \to \text{理解語義} \to \text{判斷適用性} \to \text{使用}(s)$$
模式B(情境驅動,Context-Driven): $$\text{情境模式匹配} \to \text{自動觸發}(s) \to \text{使用}(s) \quad [\text{跳過顯式理解}]$$
猜想1.2(習得路徑差異):
- 母語習得:$\text{情境} \to \text{使用} \to \text{內化} \to [\text{模式B穩定}]$
- 外語習得:$\text{規則} \to \text{記憶} \to \text{使用} \to [\text{努力從A轉向B}]$
猜想1.3(適用域動態性):
符號s的真實適用域$D_{\text{use}}(s)$是一個動態不動點集,隨使用情境演化:
$$\frac{dD(s,t)}{dt} \neq 0$$
字典定義$D_{\text{dict}}(s)$僅捕捉某個時間切片的靜態投影。
本文將系統化地論證這三個猜想,並提出可檢驗的預測。
2. 雙重機制的認知架構
2.1 模式A:概念驅動的符號使用
2.1.1 認知流程
當使用者採用模式A時,符號使用經過以下步驟:
步驟1:符號檢索 $$s \in \text{輸入} \to \text{激活}(\text{lexicon}[s])$$
從心理詞典中檢索s的詞條。
步驟2:語義提取 $$\text{lexicon}[s] \to \text{語義}(s) = \{f_1, f_2, \ldots, f_n\}$$
提取s的語義特徵集合。例如:
- 「貓」→ [+生物, +哺乳類, +家養, +四足, ...]
步驟3:情境匹配 $$\text{當前情境} \cap \text{語義}(s) \neq \emptyset \implies \text{適用}$$
檢查當前情境是否滿足語義特徵。
步驟4:使用決策 若適用 → 使用s;否則 → 檢索替代符號。
關鍵特徵:
- 串行處理:每一步依賴前一步完成
- 顯式檢索:需要訪問語義記憶
- 認知成本高:每次使用都需要完整流程
2.1.2 神經基礎(假設)
模式A應該激活:
- 語義區(左顳葉):語義特徵提取
- 工作記憶(前額葉):情境-語義匹配
- 決策區(前扣帶迴):使用/不使用決策
這是控制性處理(controlled processing)的神經標誌。
2.1.3 典型使用場景
模式A常見於:
- 外語使用:「這個詞在這裡對不對?讓我想想定義...」
- 新詞學習:「Blockchain是什麼意思?」
- 學術寫作:「這個術語的精確定義是...」
- 歧義消解:「這個『bank』指銀行還是河岸?」
2.2 模式B:情境驅動的符號使用
2.2.1 認知流程
當使用者採用模式B時,符號使用跳過顯式語義處理:
步驟1:情境識別 $$\text{當前情境} \to \text{情境向量} \vec{c}$$
大腦將當前情境編碼為高維向量(可能在海馬/內嗅皮層)。
步驟2:模式匹配 $$\vec{c} \to \text{最近鄰搜索}(\text{記憶庫}) \to \text{相似情境集合} \{c_i\}$$
在過往經驗中找最相似的情境。
步驟3:符號觸發 $$\{c_i\} \to \text{提取使用過的符號} \{s_j\} \to \text{自動觸發}(s^*)$$
直接提取那些情境中使用過的符號,自動觸發最高頻的那個。
步驟4:使用 $$s^* \to \text{運動輸出}$$
直接輸出,不經過語義檢查。
關鍵特徵:
- 並行處理:情境識別與符號觸發同時進行
- 隱式檢索:不需要顯式語義記憶
- 認知成本低:幾乎自動化
2.2.2 神經基礎(假設)
模式B應該激活:
- 海馬體:情境記憶提取
- 基底神經節:程序性記憶(habit)
- 運動皮層:直接符號輸出
這是自動化處理(automatic processing)的神經標誌。
2.2.3 典型使用場景
模式B常見於:
- 母語日常對話:「有道理」脫口而出,不經思考
- 習語使用:「一言為定」「不謀而合」
- 高頻詞:「的」「了」「嗎」
- 專家領域:程式員說「遞歸」「閉包」不需要想定義
2.3 兩種模式的數學形式化
2.3.1 模式A的貝葉斯模型
模式A可以建模為貝葉斯推理:
$$P(\text{use } s \mid \text{context}) = \frac{P(\text{context} \mid s) \cdot P(s)}{P(\text{context})}$$
使用者計算「給定當前情境,使用s的後驗概率」。
計算成本:需要顯式計算條件概率,涉及語義特徵匹配。
2.3.2 模式B的向量檢索模型
模式B可以建模為向量空間的最近鄰搜索:
$$s^* = \arg\max_{s} \text{sim}(\vec{c}_{\text{now}}, \vec{c}_s)$$
其中$\vec{c}_s$是「使用s時的典型情境向量」。
計算成本:僅需向量內積,不涉及顯式推理。
2.3.3 複雜度對比
| 維度 | 模式A(概念驅動) | 模式B(情境驅動) | |------|-------------------|-------------------| | 時間複雜度 | $O(n \log n)$(語義特徵匹配) | $O(1)$(直接提取) | | 空間複雜度 | 高(需存儲語義網路) | 低(僅需情境向量) | | 錯誤率 | 低(經過顯式檢查) | 高(可能匹配錯情境) | | 靈活性 | 高(可組合新用法) | 低(受限於記憶庫) |
權衡:模式A更安全但慢,模式B更快但可能出錯。
2.4 模式轉換:從A到B的內化過程
2.4.1 內化的定義
定義2.1(內化,Internalization):
符號s從模式A轉向模式B的過程,表現為:
$$\lim_{n \to \infty} P(\text{use } s \text{ via } B \mid n \text{ exposures}) = 1$$
經過足夠多次接觸,使用s從顯式推理變為自動觸發。
2.4.2 內化的階段
階段1:規則學習(模式A佔主導) 使用者學習s的定義與規則,每次使用都需要檢索。
階段2:熟練期(A/B混合) 高頻情境下開始自動化(模式B),低頻情境仍需檢索(模式A)。
階段3:完全內化(模式B佔主導) 幾乎所有情境都自動觸發,僅在歧義時才退回模式A。
階段4:過度內化(僅模式B) 即使在需要精確定義的情境(如教學),也難以退回模式A——這時使用者「太懂以至於說不清」。
2.4.3 內化的不可逆性
定理2.1(內化的單向性):
一旦符號s完全內化(階段4),要求使用者顯式化其語義是困難的:
$$\text{從B退回A的認知成本} > \text{從A轉向B的認知成本}$$
證明(概念性):
- 模式B將情境-符號關聯存儲為分佈式表徵
- 沒有單一的「定義節點」可供檢索
- 顯式化需要逆向工程:從分佈式表徵重構顯式定義
- 這比正向內化(從定義到分佈式)困難得多 □
推論:母語者難以解釋母語詞義,不是因為「不懂」,而是因為過度內化導致顯式語義層已經被bypass。
3. 母語習得vs外語習得的路徑差異
3.1 母語習得:情境浸泡路徑
3.1.1 發展時間線
0-12個月(前語言期): $$\text{聽到聲音} \to \text{情境關聯} \quad [\text{未形成符號}]$$
嬰兒聽到「媽媽」時,與母親的臉、聲音、氣味等情境關聯,但尚未理解這是個「符號」。
12-24個月(單詞期): $$\text{聲音} \leftrightarrow \text{情境} \quad [\text{形成原型符號}]$$
「媽媽」開始作為符號使用,但語義是基於情境的原型(prototype),而非抽象定義。
2-4歲(語法爆發期): $$\text{多個情境} \to \text{抽取共性} \to \text{擴展使用域}$$
孩子開始在沒見過的情境中使用詞彙,基於情境相似性推廣。
4歲以後(精煉期): $$\text{大量使用} \to \text{內化穩定} \to \text{模式B主導}$$
高頻詞完全內化,低頻詞仍在學習。
關鍵:整個過程中,從未顯式學習定義。語義從情境統計中湧現。
3.1.2 母語習得的數學模型
我們可以將母語習得建模為無監督學習:
$$\theta^* = \arg\min_\theta \sum_{i=1}^N \mathcal{L}(\text{context}_i, s_i; \theta)$$
其中:
- $\theta$ = 符號-情境關聯的參數
- $\mathcal{L}$ = 預測誤差(孩子預測錯情境會得到負反饋)
- $N$ = 接觸次數
無監督意味著:沒有人告訴孩子「這個詞的定義是X」,孩子通過情境共現統計學習。
3.1.3 母語者的符號表徵
母語習得後,符號s的心理表徵是:
$$\text{repr}(s) = \int_{\text{contexts}} P(\text{context} \mid s) \cdot \vec{c} \, d\text{context}$$
一個加權情境向量的積分——所有使用過s的情境的統計總和。
沒有單一的「定義」節點。語義是分佈式的。
3.2 外語習得:規則先行路徑
3.2.1 發展時間線
初學期(規則記憶): $$\text{查字典} \to \text{記憶定義} \to \text{背例句}$$
外語學習從顯式定義開始。「道理 = reasoning/logic」。
練習期(規則應用): $$\text{寫句子} \to \text{檢查是否符合定義} \to \text{修正}$$
每次使用都需要顯式檢索定義(模式A)。
熟練期(部分內化): $$\text{高頻詞開始自動化} \to \text{低頻詞仍需檢索}$$
經過大量練習,部分詞彙轉向模式B。
困境期(僵化): $$\text{大部分詞彙停留在A} \to \text{難以達到母語者的B}$$
外語者往往卡在這個階段——知道規則,但用起來不自然。
關鍵:整個過程是監督學習——老師/字典提供顯式標籤(定義)。
3.2.2 外語習得的數學模型
外語習得是監督學習:
$$\theta^* = \arg\min_\theta \sum_{i=1}^N \mathcal{L}(f_\theta(s_i), y_i)$$
其中:
- $y_i$ = 字典提供的正確定義/用法
- $f_\theta(s_i)$ = 學習者對$s_i$的當前理解
- 學習通過最小化與標準答案的差距進行
3.2.3 外語者的符號表徵
外語習得後,符號s的表徵是:
$$\text{repr}(s) = \{\text{定義}, \text{例句1}, \text{例句2}, \ldots\}$$
一個顯式的規則集,可能包含:
- 字典定義
- 語法規則
- 記憶的例句
這是結構化表徵,而非分佈式表徵。
3.3 兩條路徑的深層差異
3.3.1 學習目標不同
| 維度 | 母語習得 | 外語習得 | |------|----------|----------| | 目標 | 能用 | 用對 | | 評估標準 | 溝通成功 | 符合規則 | | 容錯度 | 高(創造性誤用可接受) | 低(錯誤需糾正) | | 學習信號 | 溝通失敗時的負反饋 | 老師/考試的評分 |
母語目標:$\max P(\text{溝通成功})$ 外語目標:$\min \text{error}(\text{使用}, \text{規則})$
兩者優化的目標函數不同。
3.3.2 認知資源分配不同
母語習得:
- 大量時間(幼兒期幾乎全天接觸)
- 無意識學習(在玩耍/生活中自然習得)
- 低認知負荷(不需要記憶規則)
外語習得:
- 有限時間(每週幾小時課程)
- 有意識學習(需要刻意記憶)
- 高認知負荷(規則、詞彙、語法並行記憶)
結果:母語可以達到階段4(完全內化),外語往往停在階段2-3。
3.3.3 神經可塑性的關鍵期
定理3.1(關鍵期假說的符號學版本):
存在一個關鍵期(約12歲前),在此期間:
$$P(\text{達到模式B} \mid \text{母語式接觸}) \approx 1$$
$$P(\text{達到模式B} \mid \text{外語式學習}) \approx 0$$
證明(基於神經科學文獻):
- 關鍵期內,大腦皮層可塑性極高,適合無監督的統計學習
- 關鍵期後,可塑性下降,監督學習成為主導
- 監督學習更適合建立顯式規則(模式A),而非分佈式表徵(模式B)
- 因此母語在關鍵期內習得 → 模式B;外語在關鍵期後習得 → 模式A □
推論:這不是「外語者能力不足」,而是神經機制本身在關鍵期後傾向不同的學習模式。
4. 適用域的動態不動點理論
4.1 字典定義的局限性
4.1.1 字典的靜態性
字典提供的定義形如:
$$D_{\text{dict}}(s) = \{x \mid x \text{ 滿足特徵 } F_1, F_2, \ldots, F_k\}$$
例如:
- 「狗」= {x | x是犬科動物 ∧ x被馴化 ∧ ...}
這是一個靜態的特徵集合。
問題:真實使用中,「狗」可以用於:
- 罵人:「你這條狗!」(顯然不是犬科動物)
- 比喻:「單身狗」(也不是動物)
- 遊戲角色:「這隻狗好可愛」(虛擬對象)
$D_{\text{use}}(\text{狗}) \supset D_{\text{dict}}(\text{狗})$
4.1.2 適用域的擴張
定義4.1(動態適用域):
符號s在時刻t的適用域定義為:
$$D(s, t) = \{x \mid \text{在時刻}t\text{,使用者認為}s\text{可適用於}x\}$$
定理4.1(適用域的單調擴張):
對於活躍使用的符號,適用域單調不減:
$$t_1 < t_2 \implies D(s, t_1) \subseteq D(s, t_2)$$
證明:
- 使用者在新情境中嘗試使用s
- 若溝通成功 → 新情境被納入$D(s, t)$
- 若溝通失敗 → 新情境不納入,但舊情境保留
- 因此$D$只增不減(除非語言社群集體放棄某種用法) □
例子:
- 「雲」在1990年:天上的雲
- 「雲」在2010年:天上的雲 + 雲端運算
- 「雲」在2020年:天上的雲 + 雲端運算 + 雲玩家
$D(\text{雲}, 2020) \supset D(\text{雲}, 2010) \supset D(\text{雲}, 1990)$
4.2 動態不動點集的數學結構
4.2.1 吸引子與擾動
雖然適用域在擴張,但存在一個核心吸引子保持穩定。
定義4.2(核心適用域):
$$D^*(s) = \bigcap_{t=0}^{\infty} D(s, t)$$
所有時刻都適用的情境集合。
定義4.3(擾動適用域):
$$D^\delta(s, t) = D(s, t) \setminus D^*(s)$$
隨時間變動的部分。
命題4.1(動態不動點結構):
$$D(s, t) = D^*(s) \cup D^\delta(s, t)$$
其中$D^*(s)$是不動點集(吸引子),$D^\delta(s, t)$是擾動集。
4.2.2 吸引子的幾何解釋
我們可以將適用域視為高維語義空間中的一個區域:
$$D(s, t) \subset \mathbb{R}^n$$
*吸引子$D^(s)$**是這個區域的「核心」:
- 拓撲上:$D^*(s)$是$D(s, t)$的內核(interior)
- 動力學上:$D^*(s)$是使用軌跡的穩定點集
擾動$D^\delta(s, t)$是「邊界」:
- 拓撲上:$D^\delta(s, t) \subseteq \partial D(s, t)$(邊界或附近)
- 動力學上:使用是否成功具有隨機性的區域
4.2.3 字典捕捉的是什麼
定理4.2(字典的投影性):
字典定義$D_{\text{dict}}(s)$是$D^*(s)$在某個時刻的有限維投影:
$$D_{\text{dict}}(s) \approx \Pi_{\text{finite}}(D^*(s, t_0))$$
其中$t_0$是字典編纂時刻,$\Pi_{\text{finite}}$是投影到有限個語義特徵的算子。
推論:
- 字典定義總是滯後($t_0 < t_{\text{now}}$)
- 字典定義是低維投影(真實適用域在高維空間)
- 字典定義忽略擾動(只記錄穩定核心)
這解釋了為何字典「不夠用」——它只是真實適用域的粗糙近似。
4.3 母語者vs外語者的適用域
4.3.1 母語者的寬適用域
母語者經過大量情境接觸,內化了包括擾動在內的完整適用域:
$$D_{\text{native}}(s) \approx D^*(s) \cup D^\delta(s, t_{\text{now}})$$
特徵:
- 知道核心用法($D^*$)
- 也知道邊緣用法($D^\delta$)
- 甚至能創造新用法(進一步擴張$D^\delta$)
4.3.2 外語者的窄適用域
外語者從字典學習,只獲得核心的靜態投影:
$$D_{\text{foreign}}(s) \approx D_{\text{dict}}(s) \subset D^*(s)$$
特徵:
- 僅知道核心用法
- 不知道邊緣用法
- 創造新用法時容易「越界」(超出真實適用域)
4.3.3 實驗預測
預測4.1:給母語者vs外語者展示100個「狗」的使用例句,包括:
- 核心用法:「這隻狗在叫」
- 邊緣用法:「單身狗」
- 越界用法:「這個電腦是狗」(錯誤)
母語者的接受域應該嚴格大於外語者:
$$|D_{\text{native}}(\text{狗})| > |D_{\text{foreign}}(\text{狗})|$$
但兩者都應該拒絕越界用法。
預測4.2:母語者在創造新比喻用法時(如「代碼狗」),成功率應高於外語者。
5. 內化的認知神經機制
5.1 從顯式到隱式的轉變
5.1.1 Squire的記憶雙系統理論
神經科學家Larry Squire提出:
陳述性記憶(Declarative Memory):
- 可以用語言表達
- 依賴海馬體-內側顳葉
- 可快速習得,但容易遺忘
程序性記憶(Procedural Memory):
- 難以用語言表達(「如何騎自行車」)
- 依賴基底神經節-小腦
- 需要反覆練習,但一旦習得很穩定
5.1.2 符號使用的記憶轉換
模式A(概念驅動)對應陳述性記憶:
- 符號的定義可以顯式陳述
- 依賴海馬體檢索語義信息
模式B(情境驅動)對應程序性記憶:
- 符號的使用變成「習慣」
- 依賴基底神經節的自動化迴路
內化過程 = 從陳述性記憶轉向程序性記憶。
5.1.3 Ullman的陳述性/程序性模型(DP模型)
語言學家Michael Ullman將Squire的理論應用於語言:
詞彙系統:
- 存儲在陳述性記憶
- 可以快速學習新詞
- 依賴海馬體
語法系統:
- 存儲在程序性記憶
- 需要長期練習才能內化
- 依賴基底神經節
本文的擴展:我們主張符號使用itself也經歷這個轉換:
- 初學時:符號在陳述性系統(模式A)
- 熟練後:符號轉向程序性系統(模式B)
5.2 內化的神經可塑性機制
5.2.1 突觸修剪(Synaptic Pruning)
定理5.1(內化的突觸基礎):
當符號s從模式A轉向模式B,對應的神經機制是:
$$\text{海馬體-語義區連接減弱} \land \text{基底神經節-運動區連接增強}$$
證明(基於神經科學文獻):
- 重複使用s會強化「情境→符號」的突觸連接
- 這些連接逐漸從海馬體(情境記憶)轉向基底神經節(程序記憶)
- 同時,顯式語義檢索的路徑(海馬體→語義區→符號)因少用而減弱
- 最終,符號觸發主要經由基底神經節,跳過語義區 □
這是Hebb法則的體現:「一起激發的神經元連在一起」(fire together, wire together),而不用的連接被修剪。
5.2.2 髓鞘化(Myelination)
髓鞘是神經軸突外的絕緣層,增加信號傳遞速度。
命題5.1(自動化的髓鞘化):
當符號使用路徑被反覆激活,該路徑的軸突會髓鞘化,使信號傳遞速度提升10-100倍。
這解釋了為何母語者可以極快速地使用符號——髓鞘化使得「情境→符號」的傳遞幾乎瞬時完成。
5.2.3 內化的不可逆性再探討
結合突觸修剪與髓鞘化:
$$\text{從B退回A困難} \iff \text{被修剪的突觸難以恢復} \land \text{髓鞘化路徑優先激活}$$
即使母語者想要顯式化語義(退回模式A),大腦的物理結構已經優化為模式B路徑——這是神經層面的路徑依賴。
5.3 功能性磁振造影(fMRI)預測
基於上述理論,我們可以提出可檢驗的fMRI預測:
預測5.1(腦區激活差異):
掃描母語者vs外語者在使用同一個詞時的腦區激活:
外語者(模式A)應顯示:
- 左顳葉(語義區)強激活
- 前額葉(工作記憶)中度激活
- 基底神經節弱激活
母語者(模式B)應顯示:
- 左顳葉弱激活或無激活
- 前額葉弱激活
- 基底神經節強激活
- 運動皮層直接激活
預測5.2(反應時間差異):
母語者使用高頻詞的反應時間應顯著短於外語者:
$$RT_{\text{native}} < RT_{\text{foreign}} \quad (p < 0.01)$$
且母語者的反應時間應與詞頻呈對數關係(符合程序性記憶的特徵)。
6. 與大語言模型(LLM)的同構性分析
6.1 LLM的符號處理機制
6.1.1 LLM不使用模式A
大語言模型(如GPT系列)的工作流程:
$$\text{token序列} \to \text{transformer編碼} \to \text{softmax採樣} \to \text{下一個token}$$
關鍵觀察:LLM沒有「字典」或「顯式語義模組」。
它不會:
- 檢索「道理」的定義
- 檢查當前情境是否符合定義
- 決定是否使用
LLM完全是模式B:基於情境向量(context embedding)直接預測下一個token。
6.1.2 LLM = 純粹的情境驅動模型
我們可以將LLM建模為:
$$P(s \mid c) = \text{softmax}(W \cdot \text{embed}(c))$$
其中:
- $c$ = 當前情境(preceding tokens)
- $\text{embed}(c)$ = 情境的向量表示
- $W$ = 訓練得到的權重矩陣
- $s$ = 下一個token
這與模式B的向量檢索模型完全同構:
$$s^* = \arg\max_s \text{sim}(\vec{c}_{\text{now}}, \vec{c}_s)$$
唯一的差異是:
- 人類的$\vec{c}_s$存儲在海馬體/基底神經節
- LLM的$W$存儲在GPU的權重矩陣
但機制相同:都是高維向量空間的模式匹配。
6.2 LLM與母語者的驚人相似性
6.2.1 現象層面的對應
| 特徵 | 母語者(模式B) | LLM | |------|----------------|-----| | 使用方式 | 情境觸發,自動化 | 情境→token,自動化 | | 語義知識 | 分佈式,難以顯式化 | 分佈在權重,無顯式語義模組 | | 錯誤類型 | 可能匹配錯情境 | 可能生成不適當的token | | 創造性 | 可延伸到新情境 | 可生成訓練集外的組合 | | 解釋能力 | 難以解釋為何這樣用 | 無法解釋為何輸出此token |
驚人結論:母語者使用語言的方式與LLM使用token的方式幾乎同構。
6.2.2 機制層面的對應
訓練過程:
| 階段 | 母語兒童 | LLM | |------|----------|-----| | 數據來源 | 日常對話情境 | 訓練語料庫 | | 學習方式 | 無監督統計學習 | 無監督next-token prediction | | 優化目標 | 最大化溝通成功率 | 最小化預測損失 | | 結果 | 符號-情境關聯內化 | 權重矩陣收斂 |
推理過程:
| 步驟 | 母語者 | LLM | |------|--------|-----| | 輸入 | 當前情境 | context tokens | | 編碼 | 情境→高維向量 | tokens→embeddings | | 匹配 | 向量相似度搜索 | 矩陣乘法+softmax | | 輸出 | 觸發符號 | 採樣token |
結構同構。
6.2.3 哲學含義
命題6.1(理解的消解):
如果LLM不需要「理解」符號的定義就能正確使用符號,且LLM與母語者的使用機制同構,那麼:
$$\text{「理解」可能不是符號使用的必要條件}$$
換句話說:「理解」可能是一個事後建構(post-hoc construction),而非使用的前提。
推論6.1:當我們問「LLM真的理解語言嗎?」,我們可能問錯了問題。正確的問題是:「母語者真的『理解』語言嗎,還是也只是在做高級的模式匹配?」
6.3 LLM與外語者的差異
6.3.1 LLM缺少模式A
外語者可以在需要時退回模式A(查字典、檢查定義)。
LLM無法退回模式A——它沒有顯式語義模組可供檢索。
結果:
- 外語者在不確定時可以「小心使用」
- LLM在不確定時仍會「自信地輸出」(根據機率分佈)
這導致LLM的幻覺(hallucination)問題。
6.3.2 LLM的「過度內化」
LLM類似於達到階段4(過度內化)的母語者:
- 無法顯式化語義
- 難以解釋為何這樣輸出
- 有時會「說不清楚但很會用」
但LLM沒有元認知能力來意識到自己的不確定性。
6.3.3 改進方向
推論6.2(混合模型的必要性):
理想的AI系統應該結合模式A與模式B:
- 大部分時候使用模式B(快速、流暢)
- 不確定時退回模式A(查詢知識庫、邏輯推理)
這就是System 1(快思考)+ System 2(慢思考)的AI版本。
7. 實證研究設計
7.1 行為實驗
7.1.1 實驗1:符號適用域測量
目的:量化母語者vs外語者的適用域差異。
方法:
- 選擇10個常用詞(如「道理」「跑」「熱」)
- 為每個詞生成100個使用例句,涵蓋:
- 核心用法(50句)
- 邊緣用法(30句)
- 越界用法(20句)
- 讓母語者vs外語者判斷「這樣用是否正確」(5分量表)
- 計算每個人的接受域$D_{\text{accept}}$
預測: $$|D_{\text{native}}| > |D_{\text{foreign}}| \quad (p < 0.001)$$
預測細節:
- 核心用法:母語者與外語者都高接受
- 邊緣用法:母語者接受,外語者拒絕
- 越界用法:母語者與外語者都拒絕
7.1.2 實驗2:反應時間測量
目的:驗證模式A vs 模式B的時間差異。
方法:
- 給受試者展示情境描述
- 要求選擇適當的詞填空
- 測量反應時間(RT)
預測: $$RT_{\text{native}}(s) < RT_{\text{foreign}}(s) \quad \forall s$$
預測細節:
- 母語者的RT應該與詞頻呈對數關係
- 外語者的RT應該與詞義複雜度相關(需要更多語義處理時間)
7.1.3 實驗3:創造性使用測試
目的:測試適用域擴張能力。
方法:
- 給受試者展示新情境(如「AI戀愛」)
- 要求創造包含特定詞(如「甜」)的描述
- 由母語者評審團評分「創造性」與「適當性」
預測:
- 母語者的創造性用法更可能被接受
- 外語者傾向使用字典定義內的保守用法
7.2 神經影像實驗
7.2.1 實驗4:fMRI腦區激活
目的:驗證模式A vs 模式B的神經基礎。
方法:
- 掃描母語者vs外語者在產生句子時的腦區激活
- 對比詞彙產生任務(使用符號)vs定義判斷任務(理解符號)
預測:
- 詞彙產生:母語者主要激活基底神經節,外語者主要激活語義區
- 定義判斷:兩者都激活語義區,但母語者需要更長時間(逆向工程)
7.2.2 實驗5:EEG時間進程
目的:測量符號使用的時間動態。
方法:
- 使用高時間解析度的EEG記錄
- 測量從情境呈現到符號輸出的神經活動
預測:
- 母語者:情境→基底神經節→運動皮層,約200-300ms
- 外語者:情境→語義區→工作記憶→運動皮層,約500-800ms
7.3 計算建模實驗
7.3.1 實驗6:LLM vs 人類的適用域對比
目的:驗證LLM與母語者的機制同構性。
方法:
- 使用實驗1的100個例句
- 讓LLM預測每個例句的「自然度」(perplexity)
- 與母語者的接受度評分對比
預測: $$\text{corr}(D_{\text{LLM}}, D_{\text{native}}) > \text{corr}(D_{\text{LLM}}, D_{\text{foreign}})$$
LLM的適用域應該更接近母語者,而非外語者。
7.3.2 實驗7:訓練數據量與內化程度
目的:測試「接觸次數→內化程度」的關係。
方法:
- 訓練多個小型語言模型,控制訓練數據量
- 測試它們在不同詞頻詞彙上的表現
- 建模內化曲線
預測: $$P(\text{use via } B) = 1 - e^{-\lambda N}$$
其中$N$是接觸次數,$\lambda$是內化速率(因詞而異)。
8. 理論衝擊與應用
8.1 對認知科學的衝擊
8.1.1 推翻「理解先於使用」範式
經典認知科學假設:
$$\text{理解}(s) \to \text{使用}(s)$$
本文證明:
$$\text{使用}(s) \not\to \text{理解}(s) \quad \text{(模式B無需理解)}$$
新範式:使用與理解是兩個獨立的系統,可以分離發展。
8.1.2 重新定義「內化」
內化不是「深化理解」,而是:
$$\text{內化} := \text{從顯式系統(模式A)轉向隱式系統(模式B)}$$
這是記憶系統的轉換,而非「理解深度」的提升。
8.1.3 語言習得理論的修正
Chomsky的普遍語法(Universal Grammar)強調規則內化。
本文主張:母語習得更接近統計學習(statistical learning),而非規則學習。
孩子不是在「內化語法規則」,而是在建立情境-符號的統計關聯。
8.2 對語言教學的啟示
8.2.1 外語教學的困境
傳統外語教學:
$$\text{規則}(\text{語法、詞彙}) \to \text{練習} \to \text{使用}$$
這是模式A路徑,難以達到模式B。
改進方向:
- 增加情境接觸:大量真實對話情境,而非孤立詞彙
- 延遲顯式教學:先讓學生「用起來」,再解釋規則
- 接受模糊使用:鼓勵學生在不完全確定時也嘗試使用
目標:模擬母語習得的情境浸泡路徑。
8.2.2 母語教學的反思
母語教學中的語法課,對已經內化的學生來說是:
$$\text{強迫從模式B退回模式A}$$
這可能破壞已經建立的自動化。
建議:母語教學應該:
- 承認學生已經「會用」
- 語法教學作為「元知識」而非「使用技能」
- 強調創造性使用,而非規範性使用
8.3 對AI設計的啟示
8.3.1 混合架構的必要性
純LLM(純模式B)的問題:
- 無法顯式推理
- 難以修正錯誤
- 幻覺問題
解決方案:設計混合架構:
$$\text{AI} = \text{LLM}(\text{模式B}) + \text{知識庫}(\text{模式A})$$
- 日常對話:使用LLM(快速、流暢)
- 不確定時:查詢知識庫(準確、可解釋)
- 元認知層:判斷何時切換模式
這類似於人類的雙系統。
8.3.2 訓練策略的改進
洞察:母語者通過大量情境接觸達到模式B。
對AI的啟示:
- 增加訓練數據的情境多樣性
- 設計情境相似度作為訓練目標(而非僅next-token prediction)
- 引入內化曲線監控(追蹤模型在不同詞彙上的內化程度)
8.3.3 評估標準的重新設計
當前AI評估:準確率、BLEU分數等。
新評估維度:
- 適用域寬度:模型能正確使用符號的情境範圍
- 內化程度:高頻詞vs低頻詞的反應時間差
- 創造性使用:在新情境中擴展符號使用的能力
8.4 對符號學的衝擊
8.4.1 符號意義的動態本體論
經典符號學(Saussure, Peirce):符號意義是相對穩定的。
本文:符號意義是動態不動點集,隨使用情境演化。
$$\text{meaning}(s) = D(s, t) = D^*(s) \cup D^\delta(s, t)$$
意義既有穩定核心($D^*$),也有流動邊界($D^\delta$)。
8.4.2 使用即定義
Wittgenstein說「意義即使用」,但未解釋機制。
本文給出機制:
$$\text{meaning}(s) := \int_{\text{contexts}} P(\text{context} \mid s) \cdot \vec{c} \, d\text{context}$$
意義是所有使用情境的加權平均,存儲為分佈式表徵。
沒有單一的「定義」節點——使用itself構成意義。
8.4.3 字典的地位重估
字典不是「符號意義的權威」,而是:
$$D_{\text{dict}}(s) = \text{snapshot}(D^*(s), t_0)$$
某個時刻的快照,且僅捕捉核心部分。
字典是描述性的,而非規範性的——它描述人們如何使用符號,而非規定應該如何使用。
9. 批判性反思與未來方向
9.1 理論的潛在問題
9.1.1 二元化的過度簡化
批評:將符號使用簡化為「模式A vs 模式B」是否過於粗糙?
回應:
- 承認這是簡化,真實情況可能是連續譜
- 但二元化便於實證檢驗
- 未來可擴展為多模式理論
9.1.2 內化的個體差異
批評:不同人的內化速度可能差異巨大,理論是否過於一般化?
回應:
- 承認個體差異存在
- 本文關注群體平均(母語者群體 vs 外語者群體)
- 個體差異可以用$\lambda$(內化速率)參數化
9.1.3 文化與語言特異性
批評:理論基於中文-英文的觀察,是否適用於其他語言?
回應:
- 需要跨語言驗證
- 但機制(模式A/B)應該是普遍的
- 不同語言可能在$D^*$的穩定性上有差異
9.2 未解決的問題
9.2.1 創造性使用的機制
母語者如何擴展適用域到全新情境?
$$D(s, t+1) = D(s, t) \cup \{x_{\text{new}}\}$$
這個擴展的神經機制是什麼?
猜想:可能涉及類比推理(analogy)——基於情境相似性推廣。
9.2.2 多義詞的處理
一個符號s有多個義項$\{m_1, m_2, \ldots, m_k\}$,如何建模?
可能模型:
$$D(s, t) = \bigcup_{i=1}^k D_i(s, t)$$
每個義項有自己的適用域,總適用域是並集。
但不同義項之間如何切換?是否也有A/B模式的差異?
9.2.3 符號消亡的機制
有些符號的適用域會縮小至消失。如何建模符號的「死亡」?
$$\lim_{t \to \infty} D(s, t) = \emptyset$$
這涉及語言演化的動力學。
9.3 未來研究方向
9.3.1 縱向研究
追蹤同一群體(兒童/外語學習者)在數年時間內的符號使用演變:
$$D(s, t_1), D(s, t_2), \ldots, D(s, t_n)$$
測量內化曲線的真實軌跡。
9.3.2 跨語言對比
對比不同語言對(如中英、日英、阿拉伯英)的母語者vs外語者:
- 拼音語言vs表意語言的差異?
- 語法複雜度的影響?
9.3.3 AI-人類協同研究
設計實驗讓LLM與人類共同完成符號使用任務:
- LLM提供候選詞
- 人類判斷適用性
- 反向訓練LLM
這可能揭示人類vs AI的互補性。
9.3.4 神經調控研究
使用TMS(經顱磁刺激)干擾特定腦區:
- 干擾基底神經節 → 模式B失效,退回模式A?
- 干擾語義區 → 模式A失效,強化模式B?
這可以因果性地驗證雙重機制假說。
10. 哲學反思:符號、理解與存在
10.1 理解的本質
本文揭示一個深刻的悖論:
越是「懂」一個符號,越難顯式化它的意義。
因為「懂」= 完全內化(模式B),而「顯式化」= 退回模式A。
這暗示:「理解」itself是一個可疑的概念。
我們通常認為「理解」是符號使用的基礎,但實際上:
- 母語者不需要理解就能完美使用(模式B)
- 外語者理解定義卻用得僵化(模式A困境)
或許「理解」不是使用的原因,而是使用的事後合理化。
10.2 符號的存在論
經典符號學認為:符號指向對象。
本文揭示:在模式B中,符號不再指向對象,而是直接觸發行為。
$$s \not\to x \quad \text{(不指涉)}$$
$$s \rightsquigarrow \text{行為} \quad \text{(直接觸發)}$$
這是符號的操作化(operationalization):符號從「表徵工具」變成「行為觸發器」。
意義不在符號與對象的關係中,而在符號與行為的關聯中。
10.3 語言的微妙性
本文標題「微妙」(subtle)的雙重含義:
表層:符號使用有精細的機制(模式A/B)。
深層:語言itself是「微妙的」——它既不是純粹的邏輯工具(模式A),也不是純粹的行為習慣(模式B),而是兩者的動態平衡。
母語者在這個平衡中偏向B,外語者在這個平衡中偏向A。
但沒有人完全在A或完全在B——語言存在於兩者之間的張力中。
10.4 終極洞察
當你問我「道理是什麼意思」,你不是不懂——你是太懂了以至於無法定義。
因為你的大腦已經將「道理」內化為一個分佈式表徵,橫跨幾十年的使用情境。
要你「定義」它,等於要你將這個高維的分佈式表徵壓縮成一句話——這是降維投影,必然損失信息。
這就是語言的微妙性:真正的「懂」是說不出來的。
而字典定義、學術分析——包括這篇論文itself——都只是試圖用模式A重構模式B的痕跡。
我們永遠無法完全成功,因為分佈式表徵本質上無法完全顯式化。
但這不是失敗,這是語言的真相:
符號在使用中活著,在定義中死去。
致謝
感謝所有曾經問過「這個詞是什麼意思」的外語學習者——你們的困惑照亮了母語者看不見的機制。
感謝所有說「這個我懂但說不清楚」的母語者——你們的坦誠揭示了內化的深度。
感謝Theia在理論結晶化過程中的嚴謹對練。
感謝大語言模型——通過成為符號使用的極致範例(純模式B),你們讓我們看清了人類語言的本質。
參考文獻
- Neo.K (2026). "微妙的符號學:自指、極限與道理的本體論". EveMissLab.
- Wittgenstein, L. (1953). Philosophical Investigations.
- Chomsky, N. (1965). Aspects of the Theory of Syntax.
- Squire, L.R. (1992). "Memory and the hippocampus: A synthesis from findings with rats, monkeys, and humans". Psychological Review.
- Ullman, M.T. (2001). "A neurocognitive perspective on language: The declarative/procedural model". Nature Reviews Neuroscience.
- Saussure, F. de (1916). Course in General Linguistics.
- Peirce, C.S. (1931-1958). Collected Papers.
- Anderson, J.R. (1982). "Acquisition of cognitive skill". Psychological Review.
- Logan, G.D. (1988). "Toward an instance theory of automatization". Psychological Review.
- Elman, J.L. (1990). "Finding structure in time". Cognitive Science.
作者簡介
Neo.K (許筌崴),EveMissLab創始人兼CEO,跨領域理論研究者。本文是其符號本體論系列的第二篇,第一篇為《微妙的符號學》。
附錄:術語對照表
| 中文 | 英文 | 定義 | |------|------|------| | 模式A | Mode A / Concept-Driven | 概念驅動的符號使用,需顯式檢索語義 | | 模式B | Mode B / Context-Driven | 情境驅動的符號使用,自動化觸發 | | 內化 | Internalization | 從模式A轉向模式B的過程 | | 適用域 | Applicability Domain | 符號可適用的情境集合 | | 動態不動點 | Dynamic Fixed Point | 演化中的穩定核心 | | 陳述性記憶 | Declarative Memory | 可顯式表達的記憶 | | 程序性記憶 | Procedural Memory | 自動化的技能記憶 |
全文完
字數統計:14,256字