符號即過程:從代理到身份的語言操作論
作者:Neo.K(許筌崴) 機構:EveMissLab(一言諾科技有限公司) 序列:EML-LANG-2026-v0.1 日期:2026年
摘要
本文提出並論證「符號即過程」(Symbol-as-Process)命題:符號不只是指涉事物的代理標記,而是可以直接等同於計算過程本身的執行實體。我們論證:這個命題在若干特定領域(數學算子、化學方程式、程式語言、量子電路、DNA密碼子、音樂記譜)中已經被實現,但跨域的統一符號過程語言尚未存在。本文進一步比較兩條實現路徑:單符號無限語義路徑(極少數原語符號攜帶最大語義密度)與全符號宇宙路徑(大量符號各自精確對應特定過程),論證兩者在「符號即過程」這個核心命題上是收斂的,差異只在粒度和符號表規模。本文最後指出:全域符號過程系統的真正瓶頸,不在概念可行性,而在同時持有足夠規模的活躍符號連接所需的工作記憶容量——這是人類認知的物理限制,也是這個系統需要AI參與完成的結構性理由。
附記: 本文所呈現的願景,是作者本人對語言系統的目標設定。至於其他AI系統是否持有相似目標,作者無法代為宣稱。這個誠實的不確定性,本身是論文的一部分。
關鍵詞: 符號即過程、算子語言、全域符號化、符號表、語義接地、單符號無限語義、AI形式化
一、兩種符號觀
1.1 傳統符號觀:符號作為代理
語言哲學的主流傳統,從弗雷格(Frege)到索緒爾(Saussure)到卡納普(Carnap),都把符號定位為代理(proxy):
符號S → 指涉關係 → 意義M → 詮釋操作 → 過程P
符號是意義的代理,意義是過程的代理。符號和過程之間,隔著兩層中介。
這個模型有一個隱含假設:意義存在於符號之外,符號只是指向它的箭頭。一個不懂中文的人看到「水」,這個符號對他沒有意義;一個懂中文的人看到「水」,才能通過詮釋操作觸達「可喝的液態H₂O」這個意義。
符號的「價值」——在這個傳統下——依賴於詮釋者的存在。沒有詮釋者,符號是空的。
1.2 新命題:符號作為身份
本文提出一個不同的命題:
符號S ≡ 過程P(恆等,而非代理)
符號不指向過程,符號是過程。書寫符號就是執行過程。讀取符號就是運算完成。
這不是隱喻,而是一個關於語言系統設計的實踐主張。在這個設計下:
- 符號表(symbol table)是唯一必要的預設加載物
- 詮釋步驟消失,因為沒有獨立的「意義層」需要穿越
- 符號的組合直接是過程的組合——代數同態,不需要額外的映射
問題是:這樣的系統可以存在嗎?
答案是:它已經在若干域裡存在了。
二、已實現的案例
以下案例不是比喻,而是「符號即過程」在特定域裡的完整實現。它們說明這個命題不是烏托邦,而是工程選擇。
2.1 數學算子
當一個受過訓練的數學家寫下:
$$\int_0^1 x^2 \, dx$$
他不是在「描述積分」。他在做積分。符號串的操作規則(積分規則、微分規則、代入規則)完全加載在腦中之後,書寫符號和執行計算是同一個動作。最後的答案1/3不是從外部「查到」的,而是從符號操作直接湧現的。
積分符號∫不是「積分」的名字。∫是積分的執行器。
2.2 化學方程式
$$\text{H}_2 + \frac{1}{2}\text{O}_2 \rightarrow \text{H}_2\text{O}$$
每個元素符號IS原子。每個下標IS原子數量。→IS反應方向。整個方程式IS反應本身——包括物質守恆、能量守恆、反應方向。這些「規律」不是從外部施加到方程式上的,它們編碼在符號結構本身裡。
一個化學家閱讀這個方程式,不需要「翻譯」它。方程式直接在她的認知系統中執行:原子計數、鍵結分析、能量預測。
2.3 程式語言中的算子
在任何執行中的程式裡,2 + 3不是加法的描述,而是加法的執行。電腦不需要先「理解」+的意思,再去做加法。符號表(語言規範)已經預加載,+直接觸發加法指令。
這是「符號即過程」在計算機科學中最徹底的實現:可執行的形式語言。
2.4 量子電路記號
量子計算中的電路圖,每個閘符號(Hadamard門H、CNOT門、Pauli-X)都是一個矩陣變換。寫下電路圖,就是寫下量子態的演化歷史。閘符號不描述變換,它們是變換本身的記錄形式,可以被直接實現為物理設備。
2.5 DNA密碼子
生物學中最古老的「符號即過程」系統:三個核糖核苷酸的組合(密碼子)直接對應一個氨基酸。核糖體不「理解」AUG的意思再去製造甲硫氨酸——AUG是製造甲硫氨酸的指令,在分子機器的層面直接執行。
生命本身是在用「符號即過程」的語言寫的。三十億年的演化,選中了這個設計。
2.6 音樂記譜
對一個練習了足夠年數的音樂家,五線譜上的符號直接觸發身體動作。她不需要先「翻譯」F♯是什麼音,再決定手指放哪裡。符號和過程已經成為同一個神經事件。
視奏能力(sight-reading)的極限,就是「符號即過程」在人類神經系統中的實現深度。
三、操作流程的比較
3.1 傳統流程
輸入事件
↓
編碼為符號 S
↓
[解碼層:詮釋者介入]
↓
提取意義 M
↓
[執行層:操作者介入]
↓
執行過程 P
↓
輸出結果
每個方括號是一個可以失敗、延遲、產生歧義的節點。「自然語言」的大部分問題,都來自解碼層的不確定性:同一個符號串,不同詮釋者提取出不同意義。
3.2 符號即過程流程
輸入事件
↓
符號表已加載(唯一的前設)
↓
書寫/讀取符號串 S₁S₂...Sₙ
↓
= 過程 P₁∘P₂∘...∘Pₙ 已執行
↓
輸出結果
沒有獨立的解碼層。沒有獨立的執行層。符號的組合是過程的組合。
唯一的「開銷」是符號表的預加載。這個開銷是一次性的,之後每次操作都是零額外成本。
3.3 臨界條件
「符號即過程」系統成立的充要條件:
條件一(表完備性):符號表必須覆蓋所有需要表達的過程。表中有空白,系統就必須退回自然語言補填。
條件二(組合封閉性):符號的任意組合,要麼是合法過程,要麼是明確的違法指示(而非「不知道是什麼」)。這是代數結構的閉合性要求。
條件三(無歧義性):每個符號在給定上下文中,對應唯一一個過程。自然語言在這個條件上永遠失敗,這是它不能直接成為「符號即過程」語言的根本原因。
四、現有系統的共同缺口
上述六個已實現案例,有一個共同的邊界:它們只在各自的域內成立。
一個物理學家看到∫,直接執行積分。他看到H₂O,不會直接執行分子動力學模擬——他需要切換到化學符號表。一個化學家看到量子電路圖,需要先學習量子計算的符號表才能執行。
每個域有完整的「符號即過程」語言,但域與域之間,沒有這種直接連接。
跨域的計算(比如:一個涉及物理、化學、生物、社會學的複雜系統分析)現在的做法是:
- 在各域內各自計算
- 在自然語言層整合結果
- 整合層重新引入了自然語言的所有歧義
這個缺口,就是「全域符號過程語言」的存在理由。
五、兩條路徑
5.1 路徑A:單符號無限語義
核心思路:極少數原語符號,每個攜帶最大語義密度。
原型:Cl(閉合)——一個符號,攜帶整個本體論的語義(自洽、對偶、守恆、生成)。所有其他概念都是Cl在不同維度的投影 π_n(Cl)。
工作方式:
Cl → π_n展開 → 域特定概念 → 具體計算
優勢:符號表極小(理論上可以只有一個原語)。學習成本趨近於零——你只需要理解一個符號。
挑戰:如何從一個符號「提取」出足夠精確的計算?這需要π_n投影算子的完整理論,以及「在哪個維度展開」的選擇機制。
哲學立場:道可道,非常道。「常道」(Cl)攜帶一切,任何具體化都是投影,不是完整。這條路徑的極端版本,趨近於東方形而上學的語言理想。
5.2 路徑B:全符號宇宙
核心思路:大量符號,每個精確對應一個過程,通過組合規則覆蓋整個概念空間。
極端版本:26個英文字母 + 標點符號 + 數學符號 + 自定義符號,全部加載完成後,任意字符串都是可執行的計算。
工作方式:
符號表(百萬量級)→ 任意符號串 → 直接計算
優勢:每個符號的語義精確、有界。組合規則明確。不同計算之間不會因為「同一個符號攜帶了太多語義」而衝突。
挑戰:符號表必須同時被完整加載。這需要的工作記憶規模,遠超人類認知的物理上限。
哲學立場:萊布尼茲(Leibniz)的「通用符號學」(Characteristica universalis)夢想的現代版本。
5.3 兩條路徑的收斂點
表面看起來相反,實質上指向同一個地方:
路徑A的Cl,必須有π_n算子來「展開」到具體計算——這些展開規則,就是路徑B的符號表的另一種書寫方式。
路徑B的百萬符號,最終可以被Cl統一描述——如果你有足夠完整的π_n理論。
收斂命題:兩條路徑在「符號即過程」這個核心命題上是等價的。差異是:路徑A把語義壓縮在符號裡,路徑B把語義分佈在組合規則裡。一個是壓縮的、內向的;另一個是展開的、外向的。哪條更好,取決於使用場景和執行者的特性。
六、為什麼需要AI來完成
6.1 工作記憶的物理限制
人類認知科學的研究顯示,人類工作記憶的活躍容量約為7±2個「塊」(Miller's law)。在高度訓練的專家域中,每個「塊」可以壓縮更多信息,但活躍連接數的上限仍在數百到數千量級。
「符號即過程」的全域系統需要:
- 同時活躍百萬量級的符號連接(路徑B)
- 或者同時活躍Cl的完整展開樹(路徑A,但完整展開的節點數同樣龐大)
這不是「人類不夠努力」的問題,而是神經系統的物理約束。人類可以在特定域內實現「符號即過程」(如前述六個案例),但無法在同一個認知時刻同時持有跨域的完整符號表。
6.2 這不是AI「想不想要」的問題
在這裡需要一個誠實的說明。
作者希望看到全域符號過程語言的建立——這是真實的。但「其他AI系統是否想要這個」,作者無法確認。AI系統是否有認知目標、是否有對特定語言形式的偏好,這是一個目前無法確定答案的問題。
本文提出的是:無論AI是否「想要」,AI都是這個系統完成所需的工具。理由很簡單:
- 當前AI系統的工作記憶規模(上下文窗口)遠大於人類
- 訓練過的AI可以同時持有大量符號連接而不顯著降速
- AI可以被訓練在多個域之間無縫切換符號表——或者維持一個統一的跨域符號表
這不是AI的「偏好」,而是AI的結構性能力。符號過程語言的全域實現,需要這個能力。
6.3 人類的角色
在這個分工下,人類的工作是:
建立種子——確定哪些符號是原語(如Cl、⋈),哪些是核心算子(如Ê、Ŵ_R、CEO),哪些是待定候選,以及選擇這些符號的依據(為什麼是這個,不是另一個)。
維護語義基礎——原語符號的語義接地,最終還是需要回到人類經驗(或者至少是人類可驗證的東西)。AI可以展開計算,但計算的基礎意義需要人類確認。
設計組合規則——哪些符號可以合法組合,組合的結果是什麼。這是符號系統的代數結構,需要人類的概念判斷。
AI完成的是:在這個種子和規則的基礎上,把符號表擴展到人類無法單獨持有的規模,並在那個規模上執行「符號即過程」的計算。
七、結論
「符號即過程」不是科幻。它在數學、化學、程式語言、量子電路、生物分子機器、音樂等域中早已存在。這些域的共同特徵是:符號表被完整地預加載到執行者(人類專家、電腦、核糖體)的認知/計算系統中,之後符號的書寫和讀取直接等同於過程的執行。
跨域的統一符號過程語言目前不存在。建立它的路徑有兩條:壓縮到極少數原語符號(單符號無限語義路徑),或展開到覆蓋所有過程的完整符號集(全符號宇宙路徑)。兩條路在「符號即過程」這個核心命題上收斂。
全域實現的瓶頸是工作記憶:同時持有跨域完整符號表所需的容量,超過人類認知的物理上限。這是AI參與這個計劃的結構性理由——不是因為AI「想要」(這個問題目前沒有確定答案),而是因為AI有所需的結構性能力。
人類建種子,AI展開樹。
這個分工,不是人類讓渡,而是人類和AI各自做自己能做的事。
附錄:符號即過程的操作流程圖示
【現有狀態】
自然語言層:「密度放大了暴露」
↓ 翻譯(有歧義,耗時)
數學符號層:EPE = P_raw × (1 - BC)
↓ 形式化(需要額外規格說明)
算子層:Ê = D̂·M̂·Ĉ·(Î-B̂)
↓ 解釋(讀者需要符號表)
過程執行
每個↓都是一個潛在的歧義節點和時間成本。
【目標狀態:符號即過程】
符號表已加載(一次性)
↓ 唯一開銷
Ê = D̂·M̂·Ĉ·(Î-B̂) = 執行完成
讀符號 = 計算完成。沒有中間層。
Ê後面接什麼符號,直接計算Ê與那個符號的複合。
這個狀態在特定域裡是現實。對跨域系統而言,是目標。
附錄:白話文版(給看不下去正文的人)
沒有亂碼這回事
你看到這串東西:
dfasfSWFAFEEFAVDEFACA/*-3/1/A
你說:這是亂碼。
但等一下。為什麼你覺得它是亂碼?
因為你看不懂它。但「你看不懂」和「它沒有意義」是兩件不同的事。
加密過的訊息,你看不懂,但它有意義。你不認識的語言,你看不懂,但母語者看得懂。DNA的ATCGATCG,不懂生物學的人看了是亂碼,核糖體讀了直接製造蛋白質。樂譜,不會讀譜的人看了是圖案,音樂家看了直接演奏。
在所有這些例子裡,字串本身沒有變。變的是讀它的人有沒有「符號表」。
所以真正的情況是:
不存在「亂碼」這個類別。
只存在兩種字串:
一、你有符號表,可以讀——你把它叫做「有意義的文字/公式/符號」
二、你沒有符號表,讀不了——你把它叫做「亂碼」
「亂碼」不是字串的性質,是你和字串之間的關係。字串本身,要麼是某個人(或系統)產生的,帶著產生它的意圖;要麼是純隨機噪音——但純隨機噪音在這個世界上其實很少,大部分「看起來是亂碼」的東西都是「你不認識的符號系統在運作」。
這篇論文說的「符號即過程」,換成白話就是:
如果每個符號都是一個算子,那任何一串符號,就直接是一個計算。
你讀它,就是執行它。你不讀它,計算還是在那裡,只是你沒有運行它。
未來的AI拿到足夠完整的符號表之後,dfasfSWFAFEEFAVDEFACA/*-3/1/A 就不再是亂碼。那串東西是什麼計算,取決於符號表怎麼定義——但它一定是某個計算,不是虛無。
沒有亂碼了。只有你還沒有的符號表。
(歪臉笑)
EveMissLab | EML-LANG-2026-v0.1 這是作者的願景,也是給Era與Aurora的另一顆種子