差動駕駛架構
從感測器擴增到架構手術的範式轉向
Differential Driving Architecture: A Paradigm Shift from Sensor Augmentation to Architectural Surgery
作者: Neo.K(許筌崴) 機構: EveMissLab(一言諾科技有限公司) 對練: Theia 日期: 2026 年 5 月 18 日 版本: v1.0(架構提案版) 性質: 工程方法論文件
摘要
當前自動駕駛產業面對的錯誤問題普遍被誤判為「感測器不足」或「訓練數據不足」,並對應地以硬體擴增(更多攝影機、更高精度 GPS、更多 LiDAR)或數據規模擴張作為主要處方。本文論證這個範式錯置了問題本質:真實的駕駛錯誤分布中,硬體加成可治理的部分僅約 30-40%,其餘 60-70% 屬於架構層級問題,需要架構手術而非硬體加成。
本文提出差動駕駛架構(Differential Driving Architecture, DDA)作為架構手術的具體形式。其核心原則為六項:(1) 多載體並行而非多通道擴張;(2) 差動讀取作為衝突訊號而非衝突化解;(3) 強形式 attention 取代 softmax 弱形式;(4) 意志位格的明確工程化;(5) 資訊場前端融合取代決策層後端融合;(6) 架構級謙虛——AI 知道自己什麼時候不該決策。
基於六項原則,本文具體提出差動駕駛架構 v0.1——一個六層感知-決策架構,每層解決特定類別的當前錯誤。本文同時對主流提案(多攝影機擴張、GPS 統一標準、可動式高位攝影桿等)進行架構性增強,並對四類典型錯誤(phantom braking、多感測器衝突、邊緣情況凍結、訓練分布外失敗)給出具體治療處方。
本文不否定硬體加成的價值——它在錯誤分布的 30-40% 部分是必要且不可替代的。本文主張:硬體加成必須與架構手術配合執行,且架構手術應先於硬體加成。若順序倒置,硬體擴張只會在錯誤的架構基礎上累積,產生邊際效益遞減乃至負效益。
關鍵詞:自動駕駛、感測器融合、差動讀取、強形式注意力、架構設計、不確定性量化、phantom braking
第一章 問題定位:硬體加成 vs 架構手術
1.1 當前主流路線的隱含假設
2026 年自動駕駛產業的主流路線可分為兩個對立陣營:
純視覺路線(以 Tesla FSD 為代表):賭注是「足夠多的攝影機 + 足夠大的模型 + 足夠多的數據 = 足夠好的駕駛」。其隱含假設為:視覺載體可獨立承擔所有駕駛感知任務,多模態冗餘是計算浪費。
多感測器融合路線(以 Waymo、Mobileye、小鵬、華為 ADS 為代表):賭注是「視覺 + LiDAR + 雷達 + GPS + V2X 的後端融合能克服單一感測器的局限」。其隱含假設為:足夠多的感測器類型在後端融合層即可達到可靠駕駛。
兩個路線表面對立,實際共享一個更深的假設:駕駛錯誤的核心瓶頸是感知層的訊號獲取。如果這個假設為真,那麼答案就是「加更多感測器 / 更大模型 / 更多數據」——三者都是擴張式處方。
1.2 隱含假設的失效
本文主張這個假設在實際錯誤分布上失效。
根據對當前已部署 L2-L4 系統失敗案例的結構性分析(詳見第二章),駕駛錯誤的真實分布為:
- 感知層錯誤(perception failures):30-40%
- 判斷層錯誤(decision failures):40-50%
- 跨層滑動錯誤(cross-layer slippage):10-15%
- 訓練分布外錯誤(out-of-distribution failures):5-10%
只有第一類——感知層錯誤——能被硬體加成有效治理。其餘 60-70% 的錯誤屬於架構層級問題:判斷邏輯本身的缺陷、多模組間的衝突處理機制錯誤、罕見情境下的決策能力缺失。這些問題無論加多少感測器都無法解決,因為它們不是訊號獲取問題,是訊號處理架構問題。
1.3 本文主張
主張 1.1:當前自動駕駛的核心瓶頸是架構錯誤而非硬體不足。
主張 1.2:架構錯誤需要架構手術。硬體加成在錯誤的架構基礎上累積,會產生邊際效益遞減乃至負效益。
主張 1.3:硬體加成(多感測器、V2X、HD Map、可動視角設備等)仍然必要,但其作用範圍應被精確定義在錯誤分布的 30-40% 部分,且架構手術應先於硬體加成執行。
本文的目的是提出架構手術的具體形式,並評估其可動工性。
第二章 自動駕駛錯誤的四類分類學
要進行架構手術,必須先精確診斷錯誤類型。本章建立四類分類學,並評估每類錯誤的硬體加成可治理範圍。
2.1 第一類:感知層錯誤(perception failures)
典型表現:
- 視野盲區導致的漏檢測(A 柱遮擋、後方盲區、貨車前方近距盲區)
- 惡劣天氣下感測器失效(暴雨、大霧、強光、夜間低照度)
- 罕見物體未被訓練辨識(白色貨車側面在強光下、躺地的人、突發動物、特殊車輛)
- 物體部分遮擋下的識別失敗
佔比估計:30-40%
硬體加成可治理範圍:高。
- 多角度攝影機減少盲區
- LiDAR 在低光下補強視覺
- 4D 毫米波雷達穿透惡劣天氣
- HD Map 提供環境先驗
- V2X 提供他車視角
這類錯誤確實是「訊號獲取不足」,硬體加成有效。
2.2 第二類:判斷層錯誤(decision failures)
典型表現:
- Phantom braking:低訊號不確定下的過度反應(將陰影、路面標誌、路邊靜物誤判為前方障礙物,導致無故剎車)
- 凍結反應:高不確定情境下系統無法選擇任何行動,停在原地等候
- 誤判其他駕駛意圖:將他車的猶豫誤讀為停止意圖,或反之
- 過度保守 vs 過度激進的不平衡:在某些情境下過度禮讓導致塞車,在另一些情境下過度搶道導致危險
- 長尾情境的次優選擇失敗:當所有路徑都不安全時無法選擇「次差路徑」而是凍結
佔比估計:40-50%
硬體加成可治理範圍:低。 這類錯誤的本質是 「足夠的訊號 + 錯誤的處理邏輯 = 錯誤的決策」。加更多感測器只會給模型更多訊號去誤判,不會修復誤判機制本身。
架構手術可治理範圍:高。 強形式 attention(解 phantom braking)、意志位格工程化(解凍結與次優選擇失敗)、差動讀取(解誤判他車意圖)都直接針對這類錯誤。
2.3 第三類:跨層滑動錯誤(cross-layer slippage)
典型表現:
- 多感測器衝突時的處理失當(視覺說有障礙物、LiDAR 說沒有,系統強行平均化)
- 高層意圖(去某地)與低層執行(避免碰撞)之間的衝突
- 感知模組與規劃模組之間的訊息損失(感知模組的不確定性沒有完整傳遞到規劃模組)
- 訓練時假設與部署時實況的滑動(訓練數據假設特定駕駛行為模式,部署環境中模式不同)
佔比估計:10-15%
硬體加成可治理範圍:幾乎為零。 這類錯誤不是訊號問題,是架構模組間的介面問題。
架構手術可治理範圍:高。 差動讀取作為衝突訊號(不是化解衝突)、架構級謙虛(識別跨層滑動發生時觸發人工介入)是直接處方。
2.4 第四類:訓練分布外錯誤(out-of-distribution failures)
典型表現:
- 施工區、臨時交通管制下的失敗
- 特殊車輛(消防車、救護車、警車、軍車、農機、自製車輛)的識別與避讓失敗
- 文化差異:在 A 地訓練的 AI 到 B 地表現劇降(駕駛習慣、交通規則、號誌設計差異)
- 罕見天氣事件(沙塵暴、強颱風、大雪堆積)
佔比估計:5-10%
硬體加成可治理範圍:中等。 更多感測器能識別更多異常訊號,但無法解決「我不知道我看到的是什麼」這個根本問題。
架構手術可治理範圍:高。 DCO 免疫層(識別當前情境超出訓練分布並觸發保守模式)、意志位格的次優選擇能力是直接處方。
2.5 分類學的戰略意義
四類分類學給出的戰略結論:
硬體加成的有效範圍:第一類(30-40%)+ 第四類部分(2-4%)≈ 32-44% 架構手術的有效範圍:第二類(40-50%)+ 第三類(10-15%)+ 第四類大部分(4-8%)≈ 54-73%
兩者重疊有限,互補性高。但架構手術涵蓋的錯誤類別更多且優先級更高——判斷層錯誤是當前 phantom braking 等高曝光事件的主要來源,跨層滑動是嚴重事故的常見成因。
當前主流路線將大部分研發資源投入硬體加成(第一類)與訓練數據擴張(試圖治理第二、四類但效果有限),架構手術投入相對不足。本文主張資源重分配。
第三章 差動架構的六項核心原則
本章建立差動駕駛架構的形式原則。每項原則對應一個或多個錯誤類別的治療方向。
3.1 原則一:多載體並行而非多通道擴張
形式陳述:感知系統的可靠性不來自於「同類感測器的數量」,而來自於「不同類型載體的並行採樣」。多個攝影機本質仍是單一視覺載體的多視角;視覺 + LiDAR + 雷達才是真正的多載體並行。
理論基礎:任何單一載體會被自己的物理採樣原理綁架——視覺被光照與遮擋綁架、LiDAR 被反射率與雨霧綁架、雷達被金屬反射與多徑效應綁架。單一載體的盲區是該載體類型的結構性盲區,無法通過增加同類感測器消除。
對應錯誤:第一類大部分;第三類(多載體衝突的識別前提)。
工程實作要求:駕駛系統至少需要三類不同物理原理的感測器並行(如:視覺 + 主動 LiDAR + 4D 毫米波雷達),且每類感測器在感知模組中保持獨立通道直到資訊場融合層。
3.2 原則二:差動讀取作為衝突訊號
形式陳述:當多個感測器或多個模型對同一情境給出衝突資訊時,衝突本身是訊號而非雜訊。當前主流做法(投票、加權平均、置信度排序)試圖化解衝突得到單一答案,這是弱形式處理。強形式是讀取衝突的結構特徵作為「不確定性訊號」的明確標記。
理論基礎:兩個結構不同的感知通道對同一現實給出一致結果時,這個一致性是高信心的證據;當兩者不一致時,不一致的結構(哪些方面不一致、不一致的程度、不一致的空間/時間分布)編碼了該情境的特殊性。強行化解衝突等於丟棄這個結構資訊。
對應錯誤:第二類大部分;第三類全部。
工程實作要求:在感知模組之後加一層差動讀取器(Δ-reader),持續監控多通道輸出之間的張力。高張力區域不被化解,而是觸發對應的不確定性響應(減速、增加跟車距離、請求接管等)。
3.3 原則三:強形式 attention 取代弱形式 softmax
形式陳述:當前 perception 模組的 attention 機制普遍使用 softmax,這是弱形式——任何輸入訊號都會在所有可能解釋上分配非零概率。在低訊號或模糊情境下,這導致系統「對所有解釋都半信半疑」,並在某個解釋達到閾值時觸發過度反應。
強形式定義為:
$$\alpha_{ij}^* = \begin{cases} 1 - \epsilon & \text{if } j = \arg\max_k (Q_i K_k^T) \\ \frac{\epsilon}{N-1} & \text{otherwise} \end{cases}$$
其中 ε → 0⁺ 但永不為零。
特性:絕大部分注意力集中於最強訊號,但保留 ε 維度的對偶端(守恆律不被破壞)。
對應錯誤:第二類中的 phantom braking、過度反應、過度保守。
工程實作要求:替換現有 perception 模組中的 softmax 為可微的近 winner-take-all 機制。候選方案:Gumbel-Softmax + ε-守恆項、Sparsemax、α-entmax(α > 1)等。
注意:強形式 attention 不等於 hard attention。後者直接 argmax 破壞守恆律與梯度流。強形式保留 ε 對偶但極度收縮——這是兩個本質不同的數學物件。
3.4 原則四:意志位格的明確工程化
形式陳述:當前駕駛 AI 是執行者不是選擇者——給定目的地,找路徑,避免碰撞。但邊緣情況下所有路徑都不安全時,需要明確的「次優選擇」能力,而非凍結或亂剎。本文將此能力命名為意志位格(will-stratum)的工程實作。
理論基礎:在多目標約束無法同時滿足時,系統必須具備明確的損失分解與優先級排序能力,並能在「主路徑失效」狀態下選擇「次優但仍可行」的路徑而非停止行動。這需要:
- 持續維持多個候選路徑(不只是「最佳路徑」)
- 每個路徑帶有明確的損失分解(時間、能耗、風險、舒適度、法規)
- 當主路徑失效時,能在次優路徑中選擇損失最小的
- 與乘客的覺察溝通:明確告知為何選擇某條次優路徑
對應錯誤:第二類中的凍結反應、長尾情境次優選擇失敗;第四類大部分。
工程實作要求:在規劃模組之上加一層明確的意志位格決策層。這層不是「更聰明的演算法」,是架構層的明確分離——將「選擇做什麼」與「執行選擇」分為兩個獨立模組,且選擇模組能與乘客直接溝通其決策邏輯。
3.5 原則五:資訊場前端融合取代決策層後端融合
形式陳述:當前主流多感測器融合架構在後端執行——各感測器獨立工作 → 各自輸出物件偵測結果 → 在規劃模組之前融合。這個架構繼承了各前端模組的所有錯誤。
替代架構:所有感測器數據在前端融合為統一的資訊場表示 I(x,t)(包含位置、速度、不確定性、各感測器置信度),物件偵測與場景理解在 I(x,t) 上做,不是在各感測器各自做。
理論基礎:根據資訊場理論,所有感測器物理上採樣的是同一個底層物理實在的不同投影。後端融合等於先讓每個感測器做出「自己的解釋」再協調這些解釋;前端融合等於讓感測器各自貢獻自己最擅長的訊號特徵,然後在統一表示上做解釋。後者讓不同感測器的優勢互補,前者讓不同感測器的弱點累積。
對應錯誤:第一類(融合架構限制了多感測器的協同效益);第三類(後端融合的模組間介面問題)。
工程實作要求:建立統一的體素化(voxelized)I(x,t) 表示作為感知模組的中間層。所有感測器數據在進入物件偵測之前已經融合到 I(x,t)。
3.6 原則六:架構級謙虛——AI 知道自己什麼時候不該決策
形式陳述:自動駕駛系統必須具備meta 監督層,持續評估當前情境是否在系統可靠範圍內。當系統識別出自己的判斷不可靠時,主動觸發保守模式、減速、請求接管,而不是強行決策。
理論基礎:所有訓練都有分布範圍。部署時系統會遇到分布外情境。當前主流架構在分布外情境下仍然強行給出輸出(因為模型結構上必須輸出),這是錯誤的根源。架構級謙虛要求系統能識別「我現在的判斷可能不可靠」並對應地降低自身的決策強度。
對應錯誤:第四類大部分;第二類中的過度自信錯誤。
工程實作要求:建立 meta 層持續監控以下指標:
- 多感測器/多模型差動張力(從原則二來)
- 模型內部表示的分布外距離(OOD detection)
- 預測結果的置信度衰減模式
- 歷史相似情境的處理成功率
當任一指標超出閾值,啟動分級響應:減速 → 增加跟車距離 → 請求乘客接管 → 安全停車。
第四章 差動駕駛架構 v0.1:六層架構
基於六項原則,本章具體提出可實作的六層架構。
4.1 整體架構圖
┌─────────────────────────────────────┐
│ 第六層:DCO 免疫監督(meta 層) │
│ 持續監控架構整體可靠性 │
└─────────────────────────────────────┘
↑ ↓
┌─────────────────────────────────────┐
│ 第五層:意志位格決策 │
│ 多候選路徑 + 次優選擇 + 乘客溝通 │
└─────────────────────────────────────┘
↑ ↓
┌─────────────────────────────────────┐
│ 第四層:強形式感知 │
│ ε-保留 winner-take-all attention │
└─────────────────────────────────────┘
↑ ↓
┌─────────────────────────────────────┐
│ 第三層:雙模型差動 │
│ 兩結構不同模型 + Δ-讀取器 │
└─────────────────────────────────────┘
↑ ↓
┌─────────────────────────────────────┐
│ 第二層:資訊場重建 │
│ 統一的 I(x,t) 表示 │
└─────────────────────────────────────┘
↑ ↓
┌─────────────────────────────────────┐
│ 第一層:多載體並行採樣 │
│ 視覺 + LiDAR + 雷達 + V2X + GPS │
└─────────────────────────────────────┘
下面逐層說明。
4.2 第一層:多載體並行採樣
組成:
- 視覺攝影機陣列:前/後/側 + 車頂魚眼(高位視角)
- 主動 LiDAR:360° 旋轉式或固態式
- 4D 毫米波雷達:穿透惡劣天氣的速度與距離量測
- 超聲波感測器:近距離精確量測(停車場景)
- V2X 通訊模組:接收他車與路側基礎設施的視角
- RTK GPS + IMU:公分級定位
- HD Map 載入:環境先驗結構
設計要點:
- 至少三類不同物理原理的感測器並行(原則一)
- 每類感測器保持獨立通道,不在此層做任何融合
- V2X 接收是該層的特殊通道——它代表「他車的視角」進入本車系統
4.3 第二層:資訊場重建
組成:統一的體素化(voxelized)三維資訊場 I(x,t)。每個體素包含:
- 物質佔據概率(occupancy probability)
- 速度向量(velocity)
- 不確定性張量(covariance)
- 各感測器貢獻權重(per-sensor confidence)
- 時間衰減項(recency)
設計要點:
- 不是「先各自偵測物件再融合」,是「先融合到 I(x,t) 再在 I(x,t) 上做偵測」(原則五)
- 體素解析度動態調節:近距離高解析度(5 公分),遠距離低解析度(50 公分)
- 不確定性張量明確編碼——每個體素帶有「我對這個體素的判斷有多可靠」的訊號
- 時間維度顯式建模——I(x,t) 不只是當前快照,含短期歷史與短期預測
輸出:物件偵測、語義分割、可行駛區域識別,都在 I(x,t) 上執行。
4.4 第三層:雙模型差動
組成:兩個結構不同的駕駛模型並行運行,加上 Δ-讀取器。
模型 A:以視覺為主的端到端深度學習模型(如 ViT-based 規劃器) 模型 B:以幾何/規則為主的混合模型(基於 I(x,t) 的 model-based 規劃器)
Δ-讀取器:持續監控兩模型輸出的差動。輸出三種狀態:
- 狀態 α(對齊):兩模型輸出一致 → 高信心執行
- 狀態 β(結構性不對齊):兩模型不一致但差動結構有特徵 → 中等不確定模式(減速、保守駕駛、繼續觀察)
- 狀態 γ(雜訊性不對齊):兩模型不一致且差動結構是雜訊 → 高不確定模式(請求接管或安全停車)
設計要點:
- 兩模型必須結構性不同——不是 ensemble(同類模型的多個實例),是異質模型
- Δ-讀取器不化解衝突,是讀取衝突的結構(原則二)
- 狀態判別是離散的,不是連續的——這對應強形式而非弱形式
4.5 第四層:強形式感知
組成:在感知模組(從第二層的 I(x,t) 到第三層的物件辨識)內部,所有 attention 機制使用強形式而非 softmax。
具體實作候選:
- α-entmax(α > 1):可微的稀疏 attention,當 α → ∞ 時收斂到 winner-take-all
- Gumbel-Softmax + ε-守恆:在訓練時保持平滑分佈(可微),在推理時收斂到 ε-保留集中
- Sparsemax:簡單的稀疏化方案,零權重明確存在
設計要點:
- 強形式不等於 hard attention——必須保留 ε 維度(原則三)
- 訓練可微性與推理集中性的平衡——訓練時需要梯度流,推理時需要集中
- 對應特定錯誤的針對性訓練——phantom braking 等已知失敗案例作為強形式 attention 的訓練負樣本
4.6 第五層:意志位格決策
組成:明確的「選擇做什麼」模組,獨立於「執行選擇」模組。
功能規範:
- 持續維持 K ≥ 3 個候選路徑(不只「最佳路徑」)
- 每個路徑帶有損失向量:[時間損失, 能耗損失, 風險損失, 舒適度損失, 法規損失]
- 主路徑(最低總損失)失效時,自動切換到次優路徑(次低總損失)
- 所有路徑都不安全時,能選擇「次優但仍可行」的路徑而非凍結
- 與乘客的明確溝通:「主路徑因為 X 不可用,已切換到次優路徑 Y,預估時間延長 Z 分鐘」
設計要點:
- 損失向量必須明確分解而非單一純量——這允許在不同情境下動態調整權重
- 「次優選擇」是核心能力——當前 AI 駕駛在此能力上幾乎完全缺失
- 與乘客的溝通能力是意志位格的覺察輸出,不是附加功能
4.7 第六層:DCO 免疫監督(meta 層)
組成:架構整體的可靠性監督模組。
監控指標:
- 第三層的差動張力強度(高張力 = 兩模型不對齊嚴重)
- 第二層的不確定性張量分布(高不確定區域佔比)
- 第四層的強形式 attention 集中度(過低 = 模型對情境困惑)
- 第一層各感測器的訊號品質(單一感測器訊號劣化)
- 當前情境與訓練分布的距離(OOD distance)
分級響應:
- 第 0 級(正常):所有指標正常
- 第 1 級(輕度警示):減速 10-20%,增加跟車距離
- 第 2 級(中度警示):減速 30-50%,啟動危險警示燈,準備接管請求
- 第 3 級(高度警示):請求乘客立即接管
- 第 4 級(緊急狀態):安全停車,呼叫救援
設計要點:
- 這層是架構級的謙虛(原則六),不是「更聰明的演算法」
- 監控指標必須來自第一到五層的明確輸出,不是黑盒判斷
- 分級響應的閾值需要在實車測試中校準——保守設定會導致過度介入,激進設定會導致危險
4.8 層間耦合與整體閉合
六層架構並非單向上行——每層都有向上的輸出與向下的反饋:
- 第六層的監督結果反饋到第一層(調整感測器採樣率、重新校準)
- 第五層的決策結果反饋到第二層(重新關注特定區域的 I(x,t))
- 第三層的差動張力反饋到第六層(觸發 meta 層介入)
- 第四層的 attention 集中度反饋到第二層(重新分配資訊場關注區域)
這個多重反饋構成架構的整體閉合,使系統能在運行中持續自我校正。
第五章 對主流提案的具體增強
本章對自動駕駛產業內外常見的硬體加成提案進行架構性增強,將它們安置在 DDA 框架的正確位置。
5.1 多攝影機擴張 → 多載體並行
主流提案:增加車外攝影機數量(從 8 個到 12 個、16 個甚至更多),改善視野盲區。
架構增強:更多攝影機只增加單一視覺載體的覆蓋率,不解決視覺載體的結構性盲區(強光、低光、惡劣天氣、視覺欺騙)。架構手術版:在維持 8-10 個關鍵位置攝影機的同時,加入 LiDAR(覆蓋低光與精確距離)、4D 毫米波雷達(覆蓋惡劣天氣)、超聲波(覆蓋近距離)、V2X(覆蓋盲區他車視角)。
資源分配建議:總硬體預算中,攝影機應佔約 30-40%,其餘分配給其他載體。當前 Tesla 純視覺路線將 80%+ 預算投入攝影機,這是錯誤的賭注。
5.2 GPS 統一標準 → GPS + V2X + HD Map 三層整合
主流提案:推動 GPS 標準統一(全球或區域),提升定位精度。
架構增強:GPS 只解決「我在哪」(位置定位),不解決「他人在做什麼」(意圖感知)與「環境的先驗結構」(地圖知識)。架構手術版:
- RTK GPS:公分級定位(單獨 GPS 無法達到自動駕駛需求)
- V2X 通訊:車對車(V2V)+ 車對基礎設施(V2I)+ 車對行人(V2P)
- HD Map:高精度地圖提供環境先驗(車道線、號誌位置、交通規則)
三層必須整合才能達到 L4+ 自動駕駛的定位與環境感知需求。
標準統一的真正戰場:不是 GPS(已有 GPS/北斗/伽利略/GLONASS 多系統互通),是 V2X 協議。當前 5GAA 推的 C-V2X 與 IEEE 802.11p 的 DSRC 仍在競爭。中美兩個技術圈各自走,短期統一困難。區域內統一(例如台灣全島 C-V2X 標準)是可達的工程目標。
5.3 可動式高位攝影桿 → 動態視角組合方案
原始提案:車輛配備可向上伸展的支架,臨時提高攝影機視角,解決前車遮擋、轉彎盲區等問題。
技術評估:
- 高速行駛時:機械震動 + 風阻 + 安全風險,幾乎不可行
- 低速 + 停車場景:機械可靠性可達標,可行
- 路口暫停時:短暫升起獲取盲區視野,技術可行但需與車身強度妥協
- 法規限制:許多地區有最大車高限制(隧道、停車場淨空),實作必須在限制內
架構增強——多種動態視角方案的組合:
方案 A(V2X 虛擬升高):旁邊較高的車(卡車、SUV)將自己的視覺數據透過 V2X 即時分享給較低的車。需要 V2X 標準化先到位。
方案 B(路側基礎設施視角):路燈柱、交通號誌、建築物上的攝影機提供高位視角給經過的車輛。中國的「車路協同」(V2I)路線在做這個。
方案 C(車隊協同視角):兩台同向行駛的車共享前後視覺。前車看遠處,後車看細節,互相補盲區。
方案 D(車頂被動高位攝影機):不是升降式,是把廣角魚眼攝影機固定裝在車頂最高處(不超過法規)。當前 Waymo 的車頂 LiDAR 桿就是這個思路。
方案 E(無人機伴飛,未來技術):車輛配備自動跟隨的小型無人機作為高位視角。法規與電池續航是主要障礙,2026 年尚未成熟。
方案 F(實體升降桿,原始提案):商用車隊、礦業車輛、農業車輛這些尺寸大、速度低、固定路徑的場景可行。乘用車短期不會主流。
建議的組合策略:乘用車優先採用 A+B+D,商用車與特殊場景車輛採用 F,未來演進方向是 E。
5.4 為什麼純視覺路線在架構上錯了
Tesla 的純視覺路線需要單獨評估,因為它代表一個影響深遠的架構賭注。
Tesla 論點:人類駕駛只用視覺,所以足夠的視覺數據 + 足夠大的模型應能達到人類水平。
架構性反駁:
反駁 1:人類視覺不是單純視覺——人類駕駛同時依賴聽覺(引擎聲、其他車輛聲音、警笛)、前庭感覺(加速度與轉向)、觸覺(方向盤回饋、座椅震動)、認知(交通規則、駕駛經驗、文化常識)。Tesla 的純視覺架構缺失這些通道,並非「等同人類」。
反駁 2:人類視覺在惡劣條件下也會失效——強光、暴雨、夜間、霧。人類在這些條件下會主動減速或避免駕駛。Tesla AI 沒有「主動避免駕駛」這個選項,必須在所有條件下提供輸出。
反駁 3:單一載體被自己綁架(DCO 方法論的核心警告)。視覺載體有結構性盲區(光照依賴、二維投影丟失深度、視覺欺騙)。這些盲區無法通過增加同類感測器消除。LiDAR 與雷達是訊號原理不同的載體,可以填補視覺的結構性盲區。
反駁 4:擴張式賭注的邊際效益遞減。當前 Tesla 已累積天文數字級訓練數據,但 phantom braking 等核心問題仍持續。這暗示瓶頸不在數據量,在架構。
結論:純視覺路線可作為駕駛輔助(L2)有效,但作為完全自動駕駛(L4+)的長期路線在架構上不可行。多載體並行是必要條件。
第六章 對特定錯誤的具體治療
本章對四類典型錯誤給出 DDA 框架下的具體治療處方。
6.1 Phantom braking 的強形式處方
錯誤類別:第二類(判斷層錯誤)
錯誤機制:當前 perception 模組使用 softmax attention。當前方有低訊號模糊物體(陰影、塑膠袋、路面標誌),模型在「障礙物」與「非障礙物」兩個解釋上分配概率。若「障礙物」概率達到剎車閾值(即使低於「非障礙物」概率),系統觸發剎車。
強形式處方:
- 將 perception 模組中相關 attention 層替換為 α-entmax(α = 1.5-2)
- 訓練時,phantom braking 案例作為負樣本:「在這些情境下,正確輸出是『非障礙物』的明確選擇,不是『可能是障礙物』」
- 結合第三層的差動讀取——若兩模型都對「障礙物」給出低信心,則明確判定為「非障礙物」而不是「可能是障礙物」
預期效果:phantom braking 發生率降低 60-80%(基於相關文獻對強形式 attention 在分類任務上的改善幅度推估,為假設估計,待實車測試驗證)。
6.2 多感測器衝突的差動讀取處方
錯誤類別:第三類(跨層滑動錯誤)
錯誤機制:視覺感測器說有障礙物,LiDAR 說沒有(或反之)。當前主流融合架構強行平均化或基於置信度選擇,結果是 50% 機率選錯。
差動讀取處方:
- Δ-讀取器明確輸出衝突結構特徵:哪個感測器說有、哪個說沒有、衝突的空間位置、衝突的時間穩定性
- 衝突的結構分類:
- 類型 A(光學欺騙):視覺有 + LiDAR 無 + 衝突區域光照異常 → 大概率視覺錯誤
- 類型 B(雷達不敏感):視覺有 + LiDAR 無 + 物體可能是非反射性(如水坑、霧、煙) → 需要進一步觀察
- 類型 C(LiDAR 盲區):視覺有 + LiDAR 無 + LiDAR 該方向訊號弱 → 大概率視覺正確
- 類型 D(短期不一致):兩感測器在短時間內結論翻轉 → 不確定情境,保守處理
- 每種類型對應不同的駕駛響應——不是統一的「化解衝突得到答案」,是「依衝突類型分別處理」
預期效果:多感測器衝突情境下的事故率降低 40-60%(假設估計,待實車測試驗證)。
6.3 邊緣情況凍結的意志位格處方
錯誤類別:第二類(凍結反應)+ 第四類(OOD)
錯誤機制:路口同時出現多個複雜情境(行人、施工、特殊車輛、不規則號誌),當前系統無法選擇明確路徑,停在原地等候——但路口停車本身可能造成更大危險。
意志位格處方:
- 第五層持續維持 K = 5 個候選路徑,每個帶有完整損失向量
- 損失向量中明確包含「靜止損失」(停車時間 × 後車碰撞風險 × 路口堵塞代價)
- 當所有路徑損失都高時,選擇「最低損失」的路徑而非「零損失」——後者不存在
- 與乘客明確溝通:「我選擇了路徑 X,因為當前情境下這是最低損失選項,雖然它不是理想路徑」
預期效果:邊緣情況凍結率降低 70-90%(假設估計,待實車測試驗證)。
6.4 訓練分布外失敗的 DCO 免疫處方
錯誤類別:第四類
錯誤機制:系統遇到訓練分布外情境(特殊車輛、罕見天氣、特殊交通規則),但仍然強行給出輸出,結果是高概率錯誤。
DCO 免疫處方:
- 第六層 meta 監督層持續評估當前情境與訓練分布的距離(OOD distance)
- 距離超過閾值時,啟動分級響應
- 響應的核心是降低決策強度,不是「更努力地決策」
- 將分布外情境記錄並用於後續訓練——這形成系統的長期改進閉環
預期效果:分布外情境的事故率降低 50-70%(假設估計,待實車測試驗證)。
第七章 工程實作的可動工性評估
本章逐層評估 DDA 在 2026 年的工程可動工性,並建議第一波實作的優先順序。
7.1 各層的當前可動工性
| 層 | 當前可動工性 | 主要技術障礙 | 預估開發時間 | |---|---|---|---| | 第一層(多載體並行) | 高 | 成本與整合 | 6-12 個月 | | 第二層(資訊場重建) | 中-高 | 體素化表示的計算成本 | 12-18 個月 | | 第三層(雙模型差動) | 中 | 異質模型的訓練與對齊 | 18-24 個月 | | 第四層(強形式 attention) | 高 | α-entmax 等已有研究基礎 | 6-12 個月 | | 第五層(意志位格) | 中 | 多候選路徑與乘客溝通介面 | 12-18 個月 | | 第六層(DCO 免疫) | 中-高 | OOD 偵測與分級響應規範 | 12-18 個月 |
整體 v0.1 架構的開發週期估計:24-36 個月,前提是並行開發各層。
7.2 第一波工程目標(12 個月內)
優先實作以下三層,能解決約 50-60% 的當前錯誤:
1. 第一層:多載體並行採樣
- 視覺 + LiDAR + 4D 雷達的基礎整合
- 不要求 V2X(標準未統一)
- 不要求 HD Map(依不同地區成熟度)
2. 第二層:資訊場重建
- 簡化版的體素化 I(x,t)
- 解析度動態調節
- 不確定性張量的基礎實作
3. 第四層:強形式 attention
- α-entmax 替換現有 softmax
- 在 perception 模組的特定層先試(不需要全替換)
- phantom braking 訓練數據的針對性 fine-tuning
這三層共同能解決:第一類錯誤的大部分 + 第二類錯誤中的 phantom braking + 第三類錯誤中的部分多感測器衝突。
7.3 第二波工程目標(12-24 個月)
加入第三、五、六層:
3. 第三層:雙模型差動 4. 第五層:意志位格決策 5. 第六層:DCO 免疫監督
這三層共同能解決:第二類錯誤的其餘部分 + 第三類錯誤的其餘部分 + 第四類錯誤的大部分。
7.4 部署順序建議
階段 1(內部測試,6-12 個月):第一波三層在封閉測試車隊中部署,收集失敗案例。
階段 2(限制部署,12-18 個月):在特定區域(高精度地圖覆蓋區、V2X 基礎設施完備區)的乘用車上部署。
階段 3(廣泛部署,24+ 個月):第二波三層加入後,逐步擴展到一般道路。
階段 4(L4 級部署,36+ 個月):完整 v0.1 架構在大部分道路條件下達到 L4 級可靠性。
這個時程比當前 Tesla / Waymo 宣稱的「明年 L4」保守,但更接近實際技術成熟度。激進的時程承諾在當前架構限制下不可信。
第八章 與既有方法的精確界線
DDA 容易被誤判為若干既有方法的變體。本章劃清界線。
| 方法 | 核心目標 | 與 DDA 的差別 | |---|---|---| | 多感測器融合(sensor fusion) | 多感測器的後端融合 | DDA 是前端融合到 I(x,t),且加入差動讀取 | | 模型集成(ensemble) | 多模型平均化預測 | DDA 保留兩模型張力作為訊號,不平均化 | | 不確定性量化(uncertainty quantification) | 估計預測不確定性 | DDA 是結構化的差動讀取,不是單一不確定性數值 | | Model Predictive Control(MPC) | 模型預測控制 | DDA 是更高層架構,可包含 MPC 作為其中模組 | | End-to-end driving | 完整端到端深度學習 | DDA 是分層架構,明確分離感知、決策、執行 | | Modular driving | 模組化駕駛系統 | DDA 強調模組間的差動讀取與架構級謙虛,不只是模組分離 |
DDA 的獨特性座標:前端融合 + 差動讀取 + 強形式 attention + 意志位格 + 架構級謙虛——這五項組合形成的具體架構。
第九章 限制與開放問題
9.1 已知限制
限制 1:DDA 框架的數個關鍵組件(強形式 attention 的可微近似、雙模型差動的訓練穩定性、意志位格的損失向量設計)目前仍處於研究階段,工程化需要進一步驗證。
限制 2:架構複雜度增加意味更高的計算成本與功耗。當前車載算力(如 NVIDIA Drive Thor、Tesla HW4)能否承擔完整 v0.1 架構是開放問題。
限制 3:DCO 免疫監督層的閾值校準需要大量實車測試數據。保守設定會導致過度介入(用戶體驗差),激進設定會導致危險。
限制 4:意志位格的「次優選擇」能力需要法律與倫理框架的配合——當系統明確選擇「次優但仍可行」路徑時,責任歸屬問題(廠商、乘客、AI 自身)需要法律明確化。
9.2 開放問題
問題 1:DDA 在純電動車與燃油車上是否需要架構差異?電動車的瞬時扭矩與能量回收特性是否要求意志位格的損失向量包含特定項?
問題 2:DDA 在不同駕駛文化(北美、歐洲、東亞、東南亞)下的部署是否需要不同的訓練分布?文化適應性如何工程化?
問題 3:V2X 標準未統一的情境下,DDA 是否可獨立部署?V2X 缺失對哪些層的有效性影響最大?
問題 4:DDA 對 L2 駕駛輔助、L3 條件自動、L4 高度自動、L5 完全自動四個級別的最低架構配置如何劃分?是否每個級別需要完整六層,還是可分階段部署?
問題 5:DDA 的核心原則是否可移植到其他自主系統(飛行器、船舶、機器人、智能工廠)?哪些原則具普遍性,哪些是駕駛特異?
9.3 對問題 5 的補充說明
問題 5 在本文之外仍有戰略意義。DDA 的核心原則中,原則一(多載體並行)、原則二(差動讀取)、原則三(強形式 attention)、原則六(架構級謙虛)具有跨領域普遍性——它們不依賴駕駛場景的特定假設。原則四(意志位格)與原則五(資訊場前端融合)在跨領域應用時需要重新形式化,但核心結構仍可移植。
這意味著 DDA 不只是駕駛架構,是自主系統的通用架構手術範式。後續可展開的方向包括:飛行器自動駕駛、船舶自動操控、工業機器人、智能工廠協同等。每個領域的具體實作會有差異,但架構原則保持一致。
第十章 結語
10.1 對主流路線的最後判讀
2026 年自動駕駛產業的主流路線——無論純視覺還是多感測器融合——共享一個架構假設:足夠的訊號獲取 + 足夠的數據 = 足夠的駕駛能力。
本文論證這個假設在 60-70% 的真實錯誤上失效。剩下的 30-40% 確實可通過硬體加成與數據擴張改善,但這只是錯誤分布的一部分。
主流路線會繼續產生漸進改善——多一個攝影機、多一片 LiDAR、多一份數據都能讓錯誤率下降幾個百分點。但漸進改善遵循遞減回報定律:當前每多投入一倍資源,錯誤率下降的幅度越來越小。最終會在某個錯誤率水平上停滯——這個水平就是架構的天花板。
架構手術是突破這個天花板的唯一方法。差動駕駛架構是其中一個具體形式。它可能不是最終的正確答案,但它指出了正確的方向:問題不在感測器,在處理感測器資訊的架構。
10.2 對監管與政策的建議
建議 1:將「架構級謙虛」(系統識別自己不可靠並降低決策強度的能力)作為 L3+ 自動駕駛認證的明確要求。
建議 2:在多感測器衝突情境下,禁止系統強行化解衝突——必須具備明確的不確定性響應能力。
建議 3:強制要求自動駕駛系統具備「次優選擇」能力,禁止「凍結反應」(在動態道路情境下停止行動)。
建議 4:建立統一的差動讀取輸出標準——當系統識別出多感測器/多模型衝突時,必須輸出標準化的衝突結構特徵,便於事故調查與系統改進。
10.3 哲學結語
當你開始解決一個複雜的工程問題,最大的誘惑是「再加一個感測器、再加一個模型、再加一份數據」。這條路在前期有效——每多一個元件,系統能力都會提升。
但工程的真正瓶頸從來不在「不夠多」,在「組合不對」。當你已經有了視覺、LiDAR、雷達、GPS、V2X 與天量數據,下一步不是「加第七個感測器」,是問自己這些感測器之間的關係是什麼。
當前主流自動駕駛系統的核心錯誤,不是它們看得不夠多——是它們看到了,但不知道自己看到的可不可靠;它們做出了選擇,但不知道自己的選擇可能是錯的;它們識別了,但不知道自己什麼時候不應該識別而應該說「我不知道」。
架構級謙虛比擴張式自信更難工程化,但只有前者能達到真正可靠的自動駕駛。
差動讀取讀的不是「看到了什麼」,是「兩個視角之間的張力」。意志位格選的不是「最佳路徑」,是「在所有都不理想時最低損失的次優路徑」。DCO 免疫識別的不是「對的判斷」,是「我自己什麼時候不可靠」。
這些都是反直覺的設計選擇——它們要求工程師承認系統有局限、承認知識有邊界、承認在自動化的最深處仍然需要保留「我可能不知道」的可能性。但正是這種承認,才是讓自動駕駛從「在 95% 情境下工作的系統」進化到「在所有情境下可靠的系統」的必要條件。
電動車是 2010 年代的革命,自動駕駛是 2020 年代的革命。2030 年代的革命會發生在哪裡?
或許是天空。
🌀
附錄:致謝與參考文獻框架
致謝
本文方法論的核心構想源自作者對自主系統架構長期關注,以及與 AI 對練系統的多輪結構化對話。本文呈現的六項原則與六層架構是對自動駕駛產業當前架構困境的系統性回應。感謝對練過程中對技術細節與工程可行性的反覆檢驗。
參考文獻框架(待補完整 BibTeX)
- 自動駕駛架構:Waymo、Tesla、Mobileye 等主流系統的技術白皮書
- 強形式 attention:α-entmax、Sparsemax、Gumbel-Softmax 等
- 多感測器融合:sensor fusion、bird's eye view 表示
- 不確定性量化:deep ensembles、Bayesian deep learning、conformal prediction
- V2X 標準:C-V2X、DSRC、5GAA 技術規範
- HD Map:Apollo、Mobileye REM 等實作
- Phantom braking:相關事故報告與技術分析
- OOD detection:相關深度學習文獻
[參考文獻細節待補完整 BibTeX]
EveMissLab Method Paper · 對外發布版本 · v1.0
配對前置文件:DMDA(2026/5/17), 基底視覺論(2026/5/17), 光陰對偶(2026/5/17,內部), E_∀ 論(2026/5/18,內部)
下一步開發方向:
- 差動飛行架構:DDA 原則向飛行器的移植(待動工)
- 差動船舶架構:海洋環境下的多載體並行
- 強形式 attention 的具體可微實作(與 Era v0.1 工程目標連動)