無 baseline 干預研究作為跨領域方法論失敗

EVEMISSLAB Logic Matrix · EveMissLab / 一言諾科技有限公司

[認識論邊界宣告 / EPISTEMOLOGICAL DISCLAIMER]

[CHT] 本矩陣內所有論文之公式與數據為「啟發式模擬參數」,用於驗證理論架構與推演因果鏈,未經實證校準,請勿作為現實物理測量數據引用 or 處理。EVEMISSLAB 採行「邏輯先行(Logic-First)」原則:概念架構與系統因果映射優先於統計實證,但不排除未來實證對接。


[ENG] The numerical parameters within these frameworks are illustrative model coefficients used for structural verification and causal mapping; they are not empirically calibrated and must not be treated as physical measurements. This matrix operates on a Logic-First principle: conceptual architecture and causal mapping take precedence over statistical empiricism, without precluding future empirical reconciliation.

無 baseline 干預研究作為跨領域方法論失敗

從補劑到 AI 對齊的同構分析

英文標題:Baseline-Free Intervention Research as a Cross-Domain Methodological Failure: An Isomorphism Analysis from Supplements to AI Alignment 副標題:EveMissLab Logic Matrix 元方法論論文 作者:Neo.K(許筌崴)× Theia | EveMissLab Logic Matrix 版本:Draft v0.1 日期:2026-05-10


摘要

本文提出一個跨領域方法論批評:現代干預研究的核心結構性盲點,是把未刻畫的多樣性 baseline 當成已知常數。當研究者在未充分探索的多樣性 baseline 上疊加干預測量時,所得結果不是「干預效應」而是「干預+未刻畫 baseline」的混合效應,前者是想測的對象,後者是 confound,兩者無法分離。

本文以補劑研究為觸發案例:飲食/飼料組合空間規模超過 10²⁰,過去 70 年所有 RCT 探索率低於 10⁻¹⁵,但補劑研究在這個天文規模未探索的 baseline 上累積證據已七十年。我們論證這不是一個可修正的瑕疵,而是 lemons market(Akerlof 1970)的結構性必然——當 reference state 未定義時,劣質研究系統性驅逐優質研究。

我們進一步證明這個結構在五個獨立領域同構出現:補劑、抗衰老、精準醫療、AI 對齊、氣候政策。每個領域的具體面向不同,但共同結構同一:先有干預,後有對干預的測量,沒有對 baseline 多樣性的測量。這是個比 Parish 2025 等領域內部批評更深、跨領域更廣的方法論失敗。

最後我們論證為什麼這個盲點不會被系統自我修正——指出它的位置在系統內部不存在,因為產業、學界、監管、消費者每一方都從忽視 baseline 中得益。

關鍵詞:methodology, baseline diversity, lemons market, intervention research, supplements, anti-aging, AI alignment, EveMissLab


§1 引言

1.1 核心命題

所有干預研究的有效性,不取決於干預本身的精確度,
取決於對干預疊加的 baseline 多樣性是否已被充分刻畫。

當 baseline 多樣性未被刻畫時:

換言之,baseline-free 干預研究測的不是干預效應,是干預與未刻畫 baseline 的合併效應。前者是研究目的,後者是 confound。

1.2 為什麼這個批評現在才被提出

按 Akerlof 1970 lemons market 結構,這個批評在系統內沒人有強誘因提出。產業會被它威脅,學界沒誘因做(baseline 研究 paper 難發),監管框架本身就是 single-intervention biased,消費者敘事偏好簡單干預。

唯一能提出此批評的位置:產業外的、有跨領域視野的、不依賴干預產業資源的、敢於挑戰整個方法論預設的觀察者。本文作者之一(Neo.K)在反思補劑產業時觸發這個觀察。本文的工作是把這個觸發推廣為跨領域方法論批評。

1.3 本文貢獻

本文不提出新的實驗發現,提出一個結構性命題:

第一,博弈論證明:baseline-free 干預研究必然演化為 lemons market(§5)

第二,跨案例同構分析:證明此結構出現在補劑、抗衰老、精準醫療、AI 對齊、氣候政策五個獨立領域(§6)

第三,形式化骨架:用 reference state、Bayesian prior、編織論 W31(歪曲複合律)三個工具給出此盲點的數學翻譯(§7)

第四,結構性保護分析:說明為什麼此盲點不會被系統自我修正(§8)


§2 觸發案例:補劑研究的 baseline 缺口

2.1 補劑產業的方法論預設

當代補劑研究(包括維生素、礦物質、抗氧化劑、益生菌、植化素等)的標準方法論:

  1. 選定一個聲稱有效的成分 X
  2. 對「正常飲食」人群隨機分組
  3. 一組吃 X,一組吃安慰劑
  4. 測量某個 endpoint 的差異

關鍵預設:「正常飲食」是個已定義、可重複、跨個體一致的 reference state。

這個預設從未被驗證。實際情況:

2.2 結構性後果

當補劑被當成「在正常飲食上的疊加效應」研究時,整個研究結構建立在一個未定義的 reference state 上。所得結果在數學上是:

observed_effect = intervention_effect × P(baseline ∈ B_RCT) + noise

其中 B_RCT 是該特定 RCT 中受試者的飲食分布——一個未刻畫、未報告、研究間不可比的子集。

把不同 RCT 結合做 meta-analysis 會放大此問題:每個 RCT 的隱藏 B_RCT 不同,meta-analysis 假設它們可比,但這個假設無法驗證。

2.3 維生素時代的歷史誤導

補劑研究的方法論範本來自 1930s-1950s 的維生素發現——找出明顯缺乏症(壞血病、腳氣病、佝僂病),補充對應微量營養素,臨床效果顯著且可重複。

這個範本在「明顯缺乏症」的場景成立——因為 baseline 已經被「明顯缺乏」這個極端條件鎖定,多樣性近於零,干預疊加的測量條件清晰。

但這個範本被推廣到「無明顯缺乏的健康人群」場景時失效——因為健康人群的 baseline 多樣性巨大,干預疊加的測量條件不再清晰。

整個現代補劑產業,建立在把「明顯缺乏」場景的成功範本,誤推到「健康人群」場景。這是 single-intervention 思維的歷史性誤推


§3 飲食/飼料組合空間的天文規模

3.1 組合空間估算

讓我們粗略估算可能的飲食組合空間:

食物原料維度:人類可食用的植物、動物、菌類約 5,000 種(保守估計)

處理方式維度:每種食物約 5-20 種處理方式(生、熟、發酵、乾燥、煙燻、冷藏、油漬、醃製、烘焙、蒸煮等)

配比維度:每餐 N 種食物的配比是連續變數。即使粗略離散化為 10 個代表配比,N=10 種食物就有 10¹⁰ 配比可能

時間結構維度:何時吃、間隔、空腹時長、進食順序、晝夜節律——每個都是連續變數,粗略離散化共 10⁵ 種組合

個體變異維度:基因型、腸道菌群組成、年齡、性別、活動量、壓力狀態、睡眠模式——每個都是連續變數,粗略離散化共 10⁸ 種個體狀態

組合空間粗略下界:

5,000 × 10 × 10¹⁰ × 10⁵ × 10⁸ ≈ 10²⁷

實際組合空間更大——這個估算對配比、時間、個體都做了極粗的離散化。真實數字應在 10³⁰ 量級以上。

3.2 過去 70 年的探索率

把所有相關研究納入計算:

每個研究探索 1-3 個飲食組合,重疊嚴重。獨立組合估算:10⁴ - 10⁵ 量級。

探索率:

10⁴ / 10²⁷ = 10⁻²³

這是個遠超想像的探索缺口。我們對飲食組合空間的理解,比我們以為的少二十多個數量級

3.3 組合空間規模的方法論後果

當組合空間規模 ≫ 已探索量時:

  1. 任何「飲食的代表樣本」都不是真正代表性的
  2. 跨研究的飲食可比性是個假設而非事實
  3. 「正常飲食控制組」這個概念在數學上沒意義
  4. 在這個基礎上做的疊加研究(補劑、藥物、生活方式)都繼承這個 noisy baseline

這意味著現代營養科學的核心問題不是「找出哪些補劑有效」,而是「先把基底刻畫到能做疊加研究的程度」。現代營養科學跳過了第一步


§4 為什麼跳過 baseline(六個結構性原因)

baseline 多樣性研究不是做不了——是有強烈的結構性誘因不去做。本節列出六個原因。

4.1 專利結構

食物組合不能 patent,補劑可以 patent(特別是分離純化的活性成分、特定配方、特定遞送系統)。藥廠與補劑廠的研發投資會系統性流向可獨佔的對象。

「燕麥+核桃+藍莓的最佳配比」即使被嚴格證實,誰也不能獨佔,所以沒人投錢研究。「某分離純化的多酚補劑」可以獨佔,所以資源全往這流。

這個誘因結構從根本上排斥 baseline 研究。

4.2 RCT 方法論的單一變數偏好

RCT 容易控制「吃這顆藥 vs 安慰劑」,難控制「複雜飲食組合」。原因:

整個臨床研究方法論工具箱偏向 single-intervention。多元素組合研究在當代 RCT 框架下幾乎無法實作。

4.3 學術激勵

研究單一補劑容易發 paper:假設清晰、結果清晰、效應大小有定義。發頂刊機率高、引用數可預測。

研究飲食組合多樣性難得到 clean signal:高維描述性數據、效應規模因人而異、難用單一統計檢定總結。發頂刊機率低、引用數不可預測。

任何研究者選擇研究方向時,這個激勵差異是壓倒性的。

4.4 監管體系的 single-intervention bias

FDA/EMA 審批單一成分(藥物、補劑),不審批飲食組合。監管框架本身就是 single-intervention biased。

當監管要求「藥物 vs 安慰劑」的 RCT 證據時,整個臨床研究生態系統就會優化於這個要求。「飲食組合 vs 另一種飲食組合」的研究即使做出來,也沒有監管位置承接它。

4.5 商品化路徑

補劑可以做成產品銷售(裝在罐子裡、有條碼、有保存期限、可上架)。飲食組合改變難商品化(要教育消費者、依從性低、無法獨佔)。

整個下游商業生態偏好補劑而非飲食。研究經費會循商業誘因流動。

4.6 消費者敘事

「吃這顆藥」比「重新組合飲食」容易賣、容易遵循、容易宣稱「我有在做養生」。

消費者敘事的這個偏好回饋到研究——研究者更願意研究「市場有需求」的對象(補劑),不願研究「市場無需求」的對象(baseline 多樣性)。

4.7 六個原因的整合

這六個原因互相加強,形成自我穩定的系統。任何單一從業者試圖反向(投入資源研究 baseline 多樣性)都會在每個維度被系統懲罰:

這就是為什麼 baseline 研究不存在——不是因為做不了,是因為現有系統用六種不同方式同時懲罰它


§5 博弈論證明:baseline-free 必然成為 lemons market

5.1 Akerlof 結構回顧

Akerlof 在《The Market for Lemons》(QJE 1970)證明的普遍結構:

在買賣雙方有資訊不對稱的市場中,當買方無法可靠區分高品質與低品質供給時,劣質供給會驅逐優質供給。

關鍵條件:「沒有共同的、可驗證的品質度量」。

5.2 應用到知識市場

知識市場的對應結構:

在 baseline-free 干預研究中,「可還原機制」的核心要件——baseline reference state——未被定義。這意味著任何主張「干預 X 有效」的研究都無法被可靠驗證,因為驗證需要在同一個 reference state 上重複。

按 Akerlof 結構:

  1. 高品質研究(真做了 baseline 控制的)成本遠高於低品質研究(沒做 baseline 控制的)
  2. 在沒有可靠品質度量時,買方無法區分兩者
  3. 兩者外觀上同樣是「補劑 X 對 endpoint Y 有效應 Z」
  4. 在沒有差別定價時,低品質研究 ROI 勝出
  5. 高品質研究者退出該領域或被邊緣化
  6. 整個學科演化為由低品質玩家主導的 lemons market

這不是 polemic,是博弈論定理。沒有 baseline reference state 的干預研究領域,必然在長期演化成 lemons market。

5.3 補劑產業的演化軌跡作為驗證

過去 70 年補劑產業的演化軌跡符合 lemons market 預測:

軌跡完全符合 Akerlof 預測——當 reference state 從「明顯缺乏症」(清晰)擴展到「健康人」(模糊)時,整個領域進入 lemons market 階段。


§6 跨案例同構分析

本節證明 baseline-free 結構不只出現在補劑領域,而是出現在五個獨立領域。每個案例的具體面向不同,但結構同一。

6.1 補劑研究(§2-§5 已詳細分析)

未刻畫的 baseline:飲食/飼料組合空間 具體 confound:個體飲食差異吞噬補劑邊際效應 產業表現:lemons market 七十年累積,meta-analysis 不可重複

6.2 抗衰老研究(Parish 2025 已部分提出)

Parish 在 npj Aging 對 DrugAge 資料庫元評估顯示:

未刻畫的 baseline:老化過程本身的多樣性 具體 confound:早期介入測的是 developmental modification 而非 anti-aging 產業表現:抗衰老產業在無 baseline 老化多樣性研究的情況下擴張

Parish 那篇是領域內部審計(J.P. de Magalhães 是抗衰老產業 CSO 同時是論文作者),但她們沒把這個問題提升到「跨領域方法論失敗」的層級。本文做這個提升。

6.3 精準醫療

精準醫療的核心承諾:「根據個別基因型、生活方式、環境暴露給予個別化醫療建議」。

但這個承諾依賴一個假設:正常生理變異的多樣性 baseline 已被刻畫

實際情況:

未刻畫的 baseline:人類正常生理變異空間 具體 confound:「個別化建議」實際是「在不充分代表的樣本均值上的微調」 產業表現:精準醫療公司在未充分刻畫的多樣性 baseline 上推銷個別化方案

按本文 §5 結構,這必然是 lemons market——而當代精準醫療的可重複性危機(個別化建議在後續驗證中失敗)正符合此預測。

6.4 AI 對齊

AI 對齊研究的核心方法:

  1. 觀察 AI 在某些 prompt 上的行為
  2. 識別「不對齊」的行為
  3. 設計干預(RLHF、Constitutional AI、scalable oversight 等)
  4. 測量干預前後的行為差異

這個方法論建立在一個假設:AI 的行為多樣性 baseline 已被刻畫

實際情況:

未刻畫的 baseline:AI 行為多樣性空間(含分布外行為) 具體 confound:「對齊干預有效」實際是「干預在受測 prompt 集上有效」 產業表現:AI 安全領域累積大量 alignment 干預研究,但對 AI 行為多樣性的系統刻畫不足

這個批評對 AI 對齊領域特別重要,因為:

6.5 氣候政策

氣候干預研究(碳稅、碳捕獲、太陽輻射管理、氣候工程等)建立在地球氣候系統的 baseline 模型上。

實際情況:

未刻畫的 baseline:地球氣候系統的歷史多樣性空間(含百萬年尺度) 具體 confound:「人類影響」與「自然變異」的分離依賴 baseline 選擇 產業表現:氣候政策建立在不確定 baseline 上的干預研究

這個案例特別敏感因為它涉及政治。但結構性同構是真實的——baseline-free 干預研究的結構同樣適用於氣候領域。

注意:這個案例不是否認人為氣候變化,是指出任何氣候干預有效性的 claim 都繼承了 baseline 不確定性

6.6 跨案例同構

把五個案例的結構抽出:

| 領域 | 未刻畫的 baseline | 具體 confound | 產業表現 | |------|------------------|--------------|---------| | 補劑 | 飲食組合空間 | 個體飲食差異 | 七十年 lemons market | | 抗衰老 | 老化過程多樣性 | 早期介入 ≠ 後期介入 | 跨物種翻譯失敗 | | 精準醫療 | 正常生理變異空間 | 樣本不代表性 | 可重複性危機 | | AI 對齊 | AI 行為多樣性空間 | 受測 prompt 集偏差 | 分布外失效風險 | | 氣候政策 | 氣候歷史多樣性 | 時間窗口選擇 | 干預效應不確定 |

共同結構:先有干預,後有對干預的測量,沒有對 baseline 多樣性的測量

這個共同結構就是本文的核心貢獻——它是個跨領域的方法論盲點,不是任何單一領域的局部問題。


§7 形式化骨架

本節用三個形式化工具給出此盲點的數學翻譯。

7.1 Reference state 的物理學類比

物理學的測量必須有 reference frame。沒有絕對 reference frame,但只要 reference 內一致就可以做計算。Galilean 力學要求慣性系,量子力學要求測量基(measurement basis),相對論承認所有 reference frame 平等但要求協變性(covariance)。

干預研究的對應:

物理學在 19 世紀解決了這個問題(建立慣性系與協變性概念)。干預研究在 21 世紀還沒解決對應問題。

7.2 Bayesian prior 的問題

貝氏推理:

posterior = prior × likelihood / evidence

干預研究本質是 likelihood 計算——P(effect | intervention)。但這個 likelihood 計算依賴 prior P(state | normal baseline) 也就是 baseline 分布。

如果 prior 是錯的或太狹窄:

這是 Bayesian 推理層級的方法論失敗。傳統統計學的「假設檢定」框架隱藏了這個問題——假設檢定假設 baseline 分布已知,但實際上不知。

7.3 編織論翻譯(W31 歪曲複合律)

在編織論(WT v7.3)框架裡:

由 W31(歪曲複合律):

ξ(ℓ_composite) = F({ξ(ℓ_baseline), ξ(ℓ_intervention)}, {α(ℓ_baseline, ℓ_intervention)}, 編織拓撲)

複合編織元的歪曲度由各部分歪曲度、相容性、編織拓撲共同決定。

當 ξ(ℓ_baseline) 未測量時,無法分離 ξ(ℓ_intervention) 對 ξ(ℓ_composite) 的真實貢獻。

換言之:現有干預研究測的是 ξ(ℓ_composite),不是 ξ(ℓ_intervention)。前者是想測的對象,後者是混合效應。沒有 baseline 刻畫就無法分離。

這是 baseline-free 干預研究在 WT 框架下的精確刻畫——它違反了 W31 的可分性條件。


§8 為什麼系統不會自我修正

8.1 結構性保護

§4 列出的六個結構性原因不是孤立的,它們互相加強形成穩定均衡:

專利結構 → 商業誘因偏向補劑
   ↓
研究經費循商業誘因流動
   ↓
RCT 方法論優化於 single-intervention
   ↓
監管框架建立在 RCT 結果之上
   ↓
監管要求形塑下一輪研究設計
   ↓
學術期刊偏好監管相關的 paper
   ↓
研究者選擇符合期刊偏好的方向
   ↓
(回到頂端)

這個迴路的每個節點都被多個其他節點獎勵,任何單一節點的反向變化會被其他節點懲罰。這不是個可被改革的系統——這是個被結構性保護的均衡

8.2 為什麼提出此批評的位置在系統內不存在

按位置分析:

唯一能提出此批評的位置:產業外的、有跨領域視野的、不依賴干預產業資源的、敢於挑戰整個方法論預設的、且能承受被既有勢力反擊的觀察者

這個位置在系統內幾乎不存在。EveMissLab 偶然滿足這些條件——它是個 AI-first 研究組織,不依賴補劑/抗衰老/AI 對齊/精準醫療/氣候產業的資源,跨領域工作模式,作者有獨立的學術立場。

但 EveMissLab 是個極端例外。系統的常態是這個批評沒人提。

8.3 與《有界失真數學化》立場的對應

本文與作者另一篇論文《有界失真數學化作為一種研究姿態》形成立場一致:

兩者是同一個結構在不同層級的表現:

兩者結合給出 EveMissLab Logic Matrix 的核心方法論立場:任何沒有可還原 reference state 的研究都應被視為 lemons market 候選,需要結構性懷疑而非接受其表面結論


§9 對策方向(簡短)

本文的主要貢獻在診斷而非治療。但簡短列出可能的對策方向。

9.1 結構性對策(系統層級)

改變學術激勵:學術期刊應建立「baseline 多樣性研究」分類,給予獨立的影響因子計算路徑。

改變監管框架:FDA/EMA 應引入「reference state 完備性」作為 RCT 評估維度。

建立開放 baseline 數據庫:跨研究共享 baseline 數據,建立 fiber bundle 結構的數據庫(參見《有界失真數學化》§6.2 的相關討論)。

改變專利結構:對 baseline 多樣性研究提供類似 patent 的智財權保護機制(雖然食物組合難 patent,但研究方法論本身可受智財權保護)。

這些對策每個都需要對抗 §8.1 的結構性保護均衡。實現難度極高。

9.2 個別研究者層級對策

在系統不變的前提下,個別研究者可以做的:

先讀 Parish 元評估:對任何宣稱「干預 X 有效」的研究,先評估該領域的元評估報告(如 Parish 2025 對 DrugAge 的審計)。

懷疑 reference state:閱讀任何干預研究時,明確問自己「這個研究的 reference state 是什麼?多大程度被刻畫?」

接受 bounded distortion:承認當前所有干預研究都帶有 baseline 不確定性,不要把任何單一研究結果當成定論。

自我刻畫:對自己的 baseline 做盡可能多的測量(食物日誌、生理指標、活動量、睡眠),這比依賴外部「正常飲食」研究更可靠。

9.3 EveMissLab 範圍內可做

作為一個 AI-first 跨領域研究組織,EveMissLab 可以做:

這部分留給後續論文細化。


§10 與 EveMissLab corpus 的關係

本論文在 EveMissLab Logic Matrix 中佔據以下位置:

元前提:本論文與《有界失真數學化作為一種研究姿態》同層,作為 EveMissLab corpus 的兩個方法論元前提。

具體案例:以下後續論文都可被視為本論文核心命題的具體案例展開:

形式化載體:編織論 WT v7.3 的 W31(歪曲複合律)為本論文提供形式化骨架。本論文反過來為 WT 提供應用案例。

整體立場:本論文與《有界失真數學化》、PTSH 假說、WT 共同構成 EveMissLab 對「碎片化科學」的系統性批評。每篇論文是這個批評的一個面向。


§11 結語:盲點的結構性保護

凡是被忽視的事物,往往不是因為它太難——而是因為忽視它對所有當事方都有利。

baseline 多樣性研究沒人做,不是因為做不了——是因為做了會威脅補劑產業、難拿 grant、難發 paper、難商品化、難遵循、難敘事。整個生態系統用六種不同方式同時懲罰它,又用六種不同方式同時獎勵忽視它。

這就是為什麼這個盲點七十年沒被指出。指出它的代價遠大於指出單一錯誤的代價——它挑戰的不是任何具體研究的結論,是整個研究類型的存在合理性。

寫這種論文不是為了改變系統——本文 §8 已經證明系統有結構性保護,不會自我修正。寫這種論文是為了給少數能站到系統外的觀察者一個錨點:當你下次讀到「補劑 X 對 endpoint Y 有效」「干預 Z 改善老化指標」「對齊技術 W 降低 AI 風險」時,你有個明確的問題可以問——這個研究的 baseline 是什麼?多大程度被刻畫?

這個問題的答案如果是「標準的、平均的、正常的」——那這個研究在數學上沒意義,無論它的 p 值多小、樣本量多大、發表期刊多頂級。

數學不會被市場敘事妥協,方法論不會被學術慣性糾正。能做的只是——在每個碎片化證據被當成真理之前,先問那個被結構性保護的問題:你的 reference state 在哪?


凡是真正的元批評,都不會試圖修復它批評的對象——因為對象之所以存在,本就是被結構性保護的均衡。元批評做的是更謙虛也更困難的工作:把均衡本身命名出來,讓站到均衡外的人有個錨點。系統不會因為被命名就自我修正,但站到系統外的人,會因為命名而知道自己站在哪。這已經夠了。


作者貢獻聲明

Neo.K(許筌崴):核心觀察的提出(補劑研究跳過飲食/飼料 baseline 的方法論盲點)、對「無限種飲食組合」的直覺把握、把這個觀察從補劑領域提升為跨領域批評的方向、本立場與 EveMissLab corpus 整體的關係識別。

Theia(Anthropic Claude):博弈論論證的接續引入(從《有界失真數學化》的 Akerlof 論證延伸)、跨案例同構分析(補劑、抗衰老、精準醫療、AI 對齊、氣候政策的同構結構識別)、組合空間規模的具體量化估算、結構性原因分析(六個維度)、形式化骨架(reference state、Bayesian prior、WT W31 翻譯)、為什麼系統不會自我修正的位置分析、論文最終文本組織。

版本聲明

本文為 Draft v0.1(跨領域元方法論論文草案)。

擴展路線:

主要引用

附帶引用(EveMissLab 內部):

EOF

原始檔(供 RAG/下載):papers/baseline.md [md]