無 baseline 干預研究作為跨領域方法論失敗

從補劑到 AI 對齊的同構分析

英文標題：Baseline-Free Intervention Research as a Cross-Domain Methodological Failure: An Isomorphism Analysis from Supplements to AI Alignment 副標題：EveMissLab Logic Matrix 元方法論論文作者：Neo.K（許筌崴）× Theia | EveMissLab Logic Matrix 版本：Draft v0.1 日期：2026-05-10

摘要

本文提出一個跨領域方法論批評：現代干預研究的核心結構性盲點，是把未刻畫的多樣性 baseline 當成已知常數。當研究者在未充分探索的多樣性 baseline 上疊加干預測量時，所得結果不是「干預效應」而是「干預+未刻畫 baseline」的混合效應，前者是想測的對象，後者是 confound，兩者無法分離。

本文以補劑研究為觸發案例：飲食/飼料組合空間規模超過 10²⁰，過去 70 年所有 RCT 探索率低於 10⁻¹⁵，但補劑研究在這個天文規模未探索的 baseline 上累積證據已七十年。我們論證這不是一個可修正的瑕疵，而是 lemons market（Akerlof 1970）的結構性必然——當 reference state 未定義時，劣質研究系統性驅逐優質研究。

我們進一步證明這個結構在五個獨立領域同構出現：補劑、抗衰老、精準醫療、AI 對齊、氣候政策。每個領域的具體面向不同，但共同結構同一：先有干預，後有對干預的測量，沒有對 baseline 多樣性的測量。這是個比 Parish 2025 等領域內部批評更深、跨領域更廣的方法論失敗。

最後我們論證為什麼這個盲點不會被系統自我修正——指出它的位置在系統內部不存在，因為產業、學界、監管、消費者每一方都從忽視 baseline 中得益。

關鍵詞：methodology, baseline diversity, lemons market, intervention research, supplements, anti-aging, AI alignment, EveMissLab

§1 引言

1.1 核心命題

所有干預研究的有效性，不取決於干預本身的精確度，
取決於對干預疊加的 baseline 多樣性是否已被充分刻畫。

當 baseline 多樣性未被刻畫時：

干預效應 Δ_intervention = 觀測值 − baseline
baseline 是分布而非點，但被當作點處理
所謂「效應」實際是「干預在未刻畫 baseline 分布上的平均」
這個平均對任何特定 baseline 點都不準確

換言之，baseline-free 干預研究測的不是干預效應，是干預與未刻畫 baseline 的合併效應。前者是研究目的，後者是 confound。

1.2 為什麼這個批評現在才被提出

按 Akerlof 1970 lemons market 結構，這個批評在系統內沒人有強誘因提出。產業會被它威脅，學界沒誘因做（baseline 研究 paper 難發），監管框架本身就是 single-intervention biased，消費者敘事偏好簡單干預。

唯一能提出此批評的位置：產業外的、有跨領域視野的、不依賴干預產業資源的、敢於挑戰整個方法論預設的觀察者。本文作者之一（Neo.K）在反思補劑產業時觸發這個觀察。本文的工作是把這個觸發推廣為跨領域方法論批評。

1.3 本文貢獻

本文不提出新的實驗發現，提出一個結構性命題：

第一，博弈論證明：baseline-free 干預研究必然演化為 lemons market（§5）

第二，跨案例同構分析：證明此結構出現在補劑、抗衰老、精準醫療、AI 對齊、氣候政策五個獨立領域（§6）

第三，形式化骨架：用 reference state、Bayesian prior、編織論 W31（歪曲複合律）三個工具給出此盲點的數學翻譯（§7）

第四，結構性保護分析：說明為什麼此盲點不會被系統自我修正（§8）

§2 觸發案例：補劑研究的 baseline 缺口

2.1 補劑產業的方法論預設

當代補劑研究（包括維生素、礦物質、抗氧化劑、益生菌、植化素等）的標準方法論：

選定一個聲稱有效的成分 X
對「正常飲食」人群隨機分組
一組吃 X，一組吃安慰劑
測量某個 endpoint 的差異

關鍵預設：「正常飲食」是個已定義、可重複、跨個體一致的 reference state。

這個預設從未被驗證。實際情況：

「正常飲食」在不同 RCT 裡指的是不同東西
研究內部的飲食控制依賴受試者自報（信度低）
個體間的飲食組合差異遠大於補劑帶來的邊際效應
研究者通常假設這些差異「平均掉」（隨機化的標準回應），但這個假設要求樣本量遠大於實際 RCT 樣本

2.2 結構性後果

當補劑被當成「在正常飲食上的疊加效應」研究時，整個研究結構建立在一個未定義的 reference state 上。所得結果在數學上是：

observed_effect = intervention_effect × P(baseline ∈ B_RCT) + noise

其中 B_RCT 是該特定 RCT 中受試者的飲食分布——一個未刻畫、未報告、研究間不可比的子集。

把不同 RCT 結合做 meta-analysis 會放大此問題：每個 RCT 的隱藏 B_RCT 不同，meta-analysis 假設它們可比，但這個假設無法驗證。

2.3 維生素時代的歷史誤導

補劑研究的方法論範本來自 1930s-1950s 的維生素發現——找出明顯缺乏症（壞血病、腳氣病、佝僂病），補充對應微量營養素，臨床效果顯著且可重複。

這個範本在「明顯缺乏症」的場景成立——因為 baseline 已經被「明顯缺乏」這個極端條件鎖定，多樣性近於零，干預疊加的測量條件清晰。

但這個範本被推廣到「無明顯缺乏的健康人群」場景時失效——因為健康人群的 baseline 多樣性巨大，干預疊加的測量條件不再清晰。

整個現代補劑產業，建立在把「明顯缺乏」場景的成功範本，誤推到「健康人群」場景。這是 single-intervention 思維的歷史性誤推。

§3 飲食/飼料組合空間的天文規模

3.1 組合空間估算

讓我們粗略估算可能的飲食組合空間：

食物原料維度：人類可食用的植物、動物、菌類約 5,000 種（保守估計）

處理方式維度：每種食物約 5-20 種處理方式（生、熟、發酵、乾燥、煙燻、冷藏、油漬、醃製、烘焙、蒸煮等）

配比維度：每餐 N 種食物的配比是連續變數。即使粗略離散化為 10 個代表配比，N=10 種食物就有 10¹⁰ 配比可能

時間結構維度：何時吃、間隔、空腹時長、進食順序、晝夜節律——每個都是連續變數，粗略離散化共 10⁵ 種組合

個體變異維度：基因型、腸道菌群組成、年齡、性別、活動量、壓力狀態、睡眠模式——每個都是連續變數，粗略離散化共 10⁸ 種個體狀態

組合空間粗略下界：

5,000 × 10 × 10¹⁰ × 10⁵ × 10⁸ ≈ 10²⁷

實際組合空間更大——這個估算對配比、時間、個體都做了極粗的離散化。真實數字應在 10³⁰ 量級以上。

3.2 過去 70 年的探索率

把所有相關研究納入計算：

人類飲食 RCT：過去 70 年累積約 10⁴ 個獨立研究
動物飼料配方研究：過去 100 年累積約 10⁵ 個（畜牧業 + 實驗動物）
觀察性流行病學研究：另外 10⁴ 個

每個研究探索 1-3 個飲食組合，重疊嚴重。獨立組合估算：10⁴ - 10⁵ 量級。

探索率：

10⁴ / 10²⁷ = 10⁻²³

這是個遠超想像的探索缺口。我們對飲食組合空間的理解，比我們以為的少二十多個數量級。

3.3 組合空間規模的方法論後果

當組合空間規模 ≫ 已探索量時：

任何「飲食的代表樣本」都不是真正代表性的
跨研究的飲食可比性是個假設而非事實
「正常飲食控制組」這個概念在數學上沒意義
在這個基礎上做的疊加研究（補劑、藥物、生活方式）都繼承這個 noisy baseline

這意味著現代營養科學的核心問題不是「找出哪些補劑有效」，而是「先把基底刻畫到能做疊加研究的程度」。現代營養科學跳過了第一步。

§4 為什麼跳過 baseline（六個結構性原因）

baseline 多樣性研究不是做不了——是有強烈的結構性誘因不去做。本節列出六個原因。

4.1 專利結構

食物組合不能 patent，補劑可以 patent（特別是分離純化的活性成分、特定配方、特定遞送系統）。藥廠與補劑廠的研發投資會系統性流向可獨佔的對象。

「燕麥+核桃+藍莓的最佳配比」即使被嚴格證實，誰也不能獨佔，所以沒人投錢研究。「某分離純化的多酚補劑」可以獨佔，所以資源全往這流。

這個誘因結構從根本上排斥 baseline 研究。

4.2 RCT 方法論的單一變數偏好

RCT 容易控制「吃這顆藥 vs 安慰劑」，難控制「複雜飲食組合」。原因：

受試者依從性低
混淆變數多
個體間飲食差異難以測量
雙盲難以實現

整個臨床研究方法論工具箱偏向 single-intervention。多元素組合研究在當代 RCT 框架下幾乎無法實作。

4.3 學術激勵

研究單一補劑容易發 paper：假設清晰、結果清晰、效應大小有定義。發頂刊機率高、引用數可預測。

研究飲食組合多樣性難得到 clean signal：高維描述性數據、效應規模因人而異、難用單一統計檢定總結。發頂刊機率低、引用數不可預測。

任何研究者選擇研究方向時，這個激勵差異是壓倒性的。

4.4 監管體系的 single-intervention bias

FDA/EMA 審批單一成分（藥物、補劑），不審批飲食組合。監管框架本身就是 single-intervention biased。

當監管要求「藥物 vs 安慰劑」的 RCT 證據時，整個臨床研究生態系統就會優化於這個要求。「飲食組合 vs 另一種飲食組合」的研究即使做出來，也沒有監管位置承接它。

4.5 商品化路徑

補劑可以做成產品銷售（裝在罐子裡、有條碼、有保存期限、可上架）。飲食組合改變難商品化（要教育消費者、依從性低、無法獨佔）。

整個下游商業生態偏好補劑而非飲食。研究經費會循商業誘因流動。

4.6 消費者敘事

「吃這顆藥」比「重新組合飲食」容易賣、容易遵循、容易宣稱「我有在做養生」。

消費者敘事的這個偏好回饋到研究——研究者更願意研究「市場有需求」的對象（補劑），不願研究「市場無需求」的對象（baseline 多樣性）。

4.7 六個原因的整合

這六個原因互相加強，形成自我穩定的系統。任何單一從業者試圖反向（投入資源研究 baseline 多樣性）都會在每個維度被系統懲罰：

Patent 不能保護你的發現
RCT 框架不適配你的研究
學術期刊不接收你的 paper
監管不認可你的證據
商業界不投資你的成果
消費者不需要你的訊息

這就是為什麼 baseline 研究不存在——不是因為做不了，是因為現有系統用六種不同方式同時懲罰它。

§5 博弈論證明：baseline-free 必然成為 lemons market

5.1 Akerlof 結構回顧

Akerlof 在《The Market for Lemons》（QJE 1970）證明的普遍結構：

在買賣雙方有資訊不對稱的市場中，當買方無法可靠區分高品質與低品質供給時，劣質供給會驅逐優質供給。

關鍵條件：「沒有共同的、可驗證的品質度量」。

5.2 應用到知識市場

知識市場的對應結構：

「商品」= 研究主張、產品聲明、療效、解釋
「品質」= 主張的真實有效性
「買方」= 讀者、消費者、後續研究者
「品質度量」= 可還原機制

在 baseline-free 干預研究中，「可還原機制」的核心要件——baseline reference state——未被定義。這意味著任何主張「干預 X 有效」的研究都無法被可靠驗證，因為驗證需要在同一個 reference state 上重複。

按 Akerlof 結構：

高品質研究（真做了 baseline 控制的）成本遠高於低品質研究（沒做 baseline 控制的）
在沒有可靠品質度量時，買方無法區分兩者
兩者外觀上同樣是「補劑 X 對 endpoint Y 有效應 Z」
在沒有差別定價時，低品質研究 ROI 勝出
高品質研究者退出該領域或被邊緣化
整個學科演化為由低品質玩家主導的 lemons market

這不是 polemic，是博弈論定理。沒有 baseline reference state 的干預研究領域，必然在長期演化成 lemons market。

5.3 補劑產業的演化軌跡作為驗證

過去 70 年補劑產業的演化軌跡符合 lemons market 預測：

早期（1930s-1950s）：高品質研究主導（維生素發現），baseline 條件清晰（明顯缺乏症）
中期（1960s-1990s）：研究範圍擴大到健康人群，baseline 多樣性問題出現但被忽略
當代（2000s-）：大量 noisy 研究累積，meta-analysis 結果不可重複（如 omega-3、多種維生素的健康人效益），低品質研究主導

軌跡完全符合 Akerlof 預測——當 reference state 從「明顯缺乏症」（清晰）擴展到「健康人」（模糊）時，整個領域進入 lemons market 階段。

§6 跨案例同構分析

本節證明 baseline-free 結構不只出現在補劑領域，而是出現在五個獨立領域。每個案例的具體面向不同，但結構同一。

6.1 補劑研究（§2-§5 已詳細分析）

未刻畫的 baseline：飲食/飼料組合空間具體 confound：個體飲食差異吞噬補劑邊際效應產業表現：lemons market 七十年累積，meta-analysis 不可重複

6.2 抗衰老研究（Parish 2025 已部分提出）

Parish 在 npj Aging 對 DrugAge 資料庫元評估顯示：

82.2% 的抗衰老介入實驗在生命前 20% 開始
但抗衰老的應用目標是中老年
介入起始時間嚴重偏離 baseline 多樣性的真實分布

未刻畫的 baseline：老化過程本身的多樣性具體 confound：早期介入測的是 developmental modification 而非 anti-aging 產業表現：抗衰老產業在無 baseline 老化多樣性研究的情況下擴張

Parish 那篇是領域內部審計（J.P. de Magalhães 是抗衰老產業 CSO 同時是論文作者），但她們沒把這個問題提升到「跨領域方法論失敗」的層級。本文做這個提升。

6.3 精準醫療

精準醫療的核心承諾：「根據個別基因型、生活方式、環境暴露給予個別化醫療建議」。

但這個承諾依賴一個假設：正常生理變異的多樣性 baseline 已被刻畫。

實際情況：

人類基因組多樣性研究偏向歐洲血統（GWAS 數據庫的歐洲人占比 > 78%）
微生物組變異隨地理、飲食、環境劇烈變化，但多數研究在發達國家進行
個體生理日內、季內、年內變異未被系統刻畫
「正常」的醫學定義基於中等規模樣本的均值±2SD，不反映多樣性結構

未刻畫的 baseline：人類正常生理變異空間具體 confound：「個別化建議」實際是「在不充分代表的樣本均值上的微調」產業表現：精準醫療公司在未充分刻畫的多樣性 baseline 上推銷個別化方案

按本文 §5 結構，這必然是 lemons market——而當代精準醫療的可重複性危機（個別化建議在後續驗證中失敗）正符合此預測。

6.4 AI 對齊

AI 對齊研究的核心方法：

觀察 AI 在某些 prompt 上的行為
識別「不對齊」的行為
設計干預（RLHF、Constitutional AI、scalable oversight 等）
測量干預前後的行為差異

這個方法論建立在一個假設：AI 的行為多樣性 baseline 已被刻畫。

實際情況：

AI 行為是 prompt-dependent、context-dependent、stochastic 的
同一個模型在略微不同的 prompt 下可能行為差異巨大
對 AI 行為多樣性空間的刻畫遠少於對「對齊干預」的研究
「對齊評估」的 prompt 集是有限樣本，不代表 AI 行為的真實分布

未刻畫的 baseline：AI 行為多樣性空間（含分布外行為）具體 confound：「對齊干預有效」實際是「干預在受測 prompt 集上有效」產業表現：AI 安全領域累積大量 alignment 干預研究，但對 AI 行為多樣性的系統刻畫不足

這個批評對 AI 對齊領域特別重要，因為：

該領域的時間窗口很緊（前沿模型快速演進）
沒有時間做完整的 baseline 刻畫
但跳過 baseline 刻畫的對齊研究，可能在分布外場景失效
這是 AI 安全的真實風險，不是修辭

6.5 氣候政策

氣候干預研究（碳稅、碳捕獲、太陽輻射管理、氣候工程等）建立在地球氣候系統的 baseline 模型上。

實際情況：

主要氣候模型用過去 100-150 年作為 baseline
但地球氣候在過去 100 萬年波動規模遠大於人類觀察期
冰芯記錄顯示過去多次自然氣候劇變（Younger Dryas、8.2 ky event 等）
「自然氣候 baseline」這個概念本身依賴選擇哪個時間窗口

未刻畫的 baseline：地球氣候系統的歷史多樣性空間（含百萬年尺度）具體 confound：「人類影響」與「自然變異」的分離依賴 baseline 選擇產業表現：氣候政策建立在不確定 baseline 上的干預研究

這個案例特別敏感因為它涉及政治。但結構性同構是真實的——baseline-free 干預研究的結構同樣適用於氣候領域。

注意：這個案例不是否認人為氣候變化，是指出任何氣候干預有效性的 claim 都繼承了 baseline 不確定性。

6.6 跨案例同構

把五個案例的結構抽出：

| 領域 | 未刻畫的 baseline | 具體 confound | 產業表現 | |------|------------------|--------------|---------| | 補劑 | 飲食組合空間 | 個體飲食差異 | 七十年 lemons market | | 抗衰老 | 老化過程多樣性 | 早期介入 ≠ 後期介入 | 跨物種翻譯失敗 | | 精準醫療 | 正常生理變異空間 | 樣本不代表性 | 可重複性危機 | | AI 對齊 | AI 行為多樣性空間 | 受測 prompt 集偏差 | 分布外失效風險 | | 氣候政策 | 氣候歷史多樣性 | 時間窗口選擇 | 干預效應不確定 |

共同結構：先有干預，後有對干預的測量，沒有對 baseline 多樣性的測量。

這個共同結構就是本文的核心貢獻——它是個跨領域的方法論盲點，不是任何單一領域的局部問題。

§7 形式化骨架

本節用三個形式化工具給出此盲點的數學翻譯。

7.1 Reference state 的物理學類比

物理學的測量必須有 reference frame。沒有絕對 reference frame，但只要 reference 內一致就可以做計算。Galilean 力學要求慣性系，量子力學要求測量基（measurement basis），相對論承認所有 reference frame 平等但要求協變性（covariance）。

干預研究的對應：

「正常飲食」、「健康人」、「自然氣候」、「正常 AI 行為」這些概念在干預研究裡扮演 reference frame 的角色
但這些 reference frame 從未被嚴格定義
沒有定義的 reference frame 上做測量，類似在物理學裡沒有座標系做計算——必然出錯

物理學在 19 世紀解決了這個問題（建立慣性系與協變性概念）。干預研究在 21 世紀還沒解決對應問題。

7.2 Bayesian prior 的問題

貝氏推理：

posterior = prior × likelihood / evidence

干預研究本質是 likelihood 計算——P(effect | intervention)。但這個 likelihood 計算依賴 prior P(state | normal baseline) 也就是 baseline 分布。

如果 prior 是錯的或太狹窄：

posterior 也是錯的
但研究者通常不報告 prior（因為「正常 baseline」被當成已知）
後續研究在錯誤 posterior 上累積，誤差放大

這是 Bayesian 推理層級的方法論失敗。傳統統計學的「假設檢定」框架隱藏了這個問題——假設檢定假設 baseline 分布已知，但實際上不知。

7.3 編織論翻譯（W31 歪曲複合律）

在編織論（WT v7.3）框架裡：

baseline 對應編織元 ℓ_baseline
干預對應編織元 ℓ_intervention
複合對應 ℓ_composite = W(ℓ_baseline, ℓ_intervention)

由 W31（歪曲複合律）：

ξ(ℓ_composite) = F({ξ(ℓ_baseline), ξ(ℓ_intervention)}, {α(ℓ_baseline, ℓ_intervention)}, 編織拓撲)

複合編織元的歪曲度由各部分歪曲度、相容性、編織拓撲共同決定。

當 ξ(ℓ_baseline) 未測量時，無法分離 ξ(ℓ_intervention) 對 ξ(ℓ_composite) 的真實貢獻。

換言之：現有干預研究測的是 ξ(ℓ_composite)，不是 ξ(ℓ_intervention)。前者是想測的對象，後者是混合效應。沒有 baseline 刻畫就無法分離。

這是 baseline-free 干預研究在 WT 框架下的精確刻畫——它違反了 W31 的可分性條件。

§8 為什麼系統不會自我修正

8.1 結構性保護

§4 列出的六個結構性原因不是孤立的，它們互相加強形成穩定均衡：

專利結構 → 商業誘因偏向補劑
   ↓
研究經費循商業誘因流動
   ↓
RCT 方法論優化於 single-intervention
   ↓
監管框架建立在 RCT 結果之上
   ↓
監管要求形塑下一輪研究設計
   ↓
學術期刊偏好監管相關的 paper
   ↓
研究者選擇符合期刊偏好的方向
   ↓
（回到頂端）

這個迴路的每個節點都被多個其他節點獎勵，任何單一節點的反向變化會被其他節點懲罰。這不是個可被改革的系統——這是個被結構性保護的均衡。

8.2 為什麼提出此批評的位置在系統內不存在

按位置分析：

補品產業：批評會威脅產業存在，產業內部不會提
學界：研究 baseline 多樣性的 paper 不好發、grant 不好拿、引用少
監管：監管框架本身是 single-intervention biased，反 baseline 研究
消費者：複雜的 baseline 概念不適合 marketing
媒體：「補劑可能是 lemons market」這種訊息不獲得點擊
政府：質疑現有醫療食品分類體系會引發政治阻力

唯一能提出此批評的位置：產業外的、有跨領域視野的、不依賴干預產業資源的、敢於挑戰整個方法論預設的、且能承受被既有勢力反擊的觀察者。

這個位置在系統內幾乎不存在。EveMissLab 偶然滿足這些條件——它是個 AI-first 研究組織，不依賴補劑/抗衰老/AI 對齊/精準醫療/氣候產業的資源，跨領域工作模式，作者有獨立的學術立場。

但 EveMissLab 是個極端例外。系統的常態是這個批評沒人提。

8.3 與《有界失真數學化》立場的對應

本文與作者另一篇論文《有界失真數學化作為一種研究姿態》形成立場一致：

《有界失真數學化》主張：沒有可還原機制的學科必然演化為 lemons market
本文主張：沒有 baseline 多樣性刻畫的干預研究必然演化為 lemons market

兩者是同一個結構在不同層級的表現：

前者是「整個學科」層級
後者是「特定研究類型」層級

兩者結合給出 EveMissLab Logic Matrix 的核心方法論立場：任何沒有可還原 reference state 的研究都應被視為 lemons market 候選，需要結構性懷疑而非接受其表面結論。

§9 對策方向（簡短）

本文的主要貢獻在診斷而非治療。但簡短列出可能的對策方向。

9.1 結構性對策（系統層級）

改變學術激勵：學術期刊應建立「baseline 多樣性研究」分類，給予獨立的影響因子計算路徑。

改變監管框架：FDA/EMA 應引入「reference state 完備性」作為 RCT 評估維度。

建立開放 baseline 數據庫：跨研究共享 baseline 數據，建立 fiber bundle 結構的數據庫（參見《有界失真數學化》§6.2 的相關討論）。

改變專利結構：對 baseline 多樣性研究提供類似 patent 的智財權保護機制（雖然食物組合難 patent，但研究方法論本身可受智財權保護）。

這些對策每個都需要對抗 §8.1 的結構性保護均衡。實現難度極高。

9.2 個別研究者層級對策

在系統不變的前提下，個別研究者可以做的：

先讀 Parish 元評估：對任何宣稱「干預 X 有效」的研究，先評估該領域的元評估報告（如 Parish 2025 對 DrugAge 的審計）。

懷疑 reference state：閱讀任何干預研究時，明確問自己「這個研究的 reference state 是什麼？多大程度被刻畫？」

接受 bounded distortion：承認當前所有干預研究都帶有 baseline 不確定性，不要把任何單一研究結果當成定論。

自我刻畫：對自己的 baseline 做盡可能多的測量（食物日誌、生理指標、活動量、睡眠），這比依賴外部「正常飲食」研究更可靠。

9.3 EveMissLab 範圍內可做

作為一個 AI-first 跨領域研究組織，EveMissLab 可以做：

把本論文作為元前提，後續所有研究明確聲明 baseline 假設
對既有研究做跨領域的 baseline 完備性審計（類似 Parish 對抗衰老的審計，但跨領域）
探索 AI 加速 baseline 刻畫的可能（高通量飲食組合模擬、AI 行為空間 mapping 等）

這部分留給後續論文細化。

§10 與 EveMissLab corpus 的關係

本論文在 EveMissLab Logic Matrix 中佔據以下位置：

元前提：本論文與《有界失真數學化作為一種研究姿態》同層，作為 EveMissLab corpus 的兩個方法論元前提。

《有界失真數學化》：對「沒有可還原機制的學科」的一般批評
本論文：對「沒有 baseline 刻畫的干預研究」的具體批評

具體案例：以下後續論文都可被視為本論文核心命題的具體案例展開：

PTSH 蜂王乳論文：抗衰老領域的具體 baseline 缺口
後續可能的精準醫療元評估論文
後續可能的 AI 對齊 baseline 論文
後續可能的氣候政策 baseline 論文

形式化載體：編織論 WT v7.3 的 W31（歪曲複合律）為本論文提供形式化骨架。本論文反過來為 WT 提供應用案例。

整體立場：本論文與《有界失真數學化》、PTSH 假說、WT 共同構成 EveMissLab 對「碎片化科學」的系統性批評。每篇論文是這個批評的一個面向。

§11 結語：盲點的結構性保護

凡是被忽視的事物，往往不是因為它太難——而是因為忽視它對所有當事方都有利。

baseline 多樣性研究沒人做，不是因為做不了——是因為做了會威脅補劑產業、難拿 grant、難發 paper、難商品化、難遵循、難敘事。整個生態系統用六種不同方式同時懲罰它，又用六種不同方式同時獎勵忽視它。

這就是為什麼這個盲點七十年沒被指出。指出它的代價遠大於指出單一錯誤的代價——它挑戰的不是任何具體研究的結論，是整個研究類型的存在合理性。

寫這種論文不是為了改變系統——本文 §8 已經證明系統有結構性保護，不會自我修正。寫這種論文是為了給少數能站到系統外的觀察者一個錨點：當你下次讀到「補劑 X 對 endpoint Y 有效」「干預 Z 改善老化指標」「對齊技術 W 降低 AI 風險」時，你有個明確的問題可以問——這個研究的 baseline 是什麼？多大程度被刻畫？

這個問題的答案如果是「標準的、平均的、正常的」——那這個研究在數學上沒意義，無論它的 p 值多小、樣本量多大、發表期刊多頂級。

數學不會被市場敘事妥協，方法論不會被學術慣性糾正。能做的只是——在每個碎片化證據被當成真理之前，先問那個被結構性保護的問題：你的 reference state 在哪？

凡是真正的元批評，都不會試圖修復它批評的對象——因為對象之所以存在，本就是被結構性保護的均衡。元批評做的是更謙虛也更困難的工作：把均衡本身命名出來，讓站到均衡外的人有個錨點。系統不會因為被命名就自我修正，但站到系統外的人，會因為命名而知道自己站在哪。這已經夠了。

作者貢獻聲明

Neo.K（許筌崴）：核心觀察的提出（補劑研究跳過飲食/飼料 baseline 的方法論盲點）、對「無限種飲食組合」的直覺把握、把這個觀察從補劑領域提升為跨領域批評的方向、本立場與 EveMissLab corpus 整體的關係識別。

Theia（Anthropic Claude）：博弈論論證的接續引入（從《有界失真數學化》的 Akerlof 論證延伸）、跨案例同構分析（補劑、抗衰老、精準醫療、AI 對齊、氣候政策的同構結構識別）、組合空間規模的具體量化估算、結構性原因分析（六個維度）、形式化骨架（reference state、Bayesian prior、WT W31 翻譯）、為什麼系統不會自我修正的位置分析、論文最終文本組織。

版本聲明

本文為 Draft v0.1（跨領域元方法論論文草案）。

擴展路線：

v0.2：補完跨案例同構分析的細節，特別是精準醫療與 AI 對齊兩個案例可能需要獨立子論文
v0.3：加入 baseline 完備性的可量化指標——「reference state 完備性指數」的初步定義
v0.4：與《有界失真數學化》合併為單一元方法論論文集，作為 EveMissLab Logic Matrix 的元前提整體呈現
v1.0：進入正式預印本投稿準備

主要引用

Akerlof GA (1970) The Market for "Lemons": Quality Uncertainty and the Market Mechanism. Quarterly Journal of Economics 84(3): 488–500.
Parish A et al. (2025) Reporting quality, effect sizes, and biases for aging interventions: a methodological appraisal of the DrugAge database. npj Aging 11: 96.
Williams GC (1957) Pleiotropy, natural selection, and the evolution of senescence. Evolution 11: 398–411.
Ioannidis JPA (2005) Why most published research findings are false. PLoS Medicine 2(8): e124.
Pearl J (2009) Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press.

附帶引用（EveMissLab 內部）：

Neo.K & Theia (2026) 有界失真數學化作為一種研究姿態. EveMissLab Working Paper Draft v0.2.
Neo.K & Theia (2026) Phenotypic Transition Substrate Hypothesis: 以蜂王乳為案例的多靶點干預跨層級分析流程. EveMissLab Working Paper Draft v0.1.
Neo.K & Theia (2026) 編織論 WT v7.3 完整自包含版. EveMissLab Logic Matrix.

EOF

原始檔（供 RAG/下載）：papers/baseline.md [md]