數學教育的隱形斷層:從浮現過程缺席到系統性重建的理論框架
作者:許筌崴(Neo.K) 機構:一言諾科技有限公司(EveMissLab) 版本:草稿 v0.1 日期:2026
摘要
本文提出一個關於數學教育結構性失敗的診斷框架,並由此推導出系統性重建的方案。核心論點如下:現行數學教育體制在評量設計上要求學生展示問題解決的完整推理過程,但在教學設計上卻從未明確傳授這個過程如何發生。這一矛盾所製造的空白被「數學天賦」的神話填補,造成大規模的人力資本浪費,且這一浪費在人工智慧時代的代價正在急速升高。
本文首先建立一個五態認知模型(潛能態→展開態→推理態→計算態→結果態),用以精確描述數學問題解決的完整過程,並指出「浮現過程」(潛能態至推理態的跨越)是當前教育體制最大的系統性缺口。繼而分析現行評量制度的結構性問題,提出以個人比例評分制取代群體排名制的改革方向。在制度設計層面,本文提出以弱勢家庭兒童為優先對象的自願制實驗學校框架,配以底線保障機制與兩階段就業銜接設計,作為政策驗證的實驗平台。最後,本文分析政府介入的政治經濟學邏輯,論證在人工智慧的系統性壓力下,此一改革的時機已從「應當」轉變為「不得不」。
關鍵詞: 數學教育、浮現過程、問題定向、評量改革、實驗學校、人力資本、人工智慧教育
一、引言
一個看似矛盾的現象存在於數十年來的數學課堂中:學生被要求展示解題的推理過程,但沒有人教過他們這個過程是如何構成的。
在台灣1990年代的小學數學教育中,教師明確要求答卷須附推理過程,單純寫出答案不予給分。這個要求在表面上是合理的——數學理應是推理的展示,而非答案的記憶。然而弔詭之處在於,這個被評量的推理過程,從來沒有成為教學的對象。從問題呈現到解題展開,從展開到策略推理,從推理到計算執行,從計算到結果驗證——這整條認知路徑被當作理所當然的自然發生,而非可以被拆解、傳授、和學習的技能。
那些能夠在問題面前自動走完這條路徑的學生,被稱為「有數學天賦」。那些走不完的,被認為「天生不擅長數學」。這個解釋框架在表面上是中性的描述,在實質上是一種制度性的卸責:它把教學的失敗重新敘述為學生的先天不足,並由此免除了教學設計對於失敗結果的責任。
本文的起點是一個認識論上的重新定位:所謂的「數學天賦」,在很大程度上是一個被教育體制建構出來的假概念,其真實所指,是「在沒有明確教學的情況下,自行習得了問題定向能力的孩子」。這個能力不是天生的,它是可教的。但教育體制沒有教它,因而製造了一個巨大的、系統性的、跨代傳遞的人力資本浪費。
這個浪費在農業時代或工業時代是可以被容忍的——社會對「會思考的數學人」的需求量有限,篩選機制雖然粗暴,至少還能運作。但在人工智慧已經取代了絕大部分計算性工作的時代,被現有體制篩掉的那60至70%的孩子,其被浪費掉的能力,恰恰是下一個時代最稀缺的人類優勢:問題定向、推理框架、結構判斷。
本文由此構建一個完整的分析與重建框架,試圖回答三個層次的問題:(一)這個斷層的認知機制是什麼?(二)重建所需的制度設計應當如何?(三)政府與市場的介入路徑在哪裡?
二、文獻回顧
2.1 各國小學數學教育的比較現狀
數學教育的國際比較研究在過去三十年間積累了相當豐富的文獻,PISA(Programme for International Student Assessment)和TIMSS(Trends in International Mathematics and Science Study)提供了跨國數據,而各國課程改革的個案研究則提供了結構性的分析視角。
在東亞體系中,新加坡的CPA(Concrete-Pictorial-Abstract)框架是目前影響最廣的小學數學教學法之一。其核心設計是讓學生從具體操作物件出發,經過圖像表徵的中間層,最終抵達抽象符號系統。這個框架的優點在於它承認了抽象化本身是需要被支持的認知過程,而不是直接跳躍到符號操作。然而CPA框架主要處理的是「如何表徵問題」的問題,而不完全是「如何進入問題」的問題。從問題的初始呈現到第一步認知操作之間的那個空白,在CPA框架中仍然是隱性的。
日本的TTP(Teaching Through Problem-Solving,透過問題解決來教學)是目前最接近明確教授問題定向能力的教學框架。其四段式課堂結構——Hatsumon(問題呈現與解法預判)、Kikan-shidō(個人作業)、Neriage(全班策略討論)、Matome(教師總結)——在第一段就明確地把「解法預判」(mitōshi)作為教學目標,要求學生在計算之前先進行方向性的思考。這是對本文所謂「浮現過程」的一個局部制度化。
然而,日本TTP的系統性推廣面臨嚴峻的實施挑戰。Frontiers in Education期刊2024年的研究指出,即便是接受過TTP培訓的教師,也往往難以清楚地將TTP課堂的教學目標與課程目標對應起來,而且面對學生的困惑時,傾向於直接示範解法,從而繞過了TTP設計中最核心的「讓學生掙扎」的環節(Harskamp & Suhre, 2007)。這個發現揭示了一個深層問題:教學法的改革是不夠的,如果教師本人從未在自己的學習歷程中被明確教過問題定向,他們就無法教授這個能力,因為他們沒有關於這個能力的顯性知識。
芬蘭的模式在國際上常被引用為「減壓成功」的案例。芬蘭的早期教育延遲正式學科教學至七歲,強調以玩耍為基礎的探索,並在整個基礎教育階段維持極低的標準化測試頻率。然而芬蘭模式的可複製性受到嚴格的文化與社會條件的限制——芬蘭是一個高度同質的小型社會,教師的社會地位與薪資結構根本性地不同於大多數亞洲或北美體制,其成功難以直接移植。
美國的Common Core改革嘗試在評量層面同時照顧程序性流暢與概念性理解,但其政治命運是迄今為止教育改革史上失敗最典型的案例之一。2020年代興起的「數學科學」(Science of Math)運動與探究式學習的支持者之間的對立,在撰稿時(2026年)仍未有定論(Education Week, 2026)。這場爭論的核心,其實也是本文所關注的問題的另一種表述:直接教學(explicit instruction)vs. 發現學習(discovery learning),背後是對「什麼應該被明確傳授、什麼應該留給自行探索」的不同判斷。
2.2 Schoenfeld的專家-新手研究
Alan Schoenfeld在1985年出版的《Mathematical Problem Solving》是本文文獻基礎中最核心的參照。Schoenfeld通過對數學問題解決過程的詳細協議分析(protocol analysis),區分了專家數學家與數學新手在問題解決行為上的根本差異。
其核心發現如下:專家在問題解決中花費大量時間在「定向分析」(orientation/analysis)階段——閱讀題目、評估可能的進路、判斷哪些知識資源是相關的。新手則相反,傾向於迅速跳入熟悉的計算程序,在沒有確認解題方向正確的情況下長時間執行計算,Schoenfeld稱之為「無目標的探索」(wild goose chase)(Schoenfeld, 1985)。
更具有理論意義的發現是:專家能感知問題的「深層結構」,而新手被問題的「表層結構」所誤導(Schoenfeld & Herrmann, 1982)。這個區分恰恰對應了本文的核心主張:問題的展開(從潛能態到展開態)需要的是對深層結構的感知能力,而這個能力在現有教育體制中從未被明確傳授。
Schoenfeld同時指出,這個能力是可教的。他的研究顯示,通過讓學生明確思考「我想找出什麼、我已走了哪些步驟、接下來打算怎麼做」,新手是可以習得這些認知階段的(Schoenfeld, 1992)。換句話說,問題定向不是天生的,它是一種可以被教學介入的後天技能。這個發現是本文整個論述鏈的認知科學基礎。
2.3 現代教育改革的嘗試與困境
近年來的教育改革嘗試在理論方向上有所進步,但實踐層面的落差依然巨大。
元認知(metacognition)在1990年代之後逐漸被納入數學教育的討論框架,研究者普遍認為「計畫—監控—評估」的元認知循環是高效問題解決的必要條件(Flavell, 1979; Schoenfeld, 1987)。部分課程已開始嘗試將元認知策略納入教學,但實施效果受到教師培訓品質和課堂文化的嚴重制約。
生產性掙扎(productive struggle)的概念,即讓學生在有適當支架的情況下面對真實的困難,是TTP和探究式學習的共同理論基礎。然而「適當支架」的判斷在實際課堂中極難操作——給得太多,學生失去自主思考的機會;給得太少,學生陷入無效的混亂。這個平衡需要教師具備相當精細的判斷力,而這種判斷力本身需要多年的反思性實踐才能發展,但現有的教師培訓體制並不系統性地培養它。
台灣的108課綱(2019年)嘗試推動素養導向教學,理論上鼓勵從「知識傳遞」轉向「能力形成」。然而在高風險考試(大學學測、指考)的壓力下,課堂教學普遍退回到以考試為導向的程序性練習。課程理念與評量設計之間的脫節,使得素養導向在大多數課堂中仍停留在宣言層面。
三、核心診斷:五態認知模型與浮現過程的缺席
3.1 五態認知模型
本文提出一個描述數學問題解決完整過程的五態模型,用以精確定位現有教育體制的斷裂點。
潛能態(Potential State):問題以語言或圖像的形式呈現,但尚未在認知主體內部形成任何結構。問題存在,但問題的數學性質尚未被感知。這是問題的「原始狀態」。
展開態(Unfolding State):認知主體開始感知問題的結構。已知條件與未知目標開始被辨識,問題的邊界開始成形。這個階段的核心操作是「識別問題的深層結構」——將語言描述或圖像轉換為數學關係的感知。
推理態(Reasoning State):在對問題結構有初步把握之後,認知主體開始選擇策略,規劃解題路徑。這個階段包括對已知知識資源的調用、對可能進路的評估、以及對初步方向的承諾。
計算態(Computation State):沿著選定的解題路徑執行具體的數學操作。這是傳統數學教育花費最多教學時間的階段——算法的練習、公式的應用、符號的操作。
結果態(Result State):得出答案,並對答案的合理性進行驗證——答案在量級上是否合理?是否符合原始問題的約束?解題路徑是否存在漏洞?
這五個態構成一個完整的認知循環,且每個態之間的跨越都有其特定的認知操作要求。
3.2 浮現過程:最大的系統性缺口
在這個五態模型中,從潛能態到推理態的跨越——本文稱之為「浮現過程」——是整個問題解決循環中最耗費時間、最決定性、也最難以被現有體制觸及的部分。
Schoenfeld的研究已經提供了實證基礎:專家與新手的最大差異不在計算能力,而在問題定向能力,即在計算開始之前,能否準確感知問題的深層結構並選擇合理的策略方向。這個能力的發展需要大量的反思性實踐,但它是可以被明確教授和系統性培養的。
然而,現有的數學教育體制幾乎在所有層面上都繞過了浮現過程的教學:
課程設計層面:數學課程的組織邏輯是知識點的線性排序,每個知識點配以對應的計算方法。問題被設計為「練習某個知識點」的載體,而非「引發問題定向思考」的情境。這樣設計的課程自動假設了學生知道如何進入問題,因為每道題的背後知識點是明確的。但這個假設在真實的問題解決中是不成立的。
教學實踐層面:課堂時間的分配強烈偏向計算程序的示範與練習。問題被呈現後,教師通常迅速進入「解法說明」,跳過了讓學生自己感知問題結構的空間。即便是嘗試TTP的教師,也往往在學生開始掙扎時,出於對課堂效率的焦慮而提前介入。
評量設計層面:考試要求展示推理過程,但評分標準實際上主要依據答案的正確性,以及是否寫出「期望的計算步驟」。這個「期望的計算步驟」是已知解法的複現,不是真實的問題定向過程的展示。換句話說,評量要求的「過程」,不是真正的認知過程,而是標準解法的格式化呈現。
教師培訓層面:現行的教師培訓鮮少明確地教授問題定向能力,因為培訓課程本身的設計者也是在同樣的體制下成長的。這是一個自我複製的系統:不知道如何展示浮現過程的教師,培養了不知道如何展示浮現過程的學生,後者中的一部分成為了教師,如此循環。
3.3 「數學天賦」神話的建構機制
在上述系統性缺口的背景下,「數學天賦」作為解釋框架的社會功能變得清晰可見。
當一個能力(問題定向)從未被系統教授,但被系統評量,那麼能自行習得這個能力的人就會顯示出遠高於其他人的表現。這個表現差距是真實的,但其成因被錯誤歸因。「天賦」這個標籤捕捉了差距的真實性,但遮蔽了其背後的機制:這些孩子自行習得了這個能力,通常是通過以下幾種途徑——家庭環境中的高品質思維互動、課外的非正式問題解決經驗、或者個人氣質上對結構感知的強烈傾向。
這個機制的社會影響是深遠的。教師減輕了對未解決問題的責任感(「這個孩子天生就不是這塊料」);家長接受了對自己孩子能力的永久性判斷(「他數學就是弱」);學生本人內化了這個身份認同(「我不是學數學的人」),並因此減少了在數學上的努力——這個減少進一步強化了「天賦不足」的外觀,形成完整的自我實現預言。
在評量制度的放大下,這個機制製造了一條難以逆轉的篩選通道:問題定向能力強的學生持續獲得正向回饋,問題定向能力未被教授因而未發展的學生持續獲得負向回饋,兩者之間的鴻溝在每一個學年都在加深。
四、評量制度的結構性問題
4.1 群體評分制的內在邏輯與代價
現行的數學評量制度在設計邏輯上是群體比較性的(norm-referenced):學生的表現被放在同齡群體的分布中定位,排名成為最主要的輸出信號。這個設計服務於一個特定的社會功能:選拔。大學需要篩選申請者,雇主需要篩選求職者,社會需要把有限的機會分配到合適的人手中。排名式評量在這個功能上是高效的——它提供了清晰的相對位置信息。
然而,這個設計在教育功能上存在根本性的激勵扭曲:
激勵扭曲一:快速給出答案比慢慢展示推理更划算。 在排名制下,學生的目標是在有限時間內最大化正確答案數量。任何花費在問題定向上的時間,都是從計算時間借用的,而計算結果才是評分的主要依據。這個激勵結構直接鼓勵學生跳過浮現過程。
激勵扭曲二:錯誤被視為相對損失而非學習信號。 在排名制中,每一個錯誤都把學生推向更低的位置,而更低的位置對他人的相對表現沒有任何貢獻。錯誤因此被視為純粹的代價,而非可以提取學習信息的事件。這與認知科學的基本發現相反——錯誤,特別是在問題定向階段的策略性錯誤,是最豐富的學習資源。
激勵扭曲三:評量設計逆向驅動教學設計。 教師知道學生最終面對的是排名式考試,因此教學時間被優化用於提高在考試中的正確答案比率。這意味著教學內容高度集中於計算流程的熟練化,而非問題定向能力的培養。「教什麼」被「考什麼」決定,而「考什麼」被「選拔邏輯」決定,而「選拔邏輯」很少被質疑。
4.2 個人比例評分制的理論基礎
本文提出以個人比例評分制(individual criterion-referenced proportional scoring)取代群體排名評分制作為基礎教育階段的主要評量框架。其核心設計原則如下:
原則一:過程分數佔比的強制保障。 評量的總分應當有明確比例分配給問題解決過程的各個階段,包括問題辨識(展開態的操作)、策略規劃(推理態的操作)、執行過程(計算態的操作),以及答案驗證(結果態的操作)。這個比例設計強制要求教師在課堂上明確教授各個階段,因為不教的階段,學生在評量中就無法得分。
原則二:個人進步軌跡作為主要評量指標。 學生的表現不與同齡群體比較,而與其自身的先前表現比較。這個設計把評量從「篩選工具」轉換為「診斷工具」——它的主要輸出不是排名位置,而是個體在各個認知能力維度上的成長軌跡。
原則三:過程文件化作為學習行為本身。 在個人比例評分制中,學生被要求記錄自己的問題解決過程,包括困惑、嘗試、錯誤和修正。這個過程文件化本身是一種元認知訓練——學生在記錄過程中不得不反思自己的思考路徑,這個反思正是培養問題定向能力的核心機制。
4.3 混合制的系統性失敗模式
一個顯而易見的過渡方案是「混合制」——在保留群體比較評量的基礎上,附加一定比例的過程評分。本文認為這個方案在實踐中高度容易失敗,其失敗模式是可以預測的。
失敗模式一:形式化(formalization)。 一旦過程分數成為評分要素,教師就會教學生「寫看起來像推理的格式」,學生就會學習「複現看起來像思考的標準步驟」。過程評量的目標是捕捉真實的認知操作,但格式化的過程呈現可以在沒有真實認知操作的情況下被生成。台灣的「算式加說明」要求已部分走上這條路——學生學習了「說明的格式」,而不是「推理的實踐」。
失敗模式二:比例戰爭(proportion politics)。 無論過程分數設置在什麼比例,都面臨來自兩個方向的政治壓力:若比例過低(如20-30%),學生和教師會合理地優化剩餘的70-80%,過程評量淪為邊際性的點綴;若比例過高(如60-70%),來自家長和升學體制的壓力會迫使比例縮減,因為高比例的過程評量在不同教師之間的評分一致性難以保障,不利於公平的升學競爭。
失敗模式三:教師評判能力不足(assessment capability gap)。 評定過程品質需要精細的判斷力。教師需要能夠區分「學生真正在做問題定向」和「學生在套用被記憶的格式」。這種判斷力本身需要教師對問題定向過程有深刻的第一手理解。但如前所述,大多數教師自己從來沒有被明確教過這個能力,因此這種判斷力缺乏認知基礎。
失敗模式四:信號混亂(signal confusion)。 大學與雇主在選拔決策上依賴清晰的、可比較的信號。一個同時包含個人進步分數和群體比較分數的混合制,製造出更複雜但可解讀性更低的信號。面對信號混亂,選拔者的理性反應是建立自己的補充測試,繞過官方的混合評量,回到他們更熟悉的標準化比較框架。這正是許多評量改革在推行幾年後實質瓦解的機制。
歷史上混合制成功的教育改革案例極為稀少。有效的改革通常是在某個方向上的明確承諾:芬蘭選擇了大幅降低標準化比較,並花費了二十年時間建立與這個選擇相匹配的整體社會制度。沒有整體制度的配套,單純在評量中附加過程分數,最終通常只是增加了系統的複雜性而沒有改變其實質。
五、實驗學校框架
5.1 設計原則
本文提出一個實驗學校框架,作為前述理論主張的政策驗證平台。其核心設計原則如下:
原則一:自願參與制。 出於法律與倫理的考量,實驗學校以自願參與為前提。家長與學生(視年齡)在充分理解實驗性質後,自主決定是否加入。強制性的教育實驗在倫理上無法接受,且即便在技術上可行,強制參與所帶來的抗拒性也會污染實驗結果。
原則二:失敗即數據。 實驗的價值不僅在於成功,也在於失敗。一個明確的失敗記錄能夠提供關於「哪些設計假設是錯誤的」的第一類信息,這對後續改進的價值不亞於成功案例。因此,實驗設計從一開始就應包括對失敗結果的系統性記錄、分析和公開機制,而非通過選擇性報告掩蓋失敗。
原則三:底線保障而非結果保障。 實驗學校對參與學生的承諾是底線保障:確保參與者在教育實驗可能帶來的風險下,仍然能夠維持基本的未來發展路徑。這不是對成功的保障,也不是對特定職業軌道的承諾,而是對「不因參與實驗而陷入更糟糕的處境」的制度性保護。
原則四:多元實施路徑。 實驗框架可以通過政府主導的國家計畫或私人學校計畫來實施。兩個路徑有不同的優勢與限制,但核心設計原則應當一致。私人路徑的靈活性較高,可以更快地迭代;政府路徑的規模效應較大,但面臨更高的制度慣性。
5.2 弱勢群體作為實驗對象的方法論優勢
自願制的實驗學校在招募對象上面臨一個不可迴避的選擇偏差問題:自願將孩子送入實驗學校的家長,在統計上可能偏向對現有體制有疑問、對過程導向教學有共鳴的特定群體。這個偏差如果不被處理,可能使實驗結果缺乏外部效度——「這個框架有效」的結論,可能只是「這個框架在這類家庭的孩子身上有效」的錯誤泛化。
本文提出,將弱勢家庭兒童(包括低收入家庭兒童和社會福利機構的兒童)作為優先招募對象,能夠部分地解決這個方法論問題,且具有實質性的優勢。
方法論優勢:弱勢家庭兒童是現有教育體制表現最差的群體之一——不是因為他們的認知能力天生不足,而是因為他們接受到的家庭教育支援最少、課外學習資源最少、「家庭中的高品質思維互動」——我們前面提到的問題定向能力的主要非正式習得途徑——最為匱乏。如果本文的理論正確,這個群體恰恰是「因為從未被教過浮現過程而被系統篩掉」的典型案例。在這個群體上驗證實驗框架,能夠最大程度地排除「家庭背景」這個混淆變量的影響。如果框架在這個群體中有效,那是強有力的因果性信號。
倫理優勢:將弱勢兒童作為優先受益者,而非實驗的消耗品,需要明確的機制設計來體現。底線保障機制(見下節)的存在,是這個倫理立場的制度性支撐。
政治敘事優勢:如果實驗成功並需要向更大範圍推廣,「最先受益的是最弱勢的孩子」這個事實具有非常強的政治合法性。這不是純粹的策略考量,但也不妨礙承認它作為一個推廣優勢的存在。
需要誠實面對的倫理張力是:在資源匱乏的環境中的「自願」,其含義是被壓縮的。對於一個福利院的孩子或一個極度貧困的家庭而言,能夠進入實驗學校可能是他們能夠獲得的少數真實選項之一,這個選項的「自願性」在某種程度上是由外部環境的缺乏而構成的,而非純粹的自主意志。這個張力沒有完美的解決方案——強迫任何人進入教育實驗在倫理上更不可接受。在誠實的自願框架下做到最好,是現實約束下合理的倫理立場。
5.3 底線保障機制
底線保障機制是本文框架中最具體也最具原創性的制度設計。其核心邏輯是:實驗學校對實驗對象造成的潛在風險(教育實驗失敗導致的機會成本損失),需要通過具體的補償性承諾來對衝。
就業底線的第一層:網絡協助進入的第一份工作。 對於從實驗學校畢業的學生,提供進入主辦機構(或相關合作企業)的工作機會。這個工作機會是通過關係網絡獲得的——這個事實應當被明確承認,而不是偽裝成純粹的績效選拔。弔詭之處在於:幾乎所有現存的就業「機會」對有資源的群體而言都有某種形式的網絡助力,差別在於有資源的群體的網絡是隱性的,而本框架的網絡是顯性的。讓網絡助力變得透明,反而是更誠實的制度設計。
就業底線的第二層:年資積累後的真實市場競爭。 第一份工作的功能不是提供終身保障,而是提供真實工作環境下的表現記錄。學生在第一份工作中接受與其他員工同等的績效評估,並在積累了一定年資(最低一至兩年)之後,帶著這份真實的工作歷史進入更廣泛的勞動市場。第二份及以後的工作,完全依靠這份實際積累的能力與經歷,而非學校關係網絡。
這個兩層設計的關鍵邏輯是:它不是在繞過勞動市場的績效機制,而是在為那些沒有傳統家庭資本的孩子,創造能夠進入這個機制的入口。擁有特權的孩子從來不缺乏進入績效評估系統的入口,因為他們的家庭背景為他們打開了無數道門。底線保障機制做的事情,是為那些沒有這種背景的孩子提供一個類似的入口,並且明確地承認這個入口的非完全績效性,而非假裝清零。
年資標準的未來適應性:在人工智慧時代,勞動市場評估的標準正在從「年資積累」轉向「作品集展示」與「即時能力」(即戰力)。當AI工具使得高品質工作輸出的生產成本大幅下降,傳統的年資信號就面臨貶值——不再是「你做了多久」,而是「你在真實壓力下展示過什麼」。因此,最低一至兩年年資的設計是基於現階段勞動市場評估邏輯的,而不是永久性的規定。隨著作品集評估體系的成熟,這個年資底線可能縮短,甚至被特定作品集的積累所替代。
值得注意的是,在AI時代,如果人人都能以AI工具產出高品質的表面作品,那麼作品集的信號值本身也將面臨貶值。真正有效的勞動市場信號將轉向「在真實組織環境下、在真實壓力下的表現記錄」——恰好是第一份工作所能提供的。這說明底線保障機制在AI時代的設計反而更為合理,而非過時。
六、政府介入的政治經濟學
6.1 政府的核心激勵邏輯
政府對教育制度的介入,從政治經濟學的角度看,主要由以下幾個動機驅動:維護政治穩定、提升經濟競爭力、回應選民的訴求壓力。純粹的教育哲學論述——「這樣教數學更符合人類認知的自然規律」——在政策決策中的影響力通常是邊際性的。真正能夠推動政策改變的論述,必須被翻譯成政府可以計算的語言。
本文的核心主張對政府而言可以翻譯為三個相互加強的論述。
論述一:人力資本浪費的量化損失。 如果現有教育體制通過「天賦神話」機制,系統性地將60至70%的學生過早篩出數學能力的發展軌道,那麼這不僅是個體的教育公平問題,也是國家層面可以量化的人力資本損失。具體表現為:因數學焦慮(math anxiety)而迴避理工科系的學生比例、因早期數學失敗而影響長期職業收入的群體規模、PISA和TIMSS測試顯示的數學能力中下層學生比例——所有這些都可以換算為在不同生產力情境下的GDP差距。這個差距是政府能夠理解的損失語言。
論述二:AI時代的技能錯配風險。 現有教育體制花費最多教學時間培養的能力——算法執行、公式應用、符號計算——在人工智慧工具的幫助下,其市場價值正在快速下滑。與此同時,那些從未被明確教授但一直被默認是「天賦」的能力——問題定向、結構感知、推理框架——恰恰是人工智慧目前最難以完全複製的人類認知優勢。一個繼續優化計算能力培養的教育體制,正在認真地把人才培訓的資源,投入到一個貶值速度極快的能力類別上。對政府而言,這是一個需要用政策改革回應的戰略性技能錯配。
論述三:國際競爭壓力的比較政治學。 日本和新加坡已經推行了更重視問題解決過程的數學教育改革,並在PISA測試中取得了優於純記憶型體制的成績。對於那些國際競爭意識強烈的政府而言,「我們的競爭對手已經開始了,而我們沒有」是一個可以有效動員政治意志的框架。這個論述不需要依賴教育哲學的共識——它只需要政府相信在教育競賽上落後是有成本的。
6.2 強制改革 vs. 混合過渡
基於第四章對混合制失敗模式的分析,本文的立場是:若政府真的決定推動評量制度改革,清晰的方向性承諾比謹慎的混合過渡更可能產生實質性的效果。
這個立場的理由不是激進主義的偏好,而是基於對改革失敗機制的理解。教育評量改革的政治生命週期通常不超過一個執政週期(四至八年)。在這個時間窗口內,能夠完成的改革取決於改革措施是否能夠在短期內改變教師的課堂行為。混合制因為方向不清晰,教師有理由維持現有行為(只要高風險考試仍然以答案為主要評分依據)。清晰的方向性承諾,即使在執行上有困難,至少能夠改變教師對「什麼是被鼓勵的課堂行為」的感知。
當然,「清晰的方向性承諾」在政治上比「謹慎的混合過渡」更難。它需要政府面對家長、大學招生機構和雇主等多個利益相關者的反彈,並且能夠維持足夠長的時間讓改革效果顯現。芬蘭花了二十年時間——這個時間跨度在大多數民主政治體制的激勵結構中,超過了任何一個政治人物的個人職業利益計算範圍。
這就是為什麼實驗學校的數據積累如此關鍵。它的功能不僅是驗證理論框架,更是為未來的政策倡導提供本土化的實證基礎。「我們有三到五年的數據,顯示這個框架在台灣/其他地區的弱勢兒童身上有效」,比「芬蘭或日本這樣做了」在本土政策說服力上強得多。
6.3 AI壓力作為改革的外部強制機制
政府通常需要某種形式的危機壓力才能完成真正的制度轉型。在教育政策領域,這種危機壓力歷史上通常來自:軍事競爭的威脅(如蘇聯衛星事件促發美國的STEM教育投資)、經濟競爭的失利(如德國PISA衝擊後的教育改革)、或者社會動盪的威脅(如不平等激化引發的社會壓力)。
在當前時刻,人工智慧技術的快速部署正在創造一種功能上類似的外部強制壓力。這個壓力的特殊性在於它不是週期性的(可以等待下一個景氣循環來「自然」恢復),而是結構性的(生產方式的根本轉型,不會反轉)。一個主要以訓練計算執行為核心的教育體制,在一個人工智慧工具已經能夠以極低成本執行幾乎所有標準計算任務的世界中,正在產出與未來勞動市場需求系統性錯配的人力資本。
政府官員和政治人物,無論其對教育哲學的細節了解多少,都有能力理解「繼續這樣做會在五到十年內造成可量化的經濟損失」這個邏輯。AI壓力提供了一個過去從未如此清晰的商業案例(business case):改革不再只是「對的事情」,而是避免可預見損失的必要行動。
這個外部壓力的另一面是:政府需要現成的解決方案框架。政策窗口(policy window)開啟的時間往往短暫——當壓力達到足以推動改變的程度時,政府需要能夠快速部署的方案,而不是從零開始的思想實驗。這是理論框架建立的戰略時間點:在壓力到達臨界點之前完成框架的學術化和公開化,使其能夠在政策窗口開啟時作為現成的解決方案資源被採用。
七、AI時代的數學教育重新定位
7.1 計算能力的貶值與問題定向能力的升值
人工智慧對數學教育的衝擊不是均勻的,它對不同能力層次的衝擊程度有著根本性的差異。
在本文的五態模型中,計算態(計算程序的執行)是AI工具目前已經能夠在幾乎所有標準情況下比人類表現得更快更準確的領域。這個事實意味著:一個孩子通過多年練習習得的「熟練計算」能力,其市場交換價值正在快速趨近於零。這不是說計算理解不重要——理解計算背後的數學結構依然有價值。但機械性的計算流暢度(computational fluency),長期以來佔據了數學教學時間的最大比例,正是被AI工具最直接取代的那個部分。
相較之下,浮現過程——潛能態到推理態的跨越,即問題的感知、定向和策略選擇——在AI工具面前展現出了更強的韌性。即便是最先進的大型語言模型,在真正新穎的問題面前,仍然面臨「問題定向」的挑戰:判斷什麼信息是相關的、什麼框架是適用的、什麼是問題的真正核心。這不是說AI無法在這個維度改進——它正在改進,且速度驚人。但它說明的是,在人類與AI協作的模式下,人類最有可能保持比較優勢的地方,不是計算的流暢,而是問題的定向與判斷。
這個分析對教育資源的分配有直接的含義:如果我們繼續把教育時間的大頭投入到計算流暢度的訓練,我們正在做的事情是把未來勞動力的競爭優勢建立在一個正在崩塌的基礎上。如果我們把教育時間更多地投入到問題定向能力、推理框架的培養和元認知習慣的建立,我們建立的是一個在AI時代有實際意義的競爭優勢。
7.2 作品集時代的到來及其對教育的反推
勞動市場評估機制的轉變,是教育體制改革的另一個重要外部壓力。傳統的教育憑證體系——學歷、成績單、畢業證書——的主要功能是提供一個可靠的、被制度性背書的信號,讓雇主相信持有者具備某種水平的能力。
在AI工具大規模普及之後,作品集(portfolio)作為能力信號的重要性顯著上升。雇主可以要求求職者展示實際完成的工作樣本,而不僅僅是學術成績。更重要的是,在問題解決能力已經可以被真實工作樣本所測試的情況下,從學歷憑證推斷能力的誤差成本就變得更加明顯。
然而,AI工具的普及同時製造了一個新的信號問題:當人人都可以用AI工具產出看起來高品質的作品集,作品集本身的信號值就面臨通貨膨脹式的稀釋。雇主面對這個問題的理性反應是轉向「在真實組織環境下的表現記錄」——這是目前最難被AI工具偽造的能力信號,因為它需要在真實的、不可控的工作情境中被觀察到。
對教育體制的反推含義是:培養學生在真實情境中面對不確定問題的能力——恰恰是本文的浮現過程框架所指向的核心——變得更加重要。學校教育如果繼續主要生產「能夠在可控的測試情境下快速給出標準答案」的學生,而不是「能夠在不確定的真實情境中感知問題結構並作出合理判斷」的人,那麼它製造的憑證信號將與勞動市場需求之間的錯配只會越來越嚴重。
7.3 興趣發現機制在AI時代的重新設計
本文前面已經討論了個人發展階段的競爭壓力引入時機問題,以及興趣發現機制在資訊時代的特殊性。AI時代為這個問題增加了一個新的維度。
傳統的興趣發現依賴於有限的、被成人控制的接觸機會。孩子通過家庭環境、學校課程和社群活動接觸到不同的領域,在有限的選項中形成偏好。這個機制的主要限制是「面寬不足」——特別是對資源匱乏家庭的孩子,他們接觸到的領域選項本來就少。
AI工具的普及以及信息環境的結構化,一方面大幅增加了孩子接觸到的領域選項的數量,另一方面通過算法推薦創造了高度個人化的「窄化通道」——孩子點了什麼,就會被喂更多類似的,形成越來越深的單一領域沉浸,但探索的面寬可能反而降低。
更根本的問題是:算法喂出來的興趣,與孩子在真實的問題解決過程中自然浮現的興趣,在品質上是不同的。前者是被刺激-反應模式強化的偏好,後者是在挑戰-掙扎-突破的認知循環中形成的能動性認同。本文的實驗學校框架通過讓孩子在明確教授的浮現過程中面對真實的問題,為後一種興趣的自然浮現創造條件,這是算法喂養機制無法替代的。
7.4 發展階段模型在AI時代的修正
傳統的發展心理學框架(Piaget的認知發展階段、Erikson的心理社會發展階段)是在信息稀缺、接觸機會有限的時代背景下建立的。這些框架描述了在相對可控的環境中,人格與認知能力發展的典型時間序列。
在AI時代,一個2015年之後出生的孩子,在7歲就可能有清晰的數字內容創作興趣,在10歲可能已經形成了相當穩定的線上社群認同。「高中階段才開始知道自己想要什麼」的典型發展敘事,其適用範圍已經大幅收窄。父母作為主要興趣引導者的傳統角色,正在被算法(永遠知道孩子在什麼上停留最久)部分替代。
這並不意味著父母的影響力消失了。父母在基本價值觀的形成、安全依附關係的建立和早期認知環境的塑造上,依然具有無可替代的重要性。但在「孩子在具體的何種興趣領域發展自我認同」這個問題上,父母的相對影響力已經顯著降低。
對本文框架的含義是:競爭壓力的引入時機,不應再以傳統的「高中階段」作為固定標準,而應當根據個體的興趣確認程度靈活判斷。實驗學校框架中的「當他們找到了自己的方向,可以優先進入競爭」的設計,在AI時代可能適用於更早的年齡,因為有些孩子在信息豐富的環境中確實能夠更早地完成興趣方向的確認。
但「更早的興趣確認」與「更深的興趣理解」是兩個不同的問題。算法喂養可以製造更早的興趣確認,卻無法替代在真實問題解決過程中形成的能動性興趣。這進一步強化了實驗學校框架中「讓浮現過程在教育中顯式化」的重要性:這不僅是數學教育的問題,而是在信息過載的時代,幫助孩子區分「被餵出來的偏好」和「真正的自主興趣」的核心教育功能。
八、從理論到實踐:循環結構與縫隙填補
8.1 開始—過程—結果—糾錯—揚升的循環
本文的分析可以被整合進一個更廣泛的學習循環模型:開始(問題呈現)→ 過程(浮現過程的展開)→ 結果(答案或部分答案)→ 糾錯(錯誤的識別與分析)→ 揚升(認知能力的更新)→ 新的開始。
這個循環的每一個箭頭都代表一個需要被明確支持的跨越,而不是自然發生的轉換。現有教育體制主要支持的是「計算過程」和「結果驗證」這兩個環節,而在「開始到過程的跨越」(浮現過程)、「結果到糾錯的跨越」(錯誤分析的品質)和「糾錯到揚升的跨越」(認知更新的效率)這三個環節上,系統性支持幾乎缺席。
5W框架(Why/What/How/Where/Who)可以作為在這個循環的每個階段進行顯式化停頓的工具:在進入過程之前停下來問「為什麼要解這個問題、它在問什麼、我打算怎麼做、我要去哪裡」,是對浮現過程的強制顯式化。這不是增加了認知負擔,而是把原本隱性進行的認知操作帶到意識的表面,使其可以被反思、修正和習得。
8.2 縫隙填補的系統性設計
「縫隙填補」是本文理論框架的實踐核心:讓教師與學生能夠有系統地走完整個認知循環,而不是在循環的某些階段自動跳過。
縫隙填補的設計需要在三個層次上同時進行:
課程設計層:數學問題的設計應當包括顯式化的浮現過程引導,要求學生在開始計算之前記錄對問題結構的初步感知、策略選擇的理由,以及預期的解題方向。這不是讓學生「說更多話」,而是讓認知過程留下可以被檢視的痕跡。
教學實踐層:教師的核心技能需要從「示範正確解法」轉向「協助問題定向的過程」。這意味著教師在學生面對問題時,優先問的問題是「你感知到這個問題在要求什麼?」而不是「讓我告訴你應該怎麼解」。這個轉換需要教師本人對浮現過程有第一手的深刻理解,以及對「讓學生掙扎而不失去信心」的課堂管理能力。
評量設計層:如前所述,個人比例評分制的核心是把各個認知階段的操作都納入評分框架。評量的目標不是「答對了多少」,而是「在各個認知階段的操作有多完整、多有效、多具有反思性」。
九、結論
本文從一個看似局部的觀察出發——台灣小學數學要求展示推理過程但從不教授推理過程的矛盾——逐步展開成一個關於數學教育系統性失敗的完整診斷,並由此推導出跨越課程設計、評量制度、實驗政策和政府介入的重建框架。
本文的核心主張可以在三個層次上總結:
認知科學層次:數學問題解決的浮現過程(潛能態→展開態→推理態)是整個認知循環中最決定性、也最被現有教育體制忽視的部分。「數學天賦」在很大程度上是對「自行習得了問題定向能力」的誤標,而這個能力是可教的,且其可教性已經有充分的認知科學研究基礎。
制度設計層次:評量制度的改革是課程改革的前提,因為教師的課堂行為被「考什麼」所驅動。以個人比例評分制取代群體排名評分制,是改變教學激勵結構的最直接槓桿。以弱勢兒童為優先對象的自願制實驗學校,配以底線保障機制和兩階段就業銜接設計,是在小規模內驗證這個框架、積累本土政策依據的最可行路徑。
政治經濟學層次:人工智慧技術的結構性衝擊,正在把這個教育改革從「應當做」的道德義務,轉化為「不得不做」的經濟理性。現有體制系統性浪費的那部分人力資本,恰恰是AI時代最稀缺的能力類型。政府的改革動機,從來不是純粹的教育哲學,而是可計算的損益;在AI壓力到達臨界點的這個歷史時刻,兩者第一次指向了同一個方向。
本文不試圖改變教育改革的歷史趨勢——那個趨勢的驅動力已經遠大於任何個別行為者的推力。本文的功能是提供一個足夠精確的框架,使得當政策窗口開啟的那一刻,改革的方向不再需要從頭開始尋找。
方法論已在。趨勢的引力正在積累。剩下的是時間。
參考文獻
Flavell, J. H. (1979). Metacognition and cognitive monitoring: A new area of cognitive–developmental inquiry. American Psychologist, 34(10), 906–911.
Harskamp, E., & Suhre, C. (2007). Schoenfeld's problem solving theory in a student controlled learning environment. Computers & Education, 49(3), 822–839.
Kilpatrick, J., Swafford, J., & Findell, B. (Eds.). (2001). Adding it up: Helping children learn mathematics. National Academy Press.
Miyakawa, T., & Batteau, V. (2025). Collective problem-solving in Japanese primary mathematics lessons. Educational Studies in Mathematics, 119, 1–25.
Mayer, R. E. (1992). Thinking, problem solving, cognition (2nd ed.). W.H. Freeman.
Pólya, G. (1945). How to solve it. Princeton University Press.
Santos-Trigo, M. (2024). Mathematical problem solving: Current and future directions. ZDM Mathematics Education, 56, 1–14.
Schoenfeld, A. H. (1985). Mathematical problem solving. Academic Press.
Schoenfeld, A. H. (1987). What's all the fuss about metacognition? In A. H. Schoenfeld (Ed.), Cognitive science and mathematics education (pp. 189–215). Lawrence Erlbaum.
Schoenfeld, A. H. (1992). Learning to think mathematically: Problem solving, metacognition, and sense-making in mathematics. In D. Grouws (Ed.), Handbook for research on mathematics teaching and learning (pp. 334–370). Macmillan.
Schoenfeld, A. H., & Herrmann, D. J. (1982). Problem perception and knowledge structure in expert and novice mathematical problem solvers. Journal of Experimental Psychology: Learning, Memory, and Cognition, 8(5), 484–494.
Stigler, J. W., & Hiebert, J. (1999). The teaching gap: Best ideas from the world's teachers for improving education in the classroom. Free Press.
Takahashi, A. (2021). Teaching mathematics through problem-solving: A pedagogical approach from Japan. Routledge.
Verschaffel, L., Schukajlow, S., Star, J., & Van Dooren, W. (2020). Word problems in mathematics education: A survey. ZDM Mathematics Education, 52, 1–16.
本文為草稿版本(v0.1),保留修訂與補充的空間。核心論點框架已完整,部分實證數據引用需在正式版本中進一步精確化。
EveMissLab(一言諾科技有限公司)© 2026