清華劉洋團隊論文：揭示為何 70B 的醫療模型，反而不如 8B 會問診丨ILCR 2026

在醫療人工智慧的發展歷程中，能力評估方式在很大程度上塑造了技術演進的方向論文。

過去相當長一段時間裡，醫療 AI 的進步主要圍繞醫學知識獲取與推理展開，模型是否“足夠聰明”通常透過醫學考試題、臨床問答資料集等靜態基準來衡量論文。在這一評價框架下，模型只需在資訊完整、問題封閉的條件下給出正確答案，便被視為具備較高的醫療能力。

隨著大語言模型的興起，這一路徑迅速取得突破性進展，多種系統在 MedQA 等測試中達到甚至超過人類專家水平，使得“醫療 AI 是否已經成熟”一度成為行業內的樂觀判斷論文。

然而，隨著這些模型被逐步引入更貼近真實臨床的互動場景，一個長期被掩蓋的問題開始顯現：真實醫療實踐並非基於完整資訊給出診斷，而是一種在高度不確定條件下，透過連續提問、風險識別與資訊整合來逐步逼近決策的動態過程論文。

模型在靜態評測中展現出的知識優勢，並未自然轉化為對真實問診場景的可靠支援，反而在多輪對話中暴露出提問策略僵化、對高風險訊號反應遲鈍、過早形成結論以及缺乏基本溝通與共情能力等缺陷論文。

這種“高分透過考試，卻難以勝任臨床問診”的斷層，逐漸成為醫療 AI 領域的核心瓶頸，也迫使研究者重新思考一個根本性問題：醫療智慧體真正需要被訓練和評估的，究竟是什麼能力論文。

在這一背景下，清華大學劉洋團隊提出了題為《DOCTOR-R1: Mastering Clinical Inquiry with Experiential Agentic Reinforcement Learning》的研究工作，試圖從問題建模和訓練正規化層面打破以靜態知識評測為中心的既有路徑論文。

這項研究不再將模型能力簡單等同於知識覆蓋度或引數規模，而是將臨床問診本身視為一個長期、多輪、部分可觀測且高度風險敏感的決策過程，重點探索如何讓模型學會在資訊不完整的條件下提出高價值問題、動態調整詢問策略，並在整個過程中保持安全意識與溝通質量論文。為醫療智慧體從工具型問答系統邁向具備臨床推理與互動能力的決策主體提供了新的研究正規化。

論文連結論文：

從模板化提問到策略性問診

這項研究的實驗結果本質上圍繞三個核心問題展開，即現有模型在真實臨床問診場景中究竟面臨哪些挑戰，DOCTOR-R1 在哪些具體能力層面彌補了這些不足，以及這些能力提升是否確實源於研究團隊提出的方法機制而非偶然因素論文。

研究人員首先透過對照實驗揭示了一個關鍵事實：在靜態醫學問答任務中表現優異的模型，在需要多輪互動的動態臨床問診環境中會出現系統性失效論文。

這種失效並非源於醫學知識儲備不足，而主要體現在問診策略層面，例如提問順序缺乏針對性，傾向於使用資訊增益較低的標準化體檢式問題；在患者給出潛在高危訊號後，仍難以及時調整提問路徑，而是沿用固定模板繼續詢問；在關鍵資訊尚未充分收集的情況下過早形成判斷，甚至給出不恰當的安撫性或錯誤建議；以及整體溝通方式與真實醫療場景不匹配，表現為共情不足、語氣過於武斷或對不確定性處理不當論文。

清華劉洋團隊論文：揭示為何 70B 的醫療模型，反而不如 8B 會問診丨ILCR 2026

展開全文

由於這些問題在 MedQA、MMLU 等靜態評測中幾乎不會暴露，研究指出傳統評測方式對模型真實臨床能力存在失真論文。與之相比，DOCTOR-R1 的效能提升並非體現在單一指標上，而是整體改變。DOCTOR-R1模型除了在上述傳統測試的表現優於已有模型，在 MAQuE等模擬評測資料集上，其最終表現也優於 GPT-4.1 等模型。

這一點在對話輪次與準確率關係的分析中也得以體現，DOCTOR-R1 從首輪對話開始即佔據優勢，並且隨著對話推進持續擴大領先幅度，體現出一種越問越準的策略特徵論文。

同時，在 HealthBench 的溝通質量、上下文理解和回答完整性等指標上，DOCTOR-R1 的提升幅度明顯高於準確率本身，表明良好的溝通與共情能力並非附帶收益，而是其問診策略的內在組成部分，即共情本身有助於提高資訊獲取效率論文。

進一步的消融實驗驗證了這一結論論文。研究團隊發現，在移除過程獎勵、僅保留最終診斷獎勵的情況下，模型雖然仍能學習到正確的診斷結果，但中間問診過程明顯退化為模板化和低風險偏好模式，在高風險場景中更容易產生安全性不足的回答，說明如果不對提問過程本身進行顯式獎勵，模型會傾向於忽略如何提問這一關鍵能力。

而當經驗庫機制被移除時，模型在新場景中的適應能力顯著下降，在相似病例上的表現也更加不穩定，對話策略波動明顯增大，這表明僅依賴 on-policy 強化學習不足以模擬真實醫生透過長期經驗積累形成的穩定問診策略論文。

因此，這些實驗結果並非對整體效能的簡單補充，而是從多個角度直接支撐了研究團隊提出的核心機制設計論文。

讓模型在不確定中學會決策

在實驗設計層面，研究團隊認為必須採用強化學習而非單純的微調方法，其核心判斷在於兩者所能學習的能力本質不同論文。

微調主要教會模型在獲取完整資訊後如何生成回答，而臨床問診的關鍵並不在於“如何作答”，而在於模型在尚不清楚答案的情況下，如何決定下一步應該詢問什麼資訊論文。

這一過程本質上屬於行動會改變未來可獲取資訊結構的序列決策問題，因此天然更適合用強化學習來建模論文。進一步地，研究人員指出臨床問診並非一個完全可觀測的決策過程。在真實醫療場景中，患者自身往往也無法完整理解病情，醫生只能透過患者的回答逐步反推出潛在狀態，且大量關鍵資訊只有在被主動詢問後才會顯現。

基於這一現實，該研究將問診過程建模為部分可觀測馬爾可夫決策過程，而非簡單的馬爾可夫決策過程，其中真實病情狀態對醫生模型不可見，醫生所獲得的觀察資訊具有噪聲和不完整性，而每一次提問行為都會直接影響下一步能夠獲得的資訊內容論文。

這一建模方式對於保留“問什麼才有意義”這一核心問題至關重要論文。與此同時，研究團隊強調多智慧體互動環境並非形式上的複雜化，而是提升泛化能力的必要條件。如果患者僅由固定指令碼模擬，模型很容易學會針對指令碼進行應對，從而在真實場景中表現出極差的泛化能力。雷峰網

為此，研究人員使用大語言模型扮演患者智慧體，因此即便在相同疾病背景下，患者的表述方式、回答順序以及風險訊號的暴露時機都具有高度多樣性，從而讓醫生智慧體真正學習穩定有效的問診策略，而非記憶固定套路論文。

在獎勵設計方面，研究提出的雙層獎勵機制旨在解決長期存在的兩個關鍵難題論文。一方面，如果僅依據最終診斷結果給予獎勵，模型往往會傾向於過早猜測並提前結束對話，導致中間問診過程不可控，高風險錯誤也難以及時被懲罰；另一方面，醫療決策中普遍存在否決型錯誤，即一次危險建議或嚴重誤判無法被多次禮貌或合理表達所抵消。

不同於傳統的權重平均得分，研究團隊引入了分層懲罰機制，將安全性、推理合理性和醫學準確性置於最高優先順序，一旦觸發底線錯誤即直接給予強負獎勵論文。這種在強化學習中相對激進的設計雖然約束嚴格，但能讓模型守住臨床安全的底線，且更貼近真實醫療場景的風險要求。雷峰網

最後，在經驗利用機制上，該研究並未將經驗庫視為普通的記憶模組，而是將其定位為經過篩選的“高質量醫生經驗”論文。研究人員透過僅儲存高獎勵軌跡、在檢索時同時考慮語義相似度與歷史獎勵，並引入新穎性約束以避免模型反覆依賴同一問診套路，使模型在面對新患者時更接近一名積累了大量臨床經驗的醫生，而非簡單依賴答案記憶的學生。

真實臨床能力導向的醫療 AI 方法論啟示

從整體意義上看，這項研究在醫療人工智慧領域具有明確而深遠的啟示作用論文。研究結果首先表明，當前醫療 AI 的瓶頸不僅受限於模型所具備的醫學知識規模，還在於是否採用了與真實臨床實踐相匹配的訓練正規化。

透過實驗可以看到，在引數規模僅為 8B 的條件下，結合合適的強化學習訓練框架，模型在多項動態問診指標上能夠超過引數規模達到 32B 甚至 70B 的知識型模型，這一現象對長期以來以模型規模和知識覆蓋度為中心的發展路徑形成了糾偏論文。

其次，研究將以往被視為難以量化和系統訓練的軟技能問題轉化為可最佳化目標論文。研究人員透過合理的任務建模和獎勵設計，使得共情表達、溝通質量以及對不確定性的處理等能力能夠被穩定評估並持續強化，驗證了軟技能並非只能依賴隱式學習或人工規則，而是可以納入統一的訓練與評價體系之中。

最後，從方法論層面來看，研究提出的框架為真實世界智慧體的構建提供了一種具有可複製性的通用模板論文。其核心問題特徵包括不完全資訊條件下的決策、面向長期目標的序列行為、高風險情境中的安全約束以及對經驗積累機制的依賴，而這些特徵正是大多數真實世界智慧體任務所共有的。

因此，這項工作的意義不僅侷限於醫療領域，也為更廣泛的智慧體研究提供了具有參考價值的正規化思路論文。

構建 DOCTOR-R1 的人

論文第一作者為黎雍卉，清華大學電腦科學與技術系碩士研究生，導師為劉洋教授論文。她的主要研究方向為智慧醫療與大模型智慧體，特別是在醫療模型的互動、進化、推理等方面的能力最佳化。她已發表了ICLR等多篇成果，曾獲中國政府獎學金、北京市政府獎學金、清華計算機系 84 創新未來獎學金等多項榮譽。

論文的共同通訊作者之一是馬為之，他是清華大學智慧產業研究院副研究員，主要從事智慧資訊獲取與智慧醫療的研究工作論文。他在 SIGIR、ICLR 等國際頂級會議以及 Nature Medicine 等權威期刊上發表了100餘篇論文，曾獲得SIGIR、EMNLP等會議的論文獎項，入選中國科協青年人才託舉工程、北京市科技新星。目前擔任 ACM TOIS 副主編及中國中文資訊學會青工委秘書長。

參考連結：

論文的另一位共同通訊作者是劉洋，他是清華大學電腦科學與技術系萬國資料教授、智慧產業研究院院長、人工智慧醫院聯席執行院長論文。研究方向為自然語言處理、智慧醫療和科學智慧。

劉洋教授承擔國家自然科學基金委傑出青年專案、科技創新2030“新一代人工智慧”重大專案等重要科研專案，獲得國家科技進步二等獎1項、省部級與一級學會科技獎勵5項、重要國際會議優秀論文獎4項論文。主要學術兼職包括中國人工智慧學會組織工作委員會主任、中國中文資訊學會計算語言學專業委員會主任等。

參考連結論文：

清華劉洋團隊論文：揭示為何 70B 的醫療模型，反而不如 8B 會問診丨ILCR 2026

上海偉傑國際貨物運輸代理有限公司

熱門標籤

相關詞彙