AI News HubLIVE
站内改写

7B打敗o3、GPT-5!醫學AI智慧體讓模型學會“看哪裡、怎麼看”

上海創智學院LeapQuest團隊聯合多所高校提出醫學AI新正規化,讓模型在推理過程中主動呼叫視覺工具,從被動接收視覺輸入變為主動尋找證據。論文被ICML 2026接收。

文章情報

工程師進階

要點

  • LeapQuest團隊提出Ophiuchus和MedScope,分別面向醫學影像和影片,採用Think with Images/Videos正規化。
  • Ophiuchus-7B在8個VQA benchmark上平均得分68.0,超越o3(62.2)、GPT-5(59.9)。
  • MedScope透過ClinVideoSuite和GA-GRPO訓練,在影片理解任務上達到開源SOTA。
  • 新正規化讓模型在推理鏈中主動呼叫分割、定位、放大等工具,實現證據驅動的視覺推理。

為什麼重要

這條新聞值得關注,因為LeapQuest團隊提出Ophiuchus和MedScope,分別面向醫學影像和影片,採用Think with Images/Videos正規化。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

7B打敗o3、GPT-5!醫學AI智慧體讓模型學會“看哪裡、怎麼看” – 量子位

7B打敗o3、GPT-5!醫學AI智慧體讓模型學會“看哪裡、怎麼看”

聽雨 2026-05-28 16:01:57

來源:量子位

醫學AI Agent到了關鍵拐點

上海創智學院 LeapQuest 團隊 投稿

量子位 | 公眾號 QbitAI

醫學AI會寫解釋,但不代表它真的“看到”了關鍵證據。

過去的醫學多模態模型,大多是把一張影像或一段影片編碼成視覺特徵,然後讓大模型生成答案與解釋。

但問題在於——一個微小病灶、一個邊界變化、一段幾秒鐘的手術動作,往往就決定了答案是否成立。

而模型“被動接收”視覺上下文時,很容易看錯區域、漏看病灶。

為應對這一問題,上海創智學院LeapQuest團隊聯合浙江大學、上海交通大學、復旦大學,一口氣拿出了兩篇 ICML 2026接收論文,首次把Think with Images/Think with Videos正規化應用在醫學AI領域:

模型不再只是看完影像或影片後生成解釋,而是在推理鏈中主動呼叫視覺工具,重新觀察關鍵區域或關鍵時刻,並用新證據修正判斷。

這意味著,視覺不再只是輸入,視覺證據本身成了模型思考過程的一部分。

兩篇工作的核心關鍵詞如下:

兩篇工作不是孤立模型升級,而是共同提出醫學AI的新正規化:

讓視覺證據進入模型的中間思考過程,把“解釋”從事後語言生成推進為推理過程中的證據查證。

△Ophiuchus:面向醫學影像的tool-augmented Think with Images

△MedScope:面向臨床長影片的Think with Videos

不是更會“寫解釋”,而是開始會“用視覺證據思考”

醫學AI過去最常見的工作方式,是把一張影像或一段影片編碼成視覺特徵,然後讓大模型生成答案與解釋。

問題在於,解釋看起來完整,並不代表模型真的看到了關鍵證據。尤其在醫學場景裡,一個微小病灶、一個邊界變化、一段幾秒鐘的手術動作,往往就決定了答案是否成立。

Ophiuchus和MedScope共同把這個問題向前推進了一步:多模態模型不再只是“被動接收視覺上下文”,而是在推理過程中主動決定是否需要更多證據、應該看哪裡、應該回看哪一段,並把工具返回的觀察結果納入後續推理。

這就是醫學AI領域首次被系統化提出的 “think with images/think with videos” 正規化:視覺不再只是輸入,視覺證據本身成為模型思考過程的一部分。

△Think with Images

Think with Images:讓模型在影像診斷中“重新看一眼”

Ophiuchus的切入點非常直接:現有醫學多模態大模型雖然能寫出逐步推理,但遇到需要細粒度視覺證據的任務時,仍然容易“看錯區域、漏看病灶、誤把正常結構當異常”。

這不是單純語言能力不足,而是視覺互動機制不足。

因此,Ophiuchus將大模型改造成一個能與醫學影像工具協同的視覺智慧體。

它可以根據當前推理狀態,決定是否呼叫外部視覺工具:用SAM2做精細分割,用BiomedParse根據文字提示定位醫學結構,用Zoom-in放大關鍵區域。

工具呼叫後的輸出不是孤立結果,而會以observation的形式回到推理鏈,驅動下一步判斷。

更關鍵的是,Ophiuchus並不是把工具“外掛”在模型外面,而是讓工具成為推理鏈的一部分。

模型要學會何時呼叫工具、選擇哪個工具、如何解釋工具輸出,以及當工具結果不可靠時如何修正策略。

這使得模型從“會呼叫工具”走向“會用工具思考”。

△Ophiuchus 技術框架

Ophiuchus的價值不只是讓醫學大模型多了幾個視覺工具,而是讓模型學會在診斷過程中主動“看哪裡、怎麼看、看完如何修正”。

從閉源SOTA到醫學Agent:Ophiuchus用結果證明“看得更細”才是關鍵

在同樣外部工具配置下,Ophiuchus-7B在8個VQA benchmark上取得68.0的平均分,高於OpenAI-o3的62.2、Gemini 2.5 Pro的61.8和GPT-5的59.9。

在工具使用準確性評估中,Ophiuchus達到97.9%的平均工具呼叫準確率。

這些結果背後的含義,比“某個榜單第一”更重要:

當問題真正依賴區域性結構、病灶邊界和細胞級證據時,模型大小或語言推理並不是唯一瓶頸。

醫學AI需要一種能讓視覺證據不斷進入推理過程的機制。

Think with Videos:從“看圖思考”走向“回看關鍵時刻”

如果說Ophiuchus解決的是醫學影像中的區域性證據問題,那麼MedScope則把這一正規化推進到更難的長影片場景。

長臨床影片的挑戰在於:關鍵證據不僅細,而且稀疏;不僅要看對內容,還要看對時間。

一個手術動作、一個內鏡視野變化、一個器械進入與離開的瞬間,可能只持續幾秒,卻決定模型是否真的理解了臨床過程。

MedScope 提出的 “think with videos” 不是讓模型把整段影片一次性壓縮成上下文,而是模擬臨床醫生的觀察方式:

先快速建立全域性理解,再回到可疑時間窗,用crop_video擷取片段,用get_frame獲取關鍵幀,最後把這些區域性觀察結果整合進答案。

△Textual CoT與 Visual CoT的差別

這使MedScope的推理過程天然具備可審查性:模型為什麼回答這個結果,不只看它“說了什麼”,還可以看它“回看了哪一段影片、找到了哪些幀、這些證據是否支援結論”。

△MedScope 框架

ClinVideoSuite與GA-GRPO:讓影片模型學會“找證據”,而不只是“猜答案”

為了讓模型真正學會這種行為,MedScope構建了ClinVideoSuite:包含635K時間戳密集 caption、254K證據關聯QA、34K視覺CoT軌跡,以及用於強化學習的互動式訓練環境。

資料不是簡單問答,而是強調問題必須依賴區域性時間窗中的視覺證據。

訓練上,MedScope 採用三階段路線——

第一階段進行臨床推理warm-up,學習醫學語義和長程影片理解;

第二階段用visual-CoT cold-start SFT教會模型何時需要更多證據、如何呼叫工具;

第三階段用GA-GRPO強化時序對齊的工具使用,透過grounding-aware reward和evidence-modulated advantage,讓模型更偏向檢索真正支援結論的視覺片段。

△ClinVideoSuite資料合成管線

在SVU-31K、ClinVideo-Eval等評測中,MedScope在多粒度影片理解、細粒度時序推理和grounded VQA上取得開源模型中的SOTA。

論文還顯示,去掉evidence reward會顯著降低定位質量,例如[email protected]從40.1下降到33.2,mIoU從4.3下降到38.8,說明答案級監督不足以教會模型可靠地選擇證據。

真正的正規化變化:視覺從“輸入”變成“思維過程”

把兩篇工作放在一起看,最重要的不是Ophiuchus處理影像、MedScope處理影片,而是它們共同定義了一種新的醫學多模態智慧正規化:

模型的推理過程不再只是語言token的展開,而是語言、工具、影像區域、影片片段和證據反饋之間的閉環互動。

醫學AI的下一個關鍵能力,不是生成更長的解釋,而是在給出解釋前主動尋找、驗證並引用視覺證據。

Ophiuchus和MedScope把這一點從方法論變成了可訓練、可評測、可擴充套件的技術路線。

為什麼這可能成為醫學AI Agent的關鍵拐點

醫學任務與通用視覺問答最大的不同,是每一個結論都需要證據鏈。

放射科醫生會放大病灶邊緣,病理醫生會尋找細胞形態,外科醫生會回看關鍵操作,內鏡醫生會追蹤病灶在時間中的出現與消失。

也就是說,臨床視覺推理天然就是互動式、證據驅動和可複核的。

“Think with Images/Videos”的意義,正是讓醫學AI向這種真實臨床認知方式靠近。

它不再滿足於一次性預測,而是在模型內部建立“假設-查證-修正-回答”的迴圈。

這為臨床可信AI提供了三類重要能力:更少幻覺、更強可解釋性、更適合複雜流程。

醫學AI開始真正“邊看邊想”

從Ophiuchus到MedScope,可以看到醫學多模態大模型正在發生一次底層正規化轉向:

從看圖、看影片,到在推理過程中持續地看;從輸出答案,到主動尋找證據;從語言鏈條,到視覺證據參與的多模態思維鏈。

這也解釋了為什麼“think with images/videos”值得被單獨提出。

它不是一個更花哨的工具呼叫框架,而是在醫學AI裡重新定義了“推理”的邊界:推理不只是語言生成,而是圍繞證據進行的動態視覺探索。

當模型能夠在思考中主動回看影像、放大病灶、擷取影片、驗證證據,醫學AI才真正從“會回答問題”走向“會進行臨床視覺推理”。

LeapQuest[起躍界問]是上海創智學院面向下一代醫學AI Agent、視覺推理與多模態大模型的青年交叉研究團隊,聚焦Visual Reasoning、Agentic RL、Clinical Tools,推動模型從“生成答案”走向基於證據的觀察、驗證與行動。

專案GitHub:

MedScope|Think with Videos:https://github.com/SII-WenjieLisjtu/MedScope

Ophiuchus|Think with Images:https://github.com/SII-zyj/Ophiuchus

版權所有,未經授權不得以任何形式轉載及使用,違者必究。

AI

聽雨

5秒完成3D場景編輯,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了2026-05-27

Codex自我蒸餾玩法火了!OpenAI員工親授:複製貼上就能讓AI消滅重複勞動2026-05-27

OpenAI大神教你如何榨乾Codex2026-05-23

520當天400萬AI人,都在量子位聽這近20場演講&對談|第四屆中國AIGC產業峰會2026-05-21

相關閱讀

機器人也會繫鞋帶了!斯坦福團隊賦予機器人新技能丨已開源

網友:小手怪巧的

叨樂2024-09-11

AI 機器人

突破視覺模擬算力瓶頸!新一代具身智慧模擬框架開源:高吞吐並行高保真渲染助力規模化訓練

真機部署“零微調”

聽雨2026-05-01

AI 具身智慧

李開復李彥宏奧特曼獲評全球AI領袖,《時代》出品,全球100人

Time AI 100

西風2023-09-08

AI Time AI 100 時代週刊

AI影片生成研究報告|量子位智庫

智庫2025-06-18

AI AI影片

百度被曝將成立晶片公司!頭部網際網路玩家,為何紛紛入局造芯?

“十年磨一劍”

魚羊2021-02-10

AI AI晶片 半導體 百度

Meta被爆把大模型加進自家產品:主打角色扮演AI對話機器人

含數十種角色

西風2023-09-25

AI Meta 聊天機器人

熱門文章

菲爾茲獎得主都看懵了:OpenAI非數學模型首次自主突破80年未解數學難題

2026-05-21

騰訊混元開源全新翻譯模型Hy-MT2 ,上線小程式「騰訊Hy翻譯」

2026-05-21

Artificial Analysis放榜:千問3.7問鼎國產模型冠軍,全球前五

2026-05-21

融資700億!DeepSeek Code真要來了,ACM金牌大神崔添翼掛帥

2026-05-22

李飛飛再出手,空間智慧的ImageNet來了

2026-05-22

掃碼關注量子位

量子位 QbitAI 版權所有©北京極客夥伴科技有限公司 京ICP備17005886號-1