2026-05-28 17:01 UTC+9サイト内リライト3 分で読了更新: 2026-06-30 22:03 UTC+9

7Bモデルがo3、GPT-5を打ち破る！医学AIエージェントが「どこを見て、どう見るか」を学習

上海創智学院のLeapQuestチームは、複数の大学と協力して、モデルが推論プロセスで視覚ツールを積極的に活用し、受動的な入力から能動的なエビデンス探索へと変革する新しい医学AIパラダイムを提案。2本の論文がICML 2026に採択された。

ソース量子位著者: 听雨

記事インテリジェンス

エンジニア上級

要点

LeapQuestは、医学画像と動画向けにOphiuchusとMedScopeを提案。Think with Images/Videosパラダイムを採用。
Ophiuchus-7Bは8つのVQAベンチマークで平均68.0点を達成し、o3（62.2）やGPT-5（59.9）を上回る。
MedScopeは、ClinVideoSuiteとGA-GRPOで訓練され、動画理解タスクでオープンソースSOTAを達成。
新しいパラダイムでは、モデルが推論チェーン中にセグメンテーション、位置特定、拡大などのツールを積極的に呼び出し、エビデンス駆動型の視覚推論を実現。

重要な理由

このニュースが重要なのは、LeapQuestは、医学画像と動画向けにOphiuchusとMedScopeを提案。Think with Images/Videosパラダイムを採用ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

医学人工知能の分野で画期的な進展があった。70億パラメータのモデルが、OpenAIのo3やGPT-5といった業界大手を医学画像診断で凌駕したのだ。この研究は、上海創智学院のLeapQuestチームが浙江大学、上海交通大学、復旦大学と協力して行ったもので、ICML 2026に採択された2本の論文で新しいパラダイムを紹介している。

従来の医用マルチモーダルモデルは、画像や動画を視覚特徴にエンコードし、大規模言語モデルで回答と説明を生成していた。しかし、このアプローチには重大な欠点があった。モデルは一見もっともらしい説明を生成できても、実際には微小な病変、微妙な境界の変化、一瞬の手術動作など、重要な証拠を正しく認識していないことがあるのだ。この問題に対処するため、チームはOphiuchusとMedScopeを開発し、それぞれ「Think with Images」と「Think with Videos」のパラダイムを実装した。

Ophiuchusは、モデルを医用画像ツールと協調できる視覚エージェントに変える。推論プロセスにおいて、モデルは外部ツールをいつ呼び出すかを決定する。例えば、SAM2による精細なセグメンテーション、BiomedParseによるテキストプロンプトに基づく医用構造の位置特定、Zoom-inによる重要領域の拡大などである。これらのツールの出力は観測結果として推論チェーンに戻され、その後の判断を駆動する。これは単なるツールの追加ではなく、ツールが推論チェーンの不可欠な一部となり、モデルはどのツールをいつ使うか、出力をどう解釈するか、結果が信頼できない場合にどう戦略を修正するかを学習する必要がある。評価では、Ophiuchus-7Bは8つのVQAベンチマークで平均68.0点を獲得し、OpenAI o3（62.2）、Gemini 2.5 Pro（61.8）、GPT-5（59.9）を大きく上回った。ツール使用精度は97.9%に達し、微細な視覚的証拠が必要な場合、モデルサイズや言語推論だけがボトルネックではないことを示している。

MedScopeは、このパラダイムをさらに難しい長尺臨床動画に拡張する。長尺臨床動画では、重要な証拠は微細であるだけでなく、時間的に疎らである。数秒間の手術操作や内視鏡視野の変化が、結論を左右する。MedScopeは臨床医の観察方法を模倣する。まず大局的な理解を構築し、次に疑わしい時間窓に戻り、crop_videoで断片を切り出し、get_frameでキーフレームを取得し、これらの局所的な観察結果を最終回答に統合する。これにより推論プロセスは本質的に監査可能になる。モデルがどの動画セグメントをレビューし、どのフレームを結論の根拠として使用したかを確認できるのだ。このような行動を訓練するために、チームはClinVideoSuiteを構築した。これは、635Kのタイムスタンプ付き高密度キャプション、254Kの証拠関連QAペア、34Kの視覚CoT軌跡、および強化学習用の対話型環境を含むデータセットである。訓練は3段階のパイプラインを採用する。臨床推論のウォームアップ、視覚CoTのコールドスタートSFT、そしてグラウンディングアウェアな報酬と証拠変調アドバンテージを用いたGA-GRPO（接地認識GRPO）で、真に支持する視覚セグメントの検索を促進する。SVU-31KやClinVideo-Evalなどのベンチマークでは、MedScopeは多粒度動画理解、細粒度時間推論、接地VQAにおいてオープンソースモデルで最先端の結果を達成した。アブレーション研究では、証拠報酬を除去すると定位品質が大幅に低下することが示され、回答レベルの監視だけでは信頼できる証拠選択に不十分であることがわかった。

OphiuchusとMedScopeは、新しい医用マルチモーダルインテリジェンスパラダイムを共同で定義する。モデルの推論プロセスは、もはや単なる言語トークンの連続ではなく、言語、ツール、画像領域、動画クリップ、証拠フィードバックの間の閉ループ相互作用である。このシフトは、すべての結論に証拠の連鎖が必要とされる臨床AIにとって極めて重要である。回答を生成する前に視覚的証拠を積極的に探し、検証し、引用することで、これらのモデルは真の臨床的視覚推論に近づく。幻覚が減り、解釈可能性が高まり、複雑なワークフローに適している。これは根本的な変化を表している。受動的に見ることから、イメージとビデオで考えることへ。答えを出力することから、積極的に証拠を探すことへ。言語の連鎖から、視覚的証拠によって駆動されるマルチモーダル思考連鎖へ。医学AIが真に「考えながら見る」時代が到来したのである。