2026-06-30 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 17:10 UTC+9

フランス語OSCE対話データセットと臨床訓練のための制御可能な仮想患者システム

この研究は、240件の学生-患者訓練インタラクションからなるフランス語OSCE対話データセットを導入し、それを基に制御可能なLLMベースのパイプラインを構築して合成OSCE対話を生成する。パイプラインは検索ベースのグラウンディングとリフレクションループを統合し、患者の忠実性、一貫性、リアリズムを確保する。また、LLM-as-a-Judgeアプローチを用いた多レベル評価フレームワークを提案する。実験では、制御可能性モジュールが患者の忠実性と学生評価の一貫性を改善することが示された。最後に、学生がVPで練習し自動フィードバックを受けられるインタラクティブプロトタイプを実装した。

ソースarXiv Computational Linguistics著者: Doria Bonzi, Tom Bourgeade, Fabrice Lef\`evre, Irina Illina

医学生の臨床およびコミュニケーションスキルは、通常、客観的構造化臨床試験（OSCE）によって評価される。OSCEは短いシナリオ駆動の医師-患者インタラクションのシミュレーションからなるが、訓練は人間の模擬患者の可用性が低いために制限されることが多く、現実的な仮想患者（VP）の開発が動機となっている。このギャップに対処するため、研究者らは240の学生-患者訓練インタラクションからなるフランス語OSCE対話データセットを導入した。これらのインタラクションは実際のOSCE訓練セッションから収集され、内科および外科のさまざまなシナリオをカバーしている。これを基に、合成OSCE対話を生成するための制御可能なLLMベースのパイプラインを構築した。パイプラインは、検索ベースのグラウンディング（retrieval-based grounding）とリフレクションループ（reflection loop）などのモジュールコンポーネントを統合する。検索コンポーネントは実際の対話データベースから関連する断片を抽出し、患者の発言の医学的正確性を確保する。リフレクションループは、各対話の生成後にモデルが自己評価して修正することを可能にし、一貫性とリアリズムを向上させる。さらに、多レベル評価フレームワークを提案した。第1レベルは患者シミュレーションの全体的な品質と一貫性を評価し、第2レベルは学生の臨床パフォーマンス（病歴聴取、コミュニケーションスキルなど）を評価し、第3レベルは言語の流暢さと専門性を評価する。評価にはLLM-as-a-Judgeアプローチが用いられ、実験により制御可能性モジュールが患者の忠実性と学生評価の一貫性を有意に改善することが示された。最後に、インタラクティブなWebプロトタイプを実装し、学生は仮想患者と複数回の対話を行い、終了時に自動フィードバック（改善点の提案を含む）を得ることができる。この研究はDoria Bonziら4名の著者によるもので、論文は9ページで、SIGDIAL 2026に採択された。データセット構築では、フランスの医学部のOSCE訓練から240の実際の学生-模擬患者対話を収集し、初級の病歴聴取から複雑な診断コミュニケーションまで複数の難易度をカバーしている。これらの対話は、患者役割、症状、感情状態、学生のパフォーマンス評価などが詳細に注釈付けされている。収集データに基づき、指定された臨床シナリオや患者特性（年齢、性別、性格など）に応じて新しい対話を生成する制御可能なテキスト生成モデルを訓練した。モデルは検索拡張生成（RAG）技術を用いてデータベースから類似対話を参照し、リフレクションループで自己修正する。制御モジュールの有無を比較した実験では、制御性を追加することで患者シミュレーションの医学的正確性が70%から85%に向上し、学生評価の評価者間一致度も有意に改善された。プロトタイプは学内で試験的に導入されており、学生からのフィードバックは良好である。今後はシステムを他の言語やより複雑な多患者シナリオに拡張し、音声対話機能を統合する計画がある。この成果はOSCE訓練のコストを大幅に削減し、医学生の実践機会を増やすことが期待される。本研究は貴重なフランス語OSCEデータセットを提供するだけでなく、制御可能なLLM技術を用いて高品質な訓練シナリオを生成する方法を示しており、医学教育におけるVPの広範な応用と、多言語・多文化医療訓練のさらなる研究の基盤となると期待される。