BODHI: 正確なOSカーネル仕様推論
研究者らは、大規模言語モデルによるOSカーネルの形式的仕様生成を大幅に向上させるドメイン知識プロンプティング手法「BODHI」を提案。OSV-Benchベンチマークにおいて、Claude Opus 4.6とBODHIの組み合わせで96.73%のPass@1を達成した。
記事インテリジェンス
要点
- BODHIは、15のドメイン固有変換パターンをカバーする構造化C to Python変換ガイドを追加する。
- OSV-Benchの245タスクにおいて、Pass@1を55.10%から96.73%に向上。
- 6社の9モデルすべてで効果を確認、性能向上幅は11%から32%。
重要な理由
このニュースが重要なのは、BODHIは、15のドメイン固有変換パターンをカバーする構造化C to Python変換ガイドを追加するためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
オペレーティングシステムカーネルの形式的検証には、システムコールの意図された動作を正確に捉える仕様が不可欠です。しかし、これらの仕様を手動で記述するには深いドメイン知識と多大な労力が必要であり、この作業を自動化するために大規模言語モデル(LLM)を活用する試みが進められています。Hyperkernel OSに基づく245の仕様生成タスクからなるベンチマークOSV-Benchでは、従来の最高Pass@1は55.10%に留まっていました。
そこで研究チームは、標準的な少数ショットプロンプトに、15カテゴリのドメイン固有変換パターンを網羅した構造化C to Python変換ガイドを追加するドメイン知識プロンプティング手法「BODHI」を提案しました。このガイドはStructured Chain-of-Thought(SCoT)プロンプティングに着想を得ており、関心の分離に基づいて変換を整理し、事前条件の抽出と事後条件の生成を別々のカテゴリとして扱います。
評価は、Anthropic、Mistral、Amazon、DeepSeek、Meta、Alibabaの6社が提供する9つのモデル(高密度、混合エキスパート、推論アーキテクチャを含む)で実施されました。BODHIはすべてのテストモデルで性能を向上させ、その向上幅は11%から32%に及びました。最良の構成(Claude Opus 4.6 + BODHI)では、OSV-Bench上で96.73%のPass@1を達成し、従来の最良結果を大幅に上回りました。
さらに、BODHIは構文エラーと意味エラーの両方を削減することが確認され、特に構造化された参考資料を活用できる十分な指示追従能力を持つモデルで最大の効果を発揮しました。これらの結果は、ドメイン知識の注入がモデルに依存しない汎用的な手法であり、汎用コード生成と形式的仕様合成の間のギャップを効果的に埋めることを示しています。本研究は、OSカーネルの自動検証に向けた新たな可能性を拓くものです。