AI News HubLIVE
サイト内リライト2 分で読了

OpenAI gpt-oss-safeguard

OllamaはOpenAIおよびROOSTと提携し、セーフティ分類タスクのためのgpt-oss-safeguard推論モデルをリリースしました。20Bと120Bの2サイズをApache 2.0ライセンスで提供し、カスタムポリシー対応、解釈可能な推論、調整可能な推論努力をサポートします。

ソースOllama Blog

Ollamaは2025年10月29日、OpenAIおよびROOST(Robust Open Online Safety Tools)とのパートナーシップのもと、gpt-oss-safeguard推論モデルを発表しました。このモデルは、LLMの入出力フィルタリング、オンラインコンテンツのラベリング、トラスト&セーフティ用途のオフラインラベリングなど、セーフティ分類タスクに特化して設計されています。

gpt-oss-safeguardは20Bと120Bの2つのパラメータサイズで提供され、両方ともApache 2.0ライセンスの下で利用可能です。これにより、コピーレフトの制限や特許リスクなしに、自由に実験、カスタマイズ、商用展開が行えます。ユーザーはOllamaプラットフォームを通じて簡単にモデルを実行でき、ターミナルで「ollama run gpt-oss-safeguard:20b」または「ollama run gpt-oss-safeguard:120b」と入力するだけです。

モデルの主な特徴は以下の通りです。セーフティに関する推論を行うようトレーニングされており、ユーザーが定義したポリシーを解釈して適用できるため、最小限のエンジニアリングで多様な製品やユースケースに対応します。また、モデルの推論プロセス(Chain-of-Thought)全体にアクセス可能で、デバッグやポリシー決定への信頼性向上に役立ちます。ただし、Raw CoTは開発者やセーフティ実務者向けであり、一般ユーザーやセーフティ以外の用途での公開は意図されていません。さらに、推論努力(低・中・高)をユースケースやレイテンシ要件に応じて調整できます。

性能評価において、OpenAIは内部および外部の評価セットを使用しました。内部評価では、複数のポリシーを同時にモデルに与え、すべてのポリシーに対して正しい分類が行われるかを検証しました。また、OpenAIが2022年に公開したモデレーションデータセットや、オープンソースチャットボットへのユーザークエリに基づくベンチマークToxicChatでも評価が行われました。

ROOSTのCTOであるVinay Rao氏は次のように述べています。「gpt-oss-safeguardは、『ポリシーと危害の定義を持ち込める』設計を備えた初のオープンソース推論モデルです。組織は重要なセキュリティ技術を自由に研究、修正、使用し、革新を続けることができます。テストでは、さまざまなポリシーを理解し、その推論を説明し、適用時に微妙な判断を示す能力に優れており、ビルダーやセーフティチームにとって有益だと確信しています。」

ROOSTは、2025年に主要テクノロジー企業、慈善団体、学術機関からなる多様なグループによって設立された非営利団体で、AI時代におけるあらゆるデジタル組織向けにアクセスしやすく高品質なオープンソースセーフティツールを提供することを使命としています。詳細はOpenAIブログ、開発者向けクックブック、ROOSTのGitHubリポジトリを参照してください。