先週のAI #340 - OpenAI vs マスク + マイクロソフト、DeepSeek v4、ビジョンバナナ
マスク対アルトマン裁判の初週が終了、マスクの証言が支配的;マイクロソフトとOpenAIが提携関係を再交渉し、独占権を終了;DeepSeekがV4プレビューを公開、最先端モデルとの差を縮小;Google DeepMindが画像生成と視覚理解を統合したビジョンバナナを発表。
記事インテリジェンス
要点
- マスク対アルトマン裁判初週で、マスクはxAIがOpenAIのモデルを部分的に蒸留したことを認めた。
- マイクロソフトとOpenAIが契約を修正、マイクロソフトの独占的クラウド権利が終了;OpenAIはAWSなどのプロバイダーを利用可能に。
- DeepSeekがV4 FlashとV4 Proのプレビュー版を公開、オープンウェイト、100万トークンコンテキスト、性能が最先端モデルに迫る。
- Google DeepMindのビジョンバナナは、画像生成モデルへの指示チューニングにより複数の視覚タスクを実行、ゼロショットで専門モデルを凌駕。
重要な理由
このニュースが重要なのは、マスク対アルトマン裁判初週で、マスクはxAIがOpenAIのモデルを部分的に蒸留したことを認めたためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
マスク対アルトマン裁判の初週がカリフォルニア州オークランドで終了し、イーロン・マスクの証言が3日間にわたって審理を支配しました。マスクの法的チームは最大1340億ドルの損害賠償、アルトマンとブロックマンの解任、およびOpenAIの営利転換の撤回を求めています。マスクは2015年にOpenAIを非営利団体として共同設立し、約3800万ドルを寄付しました。
主な事実:マスクは「慈善団体をただ盗むことはできない」と繰り返し主張し、CEOサム・アルトマンと社長グレッグ・ブロックマンが現在8500億ドル以上と評価される営利法人への転換によって設立使命を裏切ったと述べました。マスクはOpenAIを「Google DeepMindへの対抗手段」として創設し、「アイデア、名前を考え、主要メンバーを採用した」と証言しました。反対尋問で、マスクはxAIがOpenAIのモデルを「部分的に」使用して自社モデルを訓練した(蒸留と呼ばれる)ことを認めましたが、「標準的な慣行」と軽視しました。
第2週にはブロックマンが証言台に立ち、OpenAIが8500億ドルの非公開評価額に基づき、史上最大のIPOの一つを検討していることを確認しました。ブロックマンは自身が約300億ドルのOpenAI株式を保有していることを明らかにし、これにより彼は世界で最も裕福な人物の一人となるほか、Stripe株式も4億7100万ドル保有しています。裁判は地区裁判所のYouTubeページでライブ配信されていますが、音声のみで録音は許可されていません。サム・アルトマンとシボン・ジリスは今月下旬に証言する予定です。
マイクロソフトとOpenAIは提携契約を再交渉し、OpenAIの最大500億ドルに上るAmazonとの取引をめぐって燻っていた法的紛争を解決しました。新たな条件は、マイクロソフトの無期限独占権(以前はOpenAIがAGIを達成するまで続く)を2032年までの非排他的ライセンスに置き換えます。マイクロソフトは引き続きOpenAIの「主要クラウドパートナー」であり、OpenAI製品は「まずAzureで提供」されますが、マイクロソフトが必要な機能をサポートできない場合を除きます。しかし重要なのは、OpenAIは現在、AWSを含むすべてのクラウドプロバイダーで全製品を提供できることです。
この紛争の核心は、2026年2月のOpenAIとAmazonの契約にあり、AWSがOpenAIのエージェント作成ツールFrontierをホストする独占的権利と、AWS Bedrock上でのステートフル・ランタイム技術の共同開発を含んでいました。マイクロソフトの以前の契約は、Frontierを含むすべてのOpenAI APIアクセス製品に対する独占的権利を与えており、マイクロソフトはAWS独占条件に公に反論し、法的措置を検討していたと報じられています。新契約に基づき、マイクロソフトはOpenAIへの収益分配を停止する一方、OpenAIは2030年までマイクロソフトへの収益分配を継続(上限あり)。マイクロソフトはOpenAI営利法人の約27%の株式を保持。Amazon CEOのアンディ・ジャシーは、OpenAIモデルがAWS Bedrockで利用可能になることを確認しました。
DeepSeekはDeepSeek V4 FlashとV4 Proのプレビュー版をリリースしました。両モデルはテキスト専用の混合専門家モデルで、100万トークンのコンテキストウィンドウを持ちます。V4 Proは総パラメータ1.6兆、アクティブパラメータ490億。V4 Flashは総パラメータ2840億、アクティブパラメータ130億。従来と同様、ウェイトはHugging Faceでオープンソース化され、アーキテクチャの主要な技術革新を説明する詳細な技術レポートも公開されています。DeepSeekはV3.2と比較して効率とパフォーマンスの大幅な向上を主張し、推論とコーディングの結果は一部のベンチマークで最先端モデルに近づくか、または一致しています。
Google DeepMindは論文「Image Generators are Generalist Vision Learners」を発表し、ビジョンバナナ(Vision Banana)モデルを導入しました。このモデルは、知覚を画像生成として扱うことで、画像生成と視覚理解タスクの両方を統一的に実行します。ベースの画像生成器Nano Banana Proを軽量な指示チューニングすることで、ビジョンバナナはセマンティックセグメンテーション、インスタンスセグメンテーション、単眼深度推定、表面法線推定を処理します。これらすべてはタスク固有のモジュールを必要とせず、プロンプトを変更するだけで行えます。核となる洞察はLLM訓練パラダイムを反映しています。テキストの生成的プレトレーニングがリッチな言語表現を発展させるのと同様に、画像生成の訓練はモデルに幾何学、セマンティクス、深度を暗黙的に教え、それをデコード可能な形式で表現できます。複数のベンチマークでのゼロショット転送において、ビジョンバナナは専門家モデルを凌駕し、訓練データには評価ベンチマークデータは含まれていません。重要なことに、指示チューニングは生成性能を低下させず、ビジョンバナナはGenAI-Benchテキスト・ツー・イメージ生成でNano Banana Proに対して53.5%の勝率を達成しました。