2026-05-21 16:28 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

【AINews】OpenAI GPT-next、1000ドル未満で80年来のErdős平面単位距離問題を反証

OpenAIの汎用推論モデルが1000ドル未満のコストで有名なErdős平面単位距離問題を反証し、数学者から高い評価を得た。CohereはCommand A+をApache 2.0で公開。GoogleはGemini 3.5 FlashとOmniを展開。新たなベンチマークはエージェントが実世界のエンジニアリングタスクに苦戦することを示す。

ソースLatent Space

記事インテリジェンス

エンジニア上級

要点

OpenAIの内部モデルが1000ドル未満でErdős問題を反証、汎用AIによる数学の画期的成果。
CohereがCommand A+をApache 2.0で公開、218B MoEモデルで2×H100で稼働。
GoogleがGemini 3.5 Flashを全世界で無料提供、Gemini Omniはマルチモーダル編集を強化。
InferenceBenchは最先端エージェントがシステムエンジニアリングで単純ベースラインに劣り、メモリシステムの平均精度は27.9%。

重要な理由

このニュースが重要なのは、OpenAIの内部モデルが1000ドル未満でErdős問題を反証、汎用AIによる数学の画期的成果ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

本日のAIニュースは、OpenAIによる数学上のブレークスルーが最大の話題となった。OpenAIは、自社の汎用推論モデル（GPT-5.6と推測される）が、32時間未満、コスト1000ドル未満で、1946年に提示されたErdős平面単位距離問題を反証したと発表した。この成果は、専用の数学システム（AlphaProofなど）ではなく汎用モデルによって達成された点で重要であり、AIの科学分野への応用に希望を与える。OpenAIの研究者Hongxun Wuは、これを内部推論LLMの「最も難しい問題」におけるマイルストーンと述べた。著名な数学者Timothy Gowersは、AIがよく知られた未解決問題を解いた初めての明確な例だと評価した。モデルは限界まで推論されておらず、将来的に一般公開される予定だ。出力は125ページに及び、「39ページ目の瞬間」が注目を集めている。

オープンモデル分野では、CohereがCommand A+をApache 2.0ライセンスで公開した。これはCohere初の完全Apache 2モデルで、約218B MoE（25Bアクティブ）、マルチモーダル、48言語対応、2台のH100でも動作可能だ。コミュニティは、より寛容でデプロイしやすいエンタープライズグレードのモデルへの移行として歓迎した。ベンチマークでは、Artificial Analysis Intelligence Indexで37点を獲得し、Claude 4.5 Haikuと同等だが、科学的推論やコーディングではトップモデルに及ばない。アーキテクチャ面では、並列Transformerブロック、大規模共有エキスパート、LayerNormの採用など、ユニークな選択が議論を呼んだ。

GoogleはI/Oのフォローアップとして、Gemini 3.5 FlashをGeminiアプリで全世界に無料提供開始した。Googleは最強のエージェント・コーディングモデルと主張するが、外部評価は慎重だ。Gemini Omniはマルチモーダル対話型編集モデルとして好評で、ビデオ編集や混合入力ワークフローを可能にする。AI Studioはエンドツーエンドの開発ワークフローを強化し、Science Skillsは30以上の生命科学データソースを統合した。

エージェントとベンチマークでは、InferenceBenchがAI研究の自動化を評価し、現在のエージェントはシステムレベルのエンジニアリングや依存関係管理で単純なベースラインにすら劣ることが判明した。Terminal-Bench Scienceは科学ワークフローに拡張され、MINTEvalは長文脈メモリシステムの平均精度が27.9%と低いことを示した。ThoughtTraceは、大規模なユーザー思考注釈データセットを公開し、行動予測を41.7%改善した。

検索インフラでは、Perplexityがクエリ認識型の文脈圧縮システムを発表し、トークンを70%削減しつつ回答品質を向上。Weaviate 1.37はMMRリランキングを追加。SID-1はRL訓練されたエージェント検索モデルで、RAG+リランクより1.9倍のリコール、24倍高速、99%低コストを実現した。

開発者ツールでは、Cursorがエージェントワークスペースに自動化を追加、VS CodeはMarkdown/HTMLプレビューとリモートセッション継続性を改善、Composer 2.5はコーディングエージェント指数で好スコアを記録。OpenAIはCodexをモバイルでも提供開始した。

RedditではQwen3.7のプレビューが話題に。Qwen3.7 MaxはArtificial Analysisで5位となり、GPT 5.4に迫る。コミュニティはオープンウェイトの公開と、小型モデルの登場を期待している。