AI News HubLIVE
站内改写

[AINews] 創業者とフォワードデプロイドエンジニア

昨日のAnthropicの大きなニュースを消化する中で、AIEの新しいフォワードデプロイドエンジニアトラックとファウンダーズプログラム、および5月28日~29日のAIニュースを紹介します。主なトピック:Claude Opus 4.8のベンチマークが混在するリリース、マルチターン強化学習のトークン化バグ、オープンモデルとツールチェーンの進展、Google/OpenAIの製品拡張、注目の研究論文。

記事インテリジェンス

エンジニア上級

要点

  • Claude Opus 4.8は漸進的改善をもたらすが、ベンチマークで圧倒せず、価格設定が依然として痛点。
  • マルチターン強化学習トレーニングのトークン化バグが特定され、「Token-In, Token-Out」の原則が必要。
  • オープンモデルの採用が増加し、現在AIチームの3分の1がオープンウェイトを使用、最先端に約4ヶ月遅れ。
  • GoogleとOpenAIがエージェント製品を拡張:Gemini Spark、Managed Agents、Codex on Windows。

重要な理由

このニュースが重要なのは、Claude Opus 4.8は漸進的改善をもたらすが、ベンチマークで圧倒せず、価格設定が依然として痛点ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

ほとんどの人は依然として昨日のAnthropicの大きなニュースを消化中です。私たちはこの機会を利用して、AIEの新しいフォワードデプロイドエンジニア(FDE)トラックのために世界中の主要なAI FDEを募集しています。これはOpenAI DeployCoやAnthropic DeployCoの同様の取り組みに対応するものです。さらに、AIEの新しいファウンダーズプログラムでは、Y CombinatorのGarry TanとHowie Luの1000万ドルHyperagentコンテストに触発された、スタートアップバトルフィールド版を実施しています。関心のある方は、今日中にサインアップ(およびホテル予約)してください。

以下は2026年5月28日~29日のAIニュースです。12のsubreddit、544のTwitterアカウントをチェックし、追加のDiscordはありませんでした。AINewsのウェブサイトでは、過去のすべての号を検索できます。注意:AINewsは現在Latent Spaceの一部です。メールの頻度は自由に選択できます。

AI Twitterまとめ

Claude Opus 4.8の展開、ベンチマークの摩擦、APIのエルゴノミクス

Opus 4.8は騒がしく混在した評価環境に登場しました。複数の独立したベンチマークが「漸進的だが支配的ではない」と一致しています。@arenaはOpus 4.8を以前のOpusバリアント、Gemini、GLMと比較する200以上のフロントエンド/コードテストをプッシュしました。@theoはCursorBenchが4.7より効率的だが誤差範囲内でわずかに悪いと報告。@jerryjliu0と@llama_indexはテーブル/レイアウトで小さな改善を見たが、ドキュメント解析のコンテンツ忠実度/チャートで後退。@scaling01はALE-Benchで進展なし、別途LisanBenchで興味深い失敗モードを報告。良い面では、@jeremyphowardは4.8が4.7/GPT-5.5よりも過度にエージェント的でなく、コーディングで協力的であると発見。@leo_linskyは以前のAnthropicリリースよりも具体的な製品改善と呼びました。

Anthropicはまた、有用なプラットフォームレベルの変更を出荷しました。@ClaudeDevsはプロンプトキャッシュを壊さずに会話中システム指示を更新できること、さらに権威ある会話中システムロール更新を発表。これは長時間実行エージェントセッションとコスト管理にとって重要です。しかし価格設定は依然として主要な不満点です。@jeremyphowardはAnthropicがAPIの手頃さに対してほとんど何もしておらず、サブスクリプション/API経済学が正当化しやすいという理由でGPT-5.5を好むと主張。全体の要点:4.8は実際の使用にとって意味のある品質向上リリースであり、ベンチマークのリセットではない。

エージェントハーネス、マルチターンRLバグ、自律性のインフラストラクチャ

微妙だが重要な強化学習の失敗モードが指摘されました。@ClementDelangueはHugging Faceの詳細な分析を強調し、なぜ多くのツール使用マルチターンRLトレーニングループが静かに壊れているかを示しました。核心的なバグ:モデル出力をデコードし、ツールコールを解析し、更新された会話を再トークン化すると、トークン化が変化する可能性があり、勾配がモデルが実際にサンプリングしたことのないシーケンスに適用される。提案された修正は厳格な「Token-In, Token-Out」ルールです。サンプリングされたトークンを決して再エンコードしない。ターン間で単一のトークンバッファを維持する。@johnschulman2は、レンダラーがメッセージとトークンの間の基盤インフラであり、訓練/テスト不一致、キャッシュ非効率、プロンプトインジェクションリスクにわたる失敗モードがあるというより広いポイントを強化しました。

ハーネス設計はそれ自体が最適化の分野になりつつあります。@omarsar0は有効フィードバック計算(EFC)に関する研究を表面化させ、生のトークン/ツール数ではエージェントの成功をうまく説明できないのに対し、EFCはR²最大0.99に達し、ハーネスの質が総活動量よりも重要であることを示唆しています。これは、@LangChainのDeep Agents v0.6がハーネスプロファイルを第一級として、Qwen/Kimi/DeepSeekからフロンティアAPIより20倍以上の低コストで強力なパフォーマンスを得るという製品化されたチューニング努力と一致し、@hwchase17は明示的に「異なるモデルには異なるプロンプト/ツールが必要」と述べています。@vllm_projectはネイティブの重み同期APIと非同期RLのための改善された一時停止/再開を出荷し、後にfastokens(Rust BPEトークナイザー)を追加して、長文脈/エージェントワークロードでのCPUトークン化ボトルネックを削減しました。

議論は「単一エージェント vs マルチエージェント」から抽象化がどこで報われるかに移行しています。@OfirPressは現在のマルチエージェントシステムは主に高速化であり、能力のアンロックではないと主張。@scaling01は逆の見解で、群れスタイルのトレーニングがより良い計画と超知能的な振る舞いをもたらすと期待。いずれにせよ、実用的なトレンドは明確です。より多くのチームがエージェントの可観測性、トレース、継続的改善ループの周りに構築しています。例えば@Vtrivedy10はプロダクショントレースをマイニングしてSFT/蒸留と長期継続学習に使用。

オープンモデル、ローカルAI、OSSツールチェーンのタイト化

ローカルファーストとオープンウェイトの勢いは続いています。@LangChainは2026年4月にAIチームの3分の1がオープンウェイトモデルを実行したと報告。これは9ヶ月前の5分の1から増加。@EpochAIResearchはオープンウェイトモデルが現在フロンティア専有モデルに約4ヶ月遅れていると推定。ツールチェーン側では、@ggerganovがllama.appを立ち上げ、llama.cppに公式ウェブサイト、統一インストーラ、単一のエントリポイントを提供し、ローカル展開とサードパーティエージェント統合を容易にしました。@ollamaはOpenJarvisをローカルファーストのパーソナルAIとして発表、Ollama経由で、Stanford/Hazyの「ワットあたりの知能」フレーミングに明示的に紐付け。

オープンインフラはよりエンタープライズ向けになっています。@ClementDelangueはHugging Face上のモデルとデータセットの約50%が現在プライベートであり、HFのストレージ/バケット提供とともに増加していると指摘。これはHFが公共OSSインフラのみであるという考えに対する重要な修正です。@abidlabsはHugging Face JobsがCPU/サーバーレスGPU CIのためのGitHubランナーを置き換えることを示しました。@DSPyOSS、@dbreunigらは、来る4.0に先立って再設計されたDSPyドキュメント/フロントページを出荷し、純粋なプロンプトではなくプログラム可能なAIシステムへのオンボーディングに焦点を当てました。

ライセンスと寛容性は戦略的なレバーになりつつあります。@kimmonismusはNVIDIAがその4つのオープンモデルファミリーをLinux Foundation OpenMDW-1.1に移し、ウェイト/コード/ドキュメント/データ間の法的断片化を削減したことを強調。新しい寛容なデータリリースも重要です。@keshigeyanはGPICを紹介、1億ペアの寛容な画像コーパスと100万ペアのベンチマークを視覚生成のために提供し、研究と商用利用を明確に許可。

Google/OpenAI製品サーフェスの拡大:マネージドエージェント、Gemini Spark/Omni、Windows上のCodex

Googleは「マネージドエージェント」スタックをAPIから消費者製品に拡大しています。@_philschmidはGemini APIのマネージドエージェントを示しました。単一のAPI呼び出しで、コード実行、ウェブアクセス、ファイルI/Oを備えたサンドボックスLinux環境をプロビジョニング。コンシューマー側では、@GeminiAppが米国のAI UltraサブスクライバーにGemini Sparkを展開。24時間365日のパーソナルエージェントで、指示の下でユーザーのデジタルエコシステム全体で動作可能。Googleはまた、Gemini Omniマルチモーダル生成/編集デモ(例、製品スレッド)をプッシュし続け、クリエイティブワークフローのためのGoogle Flow Agentをビデオ/映画制作で発表(スレッド)。

OpenAIのCodexは永続的なリモート開発オペレーターに近づいています。@OpenAIと@OpenAIDevsはWindowsでのコンピューター使用を追加、ChatGPTモバイルアプリからのリモート操作も含む。フォローアップのUX改善には、バックグラウンドエージェント用の安定した識別子と過去のチャットコンテンツの検索が含まれます(@OpenAIDevs)。@reach_vbはCodexのWindows制御、モバイルリモートアクセス、プロファイル/タスク統計に関するより広範なアップデートを要約。別途、OpenAIはgpt-5.5 instantを更新し、お世辞、事実性、多言語パフォーマンスを改善したと@michpokrassが報告。

これらはすべて、より垂直統合されたエージェントスタックを指しています:モデル + ハーネス + サンドボックス + UI + リモートコントロール + 価格設定/クォータ。GoogleはGeminiのクォータを平滑化(@joshwoodward)。OpenAIはCodexの操作面を拡大。Cursorはサブエージェントによる承認ルーティングを備えた自動レビューモードを追加(ツイート)。共通パターンは「チャットボット」よりも、ポリシーとメモリを備えたマネージド実行環境です。

注目の研究とシステム論文

検索、検索、メモリ:@TheTuringPostはハーバード/MITからの双方向進化探索(BES)を強調、前方探索と後方分解および進化オペレーターを組み合わせ。Llama-3.2-3B-InstructでMuSiQueの4.0%から7.0%への改善を報告。検索では、@_reachsumitはLatent Termsを指摘、疎なBM25準備済み特徴量がSAEを介して凍結密検索器から抽出可能であることを示す。@topk_ioはより効率的な遅延相互作用推論のためにIso-ModernColBERTをオープンソース化。

継続学習と信念/状態管理:@HuggingPapersはBeliefTrackを要約、最適化された信念状態管理が長距離推論の失敗を70%以上削減すると主張。@AndrewLampinenは継続学習の分野が干渉に過度に焦点を当て、ポジティブ転送を無視していると主張。@victor207755822は2番目のDeliAutoResearch SKILL論文を提示、自己反復と継続学習に焦点。

マルチモーダル/世界モデル/ロボティクス:NVIDIA関連の研究にはγ-World(24FPSでストリーミングする生成マルチエージェント世界モデル(ツイート))とminWM(リアルタイムインタラクティブビデオ世界モデルフレームワーク(ツイート))が含まれます。ロボティクスでは、@_akhaliqがQwen-VLAを共有、@inventorOliはRobostralの言語追従と操作の改善をデモ。常時オン能動的エージェント向けに、@dair_aiはLLMの起動決定を220MiBの時間グラフエンコーダーに置き換える研究を表面化、+16.7平均F1を獲得し、4~83倍高速に動作。

トップツイート(エンゲージメント順)

  • OpenAI / 生物学:@OpenAIがRosalind Biodefenseについて、公衆衛生と生物防衛のための信頼アクセス生物学ツールを発表。
  • Google / 消費者エージェント:@GeminiAppがSparkを米国のAI Ultraユーザーに展開、常時オンのパーソナルエージェント。
  • OpenAI / 開発ツール:@OpenAIがCodex Windowsサポートを、@OpenAIDevsがコンピューター使用をWindowsとモバイルリモート操作に拡大。
  • llama.cpp UXマイルストーン:@ggerganovがllama.appを立ち上げ、統一インストーラとCLIエントリポイントでローカルAIを実現。
  • HF / RL正確性:@ClementDelangueがツール使用マルチターンRLにおける「Token-In, Token-Out」警告を増幅。
  • オープン vs クローズドのタイミングギャップ:@EpochAIResearchがオープンウェイトモデルは現在フロンティアに約4ヶ月遅れていると推定。

AI Redditまとめ

/r/LocalLlama + /r/localLLMまとめ

  1. ローカルLLMパフォーマンス:MoEリリース、量子化、VRAM節約

StepFun 3.7 Flash(アクティビティ:637):StepFunはStep 3.7 Flashをリリース。マルチモーダルMoE、総パラメータ196B、アクティブ11B、内蔵1.8B ViT。高スループットエージェントワークフロー向けに最大400 TPSを宣伝、約128GB RAMでローカル実行可能と報告。報告されたベンチマークはフラッシュクラス/ローカルモデルとしては異常に強いと位置付け:SWE-Bench Pro 56.26%、DeepSearchQA F1 92.82%、HLE w/tools 47.2、さらにTerminal-Bench、Toolathlon、ClawEvalなどのエージェント/ツール使用タスクでStep 3.5 Flashからの大きなゲイン。直接モデルアーティファクトはHugging FaceでBF16、FP8、NVFP4、GGUF形式で利用可能、当日のllama.cppサポートPRと関連MTP作業あり。コメンテーターはこのモデルを技術的に奇妙と特徴付け:その隠れた思考トレースはほぼ無意味だが、最終回答は「完璧」でより大きな>1TBモデルと競合可能。あるユーザーは以前のStep 3.5「無限思考」問題が修正されたように見えると述べる。ローカル展開、特に4x3090クラスのハードウェアを持つユーザーには慎重な熱意があり、StepFunがフォークを維持する代わりにllama.cppサポートをアップストリームに統合したことを評価。

StepFunはHugging Faceに複数のStep-3.7-Flashチェックポイントをリリース:BF16(Step-3.7-Flash)、FP8(Step-3.7-Flash-FP8)、NVFP4(Step-3.7-Flash-NVFP4)、GGUF(Step-3.7-Flash-GGUF)。あるユーザーは以前のStep 3.5 Flashの「無限思考」問題が修正されたように見え、3.7はより使いやすくなったが、依然として奇妙な中間推論スタイルがあると報告。

StepFunのアップストリームPR(ggml-org/llama.cpp#23845)による当日のllama.cpp有効化があり、Step 3.5のフォークベースのサポートとは対照的。MTPサポートのための別のコミュニティPRが存在するが、コメンテーターはStep 3.7と現在のマスターに更新する必要があると指摘。

2x Pro 6k上のNVFP4チェックポイントを使用したvLLM夜間テストでは、64の同時浅いコンテキストリクエストで約2200 tok/sに達した。報告された設定はtensor-parallel-size 2、--enable-expert-parallel、--quantization modelopt、--kv-cache-dty……(AIコスト制御のため省略)