AI News HubLIVE
站内改写6 分で読了

【AINews】GLM > GPT?GLM-5.2 が雰囲気チェックを通過;Z.ai は12月までにオープンなFable級モデルを予測

GLM-5.2 が全員の雰囲気チェックを通過したことで、オープンモデルの物語はついに本物のフロンティアストーリーとなった。

ソースLatent Space

AIニュース業界では、オープンモデルについて語る際には常に少しの不安がつきまとう。彼らは派手に登場し、有名なベンチマークで華々しい結果を残すが、1か月も経てば存在すら忘れ去られる。言い換えれば、「ベンチマーク最大化」されていたのだ。私たち LS は、読者が覚えていないようなニュースを報じるのを嫌っている。

読者から好評を得ている AINews のポリシーの一つは、その日に特に何も起こらなかった場合にはそのまま率直に伝えることだ(見送り可能だと伝えるニュースレターは珍しい。その理由の一つは、私たちが視線獲得型のビジネスモデルを持っていないからだ)。同時に、私たちは逆のことも行うようになってきた。つまり、注目すべきトレンドを繰り返し取り上げることは、低シグナルをフィルタリングすることと同じくらい重要だ。

GLM 5 はその基準を満たしたが、GLM 5.1 は満たさなかった。2日前に報じた GLM 5.2 は少し異なって感じられ、その直感は本日確認された。複数のサンプル外データポイントが「たまたまオープンであるだけでフロンティアモデルだ」という雰囲気チェックを通過したのだ。Jeremy Howard は誇大広告を好まないが、心からの称賛を送った。Artificial Analysis の新しい知識作業ベンチマークでは GPT 5.5 よりも高い評価を得た。さらに、/r/LocalLlama コミュニティでも雰囲気チェックを通過した。

Z.ai が真のフロンティアラボとして正当性を得るというこの軌道は、今や深刻なトレンドとなっている。中国のオープンモデルが勝利する最終マイルストーンは、いつ蒸留攻撃の可能性なくオープンな Fable 級モデルを手に入れられるかというタイムラインである。Z.ai は Anthropic の2月の「産業規模の蒸留」報告で告発された中国のラボのリストから顕著に欠落していた。誰も答えられない厄介な質問は、トップ4ラボのいずれかが今後6か月以内に再び Fable 級モデルをリリースできるかどうか、あるいは進行中の Mythos 禁止令がすべてを凍結させたかどうかだ。

本記事は2026年6月17日から18日までの AI ニュースです。12のサブレディット、544の Twitter、そして Discord は確認していません。AINews のウェブサイトでは過去の全号を検索できます。注意:AINews は現在 Latent Space の一部門です。メールの頻度はオプトイン/アウトできます。

AI Twitter ダイジェスト

GLM-5.2 の躍進、オープンウェイトコーディングの進歩、新たなオープンモデル

GLM-5.2 はその日のコンセンサスとなったオープンモデルストーリーである。複数の実務者が独立して、智譜の GLM-5.2 が日常利用で初めてフロンティアに近いと感じさせるオープンウェイトモデルだと述べた。@rasbt はアーキテクチャの変更を強調した。以前の GLM/DeepSeek スタイルから継承した MLA と DSA に加え、GLM-5.2 は IndexShare を追加し、層グループ間でスパースアテンションの top-k インデックスを再利用することで、100万トークン推論のコストを削減する。コミュニティの感情は異常に強く、@jeremyphoward は自身のユースケースで「少なくとも Opus 4.8 や GPT 5.5 と同等」と評価しつつ、視覚サポートの欠如が大きなギャップだと指摘した。@matvelloso は自身の「日常のドライバー」基準をクリアした最初のオープンモデルだと述べた。@ArtificialAnlys は新しいエージェント的知識作業評価で GPT-5.5 と Opus 4.8 の間に位置づけた。智譜は積極的に可用性を押し広げており、Hugging Face Inference Providers を通じて期間限定で無料提供、llama.cpp/Unsloth によるローカル GGUF サポート、内部タスクでは GLM-5.1 比で 21/70 から 48/70 への向上を示した。

他のオープンモデルリリースも重要だった。@poolsideai が Laguna M.1 の重みを Apache 2.0 ライセンスでリリース、256K コンテキストをサポート。@vllm_project はこれを70層のスパース MoE、総パラメータ225B、活性23B、256エキスパート、top-k=16、長期エージェント的コーディング向けに最適化されたものと説明した。Poolside はその後、Apple Silicon 上での3ビット MLX ビルドを約26 tok/s、M3 Max 128GB マシンで約100GB ピークメモリでデモした。小規模モデル側では、@cohere が North Mini Code のアクセシビリティを向上させ、4ビット量子化、Ollama サポート、無料の OpenRouter アクセスを提供。@ollama はオープンなローカルデプロイメントのサポートを増幅した。

エージェントハーネス、ワークフロー自動化、コーディングツール

重心は「モデル」から「モデル+ハーネス+メモリ+SCM」へと移り続けている。@_xjdr は、従来の git/GitHub ワークフローが数十から数百の同時実行コードエージェントで破綻する詳細な議論を発表した。古いワークツリー、分岐したレビュー状態、環境設定のオーバーヘッド、状態同期の貧弱さなどが問題だ。提案された代替スタックは、仮想浅いチェックアウト、jj、Sapling 風のコミットスタック、クラウド同期、ファイルレベル ACL、モデルから SCM からリモートランタイムへの垂直統合を組み合わせ、現在 Noumena Code / ncode として製品化されている。同様に、@gneubig はベンチマークは単独ではなくハーネス+LLM ペアを評価すべきだと主張。

自動化プリミティブはより教えやすく再利用可能になっている。@OpenAIDevs は Codex Record & Replay を導入、ユーザーが一度ワークフローをデモするだけで検査可能なスキルに変換できる。@cursor_ai は /automate をローンチ、Cursor が自然言語タスクからトリガー/指示/ツールを設定し、Slack 絵文字トリガー、GitHub トリガー、クラウドエージェントのコンピュータ使用を追加。@ClaudeDevs は Claude Code に Artifacts を搭載、エージェントが進行中の作業を共有可能なライブページに変換できる。

セキュリティとレビューはエージェントの第一級タスクになりつつある。@cognition は Devin Review に自動セキュリティレビューを追加。@shayanshafii は Devin for Security を AppSec の「発見と修正」の分裂に対処するものと位置づけ、エージェント的推論とハーネスを利用して低重要度の所見を連鎖させて深刻な悪用を確認する。

ベンチマーク、評価、長期エージェント計測

Artificial Analysis はより現実的なエージェント的知識作業ベンチマークを開始した。@ArtificialAnlys は AA-Briefcase を導入、複数週間のプロジェクト、数千の断片化された入力、Slack/メール/ドキュメントコーパス、財務モデルや取締役会資料などの成果物に基づく。このベンチマークで、Claude Fable 5 が 1587 Elo でリード、Opus 4.8 が 1356、GLM-5.2 が 1266 で最も強い非 Anthropic オープン系エントリーとなった。重要なのは、ベンチマークが品質と経済性の両方を露呈したことだ。Fable 5 はタスクあたり平均 31 ドル、Opus 4.8 は 10.40 ドル、GPT-5.5 xhigh は 3.68 ドル、GLM-5.2 は 2.40 ドル。弱い選択肢は桁違いに安い。より広範な教訓は、現実世界の長期知識作業は依然として困難であり、トップモデルでも全ルーブリック基準を満たしたのはタスクのわずか 3% だったことだ。

推論、検索、システム効率

推論と検索の最適化は強いサブテーマのままだった。@liquidai は LFM2.5-Embedding-350M と LFM2.5-ColBERT-350M をリリース、11言語をカバーする多言語検索モデルで、エンタープライズスタック上でエンドツーエンド 1.5 ミリ秒の検索レイテンシを主張。@CoreWeave は Kimi K2.7 Code のサービスで 289 tok/s を主張。@vllm_project は Ray Serve LLM + vLLM の改善を報告、プリフィル負荷で最大 4.4 倍、デコード負荷で最大 24 倍のスループット向上。ベクトル DB/パースの経済性は大幅に改善、@turbopuffer は基本プランを月額64ドルから16ドルに引き下げ、i8 ベクトルを追加。文書面では @llama_index と @jerryjliu0 が LiteParse v2.1 を出荷、最も高速なオープンなモデルフリー PDF/ドキュメント→マークダウンパイプラインと主張。

健康、医学、安全性/アライメント研究

OpenAI は特に健康関連のニュースが多かった。@OpenAI はボストン小児病院/ハーバードとの NEJM AI 研究を共有、o3 Deep Research が医師の未解決の小児希少疾患症例の再検討を支援したと報告。@gdb は376の未解決症例から18の新たな診断を発見したと要約。別途、@OpenAI は GPT-5.5 Instant が健康関連の質問でフロンティアの「思考」モデルと同等になったと述べ、60か国、49言語、26専門分野の数百人の医師からのフィードバックを基にしている。OpenAI はまた、より広範なアライメント研究を発表。健康ドメインの会話で RL を用いて真実性、謙虚さ、人間福祉への関心などの特性を訓練する研究で、44/53 の内部/外部アライメントとベネフィット評価が改善し、健康のみの有益特性訓練でも非健康アライメント評価の 17/19 が改善した。これは初期段階だが、「一般化された有益な行動」を運用化する試みとして注目される。

Reddit ダイジェスト:/r/LocalLlama + /r/localLLM

GLM-5.2 のローカルアクセスと量子化:この投稿は、GLM-5.2 は 753B 総パラメータ MoE(トークンあたり約40B活性)であるにもかかわらず、MIT ライセンス、28.5T トークンの事前学習規模、100万コンテキスト/13万1000出力のサポート、フロンティアレベルのコーディングエージェント行動により、高品質な合成データ蒸留を 8B/70B ローカルモデルに可能にするため、ローカル AI にとって重要だと主張。著者は推論メモリを FP8 で約744–890GB、動的1ビット量子化で約176–180GB、KV キャッシュオーバーヘッドを100kトークンあたり FP16/BF16 で15–20GB、8ビットで7.5–10GB、4ビットで3.5–5GBと推定。コメントでは、GLM-5.2 と MiniMax/Mimi モデルがほぼプロプライエタリなフロンティアモデルとのギャップを埋め、Opus 4.8 よりも信頼できるとの声がある。一方、512GB Mac、GB10 クラスタ、複数の128GB AMD AI Max システムを持つユーザーでなければ実行困難であり、ハードウェア要件が「入手困難」であるため、蒸留版や70B 密モデルへの関心が高まっている。