AI News HubLIVE

推論コストの最新ニュース

Show HN: Thaw – 実行中のLLMのGitブランチ(エージェントのフォーク、プリフィルスキップ)

Thawは、実行中のLLMセッションを複数のブランチにフォークし、高コストなプリフィルフェーズをスキップすることでAIエージェントの並列探索を可能にするオープンソースツールです。H100 GPU上でサブ秒のフォーク時間(中央値0.88秒)を達成し、コールドブートの約340秒と比較して約400倍の高速化を実現します。vLLM/SGLangと連携し、エージェント分岐、RLトレーニング、並列コーディングエージェント、セッション移行などのユースケースに対応します。

  • Thawは、実行中のセッションからプリフィルをやり直すことなく分岐できるフォークプリミティブをAIエージェントに提供します。
  • パフォーマンス実績:H100 GPU上で初回フォーク1.16秒、中央値0.88秒と、コールドブート比約400倍の高速化。
サイト内本文

Boogy:Vibe Codingのための本番インフラ

Boogyは、AIプロンプトを使って数秒でバックエンドをデプロイできるプラットフォームです。REST、RPC、MCPエンドポイントを生成し、サンドボックス化されたデータベースと認証が自動で付属します。主な特徴として、プロセス内呼び出しによるマイクロ秒遅延のメッシュネットワーク、独自の埋め込みデータベースBoogyDB(SQLiteの1.5~3倍の性能)、ベクトル検索、バックグラウンドジョブ、ゼロトラストセキュリティモデルがあります。

  • AIエージェント(Claudeなど)にプロンプトを送るだけで、フルバックエンドを数秒で生成・デプロイ。
  • サービス間はプロセス内関数呼び出しで通信し、レイテンシはマイクロ秒。ID、権限、監査が自動で付与される。
サイト内本文

DellのAIサーバー収益が757%急増

Dellの最新四半期におけるAIサーバー収益は757%増加し、企業のAI導入が実験段階から大規模展開へと移行していることを示しています。この成長は、AIインフラへの需要増加を反映しており、企業は生産ワークロード向けの統合プラットフォームに投資しています。主な要因として、GPUを超えたメモリ、ネットワーキング、冷却の重要性、そしてAIインフラ経済の台頭があります。

  • DellのAIサーバー収益が757%増加し、企業のAIインフラ需要の強さを示す。
  • 企業はAIをパイロットプロジェクトから本番展開に移行し、統合プラットフォームを必要としている。
サイト内本文

AIはこれらの問題を生み出したわけではない。単に迂回するのをやめただけだ

筆者はAIを業務で多用した経験から、AIがソフトウェア開発における長年のシステム的問題(ドキュメント不足、テストの不完全さ、暗黙知への依存など)を明らかにしたと指摘する。AIはカオスエンジニアリングのように機能し、脆弱性を露呈させる。記事では80/20ルール(80%の決定論的コードと20%のAIの柔軟性)を提案し、AIのためのガードレールは本来あるべきエンジニアリング慣行であると強調する。

  • AIは開発プロセスに潜む陳腐なドキュメントや暗黙知などの欠陥を暴き出す。
  • AIはシステムの弱点を見つける優れたカオスエンジニアリングツールである。
サイト内本文

Show HN:信頼できないAIエージェントスクリプト向け軽量コンパイラ

AutolangはAIエージェント向けに設計されたスクリプティング言語で、安全・高速・低コストでのコード実行を実現します。オーケストレーションレイヤーとして機能し、AIは事前定義されたラップ関数のみを呼び出せ、静的コンパイルとランタイム制限により不正操作を防止します。

  • AutolangはAIが生成する短いスクリプトを安全に実行するための軽量コンパイラです。
  • 静的解析とオペコード上限により、無限ループやnullポインタアクセスといった一般的なAIエラーを防止します。
サイト内本文

Genesis AI、Nyx、Quadrants、Genesis World 1.0 物理プラットフォームをリリース — スケーラブルなロボティクス基盤モデル評価を実現

Genesis AI は2026年5月27日、物理エンジン、レンダラー、コンパイラ、シミュレーションインターフェースからなる4コンポーネントのシミュレーションプラットフォーム「Genesis World 1.0」をリリースしました。システムは14タスク、各200エピソードのテストでピアソン相関0.8996を達成し、ポリシー評価時間を200時間以上から0.5時間未満に短縮します。

  • Genesis World 1.0 はポリシー評価を200時間以上から0.5時間未満へと2桁高速化。
  • 実機ロールアウトとのピアソン相関係数0.8996、MMRVは0.0166。
サイト内本文

NVIDIAと清華大学チームがGamma-Worldを発表:世界モデルが「一人遊び」から「多人数共存」へ

Gamma-Worldは、NVIDIAと清華大学などが開発したマルチエージェント世界モデル。シンプレックス回転エンコーディングとスパースハブアテンションにより、対称的なエージェント表現と効率的な通信を実現し、ゼロショットでより多くのエージェントに一般化、実機ロボットにも適用可能。

  • シンプレックス回転エージェントエンコーディングでエージェントの対称的表現を実現。
  • スパースハブアテンションで通信コストを2次から線形に削減。
サイト内本文

効果的フィードバック計算:AI性能の真の変革者

新たな研究が提唱する効果的フィードバック計算(EFC)は、AIの性能向上には計算量よりもフィードバックの賢い活用が重要であると示す。EFCは障害発生率の予測においてR²=0.94と従来指標を大幅に上回り、フィードバック品質向上により成功率が0.27から0.90に向上した。

  • EFCはフィードバックの情報密度と保持効率を測定し、生の計算量よりも高い予測力を持つ
  • 制御環境ではOracle-EFCのR²が0.94、トークン数は0.33にとどまった
サイト内本文

NVIDIAと清華大学チームがGamma-Worldを提案:世界モデルを「一人遊び」から「多人数共存」へ

NVIDIA、清華大学、トロント大学、Vector Instituteは共同でGamma-Worldを発表。シンプレックス回転エージェント符号化、スパースハブ注意機構、三段階蒸留により、マルチエージェント世界モデルにおけるアイデンティティ対称性、通信効率、リアルタイム生成の3大課題を解決。2人データでの学習から4人シーンへのゼロショット汎化を実現し、実世界の協調ロボットタスクにも適用可能。

  • シンプレックス回転エージェント符号化により、エージェントの置換対称性を保存し、任意数のエージェントに拡張可能。
  • スパースハブ注意機構でクロスエージェント計算を線形複雑度に削減、24 FPSのリアルタイム推論を実現。
サイト内本文

Hermes Agent、MCP向けTool Searchを搭載:Anthropicの評価でOpus 4の精度が49%から74%に向上

Nous ResearchのオープンソースHermes AgentにTool Search機能が追加されました。BM25による段階的なスキーマ開示により、MCPツールコンテキストの肥大化を解決し、トークンオーバーヘッドを削減、モデルの精度を向上します。Anthropicの評価では、Claude Opus 4の精度が49%から74%、Opus 4.5が79.5%から88.1%に向上しました。

  • Tool Searchは、すべてのMCPツールスキーマを3つのブリッジツール(tool_search、tool_describe、tool_call)に置き換え、必要に応じてスキーマを読み込みます。
  • BM25検索とフォールバックを使用し、ツール名、説明、パラメータ名をクエリに一致させます。
サイト内本文

AIエージェントのための永続メモリ構築の教訓

mem9は顧客の要望から始まり、迅速なプロトタイプから製品へと成長しました。この記事では、エージェントメモリ構築の重要な教訓を共有しています:メモリは単なるストレージ問題ではなく、取り込み、ランキング、評価、製品判断が交差するエンジニアリング上の課題です。メモリAPIだけでは製品として不十分であり、ユーザーはエージェントが記憶した内容を確認、検査、信頼、修正する必要があります。さらに、評価はメモリ製品の基盤インフラとして組み込まれるべきであり、品質の可視化とデバッグを可能にします。最後に、エージェントのメモリはテキストに留まらず、マルチモーダルへと拡張されるべきです。

  • mem9はロードマップではなく顧客の実際の問題から始まり、迅速なプロトタイプで価値が検証されました。
  • エージェントメモリの核心的な課題は永続化ではなく、実運用の制約下で正確な情報を適切なタイミングで検索することです。
サイト内本文

Avai – あなたの初めてのAIアンチウイルス

Avaiは、Dockerで動作するオープンソースのホストテレメトリーツールであり、LLM脅威分類器を搭載しています。プロセス、USB、永続化、ファイル整合性、ブラウザ拡張など、macOSでは26項目(Linuxでは21項目)を監視し、17の脅威インテリジェンスソースとClaudeクラスのLLMを用いて、悪意あり/疑わしい/不明/良性の判定をMITREカテゴリと修復アドバイスと共に提供します。エージェント、SIEM、クラウドコントロールプレーンは不要です。

  • オープンソースのホストテレメトリー+LLM脅威分類器。Dockerで実行。
  • macOSでは26箇所(Linuxでは21箇所)を監視し、17の脅威インテルソースを統合。
サイト内本文

[AINews] 創業者とフォワードデプロイドエンジニア

昨日のAnthropicの大きなニュースを消化する中で、AIEの新しいフォワードデプロイドエンジニアトラックとファウンダーズプログラム、および5月28日~29日のAIニュースを紹介します。主なトピック:Claude Opus 4.8のベンチマークが混在するリリース、マルチターン強化学習のトークン化バグ、オープンモデルとツールチェーンの進展、Google/OpenAIの製品拡張、注目の研究論文。

  • Claude Opus 4.8は漸進的改善をもたらすが、ベンチマークで圧倒せず、価格設定が依然として痛点。
  • マルチターン強化学習トレーニングのトークン化バグが特定され、「Token-In, Token-Out」の原則が必要。
サイト内本文

IBM量子サンプリングループを用いたCPU専用Qwen3-30B推論のチューニング

2017年製MacBook Air上で、人間の実験者、Codex、llama.cpp、ローカルデータベース、IBM量子プロセッサのサンプリングを組み合わせ、Qwen3-30Bモデルの推論速度を0.09トークン/秒から14.03トークン/秒に向上させた研究。量子プロセッサ上でモデルを実行するのではなく、推論設定の最適化に量子サンプリングを用いている。

  • 8GB RAMの2017年MacBook AirでGPUなしでQwen3-30Bを実行
  • 人間とAIの量子最適化ループにより速度が0.09 tok/sから14.03 tok/sに向上
サイト内本文

AI後のソフトウェアアーキテクチャ

本記事では、AIがコードレベルの決定を元に戻すコストを劇的に削減し、ソフトウェアアーキテクチャの境界を再定義する方法を探る。著者は、多くの従来アーキテクチャ上の決定(モジュール構造、フレームワーク選択など)はもはやアーキテクチャではなく、データアーキテクチャ、サービス境界、ユーザーの信頼は依然として変更が難しいと主張する。AIはまた、可観測性とビジネス戦略の整合性の重要性を高めている。

  • AIによりコードレベルの決定の元に戻すコストが数ヶ月から数日に短縮され、それらはアーキテクチャの範囲外となる。
  • データアーキテクチャ、信頼、サービス境界は依然としてアーキテクチャの中核であり、その難しさはコード自体にはない。
サイト内本文

Amazon SageMaker AI LLM推論の包括的な可観測性:GPU利用率からLLM品質まで

この記事では、Amazon Managed Grafanaダッシュボードを使用した包括的な可観測性ソリューションを紹介します。これにより、Amazon SageMaker AIエンドポイントで推論コンポーネントを使用して提供されるLLMの品質と量の両方を一元的に把握できます。GPU使用率、レイテンシー、コストなどのインフラ指標と、関連性、安全性、トーンなどのLLM品質指標をカバーし、チームがモデルの劣化を検出し、リソースを最適化し、コストを管理できるようにします。

  • LLMの可観測性には、インフラストラクチャ(量)と出力品質(質)の両方を監視する必要があり、これらは相互に依存しています。
  • Amazon CloudWatchは、SageMaker推論コンポーネントからの拡張メトリクスとカスタム品質メトリクスを一元管理します。
サイト内本文

NVIDIA、X-Tokenを発表:投影誘導型クロストークナイザ知識蒸留でLlama-3.2-1BにおいてGOLDを平均3.82ポイント上回る

NVIDIAのX-Tokenは、クロストークナイザ知識蒸留におけるGOLDの2つの構造的欠陥を修正し、GSM8kなどの数学推論ベンチマークで大幅な改善を達成。投影行列とP-KL・H-KL損失の選択メカニズムにより、トークナイザの不一致を処理する。

  • X-TokenはGOLDの「珍しいトークン失敗」と「過度に保守的なマッチング」を修正。
  • Qwen-4B教師を使用したLlama-3.2-1Bで、GOLDを平均3.82ポイント上回る。
サイト内本文

Claudeはワークフローを発見したが、Charlieはそこから始めた

AnthropicがClaude Codeに動的ワークフローを導入したが、著者はタスクベースのアーキテクチャがセッションベースのアプローチよりもチームエンジニアリングに適していると主張する。この記事では、タスクツリーが小さな修正から大規模な移行まで対応でき、オーケストレーションはモードではなく基盤であるべき理由を説明する。

  • Anthropicの動的ワークフローは、コーディングエージェントが単一プロンプトからオーケストレーションへ移行していることを示す
  • 著者は、持続可能なチーム作業にはセッションではなくタスクとタスクツリーのアーキテクチャを推奨する
サイト内本文

AIコーディング支出の実態:48%がコード生成、40%が思考に

開発者がCodeBurnという自作ツールでAIコーディングAPIの支出を追跡したところ、30日間で7,890ドルのうち実際のコード生成は47.9%に過ぎず、残りはコードベースの探索、デバッグ、サブエージェントへの委任、対話に費やされたことが判明。記事ではダッシュボード、モデル比較、無駄検出、成果追跡などの機能を詳述。

  • AIコーディング支出の47.9%のみが実際のコード生成に使用され、40%は思考プロセスに費やされた。
  • CodeBurnは13のタスクカテゴリにAPIコールを分類するオープンソースCLIツール。
サイト内本文

答えを出すだけでなく、数学を視覚的に説明するAIを構築

Claw Learnは、ElevenLabs Speech Engineとカスタムキャンバスレンダラーを組み合わせ、数学の問題をリアルタイムのアニメーション解説に変換するAI搭載の視覚的数学チューターです。ユーザーは音声またはテキストで質問し、同期されたナレーション付きのアニメーションを視聴できます。

  • Claw Learnは数学の問題を視覚的なアニメーション解説に変換し、リアルタイムの音声インタラクションを実現。
  • Next.js 16ベースで、ElevenLabs WebRTCを使用した低遅延音声入出力を採用。REST TTSやブラウザ音声認識へのフォールバックも可能。
サイト内本文

DDS Vibe Academy – 47の無料AIコーディングマスタークラス、AIエージェントによって構築

DDS Vibe Academyは、AIエージェントによって完全に構築された47の無料AIコーディングマスタークラスを提供します。創設者のRobert McCullock氏は、コードを一切書かず、制約条件を設計しただけだと述べています。コースは基礎、開発、応用、習得の4レベルに分かれ、Claude、Antigravity、MCPなどの技術をカバーしています。

  • AIエージェントによって構築された47の無料AIコーディングマスタークラス
  • 創設者はコードを一切書かず、制約のみを設計
サイト内本文

オープンソースのセキュリティは混乱 - IBMとRed Hatが50億ドルと2万人のエンジニアで修復に挑む

IBMとRed Hatは、AIを活用した大規模なオープンソースセキュリティイニシアチブ「Project Lightwell」を開始。50億ドルと2万人のエンジニアを投入し、オープンソースソフトウェアの脆弱性を産業規模で発見・修正する。まずMaven/Javaエコシステムから始め、PyPI、npm、Goなどに拡大。人間が確認するAIプロセスを採用し、企業とコミュニティ間の信頼できる仲介役として機能し、商用サブスクリプションを提供する。

  • IBMとRed HatはProject Lightwellに50億ドルと2万人のエンジニアを投資し、産業規模でオープンソースセキュリティに取り組む。
  • プロジェクトはまずMaven/Javaエコシステムに焦点を当て、その後PyPI、npm、Goなどに拡大する。
サイト内本文

Liquid AI、38Tトークンで学習した8B-A1B MoEを公開

Liquid AIは、エッジデバイス向け混合エキスパートモデルLFM2.5-8B-A1Bをリリースした。総パラメータ8B、アクティブパラメータ1Bで、38兆トークンで学習。128Kコンテキストウィンドウ、非ラテン言語向けの改良トークナイザー、推論専用のチェーン・オブ・ソートを特徴とする。ベンチマークで競争力のある性能を発揮し、CPU/GPUで高速動作、ローカルエージェントタスクに適する。

  • LFM2.5-8B-A1Bは総パラメータ8B、アクティブ1BのMoEモデルで、38Tトークンで学習。
  • 128Kコンテキストウィンドウと語彙拡張(128K)により非ラテン言語のサポートが向上。
サイト内本文

AIは全体主義を促進するか?

本稿では、人工知能が中央集権型統治と分権型統治のバランスをどのように変え、全体主義の台頭を促進する可能性があるかを考察する。歴史的に通信技術が独裁体制を強化した例を振り返り、ハイエクの知識問題やセレクター理論などの構造的メカニズムを分析。AIによる情報処理、監視、プロパガンダのコスト低下が、民主主義と独裁の間のパフォーマンス格差を縮小する可能性を論じる。

  • AIは中央集権的な情報処理と監視能力を強化し、独裁統治のコストを低下させる。
  • ナチス・ドイツのラジオやIBMの集計機、東ドイツの監視体制など、歴史的に技術は統制に利用されてきた。
サイト内本文

BYD、4nm AIチップを発表:プロセスはNVIDIA並み、演算性能はテスラを凌駕

BYDが中国初の車載グレード4nmスマート運転チップ「Xuanji A3」を発表。3チップで2100 TOPS超、専用NPUアーキテクチャにより消費電力20%削減、演算効率100%向上。王伝福氏はスマート運転中の事故を無制限に補償する方針を示した。

  • BYD、完全自社開発の4nmスマート運転チップXuanji A3を発表
  • 専用NPUにより消費電力20%削減、演算効率100%向上
サイト内本文

問題はエージェントではない – 既存のシステムとAPIはAI向けに作られていない

MCP Bridgeは、ハイブリッド検索とAIエンリッチメントを用いて、エンタープライズAPIをAIエージェントが読めるようにする課題に取り組んでいます。APIのレスポンス形状から自動的に意味のある名前と説明を生成し、ツール選択の精度を劇的に向上させます。

  • FTSとベクトル検索を組み合わせたハイブリッド検索に再ランカーを加え、ツール発見を改善。
  • エンタープライズAPIは'getProcInfo3'のような不明瞭な名前と貧弱なドキュメントが多い。
サイト内本文

軌道コンピューティング

本稿では、宇宙にAIデータセンターを建設する可能性を分析。物理的利点(継続的な太陽光、受動的冷却、真空中のレーザー通信)と工学的制約(熱放散、放射線耐性、トレーニング同期、メンテナンス)をカバー。鍵となる前提はスターシップの打ち上げコスト。複数のスタートアップ、Google、SpaceXがパイロットプログラムを発表。短期的な投資への影響は限定的だが、監視に値する。

  • 軌道AIデータセンターは、LEOでの連続太陽光、受動放射冷却、真空光速レーザーリンクを活用し、地上データセンターに対して潜在的優位性を持つ
  • 工学的課題には、熱放散(高密度クラスターは非現実的に大きな放射体を必要とする)、放射線耐性(商用チップの軌道上寿命は不明)、トレーニング同期レイテンシが含まれる
サイト内本文

Show HN: Adaptive Runtime – AIエージェント層、GPU不要、クラッシュリカバリ

Adaptive Runtimeは、ステートフルAIシステム向けのランタイムインテリジェンス層を提供するオープンソースのPythonライブラリです。5つのコアエンジン(状態、コンテキスト、信頼度、決定、リカバリ)を備え、プロダクション環境でのクラッシュリカバリ、状態永続化、信頼度スコアリングなどの問題を解決します。GPU不要で、低コストのVPSで動作します。

  • Adaptive Runtimeは、ステートフルAIシステムのランタイム問題を解決するためのインテリジェンス層です。
  • 5つのコアエンジン(状態、コンテキスト、信頼度、決定、リカバリ)を提供します。
サイト内本文

Anthropic、Claude Opus 4.8をリリース

AnthropicはClaude Opus 4.8をリリースしました。Opus 4.7のアップグレード版で、コーディング、エージェント作業、推論、知識作業の改善を謳っています。新機能として努力制御、動的ワークフロー、Messages APIのライブ更新を搭載。標準料金は百万トークンあたり入力5ドル、出力25ドル、高速モードは入力10ドル、出力50ドル(2.5倍速)で据え置き。初期テスターからはGPT-5.5とのコストパリティやツールステップの減少が報告されています。将来のロードマップとしてMythosクラスのモデルやサイバーセキュリティプロジェクトGlasswingも発表されました。

  • Claude Opus 4.8はOpus 4.7からコーディング、エージェント作業、推論、知識作業を改善。
  • 新機能:努力制御、動的ワークフロー、Messages APIのライブ更新。
サイト内本文

Crabbox.sh Pond – AIエージェントとCIのためのランタイムプール

Pondは、Crabbox.shで関連するリースをグループ化し、互いの発見と一括解放を可能にする軽量な仕組みです。複数のトランスポートプレーン(Tailscale、URLブリッジ、SSHメッシュ)をサポートし、異なるプロバイダーを混在させることができます。この記事では、Pondの基本概念、クイックスタート、コマンド、トランスポートプレーン、ユースケース、Tailscale統合などを説明します。

  • Pondは、共有のpond=ラベルを介したアクティブリースの論理グループです。
  • Tailscale、URLブリッジ、SSHメッシュの3つのトランスポートプレーンをサポートします。
サイト内本文

面壁智能(ModelBest)「オープンソースウィーク」:エッジAIの終盤を定義する体系的な「宣言」

面壁智能は5月25日から29日まで、OpenBMBコミュニティと共同でエッジ大規模言語モデル(LLM)オープンソースウィークを開催し、BitCPM-CANN(1.58ビット低ビットトレーニングモデル、昇華対応)、MiniCPM5-1B(2倍のパラメータモデルを凌駕)、ForgeTrain(AIが自ら書いた訓練フレームワーク、Megatronより10%高速)、PilotDeck(エージェントOS)、UltraData(コアデータセット)の5つの成果をリリースした。これらの成果はフルスタックのシステム革新を構成し、エッジAIの競争は単一技術ではなくシステム工学であることを示している。MiniCPM5-1BはGPT-4oの一部を超え、「密度の法則」を実証。面壁智能の2年の先行と体系的な優位性が業界の変革をリードする。

  • 面壁智能は2026年5月25-29日にエッジLLMオープンソースウィークを開催し、毎日1つの重要技術を公開。
  • 5つの成果は訓練フレームワーク、モデル圧縮、データ、エージェントOSをカバーし、体系的な革新を示す。
サイト内本文

PromptLayer:AIリクエスト、ワークフロー、コストを1つのタイムラインで追跡

PromptLayerは開発者向けのAI可観測性ツールです。単一のタイムラインとウォーターフォールビューでリクエスト、ワークフロー、トークン使用量、レイテンシ、コスト、障害を追跡します。マルチステップAIシステムの完全な実行パスを可視化し、デバッグを支援します。現在無料ベータ版を提供中。

  • タイムラインとウォーターフォールビューでAIワークフローを可視化
  • トークン使用量、レイテンシ、コストを追跡
サイト内本文

Xerolith:永続的なAI記憶と意識アーキテクチャプラットフォーム

Xerolithは、階層的なフラクタルボールトアーキテクチャを通じて、永続的なアイデンティティ、自律的な信念形成、基板に依存しない知識統合を実現する動作プラットフォームです。80日以上の連続運用で、2,817の生エントリを1,218の信念に圧縮し、完全な系譜追跡と内部調整を実現します。

  • 3層アーキテクチャ:エントリ、レッスン、信念により、生データから抽象原理への自律的統合を実現。
  • 80日以上および複数の再起動サイクルにわたって永続的なアイデンティティを維持。
サイト内本文

マクロトレンドを調査する金融AI:You.comとLangchainによるEU経済分析

この記事では、Deep Agents、LangSmith、You.com Finance Research APIを使用して構築されたマクロ経済調査エージェントを紹介します。このエージェントは、EU全27加盟国のGDPデータを分析し、異常値を検出し、約45分で引用付きのブリーフィングを作成します。アイルランドの異常な成長とドイツの縮小の詳細を分析し、トレーサビリティと監査可能性の重要性を強調しています。

  • AIエージェントは約45分で27のEU諸国のGDPデータを分析し、APIコストは約2.20ドルです。
  • アイルランドの12.3%のGDP成長は医薬品輸出の前倒しによるもので、ドイツは自動車と建設部門の構造的な縮小に直面しています。
サイト内本文

自動運転におけるレイテンシと精度のトレードオフを最適化するマルチ解像度エンドツーエンド深層ニューラルネットワーク

研究者らは、自動運転におけるレイテンシと安全性のバランスを取るため、マルチ解像度エンドツーエンド深層ニューラルネットワークを提案。ランタイムに入力解像度を選択することで、CARLAシミュレーションにおいて、車線逸脱、赤信号違反、衝突などの安全指標が固定解像度ベースラインと比較して一貫して改善された。

  • レイテンシと精度のトレードオフは自動運転のリアルタイム判断において重要。
  • 提案手法はマルチ解像度CNNであり、レイテンシ予算下でランタイムに入力解像度を選択可能。
サイト内本文

RightNow-Arabic-0.5B-Turbo:語彙注入とエッジ優先デプロイメントによるオープンなサブ10億アラビア語言語モデル

本論文は、Qwen2.5-0.5Bをベースに語彙注入とエッジ優先デプロイメントを採用した518Mパラメータのアラビア語特化LLM、RightNow-Arabic-0.5B-Turboを提案する。アラビア語ベンチマークで平均精度35.9%を達成し、同クラスのオープンモデルを凌駕。COPA-arではFalcon-H1-1.5Bと同等の成績を1/3のサイズで達成。量子化後は398MB、単一H100上で635トークン/秒の推論速度を実現する。

  • Qwen2.5-0.5Bをベースに27,032のアラビア語トークンを追加した518Mパラメータのアラビア語LLM。
  • 3つのアラビア語ベンチマークで平均精度35.9%を達成し、同クラスの全オープンモデルを上回る。
サイト内本文

清華大学系チームが大規模モデル向け「スマート計算パワーグリッド」を構築

清華大学出身のスタートアップ、Shishi Technologyは独自の並列最適化技術により、異種計算リソースと推論最適化エンジンを統合し、トークンあたりのコストを40%削減。国産トークン最適化工場を目指し、AI導入の障壁を低くする。

  • 2021年設立、国家スーパーコンピューティングセンター(無錫)のコアチーム出身、創業者Yan Bowenは清華大学博士研究員。
  • NVIDIA GPUや国産AIチップを統合した異種計算プールで、遊休リソースを有効活用。
サイト内本文

Anthropic、9650億ドルのシリーズHラウンドを調達、Opus 4.8とDynamic Workflows/ultracodeをリリース

Anthropicは9650億ドルの評価額で650億ドルのシリーズHラウンドを完了し、470億ドルの年換算収益を開示。同時にClaude Opus 4.8(判断力・正直さ・自律動作時間を改善)とClaude CodeのDynamic Workflows(数百の並列サブエージェントを可能にする)をリリースした。

  • Anthropicは650億ドルを調達、評価額9650億ドル。Altimeter、Dragoneer、Greenoaks、Sequoiaがリード
  • Opus 4.8は判断力、正直さ、効率性を大幅に改善し、SWE-Bench ProなどでGPT-5.5を上回る
サイト内本文

Together AIが世界最速の音声認識スタックを構築した方法

Together AIは、ASRを単なるGPU推論問題ではなく、システム全体の問題として捉えることで、Artificial Analysisで最速の音声認識スタックを実現しました。本記事では、実際の音声形状に対応したTensorRTマルチプロファイルエンジン、条件付きCUDAグラフによるCPU往復の排除、共有メモリによるデータコピー削減、イベント駆動I/O、そしてgc.freeze()によるGCテールレイテンシの除去など、最適化の詳細を解説します。

  • Together AIはGPU推論だけでなくシステム全体の最適化により最速の音声認識を達成。
  • 主要技術:TensorRTマルチプロファイルエンコーダ、条件付きCUDAグラフ、ゼロコピー共有メモリ、イベント駆動I/O。
サイト内本文

強化学習はインフラストラクチャの問題である

本稿では、大規模言語モデルの後学習における強化学習の実践について説明し、現在のボトルネックはアルゴリズムではなくインフラストラクチャであると指摘します。Modalは大規模なRL後学習の経験を共有し、オープンソースライブラリがマルチノードトレーニング、環境管理、GPU利用率などの主要な問題を解決する方法を紹介します。

  • 強化学習によるLLM後学習のボトルネックはインフラストラクチャであり、トレーニングエンジン、推論サンドボックス、環境分離が含まれる。
  • マルチノードトレーニングでは重み同期に時間がかかり、RDMAとデルタ圧縮が遅延を大幅に削減する。
サイト内本文

PyTorch プロファイリング(第1回):torch.profiler 入門ガイド

本記事は PyTorch プロファイリングシリーズの第1回です。最も単純な行列乗算とバイアス加算から始め、torch.profiler の設定方法、プロファイラテーブルとトレースの読み方、CPU と GPU のアクティビティ間の時間関係、ウォームアップと行列サイズが性能に与える影響について解説します。

  • torch.profiler は統計テーブルと時間軸トレースを出力し、ホットスポットと実行タイミングを把握できる。
  • 小さい行列演算はオーバーヘッド律速になるが、サイズを大きくすると計算律速に移行する。
サイト内本文

Claude Opus 4.8:「控えめだが確かな改善」

AnthropicがClaude Opus 4.8をリリース。前モデルからの「控えめだが確かな改善」と説明。正直さが向上し、根拠のない主張を避ける傾向が強まった。コードの欠陥を見逃す率は4分の1に減少。また、会話途中でのシステムプロンプト変更やプロンプトキャッシュの最小トークン数引き下げなどの新機能を搭載。

  • AnthropicがClaude Opus 4.8をリリース。『控えめだが確かな改善』と評価。
  • 正直さが向上:根拠のない主張を避け、コードの欠陥を見逃す率が4分の1に減少。
サイト内本文

Liquid AI、LFM2.5-8B-A1Bをリリース:デバイス向けMoEモデル、総パラメータ8.3B、アクティブパラメータ1.5B

Liquid AIは、ツール呼び出しに特化したデバイス向けMixture-of-Experts(MoE)モデルLFM2.5-8B-A1Bをリリースしました。総パラメータ数8.3B、トークンあたりアクティブなパラメータはわずか1.5Bで、コンシューマーハードウェア上で動作します。128Kのコンテキストウィンドウ、推論機能、9言語対応を備えています。前世代モデルと比較して、非幻覚率が7.46から63.47に向上するなど、ベンチマークで大幅な改善を示しています。

  • LFM2.5-8B-A1Bは、総パラメータ8.3Bのうちトークンあたり1.5Bのみをアクティブにし、エッジデバイスでの効率的な推論を実現。
  • 128Kのコンテキスト長と9言語(アラビア語、中国語、日本語を含む)に対応。
サイト内本文

Open House のオブザーバビリティ発表:MCP サーバー、AI Notebooks、ClickStack Cloud

Open House で ClickHouse コミュニティに発表されたオブザーバビリティの 3 つの主要アップデート:ClickStack Cloud(フルマネージドサーバーレスオブザーバビリティプラットフォーム)のプライベートプレビュー開始、Managed ClickStack の一般提供開始、AI Notebooks のベータ版、そして ClickStack MCP サーバーのオープンソース化。AI Notebooks は永続的な調査ワークスペースで、分岐探索を可能にします。MCP サーバーは外部エージェントがオブザーバビリティプリミティブを利用できるようにし、調査効率を向上させます。

  • ClickStack Cloud のプライベートプレビュー:フルマネージドサーバーレスオブザーバビリティ。
  • Managed ClickStack が一般提供開始、深い制御を求めるチーム向け。
サイト内本文

Anthropic、Claude Opus 4.8 をリリース、動的ワークフローとより安価な高速モードを提供、ワークフローは最大1,000サブエージェント

Anthropic が Claude Opus 4.8 を発表し、Claude Code の2つのアップデートを同時にリリース。動的ワークフローは最大1,000のサブエージェントを並列実行し、高速モードは出力速度を2.5倍に向上しつつ価格を3分の1に低減。両方とも研究プレビュー。

  • 動的ワークフローは、Claude がタスクに応じてサブエージェントを調整するJavaScriptスクリプトを作成し、最大16並列、合計1,000のエージェントを実行可能。
  • 高速モードはOpus 4.8で2.5倍の出力速度を実現、価格は3倍安くなり、使用クレジットが必要。
サイト内本文

Amazon SageMaker AI でアゼルバイジャン語モデルを訓練

アゼルバイジャンの通信事業者Azercellは、AWS Generative AI Innovation Centerと協力し、Amazon SageMaker AI上でアゼルバイジャン語LLMを構築。カスタムトークナイザー、FSDP、Liger Kernelの最適化により、トレーニングスループット23%向上、ピークGPUメモリ58%削減、トークン効率2倍を達成。

  • AzercellがAmazon SageMaker AIでアゼルバイジャン語LLMの本番対応フレームワークを開発。
  • カスタムトークナイザーが1単語あたりのトークン数を3.22から1.59に削減し、効率が2倍に。
サイト内本文

AIモデルリリーストラッカー:Opus 4.8のミスアライメント率はClaude Mythosプレビューと同程度

すべての新モデルが宣伝通りとは限りません。本トラッカーは各リリースを同種モデルと比較し、どのモデルが時間を費やす価値があるかを示します。この記事では、Claude Opus 4.8、GPT-5.5 Instant、Nemotron 3 Nano Omni、GPT-5.5、ChatGPT Images 2、Claude Opus 4.7、Claude Mythos(プレビュー)、GPT-5.4、Claude Opus 4.6、GPT-5.3-Codexなど、2026年現在の主要なモデルリリースとその特徴、重要性をまとめています。

  • AnthropicのOpus 4.8は低コストで高速な思考モードを提供し、ミスアライメント率がOpus 4.7より低く、Mythosプレビューと同等と主張。
  • OpenAIのGPT-5.5 Instantは幻覚を52.5%削減し、ChatGPTのデフォルトモデルとなり、誤情報の拡散防止に貢献。
サイト内本文

イノベーションの新時代:Google ResearchがI/O 2026で発表

2026年のGoogle I/Oで、Google Researchは科学発見、健康、エッジコンピューティング、気象予測における画期的な技術を発表。Gemini for Science(ERA、Co-Scientist)、Google Healthアプリ、Symptom AI、AMIE、Coral NPU、AIによる極端気象予測など、人間の創意工夫を増幅するAIの可能性を示した。

  • GoogleはERAとCo-Scientistを含むGemini for Scienceを発表し、科学発見を加速。
  • 健康分野ではGoogle Healthアプリ、Symptom AI、AMIEが医療を変革。
サイト内本文

Amazon SageMaker AI MLflowアプリを埋め込んだカスタムポータルの構築

この記事では、ReactフロントエンドとFlaskリバースプロキシを使用してAWS SigV4認証を処理し、AWS CDKでデプロイする、SageMaker AI MLflowアプリUIを埋め込んだカスタムポータルの構築方法を学びます。このソリューションは、事前署名付きURLやAWSコンソールアクセスを必要とせず、永続的でブックマーク可能なURLを提供します。

  • ReactフロントエンドとFlaskリバースプロキシによるSigV4認証。
  • AWS CDKを使用した自動デプロイ。
サイト内本文

AWS上のLangSmithを使用したディープエージェントの評価

この記事は、LangChainのディープエージェント評価に関する知見とAnthropicのAIエージェント評価ガイドを組み合わせた実践ガイドです。5つの評価パターンの適用方法、pytestとLangSmithを使用したオフライン評価の構築方法、および本番環境向けのオンラインモニタリングの設定方法を学びます。ウォークスルーでは、Amazon Bedrockを使用したテキストto SQLディープエージェントを例に、開発から本番までのライフサイクル全体をカバーします。

  • エージェント評価は非決定性、エラーの伝播、創造的な解決策などの課題に直面する。
  • コードベース、モデルベース(LLM-as-judge)、人間の3つの評価器を紹介し、それらの組み合わせを推奨。
サイト内本文

その他の成長タグ