AI News HubLIVE

今日の必読ニュース

モデル

AWSでClaude Sonnet 5を発表:Anthropicの最も高性能なSonnetモデル

Anthropicは、Amazon BedrockおよびClaude Platform on AWSで、最も先進的なSonnetモデルであるClaude Sonnet 5の提供開始を発表しました。このモデルは、コーディング、エージェント、プロフェッショナルワークにおいて、Sonnet価格でありながらOpusに迫るインテリジェンスを提供します。本記事では、その改善点、業界ユースケース、Amazon Bedrockでの統合ガイドをコード例とともに紹介します。

  • Claude Sonnet 5はAnthropicの最新世代の最初のSonnetモデルで、コーディング、エージェント、専門業務で優れた性能を発揮します。
  • Sonnet価格でOpusに近いインテリジェンスを提供し、大規模展開に適しています。
サイト内本文

スパイウェアに禁止テキストを埋め込みAI分析を妨害

少なくとも1人のマルウェア開発者が、核兵器や生物兵器に関するテキストをスパイウェアに追加し、自動AI分析を妨害しようとしています。この手法は、JavaScriptのコメント内にポリシーをトリガーするコンテンツを配置し、AIスキャナーに拒否応答や誤分類を引き起こさせますが、従来の検出手法は依然として有効です。

  • マルウェアは、偽のシステム命令やポリシートリガーコンテンツをコメントに含め、AI分析を混乱させる。
  • このテクニックはLLM優先のトリアージシステムを標的にするが、YARAルールや静的検出を回避できない。
サイト内本文

AIコンパス:AI倫理に関する30の原型クイズ

bambamramfanによる「AIコンパス」は、政治コンパス形式のクイズです。29の質問に答え、AIとAI倫理に関するどの原型(30種類)に当てはまるかを調べられます。著者のサイモン・ウィリソンは初回で「ガレージいじり屋」に分類されました。

  • AIとAI倫理に関する29の質問
  • 30の原型に分類
サイト内本文
Agent

ScarfBench:エンタープライズJavaフレームワーク移行のためのAIエージェントベンチマーク

IBM Researchは、エンタープライズJavaにおけるクロスフレームワーク移行タスクのAIエージェントを評価するためのオープンベンチマークScarfBenchを発表しました。ベンチマークには34のアプリケーション、102のフレームワーク実装、204の移行タスクが含まれています。現在のトップエージェントの行動成功率は10%未満であり、移行中の振る舞い保持の難しさが浮き彫りになっています。

  • ScarfBenchはSpring、Jakarta EE、Quarkus間のフレームワーク移行におけるAIエージェントを評価し、ビルド、デプロイ、振る舞いの検証を要求します。
  • ベンチマークは34アプリケーション、約2,000のソースファイルとテストファイル、1,331の専門家作成テストで構成されています。
サイト内本文

AIコーディングツールはエディタを超えるべき

AI支援コーディングツールは現在、主にコードエディタ内に限定されていますが、ソフトウェア開発はプロジェクト管理、コーディング、インフラストラクチャの3つの柱からなるループです。本記事では、AIアシスタントが開発サイクル全体に拡張され、自然言語インターフェースを介して3つの柱すべてに接続することで、意図をよりよく理解し、自身の作業を検証し、効率を向上させるべきだと主張しています。

  • AIコーディングツールは現在、開発ループのコーディング部分のみをカバーするエディタに限定されています。
  • 完全な開発には、プロジェクト管理、コーディング、インフラストラクチャの3つの柱があり、サイクルを形成しています。
サイト内本文

Anthropic Sonnet 5:Opus 4.8との差を縮め、8月まで低価格

AnthropicがSonnet 5を発表。性能はOpus 4.8に迫り、8月末まで割引価格を提供。推論、コーディング、ツール使用でSonnet 4.6から大幅に向上し、安全性リスクは低い。

  • Sonnet 5の性能はOpus 4.8に近いが、価格は低い。
  • 8月31日までAPI導入価格(入力トークン100万あたり2ドル、出力10ドル)。
サイト内本文

Show HN:ADHDについて私に怒鳴るAIエージェントを作りました

ADHDを持つ開発者が、スケジュール、タスク、ナレッジベースなどを管理するAIエージェント「hex」を構築。様々なツールと専門家システムを統合し、ADHDの課題に対処する。記事ではhexの機能、技術的実装、直面した困難、教訓を詳述。

  • hexはADHD向けのAIエージェントで、カレンダー、Todoist、Obsidianなどのツールを統合。
  • 健康管理のFreyaやキャリア支援のCarrieなどの専門家システムと物理デバイスWatcherを搭載。
サイト内本文

ADRと契約を用いてAI生成コードの不変条件を強制する

本記事では、アーキテクチャ決定記録(ADR)とRFC 2119キーワードを使用してAI生成コードの不変条件を強制する方法を紹介します。アーキテクチャの決定を不変条件として記録し、AIエージェントに参照させ、決定論的なチェックで違反を防ぐ方法を説明します。

  • ADRを使用してアーキテクチャ決定を強制可能な不変条件として記録する。
  • RFC 2119キーワード(SHALL、MUST)とGherkinシナリオを組み合わせて振る舞い要件を指定する。
サイト内本文

記憶を持たない: sovereign データ上の訪問エージェントの統治

従来のデータルームは人間の訪問者を前提としていたが、AIエージェントは完全な記憶を持ち、データを持ち出し、所有者が制御できないインフラ上で動作する。本稿では、組織間エージェントデータ共有の問題を特徴づけ、解決策としてエージェントのオペレーティングシステムのサービスとして記憶を扱う「エージェントデータ enclave」を提案する。

  • AIエージェントは人間のデータルームの3つの前提を覆す:完全記憶、法的拘束の欠如、実質的な監査不能
  • 既存研究はエージェント安全と組織間共有のいずれかに焦点を当て、両者の交差点は未開拓
サイト内本文
チップ

国際決済銀行、AIバブル崩壊で世界経済が打撃を受ける可能性を警告

国際決済銀行(BIS)は年次報告書で、現在のAI投資ブームが歴史的なバブルと類似しており、過剰投資が世界的な景気後退を引き起こす可能性があると警告した。2026年のハイパースケーラー5社のAI関連設備投資は1兆ドルを超える見込みだが、リターンは不確実で、電力不足などの供給側のボトルネックもリスクを高めている。楽観的な見方が崩れれば、投資が急停止し金融市場に波及する恐れがある。

  • BISは現在のAI投資ブームを1800年代の運河狂騒、鉄道狂騒、1920年代の電化熱、1990年代のインターネットバブルと比較。
  • ハイパースケーラー5社の2026年AI設備投資は1兆ドル超と予想され、収益やフリーキャッシュフローを超過。
サイト内本文
その他の更新(17件)
ツール

Netflixがウィリー・ワンカのリアリティ番組でAI生成のジーン・ワイルダー声を使用

Netflixの新リアリティ番組『ワンカの黄金のチケット』は9月23日に初公開。ElevenLabsがAIで生成したジーン・ワイルダーの声を家族の同意を得て使用し、架空のシナリオを現実の競争にするトレンドを続ける。

  • Netflixのワンカリアリティ番組は9月23日に初公開。
  • ナレーションはElevenLabsがAI生成したジーン・ワイルダーの声で、家族の同意を得ている。
サイト内本文

OpenAI が最強の新モデルを発表

🚀 Viktor*: すべての部門に1人のAI社員。ViktorはSlackとTeamsで動作し、毎日実際の成果を提供します。無料で始められ、100ドルのクレジットが付与されます。

  • Viktorは各部門向けのAI社員です。
  • SlackとTeamsで動作し、毎日成果を出します。
サイト内本文
Agent

NVIDIA BioNeMo Agent ToolkitがClaude Scienceで生命科学研究者に加速AIを提供

NVIDIAはBioNeMo Agent Toolkitを発表し、AnthropicのClaude Scienceと統合することで、科学者が自然言語を用いて創薬、ゲノミクスなどの加速AIワークフローを実行できるようにしました。このツールキットにはParabricks、RAPIDS-singlecell、nvMolKitなどのGPU加速ツールが含まれ、世界のトップ20製薬企業のうち18社がNVIDIA BioNeMoを利用しています。Claude Scienceは現在パブリックベータ版です。

  • NVIDIA BioNeMo Agent ToolkitがClaude Scienceと統合し、自然言語による研究を実現
  • Parabricks(ゲノミクス)、RAPIDS-singlecell(単一細胞解析)、nvMolKit(ケモインフォマティクス)などの高速ツールを搭載
サイト内本文

Anthropic、科学研究向けAIワークベンチ「Claude Science」を発表

Anthropicは火曜日、科学者向けの新たなアプリケーション「Claude Science」を発表しました。macOSとLinuxでローカルに、またはリモートマシン上で動作します。このツールは、研究者が日常的に使用するPubMed、Jupyter、R、ターミナルなどのデータベースやツールを統合し、ワンストップの研究環境を提供します。現在ベータ版で、主にライフサイエンスを対象としていますが、将来的な拡大が計画されています。Claude Scienceは標準のClaudeモデルに基づき、60以上のデータベースにアクセス可能なコーディネーションエージェントを介して動作し、NvidiaのBioNeMo Agent Toolkitを活用して専門的な生命科学モデルに接続します。また、3Dタンパク質構造などのビジュアルを生成し、HPCやModalアカウントと連携して大規模計算を実行できます。

  • AnthropicがAIワークベンチ「Claude Science」をベータ版としてリリース。
  • macOSとLinuxで利用可能で、Claudeの有料プラン(Pro、Max、Team、Enterprise)で使用できる。
サイト内本文

SkillOpt:エージェントスキルを訓練可能なパラメータとして扱う

AIエージェントは、指示やスキルを手動で変更しても改善が保証されないために失敗することが多い。SkillOptはスキル編集を訓練プロセスに変え、モデル重みを変更せずにエージェントの動作をより信頼性の高いものにする。52の評価セルすべてで最良または同等の結果を達成し、最適化されたスキルはコンパクトで監査可能、転用可能なままである。

  • SkillOptはスキルファイルを凍結されたターゲットモデル外部の訓練可能なパラメータとして扱い、最適化ループで性能を向上させる。
  • 6ベンチマーク、7モデル、3実行モードにわたる52評価セルすべてで最良または同等の結果。
サイト内本文

AG-UIプロトコルを使用してAmazon Bedrock AgentCore上でAIエージェント向けの生成UIを構築する

この記事では、AG-UI(Agent-User Interaction Protocol)がFullstack AgentCore Solution Template(FAST)に統合され、Amazon Bedrock AgentCore上でインタラクティブなエージェントフロントエンドを構築する方法を説明します。さらに、CopilotKitが生成UI、共有状態、人間参加型インタラクションによってこの機能を拡張する方法を示します。すべてAmazon Bedrock AgentCoreにデプロイされます。

  • AG-UIは、エージェントバックエンドとフロントエンド間の動的イベント通信を標準化するオープンプロトコルです。
  • FASTプロジェクトは、単一のフロントエンドパーサーを共有する2つのAG-UIエージェントパターン(agui-strands-agentおよびagui-langgraph-agent)を提供します。
サイト内本文

Amazon Bedrockを使用した貨物物流向けバイリンガルNERの構築

IBS SoftwareはAmazon Bedrockの管理型蒸留機能を活用し、Amazon Nova ProからNova Liteへ知識を蒸留することで、貨物物流メールから23のエンティティタイプを抽出するバイリンガルNERシステムを構築。95.085%のF1スコアを達成し、運用コストを14倍削減しました。本記事では技術的アプローチ、課題、デプロイアーキテクチャを詳述します。

  • IBS SoftwareはAmazon Bedrockのモデル蒸留を使用し、Nova ProからNova Liteへの蒸留により、95.085%のF1スコアと14倍のコスト削減を実現。
  • システムは500通のバイリンガル貨物メール(英語350通、日本語150通)から23種類のエンティティを抽出。
サイト内本文

農業はAIを受け入れる準備ができているが、データはまだ整っていない

人工知能は農業に大きな変革をもたらす可能性があるが、その成功は強固なデータ基盤に依存している。記事では、AIは作物収量を26%向上させ、水使用量を41%削減し、化学物質使用量を33%削減できると指摘する一方、データが不完全だと誤った結果を生むリスクを強調。農業データはIoT、気象、土壌、コンプライアンスなど複雑で、統一データモデル、ガバナンス、リアルタイムパイプラインが不可欠と論じている。

  • AIは作物収量を26%向上、水使用量を41%削減、化学物質使用量を33%削減できるが、信頼できるデータが前提。
  • 農業データはIoT、気象、土壌、コンプライアンスなど複雑で、統一データモデルが必要。
サイト内本文

トークン最大化の終焉

トークン最大化(トークンを消費して生産性を偽装する行為)は、個人や企業がAIコストを認識するにつれて消えつつある。GitHub Copilotのクレジット制への移行、推論モデルやエージェントの登場により、トークン消費は劇的に増加した。AIプロバイダーは成長第一から収益重視へとシフトし、価格上昇を招いている。トークンの最適化と説明責任が新たな標準となりつつある。

  • コストの可視化によりトークン最大化は終焉へ
  • 推論モデルとAIエージェントがトークン使用量を爆発的に増加
サイト内本文

AWSがエージェント向けデスクトップを公開

AWSは短い公開プレビューの後、Amazon WorkSpaces for Agentsを一般提供開始。エージェントがクラウド上の仮想デスクトップを利用してレガシーアプリケーションを操作できるようにし、カスタム統合不要。MCPとコンピュータビジョンをサポートし、人間による監視と介入が可能。

  • Amazon WorkSpaces for AgentsがGAに。エージェント向けクラウドデスクトップ環境。
  • エージェントはMCP経由で接続、またはコンピュータビジョンで画面操作。
サイト内本文

Claude Science:科学者のためのAIワークベンチ

Anthropicは、科学者向けのAIワークベンチ「Claude Science」を発表。ツール統合、マルチエージェント連携、再現可能な科学アーティファクト生成、オンデマンド計算管理を特徴とし、ベータ版としてPro、Max、Team、Enterpriseユーザーに提供開始。

  • Claude ScienceはPubMed、Jupyter、Rなどの科学ツールを一つの環境に統合するAIワークベンチです。
  • 60以上の厳選されたスキル(ゲノミクス、プロテオミクスなど)を持つ調整エージェントを搭載。
サイト内本文
モデル

shot-scraper videoを使ってエージェントに作業のデモ動画を録画させる

shot-scraper 1.10の新コマンド「shot-scraper video」は、YAMLストーリーボードで定義したルーチンをPlaywrightで実行し、動画を録画する。本記事では、コード生成エージェントが自動でデモを作成する重要性を強調し、Datasetteの新機能のデモ例を紹介。この機能自体もGPT-5.5 xhighによって生成された。

  • shot-scraper videoを使うと、エージェントが作業のデモ動画を自動録画できる。
  • YAMLのストーリーボードで操作を定義し、Playwrightで録画する。
サイト内本文

Amazon Bedrock と LLM ゲートウェイを使用したレジリエンスパターンの実装

この投稿では、AWS 上でレジリエントな生成 AI アプリケーションを構築するための5つの実用的なパターンを学びます。これらは、ネイティブの Amazon Bedrock 機能から LLM ゲートウェイを使用したマルチモデルオーケストレーションへと進みます。これらのパターンは、予期しないトラフィック急増時のクォータ枯渇、推論の地理的分散による可用性の最大化、マルチテナント環境におけるノイジーネイバー問題の防止などの現実的な課題に対処します。

  • 5つのパターン:Amazon Bedrock のクロスリージョン推論、複数 AWS アカウント、モデルフォールバック、負荷分散、マルチテナントクォータ分離。
  • パターンは、アプリケーションの成熟度に応じて段階的に採用できるクロール・ウォーク・ランのアプローチを採用。
サイト内本文

Outpost VFXがAWSを活用してVFX向けAIモデルトレーニングを高速化する方法

Outpost VFXはAWSとの協業により、マルチGPUアーキテクチャを採用して顔置換モデルのトレーニング速度を8倍に向上し、納品時間を1〜2週間から2日に短縮しました。

  • 従来のシングルGPUトレーニングは1〜2週間かかり、生産のボトルネックとなっていた。
  • AWS EC2 P5インスタンスとPyTorch DDPを利用し、複数のGPUに分散並列トレーニングを実現。
サイト内本文

Amazon Novaモデルを微調整して電子メールデータを正確に抽出

Amazon SageMaker AIを使用してAmazon Novaモデルを微調整することで、幻覚やコストの問題を解決し、最大94.77%の抽出精度と50%のコスト削減を実現する方法を紹介します。

  • Amazon Novaモデルの微調整により、電子メールデータ抽出精度が大幅に向上。
  • Parcel Performの実運用で精度94.77%、コスト50%削減を達成。
サイト内本文

Claude Sonnet 5 発表:Opus 4.8に迫る性能でより低価格なエージェントモデル

AnthropicがClaude Sonnet 5をリリース。これはこれまでで最もエージェント能力の高いSonnetモデルであり、推論、ツール使用、コーディング、知識作業において前世代のSonnet 4.6を大幅に上回り、性能はOpus 4.8に迫る。本日より全プランで利用可能。

  • Claude Sonnet 5は最もエージェント能力の高いSonnetモデルで、自律的な計画立案、ツール使用、実行が可能。
  • 性能はOpus 4.8に迫りながら、価格はより低く、入力・出力トークンあたり$3/$15(導入キャンペーン中は$2/$10)。
サイト内本文
チップ

AIデータセンターに新たな脅威:異常気象

欧州を襲う記録的な熱波の中、ハイテク企業はAIデータセンターを冷却するという新たな課題に直面している。異常気象はチューリッヒの米国データセンター建設業者リスクポートフォリオにおける主要な損失原因となり、保険会社や事業者は気候リスクの再評価を迫られている。

  • 異常気象がチューリッヒの米国データセンターリスクポートフォリオの損失の3分の1を占める主要因に。
  • First Streetの調査では、世界のデータセンター容量の79%が洪水、強風、山火事などの気候災害の高リスクに直面。