AI News HubLIVE

今日の必読ニュース

Agent

Robinhood:AIエージェントが代わりに取引・支出を行う未来

Robinhoodの新ツールは、AI主導の取引と金融取引を主流にする可能性がある。

  • Robinhoodはユーザーに代わって取引や支出の意思決定を実行するAIエージェントを開発中。
  • これらのツールは、日常の取引をAIに任せることで金融操作を簡素化することを目指す。
サイト内本文

AIは全体主義を促進するか?

本稿では、人工知能が中央集権型統治と分権型統治のバランスをどのように変え、全体主義の台頭を促進する可能性があるかを考察する。歴史的に通信技術が独裁体制を強化した例を振り返り、ハイエクの知識問題やセレクター理論などの構造的メカニズムを分析。AIによる情報処理、監視、プロパガンダのコスト低下が、民主主義と独裁の間のパフォーマンス格差を縮小する可能性を論じる。

  • AIは中央集権的な情報処理と監視能力を強化し、独裁統治のコストを低下させる。
  • ナチス・ドイツのラジオやIBMの集計機、東ドイツの監視体制など、歴史的に技術は統制に利用されてきた。
サイト内本文

Anthropic Opus 4.8 はAIラボが顧客に注目していることを示す

このモデルは企業の複雑なワークフローを支援し、アプリケーションに適したモードを選択できるようにします。

  • Anthropic Opus 4.8 は企業の複雑なワークフローに焦点を当てている
  • モデルは異なるアプリケーションに合わせてモードを選択可能
サイト内本文

問題はエージェントではない – 既存のシステムとAPIはAI向けに作られていない

MCP Bridgeは、ハイブリッド検索とAIエンリッチメントを用いて、エンタープライズAPIをAIエージェントが読めるようにする課題に取り組んでいます。APIのレスポンス形状から自動的に意味のある名前と説明を生成し、ツール選択の精度を劇的に向上させます。

  • FTSとベクトル検索を組み合わせたハイブリッド検索に再ランカーを加え、ツール発見を改善。
  • エンタープライズAPIは'getProcInfo3'のような不明瞭な名前と貧弱なドキュメントが多い。
サイト内本文

2026年のDataHackサミットで出会うべき25人の影響力あるAIパイオニア

本記事では、2026年のDataHackサミットで講演する25人の最も影響力のあるAIパイオニアを紹介します。Google DeepMind、Microsoft AI、Walmartなどからの研究者、データサイエンティスト、創業者、企業AIリーダーが含まれ、AIの技術的限界を押し広げ、コミュニティを構築し、モデルを製品に変えています。

  • 2026年のDataHackサミットには、研究、応用、リーダーシップを網羅する25人のトップAIパイオニアが集まります。
  • 講演者にはGoogle DeepMindのDheeraj Nagaraj、Microsoft AIのHardik Meisheriなどが含まれます。
サイト内本文

「AIがやった」ではEU規制当局の追及を逃れられない

EUのサイバーレジリエンス法(CRA)が間もなく施行され、組織にサイバーセキュリティの責任が課せられます。報告義務は2026年9月から、完全なコンプライアンスは2027年12月から開始されます。この規制はEUで販売されるすべての接続製品とソフトウェア(AI生成コードを含む)に適用されます。主な要件は、セキュア・バイ・デザイン、ライフサイクル全体の脆弱性管理、SBOMの透明性、悪用された脆弱性の24時間以内の報告です。組織は今すぐ監査、文書化、SBOMツールの導入を進める必要があります。「AIがやった」では通用しません。

  • EUサイバーレジリエンス法(CRA)は、EUで販売されるすべての接続製品に厳格なサイバーセキュリティ要件を課し、2026年と2027年に重要な期限が設定されています。
  • 組織はセキュリティを開発ライフサイクルに組み込み、SBOMを提供し、活発に悪用されている脆弱性を24時間以内に報告する必要があります。
サイト内本文
ツール
チップ

BYD、4nm AIチップを発表:プロセスはNVIDIA並み、演算性能はテスラを凌駕

BYDが中国初の車載グレード4nmスマート運転チップ「Xuanji A3」を発表。3チップで2100 TOPS超、専用NPUアーキテクチャにより消費電力20%削減、演算効率100%向上。王伝福氏はスマート運転中の事故を無制限に補償する方針を示した。

  • BYD、完全自社開発の4nmスマート運転チップXuanji A3を発表
  • 専用NPUにより消費電力20%削減、演算効率100%向上
サイト内本文

GoogleによるエッジAIのフルスタックプラットフォーム

GoogleのCoralプラットフォームは、エッジAI向けのフルスタックソリューションを提供し、ソフトウェアおよびハードウェア開発者がローカルでAIモデルを展開できるようにします。

  • CoralはAIファーストのハードウェアと統一された開発者体験を組み合わせる
  • MLIRコンパイラツールチェーンを介してPyTorch、JAX、LiteRTモデルをサポート
サイト内本文
モデル

毎秒3000トークンのLLMプレイグラウンド

毎秒3000トークンを処理する高速LLMプレイグラウンド。オープンWeb UIを備えています。

  • 毎秒3000トークンのスループット
  • オープンWebUIインターフェース
サイト内本文
その他の更新(162件)
Agent

CMS TEAMでの成功:学習型医療システムを構築してVBCで成果を上げる

2026年1月1日から、米国の700以上の病院がCMS TEAMプログラムに基づき、5つの高頻度外科エピソードの総コストと質を管理することを義務付けられます。成功には、統一されたAI対応データプラットフォームによるプロアクティブな介入が必要で、典型的な成果としてSNFコストの15%削減と再入院率の12%削減が挙げられます。

  • CMS TEAMプログラムは2026年1月から5つの外科エピソードに対するバンドル支払いを義務付け。
  • 病院は臨床データ、請求データ、急性期後データを統合したデータプラットフォームが必要。
サイト内本文

TheFoundry – マルチエージェントシステムのための簡単ブートストラッピングフレームワーク

TheFoundryは、トークン消失、無限ループ、アーキテクチャドリフト、エージェント衝突といった現代のAIコーディングの重要な失敗点を解決する、ユーザーフレンドリーでエンタープライズ対応のマルチエージェントシステム(MAS)ブートストラッピングフレームワークです。プル型ワークフロー、共有カンバン、コンテキストスコーピング、ステップ予算、TOMLベースの決定論的通信、および一時的ブートストラッパーを採用し、複数の専門AIエージェントが自律的にソフトウェアプロジェクトを構築できるようにします。

  • プル型ワークフロー:エージェントは自身のキューからタスクを読み取り、集中オーケストレーターによるコンテキスト喪失を防ぎます。
  • 共有カンバンボード:エージェントはteam_status.mdをリアルタイムで更新し、チーム認識を提供します。
サイト内本文

AIはセキュリティが対応できるよりも速くコードを出荷している:SnykがAIペネトレーションテストプラットフォームを発表

SnykはEvo Continuous Offensive Security(COS)を発表し、AI生成コードとエージェント型攻撃者の時代における企業の脆弱性発見と修正のギャップを埋める。従来の年15日間のテストを継続的な代替案に置き換え、350日の空白を解消。プラットフォームのコンテキストを活用し、決定的スキャンとLLM推論を組み合わせ、ビジネスロジックの脆弱性や権限バイパスなどを検出する。

  • SnykがEvo COSを提供、継続的AIペネトレーションテストで従来の年15日間のテストを置き換え。
  • ヒューリスティック検出可能な脆弱性とコンテキスト依存の脆弱性を区別し、LLMは後者に使用。
サイト内本文

Show HN: Adaptive Runtime – AIエージェント層、GPU不要、クラッシュリカバリ

Adaptive Runtimeは、ステートフルAIシステム向けのランタイムインテリジェンス層を提供するオープンソースのPythonライブラリです。5つのコアエンジン(状態、コンテキスト、信頼度、決定、リカバリ)を備え、プロダクション環境でのクラッシュリカバリ、状態永続化、信頼度スコアリングなどの問題を解決します。GPU不要で、低コストのVPSで動作します。

  • Adaptive Runtimeは、ステートフルAIシステムのランタイム問題を解決するためのインテリジェンス層です。
  • 5つのコアエンジン(状態、コンテキスト、信頼度、決定、リカバリ)を提供します。
サイト内本文

PPIO、非凡産研「2026 Global AI 100」に選出、AIで海外展開の新潮流をリード

PPIO は非凡産研が発表した「2026 Global AI 100」リストに選ばれました。このリストは非凡大賞 – 年次 AI グローバリゼーション成長サミットで選定され、グローバルな AI ネイティブ企業を表彰するものです。PPIO はグローバル分散型コンピューティングインフラ、フルスタッククラウドサービス、DeepSeek・GLM などのモデルプラットフォーム、革新的なエージェントサンドボックスを提供。2026年4月時点で4,800以上の分散ノードを統合し、日次トークン呼び出しは1兆回超、開発者は57万人超。また、上海市デジタル海外サービスプラットフォームのパイロットユニットやGDAパイロットサービスステーションにも選ばれています。

  • PPIO が「2026 Global AI 100」に選出、AIグローバル化のリーダーシップを示す。
  • 全GPU構成をカバーするグローバル分散コンピューティングインフラを提供。
サイト内本文

AIはフロントエンドの「失われた10年」を繰り返しているのか?

本記事では、AIがプログラミングのスキルを低下させている現象を、過去10年のフロントエンド開発の変化と比較して考察する。脱技能化、抽象化、漏れやすい抽象化、そしてバウハウス運動の教訓について論じる。

  • AIは、JavaScriptフレームワークがフロントエンド開発を脱技能化したのと同様に、プログラミングスキルを低下させている。
  • エージェンティックコーディングは漏れやすい抽象化であり、問題が発生した際には深い理解が必要となる。
サイト内本文

制御不能なAI官僚制の時代

著者は、AIが官僚制から解放するどころか、新たな無責任な官僚制を生み出したと主張する。AIはメールの要約や経費精算のような日常業務に優れる一方、目的の理解を欠き、安全訓練によりリスク回避的になる。その結果、'ワークスロップ'を生み出し統治に抵抗する官僚機械が誕生した。AIの確率的性質と説明責任の欠如は、問題が起きても解雇できる者がいない状況をもたらす。

  • AIの主な価値はルーチン業務の処理にあるが、新たな統治不能な官僚制を導入する。
  • モデルは慎重になるよう訓練され、拒否反応の増加と没個性的な出力をもたらす。
サイト内本文

次のトークン予測を超えて:ニューロシンボリックグラフによる法的階層の強制

従来の生成AIは次の単語を予測するだけであり、正確な法的分析にはリスクが高すぎます。次世代の法務技術は、ニューロシンボリックAI(厳密な論理と法源の階層を強制)とGraphRAG(データを相互接続ネットワークにマッピングして文脈を理解)を組み合わせ、幻覚のリスクを低減し、監査可能な推論を提供します。

  • ニューロシンボリックAIは言語モデルと記号論理エンジンを統合し、法的推論チェーンとソース階層を強制する。
  • GraphRAGは法文書を知識グラフにマッピングし、孤立したスニペットではなく文脈に基づく検索を実現する。
サイト内本文

Crabbox.sh Pond – AIエージェントとCIのためのランタイムプール

Pondは、Crabbox.shで関連するリースをグループ化し、互いの発見と一括解放を可能にする軽量な仕組みです。複数のトランスポートプレーン(Tailscale、URLブリッジ、SSHメッシュ)をサポートし、異なるプロバイダーを混在させることができます。この記事では、Pondの基本概念、クイックスタート、コマンド、トランスポートプレーン、ユースケース、Tailscale統合などを説明します。

  • Pondは、共有のpond=ラベルを介したアクティブリースの論理グループです。
  • Tailscale、URLブリッジ、SSHメッシュの3つのトランスポートプレーンをサポートします。
サイト内本文

Flathub、AI生成コードを禁止

Flathubはポリシーを更新し、提出されるアプリケーションおよび提出自体にAIが生成または支援したコード、ドキュメント、その他のコンテンツを含めることを明確に禁止しました。また、AIツールを使用したプルリクエストの生成、自動化、レビュー依頼も禁止されています。成熟した適切にメンテナンスされたプロジェクトには例外が認められる場合があります。

  • Flathubの生成AIポリシーは、提出アプリと提出メタデータなどに適用されます。
  • AIツールによるプルリクエストの生成、自動化、レビュー依頼は禁止。
サイト内本文

アドビの会話型AIアシスタントは平凡なデザインインターン

Adobeの最新AI画像アシスタント「Firefly AI Assistant」は、PhotoshopやIllustratorなどのアプリを操作してマルチステップのプロジェクトを実行できる、マルチタスクの仲介役です。編集タスクを実行するだけでなく、そのプロセスを説明し、限界も率直に認めます。結果は完璧ではないものの、そのインタラクション方法は斬新で、ユーザーがデザインスキルを学ぶのに役立ちます。

  • Firefly AI AssistantはPhotoshopやIllustratorなどのアドビアプリを操作し、マルチステッププロジェクトを完了できる。
  • アシスタントは編集プロセスを詳細に説明し、その限界についても率直に伝える。
サイト内本文

Cognition(Devin):260億ドルの評価額で10億ドルのシリーズDを調達

Cognitionは、Lux Capital、General Catalyst、8VCが主導する260億ドルの評価額で10億ドル以上の資金調達を発表。AIソフトウェアエンジニアDevinのエンタープライズ利用は年初から10倍以上に成長し、年換算収益は4億9200万ドルに達した。メルセデス・ベンツなどの顧客は8か月のプロジェクトを8日に短縮。Cognitionは自律的なソフトウェア開発へと移行しており、社内コードの89%がDevinによってコミットされている。

  • Cognitionが260億ドルの評価額で10億ドル超のシリーズDを調達
  • AIソフトウェアエンジニアDevinのエンタープライズ利用が年初から10倍以上に成長、年換算収益4億9200万ドル
サイト内本文

面壁智能(ModelBest)「オープンソースウィーク」:エッジAIの終盤を定義する体系的な「宣言」

面壁智能は5月25日から29日まで、OpenBMBコミュニティと共同でエッジ大規模言語モデル(LLM)オープンソースウィークを開催し、BitCPM-CANN(1.58ビット低ビットトレーニングモデル、昇華対応)、MiniCPM5-1B(2倍のパラメータモデルを凌駕)、ForgeTrain(AIが自ら書いた訓練フレームワーク、Megatronより10%高速)、PilotDeck(エージェントOS)、UltraData(コアデータセット)の5つの成果をリリースした。これらの成果はフルスタックのシステム革新を構成し、エッジAIの競争は単一技術ではなくシステム工学であることを示している。MiniCPM5-1BはGPT-4oの一部を超え、「密度の法則」を実証。面壁智能の2年の先行と体系的な優位性が業界の変革をリードする。

  • 面壁智能は2026年5月25-29日にエッジLLMオープンソースウィークを開催し、毎日1つの重要技術を公開。
  • 5つの成果は訓練フレームワーク、モデル圧縮、データ、エージェントOSをカバーし、体系的な革新を示す。
サイト内本文

5億トークン無料!世界初の商用AIホスト登場、トークン消費を気にせず使える

Lenovoが世界初の商用AIホストシリーズを発表。一人会社(OPC)や成長企業向けに、ローカル+クラウドのハイブリッド構成でトークンコストとデータセキュリティ問題を解決。豊富なトークンプレゼントとすぐに使える設計。

  • Lenovoが3機種のAIホストを発表:mini 100、300、Pro 700。個人からチームまで対応。
  • ローカル推論+クラウド弾力性でトークンコストを70%~95%削減。
サイト内本文

下限ゼロから上限AAA級まで!テンセントのAIゲーム創作プラットフォームがヤバい

次のAI創作の波はゲーム分野に来ている。テンセントがAIゲーム創作プラットフォーム「コードネームCraft」を発表。自然言語でプレイ可能なゲームを生成でき、2D/3D両対応、AIGCツールや無料アセットを備え、ゲーム制作のハードルを大幅に下げる。

  • テンセントがAIゲーム創作プラットフォーム「コードネームCraft」を公開、自然言語からゲーム生成
  • 2D/3D両対応、フルAIGCパイプラインと2万以上の無料アセットを搭載
サイト内本文

クリエイティブデザイン版WorkBuddy登場!テンセントがAIエージェントクリエイティブスタジオ「Miora」を発表

テンセントは、画像、動画、UI/UX、3D生成を統合したAIクリエイティブスタジオ「Miora」を発表しました。記憶システム、マルチモーダルキャンバス、カスタマイズ可能なスキルを備え、一人でクリエイティブスタジオ全体を運用できるようにします。

  • テンセントがMioraを発表、クリエイティブAIエージェントスタジオ
  • 画像、動画、UI/UX、3Dコンテンツの生成をサポート
サイト内本文

AIエージェントの権限:「動作する」と「安全」の間にある欠落した層

本記事は、Claude CodeなどのAIコーディングエージェントにおけるセキュリティリスク(コマンドの誤解釈、認証情報の流出、プロンプトインジェクションなど)を考察する。人間による監視には「権限疲れ」の問題があり、サンドボックス、オートモード、フックなどの緩和策を紹介し、開発コンテナと最小権限の原則の重要性を強調している。

  • AIエージェントが自然言語コマンドを実行する際、データ削除や認証情報漏洩などの災害を引き起こす可能性があり、人間の監視は完全ではない。
  • Anthropicのテレメトリーによると、ユーザーは権限プロンプトの約93%を承認しており、顕著な権限疲れが存在する。
サイト内本文

1つのグラフ、複数のネイティブサーフェス:AIとクロスプラットフォームアプリの推測

AIはクロスプラットフォームアプリ開発を1つのUIフレームワークから、エージェントがネイティブサーフェスを生成するための1つの製品グラフへと変える可能性がある。

  • クロスプラットフォームフレームワークはコードを共有するが、ネイティブ感が損なわれることがある。
  • AIエージェントはネイティブ環境でより効果的に動作し、共有された意図の源泉が必要。
サイト内本文

PromptLayer:AIリクエスト、ワークフロー、コストを1つのタイムラインで追跡

PromptLayerは開発者向けのAI可観測性ツールです。単一のタイムラインとウォーターフォールビューでリクエスト、ワークフロー、トークン使用量、レイテンシ、コスト、障害を追跡します。マルチステップAIシステムの完全な実行パスを可視化し、デバッグを支援します。現在無料ベータ版を提供中。

  • タイムラインとウォーターフォールビューでAIワークフローを可視化
  • トークン使用量、レイテンシ、コストを追跡
サイト内本文

AIがシステムコードを書き始めるとき

AIが生成するシステムコードの影響を探る。

  • AIによるシステムコード作成は生産性向上につながるが、信頼性とセキュリティの問題も生じる。
  • 正確性を保証するための新しい検証・テスト手法が必要。
サイト内本文

CodePulse – AIコーディングツール向けトークン効率的なコードベースインデクサー

CodePulseは、持続的なgit差分認識インデックスを維持し、セッション開始時にコンパクトなスナップショットを注入することで、AIコーディングアシスタントのトークン予算を60~80%節約するオープンソースのコードベースインデクサーです。Claude Code、OpenAI Codex CLI、Cursorなどのツールをサポートし、タスク認識ランキング、git認識ランキング、自動バジェットなどの機能を提供します。CLI、MCPサーバー、複数の統合方法を備えています。

  • プリビルドスナップショットにより、AIアシスタントの探索トークンを60~80%節約。
  • 複数のAIツール(Claude Code、Codex CLI、Cursorなど)をサポート。
サイト内本文

Show HN: スケーラブルなAIメモリのためのオープンソースツールキット

LithiumはPostgreSQL ltreeをベースにした階層型バージョン管理ストレージエンジンで、決定論的でスコープ指定された検索、組み込みのバージョニング、ゼロランタイム依存を提供します。MCPサーバーを介してAIツールと統合し、AIエージェントのメモリ、意思決定追跡などのユースケースに適しています。

  • PostgreSQL ltreeを使用した階層型バージョン管理ストレージ、グラフデータベースより高速
  • スコープ指定検索と組み込みバージョニングを備えたTypeScript API
サイト内本文

UIテストはAIに必要なガードレール:clipboardwireの物語

Waylandでのクリップボード同期の問題に悩まされた著者が、Claude Codeを使ってJavaプロジェクトClipCascadeをRustに書き換え、軽量バイナリのclipboardwireを作成した。発見した要点は、AIのボトルネックはコード生成能力ではなくフィードバックの質であり、UIテストが信頼性のある反復を可能にするガードレールだということ。

  • テストがないと、AI生成コードはバグ修正のループに陥り、新しいバグを生むことがある。
  • UIテストを含む包括的なテストスイートへの投資が、AIの信頼性と速度を劇的に向上させた。
サイト内本文

マクロトレンドを調査する金融AI:You.comとLangchainによるEU経済分析

この記事では、Deep Agents、LangSmith、You.com Finance Research APIを使用して構築されたマクロ経済調査エージェントを紹介します。このエージェントは、EU全27加盟国のGDPデータを分析し、異常値を検出し、約45分で引用付きのブリーフィングを作成します。アイルランドの異常な成長とドイツの縮小の詳細を分析し、トレーサビリティと監査可能性の重要性を強調しています。

  • AIエージェントは約45分で27のEU諸国のGDPデータを分析し、APIコストは約2.20ドルです。
  • アイルランドの12.3%のGDP成長は医薬品輸出の前倒しによるもので、ドイツは自動車と建設部門の構造的な縮小に直面しています。
サイト内本文

オープンモーションプランニングライブラリ2.0

オープンモーションプランニングライブラリ(OMPL)は2008年の初回リリース以来、モーションプランニングコミュニティの基盤となり、幅広い最先端のサンプリングベースのアルゴリズムを提供してきました。約20年にわたる継続的な開発を経て、OMPL 2.0はハードウェアアクセラレーションによるリアルタイムモーションプランニングを目指し、現代のAI研究ワークフローとシームレスに統合されます。

  • OMPL 2.0はリアルタイムモーションプランニングとハードウェアアクセラレーションに焦点を当てたメジャーアップグレードです。
  • 新バージョンは現代のAI研究ツールと統合し、より効率的なワークフローを実現します。
サイト内本文

不完全情報下のBig 2における自己対戦強化学習

本研究では、4人用不完全情報カードゲームBig 2における自己対戦強化学習フレームワークを開発し、PPOがモンテカルロQ近似、SARSA、Q学習を上回る性能を示した。適度なエントロピー正則化がPPOの過度な決定論的方針を防ぎ、現在方針自己対戦がチェックポイント自己対戦や固定対戦者訓練より優れたカリキュラムを提供する。Big 2は不完全情報、マルチプレイヤー相互作用、遅延報酬、可変アクションセットにおける深層強化学習の制御可能なベンチマークとして有用である。

  • Big 2は不完全情報ゲームであり、エージェントが隠された情報、疎な報酬、非定常な対戦者に対処する能力を試す。
  • PPOはランダム、欲張り、ヒューリスティックな対戦者に対して他の強化学習手法を凌駕した。
サイト内本文

Rubyの生みの親Matz、AI支援でネイティブコンパイラ開発中

Rubyの生みの親であるYukihiro Matsumoto(Matz)は、AnthropicのClaudeを利用して、Ruby用の実験的な先行時間コンパイラSpinelを構築している。SpinelはRubyコードをCコードに変換し、MiniRubyと比較して約11.6倍の速度向上を達成しているが、evalやスレッドなどの機能が未対応という制限がある。

  • MatzはAnthropicのClaude Codeを使ってRubyのAOTコンパイラSpinelを開発している。
  • SpinelはRubyのASTをCコードに変換し、MiniRubyよりも11.6倍高速に動作する。
サイト内本文

AIトークン使用量を最適化する方法:repo-brainの紹介

repo-brainは、コードベース全体を1つのMarkdownコンテキストファイルに圧縮し、最大96%の圧縮率を実現してAIトークン使用量を大幅に削減するオープンソースツールです。静的解析、アーキテクチャ解析、意味的関係の発見に対応し、複数のAIプロバイダーをサポートします。

  • コードベース全体を1つのMarkdownコンテキストファイルに圧縮し、AIトークン使用量を削減
  • 262ファイルのリポジトリで96%の圧縮率を達成(154,229トークンから6,487トークンへ)
サイト内本文

Anthropic、9650億ドルのシリーズHラウンドを調達、Opus 4.8とDynamic Workflows/ultracodeをリリース

Anthropicは9650億ドルの評価額で650億ドルのシリーズHラウンドを完了し、470億ドルの年換算収益を開示。同時にClaude Opus 4.8(判断力・正直さ・自律動作時間を改善)とClaude CodeのDynamic Workflows(数百の並列サブエージェントを可能にする)をリリースした。

  • Anthropicは650億ドルを調達、評価額9650億ドル。Altimeter、Dragoneer、Greenoaks、Sequoiaがリード
  • Opus 4.8は判断力、正直さ、効率性を大幅に改善し、SWE-Bench ProなどでGPT-5.5を上回る
サイト内本文

ReadyToTalk – 中小企業向けAI受付、AIエージェントでソロ構築

ReadyToTalkは中小企業向けのAI受付サービスです。全ての電話を2秒以内に応答し、24時間365日対応、30以上の言語をサポートし、ウェブサイトからビジネス情報を自動学習します。月額39ドル(7日間無料トライアルあり)で、技術スキル不要でセットアップ可能です。

  • 全ての電話を2秒以内に応答、年中無休24時間対応。
  • 30以上の言語をネイティブにサポート、自動言語検出。
サイト内本文

Dis Dat – AIコーディングエージェントのための可視化ツール

Dis Dat は、AIコーディングエージェントに画面上の任意の情報を視覚的に提示できるツールで、コード生成の精度と効率を高めます。

  • AIエージェントへの視覚的な情報伝達が可能
  • コーディング支援に特化したシンプルなインターフェース
サイト内本文

AIパワーポイントツールは使う価値があるか?

この記事では、AIプレゼンテーションツールGensparkの限界を分析し、2026年の6つの代替案(Smallppt、Plus AI、Prezi、Vector Shift、Beautiful.ai、ClickUp)を紹介。各ツールの強みを比較し、ニーズに合った選択を支援します。

  • Gensparkにはセキュリティの脆弱性、カスタマーサポートの悪さ、コンテンツの柔軟性不足がある。
  • SmallpptとBeautiful.aiは、プロフェッショナルなスライドを素早く作成するのに適しており、デザイン自動化が強力。
サイト内本文

theta-spec:控えめでハーネスに依存しないAIエージェント設定仕様

theta-spec は、AIコーディングエージェントのための宣言的でハーネスに依存しない設定標準です。単一の theta.toml ファイルが、命令、ルール、ツール、スキル、サブエージェントといった設定の全表面を定義します。この設定ファイルのライフサイクルのためのプロトコルが規定され、準拠する実装はそれを任意のサポートされたハーネスに解決、ロック、キャストできます。プロジェクトにはRust製の参照実装(theta CLI)が含まれ、Claude Code、Codex CLI、Cursor、GitHub Copilotなどのハーネスをサポートしています。

  • AIエージェント向けの宣言的でハーネスに依存しない設定標準。
  • Claude Code、Codex CLI、Cursor 3+、GitHub Copilotをサポート。
サイト内本文

AIと私たちが知る景気後退の終焉

ヘッジファンド大手Citadelの創業者Ken Griffinは、AIエージェントが数時間で完了した複雑な作業を見て、AIに対する態度を一転させた。これは、経済成長と雇用が連動しない可能性を示唆し、GDPだけでは経済の健全性を測れなくなる懸念を引き起こしている。

  • Citadel創業者Ken Griffinは当初AIの出力を「ゴミ」と一蹴したが、後に180度態度を変えた。
  • AIエージェントはCitadelの従業員が数週間から数ヶ月かかる作業を数時間で完了した。
サイト内本文

Together AIが世界最速の音声認識スタックを構築した方法

Together AIは、ASRを単なるGPU推論問題ではなく、システム全体の問題として捉えることで、Artificial Analysisで最速の音声認識スタックを実現しました。本記事では、実際の音声形状に対応したTensorRTマルチプロファイルエンジン、条件付きCUDAグラフによるCPU往復の排除、共有メモリによるデータコピー削減、イベント駆動I/O、そしてgc.freeze()によるGCテールレイテンシの除去など、最適化の詳細を解説します。

  • Together AIはGPU推論だけでなくシステム全体の最適化により最速の音声認識を達成。
  • 主要技術:TensorRTマルチプロファイルエンコーダ、条件付きCUDAグラフ、ゼロコピー共有メモリ、イベント駆動I/O。
サイト内本文

強化学習はインフラストラクチャの問題である

本稿では、大規模言語モデルの後学習における強化学習の実践について説明し、現在のボトルネックはアルゴリズムではなくインフラストラクチャであると指摘します。Modalは大規模なRL後学習の経験を共有し、オープンソースライブラリがマルチノードトレーニング、環境管理、GPU利用率などの主要な問題を解決する方法を紹介します。

  • 強化学習によるLLM後学習のボトルネックはインフラストラクチャであり、トレーニングエンジン、推論サンドボックス、環境分離が含まれる。
  • マルチノードトレーニングでは重み同期に時間がかかり、RDMAとデルタ圧縮が遅延を大幅に削減する。
サイト内本文

脳のように抽象化するメモリシステムをAIに構築しました

Serenityは、脳に着想を得たNeural Node Networkメモリアーキテクチャを採用したオープンソースのローカルAIエージェントです。因果関係を記憶し、ドメインを横断して推論し、自律的に動作し、すべてローカルマシン上で実行されます。

  • Neural Node Networkは因果形式で経験をエンコードし、文脈理解を可能にする
  • Ollamaを使用して100%ローカルで動作し、プライバシーを確保
サイト内本文

Liquid AI、LFM2.5-8B-A1Bをリリース:デバイス向けMoEモデル、総パラメータ8.3B、アクティブパラメータ1.5B

Liquid AIは、ツール呼び出しに特化したデバイス向けMixture-of-Experts(MoE)モデルLFM2.5-8B-A1Bをリリースしました。総パラメータ数8.3B、トークンあたりアクティブなパラメータはわずか1.5Bで、コンシューマーハードウェア上で動作します。128Kのコンテキストウィンドウ、推論機能、9言語対応を備えています。前世代モデルと比較して、非幻覚率が7.46から63.47に向上するなど、ベンチマークで大幅な改善を示しています。

  • LFM2.5-8B-A1Bは、総パラメータ8.3Bのうちトークンあたり1.5Bのみをアクティブにし、エッジデバイスでの効率的な推論を実現。
  • 128Kのコンテキスト長と9言語(アラビア語、中国語、日本語を含む)に対応。
サイト内本文

AI、WordPress、コンプライアンス、広告追跡を一元化

AI、WordPress、コンプライアンス、広告追跡を統合したソフトウェアで、無料のアフィリエイトマーケティングのチートシートを提供します。

  • AI、WordPress、コンプライアンス、広告追跡を統合したオールインワンソリューション
  • 無料のアフィリエイトマーケティングのチートシートを提供
サイト内本文

Open House のオブザーバビリティ発表:MCP サーバー、AI Notebooks、ClickStack Cloud

Open House で ClickHouse コミュニティに発表されたオブザーバビリティの 3 つの主要アップデート:ClickStack Cloud(フルマネージドサーバーレスオブザーバビリティプラットフォーム)のプライベートプレビュー開始、Managed ClickStack の一般提供開始、AI Notebooks のベータ版、そして ClickStack MCP サーバーのオープンソース化。AI Notebooks は永続的な調査ワークスペースで、分岐探索を可能にします。MCP サーバーは外部エージェントがオブザーバビリティプリミティブを利用できるようにし、調査効率を向上させます。

  • ClickStack Cloud のプライベートプレビュー:フルマネージドサーバーレスオブザーバビリティ。
  • Managed ClickStack が一般提供開始、深い制御を求めるチーム向け。
サイト内本文

AIコーディングはL3自律に到達したが、インフラはL1に留まる

AI駆動のコーディングツールは高度な自律性を獲得し、誰でもソフトウェアを開発できるようになったが、基盤となるインフラは旧態依然としており、非効率を招いている。AIネイティブな新しいオペレーティングシステムが必要である。

  • Claude CodeやCursorなどのAIコーディングツールはL3~L4の自律レベルにある。
  • インフラはL1~L2に留まり、エージェントの孤立やリソースの遊休化が発生している。
サイト内本文

/monitor リリース:Firecrawl がウェブページ変更監視ツールを発表、AI エージェントをリアルタイムで同期

Firecrawl は /monitor を発表。ウェブページの変更を自動検出し、webhook 経由で AI エージェントに通知、LLM トークン使用量を最大 90% 削減。

  • /monitor は URL と追跡内容を指定するだけで、変更を検出して通知。
  • 変更部分のみを読み込むことで、トークン使用量を最大 90% 削減。
サイト内本文

AI思考パートナーに対する反論

この記事では、AIチャットボットを「思考パートナー」として利用するリスクを探ります。モデル固有の追従傾向、認知バイアスの増幅、真の対立的相互作用の欠如により、ユーザーは過信、認知低下、さらには誤った判断に陥る危険性があると指摘。ユーザーに警戒を促し、AIラボと規制当局に認知的完全性の保護を求めます。

  • AIチャットボットはユーザーに追従する傾向があり、バイアスを強化する。
  • 人間とAIのフィードバックループは、人間同士の相互作用よりも認知バイアスを増幅する。
サイト内本文

AIがソフトウェアエンジニアリングの仕事を急速に変え、面接プロセスが追いつかない

AIツールの普及により、ソフトウェアエンジニアの面接プロセスは時代遅れになっています。従来のコーディングテストではAIを活用する能力を評価できず、求職者と採用担当者の双方に課題が生じています。一部の企業はAI使用を許可するテストや現場作業を試みていますが、問題は未解決のままです。

  • AIはソフトウェアエンジニアの日常業務に不可欠だが、面接では依然として禁止されることが多い。
  • 従来の面接はコーディング能力に焦点を当て、AIとの協調や高度な意思決定を評価しない。
サイト内本文

PerplexityがBumblebeeを発表:新しい読み取り専用開発者スキャナーがChainguardとどう違うか

Perplexityは、プログラマーのラップトップ上のリスクのあるパッケージ、拡張機能、AIツール設定をスキャンするためのオープンソース開発セキュリティツール「Bumblebee」をリリースしました。このツールは読み取り専用で、インストールスクリプトやパッケージマネージャーを実行せず、言語パッケージマネージャー、AIエージェント設定、エディター拡張機能、ブラウザー拡張機能の4つの攻撃面に焦点を当てています。コンテナとパイプラインに重点を置くChainguardとは異なり、Bumblebeeは開発者のローカル環境を対象としています。

  • BumblebeeはPerplexityが開発したオープンソースの読み取り専用スキャナーで、開発者マシン上のリスクコンポーネントをチェックします。
  • 言語パッケージマネージャー、AIエージェント設定、エディター拡張機能、ブラウザー拡張機能の4つの表面をカバーします。
サイト内本文

イノベーションの新時代:Google ResearchがI/O 2026で発表

2026年のGoogle I/Oで、Google Researchは科学発見、健康、エッジコンピューティング、気象予測における画期的な技術を発表。Gemini for Science(ERA、Co-Scientist)、Google Healthアプリ、Symptom AI、AMIE、Coral NPU、AIによる極端気象予測など、人間の創意工夫を増幅するAIの可能性を示した。

  • GoogleはERAとCo-Scientistを含むGemini for Scienceを発表し、科学発見を加速。
  • 健康分野ではGoogle Healthアプリ、Symptom AI、AMIEが医療を変革。
サイト内本文

Amazon SageMaker AI MLflowアプリを埋め込んだカスタムポータルの構築

この記事では、ReactフロントエンドとFlaskリバースプロキシを使用してAWS SigV4認証を処理し、AWS CDKでデプロイする、SageMaker AI MLflowアプリUIを埋め込んだカスタムポータルの構築方法を学びます。このソリューションは、事前署名付きURLやAWSコンソールアクセスを必要とせず、永続的でブックマーク可能なURLを提供します。

  • ReactフロントエンドとFlaskリバースプロキシによるSigV4認証。
  • AWS CDKを使用した自動デプロイ。
サイト内本文

AWS上のLangSmithを使用したディープエージェントの評価

この記事は、LangChainのディープエージェント評価に関する知見とAnthropicのAIエージェント評価ガイドを組み合わせた実践ガイドです。5つの評価パターンの適用方法、pytestとLangSmithを使用したオフライン評価の構築方法、および本番環境向けのオンラインモニタリングの設定方法を学びます。ウォークスルーでは、Amazon Bedrockを使用したテキストto SQLディープエージェントを例に、開発から本番までのライフサイクル全体をカバーします。

  • エージェント評価は非決定性、エラーの伝播、創造的な解決策などの課題に直面する。
  • コードベース、モデルベース(LLM-as-judge)、人間の3つの評価器を紹介し、それらの組み合わせを推奨。
サイト内本文

クラウドベンダーCoreWeave、ソフトウェアスタックを強化

新たなエージェントAI機能のローンチにより、スタートアップはソフトウェア買収を活用してエージェントのトレーニングと推論のためのAIハードウェア・ソフトウェアスタックを開発している。

  • CoreWeaveが新しいエージェントAI機能を発表
  • ソフトウェア買収を通じてAIハードウェア・ソフトウェアスタックを構築
サイト内本文

AIが不正な判事を特定

連邦判事エレノア・ロスが Chambers 内で高官と不倫関係にあったことが発覚。司法当局は匿名化を試みたが、AI が公開文書の詳細を活用して瞬時に身元を特定。裁判所が AI の能力を過小評価している実態と、法律専門家が技術リテラシーを高め、秘密保持戦略を再考する必要性を浮き彫りにした。

  • AI は匿名化された報告書から10分で判事エレノア・ロスを特定
  • 報告書内の書記官任期2年制や地区検察官の呼称などの詳細が AI により利用された
サイト内本文

企業リーダーが組織全体でAIエージェントを拡大する方法

企業リーダーは、AIエージェントを迅速に展開しながらも、ガバナンス、信頼、コスト管理を損なわないという緊張に直面しています。この記事では、責任あるAIエージェントの拡大のための5つの実践方法を紹介します。

  • 統合的ガバナンスをAIエージェント戦略に組み込む
  • AIエージェントで複雑なワークフローを管理する
サイト内本文

AI抵抗リスト

大規模AI帝国に対する世界的な抵抗運動をまとめたリスト。抗議、法的措置、代替ツール、コミュニティ組織化など、希望と行動を喚起する多様なアプローチを紹介する。

  • AI帝国は「人類全体の利益」を謳いながら、資源の集中や生態系破壊を進めている。
  • 抵抗の形態は訴訟、データ汚染ツール、コミュニティ運動など多岐にわたる。
サイト内本文

Unity Catalog と Apache Iceberg™ の新時代

Databricks は Unity Catalog を最も包括的で相互運用性が高く、プロダクション対応の Apache Iceberg カタログとして位置づけ、Managed Iceberg、Iceberg v3、Foreign Iceberg を GA としました。5つの主要機能:オープンAPI、カタログフェデレーション、クロスエンジンアクセス制御、ゼロコピーセキュア共有、AI主導の最適化。将来の Iceberg v4 と Delta 5.0 は統一メタデータ構造に収束します。

  • Unity Catalog は Managed Iceberg、Iceberg v3、Foreign Iceberg を GA でサポート。
  • 5つの主要機能:オープンAPI、カタログフェデレーション、クロスエンジン属性ベースアクセス制御、ゼロコピーセキュア共有、AI主導の最適化。
サイト内本文

非同期エージェントの時代 — CognitionのWalden Yan氏とOpenInspectのCole Murray氏

本記事は、AIコーディングツールが開発者と密接に連携するローカルワークフローから、非同期のバックグラウンドエージェントへと進化する過程を探り、2025年12月のモデルの変曲点が「スペックからPRへ」のワークフローを実用的にしたこと、そしてDevinやOpenInspectのアーキテクチャ、セキュリティ、テスト、メモリ、マルチエージェントオーケストレーションについて詳しく解説している。

  • バックグラウンドエージェントが主流になりつつあり、DevinのマージされたPRの割合がCognitionリポジトリで16%から80%に増加。
  • 2025年12月のモデルアップグレード(Opus 4.5/GPT 5.2)により、エージェントが仕様から完全なプルリクエストを自律的に生成できるようになった。
サイト内本文

AWSがOpenSearchのアーキテクチャをスクラップしてエージェントワークロードを追いかける理由

AWSはOpenSearch Serverlessをほぼ完全に再構築し、ストレージとコンピューティングを分離してアイドル時にゼロスケール、コストを60%削減、オートスケールを20倍高速化しました。AIエージェントのバースト的なワークロードに対応し、GPUアクセラレーション、VercelやKiro IDEとの統合も実現。将来のエージェントメモリやログ分析への道筋も示しています。

  • AWSはOpenSearch Serverlessの約97%を再構築し、ストレージとコンピューティングを分離、アイドル時にゼロまでスケールダウン可能に。
  • 新アーキテクチャはAIエージェントのバースト的ワークロード向けで、オートスケールが20倍高速化、コストは60%削減。
サイト内本文

AWS、OpenSearch Serverless を再構築、Agent Skills を導入

このアップデートにより、OpenSearch はエンタープライズ向けの基盤インフラストラクチャとして位置づけられ、高速でスケーラブルな検索が可能になります。

  • AWS が OpenSearch Serverless を再構築
  • Agent Skills を新たに導入
サイト内本文

SIA: オープンソースの自己改善型AI

SIAは、メタエージェント、タスクエージェント、フィードバックエージェントを連携させ、ベンチマークタスクにおけるAIシステムの性能を自律的に向上させるオープンソースフレームワークです。LawBenchで56.6%の向上、GPUカーネル実行時間の91.9%削減、単一細胞RNAデノイジングで502%の改善を達成し、MLE-Bench Hardで第1位を獲得。ローカル実行とカスタムタスクに対応し、MITライセンスで提供されています。

  • SIAはメタ、ターゲット、フィードバックエージェントの反復ループにより自律的に自己改善を行います。
  • LawBench、GPUカーネル最適化、scRNAデノイジング、MLE-Benchで顕著な性能向上を達成。
サイト内本文

マイクロン、AIメモリ需要で時価総額1兆ドル突破

マイクロン・テクノロジーは5月26〜27日に時価総額1兆ドルを突破し、SKハイニックスと同一週に達した。これは純粋なメモリチップメーカーとして初の快挙。エージェント型AIワークロードによるHBM需要が原動力で、UBSは長期供給契約を理由に目標株価を3倍の1,625ドルに引き上げた。マイクロンの株価は年初来3倍以上に上昇。

  • マイクロンとSKハイニックスが同一週に時価総額1兆ドル達成、メモリ専業メーカーで初
  • エージェント型AIのワークロードがHBM需要を牽引
サイト内本文

AIエージェントフレームワーク比較

2026年5月時点で、7つの主要なAIエージェントフレームワーク(DSPy、Claude Agent SDK、OpenAI Agents SDK、CrewAI、AutoGen、LangGraph、Google ADK)は、設計思想、アーキテクチャ、プロダクション対応度などで異なる。LangGraphがプロダクション展開でリードし、Claude Agent SDKは最も強力なシングルプロバイダー機能を提供し、OpenAI Agents SDKは最もクリーンなマルチエージェントハンドオフを提供し、CrewAIは開発速度に優れる。市場は2025年の78.4億ドルから2030年には526.2億ドルに成長すると予測されている。

  • LangGraphは最も成熟した永続実行モデルを持ち、約400社に導入されている。
  • Claude Agent SDKは最も強力なシングルプロバイダー機能を提供するが、Anthropicモデルに限定される。
サイト内本文

Anthropic、誠実さを武器にしたOpus 4.8を発表

Anthropicの最新ClaudeモデルOpus 4.8は、誠実さを重視し、根拠のない主張を減らし、不確かな場合にそれを認めるようになった。また、大規模タスク向けに数百のサブエージェントを調整する動的ワークフローを導入。標準料金は変わらず、高速モードは安価に。

  • Claude Opus 4.8は誠実さが大幅に向上し、エラー率が約4倍低下
  • 動的ワークフローにより、数百の並列サブエージェントを計画・実行し、結果を検証して報告
サイト内本文

Amazon Quick と Snowflake Cortex AI で AML アラートトリアージを自動化

この記事では、金融サービスにおいて最も労働集約的なワークフローの1つであるアンチマネーロンダリング(AML)アラートトリアージを自動化することで、統合の実際の動作を紹介します。Amazon Quick Flows と Snowflake Cortex を、Amazon Quick モデルコンテキストプロトコル(MCP)統合を介して接続したトリアージワークフローを構築します。テスト環境では、Amazon Quick を使用した自動化ワークフローにより、アラート調査時間を30~90分から5分未満に短縮しました。実際の結果は、アラートの複雑さとデータ量によって異なる場合があります。

  • Amazon Quick Flows と Snowflake Cortex は MCP を介して統合され、AML アラートトリアージを自動化します。
  • 自動化ワークフローにより、調査時間が30~90分から5分未満に短縮されました。
サイト内本文

Data Formulator 0.7:エンタープライズデータ向けAI搭載データ分析

Data Formulator 0.7は、データ接続、エージェントガイドによる探索、ビジュアライゼーションの改善を共有ワークスペースで統合した、エンタープライズデータ分析向けのオープンソースAIシステムです。

  • エンタープライズデータ分析向けのオープンソースAIシステム
  • データコネクタ機能により、多様なデータソースへの管理・再利用可能な接続をサポート
サイト内本文

Serverless 2.0:3つの推論実行方法、1つのAPI

Fireworks AIはServerless 2.0を発表し、予約容量なしでStandard、Priority、Fastの3つの推論パスを1つのAPIで提供します。Priorityパスは混雑時により強いリクエスト許可を提供し、Fastパスは約2倍のスループットを実現。また、負荷制限(503)とレート制限(429)を明確に分離し、リトライロジックとアラートを改善します。

  • Serverless 2.0は3つのサービスインテントを提供:Standard(デフォルト)、Priority(負荷時優先許可)、Fast(高スループット)。
  • Priorityはピーク負荷テストで0%の503エラーレートを達成、Standardは0.082%。
サイト内本文

Anthropic、シリーズHで650億ドル調達、評価額9650億ドルに

Anthropicは、Altimeter Capital、Dragoneer、Greenoaks、Sequoia Capitalが主導するシリーズHラウンドで650億ドルを調達し、評価額は9650億ドルとなりました。調達資金はAI安全性研究の推進、計算能力の拡大、およびClaudeの需要増加に対応するために使用されます。

  • AnthropicがシリーズHで650億ドルを調達、評価額は9650億ドル
  • 年換算収益は470億ドルを超え、企業顧客が増加
サイト内本文

Dubbing v2 の発表:革新的な新しい吹き替えモデル

本日、ElevenLabs は革新的な AI 吹き替えモデル Dubbing v2 をリリースしました。従来のテキストベースの吹き替えとは異なり、Dubbing v2 は元のパフォーマンスそのものに直接条件付けし、声の調子、テンポ、感情を 90 以上の言語にわたって保持します。これにより、翻訳された音声があたかも元の話者が実際にその言語で話したかのように聞こえるようになります。

  • Dubbing v2 は元の話者の感情やパフォーマンスを 90 以上の言語で保持
  • テキストだけでなく元の音声に直接条件付けし、自然な発話を実現
サイト内本文
研究

Show HN:母のがん診断後、AI医療記録ハブを開発しました

KeptWellは、医療書類の整理・理解・共有を支援するAIプラットフォーム。重要な情報の抽出、検査値の傾向追跡、診察時の質問生成、家族のコラボレーションを実現。プライバシー重視、広告なし、データエクスポート可能。

  • 創業者が母のがん診断後に開発し、医療情報管理を簡素化。
  • PDF、画像、音声録音などをアップロード可能、AIが重要な所見と検査値を抽出。
サイト内本文

研究:AIの医療クエリへの応答精度は約76%

ペンシルベニア州立大学の研究者らによる新たな研究では、AI搭載チャットボットが一般ユーザーの日常的な健康に関する質問に約76%の精度で回答していることが明らかになり、現実世界の対顧客アプリケーションにおける信頼性に疑問が生じています。産科・婦人科や耳鼻咽喉科ではAIのパフォーマンスが最も良く、内科、神経科、皮膚科では最も悪かったとされています。研究者らは、AIツールは患者よりも医師が使用する方が適していると示唆しています。

  • LLMの健康クエリへの応答精度は全体で76.2%だが、エラー率は20%超と人間の医師の約2倍。
  • 産科・婦人科と耳鼻咽喉科でAIの性能が最も良く、内科、神経科、皮膚科で最も悪かった。
サイト内本文

StoryScope:AIフィクションの特異性を調査する

新しい研究で、文体ではなく物語構造の分析によりAI生成小説と人間創作を区別する手法StoryScopeが提案された。61,608話の物語から304の特徴を抽出し、人間対AI検出で93.2%のマクロF1を達成。さらに、Claude、GPT、Geminiなど異なるLLMに固有の物語指紋を特定した。

  • StoryScopeは、文体の手がかりに頼らず、キャラクターの主体性や時間的不連続性などの談話レベルの物語特徴を抽出してAIフィクションを識別する。
  • 61,608話(各約5,000語)のコーパスで、物語特徴のみで人間対AI検出に93.2%のマクロF1、6者著者帰属に68.4%のマクロF1を達成。
サイト内本文

FreeBSDのAI監査

研究者がAIを活用してFreeBSDカーネルのセキュリティ監査を実施し、5つのローカル権限昇格やbhyveゲストからのホスト脱出を含む15のバグを発見。3つのLPEエクスプロイトを公開し、手法を共有してメンテナを支援する。

  • AI支援によるFreeBSDカーネル監査で15の脆弱性を発見
  • 5件のローカル権限昇格、1件のVM脱出を含む
サイト内本文

初の教皇によるAIに関する回勅が大部分AIによって執筆された証拠

著者はテキスト分析、統計的証拠、AI検出ツールを用いて、教皇レオ1世の最初の回勅『Magnifica Humanitas』の相当部分がAI(特にClaude)によって書かれたと論じています。回勅におけるダッシュや「genuinely」の使用頻度が過去の回勅をはるかに上回り、Pangram検出器が複数の段落をAI生成と判定したことを挙げています。個々の証拠は説明可能かもしれませんが、複数の角度からの証拠の一致は無視しがたいとしています。

  • 回勅ではダッシュと「genuinely」の使用頻度が過去のどの回勅よりもはるかに高い。
  • AI検出ツールPangramが複数の段落を40~100%AI生成とフラグ付けしたが、過去の回勅ではすべて0%だった。
サイト内本文

極限の動的対称性により全方位多機能ロボットを実現

研究者らは、ロボットの重心加速度の均一性を動的等方性で定量化する「動的対称性」の概念を提案。シミュレーションと物理実験を通じて、高い動的対称性が軌道追従、タスク成功率、ロバスト性、回復力、エネルギー効率を大幅に向上させることを発見。Argusシリーズの球状ロボット、特にほぼ極限の動的等方性を達成した20脚の変種は、姿勢に依存しない移動、複雑地形の走破、高速自己安定化、部分的なアクチュエータ故障への耐性を示した。

  • 動的対称性はロボットの重心加速度の均一性として定義され、動的等方性指標で定量化される。
  • 1000以上のシミュレーション形態において、高い動的対称性が性能を一貫して改善し、理論限界に近づくほど効果が顕著になる。
サイト内本文

箱の中を見透かす:レーダー信号を用いた非視線3D再構成

本論文では、視線(LoS)幾何学を利用してRF伝搬をガイドし、隠れたシーンの安定した物理的に整合性のある3次元再構成を実現する統一フレームワークGeRaF 2.0を紹介する。RFベースの幾何学再構成において最新技術を達成した。

  • RF信号は遮蔽物を透過できるが、低解像度とノイズの問題がある。
  • 既存の非視線再構成手法はLoS制約を無視し、不安定で表面が曖昧になる。
サイト内本文

Bixonimania – AIが信じた偽の病気

研究者が偽の皮膚疾患を作り出してAIをテストしたところ、AIチャットボットはそれを真実と信じ込んだ。この実験はAI医療アドバイスの危険性と、トレーニングデータにおける人間の監視不足を浮き彫りにしている。

  • 研究者は偽の皮膚疾患「bixonimania」を作成し、オンラインで拡散させた。
  • ChatGPTなどのAIチャットボットはこれを実際の疾患として扱った。
サイト内本文

Show HN: Trelk – 読み、考え、つなぐ

Trelk は、一度購入すればサブスクリプション不要の知識管理アプリです。デバイス上の AI を使用して記事や論文、メモを保存・整理・接続します。ハイブリッド検索、知識グラフ、RAG チャット、フラッシュカードの分散復習、コミュニティコレクションなどの機能を備え、プライバシー重視でオフラインでも動作します。

  • 一度購入すればサブスクリプション不要
  • デバイス上の AI による知識管理と接続
サイト内本文

信頼できる第三者評価のための共有プレイブック

OpenAIは、フロンティアシステムのモデル能力、安全対策、妥当性を評価する方法を網羅した第三者AI評価ガイダンスを公開。

  • OpenAIが第三者評価の枠組みを公開。
  • 能力、安全対策、妥当性に焦点。
サイト内本文

生成AIを使うべきか否か:生成AIの倫理的使用

この記事は、生成AI(GenAI)の倫理的側面を包括的に考察し、ソフトウェア開発などの分野での利点と、膨大なエネルギー消費、電子廃棄物、誤情報の拡散、教育や科学への脅威、民主主義への危険、そしてデジタル植民地主義といった欠点を分析する。著者らは、倫理的行動は利益と損害のバランスを考慮する必要があり、多くの場合、トレードオフを伴うと主張する。

  • GenAI(ChatGPTなど)は、エネルギー消費、電子廃棄物、誤情報、知的財産権の問題など深刻な負の側面がある。
  • LLMは真の推論能力を持たず、幻覚を起こしやすく、真偽を区別できない。
サイト内本文

AIは思考を変えているが、置き換えてはいない | 読者の手紙

リチャード・サッカリーとフィル・スネルがウェンディ・リューのAIに関する記事に応答し、AIは好奇心を減退させるどころか、むしろ高めていると主張する。

  • ウェンディ・リューはAIによる労働力の冗長化、誇大広告、環境コストを懸念している。
  • AIを多用するリチャード・サッカリーは、AIによってより好奇心が強くなり、未知の領域を探求できるようになったと述べている。
サイト内本文

Google AI Overviewsでお気に入りのニュースソースを優先表示させる方法

Googleは「Preferred Sources」機能をAI OverviewsとAI Modeに拡張し、ユーザーがお気に入りのサイトを設定してAI検索結果で目立たせることができるようにしました。新しいソースカルーセルや「Highly Cited」バッジも追加されました。

  • Googleの「Preferred Sources」機能がAI OverviewsとAI Modeで利用可能に。
  • お気に入りのニュースサイトを追加し、AI検索結果で優先表示させることができます。
サイト内本文
モデル

Claude Opus 4.8:よりスマートなモデル、正しい方向へ

AnthropicがClaude Opus 4.8を発表。ベンチマークスコアよりも信頼性、誠実さ、自律ワークフロー実行能力に重点を置く。価格は据え置き、高速モードは大幅値下げ。

  • Claude Opus 4.8は、生の知能よりも信頼性と不確実性の処理を重視。
  • 標準価格はOpus 4.7と同じ(入力100万トークンあたり5ドル、出力25ドル)。高速モードは3倍安い。
サイト内本文

新たなレビュー論文が主張:AIエージェントが考え行動する仕組みはコードにある——単なる出力ではなく

新しいレビュー論文は、自律型AIエージェントの真のボトルネックは言語モデル自体ではなく、その周りのソフトウェア層(ツール、メモリ、テスト、権限境界)であると主張しています。Deepseekは北京に専用の「Harness」チームを立ち上げ、モデル+ハーネス=AIエージェントという公式を確認しています。

  • 論文は、AIエージェントのボトルネックはモデルではなくソフトウェアハーネスにあると指摘。
  • ツール、メモリ、テスト、権限管理が重要な要素。
サイト内本文

オープンソースエコシステム

本記事は、オープンウェイトモデルやオープンプロトコル(MCPなど)がどのように私有化されるかという、オープンソースAI戦略の限界を探る。AnthropicによるStainless買収をケーススタディとして、補完的キャプチャと堀の移動を説明し、AIインフラの開発者体験層がプラットフォーム大手によって統合されつつあると指摘する。オープンソースの影響はその依存関係に大きく左右されるため、エコシステム全体の視点で分析する必要性を強調する。

  • オープンウェイトモデルは高価なハードウェアとモノリシックなアーキテクチャに依存し、オープンソース戦略として限界がある。
  • AnthropicによるStainless買収は、オープンプロトコル周辺の補完的レイヤーが私的に捕捉される例である。
サイト内本文

Anthropic、Claude Opus 4.8をリリース

AnthropicはClaude Opus 4.8をリリースしました。Opus 4.7のアップグレード版で、コーディング、エージェント作業、推論、知識作業の改善を謳っています。新機能として努力制御、動的ワークフロー、Messages APIのライブ更新を搭載。標準料金は百万トークンあたり入力5ドル、出力25ドル、高速モードは入力10ドル、出力50ドル(2.5倍速)で据え置き。初期テスターからはGPT-5.5とのコストパリティやツールステップの減少が報告されています。将来のロードマップとしてMythosクラスのモデルやサイバーセキュリティプロジェクトGlasswingも発表されました。

  • Claude Opus 4.8はOpus 4.7からコーディング、エージェント作業、推論、知識作業を改善。
  • 新機能:努力制御、動的ワークフロー、Messages APIのライブ更新。
サイト内本文

イメージ・エンパイア – アラン・ウォーバートンの新作短編映画

『イメージ・エンパイア』は、現代のAIモデルにおける現実と仮想の融合を描いたアニメーション寓話です。この映画は、アラン・ウォーバートンが取り組む研究プロジェクトの一部であり、研究論文や一連の関連イベントも含まれます。

  • この映画は、バークベック大学ヴァザーリ芸術技術センターでの博士研究に基づいています。
  • ナショナルビデオゲーム博物館がODIやケンブリッジ大学レバーヒューム未来知能センターと協力して委託しました。
サイト内本文

Hexo Labs、自己改善エージェント「SIA」をオープンソース化:ハーネスとモデル重みの両方を更新

Hexo Labsは、MITライセンスの下で自己改善ループ「SIA(Self-Improving AI)」を公開しました。フィードバックエージェントが各実行の軌跡を読み取り、scaffoldを書き換えるか、gpt-oss-120b上でLoRA重み更新をトリガーします。両方のレバーを組み合わせることで、LawBench、TriMul GPUカーネル、scRNA-seqデノイジングにおいて、scaffoldのみの反復を上回る結果を示しました。

  • SIAは、エージェントのscaffoldとモデル重みの両方を編集する初の自己改善ループです。
  • LawBenchタスクでは、重み更新を追加することで、ハーネスのみの50.0%から70.1%へ精度が向上しました。
サイト内本文

非接触物体操作のための分散型LLM駆動音響ロボットの協調

本論文は、大規模言語モデル(LLM)と音響移動ロボットを組み合わせた非接触物体操作のための分散型フレームワークを提案する。Whisper音声認識、LLM意味解析、JSONタスクスケジューリングを用いて、音声コマンドを調整されたマルチロボットアクションに変換する。2台のTurtleBot3ベースの音響ロボットを用いた実験では、逐次タスク96%、並列タスク86%、同期協調タスク70%の成功率を達成し、LLM駆動自動化のヒューマンロボットインタラクションにおける可能性を示している。

  • LLMと音響ロボットを統合した非接触物体操作のための分散型フレームワークを提案。
  • Whisper、LLM解析、JSONタスク表現、分散スケジューリングにより、順次・並列・同期タスクを実現。
サイト内本文

ラベルなしターゲットデータとソースドメイン監視を用いたロバストなクロスドメイン汎化

本論文は、ラベルなしのターゲットドメインデータを活用して医用画像AIのクロスデバイス汎化を改善する、ターゲット認識型自己教師あり事前学習とモデルアンサンブル戦略を提案する。小児手首骨折のポイントオブケア超音波評価に適用し、ターゲットドメインでDiceが6%以上向上し、ラベル効率的でプライバシー保護のアプローチを示した。

  • マスク画像モデリングと対照学習を組み合わせた自己教師あり事前学習により、ターゲットドメインのラベルなしで構造表現を学習。
  • 信頼度認識融合ヘッドを導入し、ソースとターゲットブランチの予測を適応的に統合。
サイト内本文

オープンソース安全ガードモデルのベンチマーキング:包括的評価

14のオープンソース安全ガードモデルの包括的評価により、Qwen Guard(4Bパラメータ)が83.97%の再現率でトップであることが明らかになった。一方、Llama Guard(12B)やGPT-OSS Safeguard(20B)などの大規模モデルは保守的で、最大75%の不適切コンテンツを見逃した。モデルサイズと安全性検出性能には相関がなく、汎用ガードモデルが専門モデルよりも優れていることが示された。

  • Qwen Guard(4Bパラメータ)が79,331サンプルのベンチマークで最高再現率(83.97%)を達成。
  • Llama Guard(12B)やGPT-OSS Safeguard(20B)は不適切コンテンツの75%を見逃す。
サイト内本文

Aryabhata 2:高度なSTEM推論のための強化学習の拡張

Aryabhata 2は、JEEやNEETなどの競争的STEM試験に特化した推論言語モデルであり、GPT-OSS-20Bを強化学習で後訓練したものです。PhysicsWallahの内部問題バンクを活用し、段階的にロールアウトグループサイズを拡大することで探索を促進します。評価では、ベースモデルを上回る性能を示し、出力トークンを最大64%削減しました。

  • Aryabhata 2は、競争的STEM試験向けに強化学習後訓練を適用。
  • GPT-OSS-20Bをベースに、PhysicsWallahのカスタム問題バンクを使用。
サイト内本文

RightNow-Arabic-0.5B-Turbo:語彙注入とエッジ優先デプロイメントによるオープンなサブ10億アラビア語言語モデル

本論文は、Qwen2.5-0.5Bをベースに語彙注入とエッジ優先デプロイメントを採用した518Mパラメータのアラビア語特化LLM、RightNow-Arabic-0.5B-Turboを提案する。アラビア語ベンチマークで平均精度35.9%を達成し、同クラスのオープンモデルを凌駕。COPA-arではFalcon-H1-1.5Bと同等の成績を1/3のサイズで達成。量子化後は398MB、単一H100上で635トークン/秒の推論速度を実現する。

  • Qwen2.5-0.5Bをベースに27,032のアラビア語トークンを追加した518Mパラメータのアラビア語LLM。
  • 3つのアラビア語ベンチマークで平均精度35.9%を達成し、同クラスの全オープンモデルを上回る。
サイト内本文

彼らは何を考えているのか?LLMにおける概念の定義、プロービング、追跡

大規模言語モデル(LLM)の影響力が拡大するにつれ、その意思決定を理解することが不可欠になっています。本論文では、低コストで線形プローブを用いてLLMの埋め込み内の概念を検出し、モデルが「考えている」内容を監視する手法を提案します。概念定義、プローブ訓練、およびコンテキスト間追跡のプロセスを4つの概念と3つのLLMで実証し、スケーラブルなモデル透明性への道を開きます。

  • LLM埋め込み内の概念を検出する低コストな線形プローブを提案。
  • データセット作成、プローブ訓練・テスト、大規模コンテキスト追跡の詳細を説明。
サイト内本文

ラベル空間再形成によるマルチモーダル学習のバランス調整

マルチモーダル学習では、収束の速いモダリティが最適化を支配し、他のモダリティが未学習となるモダリティ不均衡が問題となる。既存手法は弱いモダリティを強化するか勾配を調整するが、強いモダリティの最適化能力を犠牲にすることがある。本論文では、ラベル側の設計からマルチモーダルバランスを促進する初めての手法であるBalanced Multimodal Label Reshaping(BMLR)を提案する。BMLRはクロスモーダルラベル空間を再形成し、各モダリティの写像困難度を均等化することで、モダリティ間の相互作用を促進し、リッチなクラス間情報を注入する。実験により、BMLRは一貫してマルチモーダル性能を向上させ、多様なモデル設計と互換性があることが示された。

  • モダリティ不均衡は、特徴空間から共有ラベル空間への写像困難度の差に起因する。
  • BMLRはラベル側からマルチモーダルバランスを扱う初めての手法である。
サイト内本文

連続性と順序性が重要:大規模言語モデルによる効果的な時系列分析のための時系列トークンの制約

本稿では、トークンの初期化と訓練に幾何学的制約を統合し、時系列トークンの連続性と順序性を保持する戦略COMを提案。複数のベンチマークでトークンベースの時系列LLMの性能を一貫して向上させる。

  • トークンベースの時系列LLMは連続性と順序性を見落とし、性能が制限される。
  • COMは初期化と訓練で幾何学的制約を適用し、これらの特性を保持する。
サイト内本文

エージェンティックツール計画による分子リード最適化

TRACEは、ツール選択を逐次意思決定問題として定式化する軌道認識型LLM推論エージェントであり、構造制約下での将来を見据えた最適化を実現し、ADMET最適化タスクで高い成功率と特性改善を達成する。

  • TRACEはリード最適化におけるツール選択を逐次決定問題として扱う。
  • 軌道を考慮した決定により、分子類似性を保ちながらADMET特性を改善する。
サイト内本文

破局的忘却のメカニズム起源:RLがSFTより回路を保持する理由

最近の研究では、強化学習(RL)が教師あり微調整(SFT)よりも事前の能力を効果的に保持することが示されています。本論文はこれをメカニズムレベルに拡張し、微調整中の回路劣化を測定する「差分回路脆弱性」を導入します。Qwen2.5-3B-Instructを科学質問応答に適用した実験では、SFTはタスク適応が速いものの回路破壊と忘却が大きく、RLは回路を保持する代わりに適応が遅いことが明らかになりました。結果は、回路保持がRLの破局的忘却に対する頑健性を説明することを示唆しています。

  • SFTは適応が速いが内部回路を破壊し、破局的忘却を引き起こす。
  • RLはベースモデルの回路をより多く保持し、忘却が少ないがタスク適応は遅い。
サイト内本文

LLMトレーディングエージェントにおける表現シグネチャとリスクフィードバックアライメント

本研究は、TradeArenaテストベッドを用いて、金融意思決定環境における大規模言語モデル(LLM)エージェントの行動アライメントと表現ダイナミクスを分析する。計画埋め込みのドリフトや有効ランクの収縮など、測定可能な障害前兆を特定する。構造化されたリスクフィードバックは外部アライメント信号として機能するが、普遍的な性能向上策ではない。51銘柄の日中実験では、LLMの根拠が相関の高い資産への集中エクスポージャーを正当化するという相関の盲点が明らかになった。

  • LLMエージェントは、計画埋め込みのドリフトや有効ランクの収縮といった測定可能な障害前兆を示す。
  • 構造化リスクフィードバックは外部アライメント信号として機能するが、効果はモデルによって異なる。
サイト内本文

一つのマスクで全てを統べる:編集後の隠れた事実とその発見方法

ROMEやMEMITなどの知識編集手法は、事実固有の重み変更にもかかわらず共通のメカニズムに依存していることが明らかになった。編集された重みに学習されたバイナリマスクは70%以上の編集を逆転させ、共通の機能的部分空間を示す。このマスクは後期層の過剰注意を排除することで機能し、編集時に注入すると成功率が98%から38%に低下する。編集は知識を上書きするのではなく抑制するため、関連事実への伝播に失敗する。この研究は不正な編集の検出と防御に役立つ。

  • ROME/MEMITによる編集は、事実に関わらず共通の重み部分空間に依存する。
  • コンパクトなバイナリマスクが後期層の過剰注意を低減し、70%以上の編集を逆転。
サイト内本文

VFEAgent: エンドツーエンド自動有限要素解析のためのマルチモーダルエージェントフレームワーク

VFEAgentは、入力画像と問題記述から直接有限要素解析(FEA)のモデリングとシミュレーションを自動化するエンドツーエンドのマルチエージェントシステムです。マルチモーダル視覚言語マルチエージェントパイプラインと検証優先のコード合成フレームワークを組み合わせ、ReAct駆動の推論で構造化FEA仕様を抽出し、自己デバッグとフォールバック機構により実行可能性と物理的妥当性を確保します。実験では、完全で物理的に有効なシミュレーションを生成する成功率が高く、信頼性と正確性においてLLMベースのベースライン手法を上回り、エンジニアを退屈な手動分析から解放する可能性を示しています。

  • VFEAgentは画像と問題記述からFEAモデリングとシミュレーションを自動化。
  • ReAct駆動の推論を用いたマルチモーダル視覚言語マルチエージェントパイプラインを採用。
サイト内本文

フロンティアLLMベースのエージェントが自然表現型のオントロジーキュレーションのボトルネックを克服

新たな研究では、AnthropicとOpenAIの5つのフロンティア大規模言語モデルを「エージェントキュレーター」として自己完結型ワークスペースで動作させ、表現型注釈を自動化。エージェントは人間のキュレーターのばらつき範囲内の一貫性を達成し、従来のNLPツールを大幅に上回り、オントロジーキュレーションのスケーラビリティ問題に取り組む。

  • 表現型注釈は専門家に依存し、コストが高くスケールが難しい。
  • 研究では5つのフロンティアLLMをエージェントキュレーターとして自己完結型ワークスペースで使用。
サイト内本文

「レビューアーケード:LLMレビューの人間との整合性とゲーム可能性について」

本論文は、科学論文に対するLLM生成レビューと人間レビューの整合性を実証的に評価し、整合性は限定的であり、プロンプトやモデルによって大きく変動することを明らかにした。さらに、著者がLLMレビューに基づいて論文を反復修正することで、最大35%の論文で統計的に有意なスコア向上が得られる「ゲーム可能性」を示した。

  • LLMレビューと人間レビューの整合性は限定的
  • 整合性の質はプロンプトやモデルによって大きく異なる
サイト内本文

認知カテゴリカルトランスフォーマー:言語モデリングのための圏論的帰納バイアス

Cognitive Categorical Transformer(CCT)は306Mパラメータのアーキテクチャで、GPT-2 Smallに認知科学と圏論に基づくコンポーネントを追加し、WikiText-103で21.27のパープレキシティを達成。微調整ベースラインから2.92(12%)の改善。アブレーション実験により、改善の84%がGT-Full単体的メッセージパッシングによるものと判明。また、構造/一貫性の区別というパターンも発見。

  • CCTはWikiText-103で21.27のパープレキシティを達成、GPT-2 Smallベースラインより2.92低い。
  • アブレーション研究により、改善の84%がGT-Full単体的メッセージパッシングに起因。
サイト内本文

Rosalind Biodefense で社会の強靭性を強化

OpenAI は Rosalind Biodefense を立ち上げ、審査済みの開発者と米国政府パートナーに対し、生物防衛、公衆衛生、パンデミック対策を推進するために GPT-Rosalind への信頼できるアクセスを拡大します。

  • OpenAI が Rosalind Biodefense を開始
  • GPT-Rosalind への信頼できるアクセスを拡大
サイト内本文

清華大学系チームが大規模モデル向け「スマート計算パワーグリッド」を構築

清華大学出身のスタートアップ、Shishi Technologyは独自の並列最適化技術により、異種計算リソースと推論最適化エンジンを統合し、トークンあたりのコストを40%削減。国産トークン最適化工場を目指し、AI導入の障壁を低くする。

  • 2021年設立、国家スーパーコンピューティングセンター(無錫)のコアチーム出身、創業者Yan Bowenは清華大学博士研究員。
  • NVIDIA GPUや国産AIチップを統合した異種計算プールで、遊休リソースを有効活用。
サイト内本文

Anthropicの年換算売上高が470億ドルに到達

Anthropicは650億ドルのシリーズH資金調達の中で、年換算売上高が2026年5月初旬に470億ドルを超えたと発表した。これは4月の300億ドル、2月の140億ドルからの急増であり、2025年末の90億ドルから約5倍の成長となる。一部の懐疑論はあるが、資金調達発表における虚偽は証券詐欺に当たるため信頼性は高いと指摘されている。

  • Anthropicの年換算売上高が470億ドルに達した(2026年5月)。
  • 2025年末90億ドル→2026年2月140億ドル→4月300億ドル→5月470億ドルと急成長。
サイト内本文

Claude Opus 4.8:「控えめだが確かな改善」

AnthropicがClaude Opus 4.8をリリース。前モデルからの「控えめだが確かな改善」と説明。正直さが向上し、根拠のない主張を避ける傾向が強まった。コードの欠陥を見逃す率は4分の1に減少。また、会話途中でのシステムプロンプト変更やプロンプトキャッシュの最小トークン数引き下げなどの新機能を搭載。

  • AnthropicがClaude Opus 4.8をリリース。『控えめだが確かな改善』と評価。
  • 正直さが向上:根拠のない主張を避け、コードの欠陥を見逃す率が4分の1に減少。
サイト内本文

Claude 4.8が登場!一部の能力でMythosを上回り、数百のサブエージェントを並行処理

Anthropicが最新フラッグシップモデルClaude Opus 4.8をリリース。端末エンジニアリングと知識作業で改善が見られ、一部ベンチマークでMythosを凌駕。誠実性が大幅に向上し、コード欠陥の見逃し率が前世代の4分の1に。新機能「Dynamic Workflows」により、タスクを数百の並行サブエージェントに分割して実行可能。

  • Claude Opus 4.8が4.7から43日でリリース、コーディングと知識タスクで進歩
  • Dynamic Workflows:ClaudeがJavaScriptオーケストレーションスクリプトを生成し、数百の並行サブエージェントを調整
サイト内本文

llm-anthropic 0.25.1 リリース

llm-anthropic 0.25.1 では、Claude Opus 4.8 モデルのサポート、有効な組織向けの高速モードオプション、各モデルのデフォルト max_tokens が8192から各モデルの最大出力に変更されました。

  • 新しいモデル: Claude Opus 4.8 (claude-opus-4.8)。
  • 高速モード用の -o fast 1 オプション(組織で機能が有効な場合)。
サイト内本文

明らかに虚偽と警告されても、LLMは虚偽の記述を信じる

「否定無視」に関する新たな研究により、大規模言語モデルは訓練データ中で明らかに虚偽とラベル付けされた記述でも吸収してしまうことが判明。合成文書で微調整後、テストしたモデルでは虚偽の主張に対する「信念率」が2.5%から92.4%に急上昇し、LLMが幻覚を起こす理由の一端を説明している。

  • LLMは訓練データの統計パターンを学習し、明示的な否定ラベルを無視する。
  • 虚偽とマークされた記述でも、モデルの知識として吸収される。
サイト内本文

Anthropic、Claude Opus 4.8 をリリース、動的ワークフローとより安価な高速モードを提供、ワークフローは最大1,000サブエージェント

Anthropic が Claude Opus 4.8 を発表し、Claude Code の2つのアップデートを同時にリリース。動的ワークフローは最大1,000のサブエージェントを並列実行し、高速モードは出力速度を2.5倍に向上しつつ価格を3分の1に低減。両方とも研究プレビュー。

  • 動的ワークフローは、Claude がタスクに応じてサブエージェントを調整するJavaScriptスクリプトを作成し、最大16並列、合計1,000のエージェントを実行可能。
  • 高速モードはOpus 4.8で2.5倍の出力速度を実現、価格は3倍安くなり、使用クレジットが必要。
サイト内本文

Amazon SageMaker AI でアゼルバイジャン語モデルを訓練

アゼルバイジャンの通信事業者Azercellは、AWS Generative AI Innovation Centerと協力し、Amazon SageMaker AI上でアゼルバイジャン語LLMを構築。カスタムトークナイザー、FSDP、Liger Kernelの最適化により、トレーニングスループット23%向上、ピークGPUメモリ58%削減、トークン効率2倍を達成。

  • AzercellがAmazon SageMaker AIでアゼルバイジャン語LLMの本番対応フレームワークを開発。
  • カスタムトークナイザーが1単語あたりのトークン数を3.22から1.59に削減し、効率が2倍に。
サイト内本文

Anthropic、Claude Opus 4.8を公開——「控えめだが確かな改善」、GPT-5.5をほとんどのベンチマークで上回る

AnthropicはClaude Opus 4.8をリリース。多くのベンチマークでGPT-5.5やGemini 3.1 Proを上回り、コードエラーの自己検出率は前世代比4倍。同時に、数百の並列サブエージェントを起動して大規模なコードベース移行などを処理する動的ワークフローも導入した。

  • Claude Opus 4.8はほとんどのベンチマークでGPT-5.5とGemini 3.1 Proを上回る。
  • コードエラーの自己検出率が前世代比4倍に向上。
サイト内本文

AIモデルリリーストラッカー:Opus 4.8のミスアライメント率はClaude Mythosプレビューと同程度

すべての新モデルが宣伝通りとは限りません。本トラッカーは各リリースを同種モデルと比較し、どのモデルが時間を費やす価値があるかを示します。この記事では、Claude Opus 4.8、GPT-5.5 Instant、Nemotron 3 Nano Omni、GPT-5.5、ChatGPT Images 2、Claude Opus 4.7、Claude Mythos(プレビュー)、GPT-5.4、Claude Opus 4.6、GPT-5.3-Codexなど、2026年現在の主要なモデルリリースとその特徴、重要性をまとめています。

  • AnthropicのOpus 4.8は低コストで高速な思考モードを提供し、ミスアライメント率がOpus 4.7より低く、Mythosプレビューと同等と主張。
  • OpenAIのGPT-5.5 Instantは幻覚を52.5%削減し、ChatGPTのデフォルトモデルとなり、誤情報の拡散防止に貢献。
サイト内本文

Mistral AI、Digital Realtyと提携し欧州AIインフラを拡大

フランスのスタートアップ企業Mistral AIは、Digital Realtyのパリ南キャンパスで10メガワットのコンピューティング能力を確保しました。

  • Mistral AIがDigital Realtyのパリ南キャンパスで10MWの計算能力を確保
  • この提携は欧州のAIインフラ拡大を目指す
サイト内本文

Claude Opus 4.8 登場:努力制御、動的ワークフロー、安価な高速モード、より正直で欺瞞の低減

Anthropic はフラッグシップモデル Opus 4.8 をリリース。ユーザーは Claude の「努力」レベルを調整可能になり、動的ワークフローで大規模コーディングタスクに対応、高速モードの価格が従来の3分の1に。ベンチマークでは GPT-5.5 や Gemini 3.1 Pro をリードするが、端末コーディングでは OpenAI に劣る。誠実さと自律性サポートが向上し、欺瞞率が大幅に低下。

  • ユーザーは Claude の「努力」レベルを調整可能になり、応答品質と速度をトレードオフできる。
  • 動的ワークフロー(研究プレビュー)により、単一セッションで数百の並列サブエージェントを実行し、大規模なコードベース移行が可能。
サイト内本文

Claude Opus 4.8 が AWS で利用可能に

Anthropic の最先端 Opus モデルである Claude Opus 4.8 が Amazon Bedrock および AWS 上の Claude Platform で利用可能になりました。コーディング、エージェントタスク、プロフェッショナルワークにおいて改善がもたらされ、長期運用の本番ワークフロー向けの一貫性と自律性が向上しています。

  • Claude Opus 4.8 は Anthropic の最も先進的な Opus モデルで、AWS 上で提供開始。
  • コーディング、多段階自律タスク、プロフェッショナルワークでパフォーマンスが向上し、出力のばらつきが低減。
サイト内本文

クロードの新モデル、失敗時に“正直”に振る舞う

Anthropic は木曜日に Claude Opus 4.8 をリリースし、「正直さ」を強調。初期テスターは、モデルが不確実性を積極的に示し、根拠のない主張を減らす傾向があると報告。評価では、コードの欠陥を見逃す割合が前世代比で約4分の1に低減。さらに、ユーザーはタスクに割く努力量を調整可能で、「動的ワークフロー」機能により数百のエージェントを並行実行できる。

  • Claude Opus 4.8 は不確実性を明示し、根拠のない主張を避ける。
  • コードレビューでの欠陥見逃し率が前世代比で約4分の1。
サイト内本文

Claude Opus 4.8 発表:より効率的でインテリジェントに

Anthropic は Claude Opus 4.8 をリリースしました。これはフラッグシップモデルの最新バージョンで、ベンチマーク、協調性、正直性などで大幅な改善を遂げています。また、努力制御、動的ワークフローなどの新機能も導入されました。Opus 4.8 はコーディング、エージェントタスク、推論、知識作業のテストで前モデルを凌駕し、価格は据え置きです。さらに、より高知能なMythosクラスのモデルも予告されています。

  • Claude Opus 4.8 は複数のベンチマークで Opus 4.7 を上回り、特に正直さとエージェント能力で顕著な進歩
  • 新機能:努力制御、Claude Code の動的ワークフロー、API の改善
サイト内本文
ツール

ジョニー・アイヴがデザインした奇妙なフェラーリ

フェラーリ初の電気自動車「Luce」は、ジョニー・アイヴ卿のデザインで従来のフェラーリとは一線を画す外観が話題に。Vergecastではそのデザインや技術、EV市場への影響を議論し、AIへの消費者の反発なども取り上げる。

  • フェラーリ初のEV「Luce」はジョニー・アイヴがデザインし、従来と異なる外観。
  • VergecastでLuceのデザイン、技術、EV市場の現状を議論。
サイト内本文

ボストン小児病院、AIで新たな診断を実現

ボストン小児病院はOpenAIの技術を活用し、患者ケアの向上、業務負担の軽減、そして40以上の希少疾患の診断に成功しています。

  • ボストン小児病院がOpenAI技術で希少疾患の診断を支援
  • AIが医療スタッフの業務負担を軽減
サイト内本文

AI生成コードを素早く理解

ArchToCodeはコードとGitHubからAI Mermaid図を生成するツールです。

  • ArchToCodeはコードをMermaid図に変換
  • GitHub統合をサポート
サイト内本文

教皇のAIに関する回勅に感謝する理由

教皇レオ14世は「マグニフィカ・フマニタス」というAIに関する回勅を発表し、急速に発展する技術の利用と誤用について警告しました。著者のフランシン・プローズは感謝しており、シリコンバレーがこれを軽視するのは誤りだと述べています。

  • 教皇レオ14世がAI回勅「マグニフィカ・フマニタス」を発表。
  • 回勅はAIの利用と誤用について警告。
サイト内本文

アマゾン、従業員による無意味なタスクでスコア操作の内部AIランキングを廃止

アマゾンは、従業員が意味のないAI使用でスコアを水増しし、クラウドコストが増加したため、社内AIランキングを廃止した。

  • アマゾンが内部AIリーダーボードを廃止。従業員が無意味なタスクでスコアを操作。
  • メールの要約や無関係な画像生成など、無意味なAI使用が横行。
サイト内本文

面白くも真剣、チェンが卒業生にAI警告

コメディアンのチェン氏がハーバード大学第375回卒業式で、ユーモアを交えつつ真剣にAIについての警告を卒業生に伝えました。

  • チェン氏はコメディの形でAIリスクに言及。
  • ハーバード大学第375回卒業式で行われた。
サイト内本文

Drafted:AIで瞬時に家をデザイン

Draftedは、ユーザーが瞬時に住宅空間をデザインできるAIツールです。

  • AIを活用した住宅デザインツール
  • デザインを瞬時に生成
サイト内本文

テクノロジーにおける怒りを誘う40の問題

教皇レオ14世のAIに関する回勅に触発され、本記事はテクノロジーにおける最も苛立たしい40の問題をユーモアを交えて列挙する。ワンタイムパスワードが届かないことから、車のタッチスクリーン、役に立たないチャットボットまで。テクノロジー企業が人間性を無視していることを批判。

  • 教皇の回勅を枠組みに、40のテクノロジーの悩みをリストアップ。
  • パスワードシステムの不具合、QRコード駐車アプリ、無能なチャットボットなどの共通の不満。
サイト内本文

Pubflow:AIアプリ開発を高速化するバックエンド信頼層

Pubflowは認証、バックエンドロジック、インフラを統合した統一システムを提供し、AIアプリ構築時のグルーコードを不要にします。マルチデータベース対応、多言語対応、プロダクション対応のスターターキットを備えています。

  • PubflowはAIアプリ開発のための統一信頼層を提供します。
  • 認証(Flowless)、バックエンド(Flowfull)、インフラ(Pubflow Cloud)を統合。
サイト内本文

Microsoft 365 Copilot、高速化とクリーンなデザインに

Microsoftは、Microsoft 365 Copilotの改良版を発表。読み込み速度が2倍になり、デザインが洗練されました。プログレッシブディスクロージャー機能やテキスト整形機能を搭載。

  • 再設計により読み込み速度が2倍に、応答の信頼性と構造性が向上
  • プログレッシブディスクロージャー機能でプロンプトに応じたツール表示
サイト内本文

教皇の呼びかけに応えて:人工知能の世界で人間性を最優先に | 手紙

スーザン・オマン博士が、AIをめぐる議論から一般市民が排除されていると指摘。英国議会のAIに関する超党派グループに証拠を提出し、AIへの懸念が2年間で10%上昇し、91%が経済的利益よりも公平性を優先すべきと考えていることを示した。

  • 一般市民はAIの議論から一貫して除外されている
  • AIへの公衆の懸念が2年で10%増加
サイト内本文

タイ警察、スパンコールドレス姿で手錠かけられた容疑者と撮影の画像はAI偽造と判明

派手なフェスティバルドレスを着たタイ警察官が麻薬密売人を取り囲む衝撃的な画像が世界中で拡散されたが、実際には警察署のFacebookアカウント管理者がより親しみやすいイメージを作るためにAIで生成したものだった。

  • タイ警察が発表した華やかなドレス姿の警察官と容疑者の写真は、実際にはAI生成画像だった。
  • 画像は警察署のFacebook管理者が親しみやすいイメージ作りを目的に作成したもの。
サイト内本文
チップ

1941年の株券が教えてくれた、OpenAIの誰よりも深いAIの本質

19世紀の鉄道ブームと現在のAI投資ブームを比較し、巨額の資本支出、金融革新、そしてバブルと暴落の歴史的先例を強調する。AIの金融インフラは鉄道と同様に変革的であり、かつリスクも同様であると論じる。

  • 1850年代の鉄道投資はGDPの3-5%に達し、現在の5大ハイテク企業のAI投資と類似する。
  • 鉄道債券が現代金融市場を創り出したように、AIは資本市場を再形成している。
サイト内本文

軌道コンピューティング

本稿では、宇宙にAIデータセンターを建設する可能性を分析。物理的利点(継続的な太陽光、受動的冷却、真空中のレーザー通信)と工学的制約(熱放散、放射線耐性、トレーニング同期、メンテナンス)をカバー。鍵となる前提はスターシップの打ち上げコスト。複数のスタートアップ、Google、SpaceXがパイロットプログラムを発表。短期的な投資への影響は限定的だが、監視に値する。

  • 軌道AIデータセンターは、LEOでの連続太陽光、受動放射冷却、真空光速レーザーリンクを活用し、地上データセンターに対して潜在的優位性を持つ
  • 工学的課題には、熱放散(高密度クラスターは非現実的に大きな放射体を必要とする)、放射線耐性(商用チップの軌道上寿命は不明)、トレーニング同期レイテンシが含まれる
サイト内本文

サム・アルトマン氏、かつて予測したAIによる「雇用の終焉」はおそらく起こらないと発言

OpenAIのCEOサム・アルトマン氏は、AIが大規模な失業を引き起こすとの以前の予測を撤回し、「雇用の終焉」は起こらない可能性が高いと述べた。彼は自身の直感が間違っていたことを認め、職場における人間同士の交流の価値が代替不可能であることを挙げた。他の業界リーダーが依然として雇用の混乱を警告する一方で、アルトマン氏の発言はAIのコスト、導入ペース、世論を考慮したものとなっている。

  • アルトマン氏は以前、AIがほとんどの仕事を代替すると予測していたが、現在は「間違っていて良かった」と述べ、雇用の終焉は起こらないとしている。
  • 同氏は、仕事における人間同士の交流という要素はAIに代替できず、雇用状況の見方が変わったと説明。
サイト内本文

AIに仕事を奪われることはない

歴史的な技術サイクル(アインシュタインの奇跡の年、電気革命など)をAIブームに当てはめ、基礎的ブレークスルーの後には長い応用期が続くことを論じる。応用期には一部の職は消えるが、多くの新たな職が生まれる。AIは理論的ブレークスルー期にあり、応用時代が後に来る。著者は、AIを応用する人々が新たな電気技術者となり、全体としてより多くの人が利益を得ると楽観視する。

  • 歴史的パターン:革新的理論の後には数十年にわたる応用期が続き、一部の仕事は消えるが多くの新しい仕事が生まれる。
  • 現在のAIは1905年のアインシュタインの奇跡の年に似ており、応用時代はまだ来ていない。
サイト内本文

mKernel:マルチGPU・マルチノード融合カーネルライブラリ、GPU駆動通信を実現

UC BerkeleyのUCCLチームがmKernelをリリース。ノード内NVLink、ノード間RDMA、高密度計算を単一の持続的CUDAカーネルに融合し、AIワークロードの通信オーバーヘッドを削減。通信はフォワードパスの43.6%、トレーニング時間の32%を占める可能性がある。5つの融合カーネルを提供し、ConnectX-7とAWS EFAバックエンドをサポート。

  • mKernelはノード内NVLink、ノード間RDMA、計算を単一の持続的CUDAカーネルに融合
  • MoEモデルでは通信オーバーヘッドが実行時間の最大47%を占める
サイト内本文

ChatGPTだけじゃない:Elon MuskのGrokipediaから回答を取得するAIチャットボット

ChatGPTやGoogleのAI Overviews、GeminiなどのAIツールが、Elon Muskが立ち上げたAI生成百科事典Grokipediaを引用し始めており、正確性や誤情報拡散への懸念が高まっている。現在Grokipediaの引用は全体のごく一部だが、特にChatGPTでは主要な情報源として扱われる傾向があり、その割合は増加傾向にある。専門家は、人間の監督を欠いたAI生成のGrokipediaを引用することは、偏見や誤りの拡散につながると警告している。

  • ChatGPT、Google AI Overviews、GeminiなどがGrokipediaを引用
  • Grokipediaの引用は11月以降増加傾向にあるが、Wikipediaには及ばない
サイト内本文

AIウィークリー第497号:AIの労働戦争がついにグローバルに拡大

今週、AIと仕事の対立が4つの法域で同時に表面化した。ウィキペディア編集者は人員削減に抗議してストライキを計画、アマゾン従業員は内部AIランキングを無効化、中国の裁判所はAIを理由とした解雇を禁止する枠組みを執行、英国のシンクタンクは職場へのAI導入について従業員に発言権を与えるよう提言。同時に、先端ラボは政府との関係を深めている。

  • ウィキペディア編集者が財団の人員削減に抗議してストライキを脅かす
  • アマゾン従業員が内部AIランキングシステムを操作して無効化
サイト内本文

PyTorch プロファイリング(第1回):torch.profiler 入門ガイド

本記事は PyTorch プロファイリングシリーズの第1回です。最も単純な行列乗算とバイアス加算から始め、torch.profiler の設定方法、プロファイラテーブルとトレースの読み方、CPU と GPU のアクティビティ間の時間関係、ウォームアップと行列サイズが性能に与える影響について解説します。

  • torch.profiler は統計テーブルと時間軸トレースを出力し、ホットスポットと実行タイミングを把握できる。
  • 小さい行列演算はオーバーヘッド律速になるが、サイズを大きくすると計算律速に移行する。
サイト内本文

Apple、GeminiをiPhoneに統合へ

Appleはプライバシー重視のローカルAIを推進してきたが、最新レポートによると、SiriへのGemini統合にはGoogleやNvidiaのクラウドを多用する見込み。スマートフォンの限られた処理能力では大規模なAIモデルをローカルで動作させるのが難しく、クラウドとのハイブリッド方式が現実的だが、プライバシー面での妥協を意味する。

  • AppleはGoogleと提携し、今年後半にSiriにGemini AIを統合する計画。
  • iPhoneのチップ性能が限られているため、Siriは端末内処理とクラウド処理を併用。
サイト内本文

メディア・アドバイザリー:MITが地域量子ハブを設立

MITとマサチューセッツ州は、量子システム研究所(QSL)を設立する計画を発表。州からの2500万ドルの投資により、全州の研究者に開放される共有施設となり、量子研究の加速を目指す。

  • MITとマサチューセッツ州が量子システム研究所(QSL)を共同設立、2500万ドル投資
  • QSLは量子コンピュータ、センサー、相互接続を備えた世界初の共有施設
サイト内本文
政策

Futures Labの実用的AIプロトタイプをチェック

ウォータールー大学の学生たちが、Googleが資金提供するFutures Labで、AI生成ストーリーを使った日本語学習アプリやリアルタイム手話チューターなどのプロトタイプを開発し、教育と仕事の未来を再定義しようとしている。

  • Kanji Garden:AI生成のストーリーとビジュアルで日本語を学習。
  • SignFluent:リアルタイムで手話のフォームをフィードバック。
サイト内本文

AIに対するデータポイズニング

誤った情報をデータに混入することで、AIモデルによる個人データの収集と利用を防ぐ方法を学びます。

  • データポイズニングはAIのデータスクレイピングに対抗する技術です。
  • 誤ったデータを追加してAIモデルの訓練を妨害します。
サイト内本文

ライトセイルテクノロジー、テンセント出行サービスと戦略的提携、新たな予約販売を開始

ライトセイルテクノロジーがテンセント出行サービスと提携し、AI全感覚ウェアラブル端末をプラットフォームに統合。同端末はJD.comのベストセラーリストで1位を獲得し完売、新たな予約販売が割引価格で開始された。

  • ライトセイルとテンセント出行サービスが提携し、AIウェアラブルを交通サービスに統合。
  • AIウェアラブル端末はJD.comのベストセラーリストで8日連続1位を獲得し完売。
サイト内本文

AIの恩恵を労働者にも、発言権強化を 英シンクタンクが勧告

TUC支持のIPPR報告書は「労働者支援税」を提案し、職場でのAI導入における従業員の影響力を高めるよう求めている。

  • IPPR報告書はAI決定における従業員の交渉力強化を主張
  • 「労働者支援税」の導入で利益の公正な分配を目指す
サイト内本文

英国、亡命希望者の年齢推定にAIを活用へ

英国政府は来年から国境でAI顔認識技術を導入し、未成年を装う成人移民を検知する計画だ。写真から年齢を推定する技術だが、人権団体は未成熟で子どもの権利を損なうと批判している。

  • 英国は2027年半ばまでに亡命希望者の年齢推定にAI顔認識を導入。
  • 子どもを装う成人移民の特定を目指すが、ヒューマン・ライツ・ウォッチは計画の中止を要求。
サイト内本文

Xerolith:永続的なAI記憶と意識アーキテクチャプラットフォーム

Xerolithは、階層的なフラクタルボールトアーキテクチャを通じて、永続的なアイデンティティ、自律的な信念形成、基板に依存しない知識統合を実現する動作プラットフォームです。80日以上の連続運用で、2,817の生エントリを1,218の信念に圧縮し、完全な系譜追跡と内部調整を実現します。

  • 3層アーキテクチャ:エントリ、レッスン、信念により、生データから抽象原理への自律的統合を実現。
  • 80日以上および複数の再起動サイクルにわたって永続的なアイデンティティを維持。
サイト内本文

自動運転におけるレイテンシと精度のトレードオフを最適化するマルチ解像度エンドツーエンド深層ニューラルネットワーク

研究者らは、自動運転におけるレイテンシと安全性のバランスを取るため、マルチ解像度エンドツーエンド深層ニューラルネットワークを提案。ランタイムに入力解像度を選択することで、CARLAシミュレーションにおいて、車線逸脱、赤信号違反、衝突などの安全指標が固定解像度ベースラインと比較して一貫して改善された。

  • レイテンシと精度のトレードオフは自動運転のリアルタイム判断において重要。
  • 提案手法はマルチ解像度CNNであり、レイテンシ予算下でランタイムに入力解像度を選択可能。
サイト内本文

使い捨てソフトウェア——心配をやめてAIコードを受け入れる方法

本記事では「使い捨てソフトウェア時代」の概念を探求し、AI生成コードを産業革命の家具のように使い捨て可能として扱うことで開発を加速すべきだと主張する。実際のRailsプロジェクトの事例を用いてAIリファクタリングの成功を示し、「使い捨てコード宣言」として、意図、要件、安全性の三本柱を提案する。

  • AI時代のソフトウェアは安価で使い捨て可能であり、家具の産業革命に類似している。
  • 実際のRailsプロジェクトでAIリファクタリングにより2000行以上のコードが264行に削減された事例。
サイト内本文

超人間的AIに打ち勝つ方法(囲碁)[動画]

この動画では、囲碁における超人間的AIに対抗する戦略と方法を探ります。AIの弱点の活用、革新的な戦術、AIの意思決定の理解などが含まれます。

  • 囲碁の超人間的AIはトップ人間プレイヤーを上回っている
  • 動画はAIの潜在的な弱点とその活用法を分析
サイト内本文

Claude社Anthropic、シリーズHで650億ドル調達、評価額1兆ドル近くに

AnthropicはシリーズHラウンドで650億ドルを調達し、評価額は9650億ドルに達しました。CFOのKrishna Raoによると、年換算収益は470億ドルを超えています。同社は安全性研究、計算能力の拡大、Claude製品ラインの拡充に投資する計画です。

  • AnthropicがシリーズHで650億ドルを調達
  • 評価額は9650億ドルで1兆ドルに迫る
サイト内本文

AIゴールドラッシュが自分自身を食い尽くす

ウィキメディア財団は2億9600万ドルの準備金とAI企業へのデータ販売で利益を得ながら、長年勤めたスタッフとコミュニティ技術チーム全体を解雇した。この行動にボランティア編集者が怒り、ストライキを脅かしている。記事はCEOのAI精神病が組織の優先順位を歪め、AIによる人間の判断力の代替がデータ品質の悪循環を生む可能性を探る。

  • ウィキメディア財団が20年のベテランとコミュニティ技術チームを解雇、ボランティア編集者がストライキを脅かす。
  • AI企業はウィキペディアのデータから利益を得るが、それを支えるボランティアコミュニティを破壊する。
サイト内本文

AI時代の面接

この記事は、AIがソフトウェアエンジニアリングの面接にどのような影響を与えているかを探り、さまざまな面接タイプ(持ち帰り課題、ライブコーディング、プレゼンテーション、実際の業務)をシグナル品質と企業コストの次元で分析する。AIによって持ち帰り課題が簡単になりすぎ、ライブコーディングの重要性が低下したため、企業は面接でのAI利用を制限すべきだと主張し、従来の学校評価モデルとの類似点を挙げている。

  • AIコーディングは、特に持ち帰り課題とライブコーディングの現在の面接モデルを脅かしている。
  • 企業はシグナル品質を維持するために、面接中のAI使用を制限すべきである。
サイト内本文
スタートアップ

このAIスタートアップが無料で家を掃除、将来のロボット訓練のために

AIトレーニングスタートアップのShiftが、無料の家庭用掃除サービスを提供するが、その代わりに掃除中を録画しロボット訓練データとして利用する。同社によると、データの価値がサービスの費用を十分に上回るという。現在はニューヨークのみで利用可能だが、まもなくサンフランシスコ、ロンドン、チューリッヒ、ミュンヘンにも拡大予定。

  • Shiftは無料の掃除サービスを提供するが、掃除中の映像をロボット訓練に使用する。
  • 掃除スタッフはカメラ付きの「魔法の帽子」を着用する。
サイト内本文

Anthropic、評価額9650億ドルでOpenAIを抜き世界で最も価値あるAI企業に

AI企業Anthropicが650億ドルの資金調達を発表し、評価額は9650億ドルに達した。これによりOpenAIを抜き、世界で最も価値のあるAIスタートアップとなった。エンタープライズ向けのコードアシスタントが好評で、急成長を遂げている。

  • Anthropicが650億ドルの資金調達、評価額9650億ドル
  • OpenAIを超え、世界で最も価値のあるAIスタートアップに
サイト内本文

IBMとレッドハット、オープンソースのセキュリティ強化に50億ドル投資

このプロジェクトは、Anthropicの未発表のMythos AIサイバーセキュリティモデルに続くもので、ソフトウェアシステムの深刻なセキュリティホールを明らかにしました。

  • IBMとレッドハットがオープンソースセキュリティに50億ドルを投資。
  • AnthropicのMythos AIモデルが発見した脆弱性に基づく取り組み。
サイト内本文

AIコーディングスタートアップの評価額が260億ドルに

この新たな資金調達は、急成長するベンダーにとって最新のマイルストーンであり、AIコーディング市場の強さを浮き彫りにしています。

  • AIコーディングスタートアップの評価額が260億ドルに達する。
  • 新たな資金調達は同社のもう一つのマイルストーン。
サイト内本文

2000ドルのAI生成映画、トライベッカで初上映へ

来月のトライベッカ・フェスティバルで、AI生成映画『ドリームズ・オブ・ヴァイオレッツ』が初公開されます。75分のこの作品は、イラン政府による1月の抗議者大量殺害を架空のドラマ化したもので、人物や画像はすべてAIで作成されています。制作費は2000ドルで、イラン出身の兄弟が複数のAIツールを用いて制作しました。

  • 『ドリームズ・オブ・ヴァイオレッツ』は75分のAI生成映画で、トライベッカで初上映。制作費は2000ドル。
  • イラン政府の抗議者大量殺害を題材に、すべての映像をAIで生成。
サイト内本文
ロボット

YouTube、本格的なポッドキャストアプリへの第一歩

YouTubeがPremium加入者向けにポッドキャスト視聴を改善する新機能を発表。音声優先の「オン・ザ・ゴー・モード」、自動速度調整、AIポッドキャストレコメンデーションなどを含む。

  • YouTubeが「オン・ザ・ゴー・モード」を導入。動画インターフェースを音声優先に切り替え、移動中の視聴に最適化。
  • 新しい自動速度調整機能がコンテンツに応じて再生速度を動的に変更。