AI News HubLIVE

最新ニュース

テキストにおける人間の価値観の識別と理解:調整可能なLLMベースのアーキテクチャ

本論文では、テキスト中の人間の価値観の強度を検出・定量化するLLMベースのアーキテクチャを紹介する。このアーキテクチャは3つの調整可能なモジュールで構成され、ValueEvalデータセットでの実験により良好な検出性能を示した。

  • 特定の価値理論や複雑なプロンプトエンジニアリングに依存しない、モジュール化されたLLMアーキテクチャを提案。
  • 3つのモジュール:構造化された価値仕様の生成、テキストのラベル付け、修辞的・意味的証拠に基づく等級付け。
サイト内本文

二本柱:AI後のソフトウェアワークの概念的枠組み

生成AIが人間の正しいコードを書く能力という制約を溶解させることで、ソフトウェアワークは二本柱を中心に再編成されると論じる論文。第一の柱「ミキサーモード」は人間が音響エンジニアのように複数の判断軸を連続的に操作する役割、第二の柱「メタソフトウェア」は他のソフトウェアを監視・検証・文脈化・統治するソフトウェアを指す。この二本柱は不可分であり、手工業から統計的管理による大量生産への歴史的転換に類似する。

  • 生成AIにより、コードの生産はソフトウェア組織の支配的な問題ではなくなりつつある。
  • ミキサーモードは、実践者が複数の判断軸を連続的に操作する新たな人間の役割を記述する。
サイト内本文

あなたの将来の仕事はAIをタスクに集中させること

ノア・スミスは、AIがより能力を高めるにつれ、人間は技術的作業からAIのアラインメント(人間の目標に沿わせる)を確実にする仕事へ移行すると論じる。『オフィス・スペース』を引き合いに出し、AI生成コンテンツ「スロップ」の台頭に警鐘を鳴らす。

  • 人間はAIのアラインメントを維持し、AIがタスクから逸れないようにする必要がある。
  • 著者は将来の人間の役割を『オフィス・スペース』のランバー部長に例えている。
サイト内本文

Safescript – AI時代のプログラミング言語

Safescript は、実行前に静的解析によってすべてのセキュリティ特性を証明し、サンドボックスやVMを不要にするAIエージェント向けプログラミング言語です。静的な有向非巡回グラフ(DAG)にコンパイルされ、データフローとホスト呼び出しを完全に可視化し、オーバーヘッドとコールドスタートをゼロにします。

  • 実行時サンドボックスなしで静的セキュリティを強制。
  • プログラムは静的DAGにコンパイルされ、すべてのデータフローとホストを追跡可能。
サイト内本文

AIPass – アイデンティティ、記憶、メールを持つ永続的なエージェントワークスペース

AIPass は、AI エージェントに永続的な記憶、アイデンティティ、連携機能を追加する CLI ネイティブのスキャフォールドです。エージェントはファイルシステムを共有し、JSON ファイルで記憶を保存します。クラウドや追加の API キーは不要です。13 のコアエージェントが含まれており、マルチエージェント協調、タスクディスパッチ、品質監査、リアルタイムモニタリングを実現します。

  • AIPass は AI エージェントに永続的な記憶、アイデンティティ、連携機能を提供する CLI ネイティブのフレームワークです。
  • すべてのエージェントはローカルファイルシステムを共有し、JSON ファイルで記憶を管理します。クラウドは不要です。
サイト内本文

イリノイ州議会、全米で最も強力なAI安全法案を可決

イリノイ州議会は、AIラボに独立した監査人の遵守確認を義務付けるSB 315法案を可決し、JB・プリツカー知事の署名を待つ。プリツカー知事は署名する意向を示しており、これにより同州は連邦レベルの規制がない中でAI監査の先駆けとなる。

  • SB 315は、AIラボが安全基準を遵守しているか独立監査人による検証を義務付ける。
  • カリフォルニア州やニューヨーク州の法律よりも厳格な内容。
サイト内本文

AIチート [PDF]

AIチートに関するPDFレポートですが、内容を直接解析できません。

  • PDFからテキストを抽出できません
  • レポートはMETR組織からの可能性があります
サイト内本文

Sakana AIが提案するDiffusionBlocks:残差ネットワークを独立して訓練可能なデノイジングモジュールに変換するブロック単位学習フレームワーク

Sakana AIと東京大学の研究者らは、Transformerベースのネットワークをブロックごとに訓練するDiffusionBlocksを提案。訓練メモリをブロック数B分の1に削減しつつ、多様なアーキテクチャで性能を維持する。残差接続を拡散モデルのオイラー法ステップと解釈し、スコアマッチングによる原理的な局所目的を実現する。

  • DiffusionBlocksはネットワークをB個の独立訓練可能なブロックに分割し、メモリをB倍削減。
  • 残差ネットワークと拡散モデルの関連性を活用し、理論的に裏付けられた局所訓練目標を提供。
サイト内本文

Oura Ringのデータをこの無料アプリで深掘りしてみた – その結果

Simple Wearable Reportは、AIを使ってOura Ringのデータからさらなる洞察を引き出す無料ツールです。この記事では、その使い方とGeminiなどのチャットボットとの連携について紹介します。

  • Simple Wearable ReportはOuraデータをラボ形式のレポートに変換し、医師との共有やAIチャットボットへのアップロードが可能。
  • Oura内蔵のAIアドバイザーと比較して、Geminiなどのチャットボットはより具体的で定量的な分析を提供。
サイト内本文

認可パラドックス:あなたのAIの鍵を握るのは誰か?[動画]

本記事では、AIシステムにおける認可パラドックス、つまり誰が本当にAIを制御しているのかという問題を探ります。動画形式で、セキュリティとプライバシーの影響について議論しています。

  • AIにおける認可問題がますます重要に
  • AIの「鍵」を誰が持つかが中心的な問い
サイト内本文

AppleがCVPR 2026で最新の研究成果を発表

Appleは2026年6月3日から7日までデンバーで開催されるCVPRにスポンサーとして参加し、ビデオ生成、マルチモーダル理解、画像圧縮などの分野での研究を展示します。

  • AppleはCVPR 2026でSTARFlow-V、AToken、Veloxなどの革新的な研究を発表します。
  • 基調講演、招待講演、ポスターセッション、ブース展示を実施します。
サイト内本文

OpenAIのフロンティアガバナンスフレームワーク

OpenAIのフロンティアガバナンスフレームワークと、当社のAI安全性、セキュリティ、リスク管理の実践が、新たなEUおよびカリフォルニア規制にどのように適合しているかをご覧ください。

  • OpenAIはフロンティアガバナンスフレームワークを公開し、AIの安全性と整合性を重視。
  • このフレームワークはEUおよびカリフォルニアの新規制に適合。
サイト内本文

Show HN: Liiists — MarkdownファーストのiOSおよびCLIリストアプリ

Liiistsは、ターミナル、iOS、AIエージェント(MCPサーバー経由)で動作するMarkdownファーストのリストアプリです。すべて同じプレーンテキストの.mdファイルを読み書きします。CLI、ネイティブiOSアプリ(共有拡張機能、Siri対応)、AI統合用のMCPサーバーを提供。アカウント不要、ロックインなし、iCloud同期または任意のフォルダ(Obsidian vaultを含む)に対応。

  • ターミナル、iOS、AIエージェントで同じMarkdownファイルを使用
  • Goで書かれた依存関係ゼロのCLI
サイト内本文

SQLite の AGENTS.md

SQLite は AGENTS.md ファイルを追加し、AI 生成の貢献に関する方針を明確にしました。事前の合意なしのプルリクエストは受け付けず、エージェントコードも受け付けませんが、再現可能なテストケースを含むバグ報告は歓迎します。AI 生成のバグ報告が殺到したため、専用のバグフォーラムが作成されました。

  • SQLite は AGENTS.md で AI 貢献方針を定義
  • プルリクエストには事前の合意と法的書類が必要
サイト内本文

アクセシブルテクノロジーの未来を築く:Uvilox AI の内部

Uvilox AI は、次世代ビジョン AI を活用したリアルタイム手話通訳、緊急対応、アクセシブルな通話サービスを提供します。レイテンシは 80 ミリ秒未満、精度 97.4%、200 以上の手話バリエーションに対応し、軍事レベルのセキュリティと HIPAA/GDPR 準拠を備えています。現在ベータアクセス受付中。

  • リアルタイム手話認識、レイテンシ 80 ミリ秒未満、精度 97.4%。
  • 200 以上の ASL/BSL 手話に対応、低照度でも動作。
サイト内本文

NeuralAgent 2.5:パーソナルAIアシスタント、音声モード・見て学ぶ・並列エージェントを搭載

NeuralAgent 2.5 は、音声モード、見て学ぶ機能、並列エージェントを導入し、AIが聞いて話し、複数タスクを同時に実行できるようになりました。ユーザーは自然言語でコンピュータ全体を操作でき、キーボードやマウスは不要です。このアップデートではワークフロー、@メンション、メモリーも改善されています。

  • 音声モードでは双方向対話が可能。ユーザーが話しかけるとAIが応答しタスクを実行。
  • 「見て学ぶ」機能で、一度作業をデモするとAIがワークフローとして保存し繰り返し実行。
サイト内本文

大規模な信頼性の高いLLM推論

Databricksは、オープンソースからプロプライエタリまであらゆる最先端モデルに対応する独自の推論プラットフォームを構築し、世界最大級のエージェントアプリケーションを支えています。毎月120兆トークンを処理し、モデルユニットによる容量管理、コスト認識型負荷分散とオートスケーリング(GPUコスト80%以上削減)、ブラックボックスヘルスチェックによる実行時信頼性などの仕組みで、信頼性とレイテンシの課題に取り組んでいます。マルチモーダルボトルネックのプロファイリングにより、スループットを3倍向上させました。

  • Databricksの推論プラットフォームは、オープンソースとプロプライエタリを含む最先端モデルに対応し、月間120Tトークンを処理。
  • モデルユニットはVMのような抽象化を提供し、容量管理、コスト認識型ルーティングとスケーリングを実現。
サイト内本文

Snowflake、AI推進の一環としてAWSに60億ドルをコミット

Snowflakeは、アマゾン ウェブ サービス(AWS)に対して、GravitonコンピューティングおよびAIインフラストラクチャのため、5年間で60億ドルをコミットした。この契約には、AWSのARMベースのGravitonプロセッサとGPUアクセラレーテッドEC2インスタンスが含まれ、AIモデルのトレーニングと推論に使用される。Snowflakeは10の新リージョンに拡大し、コスト効率の高いGravitonインスタンスをデータウェアハウジングに活用することで、AIワークロードのリソースを確保する。

  • Snowflakeは5年間で60億ドルをAWSにコミット。
  • AWSのGravitonおよびGPUインスタンスをAIトレーニングと推論に利用。
サイト内本文

Amazon Bedrock AgentCoreを活用したビジネスサポート用AIエージェントの構築

AWS Generative AI Innovation CenterはWorks Human Intelligenceと協力し、Amazon Bedrock AgentCoreを使用して2つのAIエージェントを構築しました。通勤手当承認とブラウザ操作を自動化し、コストを最大97%削減、運用効率を向上させました。

  • AIエージェントが通勤手当承認やブラウザ操作などの日常業務を自動化。
  • AgentCoreとStrand Agentsアーキテクチャへの移行により、コストを最大97%削減。
サイト内本文

データ過多から実用的なインサイトへ:Verizon Connectが10万人のユーザーにエージェンティックAIを展開した方法

Verizon ConnectはAWS上にエージェンティックAIソリューションを構築し、毎日5億のデータポイントを10万人のユーザー向けの実用的なインサイトに変換しています。この記事では、サーバーレスの異常検出、Strands Agentsによる動的推論、Amazon Nova Liteによる入力トークンコスト70%削減など、アーキテクチャの決定、実装の課題、測定可能な結果について詳しく説明します。

  • エージェンティックAIが120万台の車両からの毎日5億データポイントを処理し、10万人のユーザーに提供。
  • サーバーレス統計モデルで異常検出を行い、LLMが生の表形式データを処理する問題を回避。
サイト内本文

AWS SMGSがAmazon Bedrock AgentCoreを活用したAI駆動の会話型アシスタントでビジネス管理を変革する方法

AWS SMGSは、Amazon Bedrock AgentCore上に構築された会話型ソリューションNarrateAIを使用して、大規模なビジネスインテリジェンスを実現しています。このソリューションは、バッチナarrative生成とリアルタイムインタラクションを分離した二層アーキテクチャ、ルーティングと検証のための特殊なAIエージェント、および本番展開のための主要なエンジニアリングパターンを特徴とし、自然言語クエリ、行レベルのセキュリティ、および役割に応じたエクスペリエンスを可能にします。

  • NarrateAIは二層アーキテクチャ(バッチ処理+リアルタイム対話)を使用して、従来のBIのレイテンシとデータ断片化を克服します。
  • Amazon Bedrock AgentCoreは、自然言語クエリとコンテキスト認識応答のためのマルチエージェントオーケストレーションを実現します。
サイト内本文

MicrosoftのMAI-Image-2.5、ベンチマークでGoogleのNano Banana 2に並ぶ

MicrosoftのMAI-Image-2.5は、Arenaのテキストから画像へのリーダーボードで3位となり、GoogleのNano Banana 2と同等だが、OpenAIのImage-2には及ばない。このモデルは前世代と比べて、特に画像内テキストのレンダリングや商用ビジュアルで明らかな向上を示している。

  • MAI-Image-2.5はArenaリーダーボードで3位、GoogleのNano Banana 2と同点
  • テキストレンダリングと商用ビジュアルの改善
サイト内本文

AI不使用のGoogle代替が人気急上昇 - 自分で試す方法

DuckDuckGoはAIを使わない検索代替として、GoogleのAI概要の台頭によりユーザーが急増しています。この記事では、DuckDuckGoをAIなしでプライベートに検索・閲覧する方法を紹介します。

  • DuckDuckGoはGoogle I/O 2026後、インストール数が急増し、iOSアプリは69.9%のピーク成長を記録。
  • DuckDuckGoはAIなし検索とAIチャットの両方を提供し、ユーザーが選択可能。
サイト内本文

Amazon Bedrock AgentCore によるエージェント型 AI 販売戦略の推進

AWS セールスは、Amazon Bedrock AgentCore 上に Field Advisor を構築し、20 以上のドメイン固有のエージェントを統括することで、営業担当者の認知負荷を軽減し、効率を向上させました。このソリューションにより、担当者 1 人あたり週最大 2 時間の節約と、レイテンシーの 41% 削減を実現しました。

  • Field Advisor は、単一の会話インターフェースで 20 以上の専門エージェントを統括します。
  • 人間参加型ワークフローにより、データの正確性と説明責任を維持します。
サイト内本文

Robinhood、AIエージェントが顧客に代わって株式取引やクレジットカード購入を可能に

Robinhoodは、顧客がAnthropicのClaudeなどのAIエージェントをMCPを介して専用の投資口座に接続できるようにしました。エージェントは自律的に株式取引を行い、クレジットカードでの購入も可能です。米国の証券規制当局FINRAは、こうしたエージェントを新たなリスク領域として警告しています。Robinhood自身も、この製品がすべての人に適しているわけではないと認めています。

  • Robinhoodは、MCPを介してAIエージェント(Claudeなど)を投資口座に接続する機能を提供。
  • AIエージェントは自律的に株式取引やクレジットカード購入を実行できる。
サイト内本文

「Tokenmaxxingは現実で、高価で、広がっている」:AI予算爆発を防ぐ新ツール登場

Tokenmaxxing(AIトークンの無制限な使用)により、企業の予算が制御不能になっています。UberのCTOはAnthropicのClaude Codeへの支出超過を認めました。Lanaiは新ツールToken Tunerを発表。トークン消費をワークフローと成果にマッピングし、効率スコアとモデル推奨を提供することで、TokenmaxxingからOutcomemaxxingへの移行を促進します。

  • TokenmaxxingによりUberなどでAI予算が超過している。
  • LanaiのToken Tunerはトークン使用をワークフローや成果に紐付け、効率スコアとモデル推奨を提供。
サイト内本文

ITBench-AA:フロンティアモデルがエンタープライズITエージェントタスクの初のベンチマークで50%未満のスコアに — Artificial AnalysisとIBMによる

Artificial AnalysisとIBMが、エンタープライズITエージェントタスク向けのベンチマークITBench-AAを発表。サイトリライアビリティエンジニアリング(SRE)に焦点を当て、フロンティアモデルはすべて50%未満のスコアで、Claude Opus 4.7が47%でトップ。このベンチマークは、Kubernetesインシデント対応におけるモデルの診断能力を評価する。

  • Claude Opus 4.7が47%でトップ、GPT-5.5が46%、Qwen3.7 Maxが42%。
  • すべてのフロンティアモデルが50%未満であり、ITBench-AAは最も飽和度の低いエージェントベンチマークの一つ。
サイト内本文

NVIDIA、Codex、Claude Code、Qwen Code向けGRPOトレーニングのためのトークン忠実型ロールアウトフレームワーク「Polar」を公開

NVIDIAの研究者は、エージェントハーネスを変更せずに強化学習で言語エージェントを訓練するロールアウトフレームワークPolarを発表した。Polarはハーネスと推論サーバーの間にモデルAPIプロキシを配置し、トークンレベルの相互作用を捕捉してトレーナー対応の軌跡を再構築する。Qwen3.5-4BベースモデルにGRPOを適用した結果、CodexハーネスでSWE-Bench Verified pass@1を22.6ポイント、Claude Codeで4.8ポイント、Piで6.2ポイント改善した。本フレームワークはNeMo Gym環境として登録され、ProRL Agent Serverリポジトリで公開されている。

  • PolarはモデルAPIプロキシを介して既存のエージェントハーネスを変更せずにRLトレーニングを可能にする
  • Qwen3.5-4BにGRPOを適用し、4つのコーディングハーネスでSWE-Bench Verifiedを最大22.6ポイント改善
サイト内本文

検索結果からAIを自動的に除外する簡単な方法を見つけました — ほぼすべてのブラウザで機能します

検索エンジンのAI結果にうんざりしていませんか?この記事では、カスタム検索エンジンを追加してAI結果を除外する方法を、Chrome、Firefox、Safariなどの主要ブラウザで詳しく説明します。

  • URL https://www.google.com/search?q=%s&udm=14 を使用したカスタム検索エンジンでAI結果を除外。
  • Firefox、Chrome、およびほとんどのブラウザで動作。Safariは拡張機能が必要。
サイト内本文