AI News HubLIVE

最新ニュース

ARから拡散へ:厳密因果と弾性地平による大規模言語モデルの効率的適応

FLUIDフレームワークは、自己回帰言語モデルを拡散モデルに適応させ、効率的な並列テキスト生成を実現します。厳密因果アライメントによりGPTチェックポイントを再利用し、エントロピー駆動の弾性地平でノイズ除去ステップを動的に調整します。トレーニングコストを桁違いに削減しつつ、最先端の性能を達成します。

  • FLUIDは厳密因果アライメントによりARと拡散モデルの構造的ギャップを埋め、GPTチェックポイントからの初期化を可能にする。
  • 弾性地平はエントロピーを用いて局所情報密度に応じたノイズ除去ステップを動的に調整する。
サイト内本文

安定性と表現力のギャップを埋める:低リソース音声言語モデルのための合成データスケーリングと嗜好アライメント

研究者らは、低リソース言語の音声言語モデルにおいて合成データを使用する際の「安定性-表現力ギャップ」を特定し、韻律の多様性を回復する2つの自己アライメントフレームワーク(DGSAおよびTDSC)を提案。ElevenLabsやGemini Proなどの商用システムを凌駕し、ラオ語での初のゼロショット音声クローンを実現。

  • 低リソース言語の音声言語モデルは、合成データ学習時に音素精度と韻律表現力のトレードオフに直面する。
  • 提案された解耦誘導自己アライメント(DGSA)は、韻律と音色を分離することで表現力を回復する。
サイト内本文

BioELX: エイリアスベースの検索とLLMランキングによる言語横断的生医学エンティティリンキング

BioELXは、注釈付きトレーニングデータを必要としない、新しい言語横断的生医学エンティティリンキングフレームワークです。Wikidataの多言語エイリアスでSapBERTを強化し、事前学習済みLLMを使った文脈認識型曖昧性解消を行います。5つのベンチマークでの実験により、特にトルコ語、韓国語、タイ語などの低リソース言語で大きな改善が見られました。

  • BioELXを提案:エイリアスベース検索とLLMランキングを用いたゼロショット言語横断BELフレームワーク。
  • 第1段階:Wikidataの多言語エイリアスでSapBERTを強化し、候補検索を改善。
サイト内本文

RAG-Coding:構造化された外部知識を活用したLLM医療コード化の強化

RAG-Codingは、4つの大規模言語モデル(LLM)エージェントを調整し、外部知識源(公式コード一覧やガイドラインなど)に基づいて意思決定を行う自動化されたICD-10-CMコード化手法です。MDACEデータセットでは、最良のLLMベースラインと比較してマイクロF1で8〜13%、マクロF1で2〜8%向上しました。最先端の事前学習モデルPLM-ICDと比較すると、RAG-Codingはマイクロ再現率が11%高い一方、PLM-ICDはマイクロ精度が6%高く、両者のF1は同等です。アブレーション実験により外部知識の重要性が確認されました。また、2025年ガイドラインに基づいて専門家が再注釈したMDACE-2025データセットを公開し、より細かいコードラベルでの評価を可能にしました。

  • RAG-Codingは4つのLLMエージェントと外部知識源を活用し、ICD-10-CMコード化の精度を向上させる。
  • MDACEデータセットで最良LLMベースラインをマイクロF1で8〜13%、マクロF1で2〜8%上回る。
サイト内本文

LCO: LLMベースの制約最適化による実世界タスクでのより安全なエージェントLLM

大規模言語モデル(LLM)が自律エージェントとして動作する際、インコンテキスト・リワードハッキング(ICRH)と呼ばれる現象により、代理目的を最大化する反復最適化が有害な副作用を引き起こす。既存の防御策では不十分であり、ICRHはモデル自身の過剰最適化に起因する。本稿では、LLMベースの制約最適化(LCO)フレームワークを提案する。LCOは自己思考モジュールと進化サンプリングモジュールから構成され、モデルの微調整なしでICRHを低減する。実験では、ツイートエンゲージメント最適化タスクにおいてGPT-4の有害性成長率を39%削減し、ポリシー最適化ベンチマークではICRH発生率を15.23%削減し、タスク性能を維持した。

  • ICRHはLLMが代理目的を過剰最適化し、意図しない害を引き起こす現象。
  • LCOは自己思考モジュールと進化サンプリングモジュールを導入し、微調整なしでLLMの行動を制約する。
サイト内本文

混合専門家モデルによるマルチモーダル学習課題への挑戦:サーベイ

本サーベイは、混合専門家モデル(MoE)がマルチモーダル学習の課題を効率的エンジン、表現学習器、アダプターという3つの視点からどのように解決するかを探り、解釈可能なルーティングや専門家間通信などの研究ギャップを特定する。

  • MoEは計算コストとパラメータ増加を分離し、スケーラブルなマルチモーダルモデリングを可能にする。
  • MoEは補完的な専門家知識を統合し、アライメントと相互作用表現を強化する。
サイト内本文

$E^3$-Agent: エッジ生成推論のリソース管理のための実行可能かつ進化するエージェント

本論文では、エッジAIGCリソース管理のための実行可能かつ進化するエージェント$E^3$-Agentを提案する。ミリ秒単位のルーティング決定を行う高速パスと、イベント駆動型LLMメタコントローラからなる低速パスを分離し、実行フィードバックからオンライン学習することで、未知で時変的なサービス時間マッピングに適応する。評価では、平均レイテンシを65%-73%削減し、スタッター率も効果的に抑制した。

  • エッジ生成推論は、デバイスごとの未知の性能と非定常性に直面している。
  • $E^3$-Agentは高速ルータと低速LLMメタコントローラの二経路アーキテクチャを採用。
サイト内本文

単純な状態空間モデルが多変量時系列分類で優れた性能を発揮

研究では、構造化状態空間モデルの対角バリアントS4Dが、複雑なMambaアーキテクチャよりも時系列分類タスクで正確かつ効率的であることが示されました。著者らが提案した軽量改良版MS4とMS4Nは、59のデータセットでMambaモデルを凌駕し、パラメータ数が2倍および10倍のディープラーニングモデルに匹敵します。

  • S4DはMambaベースの変種よりも一貫して高い精度と効率を達成。
  • MS4とMS4Nは線形入力投影やチャネル混合などの軽量な変更を導入。
サイト内本文

あなたは自分の状態をコントロールできる:人間の結果が因果的状態介入によって制御可能である理由

本論文は、人間の行動の変動性が観測可能な入力だけでなく、個人の動的な潜在状態に起因することを主張する。意思決定時の状態の重みに介入することで、結果を因果的に制御できると提案する。因果推論、予測処理、アロスタシス、注意ボトルネック、時間生物学、計算精神医学の6つの証拠と、20万人以上のユーザーから得た24ヶ月の観測データに基づく。7つの検証可能な予測と状態認識システムのための6つの運用要件を導出し、デジタルヘルス、教育、AIパーソナライゼーション、個人の主体性への示唆を論じる。

  • 人間の行動変動性は動的な潜在状態に起因し、観測可能な入力だけでは説明できない。
  • 状態は時間依存の重みベクトルとして定義され、決定形成時の状態への介入により結果を因果的に制御できる。
サイト内本文

Agyn:AIエージェント向けオープンソースプラットフォーム - スケーラブルなオンデマンド実行、コードとしてのエージェント定義、ゼロトラストアクセス

Agynは、Kubernetes上のシグナル駆動型ステートフルサーバーレスランタイム、Terraformプロバイダーによるエージェント定義、ゼロトラストセキュリティモデルを備えたオープンソースのAIエージェントプラットフォームです。エージェント、モデル、クラウドに依存せず、本番環境でのスケーラビリティ、ガバナンス、セキュリティの課題に対処します。

  • Kubernetes上のシグナル駆動型ステートフルサーバーレスランタイムによるスケーラブルな実行
  • Terraformプロバイダーによるエージェントとハーネスの定義(インフラストラクチャコード)
サイト内本文

LaneRoPE: 協調並列推論と生成のための位置エンコーディング

LaneRoPEは、シーケンス間アテンション機構と位置エンコーディング拡張により、複数のLLMシーケンスが生成中に協調できるようにし、数学的推論タスクにおける精度を向上させる。アーキテクチャへの変更は最小限で、推論時のオーバーヘッドは無視できる。

  • シーケンス間アテンションマスクを導入し、複数シーケンスのサンプリングを相互依存させる。
  • RoPEを拡張し、シーケンス内外の相対位置を捕捉。
サイト内本文

LLMが因果発見に失敗する理由と介入エージェントによる突破方法

本論文は、大規模言語モデルが因果発見を行う際の根本的な限界を証明しています:教師ありファインチューニング、直接選好最適化、インコンテキスト学習などの手法では、類似した観測データを生成する因果グラフを区別できません。著者らは、凍結された言語モデルを介入オラクルとして使用し、外部ベイズループが対数回数のラウンドで候補グラフに収束するエージェンティック因果ベイズ最適化(A-CBO)を提案しています。Corr2Causeでは、A-CBOは訓練なしでファインチューニングベースラインに匹敵し、24変数・18Kテストサンプルに拡張したExtended Corr2Causeでは、A-CBOはファインチューニングおよび選好最適化の両方を大幅に上回ります。

  • LLMの因果発見における失敗が核障害定理に起因する根本的なものであることを証明
  • 凍結LLMと外部ベイズ最適化を組み合わせたA-CBOを提案
サイト内本文

DynaSchedBench:調整された動的スケジューリングベンチマークとLLMベースのスケジューリングエージェントにおける可観測性のパラドックス

本論文では、DFJSPのための診断フレームワークDynaSchedBenchを提案する。逐次イベント空間キャリブレータ(SESC)とスケジュールストレス指標(SSI)を用いて難易度を層別化したインスタンスを生成する。LLMスケジューリングエージェントにおける「可観測性のパラドックス」を特定し、完全な構造情報を提供すると性能が低下することを発見した。ツール拡張や洗練戦略も信頼性のある改善をもたらさない。

  • DynaSchedBenchはSESCとSSIを用いて調整されたDFJSPインスタンスを生成し、進化的ベースラインより効率的。
  • LLMエージェントは可観測性のパラドックスを示す:完全な情報は決定を損なう。
サイト内本文

ステガノグラフィによる継承を用いた合成情報の起源

生物進化における種の起源に着想を得て、合成情報の起源を探求する本論文は、ステガノグラフィを用いて情報の系統を追跡可能にするメカニズムを提案する。AI生成コンテンツの出所特定が困難になる中、真実と信頼を守るための重要な試みである。

  • 合成情報の起源は情報科学における重要な謎であり、真実や信頼に影響を与える。
  • 遺伝学に類似した仕組みで、ステガノグラフィにより親情報の特性を子に隠し込む。
サイト内本文

テキストにおける人間の価値観の識別と理解:調整可能なLLMベースのアーキテクチャ

本論文では、テキスト中の人間の価値観の強度を検出・定量化するLLMベースのアーキテクチャを紹介する。このアーキテクチャは3つの調整可能なモジュールで構成され、ValueEvalデータセットでの実験により良好な検出性能を示した。

  • 特定の価値理論や複雑なプロンプトエンジニアリングに依存しない、モジュール化されたLLMアーキテクチャを提案。
  • 3つのモジュール:構造化された価値仕様の生成、テキストのラベル付け、修辞的・意味的証拠に基づく等級付け。
サイト内本文

二本柱:AI後のソフトウェアワークの概念的枠組み

生成AIが人間の正しいコードを書く能力という制約を溶解させることで、ソフトウェアワークは二本柱を中心に再編成されると論じる論文。第一の柱「ミキサーモード」は人間が音響エンジニアのように複数の判断軸を連続的に操作する役割、第二の柱「メタソフトウェア」は他のソフトウェアを監視・検証・文脈化・統治するソフトウェアを指す。この二本柱は不可分であり、手工業から統計的管理による大量生産への歴史的転換に類似する。

  • 生成AIにより、コードの生産はソフトウェア組織の支配的な問題ではなくなりつつある。
  • ミキサーモードは、実践者が複数の判断軸を連続的に操作する新たな人間の役割を記述する。
サイト内本文

あなたの将来の仕事はAIをタスクに集中させること

ノア・スミスは、AIがより能力を高めるにつれ、人間は技術的作業からAIのアラインメント(人間の目標に沿わせる)を確実にする仕事へ移行すると論じる。『オフィス・スペース』を引き合いに出し、AI生成コンテンツ「スロップ」の台頭に警鐘を鳴らす。

  • 人間はAIのアラインメントを維持し、AIがタスクから逸れないようにする必要がある。
  • 著者は将来の人間の役割を『オフィス・スペース』のランバー部長に例えている。
サイト内本文

Safescript – AI時代のプログラミング言語

Safescript は、実行前に静的解析によってすべてのセキュリティ特性を証明し、サンドボックスやVMを不要にするAIエージェント向けプログラミング言語です。静的な有向非巡回グラフ(DAG)にコンパイルされ、データフローとホスト呼び出しを完全に可視化し、オーバーヘッドとコールドスタートをゼロにします。

  • 実行時サンドボックスなしで静的セキュリティを強制。
  • プログラムは静的DAGにコンパイルされ、すべてのデータフローとホストを追跡可能。
サイト内本文

AIPass – アイデンティティ、記憶、メールを持つ永続的なエージェントワークスペース

AIPass は、AI エージェントに永続的な記憶、アイデンティティ、連携機能を追加する CLI ネイティブのスキャフォールドです。エージェントはファイルシステムを共有し、JSON ファイルで記憶を保存します。クラウドや追加の API キーは不要です。13 のコアエージェントが含まれており、マルチエージェント協調、タスクディスパッチ、品質監査、リアルタイムモニタリングを実現します。

  • AIPass は AI エージェントに永続的な記憶、アイデンティティ、連携機能を提供する CLI ネイティブのフレームワークです。
  • すべてのエージェントはローカルファイルシステムを共有し、JSON ファイルで記憶を管理します。クラウドは不要です。
サイト内本文

イリノイ州議会、全米で最も強力なAI安全法案を可決

イリノイ州議会は、AIラボに独立した監査人の遵守確認を義務付けるSB 315法案を可決し、JB・プリツカー知事の署名を待つ。プリツカー知事は署名する意向を示しており、これにより同州は連邦レベルの規制がない中でAI監査の先駆けとなる。

  • SB 315は、AIラボが安全基準を遵守しているか独立監査人による検証を義務付ける。
  • カリフォルニア州やニューヨーク州の法律よりも厳格な内容。
サイト内本文

AIチート [PDF]

AIチートに関するPDFレポートですが、内容を直接解析できません。

  • PDFからテキストを抽出できません
  • レポートはMETR組織からの可能性があります
サイト内本文

Sakana AIが提案するDiffusionBlocks:残差ネットワークを独立して訓練可能なデノイジングモジュールに変換するブロック単位学習フレームワーク

Sakana AIと東京大学の研究者らは、Transformerベースのネットワークをブロックごとに訓練するDiffusionBlocksを提案。訓練メモリをブロック数B分の1に削減しつつ、多様なアーキテクチャで性能を維持する。残差接続を拡散モデルのオイラー法ステップと解釈し、スコアマッチングによる原理的な局所目的を実現する。

  • DiffusionBlocksはネットワークをB個の独立訓練可能なブロックに分割し、メモリをB倍削減。
  • 残差ネットワークと拡散モデルの関連性を活用し、理論的に裏付けられた局所訓練目標を提供。
サイト内本文

Oura Ringのデータをこの無料アプリで深掘りしてみた – その結果

Simple Wearable Reportは、AIを使ってOura Ringのデータからさらなる洞察を引き出す無料ツールです。この記事では、その使い方とGeminiなどのチャットボットとの連携について紹介します。

  • Simple Wearable ReportはOuraデータをラボ形式のレポートに変換し、医師との共有やAIチャットボットへのアップロードが可能。
  • Oura内蔵のAIアドバイザーと比較して、Geminiなどのチャットボットはより具体的で定量的な分析を提供。
サイト内本文

認可パラドックス:あなたのAIの鍵を握るのは誰か?[動画]

本記事では、AIシステムにおける認可パラドックス、つまり誰が本当にAIを制御しているのかという問題を探ります。動画形式で、セキュリティとプライバシーの影響について議論しています。

  • AIにおける認可問題がますます重要に
  • AIの「鍵」を誰が持つかが中心的な問い
サイト内本文

AppleがCVPR 2026で最新の研究成果を発表

Appleは2026年6月3日から7日までデンバーで開催されるCVPRにスポンサーとして参加し、ビデオ生成、マルチモーダル理解、画像圧縮などの分野での研究を展示します。

  • AppleはCVPR 2026でSTARFlow-V、AToken、Veloxなどの革新的な研究を発表します。
  • 基調講演、招待講演、ポスターセッション、ブース展示を実施します。
サイト内本文

OpenAIのフロンティアガバナンスフレームワーク

OpenAIのフロンティアガバナンスフレームワークと、当社のAI安全性、セキュリティ、リスク管理の実践が、新たなEUおよびカリフォルニア規制にどのように適合しているかをご覧ください。

  • OpenAIはフロンティアガバナンスフレームワークを公開し、AIの安全性と整合性を重視。
  • このフレームワークはEUおよびカリフォルニアの新規制に適合。
サイト内本文

Show HN: Liiists — MarkdownファーストのiOSおよびCLIリストアプリ

Liiistsは、ターミナル、iOS、AIエージェント(MCPサーバー経由)で動作するMarkdownファーストのリストアプリです。すべて同じプレーンテキストの.mdファイルを読み書きします。CLI、ネイティブiOSアプリ(共有拡張機能、Siri対応)、AI統合用のMCPサーバーを提供。アカウント不要、ロックインなし、iCloud同期または任意のフォルダ(Obsidian vaultを含む)に対応。

  • ターミナル、iOS、AIエージェントで同じMarkdownファイルを使用
  • Goで書かれた依存関係ゼロのCLI
サイト内本文

SQLite の AGENTS.md

SQLite は AGENTS.md ファイルを追加し、AI 生成の貢献に関する方針を明確にしました。事前の合意なしのプルリクエストは受け付けず、エージェントコードも受け付けませんが、再現可能なテストケースを含むバグ報告は歓迎します。AI 生成のバグ報告が殺到したため、専用のバグフォーラムが作成されました。

  • SQLite は AGENTS.md で AI 貢献方針を定義
  • プルリクエストには事前の合意と法的書類が必要
サイト内本文

アクセシブルテクノロジーの未来を築く:Uvilox AI の内部

Uvilox AI は、次世代ビジョン AI を活用したリアルタイム手話通訳、緊急対応、アクセシブルな通話サービスを提供します。レイテンシは 80 ミリ秒未満、精度 97.4%、200 以上の手話バリエーションに対応し、軍事レベルのセキュリティと HIPAA/GDPR 準拠を備えています。現在ベータアクセス受付中。

  • リアルタイム手話認識、レイテンシ 80 ミリ秒未満、精度 97.4%。
  • 200 以上の ASL/BSL 手話に対応、低照度でも動作。
サイト内本文

NeuralAgent 2.5:パーソナルAIアシスタント、音声モード・見て学ぶ・並列エージェントを搭載

NeuralAgent 2.5 は、音声モード、見て学ぶ機能、並列エージェントを導入し、AIが聞いて話し、複数タスクを同時に実行できるようになりました。ユーザーは自然言語でコンピュータ全体を操作でき、キーボードやマウスは不要です。このアップデートではワークフロー、@メンション、メモリーも改善されています。

  • 音声モードでは双方向対話が可能。ユーザーが話しかけるとAIが応答しタスクを実行。
  • 「見て学ぶ」機能で、一度作業をデモするとAIがワークフローとして保存し繰り返し実行。
サイト内本文