AI News HubLIVE

研究の最新ニュース

AWS上のLangSmithを使用したディープエージェントの評価

この記事は、LangChainのディープエージェント評価に関する知見とAnthropicのAIエージェント評価ガイドを組み合わせた実践ガイドです。5つの評価パターンの適用方法、pytestとLangSmithを使用したオフライン評価の構築方法、および本番環境向けのオンラインモニタリングの設定方法を学びます。ウォークスルーでは、Amazon Bedrockを使用したテキストto SQLディープエージェントを例に、開発から本番までのライフサイクル全体をカバーします。

  • エージェント評価は非決定性、エラーの伝播、創造的な解決策などの課題に直面する。
  • コードベース、モデルベース(LLM-as-judge)、人間の3つの評価器を紹介し、それらの組み合わせを推奨。
サイト内本文

生成AIを使うべきか否か:生成AIの倫理的使用

この記事は、生成AI(GenAI)の倫理的側面を包括的に考察し、ソフトウェア開発などの分野での利点と、膨大なエネルギー消費、電子廃棄物、誤情報の拡散、教育や科学への脅威、民主主義への危険、そしてデジタル植民地主義といった欠点を分析する。著者らは、倫理的行動は利益と損害のバランスを考慮する必要があり、多くの場合、トレードオフを伴うと主張する。

  • GenAI(ChatGPTなど)は、エネルギー消費、電子廃棄物、誤情報、知的財産権の問題など深刻な負の側面がある。
  • LLMは真の推論能力を持たず、幻覚を起こしやすく、真偽を区別できない。
サイト内本文

AIゴールドラッシュが自分自身を食い尽くす

ウィキメディア財団は2億9600万ドルの準備金とAI企業へのデータ販売で利益を得ながら、長年勤めたスタッフとコミュニティ技術チーム全体を解雇した。この行動にボランティア編集者が怒り、ストライキを脅かしている。記事はCEOのAI精神病が組織の優先順位を歪め、AIによる人間の判断力の代替がデータ品質の悪循環を生む可能性を探る。

  • ウィキメディア財団が20年のベテランとコミュニティ技術チームを解雇、ボランティア編集者がストライキを脅かす。
  • AI企業はウィキペディアのデータから利益を得るが、それを支えるボランティアコミュニティを破壊する。
サイト内本文

Claude Opus 4.8 が AWS で利用可能に

Anthropic の最先端 Opus モデルである Claude Opus 4.8 が Amazon Bedrock および AWS 上の Claude Platform で利用可能になりました。コーディング、エージェントタスク、プロフェッショナルワークにおいて改善がもたらされ、長期運用の本番ワークフロー向けの一貫性と自律性が向上しています。

  • Claude Opus 4.8 は Anthropic の最も先進的な Opus モデルで、AWS 上で提供開始。
  • コーディング、多段階自律タスク、プロフェッショナルワークでパフォーマンスが向上し、出力のばらつきが低減。
サイト内本文

AI時代の面接

この記事は、AIがソフトウェアエンジニアリングの面接にどのような影響を与えているかを探り、さまざまな面接タイプ(持ち帰り課題、ライブコーディング、プレゼンテーション、実際の業務)をシグナル品質と企業コストの次元で分析する。AIによって持ち帰り課題が簡単になりすぎ、ライブコーディングの重要性が低下したため、企業は面接でのAI利用を制限すべきだと主張し、従来の学校評価モデルとの類似点を挙げている。

  • AIコーディングは、特に持ち帰り課題とライブコーディングの現在の面接モデルを脅かしている。
  • 企業はシグナル品質を維持するために、面接中のAI使用を制限すべきである。
サイト内本文

AIは思考を変えているが、置き換えてはいない | 読者の手紙

リチャード・サッカリーとフィル・スネルがウェンディ・リューのAIに関する記事に応答し、AIは好奇心を減退させるどころか、むしろ高めていると主張する。

  • ウェンディ・リューはAIによる労働力の冗長化、誇大広告、環境コストを懸念している。
  • AIを多用するリチャード・サッカリーは、AIによってより好奇心が強くなり、未知の領域を探求できるようになったと述べている。
サイト内本文

Google AI Overviewsでお気に入りのニュースソースを優先表示させる方法

Googleは「Preferred Sources」機能をAI OverviewsとAI Modeに拡張し、ユーザーがお気に入りのサイトを設定してAI検索結果で目立たせることができるようにしました。新しいソースカルーセルや「Highly Cited」バッジも追加されました。

  • Googleの「Preferred Sources」機能がAI OverviewsとAI Modeで利用可能に。
  • お気に入りのニュースサイトを追加し、AI検索結果で優先表示させることができます。
サイト内本文

メディア・アドバイザリー:MITが地域量子ハブを設立

MITとマサチューセッツ州は、量子システム研究所(QSL)を設立する計画を発表。州からの2500万ドルの投資により、全州の研究者に開放される共有施設となり、量子研究の加速を目指す。

  • MITとマサチューセッツ州が量子システム研究所(QSL)を共同設立、2500万ドル投資
  • QSLは量子コンピュータ、センサー、相互接続を備えた世界初の共有施設
サイト内本文

Data Formulator 0.7:エンタープライズデータ向けAI搭載データ分析

Data Formulator 0.7は、データ接続、エージェントガイドによる探索、ビジュアライゼーションの改善を共有ワークスペースで統合した、エンタープライズデータ分析向けのオープンソースAIシステムです。

  • エンタープライズデータ分析向けのオープンソースAIシステム
  • データコネクタ機能により、多様なデータソースへの管理・再利用可能な接続をサポート
サイト内本文

人類を置き換えたい人々

Voxの記事は、AIが人類に取って代わるべきだと考えるAI継承主義運動の高まりを探り、それが提起する倫理的、精神的な問いを考察する。

  • AI継承主義者たちは、シンポジウムでAIが道徳的に優れており、人類に取って代わることを許されるべきだと主張している。
  • この運動はシリコンバレーや主要AI研究所で影響力を強めており、権威主義的右派とのつながりもある。
サイト内本文

I/O 2026の12の主要な瞬間を振り返る

Google I/O 2026の基調講演では、Gemini Omni、Gemini 3.5 Flash、情報エージェント、ユニバーサルカート、Neural Expressiveデザイン言語、スマートグラスなど、多くの重要な発表がありました。本記事では12の注目すべき瞬間をまとめています。

  • Gemini Omniは任意の入力からコンテンツを生成でき、まずは動画に対応。
  • Gemini 3.5 Flashはエージェントやコーディングにおいて最先端の性能を発揮。
サイト内本文

Google、Gemma 3をローカル実行する小型ボードを発表

GoogleはI/OでCoral Boardを発表。これはデバイス上のAI向けのコンパクトなシングルボードコンピュータで、RISC-VベースのNPUを搭載し、Gemma 3 270Mをローカル実行可能。

  • Coral BoardはヘッドホンやARグラスなどの小型機器向けAIボード
  • Synaptics Astra SL2619チップとRISC-VベースのCoral NPUを搭載
サイト内本文

AGIのタイムラインはどのラボが支配的かで変動する

最新の分析によると、トップのAI予測者は現在どのラボが業界をリードしているかに応じてAGI(汎用人工知能)のタイムラインを調整しており、支配的ラボがChatGPTからxAI/Meta/Gemini、そしてAnthropicへと移るにつれて、予測は早期化と後期化を繰り返している。

  • ほとんどの認知労働が自動化される(AGI)時期の予測は、現在支配的なAIラボによって大きく変動する。
  • 2023年から2025年にかけて、多くの研究者はAGIタイムラインを早めたが、2025年から2026年にかけては遅らせ、2026年初頭にはAnthropicの急速な進歩により再び早めている。
サイト内本文

DeepSWE:オリジナルかつ長期のエンジニアリングタスクにおけるコーディングエージェントの評価

DeepSWEは、AIコーディングエージェントを未踏の複雑なソフトウェアエンジニアリングタスクで評価する新しいベンチマークです。データ汚染を回避し、多様なリポジトリをカバーし、大幅なコード変更を必要とし、手書きの検証器を使用します。最先端モデル間で性能に大きな差が見られ、GPT-5.5が70%の精度でリードしています。

  • DeepSWEはオリジナルタスクによる汚染フリーのベンチマークです。
  • タスクは5言語、91リポジトリにわたります。
サイト内本文

CNN、パープレキシティを「逐語的」複製記事で提訴

CNNはAI検索スタートアップのPerplexityを提訴し、そのAIツールがCNNの記事を「逐語的に」複製し、有料購読の情報をユーザーに提供していると主張している。訴訟はニューヨーク裁判所に提出され、PerplexityがCNNのクローリング防止策を無視していることも告発している。CNNは損害賠償と永久的な差し止めを求めている。

  • CNNがPerplexityを著作権侵害で提訴、AIツールが記事を逐語複製と主張。
  • PerplexityはCNNのクローリング防止策を無視し、有料コンテンツを提供したとされる。
サイト内本文

IBMとRed Hat、AI時代のオープンソースの未来を再定義するために50億ドルを投入

IBMとRed Hatは、Project Lightwellを発表。50億ドルのコミットメントのもと、AIと2万人以上のエンジニアを活用し、オープンソースソフトウェアのセキュリティを強化するための信頼できるエンタープライズクリアリングハウスを設立する。

  • Project Lightwellは、IBMとRed Hatによる50億ドルのオープンソースセキュリティイニシアチブ。
  • AIと2万人以上のエンジニアを組み合わせ、脆弱性を大規模に発見・修正する。
サイト内本文

AIコーディングの真の鍵が昔ながらの退屈なものだとしたら?

この記事は、AI支援ソフトウェア開発の鍵はより良い仕様やツールではなく、小バッチと迅速なフィードバックループという昔ながらの実践にあると主張する。データは、コード生成の高速化が設計、テスト、レビューのボトルネックを生み、納期を遅らせ安定性を低下させることを示している。真のレバレッジはバッチサイズの削減とフィードバックサイクルの短縮にある。

  • AIコード生成は作成を高速化するが、設計、テスト、レビューのボトルネックを生む。
  • DORA、CircleCI、Farosのデータは、段階ゲート方式のプロセスが納期を遅らせ、リリースの安定性を低下させることを示している。
サイト内本文

2026年に構築すべき7つの実用的なAIプロジェクト(ガイド付き)

この記事では、求人検索、研究、投資分析、市場動向、請求書処理、チャートのデジタル化、パーソナライズされた運動トレーニングなど、実用的なワークフローを自動化する7つのAIプロジェクトを紹介します。各プロジェクトには完全なガイドとコードが付属しています。

  • AI求人検索アシスタントを構築し、求人と履歴書を自動マッチング
  • マルチエージェント研究アシスタントを作成し、出典付きレポートを生成
サイト内本文

AIは本質的に反社会的なのか?

初期のインターネットがもたらした繋がりの感覚と、現代のAIによる孤立した体験を対比し、AIは便利なツールだが人間の代わりにはならず、真に社会的なアプリケーションが存在するのか疑問を投げかける記事。

  • 初期のウェブは「私たち」の集合的な体験を重視していたが、AIとの対話は個人で完結しがちである。
  • 著者はAIを優れたツールと見なすが、人間そのものや代わりにはならないと述べる。
サイト内本文

AIは宗教を好まない – 特にエホバの証人に対して否定的、研究が示唆

宗教大学のコンソーシアムによる研究によれば、主要なAIモデルは倫理的な質問に対して世俗的な合理主義で回答し、宗教的視点を無視する傾向がある。すべてのモデルがエホバの証人に対して否定的なバイアスを示した。

  • AIモデルは倫理的・個人的な質問に対して宗教的視点をほとんど引用せず、「省略バイアス」を示す。
  • テストされたすべてのAIモデルがエホバの証人に対して一貫して否定的なバイアスを持っていた。
サイト内本文

あなたのAIエージェントは、あなたが伝えた内容の半分をすでに忘れている

本記事はエージェンティックエンジニアリングとAI駆動開発に関するシリーズの第7回目で、AIセッションにおけるコンテキスト管理に焦点を当てています。著者はGeminiが以前のメモを忘れた個人的な経験を共有し、コンテキスト圧縮の概念を紹介し、4つの実用的なテクニックを提供します:探索と文書作成の分離、ハンドオフ文書の使用、手順ではなく受入基準の提示、仕様書をブリッジとして使用すること。これらのテクニックは開発者と一般ユーザーの両方に有効で、AIの忘却によるフラストレーションを軽減します。

  • AIアシスタントは長い会話の中で、コンテキストウィンドウの制限により初期の情報を「忘れる」ことがあり、これはコンテキスト圧縮と呼ばれる現象です。
  • 4つの実用的なテクニック:探索と文書作成の分離、ハンドオフ文書の使用、手順ではなく受入基準の提示、仕様書をブリッジとして使用すること。
サイト内本文

Show HN: Python AIエージェントとVueダッシュボードを1つのElectronアプリにパッケージ化しました

Hermes Desktopは、Pythonランタイム、hermes-agent(自己改善型AIエージェント)、hermes-web-ui(Vue 3 + Koaのチャットダッシュボード)を1つのElectronアプリにバンドルしたクロスプラットフォームデスクトップアプリです。ユーザーはPythonやNodeを個別にインストールする必要がなく、DingTalkと統合され、DeepSeekを搭載しています。

  • Pythonランタイムとhermes-agentをバンドルし、依存関係不要で動作
  • Electronシェルを使用し、hermes-web-uiフロントエンドを統合
サイト内本文

Perplexity AIがUnigramトークナイザーをオープンソース化、Hugging Face tokenizers crate比5倍の低レイテンシを達成

Perplexity AIは、Rustで再実装したUnigramトークナイザーをオープンソース化し、Hugging Face tokenizers crateと比較してp50レイテンシを5倍低減、本番環境でのCPU使用率を5〜6倍削減しました。最適化には、ダブルアレイトライ、ビットマップパッキング、ヒュージページが含まれます。

  • Perplexity AIがUnigramトークナイザーをRustで書き直し、Hugging Face tokenizers crate比5倍の低p50レイテンシを達成。
  • 3つの最適化:ダブルアレイトライ、ビットマップとキャッシュラインパッキング、ヒュージページ。
サイト内本文

AIluminode:検索前認知オリエンテーションツール

AIluminode は、行動前に文脈的姿勢をチェックするための、扱いやすい AI 事前検索認知オリエンテーションツールです。ルート極性(OPEN、PROTECT、AUDIT、DEFER、BLOCK)を使用して、誤った探索やコンテキストの漏洩を減らします。

  • AIluminode は「姿勢が検索に先立つ」ことを重視した、扱いやすい事前検索認知オリエンテーションツールです。
  • ルート極性システム(OPEN / PROTECT / AUDIT / DEFER / BLOCK)を使用して、文脈ルーティングを導きます。
サイト内本文

AI生成の数学論文5本が受理!00後創業者・洪楽潼が14億ドル調達

Axiom Math社(創業者は00後中国系の洪楽潼)が、AIシステムAxiomProverが生成した8本の数学論文のうち5本が査読付きジャーナルに受理されたと発表。同社は3月に20億ドルの資金調達を完了し、評価額160億ドルに達した。

  • Axiom MathのAIシステムAxiomProverが生成した8本の数学論文のうち5本が学術誌に受理された。
  • 創業者・洪楽潼はスタンフォード大学を中退して起業し、20億ドルを調達、評価額160億ドル。
サイト内本文

製品が考えるとき:AI製品シフトを乗り切る

本記事では、AIがデジタル製品デザインにパラダイムシフトをもたらし、コマンド駆動から意図駆動のインタラクションへと移行する様子を探り、製品管理、ユーザーエクスペリエンス、意思決定ロジック、リリースサイクル、リスク、価値創造における新たな課題を分析しています。

  • AIはコンピューティング史上3番目のユーザーインターフェースパラダイムであり、決定論的出力から確率的出力への移行を意味する。
  • 製品チームは発見から提供までの全プロセスを再考する必要があり、データ戦略とモデルパフォーマンスが機能戦略と同等かそれ以上に重要になる。
サイト内本文

AIhub月次ダイジェスト:2026年5月 – 科学のためのAI、宝くじ券仮説、世界モデル

今月のAIhubダイジェストでは、科学のためのAI会議、宝くじ券仮説インタビュー、世界モデル討論、透明で信頼できるAI研究、基盤モデル影響報告、AIES会議の振り返り、ロボティクスカフェ、ACLのリジェクトポリシー、arXivのAIスラッグポリシーなどを取り上げます。

  • Ximing Wenへのインタビュー:透明で信頼できるAIシステム
  • Jonathan Frankleが宝くじ券仮説と経験主義を議論
サイト内本文

元GoogleとAppleの研究者がAIに欠けている「フィード」を構築するスタートアップを立ち上げ

Google DeepMind、Apple、OpenAI、Metaで働いていたAI研究者グループが、Trajectoryという新興企業を立ち上げ、実世界のユーザーインタラクションを学習してAI製品を継続的に改善することを目指しています。同社は、トレーニング後に停止するのではなく、継続的に学習できるAIプラットフォームを構築しようとしています。1500万ドルのシード資金を調達し、評価額は1億1500万ドルで、Convictionがリードしました。CEOのRonak Malde氏は、CursorのようなAIコーディング製品がすでに初期の継続学習を実践していると述べ、Trajectoryは同様の技術を他の分野に拡大したいとしています。

  • Trajectoryは元Google DeepMind、Apple、OpenAI、Metaの研究者によって設立され、AIの継続学習を実現する。
  • 同社は1500万ドルのシード資金を調達し、評価額は1億1500万ドル。投資家にはJeff Dean氏やFei-Fei Li氏も含まれる。
サイト内本文

Robinhood エージェント取引

RobinhoodがAgentic Tradingを開始。顧客は自身のAIエージェントを接続して取引やクレジットカード購入を自動化でき、安全制御とリアルタイム活動フィードが利用可能。

  • 自身のAIエージェントをRobinhoodに接続可能
  • 取引とクレジットカード購入の自動化
サイト内本文

スローン賞受賞者・戴亮氏が復旦大学に常勤で着任

2021年スローン賞受賞者でUCバークレー物理学部助教授の戴亮氏が復旦大学に常勤教授として着任し、物理学部および天文・天体物理研究センターで教鞭をとる。復旦大学は近年、蘇昊、袁峰、季索清など多くのトップ人材を獲得している。

  • 戴亮氏(2021年スローン賞受賞)が復旦大学に常勤で加入
  • 元UCバークレー助教授、北京大学物理学部出身
サイト内本文

ロボットはChatGPTの瞬間に近づいているのか? – ポッドキャスト

先月の北京ハーフマラソンで、ロボット「ライトニング」が人間の世界記録を約7分上回るタイムで完走した。これはチャットボットのようにロボットが日常生活に入り込むのではないかとの疑問を呼ぶ一連のAIマイルストーンの最新例である。中国がこの流れを先導し、政府は今後20年間で1000億ポンド以上をロボット工学に投資することを約束している。

  • ロボット「ライトニング」が北京ハーフマラソンで人間の世界記録を破る。
  • 中国は今後20年間で1000億ポンド以上のロボット投資を約束。
サイト内本文

惑星探査のためのリアルタイム非同期単眼オドメトリの設計

研究者らは、惑星探査ローバー向けに、イベントカメラデータを処理する誤差状態カルマンフィルタを用いたリアルタイム非同期イベントベース単眼オドメトリを提案。高ダイナミックレンジ照明や計算制約下でのロバストな自己運動推定を実現する。

  • イベントカメラはマイクロ秒分解能で非同期のピクセル単位の明るさ変化を報告し、高速センシングとHDR環境に適している。
  • アプローチは誤差状態カルマンフィルタを用いてイベントストリームから連続的にカメラ運動を推定する。
サイト内本文

Trinity:合成データを活用した非構造化屋外環境におけるクラス非依存地形分割とセマンティックセグメンテーションの統一

本論文では、トランスフォーマーアーキテクチャに基づくTrinityを提案し、統一ネットワーク内でクラス固有のセマンティックセグメンテーションとクラス非依存の地形分割を同時に実行する。地形領域は事前定義ラベルやロボット依存の走行可能性スコアなしに視覚的外観のみで分割され、ロボット非依存の視覚的地形事前知識を学習可能にする。大規模トレーニングのためにOAISYSシミュレータを拡張しRUGDSynth合成データセットを作成、さらにEXTerra実世界データセットを提供する。実験により複雑な屋外環境での有効性が実証された。

  • Trinityアーキテクチャがクラス非依存地形分割とセマンティックセグメンテーションを統一
  • 事前定義ラベルなしに視覚的外観で地形分割、プラットフォーム間の転移性を向上
サイト内本文

光流体アセンブリのためのエージェント的言語から目的への合成

研究者らは、条件付き大規模言語モデルを用いて、音声またはテキストのコマンドを微分可能な目的関数に変換するモジュラー型エージェントパイプライン「Speak-to-Objective」を提案する。これは、制約認識逆解法と実験的な光流体プラットフォーム上で微粒子を組み立てるためのものである。アプローチは「知覚→構成→提案→行動→報告と学習」のループを採用し、目的を意図と動作のインターフェースとして扱うことで、自然言語でプログラム可能なマイクロスケールアセンブリを実現し、自律的な光製造プラットフォームへの道を開く。

  • Speak-to-Objectiveパイプラインは自然言語コマンドを微分可能な目的関数に変換する。
  • 光流体プラットフォーム上でレーザー誘起熱粘性流を用いた微粒子パターンアセンブリを実証。
サイト内本文

合成感情 vs ゲーミフィケーション:小型ソーシャルロボットにおける異年齢層のエンゲージメント戦略の探求

多くの子供は感情調整や社会的相互作用に課題を抱え、日常活動や治療プログラムへの参加が制限される。社交支援ロボットの効果には持続的なエンゲージメントが不可欠であり、本研究では触覚ロボットを用いて合成感情フィードバックとポイント報酬の2つの戦略を評価。6-8歳の小学生16名を対象とした選好評価では感情的な関与が好まれ、20-27歳の大学生14名を対象とした行動研究ではポイントシステムが有意に高いタスク精度(p<0.05)と持続的パフォーマンスを示した。年齢層によって選好と行動結果が異なる可能性を指摘し、設計仮説の検証には観察による相互作用が重要と結論。

  • 6-8歳の子供は感情的な関与を好む
  • 20-27歳の大学生はポイント報酬でタスク精度向上
サイト内本文

「もしもの世界」:身体性シナリオにおける汎用世界モデルの因果ベンチマーク

動画生成モデルは運転やロボット操作のシミュレータとして使われるが、既存のベンチマークは単独動画の品質のみを評価し、因果関係の理解をテストできない。そこで提案された「もしもの世界」ベンチマークは、1つの物理変数のみ異なるペアのプロンプトを使用し、モデルが正しく因果に応答するかを検証する。9つの最先端モデルを評価した結果、最高でも52%、オープンソースモデルは約28%のペアスコアであり、性能は物理の難易度ではなく視覚的顕著性に依存する。

  • 「もしもの世界」は、単一変数の変更を含む319のプロンプトペアで動画生成モデルの因果推論をテスト。nuScenesとDROIDの実フレームに基づく。
  • APEO評価基準(遵守性、物理整合性、環境保存、結果の正確性)を採用。9モデル中最高52%、オープンソースは約28%で、因果介入の多くに失敗。
サイト内本文

Melanoscope AIモバイル皮膚鏡臨床意思決定支援システムの臨床検証

Melanoscope AIモバイル皮膚鏡CDSSの前向き単施設臨床検証では、176名の患者において専門医評価との一致率88.6%、悪性病変5例に対する偽陰性ゼロ、特異度88.3%を示しました。研究では、カスケード深層学習モデルの定量的解釈可能性評価法と3ゾーン患者振り分けアルゴリズムを開発し、リソースが限られた環境での皮膚がんスクリーニングに再現可能で解釈可能な意思決定支援を提供します。

  • Melanoscope AIシステムは176名の患者で専門医との一致率88.6%、悪性病変5例に偽陰性なし。
  • 特異度88.3%、3例の悪性黒色腫と2例の基底細胞癌が組織学的に確認。
サイト内本文

表現条件付き拡散モデルによる学習データ生成の誘導

本研究では、DINOv2、DINOv3、CLIPから得られた表現を条件として合成画像データを生成する表現条件付き拡散モデルを提案。ImageNet100において、クラス条件付き生成を+10.76 p.p.のトップ1精度で上回る。合成データセットを拡大することで、実データで学習した分類器を+2.0 p.p.凌駕することも可能。また、データ拡張やサンプルフィルタリングにおいても優れた性能を示し、大規模視覚学習タスクにおける実世界データセットの補完や代替の有望な手法を提供する。

  • 表現条件付き拡散モデルはImageNet100でクラス条件付き生成を10.76ポイント上回る。
  • 拡大した合成データセットにより、実データ学習モデルを2.0ポイントのトップ1精度で凌駕。
サイト内本文

動作プリミティブを超えて:ヘッドマウントIMUによる行動認識

本研究は、ヘッドマウント慣性計測ユニット(IMU)を用いた行動レベルの活動認識手法を提案し、従来の動作プリミティブ認識を超えるものです。研究チームは、ARアプリケーションのニーズとセンサの観測可能性を考慮した5つの行動カテゴリを定義し、Ego4Dから16万サンプルのデータセットを構築しました。また、70.3万パラメータの階層モデルHiT-HARを提案し、5クラスの行動認識と8クラスのシナリオ認識で既存モデルを上回る性能を示しました。観測可能性分析により、移動行動は確実に観測可能であり、物体移動やタスク操作は時間的コンテキストを必要とすること、シナリオ依存の信号重複が課題であることが明らかになりました。アーキテクチャの選択では、時間的コンテキストとシナリオ構造を活用することが、単純なモデルサイズの拡大よりも効果的であることが示されました。

  • ヘッドマウントIMUからの行動認識のための階層モデルHiT-HARを提案、動作プリミティブを超越
  • Ego4Dから16万サンプルのデータセットを構築、4段階の品質保証フレームワークを採用
サイト内本文

D²Turb:深度認識シミュレーションと分離学習による単一フレーム大気乱流緩和

研究者らは、D²Turbフレームワークを提案。深度認識乱流合成プロトコルと適応型構造事前注入機構を導入し、大気乱流緩和をテクスチャのデブラリングと幾何補正の2つの相互作用する段階に分解することで、合成データと実データの両方で最先端の性能を達成した。

  • 深度認識乱流合成プロトコルにより、シーンの深度を考慮した物理的に一貫した劣化を生成。
  • 復元プロセスをテクスチャデブラリングと幾何補正の2段階に分離。
サイト内本文

感情から複雑な行動へ:第10回ABAWワークショップ&コンペティションにおけるマルチモーダル人間中心AIの進展

第10回ABAWワークショップ&コンペティションがCVPR 2026で開催され、感情模倣強度推定、アンビバレンス/ためらい認識、細粒度暴力検出などの新たなチャレンジを導入し、従来の感情推定・認識タスクとともに、マルチモーダル人間中心AIを推進します。コンペティションは大規模な実環境データセットを活用し、ペーパートラックはポーズ推定から公平性やロバストネスまで幅広いトピックをカバーします。

  • ABAW 2026は新たなチャレンジ(感情模倣強度、アンビバレンス認識、暴力検出)を導入。
  • ワークショップはコンペティションとペーパートラックの二重構造を継続。
サイト内本文

コミュニティ態度の反応トーンによるモデリング:オンラインコミュニティにおける言語行動に対するLLMの整合性を評価する人間-AI協調フレームワーク

大規模言語モデル(LLM)は計算社会科学の代理としてますます利用されているが、人間コミュニティの「厚い記述」を忠実に再現する能力は依然として重要な課題である。本稿ではCARE(Community-Aware Reaction Evaluation)フレームワークを提案する。これは、LLMがシミュレートする言説と、実際のコミュニティが現実のニュースに対して示す即時反応を比較する反応中心の評価手法である。発話内トーンの詳細なスペクトルを特徴づけることで、明示的なコミュニティプロンプトでLLMを誘導してもシミュレーションの忠実度が本質的に向上しない「リアリズムギャップ」が明らかになった。さらに、最先端モデル間で異なる行動特性が確認され、現在のアライメント戦略はオンライン集団の社会言語学的ダイナミクスを捉えるには不十分であることが示唆される。

  • CAREフレームワークは、実際のコミュニティ反応トーンを分析してLLMシミュレーションの忠実度を評価する
  • 現在のLLMアライメント戦略は、オンラインコミュニティの社会言語学的ダイナミクスを適切に捉えられていない
サイト内本文

ARから拡散へ:厳密因果と弾性地平による大規模言語モデルの効率的適応

FLUIDフレームワークは、自己回帰言語モデルを拡散モデルに適応させ、効率的な並列テキスト生成を実現します。厳密因果アライメントによりGPTチェックポイントを再利用し、エントロピー駆動の弾性地平でノイズ除去ステップを動的に調整します。トレーニングコストを桁違いに削減しつつ、最先端の性能を達成します。

  • FLUIDは厳密因果アライメントによりARと拡散モデルの構造的ギャップを埋め、GPTチェックポイントからの初期化を可能にする。
  • 弾性地平はエントロピーを用いて局所情報密度に応じたノイズ除去ステップを動的に調整する。
サイト内本文

安定性と表現力のギャップを埋める:低リソース音声言語モデルのための合成データスケーリングと嗜好アライメント

研究者らは、低リソース言語の音声言語モデルにおいて合成データを使用する際の「安定性-表現力ギャップ」を特定し、韻律の多様性を回復する2つの自己アライメントフレームワーク(DGSAおよびTDSC)を提案。ElevenLabsやGemini Proなどの商用システムを凌駕し、ラオ語での初のゼロショット音声クローンを実現。

  • 低リソース言語の音声言語モデルは、合成データ学習時に音素精度と韻律表現力のトレードオフに直面する。
  • 提案された解耦誘導自己アライメント(DGSA)は、韻律と音色を分離することで表現力を回復する。
サイト内本文

BioELX: エイリアスベースの検索とLLMランキングによる言語横断的生医学エンティティリンキング

BioELXは、注釈付きトレーニングデータを必要としない、新しい言語横断的生医学エンティティリンキングフレームワークです。Wikidataの多言語エイリアスでSapBERTを強化し、事前学習済みLLMを使った文脈認識型曖昧性解消を行います。5つのベンチマークでの実験により、特にトルコ語、韓国語、タイ語などの低リソース言語で大きな改善が見られました。

  • BioELXを提案:エイリアスベース検索とLLMランキングを用いたゼロショット言語横断BELフレームワーク。
  • 第1段階:Wikidataの多言語エイリアスでSapBERTを強化し、候補検索を改善。
サイト内本文

RAG-Coding:構造化された外部知識を活用したLLM医療コード化の強化

RAG-Codingは、4つの大規模言語モデル(LLM)エージェントを調整し、外部知識源(公式コード一覧やガイドラインなど)に基づいて意思決定を行う自動化されたICD-10-CMコード化手法です。MDACEデータセットでは、最良のLLMベースラインと比較してマイクロF1で8〜13%、マクロF1で2〜8%向上しました。最先端の事前学習モデルPLM-ICDと比較すると、RAG-Codingはマイクロ再現率が11%高い一方、PLM-ICDはマイクロ精度が6%高く、両者のF1は同等です。アブレーション実験により外部知識の重要性が確認されました。また、2025年ガイドラインに基づいて専門家が再注釈したMDACE-2025データセットを公開し、より細かいコードラベルでの評価を可能にしました。

  • RAG-Codingは4つのLLMエージェントと外部知識源を活用し、ICD-10-CMコード化の精度を向上させる。
  • MDACEデータセットで最良LLMベースラインをマイクロF1で8〜13%、マクロF1で2〜8%上回る。
サイト内本文

混合専門家モデルによるマルチモーダル学習課題への挑戦:サーベイ

本サーベイは、混合専門家モデル(MoE)がマルチモーダル学習の課題を効率的エンジン、表現学習器、アダプターという3つの視点からどのように解決するかを探り、解釈可能なルーティングや専門家間通信などの研究ギャップを特定する。

  • MoEは計算コストとパラメータ増加を分離し、スケーラブルなマルチモーダルモデリングを可能にする。
  • MoEは補完的な専門家知識を統合し、アライメントと相互作用表現を強化する。
サイト内本文

$E^3$-Agent: エッジ生成推論のリソース管理のための実行可能かつ進化するエージェント

本論文では、エッジAIGCリソース管理のための実行可能かつ進化するエージェント$E^3$-Agentを提案する。ミリ秒単位のルーティング決定を行う高速パスと、イベント駆動型LLMメタコントローラからなる低速パスを分離し、実行フィードバックからオンライン学習することで、未知で時変的なサービス時間マッピングに適応する。評価では、平均レイテンシを65%-73%削減し、スタッター率も効果的に抑制した。

  • エッジ生成推論は、デバイスごとの未知の性能と非定常性に直面している。
  • $E^3$-Agentは高速ルータと低速LLMメタコントローラの二経路アーキテクチャを採用。
サイト内本文

単純な状態空間モデルが多変量時系列分類で優れた性能を発揮

研究では、構造化状態空間モデルの対角バリアントS4Dが、複雑なMambaアーキテクチャよりも時系列分類タスクで正確かつ効率的であることが示されました。著者らが提案した軽量改良版MS4とMS4Nは、59のデータセットでMambaモデルを凌駕し、パラメータ数が2倍および10倍のディープラーニングモデルに匹敵します。

  • S4DはMambaベースの変種よりも一貫して高い精度と効率を達成。
  • MS4とMS4Nは線形入力投影やチャネル混合などの軽量な変更を導入。
サイト内本文

あなたは自分の状態をコントロールできる:人間の結果が因果的状態介入によって制御可能である理由

本論文は、人間の行動の変動性が観測可能な入力だけでなく、個人の動的な潜在状態に起因することを主張する。意思決定時の状態の重みに介入することで、結果を因果的に制御できると提案する。因果推論、予測処理、アロスタシス、注意ボトルネック、時間生物学、計算精神医学の6つの証拠と、20万人以上のユーザーから得た24ヶ月の観測データに基づく。7つの検証可能な予測と状態認識システムのための6つの運用要件を導出し、デジタルヘルス、教育、AIパーソナライゼーション、個人の主体性への示唆を論じる。

  • 人間の行動変動性は動的な潜在状態に起因し、観測可能な入力だけでは説明できない。
  • 状態は時間依存の重みベクトルとして定義され、決定形成時の状態への介入により結果を因果的に制御できる。
サイト内本文

トピック