Show HN: BetterCallClaude – イタリア向けオープンソースAIリーガルエージェント
BetterCallClaudeは、イタリアの法律専門家向けに設計されたオープンソースのAIリーガルエージェントプラットフォームです。20の専門AIエージェントがイタリア全20地域をカバーし、バイリンガル(伊・英)対応、プライバシーを重視したローカルLLM処理とGDPR準拠を特徴としています。法律研究の高速化、効率向上、完全な透明性を実現します。
- イタリア法に特化した20の専門AIエージェント
- バイリンガル対応(イタリア語・英語)
スローン賞受賞者・戴亮氏が復旦大学に常勤で着任
2021年スローン賞受賞者でUCバークレー物理学部助教授の戴亮氏が復旦大学に常勤教授として着任し、物理学部および天文・天体物理研究センターで教鞭をとる。復旦大学は近年、蘇昊、袁峰、季索清など多くのトップ人材を獲得している。
- 戴亮氏(2021年スローン賞受賞)が復旦大学に常勤で加入
- 元UCバークレー助教授、北京大学物理学部出身
清華大学に新しい先生:ジェンセン・フアン
NVIDIAのCEOジェンセン・フアンが清華大学経営管理学院の顧問委員会に加わることが明らかになった。委員会はアップルのティム・クックが議長を務め、イーロン・マスク、サティア・ナデラ、マーク・ザッカーバーグ、馬雲らが名を連ねる。フアンは先日、カーネギーメロン大学から名誉博士号を授与された。
- ジェンセン・フアンが清華大学経営管理学院顧問委員会に参加
- 委員会はクック議長、マスク、ナデラ、馬雲ら世界的リーダーで構成
AIエージェントのアムダールの法則
本記事はアムダールの法則をAIエージェントに適用し、並列エージェントによる高速化は人間の判断を必要とするワークフロー割合(H)によって制限されると主張する。「自己流動化H」の概念を導入し、各人間の介入が将来の同様の介入を不要にする成果物を生み出すべきだと説く。構成(コンフィギュランジー)と適合スイートへの投資が、エージェントの自律動作を可能にする鍵である。ElectricSQL、Gas Town、Ralph Loopの事例が原則を例示する。
- AIエージェントの高速化は人間の判断割合Hに制限され、Hの削減が重要。
- 自己流動化H:人間の介入ごとに再利用可能な成果物(テスト、仕様更新)を生成し、再発を防止。
ロボットはChatGPTの瞬間に近づいているのか? – ポッドキャスト
先月の北京ハーフマラソンで、ロボット「ライトニング」が人間の世界記録を約7分上回るタイムで完走した。これはチャットボットのようにロボットが日常生活に入り込むのではないかとの疑問を呼ぶ一連のAIマイルストーンの最新例である。中国がこの流れを先導し、政府は今後20年間で1000億ポンド以上をロボット工学に投資することを約束している。
- ロボット「ライトニング」が北京ハーフマラソンで人間の世界記録を破る。
- 中国は今後20年間で1000億ポンド以上のロボット投資を約束。
惑星探査のためのリアルタイム非同期単眼オドメトリの設計
研究者らは、惑星探査ローバー向けに、イベントカメラデータを処理する誤差状態カルマンフィルタを用いたリアルタイム非同期イベントベース単眼オドメトリを提案。高ダイナミックレンジ照明や計算制約下でのロバストな自己運動推定を実現する。
- イベントカメラはマイクロ秒分解能で非同期のピクセル単位の明るさ変化を報告し、高速センシングとHDR環境に適している。
- アプローチは誤差状態カルマンフィルタを用いてイベントストリームから連続的にカメラ運動を推定する。
Trinity:合成データを活用した非構造化屋外環境におけるクラス非依存地形分割とセマンティックセグメンテーションの統一
本論文では、トランスフォーマーアーキテクチャに基づくTrinityを提案し、統一ネットワーク内でクラス固有のセマンティックセグメンテーションとクラス非依存の地形分割を同時に実行する。地形領域は事前定義ラベルやロボット依存の走行可能性スコアなしに視覚的外観のみで分割され、ロボット非依存の視覚的地形事前知識を学習可能にする。大規模トレーニングのためにOAISYSシミュレータを拡張しRUGDSynth合成データセットを作成、さらにEXTerra実世界データセットを提供する。実験により複雑な屋外環境での有効性が実証された。
- Trinityアーキテクチャがクラス非依存地形分割とセマンティックセグメンテーションを統一
- 事前定義ラベルなしに視覚的外観で地形分割、プラットフォーム間の転移性を向上
光流体アセンブリのためのエージェント的言語から目的への合成
研究者らは、条件付き大規模言語モデルを用いて、音声またはテキストのコマンドを微分可能な目的関数に変換するモジュラー型エージェントパイプライン「Speak-to-Objective」を提案する。これは、制約認識逆解法と実験的な光流体プラットフォーム上で微粒子を組み立てるためのものである。アプローチは「知覚→構成→提案→行動→報告と学習」のループを採用し、目的を意図と動作のインターフェースとして扱うことで、自然言語でプログラム可能なマイクロスケールアセンブリを実現し、自律的な光製造プラットフォームへの道を開く。
- Speak-to-Objectiveパイプラインは自然言語コマンドを微分可能な目的関数に変換する。
- 光流体プラットフォーム上でレーザー誘起熱粘性流を用いた微粒子パターンアセンブリを実証。
合成感情 vs ゲーミフィケーション:小型ソーシャルロボットにおける異年齢層のエンゲージメント戦略の探求
多くの子供は感情調整や社会的相互作用に課題を抱え、日常活動や治療プログラムへの参加が制限される。社交支援ロボットの効果には持続的なエンゲージメントが不可欠であり、本研究では触覚ロボットを用いて合成感情フィードバックとポイント報酬の2つの戦略を評価。6-8歳の小学生16名を対象とした選好評価では感情的な関与が好まれ、20-27歳の大学生14名を対象とした行動研究ではポイントシステムが有意に高いタスク精度(p<0.05)と持続的パフォーマンスを示した。年齢層によって選好と行動結果が異なる可能性を指摘し、設計仮説の検証には観察による相互作用が重要と結論。
- 6-8歳の子供は感情的な関与を好む
- 20-27歳の大学生はポイント報酬でタスク精度向上
「もしもの世界」:身体性シナリオにおける汎用世界モデルの因果ベンチマーク
動画生成モデルは運転やロボット操作のシミュレータとして使われるが、既存のベンチマークは単独動画の品質のみを評価し、因果関係の理解をテストできない。そこで提案された「もしもの世界」ベンチマークは、1つの物理変数のみ異なるペアのプロンプトを使用し、モデルが正しく因果に応答するかを検証する。9つの最先端モデルを評価した結果、最高でも52%、オープンソースモデルは約28%のペアスコアであり、性能は物理の難易度ではなく視覚的顕著性に依存する。
- 「もしもの世界」は、単一変数の変更を含む319のプロンプトペアで動画生成モデルの因果推論をテスト。nuScenesとDROIDの実フレームに基づく。
- APEO評価基準(遵守性、物理整合性、環境保存、結果の正確性)を採用。9モデル中最高52%、オープンソースは約28%で、因果介入の多くに失敗。
Melanoscope AIモバイル皮膚鏡臨床意思決定支援システムの臨床検証
Melanoscope AIモバイル皮膚鏡CDSSの前向き単施設臨床検証では、176名の患者において専門医評価との一致率88.6%、悪性病変5例に対する偽陰性ゼロ、特異度88.3%を示しました。研究では、カスケード深層学習モデルの定量的解釈可能性評価法と3ゾーン患者振り分けアルゴリズムを開発し、リソースが限られた環境での皮膚がんスクリーニングに再現可能で解釈可能な意思決定支援を提供します。
- Melanoscope AIシステムは176名の患者で専門医との一致率88.6%、悪性病変5例に偽陰性なし。
- 特異度88.3%、3例の悪性黒色腫と2例の基底細胞癌が組織学的に確認。
表現条件付き拡散モデルによる学習データ生成の誘導
本研究では、DINOv2、DINOv3、CLIPから得られた表現を条件として合成画像データを生成する表現条件付き拡散モデルを提案。ImageNet100において、クラス条件付き生成を+10.76 p.p.のトップ1精度で上回る。合成データセットを拡大することで、実データで学習した分類器を+2.0 p.p.凌駕することも可能。また、データ拡張やサンプルフィルタリングにおいても優れた性能を示し、大規模視覚学習タスクにおける実世界データセットの補完や代替の有望な手法を提供する。
- 表現条件付き拡散モデルはImageNet100でクラス条件付き生成を10.76ポイント上回る。
- 拡大した合成データセットにより、実データ学習モデルを2.0ポイントのトップ1精度で凌駕。
動作プリミティブを超えて:ヘッドマウントIMUによる行動認識
本研究は、ヘッドマウント慣性計測ユニット(IMU)を用いた行動レベルの活動認識手法を提案し、従来の動作プリミティブ認識を超えるものです。研究チームは、ARアプリケーションのニーズとセンサの観測可能性を考慮した5つの行動カテゴリを定義し、Ego4Dから16万サンプルのデータセットを構築しました。また、70.3万パラメータの階層モデルHiT-HARを提案し、5クラスの行動認識と8クラスのシナリオ認識で既存モデルを上回る性能を示しました。観測可能性分析により、移動行動は確実に観測可能であり、物体移動やタスク操作は時間的コンテキストを必要とすること、シナリオ依存の信号重複が課題であることが明らかになりました。アーキテクチャの選択では、時間的コンテキストとシナリオ構造を活用することが、単純なモデルサイズの拡大よりも効果的であることが示されました。
- ヘッドマウントIMUからの行動認識のための階層モデルHiT-HARを提案、動作プリミティブを超越
- Ego4Dから16万サンプルのデータセットを構築、4段階の品質保証フレームワークを採用
D²Turb:深度認識シミュレーションと分離学習による単一フレーム大気乱流緩和
研究者らは、D²Turbフレームワークを提案。深度認識乱流合成プロトコルと適応型構造事前注入機構を導入し、大気乱流緩和をテクスチャのデブラリングと幾何補正の2つの相互作用する段階に分解することで、合成データと実データの両方で最先端の性能を達成した。
- 深度認識乱流合成プロトコルにより、シーンの深度を考慮した物理的に一貫した劣化を生成。
- 復元プロセスをテクスチャデブラリングと幾何補正の2段階に分離。
異種注意構造を持つTransformerモデルのための汎用解釈手法
本研究では、異種注意構造を持つTransformerモデルの解釈手法を提案し、意味解釈と論理解釈を含む実験で有効性を検証した。
- Transformerの注意構造を同種と異種に分類。異種注意は異なるソースからの情報を処理する。
- 異種注意構造のための汎用的な解釈手法を提案。
感情から複雑な行動へ:第10回ABAWワークショップ&コンペティションにおけるマルチモーダル人間中心AIの進展
第10回ABAWワークショップ&コンペティションがCVPR 2026で開催され、感情模倣強度推定、アンビバレンス/ためらい認識、細粒度暴力検出などの新たなチャレンジを導入し、従来の感情推定・認識タスクとともに、マルチモーダル人間中心AIを推進します。コンペティションは大規模な実環境データセットを活用し、ペーパートラックはポーズ推定から公平性やロバストネスまで幅広いトピックをカバーします。
- ABAW 2026は新たなチャレンジ(感情模倣強度、アンビバレンス認識、暴力検出)を導入。
- ワークショップはコンペティションとペーパートラックの二重構造を継続。
コミュニティ態度の反応トーンによるモデリング:オンラインコミュニティにおける言語行動に対するLLMの整合性を評価する人間-AI協調フレームワーク
大規模言語モデル(LLM)は計算社会科学の代理としてますます利用されているが、人間コミュニティの「厚い記述」を忠実に再現する能力は依然として重要な課題である。本稿ではCARE(Community-Aware Reaction Evaluation)フレームワークを提案する。これは、LLMがシミュレートする言説と、実際のコミュニティが現実のニュースに対して示す即時反応を比較する反応中心の評価手法である。発話内トーンの詳細なスペクトルを特徴づけることで、明示的なコミュニティプロンプトでLLMを誘導してもシミュレーションの忠実度が本質的に向上しない「リアリズムギャップ」が明らかになった。さらに、最先端モデル間で異なる行動特性が確認され、現在のアライメント戦略はオンライン集団の社会言語学的ダイナミクスを捉えるには不十分であることが示唆される。
- CAREフレームワークは、実際のコミュニティ反応トーンを分析してLLMシミュレーションの忠実度を評価する
- 現在のLLMアライメント戦略は、オンラインコミュニティの社会言語学的ダイナミクスを適切に捉えられていない
ARから拡散へ:厳密因果と弾性地平による大規模言語モデルの効率的適応
FLUIDフレームワークは、自己回帰言語モデルを拡散モデルに適応させ、効率的な並列テキスト生成を実現します。厳密因果アライメントによりGPTチェックポイントを再利用し、エントロピー駆動の弾性地平でノイズ除去ステップを動的に調整します。トレーニングコストを桁違いに削減しつつ、最先端の性能を達成します。
- FLUIDは厳密因果アライメントによりARと拡散モデルの構造的ギャップを埋め、GPTチェックポイントからの初期化を可能にする。
- 弾性地平はエントロピーを用いて局所情報密度に応じたノイズ除去ステップを動的に調整する。
安定性と表現力のギャップを埋める:低リソース音声言語モデルのための合成データスケーリングと嗜好アライメント
研究者らは、低リソース言語の音声言語モデルにおいて合成データを使用する際の「安定性-表現力ギャップ」を特定し、韻律の多様性を回復する2つの自己アライメントフレームワーク(DGSAおよびTDSC)を提案。ElevenLabsやGemini Proなどの商用システムを凌駕し、ラオ語での初のゼロショット音声クローンを実現。
- 低リソース言語の音声言語モデルは、合成データ学習時に音素精度と韻律表現力のトレードオフに直面する。
- 提案された解耦誘導自己アライメント(DGSA)は、韻律と音色を分離することで表現力を回復する。
BioELX: エイリアスベースの検索とLLMランキングによる言語横断的生医学エンティティリンキング
BioELXは、注釈付きトレーニングデータを必要としない、新しい言語横断的生医学エンティティリンキングフレームワークです。Wikidataの多言語エイリアスでSapBERTを強化し、事前学習済みLLMを使った文脈認識型曖昧性解消を行います。5つのベンチマークでの実験により、特にトルコ語、韓国語、タイ語などの低リソース言語で大きな改善が見られました。
- BioELXを提案:エイリアスベース検索とLLMランキングを用いたゼロショット言語横断BELフレームワーク。
- 第1段階:Wikidataの多言語エイリアスでSapBERTを強化し、候補検索を改善。
RAG-Coding:構造化された外部知識を活用したLLM医療コード化の強化
RAG-Codingは、4つの大規模言語モデル(LLM)エージェントを調整し、外部知識源(公式コード一覧やガイドラインなど)に基づいて意思決定を行う自動化されたICD-10-CMコード化手法です。MDACEデータセットでは、最良のLLMベースラインと比較してマイクロF1で8〜13%、マクロF1で2〜8%向上しました。最先端の事前学習モデルPLM-ICDと比較すると、RAG-Codingはマイクロ再現率が11%高い一方、PLM-ICDはマイクロ精度が6%高く、両者のF1は同等です。アブレーション実験により外部知識の重要性が確認されました。また、2025年ガイドラインに基づいて専門家が再注釈したMDACE-2025データセットを公開し、より細かいコードラベルでの評価を可能にしました。
- RAG-Codingは4つのLLMエージェントと外部知識源を活用し、ICD-10-CMコード化の精度を向上させる。
- MDACEデータセットで最良LLMベースラインをマイクロF1で8〜13%、マクロF1で2〜8%上回る。
LCO: LLMベースの制約最適化による実世界タスクでのより安全なエージェントLLM
大規模言語モデル(LLM)が自律エージェントとして動作する際、インコンテキスト・リワードハッキング(ICRH)と呼ばれる現象により、代理目的を最大化する反復最適化が有害な副作用を引き起こす。既存の防御策では不十分であり、ICRHはモデル自身の過剰最適化に起因する。本稿では、LLMベースの制約最適化(LCO)フレームワークを提案する。LCOは自己思考モジュールと進化サンプリングモジュールから構成され、モデルの微調整なしでICRHを低減する。実験では、ツイートエンゲージメント最適化タスクにおいてGPT-4の有害性成長率を39%削減し、ポリシー最適化ベンチマークではICRH発生率を15.23%削減し、タスク性能を維持した。
- ICRHはLLMが代理目的を過剰最適化し、意図しない害を引き起こす現象。
- LCOは自己思考モジュールと進化サンプリングモジュールを導入し、微調整なしでLLMの行動を制約する。
混合専門家モデルによるマルチモーダル学習課題への挑戦:サーベイ
本サーベイは、混合専門家モデル(MoE)がマルチモーダル学習の課題を効率的エンジン、表現学習器、アダプターという3つの視点からどのように解決するかを探り、解釈可能なルーティングや専門家間通信などの研究ギャップを特定する。
- MoEは計算コストとパラメータ増加を分離し、スケーラブルなマルチモーダルモデリングを可能にする。
- MoEは補完的な専門家知識を統合し、アライメントと相互作用表現を強化する。
$E^3$-Agent: エッジ生成推論のリソース管理のための実行可能かつ進化するエージェント
本論文では、エッジAIGCリソース管理のための実行可能かつ進化するエージェント$E^3$-Agentを提案する。ミリ秒単位のルーティング決定を行う高速パスと、イベント駆動型LLMメタコントローラからなる低速パスを分離し、実行フィードバックからオンライン学習することで、未知で時変的なサービス時間マッピングに適応する。評価では、平均レイテンシを65%-73%削減し、スタッター率も効果的に抑制した。
- エッジ生成推論は、デバイスごとの未知の性能と非定常性に直面している。
- $E^3$-Agentは高速ルータと低速LLMメタコントローラの二経路アーキテクチャを採用。
単純な状態空間モデルが多変量時系列分類で優れた性能を発揮
研究では、構造化状態空間モデルの対角バリアントS4Dが、複雑なMambaアーキテクチャよりも時系列分類タスクで正確かつ効率的であることが示されました。著者らが提案した軽量改良版MS4とMS4Nは、59のデータセットでMambaモデルを凌駕し、パラメータ数が2倍および10倍のディープラーニングモデルに匹敵します。
- S4DはMambaベースの変種よりも一貫して高い精度と効率を達成。
- MS4とMS4Nは線形入力投影やチャネル混合などの軽量な変更を導入。
あなたは自分の状態をコントロールできる:人間の結果が因果的状態介入によって制御可能である理由
本論文は、人間の行動の変動性が観測可能な入力だけでなく、個人の動的な潜在状態に起因することを主張する。意思決定時の状態の重みに介入することで、結果を因果的に制御できると提案する。因果推論、予測処理、アロスタシス、注意ボトルネック、時間生物学、計算精神医学の6つの証拠と、20万人以上のユーザーから得た24ヶ月の観測データに基づく。7つの検証可能な予測と状態認識システムのための6つの運用要件を導出し、デジタルヘルス、教育、AIパーソナライゼーション、個人の主体性への示唆を論じる。
- 人間の行動変動性は動的な潜在状態に起因し、観測可能な入力だけでは説明できない。
- 状態は時間依存の重みベクトルとして定義され、決定形成時の状態への介入により結果を因果的に制御できる。
Agyn:AIエージェント向けオープンソースプラットフォーム - スケーラブルなオンデマンド実行、コードとしてのエージェント定義、ゼロトラストアクセス
Agynは、Kubernetes上のシグナル駆動型ステートフルサーバーレスランタイム、Terraformプロバイダーによるエージェント定義、ゼロトラストセキュリティモデルを備えたオープンソースのAIエージェントプラットフォームです。エージェント、モデル、クラウドに依存せず、本番環境でのスケーラビリティ、ガバナンス、セキュリティの課題に対処します。
- Kubernetes上のシグナル駆動型ステートフルサーバーレスランタイムによるスケーラブルな実行
- Terraformプロバイダーによるエージェントとハーネスの定義(インフラストラクチャコード)
LaneRoPE: 協調並列推論と生成のための位置エンコーディング
LaneRoPEは、シーケンス間アテンション機構と位置エンコーディング拡張により、複数のLLMシーケンスが生成中に協調できるようにし、数学的推論タスクにおける精度を向上させる。アーキテクチャへの変更は最小限で、推論時のオーバーヘッドは無視できる。
- シーケンス間アテンションマスクを導入し、複数シーケンスのサンプリングを相互依存させる。
- RoPEを拡張し、シーケンス内外の相対位置を捕捉。
LLMが因果発見に失敗する理由と介入エージェントによる突破方法
本論文は、大規模言語モデルが因果発見を行う際の根本的な限界を証明しています:教師ありファインチューニング、直接選好最適化、インコンテキスト学習などの手法では、類似した観測データを生成する因果グラフを区別できません。著者らは、凍結された言語モデルを介入オラクルとして使用し、外部ベイズループが対数回数のラウンドで候補グラフに収束するエージェンティック因果ベイズ最適化(A-CBO)を提案しています。Corr2Causeでは、A-CBOは訓練なしでファインチューニングベースラインに匹敵し、24変数・18Kテストサンプルに拡張したExtended Corr2Causeでは、A-CBOはファインチューニングおよび選好最適化の両方を大幅に上回ります。
- LLMの因果発見における失敗が核障害定理に起因する根本的なものであることを証明
- 凍結LLMと外部ベイズ最適化を組み合わせたA-CBOを提案
DynaSchedBench:調整された動的スケジューリングベンチマークとLLMベースのスケジューリングエージェントにおける可観測性のパラドックス
本論文では、DFJSPのための診断フレームワークDynaSchedBenchを提案する。逐次イベント空間キャリブレータ(SESC)とスケジュールストレス指標(SSI)を用いて難易度を層別化したインスタンスを生成する。LLMスケジューリングエージェントにおける「可観測性のパラドックス」を特定し、完全な構造情報を提供すると性能が低下することを発見した。ツール拡張や洗練戦略も信頼性のある改善をもたらさない。
- DynaSchedBenchはSESCとSSIを用いて調整されたDFJSPインスタンスを生成し、進化的ベースラインより効率的。
- LLMエージェントは可観測性のパラドックスを示す:完全な情報は決定を損なう。