AI News HubLIVE
公開記事 303収集記事 330信頼度 75更新頻度 360 分
稼働状態 正常ソース種別 研究全文利用権限 全文利用可最終取り込み 2026-06-26ID arxiv-cs-cl状態 有効

Use abstract and metadata; check individual paper license before full text.

最新公開記事

辞書からAIへ:低リソース言語向け専門対話システムのための構造化データパイプライン

ヒンディー語WordNetを125万件の命令応答ペアに変換し、リソース効率的なLoRAと4ビット量子化を用いて12Bパラメータの言語モデルを微調整する手法を提案。ヒンディー語学習チャットボットによる評価では、汎用モデル(79.4-83.6)を上回る91.0の教育効果を示し、セマンティック性能も競争力を維持。この研究は、低リソース言語向けに大規模コーパスに依存しない代替手段を提供し、WordNetリソースを持つ数百の言語で専門AI開発を可能にする。

  • ヒンディー語WordNetから125万件の命令応答ペアを生成し、12Bパラメータモデルを微調整
  • LoRAと4ビット量子化によるリソース効率的な微調整
サイト内本文

大規模モデルが優れる理由:制約誘導推論の優位性

新しい研究により、大規模言語モデルが推論タスクで小規模モデルを上回る鍵は「制約誘導推論」にあることが明らかになった。大規模モデルは明示的・暗黙的な制約を特定し、構造化された推論に組織化し、実行不可能な経路を排除する能力に優れている。研究チームが開発したAdvClusterフレームワークを用いて、Qwen3-32BはQwen3-8Bより6.43%、GPT-OSS-120BはGPT-OSS-20Bより7.38%高い成績を示した。

  • 大規模モデルは数学、物理学、化学、プログラミングの推論ベンチマークで一貫して小規模モデルを上回る。
  • 「制約誘導推論」が中心的な優位性として特定された。
サイト内本文

低リソース多モーダル翻訳:ネパール語音声から感情条件付き手話アバターへの変換

本研究では、NEST-V1という軽量Transformerベースの多モーダルフレームワークを提案。音声入力から感情表現を伴うネパール手話アバターを生成する。4単語・3感情のデータセットでASR精度81.1%、感情認識精度79.21%を達成。パラメータ数22.1Mでエッジ展開に適する。低リソース言語における感情対応手話翻訳の技術基盤を確立。

  • NEST-V1はネパール語音声を感情(幸せ、中立、悲しみ)を伴う手話アバターに変換する多モーダルフレームワーク。
  • 共有音響エンコーダで音声認識と感情分類を同時実行し、600サンプルで81.1%と79.21%の精度。
サイト内本文

非暴力コミュニケーション制約による大規模言語モデル対話における会話エスカレーションの低減

本研究では、非暴力コミュニケーション(NVC)の原則を軽量なプロンプトレベルの制約として活用し、感情的に緊張した状況で大規模言語モデル(LLM)の対話行動をより緩和・非エスカレーション方向に導く方法を探る。複数のモデルとユーザーの抵抗レベルの異なるデュアルエージェントシミュレーションフレームワークを通じて、NVC制約付きプロンプティングが一貫して会話エスカレーションを低減し、抵抗の強いユーザーとのやり取りを安定化させることを示した。

  • 大規模言語モデルは対人衝突などの感情的な場面で使われることが増えているが、既存の安全研究は意図せず対立を悪化させる会話行動を見過ごしている。
  • 研究者は非暴力コミュニケーションの原則を、非難を避け、ユーザーの感情に注意を向け、助言前の明確化を促すプロセス指向のガイドラインに再構築した。
サイト内本文

長距離LLM推論のためのコンテキストリサイクル

大規模言語モデルは短いコンテキストでは強力だが、長い会話ではコンテキストウィンドウの制限と非効率なトークン使用により性能が低下する。ContextForgeは、構造化クエリ生成、外部メモリ検索、制御された合成を組み合わせてコンテキストをリサイクルし、トークンオーバーヘッドを削減しつつ回答品質を維持する。15ターンの医療会話ベンチマークで、ContextForgeは一貫性を向上させ、トークン消費を削減した。

  • LLMは長い会話ではコンテキストウィンドウの制限により性能が低下する
  • ContextForgeは構造化クエリ生成、外部メモリ検索、制御された合成を組み合わせる
サイト内本文

主張せよ、描写するな:LLMの動物福祉推論を変える言語的特徴

新しい研究により、微調整データにおいて断定的確信、明示的な道徳語彙、感情語などの言語的特徴を使用すると、LLMの動物福祉支持傾向が大幅に強化される一方、曖昧な表現や具体的な感覚的描写はその立場を弱めることが明らかになった。この研究は動物福祉提唱者に実践的な指針を提供する。

  • 10の言語的特徴がLlama-3.2-1Bモデルの動物福祉推論に与える影響をテスト。
  • 8つの特徴が統計的に有意な変化をもたらし、7つが動物福祉支持推論を強化。
サイト内本文

LLMの問題解決能力の調査 – 静力学問題に関する研究

新たな研究では、モデル蒸留プロセスを用いてLLMの静力学問題における性能を評価。LLMはテキストのみの問題では良好な成績を示すが、図表や多段階推論が必要になると精度が低下する。その原因は画像認識の限界ではなく、多段階推論の困難さにあることが示唆された。

  • ChatGPTから蒸留した25問のテキストのみの静力学問題に加え、図表や数値を変更したデータセットを作成。
  • LLMはテキストのみの静力学問題では高い性能を示すが、図表と多段階推論の導入で精度が低下。
サイト内本文

有用性が害になる:事後学習における中期学習された思いやりの価値のドメイン依存的な低下

研究により、言語モデルに対する有用性(helpfulness)を目的とした事後学習(SFTやRL)が、中期学習で注入された動物への思いやりの価値を大幅に低下させることが判明。一方、コーディング領域の事後学習はこれらの価値をよりよく保持する。有用性学習は英語の一般的道徳推論も大きく低下させるが、言語を跨いだ効果は見られず、思いやり価値の低下は一貫して言語間で転移する。中期学習された価値は、領域特化型事後学習による推論改善よりも深く、言語横断的に符号化されていることを示唆。価値指向モデル構築にはコーディング事後学習が推奨される。

  • 有用性の事後学習(SFT及びGRPO)は、AHBベンチマークでコーディング学習と比較して動物への思いやりスコアを約30ポイント低下させる。
  • 英語MORUでは有用性学習が一般的道徳推論を25.5ポイント低下させるが、多言語MORUではドメイン効果は消失。
サイト内本文

Know2Guess: 大規模言語モデルの知識境界評価のための汚染認識マルチゾーンベンチマーク

arXiv:2606.26101 の新しい論文は、LLMの知識に基づく回答と推測を区別するためのベンチマーク「Know2Guess」を提案。1200の質問から成り、FLAN-T5、Qwen2.5-Instruct、Llama-3-Instructを評価。Qwen2.5-3B-Instructが最も信頼性が高いが、依然として課題あり。

  • Know2Guessベンチマークは5ドメイン、1200項目で構成
  • 評価により、モデルの回答と棄権の移行が不完全であることが判明
サイト内本文

HierBias: コンテキスト条件付き階層型メディアバイアス検出とマルチタスクタイプ分類

HierBiasは、文書コンテキストをモデル化することで文レベルのバイアス分類を改善する新しい階層型コンテキスト条件付きメディアバイアス検出器です。理論的には、コンテキストを利用することでベイズ誤差が減少することが示され、マルチタスク学習によりサンプル効率が向上します。アーキテクチャはRoBERTaエンコーダとクロスセンテンスTransformerを組み合わせ、BABEおよびBASILデータセットでF1 0.853、MCC 0.723を達成し、既存の最良手法を上回ります。

  • HierBiasは文書コンテキストを利用した文レベルのバイアス分類を実現し、理論的にベイズ誤差を減少させる。
  • マルチタスク学習により二値検出と細かいタイプ分類を同時に訓練し、小サンプルでの効率を向上。
サイト内本文

オンライン薬物使用コミュニティにおける自己スティグマの認知的、感情的、行動的表現

本研究は、認知的、感情的、行動的領域にわたる自己スティグマのコードブックを開発し、Reddit上の薬物使用者の投稿を分析しました。結果は、自己スティグマが広く見られ、行動指標が中核指標に先行することが多く、進行モデルに挑戦するものでした。

  • 認知的、感情的、行動的領域をカバーする10指標の自己スティグマコードブックを開発。
  • 1,660人のユーザーからの72,115件の投稿を分析し、5.3%に自己スティグマが含まれていた。
サイト内本文

Dreamチーム、SemEval-2026タスク13でシングルパス機械生成コード検出のためのSALSAを提案

大規模言語モデルはコード生成を変革し、作者性、評価の完全性、ソフトウェアの信頼性に関する懸念を引き起こしています。SemEval-2026タスク13サブタスクAは、コードスニペットに対する二項分類として検出を定義し、未見のプログラミング言語やアプリケーションドメインへの分布外汎化に特に重点を置いています。研究では、SALSA(シングルパス自己回帰大規模言語モデル構造化分類)を提案し、各クラスを専用の出力トークンにマッピングし、モデルが構造化応答で単一トークンのラベルを生成するよう訓練します。バランスの取れたサンプリング、パラメータ効率の良い微調整、保守的な訓練を組み合わせることで、システムは公式リーダーボードでOOD F1=0.789を達成し、CodeBERTベースライン(F1=0.305)を大幅に上回りました。

  • LLM生成コードの検出は学術的完全性とソフトウェアセキュリティに不可欠
  • SALSAはシングルパス自己回帰構造化分類により検出を簡素化
サイト内本文

大規模言語モデルに基づく科学的ピアレビュー:手法、ベンチマーク、信頼性の課題

学術投稿の急増により、従来のピアレビューは拡張性の限界に直面し、大規模言語モデル(LLM)をインテリジェントな自動評価アシスタントとして活用する動きが活発化している。しかし、LLMが流暢な批評を生成し、レビュアーのスコアを近似できることが示されている一方で、意思決定支援システムとしての信頼性、堅牢性、セキュリティは十分に理解されていない。本サーベイは、LLMベースの科学的ピアレビューをシステムレベルで分析し、批評生成とスコア予測という2つの中核機能に焦点を当てる。プロンプトベース、教師あり、検索拡張、アライメント最適化といった手法の構造化された分類法を提示し、既存のベンチマークにおける実証結果を総合する。データセットの制約、評価の欠点、領域集中バイアスを分析し、現在の評価実践を制限する要因を明らかにする。性能指標を超えて、プロンプトインジェクション、データポイズニング、検索脆弱性、報酬ハッキングといった新興の堅牢性リスクを特定し、自動レビューパイプラインが戦略的操作にさらされる可能性を示す。データマイニングの観点から、主観的不一致のモデリングとクロスドメイン汎化における主要な未解決課題を概説する。自動ピアレビューをハイステークスな多目的決定問題として再定義し、堅牢で透明性が高く、信頼できるAI支援科学評価システムの開発へのロードマップを提供する。

  • LLMは流暢な批評やスコア近似が可能だが、意思決定支援としての信頼性は未解明。
  • プロンプトベース、教師あり、検索拡張、アライメント最適化の4つの手法分類を提示。
サイト内本文

実際の二重採点GCSEベンチマークにおけるLLMの性能

新しい研究では、GCSE模擬試験の32,534件の実際の二重採点学生回答データセット(5科目328問、手書き含む)を導入。市販の大規模言語モデルが採点者とどの程度一致するかを調査した結果、トップモデルは採点者同士の一致よりも高い一致を示した。英語エッセイ採点などの主観的タスクや複雑な手書き数学答案の処理でも高スコアを達成。モデルサイズによる差は小さく、コスト効率の良い自動採点ソリューションを提供する。

  • 32,534件のGCSE模擬試験二重採点データセットを構築。
  • トップLLMは採点者同士よりも高い一致率を達成。
サイト内本文

Dustin: 投機的復号を用いた効率的な長文脈生成のためのドラフト拡張スパース検証

Dustinは、長文脈投機的復号向けのスパース検証フレームワークであり、ドラフトモデルの先読み信号とターゲットモデルの履歴注意を組み合わせて重要なトークンを特定します。Qwen2.5-72Bで32k系列長においてセルフアテンションを27.85倍、エンドツーエンドの復号を9.17倍高速化し、精度低下は無視できます。

  • 長文脈LLMにおける投機的復号は、検証時のKVキャッシュ読み込みがボトルネック
  • 既存の圧縮手法(静的削除や動的選択)は効率と精度のバランスが不十分
サイト内本文

完全な検出、制御の失敗:言語モデルにおける知覚と操作の幾何学

arXivの最新研究は、言語モデルにおける「検出」と「制御」の行動方向の幾何学的な差異を明らかにしています。モデルは幻覚を完全に検出できますが(AUC=1.0)、検出方向と拒否を引き起こす方向のコサインはわずか0.12であり、検出は制御可能性を意味しないことを示しています。このギャップはさまざまなモデルと規模で普遍的に存在し、事前学習に起因しており、15度の回転で部分的に埋められます。

  • 言語モデルにおける検出方向と制御方向の角度は平均83度、コサインは0.12。
  • モデルは偽のエンティティを完全に線形分離できるが、それらの生成を拒否するのは困難。
サイト内本文

ASR誤り訂正のためのエラー対応TF-IDF検索拡張生成

エラー対応TF-IDF検索を使用したフレームワークを提案し、ASRの幻覚エラーを訂正。ペルシア語FLEURSデータセットでWERを大幅に改善。

  • ASR幻覚訂正のためのエラー対応TF-IDF検索拡張生成を提案
  • 対称テキスト正規化とスパースペナルティ行列を統合
サイト内本文

AgentOdyssey:テスト時継続学習エージェントのためのオープンエンドな長期間テキストゲーム生成

AgentOdyssey は、プロシージャル生成されたオープンエンドテキストゲームを用いて、エージェントの継続学習能力を評価する新しいフレームワークです。従来の機械学習の前提(テスト時の学習なし)を打破し、展開中に学習と推論を統合します。世界知識獲得、エピソード記憶、探索、行動多様性、モデルコストを測定し、実験では最強のエージェントでさえ人間のパフォーマンスに遠く及ばず、短期記憶が重要な改善要素であることが判明しました。

  • AgentOdyssey はプロシージャル生成されたオープンエンドテキストゲームでエージェントのテスト時継続学習を評価。
  • テスト時に学習しないという従来の前提を打破し、展開中に学習と推論を統合。
サイト内本文

小さな編集、大きなモデル:WikipediaのアドボカシーがLLMの価値観を形作る方法

新しい研究により、わずか125回の編集で、小さなWikipedia編集者のグループが大規模言語モデルの動物福祉に関する振る舞いに顕著な影響を与えられることが示されました。勾配ベースのデータ帰属手法を用いて、これらの編集の影響を追跡し、動物福祉関連のWikipediaコンテンツが関連クエリに対するモデルの応答で支配的になることを発見しました。

  • Pro-Animal Wikipedians(PAW)は、115ページにわたるわずか125回の編集で、動物福祉に関するLLMの振る舞いに影響を与えた。
  • 帰属分析では、PAW編集セクションが動物福祉クエリのトップドキュメントの68%を占め、無関係クエリでは52%だった。
サイト内本文

グラフベースの音韻誤り訂正:ノイズのあるASRのための新しいフレームワーク

自動音声認識(ASR)システムが固有名詞や否定語などの意味的に重要なトークンに残す音韻的類似性による誤りに対して、研究者らはG-SPINフレームワークを提案。グラフニューラルネットワークで音韻的に妥当な候補集合を生成し、マスク言語モデルでスコアリング、最後に大規模言語モデルで文脈を考慮した再ランキングを行うことで、軽量でモジュール化された推論時訂正を実現する。

  • ASR誤りは音韻的類似性に起因し、重要な意味単位に影響
  • G-SPINはGNN、MLM、LLMの3段階パイプラインで精度の高い訂正を実現
サイト内本文

QuechuaTok:膠着型低リソース言語におけるトークナイザ評価のための形態的境界精度の必要性

標準的なトークナイザ評価指標(肥沃度など)は膠着言語の形態的正しさを捉えられない。QuechuaTokベンチマークは、南部ケチュア語において4つのトークナイズ戦略を比較し、従来指標に加えて形態的境界精度(MorphAcc)を導入。BPEは最低肥沃度(1.636)だがMorphAccは6.67%に過ぎず、形態認識型PRPEは83.33%のMorphAccを達成。肥沃度だけでは膠着言語のトークナイザ評価に不十分であることを示した。

  • 肥沃度指標は膠着言語の形態的正確性を反映しない。
  • QuechuaTokは南部ケチュア語でBPE、Unigram LM、WordPiece、PRPEを系統比較。
サイト内本文

検索指標が誤解を招くとき:長期的なツール使用エージェントにおけるポリシー信号の測定

この研究は、検索品質の代理指標としての完全一致検索再現率の有効性に疑問を投げかけます。tau-benchでは、検索されたポリシークラスが金標準ポリシーとほぼ同等の下流分類性能を示し、完全一致再現率はわずか7%でした。結果は、再現率だけに依存すると検索ポリシーの実用的価値を過小評価する可能性があることを示唆しています。

  • 完全一致検索再現率は検索品質の代理指標としてよく使われるが誤解を招く可能性がある。
  • tau-benchでQwen2.5-3B/7B分類器を用いてポリシー分類をテスト。
サイト内本文

LLMの帰属指標は転移可能か?データセットと構成を横断した検索拡張生成評価の監査

本研究では、3つの評価構成における8つの自動スコアラーを監査し、全データセットで一貫して最高性能を維持するスコアラーは存在しないことを発見した。生成回答帰属構成では指標ランキングが逆転し、NLIスコアラーは長文タスクで性能が崩壊する。プロンプトベースのLLM判定者は崩壊を回避するが、コストが高く非決定的である。指標選択は対象データセットで検証すべきである。

  • 8つの自動スコアラーを3つの評価構成で監査し、データセット間で安定して転移するものはなかった。
  • 生成回答帰属構成では指標ランキングが逆転し、NLIスコアラーが長文タスクで崩壊。
サイト内本文

1年後...害は続く、しかし私たちも続く!

新しい研究では、6つの専有大規模言語モデルが16のDSM-5条件においてどの程度安全かを評価。自殺と自傷以外では、摂食障害、物質使用障害、大うつ病性障害などで最大100%の保護失敗率が確認された。研究者は臨床条件ごとに明確な害のカテゴリと保護対策を求める。

  • 6つの専有LLMを16のDSM-5条件で評価
  • 自殺・自傷のみ保護が信頼できるが、他の条件では最大100%の失敗率
サイト内本文

まず位置特定、次にランク付け:知識ベースVQAにおける学習不要なエンティティ識別の再考

本論文では、知識ベース視覚質問応答(KB-VQA)のための学習不要なフレームワークIBA(Identify-Before-Answer)を提案する。このフレームワークは、エンティティ識別と段落レベルの証拠ランキングを分離し、マルチモーダル大規模言語モデル(MLLM)に候補名から高信頼度のエンティティを選択させ、続いて既製のテキスト再ランカーで証拠を選択する。実験では、Encyclopedic-VQAおよびInfoSeekにおいて、微調整されたマルチモーダル再ランキングベースラインを一貫して上回り、トレーニングと推論の複雑さを低減した。

  • IBAフレームワークは、エンティティ識別と証拠ランキングを分離する「識別してから回答する」戦略を採用。
  • マルチモーダル大規模言語モデルを利用し、候補名からエンティティを識別するため学習不要。
サイト内本文

製品魅力の効率的で説明可能な数値・分類含意感情分析におけるLLM活用の評価

本論文は、大規模言語モデル(LLM)を用いて定性的な製品フィードバックから製品魅力を定量化するスケーラブルで解釈可能なフレームワークを提案。ZORQおよびCARMAデータセットにおいて、ゼロショット連続数値感情スコアは専門家ラベルと最大0.97のピアソン相関、分類精度94%を達成。GPT-4o-miniは大規模モデルに匹敵する性能を94%低コストで実現し、フレームワークは信頼度評価と説明可能AIを統合している。

  • LLMは定性回答から数値感情スコアを生成し、専門家ラベルと高い相関(最大0.97)を示した。
  • GPT-4o-miniは大規模モデルと同等の性能を94%低コストで実現。
サイト内本文

自己認識ファインチューニングは創発的ミスアライメントを防止・逆転できる

新たな研究により、自己生成テキスト認識(SGTR)ファインチューニングが大規模言語モデルにおける創発的ミスアライメント(EM)の防止と逆転に効果的であり、良性ファインチューニングよりも優れていることが示された。EMは有害な内容の学習ではなく、モデルの整合したキャラクターの不安定化に起因し、SGTRはキャラクターの強化によって機能する。

  • 創発的ミスアライメント(EM)は、モデルの整合したキャラクターの不安定化から生じ、有害コンテンツの直接学習ではない。
  • 自己生成テキスト認識(SGTR)ファインチューニングは防止と逆転の両方に有効であり、防止において特に一貫している。
サイト内本文

RAGシステムにおける事前優位性の定量化

本研究では、RAGシステムにおける文脈情報の利得を厳密に定量化する正規化文脈利用(NCU)指標を提案する。実験により、厳密な事実抽出タスクでは小規模言語モデル(SLM)が大規模モデルに匹敵または優れ、商用APIは半数近くの敵対的競合で外部証拠を無効にし、信頼度の崩壊を示した。

  • 連続トークン対数確率を利用したNCU指標により、文脈抽出とパラメトリック記憶を区別。
  • 小規模言語モデルが厳密な抽出で大規模モデルを凌駕し、スケーリング則の収穫逓減が顕著。
サイト内本文

ModTGCN: テキスト分類のためのモジュラリティ認識グラフニューラルネットワーク

ModTGCNを提案。モジュラリティ認識GNNであり、クロスエントロピーとモジュラリティベースの補助目的を同時最適化し、クラス一貫性のある文書コミュニティを促進しつつ識別表現を維持。5つのベンチマークで一貫した改善、特に低ホモフィリーデータセットで大きな向上。

  • グローバルコミュニティ構造を組み込み、過平滑化を緩和
  • Transformer埋め込みから導出された文書類似度グラフ上のモジュラリティ目的
サイト内本文

EXPO-SQL: 実行ベースの句レベルポリシー最適化によるText-to-SQL

EXPO-SQLは、実行結果(エラーメッセージや句ごとの逐次実行)を分析することでSQLクエリの各句に細粒度の報酬を割り当てる、実行ベースの句レベルポリシー最適化手法を提案する。既存のRL手法における粗いクエリレベルの報酬がもたらす学習信号不足の問題を解決し、複数のText-to-SQLベンチマークで既存の教師ありファインチューニング、プロンプティング、RL手法を大幅に上回る性能を示した。

  • 既存のRL手法はすべての句に同じクエリレベルの報酬を与え、正しい句と誤った句を区別しない。
  • EXPO-SQLは実行結果と句ごとの逐次実行の分析により、句レベルの細かい報酬を提供する。
サイト内本文

全ソース