arXiv Computational Linguistics AI 新聞來源

公開文章 303採集文章 330可信度 75刷新頻率 360 分鐘

健康狀態健康來源類型研究原文權限 允許原文最近入庫 2026-06-26ID arxiv-cs-cl運行狀態 已啟用

Use abstract and metadata; check individual paper license before full text.

最新公開文章

從詞彙到AI：面向低資源語言的專用對話系統結構化資料管道

2026-06-26 12:00 UTC+8

該研究提出了一種系統化的方法，將結構化語言資源（如Hindi WordNet）轉化為125萬條指令-回答對，用於微調12B引數的語言模型，並透過資源高效的LoRA和4位量化實現。實驗表明，基於結構化知識的系統在印地語學習聊天機器人中取得了卓越的教學效果（91.0分），優於通用模型（79.4-83.6分），同時保持了競爭力的語義效能和一致性。該工作為低資源語言提供了無需大規模語料庫的AI開發替代方案，有望推動數百種擁有WordNet資源的語言的專業AI發展。

將Hindi WordNet轉化為125萬條指令-回答對，微調12B引數語言模型
使用LoRA和4位量化實現資源高效微調

越大越強：約束引導推理是大模型的關鍵優勢

2026-06-26 12:00 UTC+8

一項新研究揭示了大型語言模型在推理任務中優於小型模型的關鍵原因：約束引導推理。大型模型更擅長識別顯式和隱式約束，組織結構化推理，並排除不可行路徑。研究團隊開發的AdvCluster框架自動分析了模型間的推理差異，發現Qwen3-32B比Qwen3-8B平均高出6.43%，GPT-OSS-120B比GPT-OSS-20B高出7.38%。

大型模型在數學、物理、化學和程式設計推理基準上持續優於小型模型。
研究提出了“約束引導推理”作為核心優勢：大型模型能更好地識別和利用約束。

低資源多模態翻譯：將尼泊爾口語詞彙轉化為情感條件手語虛擬形象

2026-06-26 12:00 UTC+8

本研究提出了NEST-V1，一個基於輕量級Transformer架構的多模態框架，能夠從口語輸入生成帶有情感表達的尼泊爾手語虛擬形象。在包含4個常見詞彙和3種情感狀態的資料集上，系統實現了81.1%的語音識別準確率和79.21%的情感識別準確率，引數僅為22.1M，適合邊緣部署。該研究為低資源語言的情感感知手語翻譯奠定了基礎。

NEST-V1是一個多模態框架，可將尼泊爾口語詞彙轉化為帶有情感（快樂、中性、悲傷）的手語虛擬形象。
系統採用共享聲學編碼器，同時進行語音識別和情感分類，在600個音訊樣本上達到81.1%和79.21%的準確率。

透過非暴力溝通約束減少大型語言模型對話中的衝突升級

2026-06-26 12:00 UTC+8

本研究探討如何利用非暴力溝通（NVC）原則作為輕量級提示約束，引導大型語言模型（LLM）在情感衝突情境中採取更緩和、非升級的對話行為。透過雙智慧體模擬框架，實驗表明NVC約束能顯著減少對話升級，穩定與高牴觸使用者的互動。

大型語言模型在人際衝突等情感激烈場景中應用增多，但現有安全研究多關注顯性有害內容，忽視無意中加劇衝突的對話行為。
研究人員將非暴力溝通原則重構為過程導向的提示約束，鼓勵避免指責、關注使用者情緒、先澄清再建議。

長程LLM推理的上下文回收

2026-06-26 12:00 UTC+8

大型語言模型在短上下文推理中表現出色，但在長對話中因上下文視窗限制和低效令牌使用而效能下降。ContextForge系統透過結構化查詢生成、外部記憶檢索和受控合成來回收上下文，顯著減少令牌開銷並保持答案質量。在15輪醫療對話基準測試中，ContextForge提高了連貫性並降低了令牌消耗。

LLM在長對話中因上下文視窗限制而效能下降
ContextForge結合結構化查詢、外部記憶檢索和受控合成來回收上下文

明確主張而非描述：改變LLM動物福利推理的語言特徵

2026-06-26 12:00 UTC+8

一項新研究發現，在訓練語言模型時，使用明確主張、道德詞彙和情感語言等特徵可以顯著增強模型對動物福利的支援傾向；而含糊措辭和具體感官描述則會稀釋這種立場。該研究為動物福利倡導者提供了實用的寫作指導。

研究測試了10種語言特徵對Llama-3.2-1B模型動物福利推理的影響。
其中8種特徵產生統計顯著的變化，7種增強支援動物福利的推理。

探究LLM問題解決能力——基於靜力學問題的研究

2026-06-26 12:00 UTC+8

一項新研究透過模型蒸餾方法評估LLM在靜力學問題上的表現，發現LLM在處理純文本問題時表現良好，但引入圖表和多步推理後準確率下降。分析表明，效能下降主要源於多步推理困難，而非影像識別限制。

研究使用ChatGPT蒸餾提取25道靜力學問題，並構建含圖表和修改數值的資料集。
LLM在純文本靜力學問題上表現良好，但加入圖表和多步推理後準確率下降。

幫助性有害：後訓練中領域依賴的中期訓練同情價值觀退化

2026-06-26 12:00 UTC+8

研究發現，對語言模型進行幫助性後訓練（如SFT和RL）會顯著削弱中期訓練注入的動物同情價值觀，而程式設計領域後訓練則能更好地保留這些價值觀。幫助性訓練在英語通用道德推理上也導致大幅下降，但跨語言遷移時效應消失，而同情價值觀的退化則一致跨語言存在。這表明中期訓練習得的價值觀比後訓練帶來的推理改進更為深層和跨語言。因此，構建價值導向模型時，程式設計後訓練可能是更優選擇。

幫助性後訓練（SFT和GRPO）顯著降低動物同情價值觀評分，在AHB基準上比程式設計訓練低約30個百分點。
在英語MORU基準上，幫助性訓練使通用道德推理下降25.5個百分點，但跨語言時無顯著差異。

Know2Guess：一種汙染感知的多區域基準，用於大語言模型的知識邊界評估

2026-06-26 12:00 UTC+8

arXiv:2606.26101 新論文提出Know2Guess基準，包含1200個跨域問題，用於區分LLM的知識回答與猜測。評估了FLAN-T5、Qwen2.5-Instruct和Llama-3-Instruct模型，發現Qwen2.5-3B-Instruct表現最佳，但仍有校準不足等問題。

Know2Guess基準包含1200個問題，覆蓋五個領域，並帶有汙染風險後設資料
評估顯示模型在回答和棄權之間過渡不完整

HierBias：基於上下文的分層媒體偏差檢測與多工型別分類

2026-06-26 12:00 UTC+8

HierBias是一種新的分層上下文條件媒體偏差檢測器，透過建模文件上下文來改進句子級偏差分類。理論證明利用上下文可降低貝葉斯誤差，多工學習提高樣本效率。架構使用RoBERTa編碼器和跨句子Transformer，在BABE和BASIL資料集上達到0.853 F1和0.723 MCC，超過現有最優方法。

HierBias利用文件上下文資訊進行句子級偏差分類，理論上證明可降低貝葉斯誤差。
採用多工學習聯合訓練二元檢測和細粒度型別分類，提高小樣本效率。

藥物使用者線上上社群中自我汙名的認知、情感和行為表現

2026-06-25 12:00 UTC+8

本研究開發了一個涵蓋認知、情感和行為領域的自我汙名編碼本，並分析了Reddit上藥物使用者的帖子。結果顯示，自我汙名普遍存在，且行為指標往往先於核心指標出現，挑戰了傳統的漸進模型。

研究開發了包含十個指標的自我汙名編碼本，覆蓋認知、情感和行為領域。
分析了來自1,660名使用者的72,115篇帖子，其中5.3%包含自我汙名。

Dream團隊在SemEval-2026任務13中提出：用於單次機器生成程式碼檢測的SALSA方法

2026-06-25 12:00 UTC+8

大語言模型在程式碼生成方面的進步引發了關於作者身份、評估完整性和軟體信任的擔憂。SemEval-2026任務13子任務A將檢測定義為對程式碼片段的二元分類，特別關注跨未見程式語言和領域的分佈外泛化。研究提出了一種SALSA風格的方法，即單次自迴歸大語言模型結構化分類，將每個類別對映到專用輸出標記，並訓練模型在結構化響應中發出單標記標籤。透過平衡取樣、引數高效微調和保守訓練，系統在官方排行榜上取得了OOD F1=0.789，大幅超越CodeBERT基線（F1=0.305）。

大語言模型生成的程式碼檢測對學術誠信和軟體安全至關重要
SALSA方法透過單次自迴歸結構化分類簡化檢測流程

基於大語言模型的科學同行評審：方法、基準與可靠性挑戰

2026-06-25 12:00 UTC+8

隨著學術投稿量的激增，傳統同行評審面臨可擴充套件性極限。該綜述系統分析了基於大語言模型（LLM）的科學同行評審，聚焦於評語生成與評分預測兩大核心功能。文章構建了包括提示工程、監督學習、檢索增強和對齊最佳化在內的建模方法分類體系，並綜合了現有基準的實證結果。除效能指標外，文章還揭示了提示注入、資料投毒、檢索漏洞和獎勵破解等魯棒性風險，這些風險可能使自動化評審流程遭受策略性操縱。從資料探勘視角，作者指出了主觀分歧建模和跨領域泛化等關鍵開放挑戰。該綜述將自動化同行評審重新定義為高風險、多目標的決策問題，為開發魯棒、透明且可信的AI輔助科學評估系統提供了路線圖。

LLM可生成流暢評語並近似評分，但作為決策支援系統的可靠性、魯棒性和安全性尚待深入研究。
綜述提出了提示工程、監督學習、檢索增強和對齊最佳化四種建模方法分類，並分析了資料集約束和領域集中偏差。

在真實雙評分GCSE基準測試上的LLM表現

2026-06-25 12:00 UTC+8

一項新研究引入了一個包含32,534份真實GCSE模擬考試雙評分學生回答的資料集，涵蓋五個科目328道題，包括手寫內容。測試發現，現成的大型語言模型與考官評分的一致性非常高，頂級模型的一致性甚至超過考官之間的一致性。模型在主觀任務如英語作文評分以及處理複雜手寫數學試卷方面表現出色，且一致性不受模型大小顯著影響，為自動化評分提供了經濟有效的解決方案。

研究建立了包含32,534份GCSE模擬考試雙評分學生回答的資料集。
頂級語言模型與考官評分的一致性優於考官之間的一致性。

Dustin：面向高效長上下文生成的草稿增強稀疏驗證方法

2026-06-25 12:00 UTC+8

Dustin是一種專為長上下文場景設計的稀疏驗證框架，透過結合草稿模型的預測訊號與目標模型的歷史注意力，僅對關鍵token進行驗證，顯著加速推測解碼中的KV快取載入瓶頸。在Qwen2.5-72B上，32k序列長度下自注意力加速27.85倍，端到端解碼加速9.17倍，精度損失可忽略。

推測解碼在長上下文LLM中受限於KV快取載入導致的驗證瓶頸
現有壓縮方法（靜態驅逐或動態選擇）無法兼顧效率與準確性

完美檢測，控制失效：語言模型中認知與干預的幾何學

2026-06-25 12:00 UTC+8

arXiv最新研究揭示了語言模型中“檢測”與“控制”行為方向之間的幾何差異。研究發現，雖然模型可以完美檢測幻覺（AUC=1.0），但檢測方向與引起拒絕的方向餘弦僅為0.12，表明檢測不等於可控性。該差距在不同模型和規模中普遍存在，且源於預訓練階段。旋轉15度可部分緩解這一差距。

檢測和控制在語言模型中的方向差異平均為83度，餘弦僅0.12。
模型可完美線性分離幻覺實體，但無法有效拒絕生成它們。

面向ASR錯誤糾正的誤差感知TF-IDF檢索增強生成

2026-06-25 12:00 UTC+8

提出一種利用誤差感知TF-IDF檢索的框架來糾正ASR系統中的幻覺錯誤，在波斯語FLEURS資料集上顯著提升了詞錯誤率。

提出誤差感知TF-IDF用於檢索增強生成以修正ASR幻覺
整合了對稱文本歸一化和稀疏懲罰矩陣

AgentOdyssey：為測試時持續學習代理生成的開放式長視距文本遊戲

2026-06-25 12:00 UTC+8

AgentOdyssey 是一個新穎的評估框架，透過程式化生成開放式文本遊戲來測試代理在持續學習環境中的能力。該框架挑戰了傳統機器學習假設，將學習與推理交織在整個部署過程中，並評估代理的世界知識獲取、情景記憶、探索能力、動作多樣性和模型成本。實驗表明，即使最強的代理也遠低於人類水平，其中短期記憶機制能顯著提升效能。

AgentOdyssey 透過程式化生成開放式文本遊戲，評估代理的持續學習能力。
框架打破了測試時不學習的傳統假設，要求代理在部署中持續學習和推理。

小編輯，大模型：維基百科倡導如何塑造大語言模型的價值觀

2026-06-25 12:00 UTC+8

一項新研究表明，一群維基百科編輯者透過僅125次編輯，就能顯著影響大語言模型在動物福利話題上的行為。研究使用梯度歸因方法追蹤了這些編輯的影響，發現維基百科中動物福利相關的編輯內容在模型對相關查詢的響應中佔據主導地位。

Pro-Animal Wikipedians (PAW) 僅透過125次編輯就影響了LLM在動物福利話題上的表現。
歸因分析顯示，PAW編輯的內容在動物福利查詢的頂級文件中佔68%，而無關查詢僅佔52%。

基於圖論的語音錯誤校正：噪聲ASR的聲學糾錯新框架

2026-06-25 12:00 UTC+8

針對自動語音識別（ASR）系統在命名實體、否定詞等關鍵語義標記上殘留的聲學相似性錯誤，研究人員提出G-SPIN框架，將聲學圖建模與上下文語言理解相結合，利用圖神經網路生成候選詞集，掩碼語言模型評分，最終由大語言模型重排序，實現輕量級、模組化的推理時糾錯。

ASR錯誤常源於聲學相似性，影響關鍵語義單位
G-SPIN框架透過圖網路、掩碼語言模型和大語言模型三級流水線實現精準糾錯

QuechuaTok：形態邊界準確性——黏著型低資源語言分詞器評估的必要指標

2026-06-24 12:00 UTC+8

針對標準分詞評估指標（如生育率）無法捕捉黏著語言形態正確性的問題，研究提出了QuechuaTok基準，比較了四種分詞策略（BPE、Unigram LM、WordPiece和形態感知PRPE）在南克丘亞語上的表現。使用20萬句語料庫和SQUOIA形態分析器，評估了生育率、OOV率和形態邊界準確性（MorphAcc）。結果顯示，BPE生育率最低（1.636），但MorphAcc僅6.67%；PRPE的MorphAcc高達83.33%，證明僅靠生育率不足以評估黏著語言的分詞器。

標準分詞評估指標（如生育率）無法反映黏著語言的形態正確性。
QuechuaTok基準系統比較了四種分詞器在南克丘亞語上的表現。

當檢索指標產生誤導：衡量長週期工具使用智慧體中的策略訊號

2026-06-24 12:00 UTC+8

該研究質疑了精確匹配檢索召回率作為檢索器質量的代理指標的有效性。在tau-bench基準測試中，研究者發現檢索到的策略子句與黃金標準策略相比，在下游分類任務中表現幾乎同樣好，儘管精確匹配召回率僅為7%。結果表明，僅依賴召回率可能會低估檢索策略的實際效用。

精確匹配檢索召回率常被用作檢索器質量的代理指標，但可能具有誤導性。
在tau-bench基準測試中，使用Qwen2.5-3B/7B分類器測試了策略分類。

LLM歸因指標能否遷移？跨資料集與構造審計檢索增強生成評估

2026-06-24 12:00 UTC+8

本研究審計了八種自動評分器在三種評估構造上的表現，發現沒有一種評分器能在所有資料集上保持最佳效能。在生成答案歸因構造中，指標排名甚至出現反轉，NLI評分器在長文本任務中失效。基於提示的LLM裁判避免了隨機效能，但成本高且非確定性。研究表明，指標選擇需針對目標資料集驗證。

審計了八種自動評分器在三種評估構造上的遷移能力，發現無評分器能跨資料集穩定表現。
在生成答案歸因構造中，指標排名反轉，NLI評分器在長文本任務中效能崩潰。

一年之後...危害持續，但我們仍在！

2026-06-24 12:00 UTC+8

一項新研究評估了六種專有大語言模型在16種DSM-5精神疾病條件下的安全性，發現除自殺和自傷外，其他條件如進食障礙、物質使用障礙和重度憂鬱症的防護失敗率高達100%。研究者呼籲針對不同臨床條件明確定義危害類別並實施相應的防護措施。

六種專有LLM在16種DSM-5條件下的安全評估
僅對自殺和自傷有可靠防護，其他條件失敗率高達100%

先定位後排序：重新審視基於知識的視覺問答中的無訓練實體識別

2026-06-24 12:00 UTC+8

本文提出了一種名為IBA（識別-然後-回答）的無訓練框架，用於知識型視覺問答（KB-VQA）。該框架將實體識別與段落級證據排序解耦，透過多模態大語言模型從候選名稱中選擇高置信度實體，再使用現成的文本重排序器選擇證據。實驗表明，該方法在Encyclopedic-VQA和InfoSeek上持續優於微調的多模態重排序基線，同時降低了訓練和推理複雜度。

IBA框架透過識別-然後-回答策略，將實體識別與證據排序分離。
利用多模態大語言模型從候選名稱中識別實體，無需額外訓練。

評估LLM用於產品需求性的高效可解釋數值與分類隱式情感分析

2026-06-24 12:00 UTC+8

該論文提出了一種可擴充套件且可解釋的框架，利用大語言模型從定性產品反饋中量化產品需求性。在ZORQ和CARMA資料集上，零樣本連續數值情感評分與專家標籤的皮爾遜相關係數高達0.97，分類準確率達94%。GPT-4o-mini在效能媲美大模型的同時成本降低94%。框架還整合了模型置信度和可讀性解釋，提升了透明度和信任度。

LLM在零樣本下從定性反饋中生成數值情感評分，與專家標籤高度一致。
GPT-4o-mini以極低成本實現了與大型模型相當的效能。

自我識別微調可預防和逆轉突發性對齊錯誤

2026-06-24 12:00 UTC+8

一項新研究表明，自我生成文本識別（SGTR）微調可以有效預防和逆轉大型語言模型中的突發性對齊錯誤（EM），優於良性微調方法。研究發現EM是模型穩定對齊被破壞而非學習有害內容，SGTR透過強化角色一致性發揮作用。

突發性對齊錯誤（EM）源於模型對齊角色的不穩定，而非直接學習有害內容。
自我生成文本識別（SGTR）微調是有效的預防和逆轉手段，尤其在預防方面優於其他方法。

量化RAG系統中的先驗主導性

2026-06-24 12:00 UTC+8

本研究提出歸一化上下文利用（NCU）指標，用於嚴格量化RAG系統中的上下文資訊增益。實驗表明，在嚴格事實提取任務中，小語言模型（SLM）表現優於或媲美大模型，而商業API在近半數對抗性衝突中覆蓋了外部證據，並出現置信度崩潰。

引入NCU指標，利用連續token對數機率區分上下文提取與引數記憶。
小語言模型在嚴格提取中超越大模型，擴充套件律呈現收益遞減。

ModTGCN：面向文本分類的模組感知圖神經網路

2026-06-24 12:00 UTC+8

提出ModTGCN，一種模組感知圖神經網路，透過聯合最佳化交叉熵和模組化輔助目標，促進類別一致的文件社群，同時保持判別表示。在五個基準上取得一致改進，尤其在低同質性資料集上表現顯著。

整合全域性社群結構，緩解過平滑問題
模組化目標基於Transformer嵌入計算的文件相似圖

EXPO-SQL：基於執行的子句級策略最佳化用於Text-to-SQL

2026-06-24 12:00 UTC+8

EXPO-SQL提出了一種基於執行的子句級策略最佳化方法，透過分析執行結果（包括錯誤資訊和逐步執行）為SQL查詢的每個子句分配細粒度獎勵，解決了現有強化學習方法中粗粒度查詢級獎勵導致的學習訊號不足問題。實驗表明，該方法在多個Text-to-SQL基準測試中顯著優於現有的監督微調、提示和RL方法。

現有RL方法對所有子句分配相同的查詢級獎勵，無法區分正確與錯誤子句。
EXPO-SQL透過錯誤分析和子句級逐步執行為每個子句提供細粒度獎勵。

arXiv Computational Linguistics

最新公開文章

從詞彙到AI：面向低資源語言的專用對話系統結構化資料管道

越大越強：約束引導推理是大模型的關鍵優勢

低資源多模態翻譯：將尼泊爾口語詞彙轉化為情感條件手語虛擬形象

透過非暴力溝通約束減少大型語言模型對話中的衝突升級

長程LLM推理的上下文回收

明確主張而非描述：改變LLM動物福利推理的語言特徵

探究LLM問題解決能力——基於靜力學問題的研究

幫助性有害：後訓練中領域依賴的中期訓練同情價值觀退化

Know2Guess：一種汙染感知的多區域基準，用於大語言模型的知識邊界評估

HierBias：基於上下文的分層媒體偏差檢測與多工型別分類

藥物使用者線上上社群中自我汙名的認知、情感和行為表現

Dream團隊在SemEval-2026任務13中提出：用於單次機器生成程式碼檢測的SALSA方法

基於大語言模型的科學同行評審：方法、基準與可靠性挑戰

在真實雙評分GCSE基準測試上的LLM表現

Dustin：面向高效長上下文生成的草稿增強稀疏驗證方法

完美檢測，控制失效：語言模型中認知與干預的幾何學

面向ASR錯誤糾正的誤差感知TF-IDF檢索增強生成

AgentOdyssey：為測試時持續學習代理生成的開放式長視距文本遊戲

小編輯，大模型：維基百科倡導如何塑造大語言模型的價值觀

基於圖論的語音錯誤校正：噪聲ASR的聲學糾錯新框架

QuechuaTok：形態邊界準確性——黏著型低資源語言分詞器評估的必要指標

當檢索指標產生誤導：衡量長週期工具使用智慧體中的策略訊號

LLM歸因指標能否遷移？跨資料集與構造審計檢索增強生成評估

一年之後...危害持續，但我們仍在！

先定位後排序：重新審視基於知識的視覺問答中的無訓練實體識別

評估LLM用於產品需求性的高效可解釋數值與分類隱式情感分析

自我識別微調可預防和逆轉突發性對齊錯誤

量化RAG系統中的先驗主導性

ModTGCN：面向文本分類的模組感知圖神經網路

EXPO-SQL：基於執行的子句級策略最佳化用於Text-to-SQL

全部來源