从词汇到AI:面向低资源语言的专用对话系统结构化数据管道
该研究提出了一种系统化的方法,将结构化语言资源(如Hindi WordNet)转化为125万条指令-回答对,用于微调12B参数的语言模型,并通过资源高效的LoRA和4位量化实现。实验表明,基于结构化知识的系统在印地语学习聊天机器人中取得了卓越的教学效果(91.0分),优于通用模型(79.4-83.6分),同时保持了竞争力的语义性能和一致性。该工作为低资源语言提供了无需大规模语料库的AI开发替代方案,有望推动数百种拥有WordNet资源的语言的专业AI发展。
- 将Hindi WordNet转化为125万条指令-回答对,微调12B参数语言模型
- 使用LoRA和4位量化实现资源高效微调
越大越强:约束引导推理是大模型的关键优势
一项新研究揭示了大型语言模型在推理任务中优于小型模型的关键原因:约束引导推理。大型模型更擅长识别显式和隐式约束,组织结构化推理,并排除不可行路径。研究团队开发的AdvCluster框架自动分析了模型间的推理差异,发现Qwen3-32B比Qwen3-8B平均高出6.43%,GPT-OSS-120B比GPT-OSS-20B高出7.38%。
- 大型模型在数学、物理、化学和编程推理基准上持续优于小型模型。
- 研究提出了“约束引导推理”作为核心优势:大型模型能更好地识别和利用约束。
低资源多模态翻译:将尼泊尔口语词汇转化为情感条件手语虚拟形象
本研究提出了NEST-V1,一个基于轻量级Transformer架构的多模态框架,能够从口语输入生成带有情感表达的尼泊尔手语虚拟形象。在包含4个常见词汇和3种情感状态的数据集上,系统实现了81.1%的语音识别准确率和79.21%的情感识别准确率,参数仅为22.1M,适合边缘部署。该研究为低资源语言的情感感知手语翻译奠定了基础。
- NEST-V1是一个多模态框架,可将尼泊尔口语词汇转化为带有情感(快乐、中性、悲伤)的手语虚拟形象。
- 系统采用共享声学编码器,同时进行语音识别和情感分类,在600个音频样本上达到81.1%和79.21%的准确率。
通过非暴力沟通约束减少大型语言模型对话中的冲突升级
本研究探讨如何利用非暴力沟通(NVC)原则作为轻量级提示约束,引导大型语言模型(LLM)在情感冲突情境中采取更缓和、非升级的对话行为。通过双智能体模拟框架,实验表明NVC约束能显著减少对话升级,稳定与高抵触用户的交互。
- 大型语言模型在人际冲突等情感激烈场景中应用增多,但现有安全研究多关注显性有害内容,忽视无意中加剧冲突的对话行为。
- 研究人员将非暴力沟通原则重构为过程导向的提示约束,鼓励避免指责、关注用户情绪、先澄清再建议。
长程LLM推理的上下文回收
大型语言模型在短上下文推理中表现出色,但在长对话中因上下文窗口限制和低效令牌使用而性能下降。ContextForge系统通过结构化查询生成、外部记忆检索和受控合成来回收上下文,显著减少令牌开销并保持答案质量。在15轮医疗对话基准测试中,ContextForge提高了连贯性并降低了令牌消耗。
- LLM在长对话中因上下文窗口限制而性能下降
- ContextForge结合结构化查询、外部记忆检索和受控合成来回收上下文
明确主张而非描述:改变LLM动物福利推理的语言特征
一项新研究发现,在训练语言模型时,使用明确主张、道德词汇和情感语言等特征可以显著增强模型对动物福利的支持倾向;而含糊措辞和具体感官描述则会稀释这种立场。该研究为动物福利倡导者提供了实用的写作指导。
- 研究测试了10种语言特征对Llama-3.2-1B模型动物福利推理的影响。
- 其中8种特征产生统计显著的变化,7种增强支持动物福利的推理。
探究LLM问题解决能力——基于静力学问题的研究
一项新研究通过模型蒸馏方法评估LLM在静力学问题上的表现,发现LLM在处理纯文本问题时表现良好,但引入图表和多步推理后准确率下降。分析表明,性能下降主要源于多步推理困难,而非图像识别限制。
- 研究使用ChatGPT蒸馏提取25道静力学问题,并构建含图表和修改数值的数据集。
- LLM在纯文本静力学问题上表现良好,但加入图表和多步推理后准确率下降。
帮助性有害:后训练中领域依赖的中期训练同情价值观退化
研究发现,对语言模型进行帮助性后训练(如SFT和RL)会显著削弱中期训练注入的动物同情价值观,而编程领域后训练则能更好地保留这些价值观。帮助性训练在英语通用道德推理上也导致大幅下降,但跨语言迁移时效应消失,而同情价值观的退化则一致跨语言存在。这表明中期训练习得的价值观比后训练带来的推理改进更为深层和跨语言。因此,构建价值导向模型时,编程后训练可能是更优选择。
- 帮助性后训练(SFT和GRPO)显著降低动物同情价值观评分,在AHB基准上比编程训练低约30个百分点。
- 在英语MORU基准上,帮助性训练使通用道德推理下降25.5个百分点,但跨语言时无显著差异。
Know2Guess:一种污染感知的多区域基准,用于大语言模型的知识边界评估
arXiv:2606.26101 新论文提出Know2Guess基准,包含1200个跨域问题,用于区分LLM的知识回答与猜测。评估了FLAN-T5、Qwen2.5-Instruct和Llama-3-Instruct模型,发现Qwen2.5-3B-Instruct表现最佳,但仍有校准不足等问题。
- Know2Guess基准包含1200个问题,覆盖五个领域,并带有污染风险元数据
- 评估显示模型在回答和弃权之间过渡不完整
HierBias:基于上下文的分层媒体偏差检测与多任务类型分类
HierBias是一种新的分层上下文条件媒体偏差检测器,通过建模文档上下文来改进句子级偏差分类。理论证明利用上下文可降低贝叶斯误差,多任务学习提高样本效率。架构使用RoBERTa编码器和跨句子Transformer,在BABE和BASIL数据集上达到0.853 F1和0.723 MCC,超过现有最优方法。
- HierBias利用文档上下文信息进行句子级偏差分类,理论上证明可降低贝叶斯误差。
- 采用多任务学习联合训练二元检测和细粒度类型分类,提高小样本效率。
药物使用者在线上社区中自我污名的认知、情感和行为表现
本研究开发了一个涵盖认知、情感和行为领域的自我污名编码本,并分析了Reddit上药物使用者的帖子。结果显示,自我污名普遍存在,且行为指标往往先于核心指标出现,挑战了传统的渐进模型。
- 研究开发了包含十个指标的自我污名编码本,覆盖认知、情感和行为领域。
- 分析了来自1,660名用户的72,115篇帖子,其中5.3%包含自我污名。
Dream团队在SemEval-2026任务13中提出:用于单次机器生成代码检测的SALSA方法
大语言模型在代码生成方面的进步引发了关于作者身份、评估完整性和软件信任的担忧。SemEval-2026任务13子任务A将检测定义为对代码片段的二元分类,特别关注跨未见编程语言和领域的分布外泛化。研究提出了一种SALSA风格的方法,即单次自回归大语言模型结构化分类,将每个类别映射到专用输出标记,并训练模型在结构化响应中发出单标记标签。通过平衡采样、参数高效微调和保守训练,系统在官方排行榜上取得了OOD F1=0.789,大幅超越CodeBERT基线(F1=0.305)。
- 大语言模型生成的代码检测对学术诚信和软件安全至关重要
- SALSA方法通过单次自回归结构化分类简化检测流程
基于大语言模型的科学同行评审:方法、基准与可靠性挑战
随着学术投稿量的激增,传统同行评审面临可扩展性极限。该综述系统分析了基于大语言模型(LLM)的科学同行评审,聚焦于评语生成与评分预测两大核心功能。文章构建了包括提示工程、监督学习、检索增强和对齐优化在内的建模方法分类体系,并综合了现有基准的实证结果。除性能指标外,文章还揭示了提示注入、数据投毒、检索漏洞和奖励破解等鲁棒性风险,这些风险可能使自动化评审流程遭受策略性操纵。从数据挖掘视角,作者指出了主观分歧建模和跨领域泛化等关键开放挑战。该综述将自动化同行评审重新定义为高风险、多目标的决策问题,为开发鲁棒、透明且可信的AI辅助科学评估系统提供了路线图。
- LLM可生成流畅评语并近似评分,但作为决策支持系统的可靠性、鲁棒性和安全性尚待深入研究。
- 综述提出了提示工程、监督学习、检索增强和对齐优化四种建模方法分类,并分析了数据集约束和领域集中偏差。
在真实双评分GCSE基准测试上的LLM表现
一项新研究引入了一个包含32,534份真实GCSE模拟考试双评分学生回答的数据集,涵盖五个科目328道题,包括手写内容。测试发现,现成的大型语言模型与考官评分的一致性非常高,顶级模型的一致性甚至超过考官之间的一致性。模型在主观任务如英语作文评分以及处理复杂手写数学试卷方面表现出色,且一致性不受模型大小显著影响,为自动化评分提供了经济有效的解决方案。
- 研究创建了包含32,534份GCSE模拟考试双评分学生回答的数据集。
- 顶级语言模型与考官评分的一致性优于考官之间的一致性。
Dustin:面向高效长上下文生成的草稿增强稀疏验证方法
Dustin是一种专为长上下文场景设计的稀疏验证框架,通过结合草稿模型的预测信号与目标模型的歷史注意力,仅对关键token进行验证,显著加速推测解码中的KV缓存加载瓶颈。在Qwen2.5-72B上,32k序列长度下自注意力加速27.85倍,端到端解码加速9.17倍,精度损失可忽略。
- 推测解码在长上下文LLM中受限于KV缓存加载导致的验证瓶颈
- 现有压缩方法(静态驱逐或动态选择)无法兼顾效率与准确性
完美检测,控制失效:语言模型中认知与干预的几何学
arXiv最新研究揭示了语言模型中“检测”与“控制”行为方向之间的几何差异。研究发现,虽然模型可以完美检测幻觉(AUC=1.0),但检测方向与引起拒绝的方向余弦仅为0.12,表明检测不等于可控性。该差距在不同模型和规模中普遍存在,且源于预训练阶段。旋转15度可部分缓解这一差距。
- 检测和控制在语言模型中的方向差异平均为83度,余弦仅0.12。
- 模型可完美线性分离幻觉实体,但无法有效拒绝生成它们。
面向ASR错误纠正的误差感知TF-IDF检索增强生成
提出一种利用误差感知TF-IDF检索的框架来纠正ASR系统中的幻觉错误,在波斯语FLEURS数据集上显著提升了词错误率。
- 提出误差感知TF-IDF用于检索增强生成以修正ASR幻觉
- 集成了对称文本归一化和稀疏惩罚矩阵
AgentOdyssey:为测试时持续学习代理生成的开放式长视距文本游戏
AgentOdyssey 是一个新颖的评估框架,通过程序化生成开放式文本游戏来测试代理在持续学习环境中的能力。该框架挑战了传统机器学习假设,将学习与推理交织在整个部署过程中,并评估代理的世界知识获取、情景记忆、探索能力、动作多样性和模型成本。实验表明,即使最强的代理也远低于人类水平,其中短期记忆机制能显著提升性能。
- AgentOdyssey 通过程序化生成开放式文本游戏,评估代理的持续学习能力。
- 框架打破了测试时不学习的传统假设,要求代理在部署中持续学习和推理。
小编辑,大模型:维基百科倡导如何塑造大语言模型的价值观
一项新研究表明,一群维基百科编辑者通过仅125次编辑,就能显著影响大语言模型在动物福利话题上的行为。研究使用梯度归因方法追踪了这些编辑的影响,发现维基百科中动物福利相关的编辑内容在模型对相关查询的响应中占据主导地位。
- Pro-Animal Wikipedians (PAW) 仅通过125次编辑就影响了LLM在动物福利话题上的表现。
- 归因分析显示,PAW编辑的内容在动物福利查询的顶级文档中占68%,而无关查询仅占52%。
基于图论的语音错误校正:噪声ASR的声学纠错新框架
针对自动语音识别(ASR)系统在命名实体、否定词等关键语义标记上残留的声学相似性错误,研究人员提出G-SPIN框架,将声学图建模与上下文语言理解相结合,利用图神经网络生成候选词集,掩码语言模型评分,最终由大语言模型重排序,实现轻量级、模块化的推理时纠错。
- ASR错误常源于声学相似性,影响关键语义单位
- G-SPIN框架通过图网络、掩码语言模型和大语言模型三级流水线实现精准纠错
QuechuaTok:形态边界准确性——黏着型低资源语言分词器评估的必要指标
针对标准分词评估指标(如生育率)无法捕捉黏着语言形态正确性的问题,研究提出了QuechuaTok基准,比较了四种分词策略(BPE、Unigram LM、WordPiece和形态感知PRPE)在南克丘亚语上的表现。使用20万句语料库和SQUOIA形态分析器,评估了生育率、OOV率和形态边界准确性(MorphAcc)。结果显示,BPE生育率最低(1.636),但MorphAcc仅6.67%;PRPE的MorphAcc高达83.33%,证明仅靠生育率不足以评估黏着语言的分词器。
- 标准分词评估指标(如生育率)无法反映黏着语言的形态正确性。
- QuechuaTok基准系统比较了四种分词器在南克丘亚语上的表现。
当检索指标产生误导:衡量长周期工具使用智能体中的策略信号
该研究质疑了精确匹配检索召回率作为检索器质量的代理指标的有效性。在tau-bench基准测试中,研究者发现检索到的策略子句与黄金标准策略相比,在下游分类任务中表现几乎同样好,尽管精确匹配召回率仅为7%。结果表明,仅依赖召回率可能会低估检索策略的实际效用。
- 精确匹配检索召回率常被用作检索器质量的代理指标,但可能具有误导性。
- 在tau-bench基准测试中,使用Qwen2.5-3B/7B分类器测试了策略分类。
LLM归因指标能否迁移?跨数据集与构造审计检索增强生成评估
本研究审计了八种自动评分器在三种评估构造上的表现,发现没有一种评分器能在所有数据集上保持最佳性能。在生成答案归因构造中,指标排名甚至出现反转,NLI评分器在长文本任务中失效。基于提示的LLM裁判避免了随机性能,但成本高且非确定性。研究表明,指标选择需针对目标数据集验证。
- 审计了八种自动评分器在三种评估构造上的迁移能力,发现无评分器能跨数据集稳定表现。
- 在生成答案归因构造中,指标排名反转,NLI评分器在长文本任务中性能崩溃。
一年之后...危害持续,但我们仍在!
一项新研究评估了六种专有大语言模型在16种DSM-5精神疾病条件下的安全性,发现除自杀和自伤外,其他条件如进食障碍、物质使用障碍和重度抑郁症的防护失败率高达100%。研究者呼吁针对不同临床条件明确定义危害类别并实施相应的防护措施。
- 六种专有LLM在16种DSM-5条件下的安全评估
- 仅对自杀和自伤有可靠防护,其他条件失败率高达100%
先定位后排序:重新审视基于知识的视觉问答中的无训练实体识别
本文提出了一种名为IBA(识别-然后-回答)的无训练框架,用于知识型视觉问答(KB-VQA)。该框架将实体识别与段落级证据排序解耦,通过多模态大语言模型从候选名称中选择高置信度实体,再使用现成的文本重排序器选择证据。实验表明,该方法在Encyclopedic-VQA和InfoSeek上持续优于微调的多模态重排序基线,同时降低了训练和推理复杂度。
- IBA框架通过识别-然后-回答策略,将实体识别与证据排序分离。
- 利用多模态大语言模型从候选名称中识别实体,无需额外训练。
评估LLM用于产品需求性的高效可解释数值与分类隐式情感分析
该论文提出了一种可扩展且可解释的框架,利用大语言模型从定性产品反馈中量化产品需求性。在ZORQ和CARMA数据集上,零样本连续数值情感评分与专家标签的皮尔逊相关系数高达0.97,分类准确率达94%。GPT-4o-mini在性能媲美大模型的同时成本降低94%。框架还集成了模型置信度和可读性解释,提升了透明度和信任度。
- LLM在零样本下从定性反馈中生成数值情感评分,与专家标签高度一致。
- GPT-4o-mini以极低成本实现了与大型模型相当的性能。
自我识别微调可预防和逆转突发性对齐错误
一项新研究表明,自我生成文本识别(SGTR)微调可以有效预防和逆转大型语言模型中的突发性对齐错误(EM),优于良性微调方法。研究发现EM是模型稳定对齐被破坏而非学习有害内容,SGTR通过强化角色一致性发挥作用。
- 突发性对齐错误(EM)源于模型对齐角色的不稳定,而非直接学习有害内容。
- 自我生成文本识别(SGTR)微调是有效的预防和逆转手段,尤其在预防方面优于其他方法。
量化RAG系统中的先验主导性
本研究提出归一化上下文利用(NCU)指标,用于严格量化RAG系统中的上下文信息增益。实验表明,在严格事实提取任务中,小语言模型(SLM)表现优于或媲美大模型,而商业API在近半数对抗性冲突中覆盖了外部证据,并出现置信度崩溃。
- 引入NCU指标,利用连续token对数概率区分上下文提取与参数记忆。
- 小语言模型在严格提取中超越大模型,扩展律呈现收益递减。
ModTGCN:面向文本分类的模块感知图神经网络
提出ModTGCN,一种模块感知图神经网络,通过联合优化交叉熵和模块化辅助目标,促进类别一致的文档社区,同时保持判别表示。在五个基准上取得一致改进,尤其在低同质性数据集上表现显著。
- 整合全局社区结构,缓解过平滑问题
- 模块化目标基于Transformer嵌入计算的文档相似图
EXPO-SQL:基于执行的子句级策略优化用于Text-to-SQL
EXPO-SQL提出了一种基于执行的子句级策略优化方法,通过分析执行结果(包括错误信息和逐步执行)为SQL查询的每个子句分配细粒度奖励,解决了现有强化学习方法中粗粒度查询级奖励导致的学习信号不足问题。实验表明,该方法在多个Text-to-SQL基准测试中显著优于现有的监督微调、提示和RL方法。
- 现有RL方法对所有子句分配相同的查询级奖励,无法区分正确与错误子句。
- EXPO-SQL通过错误分析和子句级逐步执行为每个子句提供细粒度奖励。