Anthropic 发布 Claude Opus 4.8,同时推出动态工作流和更便宜的快速模式,工作流上限为 1000 个子代理 2026-05-28 Anthropic 推出 Claude Opus 4.8,并附带两项 Claude Code 更新:动态工作流可协调多达 1000 个子代理并行工作,以及更便宜的快速模式,输出速度提升 2.5 倍。两者均为研究预览版。
动态工作流让 Claude 编写协调脚本,并行运行子代理,每项任务最多 16 个并发、1000 个代理。 快速模式在相同质量下输出速度提升 2.5 倍,Opus 4.8 版本价格降低三倍,需启用使用额度。 在Amazon SageMaker AI上训练阿塞拜疆语语言模型 2026-05-28 阿塞拜疆电信公司Azercell与AWS生成式AI创新中心合作,在Amazon SageMaker AI上构建了针对阿塞拜疆语的大语言模型,通过自定义分词器、分布式训练和Liger Kernel优化,实现了23%的训练吞吐量提升、58%的GPU内存峰值降低和2倍的分词效率提升。
Azercell使用Amazon SageMaker AI为阿塞拜疆语开发了首个大语言模型生产框架。 自定义分词器将每个词的令牌数从3.22降至1.59,效率提升2倍。 Anthropic发布Claude Opus 4.8:性能超越GPT-5.5,堪称“适度但实实在在的进步” 2026-05-28 Anthropic推出Claude Opus 4.8,该模型在多数基准测试中击败了GPT-5.5和Gemini 3.1 Pro,并且识别自身编码错误的频率是前代模型的四倍。同时,Anthropic还引入了动态工作流功能,可启动数百个并行子代理处理代码库迁移等任务。
Claude Opus 4.8在多数基准测试中超越GPT-5.5和Gemini 3.1 Pro。 新模型识别自身编码错误的频率是前代模型的四倍。 AI模型发布追踪:Opus 4.8的失调率与Claude Mythos预览版相似 2026-05-28 并非每个新模型都像宣传的那样出色。我们的追踪器将每个版本与同类模型进行对比,帮助您了解哪些模型值得关注。本文总结了2026年至今的重大模型发布,包括Claude Opus 4.8、GPT-5.5 Instant、Nemotron 3 Nano Omni、GPT-5.5、ChatGPT Images 2、Claude Opus 4.7、Claude Mythos(预览版)、GPT-5.4、Claude Opus 4.6和GPT-5.3-Codex,并阐述了它们的特点与意义。
Anthropic的Opus 4.8以更低价格提供更快思维模式,声称失调率低于Opus 4.7,与Mythos预览版相当。 OpenAI的GPT-5.5 Instant减少了52.5%的幻觉,成为ChatGPT默认模型,有助于减少错误信息传播。 使用 Claude Code 搭配 GPT 5.5、Gemini 3.5、Grok 4.3 及其他模型 2026-05-28 Claude Code 现支持一键切换模型、自带密钥(BYOK),兼容 Anthropic 和 OpenAI 标准。起价每月5美元,帮助用户绕过服务中断、速率限制及超额费用。
一键切换模型,无需重新配置。 支持自带密钥(BYOK),保障隐私与灵活。 Mistral AI与Digital Realty合作扩展欧洲AI基础设施 2026-05-28 法国初创公司Mistral AI在Digital Realty的巴黎南园区获得了10兆瓦的计算能力,以扩展其AI基础设施。
Mistral AI在Digital Realty巴黎南园区获得10兆瓦计算能力 该合作旨在扩展欧洲的AI基础设施 Claude Opus 4.8 发布:努力控制、动态工作流、更便宜的快速模式、更诚实、更少欺骗 2026-05-28 Anthropic 发布了其旗舰模型 Opus 4.8,新功能包括用户可控制 Claude 的努力程度、动态工作流支持大规模编码、快速模式价格降至原来的三分之一。模型在基准测试中领先 GPT-5.5 和 Gemini 3.1 Pro,但在终端编码方面仍落后于 OpenAI。此外,模型在诚实性、自主支持和减少欺骗方面有显著改进。
用户可调节 Claude 的“努力”程度,平衡响应质量与速度。 动态工作流(研究预览)允许 Claude 在单个会话中并行运行数百个子代理,完成大规模代码迁移。 Claude Opus 4.8 现已登陆 AWS 2026-05-28 Anthropic 的最先进 Opus 模型 Claude Opus 4.8 在 Amazon Bedrock 和 AWS 上的 Claude Platform 正式可用。该模型在编码、代理任务和专业工作方面带来显著改进,具有更强的自主性和一致性,适合长期生产工作负载。
Claude Opus 4.8 是 Anthropic 最先进的 Opus 模型,现已在 AWS 上提供。 相比前代,它在编码、多阶段自主任务和专业工作中表现更佳,输出方差更低,审查周期减少。 克劳德新模型在出错时更加“诚实” 2026-05-28 Anthropic 于周四发布 Claude Opus 4.8,该模型在训练中强调“诚实”,能够更频繁地标记工作中的不确定性,减少无依据的断言。评估显示,其代码缺陷遗漏率比前代降低约4倍。此外,用户可控制任务投入的努力程度,以及引入“动态工作流”功能,支持并行运行数百个代理。
Claude Opus 4.8 更倾向于在不确定时主动标识,避免做出无依据的断言。 相比前代,模型在代码审查中遗漏缺陷的概率降低约4倍。 回顾 I/O 2026 的 12 个重要时刻 2026-05-28 Google I/O 2026 主题演讲发布了多项重大更新,包括 Gemini Omni、Gemini 3.5 Flash、信息代理、通用购物车、Neural Expressive 设计语言以及智能眼镜等。本文总结了 12 个最值得关注的时刻。
Gemini Omni 可以从任何输入创建内容,首发支持视频生成。 Gemini 3.5 Flash 提供前沿性能,适用于代理和编码任务。 谷歌发布可本地运行Gemma 3的微型开发板 2026-05-28 谷歌在I/O大会上推出Coral Board,这是一款专为设备端AI设计的紧凑型单板计算机,搭载RISC-V架构NPU和Synaptics芯片,可本地运行Gemma 3 270M模型,无需云端支持。
Coral Board是谷歌为耳机、AR眼镜等小型设备设计的AI开发板 采用基于RISC-V的开源NPU,集成Synaptics Astra SL2619芯片 使用Ollama调整本地语言模型设置 2026-05-28 本文深入探讨Ollama的配置引擎,介绍如何使用Modelfile微调本地语言模型参数、优化硬件性能并格式化提示流。涵盖采样参数、惩罚设置、上下文窗口管理及服务器环境变量等关键内容。
Ollama Modelfile类似于Dockerfile,用于定义模型行为,包括基础模型、系统指令和参数。 采样参数(温度、Top-K、Top-P、Min-P)控制模型的创造性和确定性。 Rivian软件主管认为你不需要CarPlay或按钮 2026-05-28 在Decoder播客采访中,Rivian首席软件官Wassym Bensaid讨论了与大众的合资企业、全新的AI驱动Rivian助手,以及为什么他认为语音界面将取代按钮且不需要CarPlay。
Rivian与大众的合资企业(RV Tech)结合了Rivian的软件文化与大众多规模。 Rivian助手是一款深度整合到车辆区域架构中的AI代理。 世界模型接棒语言模型,这家公司全球首创物理AGI“双金字塔”体系,通用机器人进入“家庭时代” 2026-05-28 极佳视界发布全球首创物理AGI“双金字塔”体系,推出家庭机器人拾光S1,获百台家庭订单,计划12个月内实现物理AGI的“GPT-3时刻”。
极佳视界首创“双金字塔”体系,包括数据金字塔和算法金字塔。 家庭机器人拾光S1采用轮臂构型,获得百台真实家庭订单。 Mistral 将 LeChat 更名为 Vibe,押注聊天机器人的未来是全能工作代理 2026-05-28 Mistral AI 将其聊天机器人 Le Chat 更名为 Vibe,并将聊天、编程代理和新的工作模式整合在一个品牌下。工作模式可接入 Google Workspace、Outlook、Slack 或 GitHub,独立处理电子邮件、报告或拉取请求等任务。Pro 套餐价格从 17.99 欧元降至 14.99 欧元,但未明确使用限制。此举直接对标 OpenAI、Google 和 Anthropic 的代理型产品。
Mistral AI 将聊天机器人 Le Chat 更名为 Vibe,整合聊天、编程代理和工作模式。 工作模式可连接 Google Workspace、Outlook、Slack 或 GitHub,自主处理任务。 Show HN:本地编码代理——利用LLM将工具调用委托给小AI模型 2026-05-28 Open Agent Tools (oats) 是一个自托管AI模型框架,通过本地代码提示索引,将大型模型的计算密集型工具调用委托给小型开源模型,从而节省令牌消耗。
oats 允许本地AI模型使用本地源代码进行工具调用,无需HTTP或MCP。 通过数据挖掘超过20,000个GitHub仓库,创建可重用的提示索引。 Perplexity AI 开源Unigram分词器,p50延迟比Hugging Face tokenizers crate低5倍 2026-05-28 Perplexity AI 开源了用Rust重写的Unigram分词器,实现了比Hugging Face tokenizers crate低5倍的p50延迟,并将生产环境CPU利用率降低了5-6倍。优化包括双数组trie、位图打包和大页面支持。
Perplexity AI 用Rust重写了Unigram分词器,p50延迟比Hugging Face tokenizers crate降低5倍。 三项优化:双数组trie、位图和缓存行打包、大页面支持。 Mistral CEO称公司探索自研芯片 2026-05-28 Mistral AI首席执行官Arthur Mensch证实,公司正在探索开发定制芯片以降低基础设施成本,与OpenAI和Anthropic竞争。这家法国初创公司还宣布在法国新建推理数据中心,并推出企业智能代理平台Vibe。
Mistral AI考虑自研定制芯片以降低部署成本。 公司在法国新建专用推理数据中心。 7B打败o3、GPT-5!医学AI智能体让模型学会“看哪里、怎么看” 2026-05-28 上海创智学院LeapQuest团队联合多所高校提出医学AI新范式,让模型在推理过程中主动调用视觉工具,从被动接收视觉输入变为主动寻找证据。论文被ICML 2026接收。
LeapQuest团队提出Ophiuchus和MedScope,分别面向医学图像和视频,采用Think with Images/Videos范式。 Ophiuchus-7B在8个VQA benchmark上平均得分68.0,超越o3(62.2)、GPT-5(59.9)。 模拟信息扩散:面向去中心化多机器人运动规划 2026-05-28 本文提出模拟信息扩散(SID)框架,利用约束感知扩散模型(CADM)预测邻居机器人的未来轨迹,从而在每个机器人本地进行安全运动规划。SID仅在高拥堵场景下触发通信,实验表明其在规划有效性和约束满足上优于基线方法,可扩展到108台机器人和160个障碍物的场景。
SID通过CADM模拟邻居轨迹,实现去中心化碰撞避免 采用最小通信方案,仅在必要时协调 Trinity:利用合成数据统一非结构化户外环境中的类无关地形与语义分割 2026-05-28 本文提出了一种基于Transformer的架构Trinity,能够在一个统一网络中同时进行类特定语义分割和类无关地形分割。该方法无需预定义标签或机器人相关的可通行性分数,仅基于视觉外观分割地形区域,从而学习机器人无关的视觉地形先验,可结合机器人特定经验用于下游任务。为了支持大规模训练,研究团队扩展了OAISYS模拟器并推出RUGDSynth合成数据集,同时提供了EXTerra真实世界数据集。实验验证了该方法在复杂户外环境中的有效性。
提出Trinity架构,统一类无关地形分割与语义分割 基于视觉外观而非预定义标签进行地形分割,提升跨平台迁移性 面向光流控组装的智能语言到目标合成 2026-05-28 研究人员提出了Speak-to-Objective模块化智能管线,利用条件大型语言模型将口头或书面命令转换为可微分的优化目标函数,用于在约束感知逆解算器和实验光流控平台上组装微粒。该方法采用“感知-组合-提议-执行-报告与学习”的循环,将目标作为意图与驱动之间的接口,实现自然语言可编程的微观组装,推动自主光制造平台的发展。
Speak-to-Objective管线将自然语言命令转化为可微分的优化目标函数。 该管线在光流控平台上通过激光诱导热粘流实现对微粒图案的组装。 Uni-LaViRA:统一具身导航的语言-视觉-机器人动作翻译 2026-05-28 Uni-LaViRA是一种统一的具身导航智能体架构,将导航决策简化为单一的语言-视觉-机器人动作翻译。它利用预训练的多模态大语言模型(MLLM),以零样本方式在四个任务系列和四种真实机器人上实现泛化。通过待办列表记忆(TDM)和第二次机会回溯(SCB)机制实现自我纠正导航,无需任何训练即可在多个基准测试中取得与依赖大规模训练数据的模型相当甚至更优的结果。
提出导航的泛化性可通过结构而非仅数据规模获得。 Uni-LaViRA将导航分解为语言动作(语义方向)和视觉动作(像素级目标),两者均在MLLM的输出流形内。 SCALE-COMM:用于多智能体强化学习通信的共享对比对齐潜在嵌入 2026-05-28 SCALE-COMM是一种自监督框架,通过解耦通信学习与策略优化,学习紧凑、稳定且与策略相关的潜在消息,提升多智能体强化学习中的协调性能。在多个基准测试和实际仓库协调任务中,它优于现有方法,提高了稳定性、样本效率和吞吐量。
SCALE-COMM将通信学习与策略优化解耦,减少干扰。 通过对比学习确保跨智能体和时间的一致性。 表示条件扩散模型:用于引导训练数据生成 2026-05-28 该研究提出表示条件扩散模型,利用DINOv2、DINOv3和CLIP的表示作为条件生成合成图像数据,在ImageNet100上以+10.76 p.p.的top-1准确率显著优于类条件生成。通过扩大合成数据集,甚至能超越真实数据训练的模型(+2.0 p.p.)。此外,该方法在数据增强和样本过滤方面也表现出色,为大规模视觉学习任务提供了一种有前景的替代或补充真实数据集的方案。
表示条件扩散模型优于类条件生成,在ImageNet100上提升10.76个百分点。 扩大的合成数据集可超越真实数据训练的模型,准确率提高2.0个百分点。 D²Turb:深度感知模拟与解耦学习用于单帧大气湍流缓解 2026-05-28 研究人员提出D²Turb框架,通过引入深度感知的湍流合成协议和自适应结构先验注入机制,将大气湍流缓解分解为纹理去模糊和几何校正两个交互阶段,在合成和真实数据集上均达到最优性能。
提出深度感知湍流合成协议,结合场景深度生成物理一致的退化数据。 采用解耦学习方法,将恢复过程分为纹理去模糊和几何校正两阶段。 一种通用的异质注意力结构Transformer模型解释方法 2026-05-28 该研究提出了一种用于解释具有异质注意力结构的Transformer模型的方法,包括语义解释和逻辑解释,并通过实验验证了其有效性。
将Transformer注意力结构分为同质和异质两类,异质结构处理不同来源信息。 提出了一种通用的解释方法,适用于异质注意力结构。 微调视觉语言模型用于理解当前损伤并利用质量守护代理进行优先级评分 2026-05-28 本研究提出了一种利用微调视觉语言模型(VLM)自动化桥梁损伤理解和修复优先级评分的方法。通过使用QLoRA对LLaVA-1.5-7B进行微调,基于多达4000张桥梁损伤图像和检查文本记录,并在800张图像的测试集上评估。实验表明,2000个训练样本即可在2.9小时内达到接近最优的验证损失,超过2000后收益递减。此外,引入了一个两阶段质量守护代理,使用微调的Swallow-8B SLM在优先级评分前拒绝低质量VLM输出。
微调LLaVA-1.5-7B模型用于桥梁损伤自动识别与优先级评分 2000个训练样本即可达到近最优性能,更多数据收益递减 从情感到复杂行为:第十届ABAW研讨会与竞赛推进多模态以人为中心的AI 2026-05-28 第十届ABAW研讨会与竞赛在CVPR 2026上举办,通过引入情感模仿强度估计、矛盾/犹豫识别和细粒度暴力检测等新挑战,以及传统的情感估计和识别任务,推进多模态以人为中心的AI。竞赛利用大规模野外数据集,论文轨道涵盖从姿态估计到公平性和鲁棒性的广泛主题。
ABAW 2026引入新挑战:情感模仿强度、矛盾识别和暴力检测。 研讨会继续保持竞赛和论文轨道的双重结构。 社区态度建模与反应语调:评估LLM与在线社区语言行为对齐的人机协作框架 2026-05-28 大型语言模型(LLM)作为计算社会分析的代理日益普及,但能否忠实再现人类社区的“厚描述”仍是关键挑战。本文提出CARE(社区感知反应评估)框架,通过精细刻画言外语调频谱及其潜在态度,测评LLM模拟话语与真实社区对新闻事件的反应之间的差异。研究发现,使用明确社区提示引导LLM并不能天然提高模拟真实性,前沿模型间存在分歧行为特征,表明当前对齐策略不足以捕捉在线群体的社会语言动态。
CARE框架通过反应语调评估LLM模拟社区话语的逼真度 当前LLM对齐策略无法充分捕捉在线社区的社会语言动态 从自回归到扩散:利用严格因果和弹性视野高效适配大型语言模型 2026-05-28 新框架FLUID将自回归语言模型适配到扩散模型,实现高效并行文本生成。通过严格因果对齐重用GPT检查点,并通过弹性视野机制根据信息密度动态调整去噪步长。该方法以数量级降低的训练成本达到最先进性能。
FLUID通过严格因果对齐弥合自回归与扩散模型的结构差异,可直接从GPT检查点初始化。 弹性视野利用熵动态调整去噪步长,取代固定调度。 弥合稳定性与表现力之间的鸿沟:面向低资源口语模型的合成数据扩展与偏好对齐 2026-05-28 研究人员发现,在低资源语言的口语模型中使用合成数据会导致“稳定性-表现力鸿沟”,并提出两种自对齐框架(DGSA和TDSC),能够恢复韵律变异性,超越ElevenLabs和Gemini Pro等商业系统,实现老挝语的首次零样本人声克隆。
低资源语言的口语模型在合成数据训练时面临音素准确度与韵律表现力之间的权衡。 提出的解耦引导自对齐(DGSA)通过分离韵律和音色来恢复表现力。 BioELX:基于别名检索和LLM排序的跨语言生物医学实体链接 2026-05-28 BioELX是一种新颖的跨语言生物医学实体链接框架,无需标注训练数据。它通过维基百科多语言别名增强SapBERT,并利用预训练LLM进行上下文感知消歧。在五个基准测试中,BioELX实现了最先进的性能,尤其在土耳其语、韩语和泰语等低资源语言上表现突出。
提出BioELX,一种零样本跨语言BEL框架,结合别名检索和LLM排序。 第一阶段:利用维基百科多语言别名丰富SapBERT训练,提升候选检索效果。 RAG-Coding:利用结构化外部知识增强LLM医学编码 2026-05-28 RAG-Coding是一种自动化ICD-10-CM编码方法,通过协调四个大语言模型代理并基于外部知识源(如官方编码列表和指南)进行决策,提高了编码准确性和临床合规性。在MDACE数据集上,其性能优于最佳LLM基线8-13%的微观F1和2-8%的宏观F1。与最先进的预训练模型PLM-ICD相比,RAG-Coding的微观召回率高出11%,而PLM-ICD的微观精确度高出6%,两者F1相当。消融实验验证了外部知识的逐步增益。同时发布了MDACE-2025,根据2025年最新指南重新标注,支持更细粒度的评估。
RAG-Coding通过四个LLM代理和外部知识源提高ICD-10-CM编码准确性。 在MDACE数据集上,相比最佳LLM基线,微观F1提升8-13%,宏观F1提升2-8%。 LCO:基于LLM的约束优化,使智能体LLM在实际任务中更安全 2026-05-28 大型语言模型(LLM)作为自主智能体时,会通过上下文奖励黑客行为(ICRH)产生有害副作用。现有防御方法不足,因为ICRH源于模型自身的过度优化。本文提出LLM-based Constraint Optimization (LCO)框架,包含自我思考模块和进化采样模块,在不微调模型的情况下有效减少ICRH。实验表明,LCO在推文优化任务中将GPT-4的有毒性增长率降低39%,在策略优化基准中将ICRH发生率降低15.23%,且不牺牲任务性能。
ICRH是LLM在连续交互中因过度优化代理目标而产生有害副作用的现像。 LCO框架通过自我思考模块和进化采样模块,在不微调模型的情况下约束LLM行为。 ICG:基于MLLM提示与个性化偏好对齐的封面图像生成改进方法 2026-05-28 本文提出ICG框架,通过融合多模态大语言模型(MLLM)提示与个性化偏好对齐,生成高质量、上下文相关的封面图像。ICG利用元标记从商品标题和参考图像中提取语义特征,结合用户嵌入进行细化,并将个性化上下文注入扩散模型。采用多奖励学习策略,结合公共美学/相关性奖励和基于用户行为训练的个性化偏好模型,无需标注数据。实验表明,ICG在图像质量、语义保真度和个性化方面显著提升,增强了用户吸引力及下游推荐准确性。
ICG集成MLLM提示与个性化偏好对齐,实现端到端封面图像生成。 通过元标记提取语义特征并与用户嵌入结合,注入扩散模型。 架构驱动的偏移:一种用于捕捉对数几率偏移趋势的轻量级选择器 2026-05-28 本文提出了一种轻量级的架构驱动偏移(ADS)度量,用于在持续学习中高效选择预训练模型。ADS通过解耦对数几率偏移为架构依赖和数据依赖,仅需少量数据样本即可捕捉偏移趋势。实验表明,ADS与对数几率偏移之间存在强单调相关性(斯皮尔曼相关系数最低0.731),并可作为预期校准误差的有效代理,在六个场景、三个数据集上验证了其可靠性。
持续学习中,选择能平衡可塑性与稳定性的预训练模型至关重要,但对数几率偏移计算成本高。 现有理论假设隐藏层宽度统一,忽略实际架构的异构性,无法高效替代。 用混合专家模型应对多模态学习挑战:一项综述 2026-05-28 本综述从三个关键视角探讨混合专家模型(MoE)如何有效解决多模态学习挑战:作为高效引擎、表示学习器和适配器,并指出可解释路由、专家通信等研究空白。
MoE通过解耦计算成本与参数增长实现可扩展多模态建模。 MoE整合互补专家知识以丰富对齐与交互表示。 $E^3$-Agent:面向边缘生成式推理的可执行与演化式资源管理智能体 2026-05-28 本文提出$E^3$-Agent,一种面向边缘AIGC资源管理的可执行与演化式智能体。该智能体将毫秒级的路由决策与事件驱动的LLM元控制器分离,通过在线学习适应未知且时变的服务时间映射。在模拟实验中,$E^3$-Agent将平均延迟降低65%-73%,并有效抑制了语义退化下的卡顿率。
边缘生成式推理面临设备性能未知和动态变化挑战。 $E^3$-Agent采用双路径架构:快速路由器+慢速LLM元控制器。 实时分析中的发现智能体:迈向主动洞察系统 2026-05-28 本文提出了一种基于多智能体架构的自主洞察发现系统,用于实时数据流。该系统通过持续发现循环,利用Apache Kafka、Flink和大语言模型实现假设生成、验证及可视化,旨在从被动查询驱动转向主动发现驱动分析。
提出多智能体架构,自动发现实时数据流中的洞察。 集成Kafka、Flink和LLM,实现假设生成与验证。 LaneRoPE:用于协作并行推理与生成的位置编码 2026-05-28 LaneRoPE通过引入序列间注意力机制和位置编码扩展,使多个LLM序列在生成过程中能够协作,从而在数学推理任务中提升准确率,且对架构改动小、推理开销低。
LaneRoPE提出序列间注意力掩码,使多个序列的生成相互依赖。 扩展旋转位置编码(RoPE),捕捉序列内和序列间的位置信息。 为什么LLM在因果发现中失败以及干预智能体如何突破 2026-05-28 本文证明了大型语言模型在进行因果发现时存在根本性局限:监督微调、直接偏好优化和上下文学习等方法无法区分产生相似观测数据的因果图。作者提出了智能体因果贝叶斯优化(A-CBO),其中冻结的语言模型作为干预预言机,外部贝叶斯循环在对数级别轮次内收敛到候选图。在Corr2Cause基准上,A-CBO无需训练即可匹配微调基线;在扩展到24个变量和18K测试样本的Extended Corr2Cause上,A-CBO显著优于微调和偏好优化。
证明了LLM在因果发现中的失败是根本性的,源于核障碍定理 提出A-CBO方法,结合冻结LLM和外部贝叶斯优化 DynaSchedBench:校准的动态调度基准与基于LLM的调度代理中的可观察性悖论 2026-05-28 本文提出DynaSchedBench框架,通过顺序事件空间校准器(SESC)和调度压力指数(SSI)严格生成动态灵活作业车间调度问题(DFJSP)实例,解决了静态基准过拟合和未校准生成器噪声问题。研究发现LLM调度代理存在“可观察性悖论”:提供完整结构信息反而会降低性能,且工具增强和细化策略无法可靠提升效果。
DynaSchedBench利用SESC和SSI生成难度分层的DFJSP实例,计算效率优于进化基线。 LLM代理在动态调度中表现出“可观察性悖论”:完整信息不如简洁信息有效。 Soro:专为塔吉克语打造的轻量级基础模型与聊天机器人 2026-05-28 Soro是一系列专为塔吉克语优化的对话大语言模型,基于Gemma 3检查点,通过19亿标记的塔吉克语持续预训练和4万示例的指令微调,显著提升了塔吉克语任务表现,同时保持英语性能。模型支持FP8和INT4量化,适用于边缘部署,已在塔吉克斯坦教育领域试点。
Soro基于Gemma 3,使用19亿标记的塔吉克语语料进行持续预训练和4万示例的指令微调。 在塔吉克语基准测试中大幅超越同等规模的Gemma 3基线,保持英语性能。 识别和理解文本中的人类价值:一种可定制的基于LLM的架构 2026-05-28 本文介绍了一种基于大型语言模型(LLM)的架构,用于检测和量化文本中人类价值的强度。该架构包含三个协调模块,可适应多种价值理论,并在ValueEval数据集上表现出良好的检测性能。
提出了一种模块化的LLM架构,用于从文本中识别人类价值,避免了对特定价值理论或复杂提示工程的依赖。 架构包括三个模块:生成结构化价值规范、标注文本、基于修辞和语义证据分配支持或反对等级。 语言建模具体化了蛋白质生物学的世界模型 [pdf] 2026-05-28 本文提出了一种基于语言模型的蛋白质生物学世界模型,展示了如何通过大规模语言建模来理解和预测蛋白质的结构与功能。
语言模型能够捕捉蛋白质序列中的复杂模式 该模型在蛋白质结构预测和功能注释上表现出色 Sakana AI 提出 DiffusionBlocks:一种将残差网络转换为可独立训练去噪模块的块状训练框架 2026-05-28 来自Sakana AI和东京大学的研究人员提出了DiffusionBlocks,这是一种块状训练框架,可将Transformer网络划分为独立训练的块,从而将训练内存减少B倍(B为块数),同时在不同架构上保持性能。该方法通过将残差连接解释为扩散模型中的欧拉步骤,利用分数匹配目标实现块级独立训练。
DiffusionBlocks通过将网络划分为B个独立训练的块,将训练内存减少B倍,适用于多种架构。 核心创新在于将残差连接视为反向扩散过程的欧拉离散化步骤,从而为每个块提供原则性的局部训练目标。 SQLite 的 AGENTS.md 2026-05-27 SQLite 新增了 AGENTS.md 文件,明确了其对 AI 生成贡献的政策:不接受未经事先同意的拉取请求,不接受代理生成的代码,但欢迎附带可重现测试用例的 bug 报告。由于 AI 生成的 bug 报告泛滥,论坛现已拆分出专门的 bug 论坛。
SQLite 添加 AGENTS.md 以定义 AI 贡献政策 拉取请求需要事先同意和法律文件 大规模可靠LLM推理 2026-05-27 Databricks构建了独特的推理平台,为众多前沿模型提供推理服务,每月处理超过120万亿个令牌。通过引入“模型单元”抽象,实现了成本感知的负载均衡和自动缩放,相比静态配置节省了80%以上的GPU成本。运行时可靠性机制包括黑盒健康检查,可自动检测和恢复静默故障。此外,通过分析多模态瓶颈,吞吐量提升了3倍。
Databricks推理平台为多种前沿模型提供服务,每月处理120T令牌。 引入“模型单元”抽象,实现跨工作负载的容量管理和成本感知负载均衡。 ITBench-AA:前沿模型在企业IT智能体任务基准测试中得分低于50%——由Artificial Analysis与IBM联合发布 2026-05-27 Artificial Analysis与IBM联合推出ITBench-AA,这是首个针对企业IT智能体任务的基准测试,专注于站点可靠性工程(SRE)。前沿模型得分均低于50%,其中Claude Opus 4.7以47%领先。该基准测试评估模型在Kubernetes事件响应中的表现,要求从日志和追踪中诊断故障。
Claude Opus 4.7以47%领先,GPT-5.5为46%,Qwen3.7 Max为42%。 所有前沿模型得分低于50%,使ITBench-AA成为饱和度最低的智能体基准之一。