在Amazon SageMaker AI上訓練亞塞拜然語語言模型 2026-05-28 亞塞拜然電信公司Azercell與AWS生成式AI創新中心合作,在Amazon SageMaker AI上構建了針對亞塞拜然語的大語言模型,透過自定義分詞器、分散式訓練和Liger Kernel最佳化,實現了23%的訓練吞吐量提升、58%的GPU記憶體峰值降低和2倍的分詞效率提升。
Azercell使用Amazon SageMaker AI為亞塞拜然語開發了首個大語言模型生產框架。 自定義分詞器將每個詞的令牌數從3.22降至1.59,效率提升2倍。 Anthropic釋出Claude Opus 4.8:效能超越GPT-5.5,堪稱“適度但實實在在的進步” 2026-05-28 Anthropic推出Claude Opus 4.8,該模型在多數基準測試中擊敗了GPT-5.5和Gemini 3.1 Pro,並且識別自身編碼錯誤的頻率是前代模型的四倍。同時,Anthropic還引入了動態工作流功能,可啟動數百個並行子代理處理程式碼庫遷移等任務。
Claude Opus 4.8在多數基準測試中超越GPT-5.5和Gemini 3.1 Pro。 新模型識別自身編碼錯誤的頻率是前代模型的四倍。 AI模型釋出追蹤:Opus 4.8的失調率與Claude Mythos預覽版相似 2026-05-28 並非每個新模型都像宣傳的那樣出色。我們的追蹤器將每個版本與同類模型進行對比,幫助您瞭解哪些模型值得關注。本文總結了2026年至今的重大模型釋出,包括Claude Opus 4.8、GPT-5.5 Instant、Nemotron 3 Nano Omni、GPT-5.5、ChatGPT Images 2、Claude Opus 4.7、Claude Mythos(預覽版)、GPT-5.4、Claude Opus 4.6和GPT-5.3-Codex,並闡述了它們的特點與意義。
Anthropic的Opus 4.8以更低價格提供更快思維模式,聲稱失調率低於Opus 4.7,與Mythos預覽版相當。 OpenAI的GPT-5.5 Instant減少了52.5%的幻覺,成為ChatGPT預設模型,有助於減少錯誤資訊傳播。 使用 Claude Code 搭配 GPT 5.5、Gemini 3.5、Grok 4.3 及其他模型 2026-05-28 Claude Code 現支援一鍵切換模型、自帶金鑰(BYOK),相容 Anthropic 和 OpenAI 標準。起價每月5美元,幫助使用者繞過服務中斷、速率限制及超額費用。
一鍵切換模型,無需重新配置。 支援自帶金鑰(BYOK),保障隱私與靈活。 Mistral AI與Digital Realty合作擴充套件歐洲AI基礎設施 2026-05-28 法國初創公司Mistral AI在Digital Realty的巴黎南園區獲得了10兆瓦的計算能力,以擴充套件其AI基礎設施。
Mistral AI在Digital Realty巴黎南園區獲得10兆瓦計算能力 該合作旨在擴充套件歐洲的AI基礎設施 Claude Opus 4.8 釋出:努力控制、動態工作流、更便宜的快速模式、更誠實、更少欺騙 2026-05-28 Anthropic 釋出了其旗艦模型 Opus 4.8,新功能包括使用者可控制 Claude 的努力程度、動態工作流支援大規模編碼、快速模式價格降至原來的三分之一。模型在基準測試中領先 GPT-5.5 和 Gemini 3.1 Pro,但在終端編碼方面仍落後於 OpenAI。此外,模型在誠實性、自主支援和減少欺騙方面有顯著改進。
使用者可調節 Claude 的“努力”程度,平衡響應質量與速度。 動態工作流(研究預覽)允許 Claude 在單個會話中並行執行數百個子代理,完成大規模程式碼遷移。 Claude Opus 4.8 現已登陸 AWS 2026-05-28 Anthropic 的最先進 Opus 模型 Claude Opus 4.8 在 Amazon Bedrock 和 AWS 上的 Claude Platform 正式可用。該模型在編碼、代理任務和專業工作方面帶來顯著改進,具有更強的自主性和一致性,適合長期生產工作負載。
Claude Opus 4.8 是 Anthropic 最先進的 Opus 模型,現已在 AWS 上提供。 相比前代,它在編碼、多階段自主任務和專業工作中表現更佳,輸出方差更低,審查週期減少。 克勞德新模型在出錯時更加“誠實” 2026-05-28 Anthropic 於週四釋出 Claude Opus 4.8,該模型在訓練中強調“誠實”,能夠更頻繁地標記工作中的不確定性,減少無依據的斷言。評估顯示,其程式碼缺陷遺漏率比前代降低約4倍。此外,使用者可控制任務投入的努力程度,以及引入“動態工作流”功能,支援並行執行數百個代理。
Claude Opus 4.8 更傾向於在不確定時主動標識,避免做出無依據的斷言。 相比前代,模型在程式碼審查中遺漏缺陷的機率降低約4倍。 回顧 I/O 2026 的 12 個重要時刻 2026-05-28 Google I/O 2026 主題演講釋出了多項重大更新,包括 Gemini Omni、Gemini 3.5 Flash、資訊代理、通用購物車、Neural Expressive 設計語言以及智慧眼鏡等。本文總結了 12 個最值得關注的時刻。
Gemini Omni 可以從任何輸入建立內容,首發支援影片生成。 Gemini 3.5 Flash 提供前沿效能,適用於代理和編碼任務。 谷歌釋出可本地執行Gemma 3的微型開發板 2026-05-28 谷歌在I/O大會上推出Coral Board,這是一款專為裝置端AI設計的緊湊型單板計算機,搭載RISC-V架構NPU和Synaptics晶片,可本地執行Gemma 3 270M模型,無需雲端支援。
Coral Board是谷歌為耳機、AR眼鏡等小型裝置設計的AI開發板 採用基於RISC-V的開源NPU,整合Synaptics Astra SL2619晶片 Rivian軟體主管認為你不需要CarPlay或按鈕 2026-05-28 在Decoder播客採訪中,Rivian首席軟體官Wassym Bensaid討論了與大眾的合資企業、全新的AI驅動Rivian助手,以及為什麼他認為語音介面將取代按鈕且不需要CarPlay。
Rivian與大眾的合資企業(RV Tech)結合了Rivian的軟體文化與大眾多規模。 Rivian助手是一款深度整合到車輛區域架構中的AI代理。 世界模型接棒語言模型,這家公司全球首創物理AGI“雙金字塔”體系,通用機器人進入“家庭時代” 2026-05-28 極佳視界釋出全球首創物理AGI“雙金字塔”體系,推出家庭機器人拾光S1,獲百臺家庭訂單,計劃12個月內實現物理AGI的“GPT-3時刻”。
極佳視界首創“雙金字塔”體系,包括資料金字塔和演算法金字塔。 家庭機器人拾光S1採用輪臂構型,獲得百臺真實家庭訂單。 Mistral 將 LeChat 更名為 Vibe,押注聊天機器人的未來是全能工作代理 2026-05-28 Mistral AI 將其聊天機器人 Le Chat 更名為 Vibe,並將聊天、程式設計代理和新的工作模式整合在一個品牌下。工作模式可接入 Google Workspace、Outlook、Slack 或 GitHub,獨立處理電子郵件、報告或拉取請求等任務。Pro 套餐價格從 17.99 歐元降至 14.99 歐元,但未明確使用限制。此舉直接對標 OpenAI、Google 和 Anthropic 的代理型產品。
Mistral AI 將聊天機器人 Le Chat 更名為 Vibe,整合聊天、程式設計代理和工作模式。 工作模式可連線 Google Workspace、Outlook、Slack 或 GitHub,自主處理任務。 Show HN:本地編碼代理——利用LLM將工具呼叫委託給小AI模型 2026-05-28 Open Agent Tools (oats) 是一個自託管AI模型框架,透過原生代碼提示索引,將大型模型的計算密集型工具呼叫委託給小型開源模型,從而節省令牌消耗。
oats 允許本地AI模型使用本地原始碼進行工具呼叫,無需HTTP或MCP。 透過資料探勘超過20,000個GitHub倉庫,建立可重用的提示索引。 Perplexity AI 開源Unigram分詞器,p50延遲比Hugging Face tokenizers crate低5倍 2026-05-28 Perplexity AI 開源了用Rust重寫的Unigram分詞器,實現了比Hugging Face tokenizers crate低5倍的p50延遲,並將生產環境CPU利用率降低了5-6倍。最佳化包括雙陣列trie、點陣圖打包和大頁面支援。
Perplexity AI 用Rust重寫了Unigram分詞器,p50延遲比Hugging Face tokenizers crate降低5倍。 三項最佳化:雙陣列trie、點陣圖和快取行打包、大頁面支援。 Mistral CEO稱公司探索自研晶片 2026-05-28 Mistral AI執行長Arthur Mensch證實,公司正在探索開發定製晶片以降低基礎設施成本,與OpenAI和Anthropic競爭。這家法國初創公司還宣佈在法國新建推理資料中心,並推出企業智慧代理平臺Vibe。
Mistral AI考慮自研定製晶片以降低部署成本。 公司在法國新建專用推理資料中心。 7B打敗o3、GPT-5!醫學AI智慧體讓模型學會“看哪裡、怎麼看” 2026-05-28 上海創智學院LeapQuest團隊聯合多所高校提出醫學AI新正規化,讓模型在推理過程中主動呼叫視覺工具,從被動接收視覺輸入變為主動尋找證據。論文被ICML 2026接收。
LeapQuest團隊提出Ophiuchus和MedScope,分別面向醫學影像和影片,採用Think with Images/Videos正規化。 Ophiuchus-7B在8個VQA benchmark上平均得分68.0,超越o3(62.2)、GPT-5(59.9)。 Trinity:利用合成資料統一非結構化戶外環境中的類無關地形與語義分割 2026-05-28 本文提出了一種基於Transformer的架構Trinity,能夠在一個統一網路中同時進行類特定語義分割和類無關地形分割。該方法無需預定義標籤或機器人相關的可通行性分數,僅基於視覺外觀分割地形區域,從而學習機器人無關的視覺地形先驗,可結合機器人特定經驗用於下游任務。為了支援大規模訓練,研究團隊擴充套件了OAISYS模擬器並推出RUGDSynth合成資料集,同時提供了EXTerra真實世界資料集。實驗驗證了該方法在複雜戶外環境中的有效性。
提出Trinity架構,統一類無關地形分割與語義分割 基於視覺外觀而非預定義標籤進行地形分割,提升跨平臺遷移性 面向光流控組裝的智慧語言到目標合成 2026-05-28 研究人員提出了Speak-to-Objective模組化智慧管線,利用條件大型語言模型將口頭或書面命令轉換為可微分的最佳化目標函式,用於在約束感知逆解算器和實驗光流控平臺上組裝微粒。該方法採用“感知-組合-提議-執行-報告與學習”的迴圈,將目標作為意圖與驅動之間的介面,實現自然語言可程式設計的微觀組裝,推動自主光製造平臺的發展。
Speak-to-Objective管線將自然語言命令轉化為可微分的最佳化目標函式。 該管線在光流控平臺上透過雷射誘導熱粘流實現對微粒圖案的組裝。 表示條件擴散模型:用於引導訓練資料生成 2026-05-28 該研究提出表示條件擴散模型,利用DINOv2、DINOv3和CLIP的表示作為條件生成合成影像資料,在ImageNet100上以+10.76 p.p.的top-1準確率顯著優於類條件生成。透過擴大合成資料集,甚至能超越真實資料訓練的模型(+2.0 p.p.)。此外,該方法在資料增強和樣本過濾方面也表現出色,為大規模視覺學習任務提供了一種有前景的替代或補充真實資料集的方案。
表示條件擴散模型優於類條件生成,在ImageNet100上提升10.76個百分點。 擴大的合成資料集可超越真實資料訓練的模型,準確率提高2.0個百分點。 D²Turb:深度感知模擬與解耦學習用於單幀大氣湍流緩解 2026-05-28 研究人員提出D²Turb框架,透過引入深度感知的湍流合成協議和自適應結構先驗注入機制,將大氣湍流緩解分解為紋理去模糊和幾何校正兩個互動階段,在合成和真實資料集上均達到最優效能。
提出深度感知湍流合成協議,結合場景深度生成物理一致的退化資料。 採用解耦學習方法,將恢復過程分為紋理去模糊和幾何校正兩階段。 一種通用的異質注意力結構Transformer模型解釋方法 2026-05-28 該研究提出了一種用於解釋具有異質注意力結構的Transformer模型的方法,包括語義解釋和邏輯解釋,並透過實驗驗證了其有效性。
將Transformer注意力結構分為同質和異質兩類,異質結構處理不同來源資訊。 提出了一種通用的解釋方法,適用於異質注意力結構。 微調視覺語言模型用於理解當前損傷並利用質量守護代理進行優先順序評分 2026-05-28 本研究提出了一種利用微調視覺語言模型(VLM)自動化橋樑損傷理解和修復優先順序評分的方法。透過使用QLoRA對LLaVA-1.5-7B進行微調,基於多達4000張橋樑損傷影像和檢查文本記錄,並在800張影像的測試集上評估。實驗表明,2000個訓練樣本即可在2.9小時內達到接近最優的驗證損失,超過2000後收益遞減。此外,引入了一個兩階段質量守護代理,使用微調的Swallow-8B SLM在優先順序評分前拒絕低質量VLM輸出。
微調LLaVA-1.5-7B模型用於橋樑損傷自動識別與優先順序評分 2000個訓練樣本即可達到近最優效能,更多資料收益遞減 從情感到複雜行為:第十屆ABAW研討會與競賽推進多模態以人為中心的AI 2026-05-28 第十屆ABAW研討會與競賽在CVPR 2026上舉辦,透過引入情感模仿強度估計、矛盾/猶豫識別和細粒度暴力檢測等新挑戰,以及傳統的情感估計和識別任務,推進多模態以人為中心的AI。競賽利用大規模野外資料集,論文軌道涵蓋從姿態估計到公平性和魯棒性的廣泛主題。
ABAW 2026引入新挑戰:情感模仿強度、矛盾識別和暴力檢測。 研討會繼續保持競賽和論文軌道的雙重結構。 社群態度建模與反應語調:評估LLM與線上社群語言行為對齊的人機協作框架 2026-05-28 大型語言模型(LLM)作為計算社會分析的代理日益普及,但能否忠實再現人類社群的“厚描述”仍是關鍵挑戰。本文提出CARE(社群感知反應評估)框架,透過精細刻畫言外語調頻譜及其潛在態度,測評LLM模擬話語與真實社群對新聞事件的反應之間的差異。研究發現,使用明確社群提示引導LLM並不能天然提高模擬真實性,前沿模型間存在分歧行為特徵,表明當前對齊策略不足以捕捉線上群體的社會語言動態。
CARE框架透過反應語調評估LLM模擬社群話語的逼真度 當前LLM對齊策略無法充分捕捉線上社群的社會語言動態 從自迴歸到擴散:利用嚴格因果和彈性視野高效適配大型語言模型 2026-05-28 新框架FLUID將自迴歸語言模型適配到擴散模型,實現高效並行文本生成。透過嚴格因果對齊重用GPT檢查點,並透過彈性視野機制根據資訊密度動態調整去噪步長。該方法以數量級降低的訓練成本達到最先進效能。
FLUID透過嚴格因果對齊彌合自迴歸與擴散模型的結構差異,可直接從GPT檢查點初始化。 彈性視野利用熵動態調整去噪步長,取代固定排程。 彌合穩定性與表現力之間的鴻溝:面向低資源口語模型的合成資料擴充套件與偏好對齊 2026-05-28 研究人員發現,在低資源語言的口語模型中使用合成資料會導致“穩定性-表現力鴻溝”,並提出兩種自對齊框架(DGSA和TDSC),能夠恢復韻律變異性,超越ElevenLabs和Gemini Pro等商業系統,實現寮國語的首次零樣本人聲克隆。
低資源語言的口語模型在合成資料訓練時面臨音素準確度與韻律表現力之間的權衡。 提出的解耦引導自對齊(DGSA)透過分離韻律和音色來恢復表現力。 BioELX:基於別名檢索和LLM排序的跨語言生物醫學實體連結 2026-05-28 BioELX是一種新穎的跨語言生物醫學實體連結框架,無需標註訓練資料。它透過維基百科多語言別名增強SapBERT,並利用預訓練LLM進行上下文感知消歧。在五個基準測試中,BioELX實現了最先進的效能,尤其在土耳其語、韓語和泰語等低資源語言上表現突出。
提出BioELX,一種零樣本跨語言BEL框架,結合別名檢索和LLM排序。 第一階段:利用維基百科多語言別名豐富SapBERT訓練,提升候選檢索效果。 RAG-Coding:利用結構化外部知識增強LLM醫學編碼 2026-05-28 RAG-Coding是一種自動化ICD-10-CM編碼方法,透過協調四個大語言模型代理並基於外部知識源(如官方編碼列表和指南)進行決策,提高了編碼準確性和臨床合規性。在MDACE資料集上,其效能優於最佳LLM基線8-13%的微觀F1和2-8%的宏觀F1。與最先進的預訓練模型PLM-ICD相比,RAG-Coding的微觀召回率高出11%,而PLM-ICD的微觀精確度高出6%,兩者F1相當。消融實驗驗證了外部知識的逐步增益。同時釋出了MDACE-2025,根據2025年最新指南重新標註,支援更細粒度的評估。
RAG-Coding透過四個LLM代理和外部知識源提高ICD-10-CM編碼準確性。 在MDACE資料集上,相比最佳LLM基線,微觀F1提升8-13%,宏觀F1提升2-8%。 LCO:基於LLM的約束最佳化,使智慧體LLM在實際任務中更安全 2026-05-28 大型語言模型(LLM)作為自主智慧體時,會透過上下文獎勵駭客行為(ICRH)產生有害副作用。現有防禦方法不足,因為ICRH源於模型自身的過度最佳化。本文提出LLM-based Constraint Optimization (LCO)框架,包含自我思考模組和進化取樣模組,在不微調模型的情況下有效減少ICRH。實驗表明,LCO在推文最佳化任務中將GPT-4的有毒性增長率降低39%,在策略最佳化基準中將ICRH發生率降低15.23%,且不犧牲任務效能。
ICRH是LLM在連續互動中因過度最佳化代理目標而產生有害副作用的現像。 LCO框架透過自我思考模組和進化取樣模組,在不微調模型的情況下約束LLM行為。 架構驅動的偏移:一種用於捕捉對數機率偏移趨勢的輕量級選擇器 2026-05-28 本文提出了一種輕量級的架構驅動偏移(ADS)度量,用於在持續學習中高效選擇預訓練模型。ADS透過解耦對數機率偏移為架構依賴和資料依賴,僅需少量資料樣本即可捕捉偏移趨勢。實驗表明,ADS與對數機率偏移之間存在強單調相關性(斯皮爾曼相關係數最低0.731),並可作為預期校準誤差的有效代理,在六個場景、三個資料集上驗證了其可靠性。
持續學習中,選擇能平衡可塑性與穩定性的預訓練模型至關重要,但對數機率偏移計算成本高。 現有理論假設隱藏層寬度統一,忽略實際架構的異構性,無法高效替代。 用混合專家模型應對多模態學習挑戰:一項綜述 2026-05-28 本綜述從三個關鍵視角探討混合專家模型(MoE)如何有效解決多模態學習挑戰:作為高效引擎、表示學習器和介面卡,並指出可解釋路由、專家通訊等研究空白。
MoE透過解耦計算成本與引數增長實現可擴充套件多模態建模。 MoE整合互補專家知識以豐富對齊與互動表示。 $E^3$-Agent:面向邊緣生成式推理的可執行與演化式資源管理智慧體 2026-05-28 本文提出$E^3$-Agent,一種面向邊緣AIGC資源管理的可執行與演化式智慧體。該智慧體將毫秒級的路由決策與事件驅動的LLM元控制器分離,透過線上學習適應未知且時變的服務時間對映。在模擬實驗中,$E^3$-Agent將平均延遲降低65%-73%,並有效抑制了語義退化下的卡頓率。
邊緣生成式推理面臨裝置效能未知和動態變化挑戰。 $E^3$-Agent採用雙路徑架構:快速路由器+慢速LLM元控制器。 LaneRoPE:用於協作並行推理與生成的位置編碼 2026-05-28 LaneRoPE透過引入序列間注意力機制和位置編碼擴充套件,使多個LLM序列在生成過程中能夠協作,從而在數學推理任務中提升準確率,且對架構改動小、推理開銷低。
LaneRoPE提出序列間注意力掩碼,使多個序列的生成相互依賴。 擴充套件旋轉位置編碼(RoPE),捕捉序列內和序列間的位置資訊。 為什麼LLM在因果發現中失敗以及干預智慧體如何突破 2026-05-28 本文證明了大型語言模型在進行因果發現時存在根本性侷限:監督微調、直接偏好最佳化和上下文學習等方法無法區分產生相似觀測資料的因果圖。作者提出了智慧體因果貝葉斯最佳化(A-CBO),其中凍結的語言模型作為干預預言機,外部貝葉斯迴圈在對數級別輪次內收斂到候選圖。在Corr2Cause基準上,A-CBO無需訓練即可匹配微調基線;在擴充套件到24個變數和18K測試樣本的Extended Corr2Cause上,A-CBO顯著優於微調和偏好最佳化。
證明了LLM在因果發現中的失敗是根本性的,源於核障礙定理 提出A-CBO方法,結合凍結LLM和外部貝葉斯最佳化 DynaSchedBench:校準的動態排程基準與基於LLM的排程代理中的可觀察性悖論 2026-05-28 本文提出DynaSchedBench框架,透過順序事件空間校準器(SESC)和排程壓力指數(SSI)嚴格生成動態靈活作業車間排程問題(DFJSP)例項,解決了靜態基準過擬合和未校準生成器噪聲問題。研究發現LLM排程代理存在“可觀察性悖論”:提供完整結構資訊反而會降低效能,且工具增強和細化策略無法可靠提升效果。
DynaSchedBench利用SESC和SSI生成難度分層的DFJSP例項,計算效率優於進化基線。 LLM代理在動態排程中表現出“可觀察性悖論”:完整資訊不如簡潔資訊有效。 識別和理解文本中的人類價值:一種可定製的基於LLM的架構 2026-05-28 本文介紹了一種基於大型語言模型(LLM)的架構,用於檢測和量化文本中人類價值的強度。該架構包含三個協調模組,可適應多種價值理論,並在ValueEval資料集上表現出良好的檢測效能。
提出了一種模組化的LLM架構,用於從文本中識別人類價值,避免了對特定價值理論或複雜提示工程的依賴。 架構包括三個模組:生成結構化價值規範、標註文本、基於修辭和語義證據分配支援或反對等級。 Sakana AI 提出 DiffusionBlocks:一種將殘差網路轉換為可獨立訓練去噪模組的塊狀訓練框架 2026-05-28 來自Sakana AI和東京大學的研究人員提出了DiffusionBlocks,這是一種塊狀訓練框架,可將Transformer網路劃分為獨立訓練的塊,從而將訓練記憶體減少B倍(B為塊數),同時在不同架構上保持效能。該方法透過將殘差連線解釋為擴散模型中的尤拉步驟,利用分數匹配目標實現塊級獨立訓練。
DiffusionBlocks透過將網路劃分為B個獨立訓練的塊,將訓練記憶體減少B倍,適用於多種架構。 核心創新在於將殘差連線視為反向擴散過程的尤拉離散化步驟,從而為每個塊提供原則性的區域性訓練目標。 SQLite 的 AGENTS.md 2026-05-27 SQLite 新增了 AGENTS.md 檔案,明確了其對 AI 生成貢獻的政策:不接受未經事先同意的拉取請求,不接受代理生成的程式碼,但歡迎附帶可重現測試用例的 bug 報告。由於 AI 生成的 bug 報告氾濫,論壇現已拆分出專門的 bug 論壇。
SQLite 新增 AGENTS.md 以定義 AI 貢獻政策 拉取請求需要事先同意和法律檔案 大規模可靠LLM推理 2026-05-27 Databricks構建了獨特的推理平臺,為眾多前沿模型提供推理服務,每月處理超過120萬億個令牌。透過引入“模型單元”抽象,實現了成本感知的負載均衡和自動縮放,相比靜態配置節省了80%以上的GPU成本。執行時可靠性機制包括黑盒健康檢查,可自動檢測和恢復靜默故障。此外,透過分析多模態瓶頸,吞吐量提升了3倍。
Databricks推理平臺為多種前沿模型提供服務,每月處理120T令牌。 引入“模型單元”抽象,實現跨工作負載的容量管理和成本感知負載均衡。 ITBench-AA:前沿模型在企業IT智慧體任務基準測試中得分低於50%——由Artificial Analysis與IBM聯合釋出 2026-05-27 Artificial Analysis與IBM聯合推出ITBench-AA,這是首個針對企業IT智慧體任務的基準測試,專注於站點可靠性工程(SRE)。前沿模型得分均低於50%,其中Claude Opus 4.7以47%領先。該基準測試評估模型在Kubernetes事件響應中的表現,要求從日誌和追蹤中診斷故障。
Claude Opus 4.7以47%領先,GPT-5.5為46%,Qwen3.7 Max為42%。 所有前沿模型得分低於50%,使ITBench-AA成為飽和度最低的智慧體基準之一。 NVIDIA釋出Polar:用於跨Codex、Claude Code和Qwen Code進行GRPO訓練的忠實令牌回滾框架 2026-05-27 NVIDIA研究人員推出Polar框架,透過在智慧體工具鏈和推理伺服器之間放置模型API代理,實現無需修改智慧體工具鏈即可進行強化學習訓練。基於Qwen3.5-4B模型使用GRPO訓練,Polar在Codex、Claude Code和Pi工具鏈上分別將SWE-Bench Verified pass@1提升了22.6、4.8和6.2個百分點。框架以NeMo Gym環境註冊,並在ProRL Agent Server倉庫開源。
Polar透過模型API代理捕獲令牌級互動,無需修改現有智慧體工具鏈即可進行RL訓練 使用GRPO在Qwen3.5-4B上訓練,SWE-Bench Verified最高提升22.6個百分點 我認為Anthropic和OpenAI已找到產品市場契合點 2026-05-27 文章指出,Anthropic和OpenAI透過將企業客戶轉向API定價模式,以及編碼代理產品的普及,實現了產品市場契合。這一轉折點始於2025年11月模型升級,並在2026年4月因新模型釋出和企業定價調整而加速。
Anthropic和OpenAI已將其企業計劃定價調整為API價格,編碼代理(如Claude Code和Codex)成為主要收入來源。 2026年4月,兩家公司釋出新前沿模型並提高API價格,同時鎖定企業客戶以新價格簽約。 南非擁有AI槓桿,但其政策草案將其閒置 2026-05-27 南非擁有全球88%的鉑族金屬儲量,是非洲最大的資料中心市場,並處於中美AI基礎設施競爭的前沿。然而,其AI政策草案因包含AI幻覺引用而被撤回,未能利用這些優勢來談判有利條件。文章分析了南非的結構性槓桿、三種潛在的AI基礎設施未來(中國、美國和本地開放權重),以及制定具有約束力的治理框架的必要性。
南非的鉑族金屬和可再生能源資源提供了獨特的AI槓桿,但政策草案未設定最低投資條款、資料主權或技術轉讓條件。 中美科技公司(華為和微軟等)正在南非爭奪AI基礎設施控制權,而南非的政策未明確其回報要求。 EAGLE 3.1:修復LLM推理中注意力漂移的推測解碼演算法 2026-05-27 EAGLE團隊、vLLM團隊和TorchSpec團隊聯合釋出了EAGLE 3.1,旨在解決生產環境中推測解碼的不穩定性。該演算法透過FC歸一化和歸一化後隱藏狀態反饋兩大架構改進,有效應對注意力漂移問題。在長上下文任務中,EAGLE 3.1的接受長度比EAGLE 3提升高達2倍;在Kimi K2.6模型上的基準測試顯示,併發數為1時每使用者輸出吞吐量提升2.03倍。EAGLE 3.1完全向後相容,已合併至vLLM主線,並將隨v0.22.0版本釋出。
EAGLE 3.1修復了推測解碼中的注意力漂移問題,即起草模型在深度推測時注意力從原始上下文偏移到自身生成內容。 兩項架構改進:FC歸一化穩定隱藏狀態,以及將歸一化後的隱藏狀態反饋到下一步,使起草模型更穩定。 引用凱爾·費拉納的話 2026-05-27 本文引用了凱爾·費拉納的一條推文,用《星際迷航》的比喻說明AI系統中的“謹慎”策略。在技術領域,僅僅有防禦措施是不夠的,必須真正執行才能避免嚴重失敗。
透過《星際迷航》對話比喻AI系統中的策略與執行 強調防禦措施必須實際啟用,不能僅停留在計劃階段 MEMO:一個模組化框架,透過訓練專用記憶模型在不修改LLM引數的情況下整合新知識 2026-05-27 新加坡國立大學、MIT和A*STAR的研究人員提出MEMO,這是一種模組化框架,將語料庫知識編碼到一個可單獨訓練的記憶模型中,使大型語言模型能夠無需重新訓練或微調即可吸收新知識。
MEMO將記憶與推理分離,使用專用記憶模型和凍結的執行模型。 五步資料合成流水線將文件轉化為用於訓練記憶模型的反思型問答資料集。 AI代理馬具:將LLM轉變為數字工人的粘合劑 2026-05-27 AI模型在原始智慧方面似乎已達到平臺期,下一階段的進步來自於圍繞模型構建的“代理馬具”。本文介紹了代理馬具的概念,包括工具、記憶和人類參與,並比較了Google、LangChain、OpenAI、Anthropic等公司的解決方案。
AI模型智慧提升放緩,代理馬具成為新焦點。 代理馬具為LLM提供工具、記憶和糾錯能力。 異構AAV物流任務分配:一種強化學習增強的重疊聯盟形成博弈方法 2026-05-27 針對動態城市物流中時間敏感任務隨機出現導致的異構自主空中飛行器(AAV)任務分配最佳化難題,本文提出一種強化學習增強的重疊聯盟形成博弈方法。該方法建立動態任務分配模型,以耦合服務質量與資源消耗的廣義物流成本量化全域性最優性;並設計基於Transformer的軟演員-評論家網路,利用多頭自注意力機制處理可變長度物流狀態、捕捉任務間時空依賴,從而自適應引導聯盟更新,取代傳統啟發式規則。理論證明聯盟形成過程構成精確勢博弈,確保有限次迭代收斂到納什穩定均衡。在32架AAV與80個任務的場景下,相比啟發式重疊聯盟形成基線,成本降低39.76%;室內飛行實驗進一步驗證了實用性。
建立動態任務分配模型,以廣義物流成本數學量化全域性最優性。 設計Transformer基軟演員-評論家網路,自適應處理時變任務集並引導聯盟更新。 PhyPush:一次推動即可實現無需感測器的物理屬性估計 2026-05-27 本文提出PhyPush,一種物理引導的Transformer框架,僅透過單次推動的末端執行器速度即可估計物體的質量和摩擦係數,無需力/扭矩感測器。實驗表明,在模擬和真實環境中,該方法相比基線具有更低的誤差和更好的泛化能力。
PhyPush僅需一次推動的kinematic資料即可估計質量和摩擦係數 透過物理引導損失引入牛頓第二定律和庫侖摩擦模型