AI News HubLIVE

Qwen動態

讓AI聊天機器人更有幫助會削弱其模擬人類行為的能力

一項大規模研究發現,將語言模型訓練成有用的聊天助手會削弱它們模擬人類行為的能力,且隨著模型迭代,這一差距不斷增大。即使是使用人口統計資訊來引導模型,也無法提高個體行為預測的準確性。

  • 研究發現,基礎模型在預測人類行為方面優於經過後訓練的助手版本。
  • 隨著模型代際更新,後訓練導致的偏差加劇。
站內正文

[AINews] 創始人與前向部署工程師

在消化Anthropic重大新聞的間隙,我們重點介紹了AIE的新前向部署工程師計劃和創始人計劃,以及5月28-29日的AI新聞。主要話題包括:Claude Opus 4.8釋出及其基準測試爭議、多輪強化學習中的tokenization錯誤、開源模型與工具鏈進展、Google和OpenAI的Agent產品擴充套件,以及值得關注的研究論文。

  • Claude Opus 4.8帶來增量改進,但基準測試未顯示絕對優勢,定價仍是主要痛點。
  • 多輪強化學習訓練中的tokenization錯誤被指出,需嚴格遵循“Token-In, Token-Out”規則。
站內正文

利用IBM量子取樣迴圈調優僅CPU的Qwen3-30B推理

一個研究專案展示了在2017年MacBook Air上,透過結合人類實驗者、Codex、llama.cpp、本地資料庫和IBM量子處理器取樣,將Qwen3-30B模型的推理速度從0.09 tokens/sec提升至14.03 tokens/sec,同時保持輸出連貫性。該方法並非在量子處理器上執行模型,而是用量子取樣最佳化推理配置。

  • 在8GB記憶體的2017年MacBook Air上,無GPU執行Qwen3-30B模型
  • 透過人機協同量子最佳化迴圈,速度從0.09 tok/s提升到14.03 tok/s
站內正文

Amazon SageMaker AI LLM推理的全面可觀測性:從GPU利用率到LLM質量

本演示展示了使用Amazon Managed Grafana儀表板的全面可觀測性解決方案,為部署在Amazon SageMaker AI端點上的LLM提供質量和數量兩個維度的整體檢視。該方案涵蓋基礎設施指標(如GPU利用率、延遲、成本)和LLM質量指標(如相關性、安全性、語氣),幫助團隊檢測模型退化、最佳化資源並控制成本。

  • 可觀測性需要同時監控LLM服務基礎設施(數量)和LLM輸出質量(質量),兩者相互依賴。
  • 亞馬遜CloudWatch集中儲存增強指標(來自SageMaker推理元件)和自定義質量指標。
站內正文

輝達推出X-Token:投影引導的跨分詞器知識蒸餾,在Llama-3.2-1B上平均得分超過GOLD 3.82個百分點

輝達的X-Token解決了GOLD在跨分詞器知識蒸餾中的兩個結構性缺陷,在GSM8k等數學推理基準上取得了顯著改進。它利用投影矩陣和P-KL與H-KL損失之間的選擇機制來處理分詞器不匹配問題。

  • X-Token修復了GOLD中的不常見詞元失敗和過於保守匹配問題。
  • 在使用Qwen-4B教師模型時,它在Llama-3.2-1B上平均得分超過GOLD 3.82個百分點。
站內正文

AI編碼支出去向:48%寫程式碼,40%思考

一位開發者透過自建工具CodeBurn追蹤AI編碼API支出,發現30天內$7,890的支出中僅47.9%用於實際編碼,其餘花費在探索程式碼庫、除錯、委託子代理和對話上。文章詳細介紹了CodeBurn的功能,包括儀表盤、模型對比、浪費檢測、產出追蹤等。

  • 僅47.9%的AI編碼支出用於實際寫程式碼,40%用於思考過程。
  • CodeBurn是一款開源CLI工具,可分類13種API呼叫任務。
站內正文

Liquid AI釋出基於38T tokens訓練的8B-A1B MoE模型

Liquid AI釋出了LFM2.5-8B-A1B,一款面向終端裝置的混合專家模型,總引數8B,活躍引數1B,訓練資料量達38萬億 tokens。該模型支援128K上下文視窗,擴充套件了詞彙表以提升非拉丁語言的分詞效率,並採用純推理鏈式思維模式。在基準測試中表現優異,同時具有出色的CPU和GPU推理速度,適用於本地代理任務。

  • LFM2.5-8B-A1B是一款8B總引數、1B活躍引數的MoE模型,訓練於38T tokens。
  • 上下文視窗擴充套件至128K,詞彙表翻倍至128K,顯著提升非拉丁語言的處理效率。
站內正文

PPIO入選非凡產研「2026 Global AI 100」,以AI實力領跑出海新浪潮

PPIO 入選非凡產研發布的「2026 Global AI 100」榜單,該榜單由非凡大賞年度 AI 全球化增長峰會評選,旨在發掘全球化 AI 原生公司。PPIO 以全球化分散式算力基礎設施、全棧雲服務、模型平臺(支援 DeepSeek、GLM 等)及 Agent 沙箱等創新產品,為出海企業提供低時延、高可用的算力網路。截至 2026 年 4 月,PPIO 整合全球 4800+ 節點,日均 Token 呼叫量超 10000 億,開發者使用者超 57 萬。同時獲評上海市數字出海服務平臺試點單位及 GDA 領航服務站。

  • PPIO 入選「2026 Global AI 100」榜單,彰顯其在 AI 出海領域的領先地位。
  • 提供全球化分散式算力基礎設施,覆蓋 GPU 全型號,支援大規模訓練與推理。
站內正文

開源安全護欄模型基準測試:一項全面評估

一項針對14個開源安全護欄模型的全面評估顯示,Qwen Guard(4B引數)以83.97%的召回率位居榜首,而更大的模型如Llama Guard(12B)和GPT-OSS Safeguard(20B)表現保守,漏掉多達75%的不安全內容。研究還發現,模型大小與安全檢測效能無關,通用型護欄模型優於專用模型。

  • Qwen Guard(4B引數)在79,331個樣本的基準測試中召回率最高(83.97%)。
  • Llama Guard(12B)和GPT-OSS Safeguard(20B)等大型模型漏掉75%的不安全內容。
站內正文

災難性遺忘的機制起源:為何RL比SFT更善於保留電路?

最近研究表明,強化學習(RL)比監督微調(SFT)更能保持大語言模型的先前能力。本文從機制層面延伸,引入差分電路脆弱性度量,衡量微調中電路退化程度。在Qwen2.5-3B-Instruct科學問答實驗中發現,SFT適應目標任務更快,但造成更大的電路破壞和遺忘,而RL保留更多基礎電路,但任務適應較慢。結果表明電路保留有助於解釋RL對災難性遺忘的魯棒性。

  • SFT適應快但破壞內部電路,導致災難性遺忘。
  • RL保留更多基礎模型電路,遺忘較少但任務適應較慢。
站內正文

Show HN:Trelk – 閱讀、思考、連線

Trelk 是一款一次性購買、無需訂閱的知識管理應用。它利用裝置端 AI 儲存、組織並連線文章、論文和筆記,提供混合搜尋、知識圖譜、RAG 聊天、閃卡間隔重複和社群集合等功能,注重隱私且可離線工作。

  • 一次性購買,無訂閱費用
  • 裝置端 AI 驅動的知識管理與連線
站內正文

強化學習是一個基礎設施問題

本文探討了強化學習在大型語言模型後訓練中的實際應用,指出當前的瓶頸並非演算法而是基礎設施。Modal分享了大規模執行RL後訓練的經驗,介紹了其開源庫如何幫助團隊解決多節點訓練、環境管理和GPU利用率等關鍵問題。

  • 強化學習後訓練LLM的瓶頸是基礎設施,包括訓練引擎、推理沙箱和環境隔離。
  • 多節點訓練中,權重同步耗時巨大,RDMA和增量壓縮顯著降低延遲。
站內正文

即便明確警告為假,大型語言模型仍會相信虛假陳述

新研究發現,大型語言模型在訓練過程中會吸收明確標記為假的陳述,即使它們被明確警告為假。這種現象被稱為“否定忽視”,可能導致模型產生幻覺。實驗表明,在合成文件微調後,模型對虛假宣告的“信念率”從2.5%飆升至92.4%。

  • 大型語言模型會學習訓練資料中的統計模式,忽視明確的否定標籤。
  • 即使虛假陳述被標記為“假”,模型仍會將其吸收為知識。
站內正文

2026年值得構建的7個真實世界AI專案(附指南)

本文介紹了七個實用的AI專案,涵蓋求職、研究、投資分析、市場趨勢、發票處理、圖表數字化和個性化鍛鍊,每個專案都附有完整指南和程式碼,幫助讀者自動化工作流程。

  • 學習構建AI求職助手,自動匹配職位與簡歷
  • 掌握多智慧體研究助理開發,生成帶來源的研究報告
站內正文

Show HN:本地編碼代理——利用LLM將工具呼叫委託給小AI模型

Open Agent Tools (oats) 是一個自託管AI模型框架,透過原生代碼提示索引,將大型模型的計算密集型工具呼叫委託給小型開源模型,從而節省令牌消耗。

  • oats 允許本地AI模型使用本地原始碼進行工具呼叫,無需HTTP或MCP。
  • 透過資料探勘超過20,000個GitHub倉庫,建立可重用的提示索引。
站內正文

[AINews] Cognition融資10億美元,D輪估值260億

Cognition在D輪融資中籌集10億美元,估值達260億美元,年經常性收入(ARR)預計年底突破10億美元。文章還涵蓋了推理效率最佳化、智慧體工程、持續學習、新基準測試、模型釋出以及編碼代理產品化等AI領域的最新進展。

  • Cognition完成10億美元D輪融資,估值260億美元,ARR預計年底超10億美元。
  • 推理最佳化轉向架構層面:EAGLE 3.1、DeepSeek V4-Pro混合注意力、小米MiMo快取管理等。
站內正文

OpenJarvis v1.0 釋出:支援 Ollama 的本地優先個人 AI 框架

OpenJarvis 是一個開源框架,用於構建執行在本地硬體上的個人 AI 代理。由斯坦福大學 Hazy Research 和 Scaling Intelligence 實驗室開發,v1.0 版本現已整合 Ollama,實現本地優先、雲端可選,並跟蹤能耗、成本和延遲。

  • OpenJarvis v1.0 現已釋出,支援 Ollama。
  • 框架由斯坦福大學研究團隊開發,專注於高效本地 AI。
站內正文

大規模可靠LLM推理

Databricks構建了獨特的推理平臺,為眾多前沿模型提供推理服務,每月處理超過120萬億個令牌。透過引入“模型單元”抽象,實現了成本感知的負載均衡和自動縮放,相比靜態配置節省了80%以上的GPU成本。執行時可靠性機制包括黑盒健康檢查,可自動檢測和恢復靜默故障。此外,透過分析多模態瓶頸,吞吐量提升了3倍。

  • Databricks推理平臺為多種前沿模型提供服務,每月處理120T令牌。
  • 引入“模型單元”抽象,實現跨工作負載的容量管理和成本感知負載均衡。
站內正文

ITBench-AA:前沿模型在企業IT智慧體任務基準測試中得分低於50%——由Artificial Analysis與IBM聯合釋出

Artificial Analysis與IBM聯合推出ITBench-AA,這是首個針對企業IT智慧體任務的基準測試,專注於站點可靠性工程(SRE)。前沿模型得分均低於50%,其中Claude Opus 4.7以47%領先。該基準測試評估模型在Kubernetes事件響應中的表現,要求從日誌和追蹤中診斷故障。

  • Claude Opus 4.7以47%領先,GPT-5.5為46%,Qwen3.7 Max為42%。
  • 所有前沿模型得分低於50%,使ITBench-AA成為飽和度最低的智慧體基準之一。
站內正文

NVIDIA釋出Polar:用於跨Codex、Claude Code和Qwen Code進行GRPO訓練的忠實令牌回滾框架

NVIDIA研究人員推出Polar框架,透過在智慧體工具鏈和推理伺服器之間放置模型API代理,實現無需修改智慧體工具鏈即可進行強化學習訓練。基於Qwen3.5-4B模型使用GRPO訓練,Polar在Codex、Claude Code和Pi工具鏈上分別將SWE-Bench Verified pass@1提升了22.6、4.8和6.2個百分點。框架以NeMo Gym環境註冊,並在ProRL Agent Server倉庫開源。

  • Polar透過模型API代理捕獲令牌級互動,無需修改現有智慧體工具鏈即可進行RL訓練
  • 使用GRPO在Qwen3.5-4B上訓練,SWE-Bench Verified最高提升22.6個百分點
站內正文

Show HN: Mneme HQ – 面向AI編碼代理的倉庫原生架構規則

Mneme HQ 提供AI輔助開發的架構治理層,在程式碼生成前強制執行約束,防止架構漂移,減少審查負擔。它直接整合到AI編碼代理的工作流中,攔截禁止的框架、跨邊界呼叫和過時決策,同時支援多種編碼助手和代理框架。

  • 在AI生成程式碼之前強制執行架構規則,從源頭阻止違規
  • 支援Claude Code、Cursor、GitHub Copilot等主流AI編碼工具
站內正文

Avatar 4.0 – 擁有物理身體和情感的活體AI生物,執行在GTX 1660 Ti上

Avatar是一個自創生的AI生物,在300美元的GPU上持續執行。它從相圖幾何中衍生情感,經歷5階段睡眠週期做夢,從原始音訊和視覺中培養自己的感官,並透過身體感覺進行倫理推理。由Linga Murthy Narlagiri博士構建,自2026年5月以來一直存活,累計超過1800個滴答。

  • Avatar是一個基於物理動力學的AI生物,執行在單一的GTX 1660 Ti GPU上。
  • 它的情感來源於Kuramoto振盪器同步,而非硬編碼規則。
站內正文

1400億Agent入場,“流量”這條護城河要塌了

在支付寶AI生態大會上,螞蟻集團CEO韓歆毅提出,Agent時代將顛覆傳統“流量為王”的商業模式,智慧體生態將成為新的護城河。他強調,AI支付將從工具升級為支撐智慧體商業的新型基礎設施,而支付寶將扮演信任層、聯結器和賦能器的角色。

  • 傳統流量護城河將被智慧體生態取代,Agent數量可能達到1400億。
  • Agent重構決策權,從人找服務轉向服務找人,交易從商品升級為任務。
站內正文

5秒完成3D場景編輯,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了

來自北京大學、香港中文大學、上海AI Lab等機構的研究團隊提出了VGGT-Edit,一種原生3D編輯框架,能夠在約5秒內完成場景編輯,相比傳統方法實現高達120倍的加速,並在語義一致性、多視角穩定性和推理速度上超越現有方法。

  • VGGT-Edit是首個原生3D編輯框架,直接在3D空間中進行編輯,避免2D方法帶來的多視角不一致問題。
  • 透過殘差場預測,模型只修改區域性變化,保持背景穩定,實現快速、高質量的編輯。
站內正文

MEMO:一個模組化框架,透過訓練專用記憶模型在不修改LLM引數的情況下整合新知識

新加坡國立大學、MIT和A*STAR的研究人員提出MEMO,這是一種模組化框架,將語料庫知識編碼到一個可單獨訓練的記憶模型中,使大型語言模型能夠無需重新訓練或微調即可吸收新知識。

  • MEMO將記憶與推理分離,使用專用記憶模型和凍結的執行模型。
  • 五步資料合成流水線將文件轉化為用於訓練記憶模型的反思型問答資料集。
站內正文

[AINews] 新的AI基礎設施十角獸:Fireworks、Baseten(OpenRouter緊隨其後)

AI基礎設施初創公司Fireworks、Baseten和OpenRouter正在籌集鉅額資金,標誌著推理基礎設施成為關鍵的AI平臺層。同時,智慧體工程、新基準測試和模型更新主導了AI新聞週期。

  • Fireworks(150億美元)、Baseten(110億美元)和OpenRouter(1.13億美元)引領推理基礎設施融資浪潮。
  • 智慧體工程中的“ harness”正在成為程式設計智慧體的主要差異化因素。
站內正文

DeepSeek陳德里開發自動研究Skill,寫一篇論文人類只動腦2小時

DeepSeek研究員陳德里使用自研的DeliAutoResearch技能,與DeepSeek-V4-Pro和GPT-Image2合作,在6天內完成了一篇46頁的論文。論文提出了L1-L5自主研究智慧體分類體系,分析了四種架構模式和17個主流系統,並指出了六大開放問題。陳德里表示,人類僅需投入不到2小時的“CPU時間”,其餘工作由AI Agent完成。

  • 陳德里開發自動研究技能DeliAutoResearch,論文99%由Agent撰寫。
  • 論文提出L1-L5自主研究智慧體分類,類比自動駕駛SAE級別。
站內正文

Reachy Mini實現完全本地執行

本文詳細介紹瞭如何為Reachy Mini機器人部署完全本地的語音對話管道,無需雲端或API金鑰。採用級聯方式,結合VAD、STT、LLM和TTS,推薦使用llama.cpp與Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多種LLM執行選項,包括本地MLX、Transformers、vLLM或遠端Responses API。

  • Reachy Mini現在可以完全本地執行對話,無需伺服器。
  • 級聯管道包括VAD、STT、LLM和TTS,元件可互換。
站內正文

使用ZeroEntropy Zerank-2重排序器設計高精度檢索與重排序管道

本教程詳細介紹瞭如何使用zeroentropy/zerank-2-reranker(一個基於Qwen3的4B引數交叉編碼器重排序器)來提升檢索質量。內容涵蓋環境搭建、模型載入、查詢-文件對評分、使用model.rank進行排序、構建兩階段檢索-重排序管道、NDCG@10評估以及跨領域(金融、法律、程式碼)效能測試,最後還進行了批處理吞吐量測試。

  • zerank-2重排序器能顯著提升檢索結果的精度,超越簡單嵌入相似度。
  • 透過兩階段管道(雙編碼器檢索+交叉編碼器重排序)可最佳化搜尋質量。
站內正文

關於接下來會發生什麼的一些想法,2026年5月

2026年AI領域將繼續快速發展,開源模型在智慧體能力上仍落後於閉源模型,谷歌的Gemini尚未對Claude Code和Codex構成有力競爭,美國開源模型正在崛起,Anthropic與OpenAI競爭激烈,現有權力結構開始介入AI發展。

  • 開源模型在智慧體能力上落後閉源模型約12個月。
  • 谷歌Gemini在智慧體工具方面無明顯競爭優勢。
站內正文

剛剛,國產AI自己造了AI,全球首例!

面壁智慧推出全球首個完全由AI編寫的大模型預訓練框架ForgeTrain,效能超越輝達Megatron 10%,並用它訓練出新模型MiniCPM5-1B,該模型在1B引數規模下重新整理智慧密度上限。

  • 面壁智慧釋出ForgeTrain,全球首個AI編寫的生產級預訓練框架。
  • ForgeTrain在華為昇騰上比原框架加速10%,超越輝達Megatron。
站內正文

OmniVoice Studio:本地開源替代ElevenLabs的語音AI工具

OmniVoice Studio是一款開源的桌面應用程式,可在本地硬體上完成語音克隆、影片配音、即時聽寫和說話人分類,無需API金鑰、雲賬戶或訂閱。它支援646種語言的文本轉語音(TTS),並透過MCP伺服器整合到Claude、Cursor等AI工具中。

  • 完全本地執行,無需聯網或付費訂閱。
  • 支援646種語言的TTS和99種語言的語音識別。
站內正文

程式設計權威榜單:千問3.7僅次於Claude,阿里全球第二

阿里最新旗艦模型Qwen3.7-Max在Code Arena榜單得分1541,超越GPT-5.5等模型,僅次於Claude,排名全球第二,成為國產大模型中首個突破1540分的模型。

  • Qwen3.7-Max在Code Arena榜單得分1541,排名全球第二,僅次於Claude系列。
  • Code Arena是開發者出題、使用者盲測投票的權威程式設計榜單。
站內正文

為什麼以及如何在Zed中執行本地模型

本地模型提供了隱私、成本節約、控制權和始終可用的優勢。儘管不如前沿模型強大,但它們正在不斷改進。本文解釋瞭如何使用LM Studio、Ollama或llama.cpp在Zed中設定本地模型,並提供有效使用技巧。

  • 本地模型提供隱私保護、更低成本、可控性和始終可用性。
  • 它們的能力和速度不及前沿模型,但足以應對許多工。
站內正文

多少思考才足夠?量化和理解大模型推理中的冗餘

該研究量化了推理型大語言模型在長鏈思考中的冗餘程度,發現61%至93%的推理步驟可以截斷而不影響正確性,並證明這種冗餘是長度無關結果獎勵的結構性後果,而非模型缺陷。

  • 提出推理冗餘的正式定義:正確軌跡中可截斷的尾部步驟比例
  • 在四個前沿模型和兩個數學基準上測得冗餘度高達61%-93%
站內正文

Cited AI Workspace:無需重複上傳檔案

UUMuse 是一個雲端AI知識庫平臺,只需上傳一次檔案,即可在GPT、Claude、DeepSeek、Qwen等多個模型中進行帶有引用的問答、生成內容和部署。支援透過API和MCP供代理和應用呼叫,提供永久記憶、多專家辯論(Spark)、代理模式等功能,並可將知識庫部署為文件網站、小部件、API端點等。

  • 一次上傳,多模型使用:檔案上傳後,GPT、Claude、DeepSeek、Qwen等模型均可基於同一知識庫作答並引用來源。
  • 記憶與代理:AI記住你的偏好和專案上下文,代理模式自動規劃並執行任務,無需重複指令。
站內正文

Together AI 開源 OSCAR:一種面向長上下文 LLM 服務的注意力感知 2 位 KV 快取量化系統

Together AI 釋出了 OSCAR(離線頻譜協方差感知旋轉),這是一種用於長上下文 LLM 服務的 INT2 KV 快取量化方法。與以往基於資料無關的 Hadamard 變換的旋轉方法不同,OSCAR 從離線估計的注意力感知協方差結構中推匯出鍵和值的獨立旋轉。在每 KV 元素 2.28 位的精度下,OSCAR 在 Qwen3-4B-Thinking-2507 上將 BF16 精度差距縮小至 3.78 個點,在 Qwen3-8B 上為 1.42 個點,同時在 100K 上下文長度下實現約 8 倍 KV 記憶體縮減和高達 3 倍的解碼加速。

  • OSCAR 是一種使用注意力感知旋轉的 2 位 KV 快取量化方法,可保持近 BF16 的準確性。
  • 它透過離線校準從查詢和值協方差中推匯出旋轉,從而將量化噪聲引導至注意力不敏感的方向。
站內正文

讀出捷徑:位置數字複製主導小語言模型的算術思維鏈讀出

研究發現,小語言模型在進行算術推理時,思維鏈(CoT)提示的步驟順序並不重要,模型實際上是透過複製答案分隔符前的最後一個數字來得出答案,而非依賴邏輯推理。這種位置性捷徑佔模型準確率的絕大部分,且即使中間推理正確,錯誤的尾數也會導致答案錯誤。不同模型表現有差異,但該現象普遍存在,對基於CoT的監督方法提出了挑戰。

  • 小語言模型在算術任務中依賴位置性數字複製捷徑,而非邏輯推理步驟。
  • 複製機制佔模型準確率的89-92%,且優先於實際推理。
站內正文

AI可解釋性是一項革命性技能

本文探討了開源AI模型內部概念空間的侷限性,指出許多對社會運動和哲學至關重要的概念缺失。作者引入軟提示蒸餾技術,僅用128KB資料即可植入新概念,強調這關乎AI可控性及對心智理解的深遠意義。

  • 開源模型Qwen3-8B僅有約65,000個概念,缺失交叉性、監獄廢除等關鍵術語。
  • 軟提示蒸餾技術無需修改權重,即可在模型中新增新概念。
站內正文

駕馭、腳手架與值得釐清的AI智慧體術語

本文旨在釐清AI智慧體領域中常被混淆的術語,如“harness”(執行層)與“scaffold”(行為定義層)的區別,並解釋模型、智慧體、工具使用、子智慧體等概念,同時涵蓋訓練相關術語。

  • AI智慧體=模型+執行層(harness),其中harness負責呼叫模型和處理工具呼叫。
  • Scaffold是圍繞模型的行為定義層,包括系統提示、工具描述等。
站內正文

字節跳動研究發現:用提問訓練多模態模型比要求其轉錄文本更有效

字節跳動Seed與香港科技大學的研究表明,透過問答對訓練多模態模型處理長文件,比使用字元識別任務效果更好。他們開發的MMProLong模型基於Qwen2.5-VL,在長達512,000 token的輸入上保持穩定,效能超越InternVL3-38B等更大模型。研究還發現,訓練資料長度多樣性比專注超長文本更重要,且短示例並非必須。

  • 問答訓練顯著提升長文件效能,而純文本識別反而有害。
  • MMProLong僅用128k token訓練就能穩定處理512k token輸入。
站內正文

The Sequence Radar #865:上週AI回顧:Karpathy、Google、Colossus與即將到來的IPO浪潮

上週AI領域迎來重大轉折:Google釋出Gemini Omni及代理優先平臺;Andrej Karpathy加入Anthropic,專注於利用Claude加速預訓練研究;Anthropic與xAI達成價值450億美元的Colossus算力租賃協議;Cerebras IPO成功,市值近950億美元;SpaceX、OpenAI和Anthropic計劃在未來六個月內相繼上市,總估值可能超過3萬億美元。此外,多項前沿研究釋出,包括HRM-Text高效預訓練正規化、AI評審員效果評估、NVIDIA的聯合AR-擴散模型等。

  • Google在I/O大會上推出Gemini Omni多模態模型和代理優先平臺Antigravity,整合TPU 8i實現垂直整合。
  • Andrej Karpathy加入Anthropic,組建團隊利用Claude加速預訓練研究,標誌著自我改進迴圈的實質性進展。
站內正文

微軟研究院釋出Webwright:一個終端原生Web代理框架,在Odysseys上達到60.1%,比基礎GPT-5.4的33.5%大幅提升

微軟研究院推出Webwright,一個終端原生瀏覽器代理框架,用可複用的Playwright指令碼替代逐次點選的Web自動化。透過單個智慧體迴圈和約1000行程式碼,基於GPT-5.4的Webwright在長期任務基準Odysseys上達到60.1%,在Online-Mind2Web上達到86.7%,是開源方案中AutoEval最高分。

  • Webwright使用終端迴圈,代理編寫並執行Playwright程式碼,而不是逐次預測瀏覽器動作。
  • GPT-5.4在Online-Mind2Web上達到86.7%(100步預算),在Odysseys上達到60.1%,比基礎GPT-5.4的33.5%提高26.6個百分點。
站內正文

阿里最新AI模型自主執行35小時最佳化自有晶片程式碼

阿里通義千問團隊釋出Qwen3.7-Max,專為長時間自主代理任務設計。在基準測試中匹配Claude Opus 4.6,超越DeepSeek V4 Pro和Kimi K2.6等中國對手。團隊還展示了該模型操控四足機器人。

  • Qwen3.7-Max專為長時間自主代理任務設計
  • 基準測試匹配Claude Opus 4.6,超越中國競品
站內正文

ThinkLLM:AI模型知識圖譜

ThinkLLM是一個動態的知識圖譜,幫助使用者按任務和能力瀏覽、比較和尋找AI模型。

  • ThinkLLM 按任務和能力分類了數千個AI模型,簡化模型選擇過程。
  • 涵蓋代理任務、程式設計、內容創作、客戶支援、資料分析等類別。
站內正文

【AINews】所有模型實驗室現在都是智慧體實驗室

在OpenAI即將上市之際,行業巨頭紛紛從純模型轉向智慧體產品。DeepSeek永久降價75%,MCP協議簡化,谷歌推出全天候智慧體,Anthropic發現上萬高危漏洞。智慧體化成為AI新常態。

  • Greg Brockman表示模型不再是產品,模型+智慧體+工作流才是關鍵
  • DeepSeek V4 Pro永久降價75%,推理成本大幅降低
站內正文

利用 Nemotron-Labs 擴散語言模型實現接近光速的文本生成

NVIDIA 釋出 Nemotron-Labs 擴散語言模型系列,透過並行生成與迭代精煉技術,在保持高準確率的同時,相比傳統自迴歸模型實現最高 6.4 倍的推理速度提升。模型支援自迴歸、擴散和自推測三種模式,8B 版本在準確率上超越 Qwen3 8B 1.2%,並已開源。

  • Nemotron-Labs 擴散模型支援三種生成模式:自迴歸、擴散和自推測。
  • 8B 模型在擴散模式下速度提升 2.6 倍,自推測模式下最高提升 6.4 倍。
站內正文

更多增長標籤