谷歌與FBI首次聯合起訴中國AI詐騙網路,OpenAI封禁涉華影響力叢集 2026-06-12 谷歌和OpenAI幾乎同時揭露了據稱源自中國的利用AI進行欺詐和隱秘影響力活動的行動。谷歌起訴了一個名為“Outsider Enterprise”的中國網路犯罪團伙,該團伙利用其AI系統Gemini針對數十萬美國人進行金融詐騙。同時,OpenAI封禁了兩個據稱位於中國的ChatGPT叢集,這些叢集試圖操縱美國科技政策辯論。
谷歌與FBI合作起訴中國犯罪網路,稱其利用Gemini生成虛假網站和訊息進行詐騙。 OpenAI封禁兩個叢集,分別針對AI資料中心擴張和貿易政策進行影響力操作。 Moonshot AI釋出Kimi Work:本地桌面代理執行於Kimi K2.6,擁有300個子代理的代理群 2026-06-12 Kimi Work是Moonshot AI推出的本地桌面AI代理,支援macOS和Windows。它能在使用者本地執行多達300個子代理的代理群,透過WebBridge控制已登入的瀏覽器,並內建定時任務引擎。基於Moonshot的旗艦模型Kimi K2.6(混合專家模型,啟用引數約320億,上下文視窗256K),它可讀取本地檔案、執行Python指令碼、生成報告和幻燈片。與雲端代理不同,它直接在使用者桌面上執行操作,保證資料本地化。
Kimi Work是本地桌面代理,而非雲端工具,可直接訪問使用者本地檔案和瀏覽器會話。 支援最多300個子代理並行工作,協調完成複雜任務。 Pythagoras-Prover: 透過增強型Lean形式化推進高效形式化證明 2026-06-12 Pythagoras-Prover是一個計算高效的Lean定理證明器家族,包含4B和32B的自迴歸模型以及4B的擴散模型。它透過分層課程SFT和動態證明過濾提高訓練效率,並引入增強型Lean形式化(ALF)擴充套件驗證語料庫。實驗顯示,4B模型在MiniF2F-Test上以86.1%的pass@32超越DeepSeek-Prover-V2-671B(82.4%),而32B模型達到93.0%的新開源最佳水平,並在PutnamBench上解決93個問題。
Pythagoras-Prover包含4B和32B自迴歸模型及4B擴散模型,擴散模型在推理時迭代細化證明。 透過分層課程SFT和動態證明過濾實現訓練效率提升,保持8k token上下文預算。 構建巴基斯坦通知助手:一款針對本地安全問題的簡易AI工具 2026-06-08 作者為Hugging Face的Build Small駭客馬拉松開發了一款專注於巴基斯坦本地安全問題的AI工具——巴基斯坦通知助手。該工具使用小模型(Qwen3.5 4B)分析可疑訊息,提供風險標籤、解釋和下一步安全建議,支援英文和烏爾都語(包括從右到左的佈局)。文章詳細分享了模型選型、技術棧、使用者介面設計以及使用Codex加速開發的經驗。
巴基斯坦通知助手是一款針對巴基斯坦本地詐騙訊息的AI安全工具,支援文本和截圖分析。 最終採用Qwen3.5 4B Q8模型(透過llama.cpp),在評估中所有高風險詐騙案例和截圖案例均透過。 Moonshot AI尋求300億美元估值,是2025年底估值六倍以上 2026-06-08 Moonshot AI,Kimi聊天機器人的中國開發商,正在新一輪融資中尋求高達300億美元的估值,這將是其2025年底估值的六倍以上。
Moonshot AI目標估值300億美元。 是2025年底估值的六倍多。 Seedream 5.0 影像與影片——一站式AI創作平臺 2026-06-08 字節跳動旗艦AI影像模型Seedream整合Kling 2.1影片動畫,提供從文本到影像再到影片的完整創作流程。支援四種版本一鍵切換,免費試用,定價靈活,適用於電商、社交媒體等場景。
整合Seedream 4.5/5.0/5.0 Lite/4.0四種版本,可自由切換 影像生成後一鍵透過Kling 2.1轉化為5-15秒影片 美國人工智慧的OnlyFans經濟 2026-06-07 本文尖刻批評了美國AI行業的現狀,將之稱為“OnlyFans經濟”,指責Anthropic和OpenAI等公司過度炒作、定價高昂且充滿虛偽。作者對比中國模型Qwen 3.7 Max,認為其在實用性和價效比上全面超越美國前沿模型,並呼籲開發者根據實際需求理性選擇,避免為品牌溢價付費。文章還警告了盲目追捧帶來的估值泡沫可能對普通投資者造成傷害。
作者批評美國AI公司(尤其是Anthropic和OpenAI)的虛偽和傲慢,認為其存在雙重標準。 中國開源模型Qwen 3.7 Max在效能和成本上優於美國前沿模型,成為更具價效比的選擇。 展示 HN:為 5090 找到的最佳本地 LLM 設定(llama.cpp 分支 + turboquant) 2026-06-07 本文詳細介紹瞭如何在單張 32GB VRAM 的 RTX 5090 顯示卡上,透過 llama.cpp 的 TurboQuant 分支和 YaRN 縮放技術,執行 Qwen 3.6 35B MoE 模型並實現 450K token 的上下文視窗。內容涵蓋模型選擇、量化權衡、記憶體預算校準、KV 快取量化、RoPE 縮放、多模態設定、實際複製指南、VRAM 生命週期管理以及效能評估。
使用 Qwen3.6-35B-A3B-Q6_K 模型,結合 llama.cpp 的 TurboQuant 分支,在 RTX 5090 上實現 450K 上下文。 透過 3-bit KV 快取量化(turbo3)和 YaRN 縮放將上下文從 262K 擴充套件到 450K,但會帶來困惑度損失和檢索精度下降。 五個實驗室,五個思維:用小型模型構建多模型金融戲劇 2026-06-06 本文介紹了《千令牌之林》v2版本,這是一個基於多個小型語言模型的多智慧體經濟模擬遊戲。玩家扮演隱匿的金融家,透過借貸、提供內幕訊息(真假皆有)、做空和賄賂來影響市場,而每個智慧體(動物角色)使用來自不同實驗室的小型模型(GPT-OSS-20B、MiniCPM3-4B、Nemotron-Mini-4B和微調Qwen 0.5B)。文章詳細討論了異構模型整合的技術挑戰(如vLLM服務層、CUDA工具鏈)、資訊不對稱的防火牆設計、記憶管理(採用有界摘要而非完整歷史)以及實驗結果(真相防火牆零洩露、內幕訊息優勢、微調模型高可靠性)。最終結論是:小型模型是可靠的格式生成器但推理不可靠,異構模型群體更有趣且配置成本低,秘密資訊必須透過資料流防火牆保護,持久記憶需有界以保持模型專注。
每個智慧體使用不同實驗室的小型模型,異構性使市場行為更真實 資訊不對稱透過防火牆設計實現,測試證明內幕訊息的隱藏標誌從未洩露 職位搜尋器:AI驅動的求職助手 2026-06-06 職位搜尋器是一款為應屆畢業生設計的AI工具,透過分析簡歷自動生成LinkedIn搜尋查詢,並基於技能、經驗、教育、行業和資歷五個維度對職位進行評分。該專案使用DeepSeek V4 Pro作為教師模型生成標籤,Qwen3-8B作為學生模型進行推理,訓練資料包括2500份簡歷和約10000個職位。所有程式碼、資料集和模型均已開源。
自動簡歷分析並生成LinkedIn搜尋查詢 基於五個維度的職位匹配評分 新型開源語音模型持續監聽,每0.4秒決定是否說話或保持沉默 2026-06-06 與GPT-4o或Qwen3.5-Omni不同,Audio Interaction無需等待錄音結束:它能在單一流中翻譯、轉錄、聊天並識別咳嗽等日常噪音。程式碼、模型權重和下載說明已在GitHub上以Apache 2.0開源許可釋出,訓練資料將後續提供。
Audio Interaction模型能夠持續監聽音訊流,每0.4秒做出決策。 該模型支援翻譯、轉錄、對話以及環境噪音識別。 千符森林:在3B模型上執行多智慧體經濟 2026-06-05 一篇關於在Build Small Hackathon中構建的微型多智慧體經濟模擬的現場報告,使用Qwen2.5-3B模型驅動五個林間生物進行貿易、囤積和恐慌。文章探討了小型模型在即時模擬中的可行性、設計稀缺性的必要性以及如何透過提示工程彌補模型推理能力的不足。
使用3B引數模型實現了多智慧體經濟的即時模擬,證明了小型模型在特定場景下的實用性。 透過設計食物多樣性、易腐性和冬季燃料危機等機制,引入了稀缺性,使經濟活動得以持續。 面向電信客服的小語言模型引數高效微調:基於LoRA配置與能耗分析的比較研究 2026-06-05 該論文系統研究了使用低秩適應(LoRA)對Qwen2.5-3B進行引數高效微調,以構建電信客服領域的專用對話助手。研究引入了組合式合成資料生成方法,評估了16種LoRA配置,揭示了定量驗證損失與定性人工對齊排名之間的差異,並提供了能耗-效能權衡分析。
使用52個行業術語的組合式合成資料生成方法,生成了約30,000個訓練樣本,覆蓋1,560個不同問題場景。 對16種LoRA配置的評估顯示,最低驗證損失(0.5024)在定性評估中僅排第6-7位,而最高損失(0.6807)被兩位評判者均評為第一。 透過基於方差感知的評分獎勵與GRPO改進LLMs中專注於心髒的醫學問答 2026-06-05 本研究提出了一種採用組相對策略最佳化(GRPO)結合方差感知獎勵框架的方法,用於後訓練大型語言模型(LLMs)以提升其在心臟相關醫學問答中的表現。該方法將傳統的二元標準聚合和整體Likert評分替換為連續分析獎勵函式,從而提供更豐富的最佳化訊號。在HealthBench的心臟子集上,最佳變體相對於Qwen3-14B基礎模型將準確率從0.362提升至0.502,F1從0.532提升至0.668,效能與GPT-OSS-120B相當。
提出方差感知獎勵框架,利用GRPO對LLMs進行後訓練,專注於心髒醫學問答。 用連續分析獎勵函式取代二元標準聚合和整體Likert評分,增強最佳化訊號。 大型語言模型中的時間偏好概念及其功能 2026-06-05 研究人員在一款蒸餾版大型語言模型(Qwen3-4B-Instruct-2507)中定位了負責時間偏好的神經子圖,發現模型對未來折扣的程度遠低於人類,且這種偏好在不同上下文中不穩定,而透過引導向量可以調節時間偏好。
在模型的中高層節點定位了時間偏好子圖 時間偏好的幾何結構編碼在殘差流中 DeepSWE 結果不可靠——同一模型解決了全部 3/3 個“失敗”任務 2026-06-04 對 DeepSWE 基準測試的審計發現,deepseek-v4-pro 的報告結果(8% 解決率,平均成本 4.22 美元)存在多個問題:成本因忽略快取定價膨脹約 5 倍,所有三個失敗任務均被同一模型成功解決,OpenRouter 隱私設定預設阻止 DeepSeek 導致 404 錯誤,且模型未像競品一樣進行推理努力調優。
成本膨脹約 5 倍:基準測試對所有輸入令牌按快取未命中率計費,忽略 78% 的快取命中(99.2% 折扣)。 三個“失敗”任務全部解決:使用相同模型 deepseek-v4-pro,總成本約 0.86 美元。 SMAC-Talk: 面向大語言模型的星際爭霸多智慧體挑戰的自然語言擴充套件 2026-06-04 SMAC-Talk 是星際爭霸多智慧體挑戰(SMAC)的自然語言擴充套件,專為評估基於大語言模型(LLM)的智慧體在協作多智慧體環境中的表現而設計。該環境保留了分散控制、部分可觀測性和長期決策等關鍵特性,並新增了一個自然語言通訊通道,用於探測智慧體的協調與信任。研究設定了包含欺騙性通訊者的場景,並使用 Qwen3.5 系列中的四個模型進行了基準測試,考察了推理結構、記憶和模型規模對協調的影響。SMAC-Talk 已作為開放基準釋出。
SMAC-Talk 擴充套件了星際爭霸多智慧體挑戰,引入自然語言通訊通道以評估 LLM 智慧體的協調能力。 環境支援分散控制、部分可觀測性和長期決策,幷包含欺騙性通訊者場景以測試魯棒性。 使用SFT和DPO在Amazon SageMaker AI上提高智慧體的工具呼叫準確性 2026-06-03 本文介紹瞭如何結合監督微調(SFT)和直接偏好最佳化(DPO)來提升小型語言模型(SLM)的工具呼叫準確性。示例使用Amazon SageMaker AI訓練作業,並基於Qwen3 1.7B模型和When2Call資料集進行微調。文章還涵蓋了環境設定、資料準備、訓練與評估過程。
監督微調(SFT)和直接偏好最佳化(DPO)結合可有效提升智慧體工具呼叫準確性。 使用Amazon SageMaker AI訓練作業,無需管理基礎設施。 Qwen 3.7 Plus:阿里巴巴的高智慧但昂貴且緩慢的模型 2026-06-03 Qwen 3.7 Plus 是阿里巴巴於2026年6月釋出的專有推理模型,在人工智慧分析智慧指數上得分53,遠超平均水平。然而,它的價格昂貴,速度較慢,且非常冗長。該模型支援文本、影像和影片輸入,上下文視窗達100萬token。
智慧得分53,遠超同類模型平均水平(23)。 輸入價格每百萬token 0.40美元,輸出價格1.16美元,屬於昂貴區間。 DigitalOcean 成為 OpenRouter AI 模型提供商 2026-06-03 DigitalOcean 宣佈成為 OpenRouter 的模型提供商,提供 DeepSeek V3.2、Kimi K2.6 和 DeepSeek V4 Flash 模型。此舉表明該公司正從雲基礎設施擴充套件到 AI 推理領域。
DigitalOcean 在 X 上宣佈成為 OpenRouter 的模型提供商 首批模型包括 DeepSeek V3.2、Kimi K2.6 和 DeepSeek V4 Flash 線性探針檢測到的是任務格式,而非語言模型隱藏狀態中的推理模式 2026-06-03 一項針對Qwen3-14B隱藏狀態的探測研究表明,線性探針在分類推理型別(演繹、歸納、溯因)時達到了100%的準確率,但實際上檢測的是任務格式混淆因素(如來源、選項數量、響應長度),而非真正的推理模式。消除混淆後,準確率降至隨機水平,因果乾預實驗也未發現功能關聯。研究結果呼籲在機械可解釋性中進行常規的任務格式去混淆。
線性探針可100%準確區分LLM隱藏狀態中的推理型別。 控制任務格式混淆因素(如來源、選項數)後,準確率降至隨機水平。 Dropstone 1.5:每月15美元,兩倍於Claude Code的使用量 2026-06-03 Dropstone 1.5 是一款終端中的AI程式設計代理,每月重新評估頂級模型並切換至最佳者。當前基於DeepSeek和Kimi模型,美國伺服器託管,不儲存資料。每月15美元提供約450次深度程式設計會話,約為Claude Code Pro的兩倍(後者20美元)。注重安全,所有操作需確認。
每月15美元,約450次深度程式設計會話,是Claude Code Pro的兩倍。 使用DeepSeek V4 Flash、V4 Pro和Kimi K2.6模型,美國伺服器託管。 阿里Qwen團隊推出Qwen3.7-Plus:在百鍊平臺新增視覺、深度推理、工具呼叫和自主迭代能力 2026-06-02 阿里雲Qwen團隊釋出了Qwen3.7-Plus,這是一款多模態大語言模型,支援影像和影片理解,並具備深度推理、自程式設計、工具呼叫、驗證測試和自主迭代等智慧體功能。該模型現已在百鍊平臺(國際版稱Model Studio)提供API服務。其預覽版在Vision Arena中排名第16,使阿里巴巴在視覺領域實驗室中位列第5。
Qwen3.7-Plus是阿里雲百鍊平臺上的多模態智慧體模型,支援影像和影片理解。 新增五大智慧體能力:深度推理、自程式設計、工具呼叫、驗證測試和自主迭代。 歐盟將加入美國主導的晶片聯盟“Pax Silica”以對抗中國AI競賽 2026-06-02 歐盟將加入由華盛頓主導的“Pax Silica”倡議,該倡議旨在協調出口管制和先進晶片的共同投資,以遏制中國在人工智慧等領域的技術崛起。
歐盟將加入美國領導的晶片聯盟Pax Silica。 該聯盟旨在協調出口管制和晶片投資,限制中國AI發展。 SENSE:基於語義嵌入導航與軟門控評估的檢索式推測解碼方法 2026-06-02 提出SENSE方法,透過基於目標模型隱藏狀態的語義檢索和軟門控評估,提升檢索式推測解碼的魯棒性和效率,在LLaMA和Qwen上實現高達4.09的平均接受長度和3.26倍加速。
SENSE利用目標模型隱藏狀態進行語義檢索,取代傳統基於詞彙的檢索。 引入軟門控評估模組,驗證語義等價性而非表面形式。 [AINews] NVIDIA Cosmos 3, Nemotron 3 Ultra 和 RTX Spark 2026-06-02 NVIDIA 釋出了 Cosmos 3 統一多模態世界模型、Nemotron 3 Ultra 高效 LLM 和 RTX Spark 個人 AI 超級晶片。同時,MiniMax M3、Qwen3.7-Plus 和 JetBrains Mellum2 等開放模型推動智慧體領域發展。
NVIDIA 推出 Cosmos 3,採用 Mixture-of-Transformers 架構,統一語言、影像、影片、音訊和動作。 Nemotron 3 Ultra 為 550B 引數開放權重模型,成為美國最新 SOTA,速度快至 300+ tok/s。 高效推理服務MiniMax-M3:解鎖百萬Token上下文與多模態能力,毫無遺憾 2026-06-02 Together AI 透過KV塊主稀疏注意力、分頁MSA解碼、最佳化索引評分核心以及基於Rust的多模態預處理閘道器等創新,實現了對MiniMax M3模型的高效服務,在不同併發級別下吞吐量提升81%–125%。
MiniMax M3 是一款整合編碼、智慧體工作流和多模態推理的全能模型,支援1M上下文視窗。 Together AI 的推理和核心團隊實現了多項工程突破,包括KV塊主稀疏注意力核心和分頁注意力整合。 MiniMax 釋出 M3 模型:採用 MSA 架構,支援 100 萬 Token 上下文、原生多模態與智慧程式設計 2026-06-01 MiniMax 於 2026 年 6 月 1 日正式釋出 M3 模型,引入 MiniMax 稀疏注意力(MSA)架構,支援 100 萬 Token 上下文視窗、原生影像/影片輸入及桌面操作,API 已上線。
M3 採用 MSA 稀疏注意力架構,在 100 萬 Token 上下文下,預填充速度提升 9 倍以上,解碼速度提升 15 倍以上。 SWE-Bench Pro 得分 59.0%,超越 GPT-5.5 和 Gemini 3.1 Pro。 MiniMax M3:擁有百萬token上下文視窗的開源模型挑戰專有領導者 2026-06-01 中國AI公司MiniMax釋出了其新模型M3,號稱是首個結合頂尖編碼效能、百萬token上下文視窗和原生多模態能力的開源模型。
MiniMax釋出M3模型,是首個結合頂級編碼、百萬token上下文和原生多模態的開源模型。 該模型旨在挑戰專有模型在效能上的領先地位。 MiniMax推出專為長複雜程式設計任務設計的AI模型 2026-06-01 中國人工智慧初創公司MiniMax釋出了其最新旗艦AI模型M3,該模型專為編碼代理和自動化工作流設計,能夠處理高達100萬令牌的資料,計算需求降至原來的二十分之一,並在程式設計基準測試中擊敗了OpenAI GPT-5.5和Google Gemini 3.1 Pro。公司還啟動了科創板IPO準備,並與螞蟻集團支付寶合作以拓展AI支付基礎設施。
MiniMax釋出新模型M3,支援100萬令牌上下文,計算成本降低至二十分之一。 M3在SWE-Bench Pro基準測試中優於OpenAI GPT-5.5和Google Gemini 3.1 Pro。 Token貴只因你餵給模型的垃圾太多了丨@亞馬遜王曉野AIGC2026 2026-06-01 亞馬遜雲科技技術總監王曉野在2026中國AIGC產業峰會上指出,87%的企業宣稱大規模部署AI,但僅10%獲得實際價值。他強調了個人與企業級Agent落地的巨大差異,提出企業需要關注算力、模型、資料、Agentic平臺和應用五層能力,並指出Token貴往往是因為餵給模型過多無用資訊。
87%企業部署AI但僅10%獲得價值 個人與企業級Agent落地是兩回事 PhyDrawGen:從自然語言生成符合物理規律的圖表 2026-06-01 PhyDrawGen是一種神經符號管道,可從文本生成物理圖,嚴格遵循物理定律。它先由大語言模型提取場景圖,再由確定性求解器轉換為平面直線圖,最後透過微調Qwen-VL模型進行驗證。在1449個物理問題基準測試中,其物理準確性顯著優於GPT-5-image等模型。
PhyDrawGen將大語言模型、確定性求解器和視覺模型結合,確保物理圖準確。 它有效避免了力向量幻覺和違反守恆定律等問題。 別光給Agent加Tool了,它根本選不明白!復旦×通義提出全新CUA訓練正規化 2026-05-31 復旦大學和通義實驗室聯合提出ToolCUA,解決混合GUI-Tool動作空間中的路徑選擇難題。ToolCUA-8B在OSWorld-MCP上達到46.85%準確率,超過Claude-4-Sonnet。透過兩階段訓練(資料合成與線上強化學習),模型學會何時使用GUI或工具,顯著提升任務成功率與效率。
混合GUI-Tool動作空間導致模型路徑困惑,準確率不升反降 ToolCUA提出兩階段訓練:先合成交錯軌跡資料,再透過線上強化學習最佳化路徑選擇 為什麼中國AI實驗室選擇開源並將繼續開源 2026-05-31 文章指出中國AI實驗室開源模型並非出於國家戰略,而是商業策略,旨在透過開源獲得全球關注和信任。以DJI和Insta360為例,它們在YouTube上的營銷成功證明了市場推廣的重要性。中國AI實驗室缺乏國際營銷能力,因此開源成為他們進入全球對話的唯一途徑。未來,開源模型將繼續釋出,並可能涉及定製化標準。
中國AI實驗室開源是為了獲得全球關注和信任,而非政府推動。 它們缺乏國際營銷團隊,開源成為進入全球對話的唯一方式。 AI原生時代下,讓世界適應Agent,而非教AI做人 | 港大黃超@AIGC2026 2026-05-31 港大助理教授黃超在2026中國AIGC產業峰會上提出,Agent時代應重新設計數字世界基礎設施,讓軟體直接說AI語言(CLI),而非讓AI模仿人類介面。其團隊開源的輕量級Agent nanobot已獲20萬下載,並展示了CLI-Anything等創新,強調Agent自進化應採用技能積累的外部進化模式。
黃超認為應重新設計數字世界為Agent最佳化,而非讓Agent適應人類工具。 開源通用Agent nanobot,連續100天迭代,下載量超20萬。 從Token無上限到全員Agent:MiniMax的AI Native組織進化實踐 2026-05-31 MiniMax是一家專注多模態模型的AI創業公司,於2026年1月港股上市。公司堅持大模型與應用並行、ToC和ToB並重。內部實踐中,全員不限量使用Token,利用Agent自動化工作流,從高價值但不受歡迎的場景切入,顯著提升效率並推動組織扁平化。未來2-3年AI將與各行業深度融合。
MiniMax從創立起致力於下一代AI,強調Intelligence with Everyone,堅持大模型與應用、ToC與ToB雙輪驅動。 內部實踐:全員無上限Token、Agent參與HR篩選與程式碼生成、組織扁平化,研發效率提升30%。 輝達稱已基本將中國AI晶片市場讓給華為 2026-05-30 輝達CEO黃仁勳表示,由於美國出口限制,公司已基本將中國AI晶片市場讓給華為。儘管季度業績強勁,但輝達在中國的銷售前景有限。
輝達因美國出口管制向華為退讓中國AI晶片市場。 輝達一季度營收增長85%至816.2億美元,宣佈800億美元回購。 利用IBM量子取樣迴圈調優僅CPU的Qwen3-30B推理 2026-05-30 一個研究專案展示了在2017年MacBook Air上,透過結合人類實驗者、Codex、llama.cpp、本地資料庫和IBM量子處理器取樣,將Qwen3-30B模型的推理速度從0.09 tokens/sec提升至14.03 tokens/sec,同時保持輸出連貫性。該方法並非在量子處理器上執行模型,而是用量子取樣最佳化推理配置。
在8GB記憶體的2017年MacBook Air上,無GPU執行Qwen3-30B模型 透過人機協同量子最佳化迴圈,速度從0.09 tok/s提升到14.03 tok/s 新綜述論文:程式碼不僅是AI智慧體的產物,更是其思考與行動的方式 2026-05-29 一篇新綜述論文指出,自主AI智慧體的真正瓶頸並非語言模型本身,而是圍繞其構建的軟體層。工具、記憶、測試和許可權邊界將無狀態模型轉變為可工作的智慧體。Deepseek已在北京組建專門的“Harness”團隊,其核心公式驗證了該論點:模型加Harness等於AI智慧體。
論文強調AI智慧體的瓶頸在於軟體封裝層,而非語言模型。 工具、記憶、測試和許可權管理是將模型轉化為智慧體的關鍵。 PPIO入選非凡產研「2026 Global AI 100」,以AI實力領跑出海新浪潮 2026-05-29 PPIO 入選非凡產研發布的「2026 Global AI 100」榜單,該榜單由非凡大賞年度 AI 全球化增長峰會評選,旨在發掘全球化 AI 原生公司。PPIO 以全球化分散式算力基礎設施、全棧雲服務、模型平臺(支援 DeepSeek、GLM 等)及 Agent 沙箱等創新產品,為出海企業提供低時延、高可用的算力網路。截至 2026 年 4 月,PPIO 整合全球 4800+ 節點,日均 Token 呼叫量超 10000 億,開發者使用者超 57 萬。同時獲評上海市數字出海服務平臺試點單位及 GDA 領航服務站。
PPIO 入選「2026 Global AI 100」榜單,彰顯其在 AI 出海領域的領先地位。 提供全球化分散式算力基礎設施,覆蓋 GPU 全型號,支援大規模訓練與推理。 開源安全護欄模型基準測試:一項全面評估 2026-05-29 一項針對14個開源安全護欄模型的全面評估顯示,Qwen Guard(4B引數)以83.97%的召回率位居榜首,而更大的模型如Llama Guard(12B)和GPT-OSS Safeguard(20B)表現保守,漏掉多達75%的不安全內容。研究還發現,模型大小與安全檢測效能無關,通用型護欄模型優於專用模型。
Qwen Guard(4B引數)在79,331個樣本的基準測試中召回率最高(83.97%)。 Llama Guard(12B)和GPT-OSS Safeguard(20B)等大型模型漏掉75%的不安全內容。 RightNow-Arabic-0.5B-Turbo:透過詞彙注入和邊緣優先部署的開源子10億阿拉伯語語言模型 2026-05-29 本文介紹了一個518M引數的阿拉伯語專用大型語言模型RightNow-Arabic-0.5B-Turbo,基於Qwen2.5-0.5B構建。透過詞彙注入和邊緣優先部署,該模型在阿拉伯語基準測試中達到35.9%的平均準確率,超越了同類開源模型,並在COPA-ar上與1.5B引數量的Falcon-H1-1.5B持平,而體積僅為後者的三分之一。量化後模型僅398 MB,在單塊H100上可實現635 tokens/s的推理速度。所有程式碼和權重均已開源。
基於Qwen2.5-0.5B構建的518M引數阿拉伯語專用LLM,透過詞彙注入增加27,032個阿拉伯語token。 在COPA-ar、Arabic HellaSwag和ArabicMMLU三項基準上平均準確率35.9%,領先所有同類開源模型。 災難性遺忘的機制起源:為何RL比SFT更善於保留電路? 2026-05-29 最近研究表明,強化學習(RL)比監督微調(SFT)更能保持大語言模型的先前能力。本文從機制層面延伸,引入差分電路脆弱性度量,衡量微調中電路退化程度。在Qwen2.5-3B-Instruct科學問答實驗中發現,SFT適應目標任務更快,但造成更大的電路破壞和遺忘,而RL保留更多基礎電路,但任務適應較慢。結果表明電路保留有助於解釋RL對災難性遺忘的魯棒性。
SFT適應快但破壞內部電路,導致災難性遺忘。 RL保留更多基礎模型電路,遺忘較少但任務適應較慢。 AI正在重寫軟體行業?8歲孩子做作業系統,一人公司拿下千萬訂單 2026-05-28 百度秒噠產品總經理朱廣翔在2026中國AIGC產業峰會上分享,AI將程式設計門檻從寫程式碼降低到聊天,87%不懂程式碼的使用者透過秒噠建立應用。8歲小孩做出作業系統,一人公司(OPC)靠專案經理拿下千萬訂單,石油工程師替代140萬採購平臺。Vibe Coding讓需求方變成供給方,實現大眾創業。
第四次程式設計革命:自然語言程式設計,門檻降至最低,創造者數量爆發 秒噠使用者87%不懂程式碼,OPC成最大群體,16%創業者 NVIDIA釋出Polar:用於跨Codex、Claude Code和Qwen Code進行GRPO訓練的忠實令牌回滾框架 2026-05-27 NVIDIA研究人員推出Polar框架,透過在智慧體工具鏈和推理伺服器之間放置模型API代理,實現無需修改智慧體工具鏈即可進行強化學習訓練。基於Qwen3.5-4B模型使用GRPO訓練,Polar在Codex、Claude Code和Pi工具鏈上分別將SWE-Bench Verified pass@1提升了22.6、4.8和6.2個百分點。框架以NeMo Gym環境註冊,並在ProRL Agent Server倉庫開源。
Polar透過模型API代理捕獲令牌級互動,無需修改現有智慧體工具鏈即可進行RL訓練 使用GRPO在Qwen3.5-4B上訓練,SWE-Bench Verified最高提升22.6個百分點 自驗證蒸餾:你的語言模型秘密地成為自己的合成資料管道 2026-05-27 提出自驗證蒸餾(Self-Verified Distillation, SVD)方法,讓大語言模型僅利用無標籤提示進行自我改進,無需外部教師或工具反饋。在數學、科學和程式設計三個推理領域,Qwen3模型透過SVD訓練後效能顯著提升。
SVD透過三階段驗證(迴圈一致性、事實性、正確性)篩選模型自生成的解決方案。 使用更多候選生成和更大的驗證預算可提高自篩選資料質量。 DeepSeek陳德里開發自動研究Skill,寫一篇論文人類只動腦2小時 2026-05-27 DeepSeek研究員陳德里使用自研的DeliAutoResearch技能,與DeepSeek-V4-Pro和GPT-Image2合作,在6天內完成了一篇46頁的論文。論文提出了L1-L5自主研究智慧體分類體系,分析了四種架構模式和17個主流系統,並指出了六大開放問題。陳德里表示,人類僅需投入不到2小時的“CPU時間”,其餘工作由AI Agent完成。
陳德里開發自動研究技能DeliAutoResearch,論文99%由Agent撰寫。 論文提出L1-L5自主研究智慧體分類,類比自動駕駛SAE級別。 Reachy Mini實現完全本地執行 2026-05-27 本文詳細介紹瞭如何為Reachy Mini機器人部署完全本地的語音對話管道,無需雲端或API金鑰。採用級聯方式,結合VAD、STT、LLM和TTS,推薦使用llama.cpp與Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多種LLM執行選項,包括本地MLX、Transformers、vLLM或遠端Responses API。
Reachy Mini現在可以完全本地執行對話,無需伺服器。 級聯管道包括VAD、STT、LLM和TTS,元件可互換。 使用ZeroEntropy Zerank-2重排序器設計高精度檢索與重排序管道 2026-05-26 本教程詳細介紹瞭如何使用zeroentropy/zerank-2-reranker(一個基於Qwen3的4B引數交叉編碼器重排序器)來提升檢索質量。內容涵蓋環境搭建、模型載入、查詢-文件對評分、使用model.rank進行排序、構建兩階段檢索-重排序管道、NDCG@10評估以及跨領域(金融、法律、程式碼)效能測試,最後還進行了批處理吞吐量測試。
zerank-2重排序器能顯著提升檢索結果的精度,超越簡單嵌入相似度。 透過兩階段管道(雙編碼器檢索+交叉編碼器重排序)可最佳化搜尋質量。 據報道中國要求頂尖AI研究人員出國前需獲批准 2026-05-26 中國正在限制阿里巴巴和DeepSeek等私營公司的頂尖AI研究人員出國旅行,他們需要獲得官方批准才能離境。北京擔心資料洩露、技術盜竊和人才挖角,正在加強對國內AI行業的管控。
中國要求頂尖AI研究人員出國前需獲得許可。 該政策適用於阿里巴巴和DeepSeek等私營公司。