AI News HubLIVE

來源分布

  • Hugging Face Blog27
  • Hacker News AI5
  • Analytics Vidhya2
  • Ahead of AI (Sebastian Raschka)1
  • Artificial Intelligence News1
  • DeepSeek News1
  • IEEE Spectrum AI1
  • Machine Learning Mastery1

主題分布

  • Agent23
  • 模型20
  • 晶片18
  • 研究18
  • 政策7
  • 工具6

日期線

  • 2026-05-085
  • 2026-05-144
  • 2026-04-293
  • 2026-05-093
  • 2026-04-212
  • 2026-04-272
  • 2026-05-112
  • 2026-05-182

最新動態

Perplexity AI 開源Unigram分詞器,p50延遲比Hugging Face tokenizers crate低5倍

Perplexity AI 開源了用Rust重寫的Unigram分詞器,實現了比Hugging Face tokenizers crate低5倍的p50延遲,並將生產環境CPU利用率降低了5-6倍。最佳化包括雙陣列trie、點陣圖打包和大頁面支援。

  • Perplexity AI 用Rust重寫了Unigram分詞器,p50延遲比Hugging Face tokenizers crate降低5倍。
  • 三項最佳化:雙陣列trie、點陣圖和快取行打包、大頁面支援。
站內正文

ITBench-AA:前沿模型在企業IT智慧體任務基準測試中得分低於50%——由Artificial Analysis與IBM聯合釋出

Artificial Analysis與IBM聯合推出ITBench-AA,這是首個針對企業IT智慧體任務的基準測試,專注於站點可靠性工程(SRE)。前沿模型得分均低於50%,其中Claude Opus 4.7以47%領先。該基準測試評估模型在Kubernetes事件響應中的表現,要求從日誌和追蹤中診斷故障。

  • Claude Opus 4.7以47%領先,GPT-5.5為46%,Qwen3.7 Max為42%。
  • 所有前沿模型得分低於50%,使ITBench-AA成為飽和度最低的智慧體基準之一。
站內正文

Reachy Mini實現完全本地執行

本文詳細介紹瞭如何為Reachy Mini機器人部署完全本地的語音對話管道,無需雲端或API金鑰。採用級聯方式,結合VAD、STT、LLM和TTS,推薦使用llama.cpp與Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多種LLM執行選項,包括本地MLX、Transformers、vLLM或遠端Responses API。

  • Reachy Mini現在可以完全本地執行對話,無需伺服器。
  • 級聯管道包括VAD、STT、LLM和TTS,元件可互換。
站內正文

駕馭、腳手架與值得釐清的AI智慧體術語

本文旨在釐清AI智慧體領域中常被混淆的術語,如“harness”(執行層)與“scaffold”(行為定義層)的區別,並解釋模型、智慧體、工具使用、子智慧體等概念,同時涵蓋訓練相關術語。

  • AI智慧體=模型+執行層(harness),其中harness負責呼叫模型和處理工具呼叫。
  • Scaffold是圍繞模型的行為定義層,包括系統提示、工具描述等。
站內正文

利用 Nemotron-Labs 擴散語言模型實現接近光速的文本生成

NVIDIA 釋出 Nemotron-Labs 擴散語言模型系列,透過並行生成與迭代精煉技術,在保持高準確率的同時,相比傳統自迴歸模型實現最高 6.4 倍的推理速度提升。模型支援自迴歸、擴散和自推測三種模式,8B 版本在準確率上超越 Qwen3 8B 1.2%,並已開源。

  • Nemotron-Labs 擴散模型支援三種生成模式:自迴歸、擴散和自推測。
  • 8B 模型在擴散模式下速度提升 2.6 倍,自推測模式下最高提升 6.4 倍。
站內正文

專業化勝於規模:大多數AI採購決策忽視的戰略變數

一家公司在AI採購中發現,一個30億引數的專業化模型在質量、成本和生產穩定性上均優於所有商業前沿API,成本低了約52倍。這挑戰了“引數越多越好”的預設假設,表明訓練歷史與任務的分佈對齊(分佈對齊)比引數數量更關鍵。

  • 30億引數的專業化模型在OCR基準測試中得分0.911,超過Claude Opus 4.6的0.833。
  • 該模型執行成本約為前沿API的五十二分之一。
站內正文

開源軟體開始幫助機器人思考

開源運動正將AI的突破性進展引入機器人領域,降低開發門檻。從ROS框架到輝達、Hugging Face和阿里巴巴的開源模型,機器人推理、決策和行動的能力正變得對更多人可用。但商業激勵與學術初心之間的張力也帶來新挑戰。

  • 開源機器人軟體歷經數十年發展,ROS框架奠定了基礎設施,如今AI模型的開源正推動機器人“大腦”的進化。
  • 輝達、Hugging Face和阿里巴巴等公司推出開源機器人AI工具和模型,大幅降低進入門檻。
站內正文

OlmoEarth v1.1:更高效的模型家族

Allen AI 釋出了 OlmoEarth v1.1,透過合併不同解析度的令牌,將計算成本降低高達三倍,同時保持 v1 的效能。新模型適用於大規模遙感分析,合作伙伴已在全球部署。

  • OlmoEarth v1.1 相比 v1 計算成本降低最多 3 倍,效能相當。
  • 透過將不同解析度的多光譜波段合併為單一令牌,縮短序列長度。
站內正文

推出Ettin重排序器系列

今日釋出了六個新的Sentence Transformers交叉編碼重排序器,基於Ettin ModernBERT編碼器構建,透過蒸餾訓練,在各自規模上達到最先進水平。這些模型與嵌入模型配對使用,可高效提升檢索排序質量。

  • 釋出六個Ettin重排序器,規模從17M到1B引數
  • 透過點級MSE蒸餾於強大教師模型mxbai-rerank-large-v2訓練
站內正文

使用LoRA/DoRA微調NVIDIA Cosmos Predict 2.5以生成機器人影片

本文介紹瞭如何透過引數高效微調技術LoRA和DoRA,在單個GPU上微調NVIDIA Cosmos Predict 2.5世界模型,生成用於機器人學習的合成影片軌跡。文章詳細說明了資料處理、介面卡初始化、訓練迴圈、推理方法及評估指標。

  • LoRA和DoRA允許在凍結基模型的情況下,透過小型可訓練介面卡進行高效微調,避免災難性遺忘並降低記憶體需求。
  • 訓練使用92個機器人操作影片資料集,透過rectified flow損失函式和MSE損失進行最佳化。
站內正文

開放智慧體排行榜

IBM研究團隊推出開放智慧體排行榜(Open Agent Leaderboard),這是一個用於比較完整智慧體系統(而不僅僅是模型)的開放基準。它評估智慧體在多種真實場景中的通用性,並同時報告質量和成本。該排行榜結合了六個基準測試,涵蓋編碼、客服、技術支援和研究等任務。初步結果顯示,通用智慧體已能與專用系統媲美,且智慧體架構對結果的影響日益顯著。所有程式碼、資料和論文均已開源。

  • 開放智慧體排行榜衡量的是完整智慧體系統(模型+工具+規劃等),而非僅模型本身。
  • 排行榜包含六個不同領域的基準測試,如SWE-Bench Verified和BrowseComp+。
站內正文

Granite Embedding Multilingual R2:開源Apache 2.0多語言嵌入模型,32K上下文,子1億引數中檢索質量最佳

IBM釋出Granite Embedding Multilingual R2系列,包含97M和311M引數兩個多語言嵌入模型,均基於ModernBERT架構,支援32K令牌上下文,覆蓋200+語言,並在MTEB多語言檢索基準上取得領先成績。97M模型在子1億引數模型中排名第一,311M模型在5億引數以下模型中排名第二。

  • 97M引數模型在MTEB多語言檢索中得分為60.3,子1億引數模型中最佳;311M模型得分為65.2,5億引數以下模型中排名第二。
  • 支援32K令牌上下文,比前代R1提升64倍;覆蓋200+語言,其中52種語言和9種程式語言經過專門檢索訓練。
站內正文

GLiNER2-PII:0.3B引數開源PII模型超越OpenAI隱私過濾器

一款名為GLiNER2-PII的開源模型,僅有0.3B引數,在PII檢測任務上取得了最先進效能,在SPY基準測試中超越了OpenAI的隱私過濾器。該模型能識別42種實體型別,並基於多語言合成語料庫訓練。模型已在Hugging Face上公開發布。

  • 開源0.3B引數PII檢測模型
  • 在SPY基準上超越OpenAI隱私過濾器
站內正文

如何在Hugging Face上即時視覺化任何AI模型架構

理解現代AI架構變得越來越困難。本文介紹了一種簡單的方法:透過將Hugging Face模型URL中的“huggingface.co”替換為“hfviewer.com”,即可立即將模型結構轉化為互動式視覺化圖表。該工具支援Transformer、視覺和多模態模型,無需任何設定。此外,還提供了終端命令和瀏覽器擴充套件兩種快速訪問方式。

  • 將Hugging Face模型URL中的huggingface.co替換為hfviewer.com即可視覺化架構。
  • hfviewer將模型結構轉化為互動式圖形,支援多種架構。
站內正文

在連續批處理中解鎖非同步性

本文解釋瞭如何透過分離CPU和GPU工作負載來大幅提升推理效能。連續批處理透過緊密打包批次提高了GPU利用率,但同步操作導致CPU和GPU交替等待,造成近四分之一的執行時間浪費。透過使用非預設CUDA流和事件實現非同步批處理,可以讓CPU和GPU並行工作,消除空閒間隙,實現免費的24%加速。文章詳細介紹了CUDA流、事件機制以及如何將它們應用於連續批處理,並提供了在transformers庫中的實現程式碼。

  • 同步連續批處理中CPU和GPU交替工作,導致GPU空閒時間佔比約24%。
  • 使用非預設CUDA流和事件可以實現CPU和GPU的並行執行。
站內正文

Hugging Face託管偽裝成OpenAI版本的惡意軟體

一個偽裝成OpenAI釋出的惡意Hugging Face倉庫向Windows機器傳遞了資訊竊取型惡意軟體,在被移除前記錄了約244,000次下載。研究人員警告,公開的AI模型註冊中心在開發者將模型克隆到企業環境時構成了供應鏈風險。

  • 一個名為'Open-OSS/privacy-filter'的虛假倉庫模仿了OpenAI的Privacy Filter,包含一個惡意的loader.py,該檔案安裝竊取憑證的惡意軟體。
  • 該倉庫在不到18小時內達到趨勢榜首位並獲得667個點贊,但下載量可能被攻擊者人為抬高。
站內正文

AWS基礎模型訓練與推理的構建模組

本文分析了AWS在基礎模型預訓練、後訓練和推理中的基礎設施元件,包括GPU例項、彈性網路介面卡(EFA)、Lustre檔案系統及UltraCluster/UltraServer架構,並強調開源軟體在資源管理和監控中的作用。

  • 基礎模型擴充套件已從單一預訓練擴充套件到後訓練和測試時計算三個尺度。
  • AWS提供從H100到B300的多代GPU例項,並配有NVLink和EFA網路。
站內正文

Unsloth 加入 PyTorch 生態系統

Unsloth,一家專注於開源AI最佳化的公司,正式被納入PyTorch生態系統。該組織以提供高效的模型訓練、量化工具及Unsloth Studio UI著稱,並已與PyTorch團隊在FP8強化學習、手機端ExecuTorch部署及量化感知訓練等方面展開合作。目前,Unsloth在Hugging Face上擁有超過250萬次模型下載和200多名貢獻者。

  • Unsloth因其技術貢獻和社群影響力被PyTorch生態系統接納。
  • Unsloth提供2倍訓練速度、減少70%視訊記憶體佔用的最佳化工具,以及支援500+模型的Unsloth Studio。
站內正文

MachinaCheck:在AMD MI300X上構建多智慧體CNC可製造性分析系統

MachinaCheck是一個基於AMD MI300X的多智慧體AI系統,透過上傳STEP檔案快速生成CNC可製造性評估報告,無需手動讀取圖紙。系統採用本地化部署保護智慧財產權,結合幾何解析與LLM推理,可在30秒內完成全套分析。

  • 傳統CNC車間手工評估圖紙需30-60分鐘,MachinaCheck僅需30秒
  • 利用AMD MI300X的192GB視訊記憶體實現完全本地化推理,確保客戶IP安全
站內正文

透過CPU最大化令牌化減少TTFT

Crusoe與NVIDIA Dynamo合作開發了fastokens,一個開源的Rust BPE分詞器,平均速度比HuggingFace分詞器快9.1倍,在長上下文工作負載中TTFT最多降低40%。

  • fastokens實現了9.1倍的平均速度提升,長提示場景下最高可達31倍。
  • 針對CPU進行了極致最佳化,包括並行預分詞、兩級快取和動態記憶體管理。
站內正文

Hugging Face的Clem Delangue:別再拿引擎和汽車比較

Hugging Face聯合創始人兼CEO Clem Delangue在採訪中討論了開源AI的現狀,並引用了西西弗斯神話來比喻AI發展的持續性挑戰。他認為開源AI生態系統正在蓬勃發展,但需要避免過度簡化的類比。

  • Clem Delangue強調開源AI正處於關鍵發展階段
  • 他批評將AI引擎比作汽車的簡單類比
站內正文

OncoAgent:一種用於隱私保護腫瘤臨床決策支援的雙層多智慧體框架

OncoAgent是一個開源、隱私保護的腫瘤臨床決策支援系統。它採用雙層大語言模型架構(9B快速模型和27B深度推理模型)、多智慧體LangGraph拓撲、糾正性RAG流程(涵蓋70餘項NCCN和ESMO指南)以及三層反射安全驗證器。系統透過複雜性評分路由查詢,在AMD Instinct MI300X上微調,實現了56倍的吞吐量加速,並支援本地部署以確保資料主權。

  • 開源、隱私保護的腫瘤決策支援系統,支援本地部署。
  • 雙層LLM架構:9B快速模型和27B深度推理模型,透過複雜性評分路由。
站內正文

CyberSecQwen-4B:為什麼防禦性網路安全需要小型、專用、本地可執行的模型

CyberSecQwen-4B是一個基於Qwen3-4B-Instruct微調的小型網路安全專用模型,旨在解決防禦性網路安全中對資料隱私、成本和離線部署的需求。該模型在CTI-Bench基準測試中,以4B引數量匹配甚至超過8B的Cisco Foundation-Sec-Instruct模型,同時完全在單個AMD MI300X GPU上訓練和執行。文章詳細介紹了訓練方法、資料來源、基準結果以及未來方向。

  • CyberSecQwen-4B在CTI-MCQ任務上比8B的Cisco模型高出8.7個百分點,在CVE-CWE對映任務上保持97.3%的準確率,引數量減半。
  • 模型在單張12 GB消費級GPU上執行,適合敏感資料不離站、低成本、離線環境。
站內正文

EMO:預訓練專家混合模型實現湧現模組化

艾倫人工智慧研究所釋出EMO模型,這是一種端到端預訓練的混合專家(MoE)模型,其模組結構直接從資料中湧現,無需人工定義先驗。EMO支援僅使用12.5%的專家子集即可保持接近全模型的效能,同時在全專家使用時仍能作為強大的通用模型。相比標準MoE,EMO的專家子集在選擇性使用時效能下降顯著更小。

  • EMO是一種1B活躍引數、14B總引數的MoE模型,使用128個專家,每個token啟用8個。
  • 透過文件級路由約束,EMO的專家叢集形成語義領域(如醫療、新聞),而非低階句法模式。
站內正文

Show HN:用於CAD生成任務的開源FreeCAD資料集

gnucleus-ai在Hugging Face上釋出了一個開源FreeCAD資料集,包含100個引數化CAD模型(如軸、軸承、法蘭等),每個模型帶有關鍵引數、影像和.FCAD檔案,適用於CAD生成任務。資料集採用Apache-2.0許可,包含多種機械零件,支援3D、影像和文本模態。

  • gnucleus-ai釋出了cad-gen-freecad資料集
  • 包含100個引數化的FreeCAD模型
站內正文

MedQA:在AMD ROCm上微調臨床AI——無需CUDA

本文詳細介紹瞭如何使用AMD MI300X和ROCm,透過LoRA微調Qwen3-1.7B模型在MedMCQA資料集上構建臨床問答系統。整個流程無需CUDA,訓練僅需5分鐘,充分證明了HuggingFace生態系統在ROCm上的相容性。

  • 利用AMD MI300X的192GB HBM3視訊記憶體,可在fp16精度下直接訓練,無需量化。
  • LoRA微調僅更新約0.14%的引數(220萬),訓練時間約5分鐘。
站內正文

從HuggingFace部署並推理任何模型

學習如何在一個會話中使用Goose和Together的專用容器推理部署任何HuggingFace模型。跳過複雜設定——一個提示就能讓你的模型在釋出當天在生產級GPU環境中執行。

  • 使用Goose和Together的專用容器推理,開發者可以零延遲部署新發布的模型。
  • 作者在Netflix釋出void-model當天成功部署並執行。
站內正文

vLLM V0到V1:RL中的正確性優先於修正

ServiceNow AI團隊在將強化學習訓練管線從vLLM V0遷移到V1時,發現了四個後端問題:logprobs語義、執行時預設值、飛行中權重更新和fp32 lm_head。他們優先修復後端正確性,再考慮目標側修正,最終實現了與V0參考的完全對齊。

  • 遷移目標:驗證V1能返回訓練器期望的logprobs,並與V0參考對比
  • 四個後端修復:processed_logprobs、停用V1特有預設值、匹配飛行中權重更新、啟用fp32 lm_head
站內正文

ML Intern實戰:從提示到在Hugging Face上釋出模型

本文評測了ML Intern,一款開源機器學習助手,它超越傳統AutoML,覆蓋資料探索、編碼、除錯到模型釋出的完整工作流。透過一個客戶支援工單分類案例,展示了從資料集選擇、煙霧測試到訓練計劃生成的步驟。

  • ML Intern是一款面向Hugging Face生態的開源助手,支援整個ML工作流。
  • 透過真實專案測試,包括資料集研究、指令碼除錯和訓練計劃稽核。
站內正文

AI評估正在成為新的計算瓶頸

本文探討了AI評估成本的急劇上升,特別是針對智慧體基準測試,指出評估已成為新的計算瓶頸。靜態基準測試可壓縮100-200倍,但智慧體和訓練中基準測試難以壓縮。可靠性要求多次執行,成本倍增。高評估成本可能導致驗證能力集中在資金充足的實驗室。

  • AI評估成本已跨越負擔能力門檻,一次智慧體評估可能花費數萬美元。
  • 靜態基準測試可透過壓縮技術大幅降低成本,但智慧體基準測試只能實現2-3.5倍壓縮。
站內正文

Granite 4.1 LLM:構建方法詳解

IBM Granite 4.1 是一個密集解碼器僅LLM系列(3B、8B、30B),在多階段預訓練中使用了約15萬億個token,包括長達512K token的長上下文擴充套件。模型透過監督微調(約410萬個高質量樣本)和基於策略的GRPO與DAPO損失的強化學習進一步最佳化。8B指令模型在效能上匹配甚至超越了之前的32B MoE模型,所有模型均在Apache 2.0許可下發布。

  • Granite 4.1 系列包括3B、8B和30B三種密集解碼器僅LLM。
  • 採用五階段預訓練管道,包括長上下文擴充套件到512K token。
站內正文

DeepInfra 登陸 Hugging Face 推理提供商 🔥

DeepInfra 成為 Hugging Face Hub 上最新的推理提供商,提供100多個模型的低成本無伺服器推理服務,初始支援對話和文本生成任務,使用者可透過 UI 或 SDK 輕鬆使用。

  • DeepInfra 加入 Hugging Face 推理提供商生態系統,提供 100 多個模型的無伺服器推理。
  • 初始支援 DeepSeek V4、Kimi-K2.6、GLM-5.1 等模型,後續將擴充套件到影像、影片等模態。
站內正文

NVIDIA Nemotron 3 Nano Omni:面向文件、音訊和影片智慧體的長上下文多模態模型

NVIDIA釋出了Nemotron 3 Nano Omni,這是一個全新的全模態理解模型,能夠處理文本、影像、影片和音訊。它基於混合Mamba-Transformer-MoE架構,結合C-RADIOv4-H視覺編碼器和Parakeet-TDT-0.6B-v2音訊編碼器,在多個基準測試中取得領先成績。該模型專為文件分析、自動語音識別、長音訊-影片理解、智慧體計算機使用和通用多模態推理設計,並提供了高效的影片取樣和動態解析度處理能力。

  • Nemotron 3 Nano Omni是一個統一的多模態模型,支援文本、影像、影片和音訊輸入。
  • 採用混合Mamba-Transformer-MoE架構,具備高效長上下文處理能力。
站內正文

使用Scikit-LLM進行文本摘要

本文介紹如何使用Scikit-LLM庫中的文本摘要功能,透過構建自定義轉換器整合Hugging Face的預訓練摘要模型,並將其嵌入scikit-learn流水線中,實現從長文本到分類的端到端流程。

  • Scikit-LLM橋接傳統機器學習與大語言模型,提供零樣本和少樣本分類及文本摘要功能。
  • 自定義HuggingFaceSummarizer類繼承自BaseEstimator和TransformerMixin,可載入預訓練摘要模型並生成摘要。
站內正文

如何使用OpenAI的隱私過濾器構建可擴充套件的Web應用

本文介紹瞭如何利用OpenAI新發布的開源隱私過濾器(Privacy Filter)構建三個可擴充套件的Web應用:文件隱私探索器、影像匿名化器和智慧編輯貼上板。每個應用都展示了該模型的不同能力,並透過gradio.Server實現高效的後端處理和自定義前端。

  • OpenAI釋出隱私過濾器(Privacy Filter),一個開源的個人身份資訊(PII)檢測器,支援128k上下文和8個類別。
  • 透過三個示例應用展示模型能力:文件隱私探索器、影像匿名化器、智慧編輯貼上板。
站內正文

DeepSeek-V4:百萬上下文,代理真正可用

DeepSeek釋出V4模型,擁有百萬token上下文視窗,專為代理任務最佳化。透過混合注意力機制(CSA和HCA)大幅降低KV快取和FLOPs,並引入跨工具呼叫的交錯推理、專用工具呼叫格式以及用於強化學習訓練的DSec沙箱。在多個代理基準測試中達到領先水平。

  • DeepSeek-V4推出Pro和Flash兩個MoE檢查點,上下文視窗達1M tokens。
  • 採用壓縮稀疏注意力和重度壓縮注意力混合架構,KV快取僅需傳統GQA的2%。
站內正文

QIMMA قِمّة ⛰:以質量為先的阿拉伯語大模型排行榜

QIMMA(阿拉伯語意為“高峰”)是一個以質量為先的阿拉伯語大模型排行榜,它會在評估模型之前先驗證基準資料的質量。透過多模型自動評估與人工稽核相結合的方法,QIMMA 發現了多個廣泛使用的阿拉伯語基準測試中存在系統性的質量問題。該排行榜整合了來自14個基準測試的109個子集,涵蓋7個領域,總計超過52,000個樣本,並首次在阿拉伯語大模型評估中加入了程式碼能力測試。

  • QIMMA 在模型評估前對阿拉伯語基準進行嚴格的質量驗證,發現了大量錯誤和文化偏差。
  • 排行榜整合了超過52,000個樣本,涵蓋文化、STEM、法律、醫療、安全、詩歌和程式碼等7個領域。
站內正文

AI與網路安全未來:開放性為何重要

本文探討了AI在網路安全中的角色,特別是新模型Mythos如何利用系統級能力發現和修補漏洞。強調開放性在防禦中的結構性優勢,主張採用半自主AI代理以保持人類控制,並指出開放生態比專有系統更能應對日益複雜的攻擊。

  • Mythos展示了結合大模型、系統框架和速度可有效發現並修補軟體漏洞。
  • 開放程式碼和工具能夠分散防禦任務,避免單一供應商成為單點失敗。
站內正文

我理解LLM架構的工作流程

一種學習導向的工作流程,用於理解新發布的開源權重模型。從官方技術報告開始,但論文往往不夠詳細;然後利用Hugging Face上的配置檔案和參考實現來獲取架構細節。這個過程主要是手動的,適合開源權重模型,並且手動操作是學習架構的最佳練習之一。

  • 從官方技術報告開始,但論文現在往往不夠詳細
  • 利用Hugging Face上的配置檔案和參考實現來獲取架構細節
站內正文

Ecom-RLVE:面向電商對話智慧體的自適應可驗證環境

Ecom-RLVE 將 RLVE 框架從單輪推理擴充套件到多輪工具增強的電商對話,提供 8 個可驗證環境(產品發現、替換、購物車構建、退貨、訂單追蹤、政策問答、套餐規劃、多意圖旅程),每個環境具備程式化問題生成、12 軸難度課程和可驗證獎勵。使用 DAPO 在 300 步內訓練 Qwen 3 8B 模型,初步結果表明環境縮放和自適應難度可遷移至實際任務完成。

  • 8 個可驗證環境覆蓋真實電商場景,獎勵由程式而非人類或 LLM 評估。
  • 自適應難度課程透過 12 個獨立維度動態調整挑戰,保持智慧體處於學習前沿。
站內正文

🚀 DeepSeek V2.5:盛大終曲 🎉 | DeepSeek API 文件

DeepSeek 釋出 V2.5-1210 版本,作為 V2.5 系列的最終版本,新增網際網路搜尋功能,在數學、程式設計、寫作和角色扮演等基準測試中表現提升,開源模型已上傳至 Hugging Face。團隊感謝使用者支援,並預告下一代基礎模型即將到來。

  • DeepSeek V2.5-1210 是 V2.5 系列的最終版本,標誌著該系列的結束。
  • 新增網際網路搜尋功能,使用者可在聊天介面開啟即時搜尋。
站內正文

公司導航