AI News HubLIVE

推理成本動態

Boogy:面向“氛圍程式設計”的生產級基礎設施

Boogy 是一個讓開發者透過 AI 提示快速部署後端的平臺,支援在幾秒內建立 REST、RPC、MCP 介面,並自帶沙箱資料庫和認證。其核心亮點包括:服務間透過程序內呼叫實現微秒級延遲的網狀網路;自研嵌入式資料庫 BoogyDB,效能可達 SQLite 的 1.5–3 倍;內建向量搜尋、後臺作業和零信任安全模型。所有配置透過 TOML 清單宣告,執行時自動執行。

  • 透過 AI 代理(如 Claude)提示即可生成並部署完整後端,無需手動管理基礎設施。
  • 服務以程序內函式呼叫方式通訊,延遲微秒級,支援身份、許可權和審計自動傳遞。
站內正文

戴爾AI伺服器收入飆升757%

戴爾最新季度AI伺服器收入增長757%,標誌著企業AI採用從實驗階段轉向大規模部署的重大轉變。這一增長反映了對AI基礎設施日益增長的需求,企業正在投資完整的平臺用於生產工作負載。關鍵因素包括超越GPU、關注記憶體、網路和冷卻,以及AI基礎設施經濟的興起。

  • 戴爾AI伺服器收入增長757%,表明企業對AI基礎設施的需求強勁。
  • 企業正將AI從試點專案轉向生產部署,需要整合平臺。
站內正文

AI沒有製造這些問題,它只是不再繞過它們

作者透過親身經驗指出,AI暴露了軟體開發中長期存在的系統性問題,如缺乏文件、測試不完善、隱性知識依賴等。AI像混沌工程一樣測試系統的韌性,迫使團隊修復這些漏洞。文章強調,為AI設定的護欄本應是工程實踐的一部分,並提出了80/20準則:80%確定性的程式碼加上20%AI靈活性。

  • AI揭示了開發流程中長期被忽略的缺陷,如陳舊文件和隱性知識。
  • AI是高效的混沌工程工具,能發現系統脆弱點。
站內正文

Show HN:面向不可信AI Agent指令碼的輕量級編譯器

Autolang是一種專為AI Agent設計的指令碼語言,旨在提供安全、快速且低成本的程式碼執行環境。它作為編排層,允許AI呼叫預定義的包裝函式,同時透過靜態編譯和嚴格的執行時限制防止惡意操作。文章詳細介紹了Autolang的設計哲學、效能最佳化、安全機制以及適用場景。

  • Autolang是一個輕量級編譯器,用於安全執行AI生成的短指令碼。
  • 它透過靜態分析和執行時限制(如操作碼上限)防止無限迴圈、空指標訪問等常見AI錯誤。
站內正文

SpaceX上市對馬斯克是好事,對你卻是災難

本文嚴厲批評SpaceX的IPO,指出其估值荒謬、虧損嚴重,AI業務表現不佳,Starship火箭進展緩慢,Starlink雖是唯一盈利業務但面臨風險,最終可能讓散戶投資者成為接盤俠。

  • SpaceX IPO估值超1萬億美元,但去年虧損近50億美元,TAM高達28.5萬億美元,超過美國GDP。
  • 公司本質是“迷因股”,30%的IPO額度留給散戶,依靠馬斯克的個人崇拜。
站內正文

Genesis AI 釋出 Nyx、Quadrants 與 Genesis World 1.0 物理平臺,助力可擴充套件機器人基礎模型評估

Genesis AI 於2026年5月27日釋出 Genesis World 1.0,這是一個包含物理引擎、渲染器、編譯器和模擬介面的四元件模擬平臺。該系統在14個任務、每個任務200個episode的測試中,實現了0.8996的皮爾遜相關性,並將策略評估時間從超過200小時縮短至0.5小時以內。

  • Genesis World 1.0 將策略評估速度提升兩個數量級,從200小時以上降至0.5小時以內。
  • 模擬與現實世界 rollout 的皮爾遜相關係數達0.8996,MMRV低至0.0166。
站內正文

輝達清華團隊提出Gamma-World:世界模型從「一個人玩」到「多人共處」

Gamma-World由NVIDIA與清華等機構提出,透過單純形編碼和稀疏樞紐注意力,實現多智慧體世界模型的高效互動與對稱表示,支援零樣本擴充套件到更多玩家,並遷移至真實機器人場景。

  • 提出Simplex Rotary Agent Encoding,實現玩家身份的等距對稱表示。
  • 引入Sparse Hub Attention,將跨智慧體通訊複雜度從平方級降至線性。
站內正文

AI不會取代好奇的開發者

在Data Engineering Central播客中,Daniel Beach與資深開發者Neil Roberts深入探討了AI如何改變軟體開發的意義,包括前端和使用者體驗的重要性、代理的實際含義、LLM工作流的成功與失敗,以及開發者如何保持競爭力。

  • AI既是後端問題,也是使用者體驗問題
  • '代理'在實踐中與演示中含義不同
站內正文

有效反饋計算:AI效能的真正變革者

最新研究提出有效反饋計算(EFC)概念,挑戰傳統計算量指標,證明AI效能提升的關鍵在於反饋的智慧利用而非原始算力。EFC在預測失敗率方面遠超傳統指標,R²達0.94,反饋質量提升後成功率從0.27躍升至0.90。

  • EFC衡量反饋的資訊密度和保留效率,預測能力遠超原始計算量
  • 在受控測試中,Oracle-EFC的R²達0.94,而原始token計數僅0.33
站內正文

Hermes Agent 推出 MCP 工具搜尋功能:Anthropic 評估顯示 Opus 4 準確率提升49%至74%

Nous Research 的開源 Hermes Agent 新增了 Tool Search 功能,透過 BM25 漸進式模式披露,推遲載入 MCP 工具模式,減少令牌開銷並提高模型準確性。Anthropic 評估顯示,Claude Opus 4 準確率從49%提升至74%,Opus 4.5 從79.5%提升至88.1%。

  • Tool Search 用三個橋接工具(tool_search、tool_describe、tool_call)替換所有 MCP 工具模式,按需載入。
  • 使用 BM25 檢索,回退到子字串匹配,查詢工具名稱、描述和引數名。
站內正文

為AI智慧體構建持久化記憶體的經驗教訓

mem9的故事始於一次客戶請求,從一個快速原型發展成一個完整產品。本文分享了構建智慧體記憶體的關鍵經驗:記憶體不僅僅是儲存問題,而是涉及攝取、排序、評估和產品判斷的工程挑戰。記憶體API本身不足以構成產品,使用者需要檢視、檢查、信任和糾正智慧體的記憶。此外,評估應成為記憶體產品的基礎設施,以使質量視覺化和可除錯。最後,智慧體記憶體不應侷限於文本,應向多模態發展。

  • mem9起源於客戶提出的實際問題,而非市場理論,透過快速原型驗證了價值。
  • 智慧體記憶體的核心挑戰並非持久化,而是在生產約束下精確檢索相關資訊。
站內正文

Avai – 你的第一款AI防毒軟體

Avai是一個開源的主機遙測工具,結合LLM威脅分類器,透過Docker執行,監控主機上的程序、USB、持久化、檔案完整性、瀏覽器擴充套件等26個方面,並利用17個威脅情報源和Claude類LLM給出惡意/可疑/未知/良性判定,無需代理、SIEM或雲控制平面。

  • 開源主機遙測+LLM威脅分類器,一條Docker命令即可執行。
  • 監控26個macOS(21個Linux)主機角落,整合17個威脅情報源。
站內正文

[AINews] 創始人與前向部署工程師

在消化Anthropic重大新聞的間隙,我們重點介紹了AIE的新前向部署工程師計劃和創始人計劃,以及5月28-29日的AI新聞。主要話題包括:Claude Opus 4.8釋出及其基準測試爭議、多輪強化學習中的tokenization錯誤、開源模型與工具鏈進展、Google和OpenAI的Agent產品擴充套件,以及值得關注的研究論文。

  • Claude Opus 4.8帶來增量改進,但基準測試未顯示絕對優勢,定價仍是主要痛點。
  • 多輪強化學習訓練中的tokenization錯誤被指出,需嚴格遵循“Token-In, Token-Out”規則。
站內正文

利用IBM量子取樣迴圈調優僅CPU的Qwen3-30B推理

一個研究專案展示了在2017年MacBook Air上,透過結合人類實驗者、Codex、llama.cpp、本地資料庫和IBM量子處理器取樣,將Qwen3-30B模型的推理速度從0.09 tokens/sec提升至14.03 tokens/sec,同時保持輸出連貫性。該方法並非在量子處理器上執行模型,而是用量子取樣最佳化推理配置。

  • 在8GB記憶體的2017年MacBook Air上,無GPU執行Qwen3-30B模型
  • 透過人機協同量子最佳化迴圈,速度從0.09 tok/s提升到14.03 tok/s
站內正文

AI之後的軟體架構

本文探討了AI如何大幅降低程式碼級決策的逆轉成本,從而重新定義軟體架構的邊界。作者認為,許多以往被視為架構的決策(如模組結構、框架選擇)已不再是架構問題,而資料架構、服務邊界和使用者信任等仍然難以更改。AI同時提升了可觀測性和業務戰略對齊的重要性。

  • AI將程式碼級決策的逆轉成本從數月降至數天,使得這些決策不再屬於架構範疇。
  • 資料架構、信任和服務邊界仍然是架構核心,因為其困難從未在於程式碼本身。
站內正文

Amazon SageMaker AI LLM推理的全面可觀測性:從GPU利用率到LLM質量

本演示展示了使用Amazon Managed Grafana儀表板的全面可觀測性解決方案,為部署在Amazon SageMaker AI端點上的LLM提供質量和數量兩個維度的整體檢視。該方案涵蓋基礎設施指標(如GPU利用率、延遲、成本)和LLM質量指標(如相關性、安全性、語氣),幫助團隊檢測模型退化、最佳化資源並控制成本。

  • 可觀測性需要同時監控LLM服務基礎設施(數量)和LLM輸出質量(質量),兩者相互依賴。
  • 亞馬遜CloudWatch集中儲存增強指標(來自SageMaker推理元件)和自定義質量指標。
站內正文

輝達推出X-Token:投影引導的跨分詞器知識蒸餾,在Llama-3.2-1B上平均得分超過GOLD 3.82個百分點

輝達的X-Token解決了GOLD在跨分詞器知識蒸餾中的兩個結構性缺陷,在GSM8k等數學推理基準上取得了顯著改進。它利用投影矩陣和P-KL與H-KL損失之間的選擇機制來處理分詞器不匹配問題。

  • X-Token修復了GOLD中的不常見詞元失敗和過於保守匹配問題。
  • 在使用Qwen-4B教師模型時,它在Llama-3.2-1B上平均得分超過GOLD 3.82個百分點。
站內正文

Claude剛發現了工作流,Charlie從那裡起步

Anthropic在Claude Code中引入了動態工作流,但作者認為更有效的架構是基於任務而非會話。本文闡述了為什麼任務樹架構更適合團隊協作,相比單一工作流模式更具優勢。

  • Anthropic的Claude Code動態工作流標誌著編碼代理從單一提示走向編排
  • 作者主張以任務和任務樹為基礎,而非會話,以適應團隊工程工作的生命週期
站內正文

AI編碼支出去向:48%寫程式碼,40%思考

一位開發者透過自建工具CodeBurn追蹤AI編碼API支出,發現30天內$7,890的支出中僅47.9%用於實際編碼,其餘花費在探索程式碼庫、除錯、委託子代理和對話上。文章詳細介紹了CodeBurn的功能,包括儀表盤、模型對比、浪費檢測、產出追蹤等。

  • 僅47.9%的AI編碼支出用於實際寫程式碼,40%用於思考過程。
  • CodeBurn是一款開源CLI工具,可分類13種API呼叫任務。
站內正文

StepFun 釋出 Step 3.7 Flash:面向編碼智慧體和搜尋工作流的 198B MoE 視覺語言模型

Step 3.7 Flash 是一款 198B 稀疏 MoE 模型,擁有約 11B 活躍引數、原生視覺能力和 256K 上下文視窗。在編碼基準測試上相比前代大幅提升,支援 Advisor Mode 實現高價效比的智慧體推理,並以 Apache 2.0 許可證開源。

  • 198B MoE 視覺語言模型,活躍引數約 11B,上下文視窗 256K。
  • SWE-Bench Pro 得分 56.26%,較前代 51.3% 提升,且跨框架方差縮小。
站內正文

本地AI硬體:2.6年回本?

蘋果Mac Mini M4 Pro和Mac Studio大記憶體型號因本地AI需求激增而缺貨。本地自主AI代理(如OpenClaw)興起推動硬體搶購。但即便慷慨估算,購買128GB記憶體的本地裝置(如GMKtec EVO-X2,3299美元)執行Gemma 4模型,需2.6年才能透過節省API費用回本。

  • 蘋果Mac Mini M4 Pro和Mac Studio高配版因本地AI需求消失。
  • OpenClaw等自主AI代理框架在本地硬體上爆發。
站內正文

打造了一個能視覺化解釋數學而非僅給出答案的AI

Claw Learn是一款開源的AI驅動視覺化數學導師,結合ElevenLabs語音引擎和自定義畫布渲染器,將數學問題轉化為即時動畫講解。使用者可透過語音或文字提問,觀看同步動畫和敘述。支援多種AI模型和部署方式,已引起廣泛關注。

  • Claw Learn將數學問題轉化為視覺動畫講解,支援即時語音互動和打斷追問。
  • 專案基於Next.js 16,使用ElevenLabs WebRTC語音引擎實現低延遲語音輸入輸出,並提供REST TTS和瀏覽器語音識別作為降級方案。
站內正文

DDS Vibe Academy – 47個免費AI程式設計大師課程,由AI代理構建

DDS Vibe Academy 提供47個免費AI程式設計大師課程,全部由AI代理構建。創始人Robert McCullock僅設計約束條件,未編寫一行程式碼。課程涵蓋基礎、開發、應用和精通四個級別,涉及Claude、Antigravity、MCP等技術。

  • 47個免費AI程式設計大師課程,由AI代理構建
  • 創始人聲稱未編寫任何程式碼,僅設計約束
站內正文

開源安全一團糟 - IBM和紅帽押注50億美元和2萬名工程師能修復它

IBM和紅帽聯合啟動Project Lightwell,這是一個AI驅動的開源安全計劃,投入50億美元和2萬名工程師,旨在規模化發現和修復開源軟體中的漏洞。該計劃最初專注於Maven/Java生態系統,隨後將擴充套件至PyPI、npm、Go等。Lightwell將作為企業級中間人,透過AI掃描、人工稽核補丁的方式,與上游社群協作,併為客戶提供商業訂閱服務。

  • IBM和紅帽投資50億美元、投入2萬名工程師啟動Project Lightwell,以AI方式大規模解決開源安全問題。
  • 該專案初期聚焦Maven/Java生態系統,後續擴充套件至其他關鍵開原始碼庫。
站內正文

Liquid AI釋出基於38T tokens訓練的8B-A1B MoE模型

Liquid AI釋出了LFM2.5-8B-A1B,一款面向終端裝置的混合專家模型,總引數8B,活躍引數1B,訓練資料量達38萬億 tokens。該模型支援128K上下文視窗,擴充套件了詞彙表以提升非拉丁語言的分詞效率,並採用純推理鏈式思維模式。在基準測試中表現優異,同時具有出色的CPU和GPU推理速度,適用於本地代理任務。

  • LFM2.5-8B-A1B是一款8B總引數、1B活躍引數的MoE模型,訓練於38T tokens。
  • 上下文視窗擴充套件至128K,詞彙表翻倍至128K,顯著提升非拉丁語言的處理效率。
站內正文

人工智慧會助長極權主義嗎?

本文探討了人工智慧可能如何改變中央集權與分權治理之間的權衡,從而增加極權主義出現的可能性。文章回顧了歷史上通訊和官僚技術對極權統治的促進作用,並分析了AI在資訊處理、監控、宣傳和軍事能力方面的進步如何可能使獨裁政體更有效,甚至縮小民主與專制之間的經濟績效差距。

  • AI可能透過增強中央資訊處理和監控能力,降低獨裁統治的成本。
  • 歷史上如納粹德國和東德利用技術實現控制,而印刷術和網際網路曾促進自由。
站內正文

4nm!比亞迪自研AI晶片來了:製程對齊輝達,算力拉爆特斯拉

比亞迪釋出了中國首顆車規級4奈米智駕晶片璇璣A3,採用自研NPU架構,三顆組合算力超2100 TOPS,單位功耗比同類低20%,算力利用率提升100%。王傳福承諾智駕事故全額賠付。

  • 比亞迪釋出中國首顆4nm智駕晶片璇璣A3,全自研設計
  • 採用專用NPU架構,功耗低20%,算力利用率翻倍
站內正文

問題不在AI Agent——現有系統和API並非為AI設計

MCP Bridge透過混合搜尋和AI增強技術,解決企業API對AI Agent不可讀的問題,根據API響應結構自動生成有意義的名稱和描述,大幅提升工具選擇準確率。

  • 混合搜尋結合全文搜尋、向量搜尋和重新排序器,改善工具發現。
  • 企業API常使用如'getProcInfo3'等晦澀名稱,文件匱乏。
站內正文

“AI乾的”不會在歐盟監管機構找上門時救你

歐盟的《網路彈性法案》(CRA)即將實施,要求組織對網路安全負責,報告義務自2026年9月開始,全面合規至2027年12月。該法規適用於在歐盟銷售的所有聯網產品和軟體,包括AI生成的程式碼。關鍵要求包括安全設計、生命週期漏洞處理、SBOM透明度以及24小時內報告被利用的漏洞。組織必須立即採取行動進行審計、記錄和實施SBOM工具。“AI乾的”不是藉口。

  • 歐盟《網路彈性法案》對在歐盟銷售的所有聯網產品施加嚴格的網路安全要求,關鍵截止日期為2026年和2027年。
  • 組織必須將安全融入開發生命週期,提供軟體物料清單(SBOM),並在24小時內報告被積極利用的漏洞。
站內正文

軌道計算

本文分析了在太空建設AI資料中心的可行性,包括其物理優勢(持續的太陽能、被動輻射冷卻、真空光速通訊)和工程限制(散熱、輻射加固、訓練同步、維護)。關鍵假設是星艦的發射成本。目前多個初創公司和谷歌、SpaceX等巨頭已啟動試點專案。近期的投資影響有限,但值得關注。

  • 軌道AI資料中心利用LEO的連續太陽能、被動冷卻和雷射鏈路,潛在優於地面資料中心
  • 工程挑戰包括散熱(高密度叢集需要巨大散熱面積)、輻射加固(商用晶片在軌壽命未知)以及訓練同步延遲
站內正文

Show HN: Adaptive Runtime – AI智慧體層,無需GPU,支援崩潰恢復

Adaptive Runtime是一個開源Python庫,為有狀態AI系統提供執行時智慧層。它包含五個核心引擎(狀態、上下文、置信度、決策、恢復),解決生產環境中AI系統的崩潰恢復、狀態持久化、置信度評分等問題。無需GPU,可在低成本VPS上執行。

  • Adaptive Runtime是一個執行時智慧層,專為有狀態AI系統設計,解決生產環境中的執行時問題。
  • 包含五個核心引擎:狀態引擎、上下文引擎、置信度引擎、決策引擎和恢復引擎。
站內正文

Anthropic 釋出 Claude Opus 4.8

Anthropic 釋出了 Claude Opus 4.8,相比 Opus 4.7 在程式設計、代理工作、推理和知識工作方面有所提升。新功能包括努力控制、動態工作流和 Messages API 即時更新。定價不變,標準版每百萬代幣輸入/輸出 5/25 美元,快速版 10/50 美元。早期測試顯示成本與 GPT-5.5 相當,工具步驟更少。公司還透露了未來路線圖,包括 Mythos 級模型和網路安全專案 Glasswing。

  • Claude Opus 4.8 在程式設計、代理工作、推理和知識工作方面優於 Opus 4.7。
  • 新增努力控制、動態工作流和 Messages API 即時更新功能。
站內正文

Crabbox.sh Pond – 面向AI代理和CI的執行時池

Pond是Crabbox.sh中用於分組相關租約、發現彼此並統一釋放的輕量級機制。它支援多種傳輸平面(Tailscale、URL橋、SSH網格),允許混合使用不同提供商。本文介紹了Pond的核心概念、快速入門、命令、傳輸平面、用例以及Tailscale整合等。

  • Pond是一種邏輯分組,透過共享的pond=標籤將活動租約關聯起來。
  • 支援Tailscale、URL橋和SSH三種傳輸平面,實現成員間的不同通訊方式。
站內正文

面壁智慧「開源周」:一場定義端側 AI 終局的系統性「亮劍」

面壁智慧於5月25日至29日舉辦端側大模型開源周,釋出五項技術成果,涵蓋訓練框架、模型壓縮、資料集和智慧體作業系統,展現全鏈路系統性創新。MiniCPM5-1B效能超越GPT-4o部分版本,端側AI終局之戰聚焦系統工程。

  • 面壁智慧在2026年5月25-29日舉辦端側大模型開源周,每日釋出一項關鍵技術。
  • 五項成果包括BitCPM-CANN、MiniCPM5-1B、ForgeTrain、PilotDeck和UltraData,形成全棧閉環。
站內正文

PromptLayer:在一個時間線上追蹤AI請求、工作流和成本

PromptLayer是一個面向開發者的AI可觀測性工具,透過單一時間線和瀑布檢視追蹤請求、工作流、令牌使用、延遲、成本和失敗。支援多步驟AI系統的完整執行路徑。目前提供免費測試版。

  • 透過時間線和瀑布檢視視覺化AI工作流
  • 追蹤令牌使用、延遲和成本
站內正文

Xerolith:永續性AI記憶與意識架構平臺

Xerolith是一個工作平臺,透過分層遞迴架構實現持久身份、自主信念形成和獨立於底層的知識整合。系統在80多天的連續執行中,將2,817個原始條目壓縮為1,218個信念,並支援完整的譜系追蹤和內部對齊。

  • Xerolith採用三層結構:條目、課程和信念,實現從原始資料到抽象信念的自主整合。
  • 系統支援持久身份,在超過80天和多次重啟中保持連續性。
站內正文

金融AI宏觀趨勢調查:利用You.com和Langchain進行歐盟經濟分析

本文介紹了一個使用Deep Agents、LangSmith和You.com金融研究API構建的宏觀經濟研究代理,該代理在約45分鐘內分析所有27個歐盟成員國的GDP資料,檢測異常並生成帶有引用的簡報。報告詳細分析了愛爾蘭和德國的異常增長與收縮原因,並強調了方法透明性和可審計性的重要性。

  • 構建的AI代理可在45分鐘內分析27個歐盟國家的GDP資料並生成詳細簡報,API成本約2.20美元。
  • 愛爾蘭12.3%的GDP增長主要由製藥出口激增驅動,而德國則因汽車和建築業收縮出現結構性衰退。
站內正文

多解析度端到端深度神經網路最佳化自動駕駛延遲-精度權衡

研究者提出了一種多解析度端到端深度神經網路,用於自動駕駛中延遲與安全性的平衡。透過在執行時選擇輸入解析度,該網路在CARLA模擬中相比固定解析度模型改善了車道入侵、闖紅燈和碰撞等安全指標。

  • 延遲-精度權衡是自動駕駛即時決策的關鍵。
  • 提出多解析度CNN,支援執行時根據延遲預算選擇輸入解析度。
站內正文

連續性與序數性至關重要:約束時間序列標記以實現基於大型語言模型的有效時間序列分析

本文提出COM方法,透過在初始化和訓練階段引入幾何約束,保留時間序列標記的連續性和序數性,顯著提升基於令牌的時間序列大語言模型(TS-LLM)的效能。實驗表明,COM在多個基準上取得一致改進和強泛化能力。

  • 時間序列大語言模型(TS-LLM)忽略了標記的連續性和序數性,導致效能受限。
  • COM透過幾何約束在初始化和訓練中保留這些特性,提升模型效果。
站內正文

不完全資訊下大老二的自對弈強化學習

本研究在四人紙牌遊戲大老二中探索自對弈強化學習框架,對比多種演算法發現PPO優於蒙特卡洛Q近似、SARSA和Q學習。適度的熵正則化可防止策略過於確定,當前策略自對弈比檢查點自對弈或固定對手訓練提供更強的有限預算課程。結果表明大老二是不完全資訊、多人互動、延遲獎勵和可變動作集下深度強化學習的有用受控基準。

  • 大老二作為不完全資訊多人遊戲,是測試智慧體在隱藏資訊、稀疏獎勵和非平穩對手下表現的理想環境。
  • PPO演算法在隨機、貪婪和啟發式對手下均優於其他強化學習方法。
站內正文

清華系團隊給大模型織了一張“智慧算力電網”

清華系創業公司是石科技透過自主研發的並行最佳化技術,構建異構算力資源池與推理最佳化引擎,實現單位Token成本降低40%,旨在打造國產Token調優工廠,降低AI落地門檻。

  • 是石科技成立於2021年,源於國家超算無錫中心,創始人閆博文為清華博士後。
  • 透過全域異構算力池和深度國產化適配,將閒置國產晶片轉化為可用算力。
站內正文

Anthropic完成9650億美元H輪融資,釋出Opus 4.8和Dynamic Workflows/ultracode

Anthropic以9650億美元估值完成650億美元H輪融資,同時披露470億美元年化收入,併發布Claude Opus 4.8更新(提升判斷力、誠實度和長時自主工作能力)以及Claude Code的Dynamic Workflows功能(支援數百個並行子代理)。

  • Anthropic完成650億美元H輪融資,估值9650億美元,由Altimeter、Dragoneer、Greenoaks和Sequoia領投
  • Opus 4.8大幅改進判斷力、誠實度和效率,在SWE-Bench Pro等基準上領先GPT-5.5
站內正文

Together AI如何構建全球最快的語音轉文本技術棧

Together AI透過將語音識別視為端到端系統問題,而非單純的GPU推理問題,在Artificial Analysis榜單上實現了最快的語音轉文本速度。本文詳細介紹了其最佳化策略:包括針對真實音訊形狀的TensorRT多配置檔案引擎、條件CUDA圖消除CPU往返、共享記憶體減少資料複製、事件驅動I/O處理流式傳輸,以及透過gc.freeze()消除垃圾回收尾延遲。

  • Together AI透過全路徑系統最佳化,而非僅關注GPU推理,實現了最快的語音轉文本效能。
  • 核心技術包括TensorRT多配置檔案編碼器、條件CUDA圖解碼器、零複製共享記憶體和事件驅動I/O。
站內正文

強化學習是一個基礎設施問題

本文探討了強化學習在大型語言模型後訓練中的實際應用,指出當前的瓶頸並非演算法而是基礎設施。Modal分享了大規模執行RL後訓練的經驗,介紹了其開源庫如何幫助團隊解決多節點訓練、環境管理和GPU利用率等關鍵問題。

  • 強化學習後訓練LLM的瓶頸是基礎設施,包括訓練引擎、推理沙箱和環境隔離。
  • 多節點訓練中,權重同步耗時巨大,RDMA和增量壓縮顯著降低延遲。
站內正文

PyTorch 效能分析(第一部分):torch.profiler 入門指南

本文是 PyTorch 效能分析系列的第一篇,從最簡單的矩陣乘加操作開始,引導讀者學習如何使用 torch.profiler 進行效能分析,包括設定分析器、解讀分析表和追蹤資料,以及理解 CPU 和 GPU 活動之間的時間關係。文章還討論了預熱和最佳化開銷等問題。

  • torch.profiler 可以生成效能分析表和時間線追蹤,幫助識別熱點和瓶頸。
  • 小矩陣乘法容易導致開銷受限,增大矩陣規模可轉為計算受限。
站內正文

Claude Opus 4.8:'適度但切實的改進'

Anthropic釋出了Claude Opus 4.8,定位為對前代產品的適度但切實改進。主要亮點包括誠實性提升(減少無依據斷言,程式碼錯誤遺漏率降低四倍),以及支援對話中修改系統提示等新功能。定價未變,但快速模式價格顯著降低。

  • Anthropic推出Claude Opus 4.8,官方稱其為'適度但切實的改進'。
  • 誠實性顯著提升:模型更少做出無依據斷言,程式碼錯誤遺漏率降低四倍。
站內正文

Liquid AI 釋出 LFM2.5-8B-A1B:面向裝置的 MoE 模型,總引數量 8.3B,啟用引數量 1.5B

Liquid AI 推出了 LFM2.5-8B-A1B,這是一款面向裝置的混合專家(MoE)模型,專為工具呼叫設計。該模型總引數量為 8.3B,但每個 token 僅啟用 1.5B 引數,從而能夠在消費級硬體上執行。它支援 128K 上下文視窗、推理能力,並覆蓋九種語言。相比前代 LFM2-8B-A1B,該模型在非幻覺率、指令遵循、數學推理等基準測試中均有顯著提升。

  • LFM2.5-8B-A1B 採用稀疏 MoE 架構,總引數量 8.3B,每個 token 僅啟用 1.5B 引數,適合邊緣硬體部署。
  • 支援 128K 上下文視窗,覆蓋九種語言,包括阿拉伯語、中文和日語。
站內正文

Open House 可觀測性公告:MCP 伺服器、AI Notebooks 和 ClickStack Cloud

在 Open House 活動中,ClickHouse 社群釋出了三項可觀測性重大更新:ClickStack Cloud(完全託管的無伺服器可觀測性平臺)進入私有預覽,Managed ClickStack 正式可用,AI Notebooks 進入 Beta 階段,以及 ClickStack MCP 伺服器開放原始碼。AI Notebooks 是一種持久化的調查工作空間,支援分支探索;MCP 伺服器則允許外部代理使用可觀測性原語,提升調查效率。

  • ClickStack Cloud 私有預覽釋出,提供完全託管的無伺服器可觀測性體驗。
  • Managed ClickStack 正式可用,適合需要深度控制的可觀測性團隊。
站內正文

Anthropic 釋出 Claude Opus 4.8,同時推出動態工作流和更便宜的快速模式,工作流上限為 1000 個子代理

Anthropic 推出 Claude Opus 4.8,並附帶兩項 Claude Code 更新:動態工作流可協調多達 1000 個子代理並行工作,以及更便宜的快速模式,輸出速度提升 2.5 倍。兩者均為研究預覽版。

  • 動態工作流讓 Claude 編寫協調指令碼,並行執行子代理,每項任務最多 16 個併發、1000 個代理。
  • 快速模式在相同質量下輸出速度提升 2.5 倍,Opus 4.8 版本價格降低三倍,需啟用使用額度。
站內正文

在Amazon SageMaker AI上訓練亞塞拜然語語言模型

亞塞拜然電信公司Azercell與AWS生成式AI創新中心合作,在Amazon SageMaker AI上構建了針對亞塞拜然語的大語言模型,透過自定義分詞器、分散式訓練和Liger Kernel最佳化,實現了23%的訓練吞吐量提升、58%的GPU記憶體峰值降低和2倍的分詞效率提升。

  • Azercell使用Amazon SageMaker AI為亞塞拜然語開發了首個大語言模型生產框架。
  • 自定義分詞器將每個詞的令牌數從3.22降至1.59,效率提升2倍。
站內正文

更多增長標籤