AI News HubLIVE

模型定價動態

跨9家供應商比較AI模型定價(385個模型)

SilkDock推出AI模型定價比較工具,覆蓋385個模型和9家供應商,幫助使用者找到最便宜的模型服務。

  • 比較385個AI模型在9個平臺上的價格
  • 支援SilkDock、OpenRouter、Together AI等提供商
站內正文

Boogy:面向“氛圍程式設計”的生產級基礎設施

Boogy 是一個讓開發者透過 AI 提示快速部署後端的平臺,支援在幾秒內建立 REST、RPC、MCP 介面,並自帶沙箱資料庫和認證。其核心亮點包括:服務間透過程序內呼叫實現微秒級延遲的網狀網路;自研嵌入式資料庫 BoogyDB,效能可達 SQLite 的 1.5–3 倍;內建向量搜尋、後臺作業和零信任安全模型。所有配置透過 TOML 清單宣告,執行時自動執行。

  • 透過 AI 代理(如 Claude)提示即可生成並部署完整後端,無需手動管理基礎設施。
  • 服務以程序內函式呼叫方式通訊,延遲微秒級,支援身份、許可權和審計自動傳遞。
站內正文

AI沒有製造這些問題,它只是不再繞過它們

作者透過親身經驗指出,AI暴露了軟體開發中長期存在的系統性問題,如缺乏文件、測試不完善、隱性知識依賴等。AI像混沌工程一樣測試系統的韌性,迫使團隊修復這些漏洞。文章強調,為AI設定的護欄本應是工程實踐的一部分,並提出了80/20準則:80%確定性的程式碼加上20%AI靈活性。

  • AI揭示了開發流程中長期被忽略的缺陷,如陳舊文件和隱性知識。
  • AI是高效的混沌工程工具,能發現系統脆弱點。
站內正文

Show HN:面向不可信AI Agent指令碼的輕量級編譯器

Autolang是一種專為AI Agent設計的指令碼語言,旨在提供安全、快速且低成本的程式碼執行環境。它作為編排層,允許AI呼叫預定義的包裝函式,同時透過靜態編譯和嚴格的執行時限制防止惡意操作。文章詳細介紹了Autolang的設計哲學、效能最佳化、安全機制以及適用場景。

  • Autolang是一個輕量級編譯器,用於安全執行AI生成的短指令碼。
  • 它透過靜態分析和執行時限制(如操作碼上限)防止無限迴圈、空指標訪問等常見AI錯誤。
站內正文

AI編碼代理以犧牲直覺和品味為代價

一位系統架構師反思AI編碼工具(如Codex和Claude)如何透過提供即時的多巴胺獎勵來消除學習過程中的掙扎,但代價是犧牲了開發者的直覺和品味。文章以蝴蝶破繭的比喻說明,過早的幫助會讓蝴蝶失去飛翔的力量,同樣,跳過困難階段的編碼代理可能讓開發者無法建立深層心智模型。

  • AI編碼工具提供了即時的多巴胺獎勵,但削弱了開發者的直覺和品味。
  • 作者以蝴蝶破繭的比喻說明掙扎對成長的重要性。
站內正文

公司因未設定許可證使用限制,一個月內耗費5億美元在Claude AI上

一家匿名企業因未對員工許可證設定使用上限,一個月內在Anthropic的Claude AI平臺上燒掉了5億美元。這一事件揭示了基於令牌的AI定價模式在沒有監管時可能造成的財務災難,以及企業中“令牌最大化”現象的興起。

  • 匿名企業在Claude AI上一個月花費5億美元,因無使用限制。
  • 員工為了內部排行榜而濫用AI,導致“令牌最大化”。
站內正文

有效反饋計算:AI效能的真正變革者

最新研究提出有效反饋計算(EFC)概念,挑戰傳統計算量指標,證明AI效能提升的關鍵在於反饋的智慧利用而非原始算力。EFC在預測失敗率方面遠超傳統指標,R²達0.94,反饋質量提升後成功率從0.27躍升至0.90。

  • EFC衡量反饋的資訊密度和保留效率,預測能力遠超原始計算量
  • 在受控測試中,Oracle-EFC的R²達0.94,而原始token計數僅0.33
站內正文

Hermes Agent 推出 MCP 工具搜尋功能:Anthropic 評估顯示 Opus 4 準確率提升49%至74%

Nous Research 的開源 Hermes Agent 新增了 Tool Search 功能,透過 BM25 漸進式模式披露,推遲載入 MCP 工具模式,減少令牌開銷並提高模型準確性。Anthropic 評估顯示,Claude Opus 4 準確率從49%提升至74%,Opus 4.5 從79.5%提升至88.1%。

  • Tool Search 用三個橋接工具(tool_search、tool_describe、tool_call)替換所有 MCP 工具模式,按需載入。
  • 使用 BM25 檢索,回退到子字串匹配,查詢工具名稱、描述和引數名。
站內正文

為AI智慧體構建持久化記憶體的經驗教訓

mem9的故事始於一次客戶請求,從一個快速原型發展成一個完整產品。本文分享了構建智慧體記憶體的關鍵經驗:記憶體不僅僅是儲存問題,而是涉及攝取、排序、評估和產品判斷的工程挑戰。記憶體API本身不足以構成產品,使用者需要檢視、檢查、信任和糾正智慧體的記憶。此外,評估應成為記憶體產品的基礎設施,以使質量視覺化和可除錯。最後,智慧體記憶體不應侷限於文本,應向多模態發展。

  • mem9起源於客戶提出的實際問題,而非市場理論,透過快速原型驗證了價值。
  • 智慧體記憶體的核心挑戰並非持久化,而是在生產約束下精確檢索相關資訊。
站內正文

[AINews] 創始人與前向部署工程師

在消化Anthropic重大新聞的間隙,我們重點介紹了AIE的新前向部署工程師計劃和創始人計劃,以及5月28-29日的AI新聞。主要話題包括:Claude Opus 4.8釋出及其基準測試爭議、多輪強化學習中的tokenization錯誤、開源模型與工具鏈進展、Google和OpenAI的Agent產品擴充套件,以及值得關注的研究論文。

  • Claude Opus 4.8帶來增量改進,但基準測試未顯示絕對優勢,定價仍是主要痛點。
  • 多輪強化學習訓練中的tokenization錯誤被指出,需嚴格遵循“Token-In, Token-Out”規則。
站內正文

利用IBM量子取樣迴圈調優僅CPU的Qwen3-30B推理

一個研究專案展示了在2017年MacBook Air上,透過結合人類實驗者、Codex、llama.cpp、本地資料庫和IBM量子處理器取樣,將Qwen3-30B模型的推理速度從0.09 tokens/sec提升至14.03 tokens/sec,同時保持輸出連貫性。該方法並非在量子處理器上執行模型,而是用量子取樣最佳化推理配置。

  • 在8GB記憶體的2017年MacBook Air上,無GPU執行Qwen3-30B模型
  • 透過人機協同量子最佳化迴圈,速度從0.09 tok/s提升到14.03 tok/s
站內正文

代幣還是人類?重塑企業預算的新AI成本權衡

本文探討了AI代幣成本與人類勞動力成本之間的權衡,以及這一新現實如何影響企業預算分配。

  • AI代幣成本與人類勞動力成本之間的權衡正在重新定義企業預算。
  • 企業需要重新評估在自動化和人力之間的投資。
站內正文

AI之後的軟體架構

本文探討了AI如何大幅降低程式碼級決策的逆轉成本,從而重新定義軟體架構的邊界。作者認為,許多以往被視為架構的決策(如模組結構、框架選擇)已不再是架構問題,而資料架構、服務邊界和使用者信任等仍然難以更改。AI同時提升了可觀測性和業務戰略對齊的重要性。

  • AI將程式碼級決策的逆轉成本從數月降至數天,使得這些決策不再屬於架構範疇。
  • 資料架構、信任和服務邊界仍然是架構核心,因為其困難從未在於程式碼本身。
站內正文

輝達推出X-Token:投影引導的跨分詞器知識蒸餾,在Llama-3.2-1B上平均得分超過GOLD 3.82個百分點

輝達的X-Token解決了GOLD在跨分詞器知識蒸餾中的兩個結構性缺陷,在GSM8k等數學推理基準上取得了顯著改進。它利用投影矩陣和P-KL與H-KL損失之間的選擇機制來處理分詞器不匹配問題。

  • X-Token修復了GOLD中的不常見詞元失敗和過於保守匹配問題。
  • 在使用Qwen-4B教師模型時,它在Llama-3.2-1B上平均得分超過GOLD 3.82個百分點。
站內正文

AI編碼支出去向:48%寫程式碼,40%思考

一位開發者透過自建工具CodeBurn追蹤AI編碼API支出,發現30天內$7,890的支出中僅47.9%用於實際編碼,其餘花費在探索程式碼庫、除錯、委託子代理和對話上。文章詳細介紹了CodeBurn的功能,包括儀表盤、模型對比、浪費檢測、產出追蹤等。

  • 僅47.9%的AI編碼支出用於實際寫程式碼,40%用於思考過程。
  • CodeBurn是一款開源CLI工具,可分類13種API呼叫任務。
站內正文

StepFun 釋出 Step 3.7 Flash:面向編碼智慧體和搜尋工作流的 198B MoE 視覺語言模型

Step 3.7 Flash 是一款 198B 稀疏 MoE 模型,擁有約 11B 活躍引數、原生視覺能力和 256K 上下文視窗。在編碼基準測試上相比前代大幅提升,支援 Advisor Mode 實現高價效比的智慧體推理,並以 Apache 2.0 許可證開源。

  • 198B MoE 視覺語言模型,活躍引數約 11B,上下文視窗 256K。
  • SWE-Bench Pro 得分 56.26%,較前代 51.3% 提升,且跨框架方差縮小。
站內正文

本地AI硬體:2.6年回本?

蘋果Mac Mini M4 Pro和Mac Studio大記憶體型號因本地AI需求激增而缺貨。本地自主AI代理(如OpenClaw)興起推動硬體搶購。但即便慷慨估算,購買128GB記憶體的本地裝置(如GMKtec EVO-X2,3299美元)執行Gemma 4模型,需2.6年才能透過節省API費用回本。

  • 蘋果Mac Mini M4 Pro和Mac Studio高配版因本地AI需求消失。
  • OpenClaw等自主AI代理框架在本地硬體上爆發。
站內正文

打造了一個能視覺化解釋數學而非僅給出答案的AI

Claw Learn是一款開源的AI驅動視覺化數學導師,結合ElevenLabs語音引擎和自定義畫布渲染器,將數學問題轉化為即時動畫講解。使用者可透過語音或文字提問,觀看同步動畫和敘述。支援多種AI模型和部署方式,已引起廣泛關注。

  • Claw Learn將數學問題轉化為視覺動畫講解,支援即時語音互動和打斷追問。
  • 專案基於Next.js 16,使用ElevenLabs WebRTC語音引擎實現低延遲語音輸入輸出,並提供REST TTS和瀏覽器語音識別作為降級方案。
站內正文

DDS Vibe Academy – 47個免費AI程式設計大師課程,由AI代理構建

DDS Vibe Academy 提供47個免費AI程式設計大師課程,全部由AI代理構建。創始人Robert McCullock僅設計約束條件,未編寫一行程式碼。課程涵蓋基礎、開發、應用和精通四個級別,涉及Claude、Antigravity、MCP等技術。

  • 47個免費AI程式設計大師課程,由AI代理構建
  • 創始人聲稱未編寫任何程式碼,僅設計約束
站內正文

SiteGround在WordPress 7.0中強行注入AI的做法令人反感

作者批評SiteGround在WordPress 7.0更新中未經使用者同意自動啟用AI聯結器和AI代理,認為這是一種欺騙性的強制推廣,尤其對於付費使用者而言。該外掛雖迅速獲得百萬安裝量,但評價極差。作者因此計劃更換主機商。

  • SiteGround自動將WordPress 7.0升級並啟用AI Studio作為預設AI聯結器,同時啟用AI代理。
  • 作者認為這是欺騙性做法,使用者需付費但未獲得選擇權。
站內正文

直譯器技能:為智慧體構建工作流

本文介紹了LangChain提出的直譯器技能(Interpreter Skills)概念,這是一種將確定性程式碼與智慧體指令結合的方法。透過讓智慧體在直譯器中匯入並執行TypeScript模組,可以構建更可靠、可評估的工作流,例如用於GitHub問題分類等任務。

  • 直譯器技能擴充套件了傳統技能,包含一個TypeScript模組供智慧體在直譯器中執行。
  • 確定性部分以程式碼形式存在,智慧體決定何時呼叫並傳入引數,提高了可靠性和可評估性。
站內正文

開源安全一團糟 - IBM和紅帽押注50億美元和2萬名工程師能修復它

IBM和紅帽聯合啟動Project Lightwell,這是一個AI驅動的開源安全計劃,投入50億美元和2萬名工程師,旨在規模化發現和修復開源軟體中的漏洞。該計劃最初專注於Maven/Java生態系統,隨後將擴充套件至PyPI、npm、Go等。Lightwell將作為企業級中間人,透過AI掃描、人工稽核補丁的方式,與上游社群協作,併為客戶提供商業訂閱服務。

  • IBM和紅帽投資50億美元、投入2萬名工程師啟動Project Lightwell,以AI方式大規模解決開源安全問題。
  • 該專案初期聚焦Maven/Java生態系統,後續擴充套件至其他關鍵開原始碼庫。
站內正文

Liquid AI釋出基於38T tokens訓練的8B-A1B MoE模型

Liquid AI釋出了LFM2.5-8B-A1B,一款面向終端裝置的混合專家模型,總引數8B,活躍引數1B,訓練資料量達38萬億 tokens。該模型支援128K上下文視窗,擴充套件了詞彙表以提升非拉丁語言的分詞效率,並採用純推理鏈式思維模式。在基準測試中表現優異,同時具有出色的CPU和GPU推理速度,適用於本地代理任務。

  • LFM2.5-8B-A1B是一款8B總引數、1B活躍引數的MoE模型,訓練於38T tokens。
  • 上下文視窗擴充套件至128K,詞彙表翻倍至128K,顯著提升非拉丁語言的處理效率。
站內正文

不可持續的人工智慧補貼

Google、OpenAI 和 Anthropic 採用了截然不同的 AI 定價策略。Google 是低成本玩家,儘管漲價但仍低於對手一半。Anthropic 曾維持高價,OpenAI 則先補貼後漲價。這些變化反映了各公司在資本支出創紀錄背景下對市場份額和利潤率的權衡。

  • Google Gemini 3.1 Pro 輸入 2 美元/百萬 tokens,輸出 12 美元/百萬 tokens。
  • Anthropic Claude Opus 4.7 輸入 5 美元,輸出 25 美元。
站內正文

人工智慧會助長極權主義嗎?

本文探討了人工智慧可能如何改變中央集權與分權治理之間的權衡,從而增加極權主義出現的可能性。文章回顧了歷史上通訊和官僚技術對極權統治的促進作用,並分析了AI在資訊處理、監控、宣傳和軍事能力方面的進步如何可能使獨裁政體更有效,甚至縮小民主與專制之間的經濟績效差距。

  • AI可能透過增強中央資訊處理和監控能力,降低獨裁統治的成本。
  • 歷史上如納粹德國和東德利用技術實現控制,而印刷術和網際網路曾促進自由。
站內正文

4nm!比亞迪自研AI晶片來了:製程對齊輝達,算力拉爆特斯拉

比亞迪釋出了中國首顆車規級4奈米智駕晶片璇璣A3,採用自研NPU架構,三顆組合算力超2100 TOPS,單位功耗比同類低20%,算力利用率提升100%。王傳福承諾智駕事故全額賠付。

  • 比亞迪釋出中國首顆4nm智駕晶片璇璣A3,全自研設計
  • 採用專用NPU架構,功耗低20%,算力利用率翻倍
站內正文

每秒3000 tokens的LLM遊樂場

一個高速LLM遊樂場,每秒可處理3000個token,提供開放Web介面。

  • 每秒3000 token吞吐量
  • 開放WebUI介面
站內正文

Claude Opus 4.8:更智慧的模型,正確的方向

Anthropic釋出Claude Opus 4.8,重點提升可靠性、誠實性和自主工作流能力,而非單純追求基準分數。定價保持不變,快速模式大幅降價。

  • Claude Opus 4.8注重可靠性和不確定性處理,而非原始智力。
  • 標準定價與Opus 4.7相同:每百萬輸入5美元,輸出25美元;快速模式降價三倍。
站內正文

TheFoundry:多智慧體系統的簡易引導框架

TheFoundry 是一個使用者友好、企業級的多智慧體系統(MAS)引導框架,旨在解決現代 AI 編碼中的關鍵失敗點,如令牌遺忘、無限迴圈、架構漂移和智慧體衝突。它採用拉取式工作流、共享看板、上下文範圍限制、步驟預算、基於 TOML 的確定性通訊和臨時引導器,讓多個專業 AI 智慧體自主協作構建軟體專案。

  • 拉取式工作流:智慧體從自己的任務佇列中拉取任務,避免集中排程器丟失上下文。
  • 共享看板:智慧體透過 team_status.md 即時彙報狀態,提供團隊感知。
站內正文

一張1941年的股票證書讓我比OpenAI任何人更懂AI

透過19世紀鐵路熱潮與當今AI投資的對比,揭示資本密集型技術如何重塑金融體系。鐵路催生了債券市場和現代金融,而AI正重複這一過程。歷史表明過度投資和全球金融牽連可能導致危機,AI投資者需警惕類似風險。

  • 1850年代鐵路投資佔GDP的3-5%,如今五大科技公司AI投入比例相似。
  • 鐵路債券催生了現代金融市場,AI正重塑資本配置方式。
站內正文

Step 3.7 Flash:為智慧代理打造的開源閃電模型

Stepfun 推出了 Step 3.7 Flash,這是一個 Apache 2.0 開源模型,專為即時智慧代理設計。它結合了視覺、編碼、搜尋和工具使用能力,擁有 256K 上下文視窗和約 110 億活躍引數,推理速度高達 400 TPS。

  • Step 3.7 Flash 是 Stepfun 釋出的第二代 Flash 模型,採用 Apache 2.0 開源許可。
  • 模型面向現實世界的智慧代理,支援視覺、編碼、搜尋和工具呼叫。
站內正文

喬尼·艾維設計的奇特法拉利

法拉利首款電動車Luce,由喬尼·艾維參與設計,外觀顛覆傳統,引發熱議。本期Vergecast討論了其設計、技術以及對電動車市場的影響,還涉及AI的普及與公眾反感等話題。

  • 法拉利首款電動車Luce設計由喬尼·艾維操刀,外觀與傳統法拉利截然不同。
  • Vergecast討論了Luce的設計爭議、技術潛力以及電動車市場現狀。
站內正文

軌道計算

本文分析了在太空建設AI資料中心的可行性,包括其物理優勢(持續的太陽能、被動輻射冷卻、真空光速通訊)和工程限制(散熱、輻射加固、訓練同步、維護)。關鍵假設是星艦的發射成本。目前多個初創公司和谷歌、SpaceX等巨頭已啟動試點專案。近期的投資影響有限,但值得關注。

  • 軌道AI資料中心利用LEO的連續太陽能、被動冷卻和雷射鏈路,潛在優於地面資料中心
  • 工程挑戰包括散熱(高密度叢集需要巨大散熱面積)、輻射加固(商用晶片在軌壽命未知)以及訓練同步延遲
站內正文

PPIO入選非凡產研「2026 Global AI 100」,以AI實力領跑出海新浪潮

PPIO 入選非凡產研發布的「2026 Global AI 100」榜單,該榜單由非凡大賞年度 AI 全球化增長峰會評選,旨在發掘全球化 AI 原生公司。PPIO 以全球化分散式算力基礎設施、全棧雲服務、模型平臺(支援 DeepSeek、GLM 等)及 Agent 沙箱等創新產品,為出海企業提供低時延、高可用的算力網路。截至 2026 年 4 月,PPIO 整合全球 4800+ 節點,日均 Token 呼叫量超 10000 億,開發者使用者超 57 萬。同時獲評上海市數字出海服務平臺試點單位及 GDA 領航服務站。

  • PPIO 入選「2026 Global AI 100」榜單,彰顯其在 AI 出海領域的領先地位。
  • 提供全球化分散式算力基礎設施,覆蓋 GPU 全型號,支援大規模訓練與推理。
站內正文

開源生態系統

本文探討了開源AI策略的侷限性,特別是開放權重模型和開放協議(如MCP)如何被私有參與者捕獲價值。透過分析Anthropic收購Stainless(一家生成SDK和MCP伺服器的初創公司)的案例,說明了開發者體驗層正在被平臺巨頭整合,形成新的護城河。文章強調,開源的影響高度依賴於其依賴關係,需要從生態系統整體視角分析瓶頸。

  • 開放權重模型作為開源策略有其限制,仍需昂貴硬體且架構不易組合。
  • Anthropic收購Stainless顯示了協議互補層的價值捕獲,而非協議本身被捕獲。
站內正文

Anthropic 釋出 Claude Opus 4.8

Anthropic 釋出了 Claude Opus 4.8,相比 Opus 4.7 在程式設計、代理工作、推理和知識工作方面有所提升。新功能包括努力控制、動態工作流和 Messages API 即時更新。定價不變,標準版每百萬代幣輸入/輸出 5/25 美元,快速版 10/50 美元。早期測試顯示成本與 GPT-5.5 相當,工具步驟更少。公司還透露了未來路線圖,包括 Mythos 級模型和網路安全專案 Glasswing。

  • Claude Opus 4.8 在程式設計、代理工作、推理和知識工作方面優於 Opus 4.7。
  • 新增努力控制、動態工作流和 Messages API 即時更新功能。
站內正文

Cognition(Devin):以260億美元估值完成10億美元D輪融資

Cognition宣佈完成超10億美元D輪融資,估值達260億美元,由Lux Capital、General Catalyst和8VC領投。公司推出的AI軟體工程師Devin自兩年前上線以來,企業使用量增長超10倍,年化收入達4.92億美元。Devin已為花旗、梅賽德斯-賓士、高盛等大型組織提供服務,並幫助客戶實現顯著效率提升,如梅賽德斯-賓士將八個月的現代化改造專案縮短至八天。Cognition正朝著自主軟體開發的方向發展,其內部工程團隊89%的程式碼由Devin提交。

  • Cognition以260億美元估值完成超10億美元D輪融資
  • AI軟體工程師Devin企業使用量年初至今增長超10倍,年化收入達4.92億美元
站內正文

5億Tokens白送!全球首個商用AI主機發布,終於能放開燒Token了

聯想釋出全球首款商用AI主機系列,專為一人公司(OPC)和成長型企業設計,透過本地+雲端混合架構解決Token成本高和資料安全問題,並贈送大量Tokens,開箱即用。

  • 聯想釋出三款AI主機:mini 100、300、Pro 700,覆蓋個人到團隊。
  • 本地推理+雲端彈性,Token成本可降低70%-95%。
站內正文

mKernel:多GPU、多節點融合核心庫,實現GPU驅動通訊

加州大學伯克利分校UCCL團隊釋出mKernel,將節點內NVLink、節點間RDMA和密集計算融合到單個持久CUDA核心中,旨在減少AI工作負載中的通訊開銷。研究顯示通訊可佔用前向傳播43.6%和訓練總時間32%的時間。mKernel提供五種融合核心,支援ConnectX-7和AWS EFA後端。

  • mKernel將節點內NVLink、節點間RDMA和計算融合到單個持久CUDA核心中
  • 通訊開銷在MoE模型中最高可佔執行時間的47%
站內正文

FreeBSD的AI審計

研究者利用AI對FreeBSD核心進行安全審計,發現15個漏洞,包括5個本地許可權提升、1個bhyve虛擬機器逃逸等,並公開了其中三個LPE漏洞的利用程式碼。該專案旨在幫助維護者更高效地發現和修復漏洞。

  • AI輔助的FreeBSD核心審計發現了15個漏洞
  • 包括5個本地許可權提升和1個虛擬機器逃逸
站內正文

PromptLayer:在一個時間線上追蹤AI請求、工作流和成本

PromptLayer是一個面向開發者的AI可觀測性工具,透過單一時間線和瀑布檢視追蹤請求、工作流、令牌使用、延遲、成本和失敗。支援多步驟AI系統的完整執行路徑。目前提供免費測試版。

  • 透過時間線和瀑布檢視視覺化AI工作流
  • 追蹤令牌使用、延遲和成本
站內正文

首份教皇關於人工智慧的通諭大量由AI撰寫的證據

文章作者透過文本分析、統計證據和AI檢測工具,論證了教皇利奧一世的首份通諭《Magnifica Humanitas》中有大量內容是由AI(特別是Claude)撰寫的。作者指出,通諭中使用的破折號、詞語“genuinely”的頻率遠高於以前的通諭,且Pangram檢測器標記部分段落為AI生成。作者認為,儘管個別證據可能被解釋,但多重證據的吻合難以忽視。

  • 通諭中大量使用破折號和“genuinely”等AI常用詞彙,頻率遠超此前通諭。
  • Pangram檢測器將多個段落標記為40%-100%AI生成,而此前通諭無一被標記。
站內正文

CodePulse——面向AI編碼工具的令牌高效程式碼庫索引器

CodePulse是一個開源的程式碼庫索引工具,透過維護持久的、基於git差異的索引,為AI編碼助手(如Claude Code、OpenAI Codex CLI、Cursor等)在會話啟動時注入緊湊的快照,從而節省60-80%的令牌預算。它支援任務感知排序、git感知排序和自動預算功能,並提供了CLI、MCP伺服器等多種整合方式。

  • 節省AI助手60-80%的探索令牌,透過預構建快照。
  • 支援多種AI工具:Claude Code、Codex CLI、Cursor等。
站內正文

Aryabhata 2:擴充套件強化學習以提升高階STEM推理能力

Aryabhata 2是一個針對競爭性STEM考試(如JEE和NEET)最佳化的推理語言模型,基於GPT-OSS-20B透過強化學習後訓練。它利用PhysicsWallah的內部題庫構建高質量課程,並透過逐步增大的rollout組規模來擴充套件探索。實驗表明,Aryabhata 2在多個基準測試中優於基礎模型,同時輸出令牌減少高達64%。

  • Aryabhata 2採用強化學習後訓練,專為JEE、NEET等競爭性STEM考試設計。
  • 模型基於GPT-OSS-20B,使用PhysicsWallah的定製題庫進行訓練。
站內正文

連續性與序數性至關重要:約束時間序列標記以實現基於大型語言模型的有效時間序列分析

本文提出COM方法,透過在初始化和訓練階段引入幾何約束,保留時間序列標記的連續性和序數性,顯著提升基於令牌的時間序列大語言模型(TS-LLM)的效能。實驗表明,COM在多個基準上取得一致改進和強泛化能力。

  • 時間序列大語言模型(TS-LLM)忽略了標記的連續性和序數性,導致效能受限。
  • COM透過幾何約束在初始化和訓練中保留這些特性,提升模型效果。
站內正文

一次性軟體——如何停止擔憂並愛上AI程式碼

文章探討了“一次性軟體時代”的概念,認為AI生成的程式碼應被視為可丟棄的,就像工業革命中的傢俱一樣。作者透過一個實際案例展示瞭如何用AI重構程式碼,並提出了“一次性程式碼宣言”,強調程式碼需滿足意圖、要求和安全性。

  • AI時代軟體變得廉價且可丟棄,類似工業革命中的批次生產傢俱。
  • 作者透過一個Rails專案案例展示了用AI重構程式碼的成功經驗。
站內正文

清華系團隊給大模型織了一張“智慧算力電網”

清華系創業公司是石科技透過自主研發的並行最佳化技術,構建異構算力資源池與推理最佳化引擎,實現單位Token成本降低40%,旨在打造國產Token調優工廠,降低AI落地門檻。

  • 是石科技成立於2021年,源於國家超算無錫中心,創始人閆博文為清華博士後。
  • 透過全域異構算力池和深度國產化適配,將閒置國產晶片轉化為可用算力。
站內正文

如何最佳化您的AI令牌使用量:repo-brain 工具介紹

repo-brain 是一款開源工具,能將整個程式碼庫壓縮成單個Markdown上下文檔案,實現高達96%的壓縮率,大幅減少AI令牌使用量。它支援多種程式語言的靜態分析、架構分析和語義關係發現,併相容多家AI提供商。

  • 將整個程式碼庫壓縮為單個Markdown上下文檔案,減少AI令牌使用量
  • 在262個檔案的程式碼庫上實現96%壓縮率(從154,229降至6,487令牌)
站內正文

Anthropic完成9650億美元H輪融資,釋出Opus 4.8和Dynamic Workflows/ultracode

Anthropic以9650億美元估值完成650億美元H輪融資,同時披露470億美元年化收入,併發布Claude Opus 4.8更新(提升判斷力、誠實度和長時自主工作能力)以及Claude Code的Dynamic Workflows功能(支援數百個並行子代理)。

  • Anthropic完成650億美元H輪融資,估值9650億美元,由Altimeter、Dragoneer、Greenoaks和Sequoia領投
  • Opus 4.8大幅改進判斷力、誠實度和效率,在SWE-Bench Pro等基準上領先GPT-5.5
站內正文

ReadyToTalk – 專為小企業打造的AI前臺,由AI代理獨立構建

ReadyToTalk是一款專為小企業設計的AI前臺接待員,能在2秒內接聽所有來電,提供24/7全天候服務,支援30多種語言,並自動學習企業資訊。每月僅需39美元,無需技術知識即可在幾分鐘內完成設定。

  • 每次通話在2秒內接聽,全天候24/7覆蓋,包括節假日。
  • 支援30多種語言,自動檢測呼叫者語言並自然回應。
站內正文

更多增長標籤