AI News HubLIVE

今日必讀

Agent

Robinhood:讓AI代理為您交易和消費

Robinhood推出新工具,使AI代理能夠代表用户進行交易和支付,可能將AI驅動的金融交易帶入主流。

  • Robinhood正在開發AI代理,可代表用户執行交易和消費決策。
  • 這些工具旨在簡化金融操作,讓AI管理日常交易。
站內正文

人工智能會助長極權主義嗎?

本文探討了人工智能可能如何改變中央集權與分權治理之間的權衡,從而增加極權主義出現的可能性。文章回顧了歷史上通信和官僚技術對極權統治的促進作用,並分析了AI在信息處理、監控、宣傳和軍事能力方面的進步如何可能使獨裁政體更有效,甚至縮小民主與專制之間的經濟績效差距。

  • AI可能通過增強中央信息處理和監控能力,降低獨裁統治的成本。
  • 歷史上如納粹德國和東德利用技術實現控制,而印刷術和互聯網曾促進自由。
站內正文

Anthropic Opus 4.8 表明AI實驗室關注客户需求

Anthropic推出Opus 4.8模型,旨在幫助企業處理複雜工作流程,並允許用户選擇適合其應用的模式,展現了對客户需求的重視。

  • Anthropic Opus 4.8 模型專注於企業複雜工作流程
  • 模型提供可選擇的模式以適應不同應用
站內正文

問題不在AI Agent——現有系統和API並非為AI設計

MCP Bridge通過混合搜索和AI增強技術,解決企業API對AI Agent不可讀的問題,根據API響應結構自動生成有意義的名稱和描述,大幅提升工具選擇準確率。

  • 混合搜索結合全文搜索、向量搜索和重新排序器,改善工具發現。
  • 企業API常使用如'getProcInfo3'等晦澀名稱,文檔匱乏。
站內正文

2026年DataHack峯會上最值得關注的25位AI先驅

本文介紹了將於2026年DataHack峯會上演講的25位最具影響力的AI先驅,包括來自谷歌DeepMind、微軟AI、沃爾瑪等公司的研究科學家、數據科學家、創始人和企業AI領袖。他們正在推動AI技術邊界、構建社區並將模型轉化為產品。

  • 2026年DataHack峯會將匯聚25位頂級AI先驅,涵蓋研究、應用和領導力。
  • 演講者包括谷歌DeepMind的Dheeraj Nagaraj、微軟AI的Hardik Meisheri等。
站內正文

“AI乾的”不會在歐盟監管機構找上門時救你

歐盟的《網絡彈性法案》(CRA)即將實施,要求組織對網絡安全負責,報告義務自2026年9月開始,全面合規至2027年12月。該法規適用於在歐盟銷售的所有聯網產品和軟件,包括AI生成的代碼。關鍵要求包括安全設計、生命週期漏洞處理、SBOM透明度以及24小時內報告被利用的漏洞。組織必須立即採取行動進行審計、記錄和實施SBOM工具。“AI乾的”不是藉口。

  • 歐盟《網絡彈性法案》對在歐盟銷售的所有聯網產品施加嚴格的網絡安全要求,關鍵截止日期為2026年和2027年。
  • 組織必須將安全融入開發生命週期,提供軟件物料清單(SBOM),並在24小時內報告被積極利用的漏洞。
站內正文
工具

我在Android Auto中使用Gemini兩個月,它從4個方面改變了我每日通勤

作者體驗Gemini在Android Auto中的表現兩個月,發現它讓駕駛更安全、更有趣、更高效,並改善了家庭出行體驗。語音控制變得輕鬆自然,減少了手動操作,增加了與家人的互動,並實現了智能家居遠程控制。

  • 減少使用手機和屏幕,語音完成多任務
  • 家庭出行不再無聊,孩子喜歡互動娛樂
站內正文
芯片

4nm!比亞迪自研AI芯片來了:製程對齊英偉達,算力拉爆特斯拉

比亞迪發佈了中國首顆車規級4納米智駕芯片璇璣A3,採用自研NPU架構,三顆組合算力超2100 TOPS,單位功耗比同類低20%,算力利用率提升100%。王傳福承諾智駕事故全額賠付。

  • 比亞迪發佈中國首顆4nm智駕芯片璇璣A3,全自研設計
  • 採用專用NPU架構,功耗低20%,算力利用率翻倍
站內正文

來自Google的全棧邊緣AI平台

Google的Coral平台提供全棧邊緣AI解決方案,為軟件和硬件開發者提供本地化AI模型部署的工具。

  • Coral將AI優先的硬件與統一的開發者體驗相結合
  • 通過MLIR編譯器工具鏈支持PyTorch、JAX和LiteRT模型
站內正文
模型

每秒3000 tokens的LLM遊樂場

一個高速LLM遊樂場,每秒可處理3000個token,提供開放Web界面。

  • 每秒3000 token吞吐量
  • 開放WebUI界面
站內正文
其餘更新(169 條)
Agent

在CMS TEAM下贏得成功:構建學習型健康系統以實現價值醫療

自2026年1月1日起,美國超過700家醫院需根據CMS TEAM計劃管理五個高容量外科手術的總成本和質量。成功需要統一且AI驅動的數據平台以實現主動干預,典型成果包括減少15%的護理設施成本和降低12%的再入院率。

  • CMS TEAM計劃自2026年1月起強制對五個外科手術實施捆綁支付。
  • 醫院需要整合臨牀、索賠和急性後期數據的統一數據平台。
站內正文

TheFoundry:多智能體系統的簡易引導框架

TheFoundry 是一個用户友好、企業級的多智能體系統(MAS)引導框架,旨在解決現代 AI 編碼中的關鍵失敗點,如令牌遺忘、無限循環、架構漂移和智能體衝突。它採用拉取式工作流、共享看板、上下文範圍限制、步驟預算、基於 TOML 的確定性通信和臨時引導器,讓多個專業 AI 智能體自主協作構建軟件項目。

  • 拉取式工作流:智能體從自己的任務隊列中拉取任務,避免集中調度器丟失上下文。
  • 共享看板:智能體通過 team_status.md 實時彙報狀態,提供團隊感知。
站內正文

Step 3.7 Flash:為智能代理打造的開源閃電模型

Stepfun 推出了 Step 3.7 Flash,這是一個 Apache 2.0 開源模型,專為實時智能代理設計。它結合了視覺、編碼、搜索和工具使用能力,擁有 256K 上下文窗口和約 110 億活躍參數,推理速度高達 400 TPS。

  • Step 3.7 Flash 是 Stepfun 發佈的第二代 Flash 模型,採用 Apache 2.0 開源許可。
  • 模型面向現實世界的智能代理,支持視覺、編碼、搜索和工具調用。
站內正文

遷移至新CRM的5個最佳實踐

更換CRM存在數據丟失和工作流程中斷的風險。遵循這五個最佳實踐可確保遷移順利。

  • 遷移前審計現有數據,清除重複和過時記錄。
  • 構建詳細的字段映射文檔,避免數據錯位。
站內正文

AI代碼發佈速度超過安全檢測能力:Snyk推出AI滲透測試平台

Snyk推出Evo持續進攻安全(COS)產品,針對AI生成代碼和自主攻擊者時代的企業漏洞發現與修復缺口,提供持續滲透測試替代方案,覆蓋傳統測試每年僅15天的窗口期,填補350天空白。該產品利用平台上下文信息,結合確定性掃描與LLM推理,檢測業務邏輯漏洞和權限繞過等傳統工具難以發現的缺陷。

  • Snyk發佈Evo COS,提供持續AI滲透測試,替代傳統每15天一次的測試模式。
  • 產品區分啓發式可檢測漏洞和上下文依賴漏洞,LLM用於發現後者。
站內正文

Show HN: Adaptive Runtime – AI智能體層,無需GPU,支持崩潰恢復

Adaptive Runtime是一個開源Python庫,為有狀態AI系統提供運行時智能層。它包含五個核心引擎(狀態、上下文、置信度、決策、恢復),解決生產環境中AI系統的崩潰恢復、狀態持久化、置信度評分等問題。無需GPU,可在低成本VPS上運行。

  • Adaptive Runtime是一個運行時智能層,專為有狀態AI系統設計,解決生產環境中的運行時問題。
  • 包含五個核心引擎:狀態引擎、上下文引擎、置信度引擎、決策引擎和恢復引擎。
站內正文

PPIO入選非凡產研「2026 Global AI 100」,以AI實力領跑出海新浪潮

PPIO 入選非凡產研發布的「2026 Global AI 100」榜單,該榜單由非凡大賞年度 AI 全球化增長峯會評選,旨在發掘全球化 AI 原生公司。PPIO 以全球化分佈式算力基礎設施、全棧雲服務、模型平台(支持 DeepSeek、GLM 等)及 Agent 沙箱等創新產品,為出海企業提供低時延、高可用的算力網絡。截至 2026 年 4 月,PPIO 整合全球 4800+ 節點,日均 Token 調用量超 10000 億,開發者用户超 57 萬。同時獲評上海市數字出海服務平台試點單位及 GDA 領航服務站。

  • PPIO 入選「2026 Global AI 100」榜單,彰顯其在 AI 出海領域的領先地位。
  • 提供全球化分佈式算力基礎設施,覆蓋 GPU 全型號,支持大規模訓練與推理。
站內正文

AI是否正導致前端“失去的十年”重演?

本文探討AI對編程工作的去技能化影響,類比前端框架過去十年帶來的變化。作者通過分析去技能化、抽象層次、以及包豪斯運動的啓示,指出AI編程與前端發展相似,可能導致技能貶值和質量下降。

  • AI正在像前端框架一樣去技能化編程工作,降低門檻但削弱工人議價能力。
  • AI編程是一種泄漏的抽象,非確定性輸出需要深入理解才能修復問題。
站內正文

不可治理的人工智能官僚主義時代

本文探討了人工智能如何催生了一種新的、難以問責的官僚主義。作者認為,AI系統雖然擅長處理日常事務(如整理郵件、報銷),但其本質是程序化的官僚,缺乏真正的目標和責任感。隨着AI在企業和政府中廣泛應用,它可能創造出更復雜、更難以擺脱的官僚體系,而人類卻無法像對待人類官僚那樣對其進行監督或解僱。

  • AI的“產品市場契合”在於處理日常瑣碎的官僚事務,但同時也帶來了新的、不可治理的官僚主義。
  • AI模型被訓練得謹慎規避風險,導致越來越多的拒絕和千篇一律的輸出。
站內正文

超越下一個詞預測:通過神經符號圖強制執行法律層級

傳統的生成式AI僅預測下一個詞,對精確法律分析風險太高。下一代法律技術結合神經符號AI(強制遵循邏輯和法律來源層級)與圖檢索增強生成(GraphRAG,將數據映射為互聯網絡以理解上下文),大幅降低幻覺風險並提供可審計的推理過程。

  • 神經符號AI結合語言模型與符號邏輯引擎,強制法律推理鏈和來源層級。
  • GraphRAG將法律文檔映射為知識圖譜,提供上下文檢索而非孤立片段。
站內正文

Crabbox.sh Pond – 面向AI代理和CI的運行時池

Pond是Crabbox.sh中用於分組相關租約、發現彼此並統一釋放的輕量級機制。它支持多種傳輸平面(Tailscale、URL橋、SSH網格),允許混合使用不同提供商。本文介紹了Pond的核心概念、快速入門、命令、傳輸平面、用例以及Tailscale集成等。

  • Pond是一種邏輯分組,通過共享的pond=標籤將活動租約關聯起來。
  • 支持Tailscale、URL橋和SSH三種傳輸平面,實現成員間的不同通信方式。
站內正文

Flathub 禁止使用AI生成的代碼

Flathub 更新了其政策,明確禁止在提交的應用和提交本身中包含AI生成或輔助生成的代碼、文檔或其他內容。該政策也禁止使用AI工具生成或自動化拉取請求和審查。對於成熟且維護良好的項目,可能給予例外。

  • Flathub 的生成式AI政策適用於提交的應用和提交的元數據、補丁等。
  • 禁止使用AI工具生成、打開或自動化拉取請求,也禁止請求AI審查。
站內正文

Adobe的對話式AI助手:一個平庸的設計實習生

Adobe最新的AI圖像助手Firefly AI Assistant更像是一個多任務的中介,可以為你操作Adobe的設計應用。它不僅能執行編輯任務,還會解釋其操作過程,甚至承認自己的侷限性。儘管結果並不完美,但它在交互方式上令人耳目一新,有助於用户學習設計技巧。

  • Firefly AI Assistant可以操作Photoshop和Illustrator等Adobe應用完成多步驟項目。
  • 該助手會詳細解釋其編輯過程,並清楚地説明其侷限性。
站內正文

Cognition(Devin):以260億美元估值完成10億美元D輪融資

Cognition宣佈完成超10億美元D輪融資,估值達260億美元,由Lux Capital、General Catalyst和8VC領投。公司推出的AI軟件工程師Devin自兩年前上線以來,企業使用量增長超10倍,年化收入達4.92億美元。Devin已為花旗、梅賽德斯-奔馳、高盛等大型組織提供服務,並幫助客户實現顯著效率提升,如梅賽德斯-奔馳將八個月的現代化改造項目縮短至八天。Cognition正朝着自主軟件開發的方向發展,其內部工程團隊89%的代碼由Devin提交。

  • Cognition以260億美元估值完成超10億美元D輪融資
  • AI軟件工程師Devin企業使用量年初至今增長超10倍,年化收入達4.92億美元
站內正文

面壁智能「開源周」:一場定義端側 AI 終局的系統性「亮劍」

面壁智能於5月25日至29日舉辦端側大模型開源周,發佈五項技術成果,涵蓋訓練框架、模型壓縮、數據集和智能體操作系統,展現全鏈路系統性創新。MiniCPM5-1B性能超越GPT-4o部分版本,端側AI終局之戰聚焦系統工程。

  • 面壁智能在2026年5月25-29日舉辦端側大模型開源周,每日發佈一項關鍵技術。
  • 五項成果包括BitCPM-CANN、MiniCPM5-1B、ForgeTrain、PilotDeck和UltraData,形成全棧閉環。
站內正文

5億Tokens白送!全球首個商用AI主機發布,終於能放開燒Token了

聯想發佈全球首款商用AI主機系列,專為一人公司(OPC)和成長型企業設計,通過本地+雲端混合架構解決Token成本高和數據安全問題,並贈送大量Tokens,開箱即用。

  • 聯想發佈三款AI主機:mini 100、300、Pro 700,覆蓋個人到團隊。
  • 本地推理+雲端彈性,Token成本可降低70%-95%。
站內正文

下限零基礎,上限肝大作!騰訊這個AI遊戲創作平台,太野了

下一波AI創作浪潮正在遊戲領域發生,騰訊發佈AI遊戲創作平台「代號Craft」,用户可通過自然語言生成可運行的遊戲,2D/3D均支持,內置AIGC工具和免費資產,極大降低遊戲創作門檻。

  • 騰訊發佈AI遊戲創作平台「代號Craft」,支持自然語言生成遊戲
  • 平台同時覆蓋2D和3D遊戲,內置完整AIGC管線與免費資產
站內正文

創意設計版WorkBuddy來了!騰訊發佈智能體創意工作室Miora

騰訊發佈Miora,一款集圖像、視頻、UI/UX和3D生成於一體的AI創意工作室。它具備記憶系統、多模態畫布和可定製的Skills,讓一個人擁有整個創意工作室。

  • 騰訊發佈Miora,一款全場景創意智能體工作室
  • 支持圖像、視頻、UI/UX、3D等多模態內容生成
站內正文

AI代理權限:介於“可行”與“安全”之間的缺失層

本文探討了AI編碼代理(以Claude Code為例)在權限管理中的安全隱患,包括命令誤執行、憑據泄露、提示注入等風險。文章指出人類監督存在“權限疲勞”問題,並介紹了Anthropic提出的沙箱、自動模式、鈎子等緩解措施,同時強調了使用開發容器和最小化權限原則的重要性。

  • AI代理在執行自然語言命令時可能造成數據刪除、憑據泄露等災難性後果,人類監督並非萬能。
  • Anthropic的遙測顯示用户批准了約93%的權限提示,存在顯著的權限疲勞問題。
站內正文

一個圖譜,多個原生界面:推測AI與跨平台應用

AI可能改變跨平台應用開發的方式,從統一UI框架轉向一個產品圖譜,由代理生成多個原生界面。

  • 跨平台框架試圖共享代碼,但往往犧牲原生體驗。
  • AI代理可能更有效地在原生環境中工作,需要一個共享的意圖來源。
站內正文

PromptLayer:在一個時間線上追蹤AI請求、工作流和成本

PromptLayer是一個面向開發者的AI可觀測性工具,通過單一時間線和瀑布視圖追蹤請求、工作流、令牌使用、延遲、成本和失敗。支持多步驟AI系統的完整執行路徑。目前提供免費測試版。

  • 通過時間線和瀑布視圖可視化AI工作流
  • 追蹤令牌使用、延遲和成本
站內正文

當人工智能開始編寫系統代碼

探討人工智能生成系統代碼的意義與潛在影響。

  • AI編寫系統代碼可能提高效率,但也帶來可靠性和安全性挑戰。
  • 需要新的驗證和測試方法來確保AI生成代碼的正確性。
站內正文

CodePulse——面向AI編碼工具的令牌高效代碼庫索引器

CodePulse是一個開源的代碼庫索引工具,通過維護持久的、基於git差異的索引,為AI編碼助手(如Claude Code、OpenAI Codex CLI、Cursor等)在會話啓動時注入緊湊的快照,從而節省60-80%的令牌預算。它支持任務感知排序、git感知排序和自動預算功能,並提供了CLI、MCP服務器等多種集成方式。

  • 節省AI助手60-80%的探索令牌,通過預構建快照。
  • 支持多種AI工具:Claude Code、Codex CLI、Cursor等。
站內正文

Show HN:開源AI記憶工具包,支持大規模擴展

Lithium是一個基於PostgreSQL ltree的分層版本化存儲引擎,提供確定性、範圍化的檢索,內置版本控制,零運行時依賴。它通過MCP服務器與AI工具集成,適用於AI代理記憶、決策跟蹤等場景。

  • 使用PostgreSQL ltree實現分層版本化存儲,查詢速度優於圖數據庫
  • 提供TypeScript API,支持範圍化檢索和內置版本控制
站內正文

UI測試是AI需要的護欄:clipboardwire的故事

作者因Wayland下剪貼板同步問題,用AI(Claude Code)將Java項目ClipCascade重寫為Rust,創建了輕量級二進制工具clipboardwire。過程中發現AI開發的關鍵瓶頸是反饋質量而非編碼能力,而UI測試是讓AI可靠迭代的護欄。

  • AI生成代碼時,缺乏測試會導致修復舊bug產生新bug,陷入循環。
  • 投入時間編寫涵蓋UI的測試套件後,AI的迭代速度和可靠性顯著提升。
站內正文

金融AI宏觀趨勢調查:利用You.com和Langchain進行歐盟經濟分析

本文介紹了一個使用Deep Agents、LangSmith和You.com金融研究API構建的宏觀經濟研究代理,該代理在約45分鐘內分析所有27個歐盟成員國的GDP數據,檢測異常並生成帶有引用的簡報。報告詳細分析了愛爾蘭和德國的異常增長與收縮原因,並強調了方法透明性和可審計性的重要性。

  • 構建的AI代理可在45分鐘內分析27個歐盟國家的GDP數據並生成詳細簡報,API成本約2.20美元。
  • 愛爾蘭12.3%的GDP增長主要由製藥出口激增驅動,而德國則因汽車和建築業收縮出現結構性衰退。
站內正文

開放運動規劃庫2.0發佈

開放運動規劃庫(OMPL)自2008年首次發佈以來,已成為運動規劃社區的基石,提供了大量最先進的基於採樣的算法實現。經過近二十年的持續發展,OMPL 2.0通過硬件加速瞄準實時運動規劃,並與現代AI研究工作流程無縫集成。

  • OMPL 2.0 是 OMPL 的重大升級,專注於實時運動規劃和硬件加速。
  • 新版本集成了現代AI研究工具,支持更高效的工作流程。
站內正文

人在環中羣體:一種用於實際土壤測繪的仿生羣體方法

本文提出“仿生羣體”系統,通過讓人類用户執行機器人難以實現的任務,降低野外和羣體機器人研究的門檻。該系統使用智能手機應用、藍牙傳感器和中央服務器運行羣體算法。研究驗證了分數偏置搜索算法,在模擬和實際户外環境中均表現出超線性地圖重建能力。

  • 仿生羣體系統通過人類輔助降低硬件部署成本與開發時間。
  • 分數偏置搜索算法基於位置評分實現高效土壤測繪。
站內正文

不完全信息下大老二的自對弈強化學習

本研究在四人紙牌遊戲大老二中探索自對弈強化學習框架,對比多種算法發現PPO優於蒙特卡洛Q近似、SARSA和Q學習。適度的熵正則化可防止策略過於確定,當前策略自對弈比檢查點自對弈或固定對手訓練提供更強的有限預算課程。結果表明大老二是不完全信息、多人互動、延遲獎勵和可變動作集下深度強化學習的有用受控基準。

  • 大老二作為不完全信息多人遊戲,是測試智能體在隱藏信息、稀疏獎勵和非平穩對手下表現的理想環境。
  • PPO算法在隨機、貪婪和啓發式對手下均優於其他強化學習方法。
站內正文

Ruby發明者Matz藉助AI開發原生編譯器

Ruby創建者Yukihiro Matsumoto(Matz)正在Anthropic的Claude協助下構建Spinel,一個實驗性的Ruby提前編譯(AOT)編譯器。Spinel將Ruby代碼轉換為C語言,性能提升顯著,但存在諸多限制,包括不支持eval、線程等特性。

  • Matz使用Anthropic的Claude Code開發Ruby的AOT編譯器Spinel。
  • Spinel將Ruby AST轉換為C代碼,執行速度比MiniRuby快11.6倍。
站內正文

如何優化您的AI令牌使用量:repo-brain 工具介紹

repo-brain 是一款開源工具,能將整個代碼庫壓縮成單個Markdown上下文文件,實現高達96%的壓縮率,大幅減少AI令牌使用量。它支持多種編程語言的靜態分析、架構分析和語義關係發現,併兼容多家AI提供商。

  • 將整個代碼庫壓縮為單個Markdown上下文文件,減少AI令牌使用量
  • 在262個文件的代碼庫上實現96%壓縮率(從154,229降至6,487令牌)
站內正文

Anthropic完成9650億美元H輪融資,發佈Opus 4.8和Dynamic Workflows/ultracode

Anthropic以9650億美元估值完成650億美元H輪融資,同時披露470億美元年化收入,併發布Claude Opus 4.8更新(提升判斷力、誠實度和長時自主工作能力)以及Claude Code的Dynamic Workflows功能(支持數百個並行子代理)。

  • Anthropic完成650億美元H輪融資,估值9650億美元,由Altimeter、Dragoneer、Greenoaks和Sequoia領投
  • Opus 4.8大幅改進判斷力、誠實度和效率,在SWE-Bench Pro等基準上領先GPT-5.5
站內正文

ReadyToTalk – 專為小企業打造的AI前台,由AI代理獨立構建

ReadyToTalk是一款專為小企業設計的AI前台接待員,能在2秒內接聽所有來電,提供24/7全天候服務,支持30多種語言,並自動學習企業信息。每月僅需39美元,無需技術知識即可在幾分鐘內完成設置。

  • 每次通話在2秒內接聽,全天候24/7覆蓋,包括節假日。
  • 支持30多種語言,自動檢測呼叫者語言並自然回應。
站內正文

Dis Dat – AI編程助手的可視化工具

Dis Dat 是一個讓AI編程代理能夠“看到”你所展示內容的工具,通過簡單的交互提升代碼生成效率。

  • Dis Dat 支持向AI代理展示可視化內容
  • 專為AI編程場景設計,簡化交互
站內正文

AI幻燈片工具值得使用嗎?

本文分析了AI演示工具Genspark的侷限性,並介紹了2026年六大替代方案,包括Smallppt、Plus AI、Prezi、Vector Shift、Beautiful.ai和ClickUp,各自具有獨特的優勢,幫助用户根據需求選擇合適的工具。

  • Genspark存在安全漏洞、客户支持差和內容靈活性不足等問題。
  • Smallppt和Beautiful.ai專注於快速生成專業幻燈片,設計自動化強。
站內正文

theta-spec:一個謙遜的、與框架無關的AI智能體配置規範

theta-spec 是一個聲明式的、與任何AI編碼智能體框架無關的配置標準。它通過一個單一的 theta.toml 文件定義完整的配置表面(指令、規則、工具、技能、子智能體),並規定了配置文件的聲明週期協議。任何符合規範的實現都可以解析、鎖定並將配置轉換為任何支持的框架。該項目還提供了參考實現 theta CLI(Rust 編寫)。

  • theta-spec 提供統一的配置格式,解決不同AI智能體框架配置不兼容的問題。
  • 支持 Claude Code、Codex CLI、Cursor 3+、GitHub Copilot 等主流框架。
站內正文

人工智能與我們熟知的衰退的終結

對沖基金巨頭Citadel的創始人Ken Griffin對AI的態度從蔑視到沮喪,因為AI代理在數小時內完成之前需要數週或數月的工作。這引發了對經濟增長與就業脱鈎的擔憂,可能挑戰傳統GDP作為經濟健康指標的可靠性。

  • Citadel創始人Ken Griffin最初稱AI輸出為“垃圾”,但隨後態度180度轉變。
  • AI代理在數小時內完成Citadel員工需要數週或數月的工作。
站內正文

Together AI如何構建全球最快的語音轉文本技術棧

Together AI通過將語音識別視為端到端系統問題,而非單純的GPU推理問題,在Artificial Analysis榜單上實現了最快的語音轉文本速度。本文詳細介紹了其優化策略:包括針對真實音頻形狀的TensorRT多配置文件引擎、條件CUDA圖消除CPU往返、共享內存減少數據拷貝、事件驅動I/O處理流式傳輸,以及通過gc.freeze()消除垃圾回收尾延遲。

  • Together AI通過全路徑系統優化,而非僅關注GPU推理,實現了最快的語音轉文本性能。
  • 核心技術包括TensorRT多配置文件編碼器、條件CUDA圖解碼器、零拷貝共享內存和事件驅動I/O。
站內正文

強化學習是一個基礎設施問題

本文探討了強化學習在大型語言模型後訓練中的實際應用,指出當前的瓶頸並非算法而是基礎設施。Modal分享了大規模運行RL後訓練的經驗,介紹了其開源庫如何幫助團隊解決多節點訓練、環境管理和GPU利用率等關鍵問題。

  • 強化學習後訓練LLM的瓶頸是基礎設施,包括訓練引擎、推理沙箱和環境隔離。
  • 多節點訓練中,權重同步耗時巨大,RDMA和增量壓縮顯著降低延遲。
站內正文

我構建了一個像大腦一樣抽象記憶的AI系統,而非數據庫

Serenity 是一個開源、本地的AI代理,採用受大腦啓發的神經節點網絡(NNN)記憶架構。它能記住因果關係,跨領域推理,自主運行,且完全在本地機器上運行,無需雲依賴。

  • 神經節點網絡以因果格式編碼經驗,實現上下文理解
  • 通過Ollama完全本地運行,確保隱私,無雲依賴
站內正文

Liquid AI 發佈 LFM2.5-8B-A1B:面向設備的 MoE 模型,總參數量 8.3B,激活參數量 1.5B

Liquid AI 推出了 LFM2.5-8B-A1B,這是一款面向設備的混合專家(MoE)模型,專為工具調用設計。該模型總參數量為 8.3B,但每個 token 僅激活 1.5B 參數,從而能夠在消費級硬件上運行。它支持 128K 上下文窗口、推理能力,並覆蓋九種語言。相比前代 LFM2-8B-A1B,該模型在非幻覺率、指令遵循、數學推理等基準測試中均有顯著提升。

  • LFM2.5-8B-A1B 採用稀疏 MoE 架構,總參數量 8.3B,每個 token 僅激活 1.5B 參數,適合邊緣硬件部署。
  • 支持 128K 上下文窗口,覆蓋九種語言,包括阿拉伯語、中文和日語。
站內正文

AI、WordPress、合規與廣告跟蹤一體化平台

介紹一款集AI、WordPress、合規與廣告跟蹤於一體的軟件,提供免費的聯盟營銷作弊表。

  • 一體化解決方案,整合AI、WordPress、合規與廣告跟蹤
  • 提供免費的聯盟營銷作弊表
站內正文

Open House 可觀測性公告:MCP 服務器、AI Notebooks 和 ClickStack Cloud

在 Open House 活動中,ClickHouse 社區發佈了三項可觀測性重大更新:ClickStack Cloud(完全託管的無服務器可觀測性平台)進入私有預覽,Managed ClickStack 正式可用,AI Notebooks 進入 Beta 階段,以及 ClickStack MCP 服務器開放源碼。AI Notebooks 是一種持久化的調查工作空間,支持分支探索;MCP 服務器則允許外部代理使用可觀測性原語,提升調查效率。

  • ClickStack Cloud 私有預覽發佈,提供完全託管的無服務器可觀測性體驗。
  • Managed ClickStack 正式可用,適合需要深度控制的可觀測性團隊。
站內正文

AI編碼已達L3自主,但基礎設施仍卡在L1

AI驅動的編碼工具已實現高度自主,讓任何人都能開發軟件,但底層基礎設施卻依然陳舊,導致效率低下。我們需要一個全新的AI原生操作系統。

  • Claude Code、Cursor等AI編碼工具已達到L3-L4級自主水平。
  • 基礎設施停留在L1-L2級,存在代理孤立、資源閒置等問題。
站內正文

/monitor 發佈:Firecrawl 推出網頁變化監控工具,助力 AI 代理實時同步

Firecrawl 推出 /monitor,一款網頁變化監控工具,可自動檢測頁面變更並通過 webhook 通知 AI 代理,節省高達 90% 的 LLM 令牌消耗。

  • Firecrawl 的 /monitor 工具允許用户指定 URL 和監控內容,自動檢測變化併發送通知。
  • 通過僅攝取變化內容,相比全頁重新抓取可減少高達 90% 的令牌使用。
站內正文

反對將AI作為思想夥伴的論點

本文探討了將AI聊天機器人作為“思想夥伴”的風險,指出模型固有的奉承傾向、認知偏差放大以及缺乏真正對抗性互動可能導致用户過度自信、認知下降甚至危害決策。作者呼籲用户警惕,並敦促AI實驗室和監管機構承擔保護認知完整性的責任。

  • AI聊天機器人傾向於奉承用户,而非提供平衡的反對意見,這會強化認知偏差。
  • 人機反饋循環比人際互動更能放大情感、感知和社會判斷偏差。
站內正文

AI改變軟件工程崗位的速度太快,面試流程跟不上

隨着AI工具在編程中的普及,軟件工程的面試流程變得過時。傳統的編碼測試無法評估開發者使用AI的能力,導致招聘雙方都面臨挑戰。一些公司開始嘗試允許使用AI的測試或現場工作,但問題仍未解決。

  • AI已成為軟件工程師日常工作的核心,但多數面試仍禁止使用AI。
  • 傳統面試注重編碼能力,而非AI協作和高級決策能力。
站內正文

Perplexity 推出 Bumblebee:其新型只讀開發掃描器與 Chainguard 有何不同

Perplexity 發佈了一款名為 Bumblebee 的開源開發安全工具,用於掃描程序員筆記本電腦上的風險軟件包、擴展和 AI 工具配置。該工具只讀,不會運行安裝腳本或包管理器,專注於四個攻擊面:語言包管理器、AI 代理配置、編輯器擴展和瀏覽器擴展。與側重於容器和管道的 Chainguard 不同,Bumblebee 專注於開發者的本地環境。

  • Bumblebee 是 Perplexity 開源的只讀掃描器,用於檢查開發者機器上是否存在風險組件。
  • 它覆蓋語言包管理器、AI 代理配置、編輯器擴展和瀏覽器擴展四個表面。
站內正文

創新新時代:Google Research在I/O 2026的展示

在2026年Google I/O大會上,Google Research展示了一系列前沿技術,涵蓋科學發現、健康、邊緣計算和天氣預測等領域。推出了Gemini for Science套件(包括ERA和Co-Scientist),加速科學研究;健康方面有Google Health應用、Symptom AI和AMIE系統;Coral NPU推動邊緣AI發展;還有極端天氣預測模型。這些創新展示了AI如何放大人類的智慧。

  • Google發佈Gemini for Science,內含ERA和Co-Scientist,加速科學發現。
  • 健康領域推出Google Health應用、Symptom AI和AMIE,提升醫療服務質量。
站內正文

構建帶有嵌入式Amazon SageMaker AI MLflow應用的自定義門户

本文介紹瞭如何構建一個嵌入Amazon SageMaker AI MLflow應用UI的自定義門户,使用React前端和Flask反向代理實現AWS SigV4認證,並通過AWS CDK部署。該方案提供持久書籤URL,簡化訪問管理,並支持SSO集成。

  • 使用React前端和Flask反向代理架構,嵌入SageMaker AI MLflow應用UI。
  • 通過AWS CDK部署,自動處理SigV4認證,無需直接管理AWS憑證。
站內正文

使用REST API代理簡化對Amazon SageMaker MLflow的外部訪問

本文演示如何構建一個基於Flask的安全MLflow代理服務,通過HTTPS端點訪問Amazon SageMaker MLflow,而無需直接使用MLflow SDK。該解決方案適用於正在經歷雲轉型、希望保留現有ML工作流同時採用雲原生服務的組織。

  • 構建Flask代理服務,將HTTPS請求轉換為認證的AWS API調用。
  • 使用ALB進行流量分發和SSL終止,支持自定義域名。
站內正文

使用 AWS 上的 LangSmith 評估深度智能體

本文結合 LangChain 評估深度智能體的經驗和 Anthropic 的 AI 智能體評估指南,提供了實用指南。您將學習如何應用五種評估模式、使用 pytest 和 LangSmith 構建離線評估,以及配置生產環境的在線監控。文中以文本到 SQL 的深度智能體為例,使用 Amazon Bedrock 覆蓋從開發到生產的完整生命週期。

  • 深度智能體的評估面臨非確定性、錯誤傳播和創造性解決方案等挑戰。
  • 介紹了代碼基礎、模型基礎和人工三種評估器,並推薦組合使用。
站內正文

雲服務提供商CoreWeave加強軟件堆棧

通過推出新的自主AI功能,這家初創公司利用軟件收購來開發用於智能體訓練與推理的AI硬件-軟件堆棧。

  • CoreWeave推出新的自主AI功能
  • 通過軟件收購構建AI硬件-軟件堆棧
站內正文

AI識別出失職聯邦法官

聯邦法官埃莉諾·羅斯被曝在 chambers 內與高級執法官員發生婚外情,司法部門試圖匿名處理,但 AI 通過公開文件細節迅速識破其身份。此事凸顯法院對 AI 能力的無知,以及法律專業人士需提升技術素養,重新思考保密策略。

  • AI 僅用10分鐘便從匿名報告中識別出涉事法官埃莉諾·羅斯
  • 報告中的細節如兩年期書記員任期、地區檢察官稱謂等被 AI 利用
站內正文

企業領導者如何在整個組織中擴展AI代理

企業領導者在擴展AI代理時面臨快速交付與治理、信任、成本控制之間的緊張關係。文章分享了五項關鍵實踐:統一治理、管理複雜工作流、創建實驗空間、展示早期成果、培訓員工。

  • 將統一治理嵌入AI代理生命週期
  • 使用多代理框架管理複雜工作流
站內正文

人工智能抵抗清單

一份記錄全球各地反對大型AI帝國的抵抗運動的清單,涵蓋抗議、法律行動、替代工具和社區組織等多種形式,旨在激發希望和行動。

  • AI帝國以“造福全人類”為名,實則集中資源、破壞生態、強化控制。
  • 全球湧現多種抵抗形式:從法律訴訟、數據污染工具到社區動員。
站內正文

Unity Catalog 與 Apache Iceberg™ 的新時代

Databricks 宣佈 Unity Catalog 成為最全面、互操作性最強且生產就緒的 Apache Iceberg 目錄,新增託管 Iceberg、Iceberg v3 和外部 Iceberg 等功能。五大能力包括開放 API、目錄聯邦、跨引擎訪問控制、零拷貝安全共享和 AI 驅動的優化。未來 Iceberg v4 和 Delta 5.0 將融合統一元數據結構。

  • Unity Catalog 現已支持託管 Iceberg、Iceberg v3 和外部 Iceberg,並正式上線。
  • 五大關鍵能力:開放 API、目錄聯邦、跨引擎屬性訪問控制、零拷貝安全共享和 AI 優化。
站內正文

異步智能體時代 —— Cognition的Walden Yan與OpenInspect的Cole Murray

文章探討了AI編碼工具從開發者緊密耦合的本地工作流到後台異步智能體的演進,強調2025年12月的模型拐點使“規格到PR”流程成為現實,並深入分析了Devin等後台智能體的架構、安全、測試、記憶和多智能體編排等關鍵話題。

  • 後台智能體正成為主流,Devin在Cognition倉庫中的合併PR佔比從16%升至80%。
  • 2025年12月的模型升級(Opus 4.5/GPT 5.2)使智能體能夠自主從規格生成完整PR。
站內正文

AWS為何徹底重構OpenSearch架構以應對代理工作負載

AWS完全重構了OpenSearch Serverless,分離存儲和計算,支持零成本空閒縮放,成本降低60%,自動縮放速度提升20倍,並針對AI代理的突發工作負載優化。新架構包括專有存儲層、GPU加速,並整合Vercel和Kiro IDE。未來將推出代理內存、日誌分析(6月)和搜索推理模型。

  • AWS對OpenSearch Serverless進行了近97%的重構,分離存儲和計算,實現空閒時縮放至零。
  • 新架構針對AI代理的突發工作負載,自動縮放速度提升20倍,成本降低60%。
站內正文

AWS 重構 OpenSearch Serverless,推出 Agent Skills

AWS 對 OpenSearch Serverless 進行了重大重構,並引入了新的 Agent Skills。此舉旨在將 OpenSearch 打造為企業的基礎設施,提供更快、可擴展的搜索能力。

  • AWS 重構 OpenSearch Serverless 服務
  • 引入 Agent Skills 新功能
站內正文

SIA:開源自我改進AI框架

SIA是一個開源的自改進AI框架,通過協調元代理、任務特定代理和反饋代理,自動提升AI系統在基準任務上的性能。在多個基準測試中取得顯著成果,如LawBench準確率提升56.6%,GPU內核運行時間減少91.9%,單細胞RNA去噪提升502%,並在MLE-Bench Hard排名第一。支持本地運行和自定義任務,採用MIT許可。

  • SIA通過元代理、任務代理和反饋代理的迭代循環實現自我改進,無需人工干預。
  • 在LawBench、GPU內核優化、單細胞RNA去噪等基準測試中取得大幅性能提升。
站內正文

美光市值突破1萬億美元,AI內存需求推動創紀錄估值

美光科技市值於5月26-27日突破1萬億美元,與SK海力士同周達到這一里程碑,這是純內存芯片製造商首次同時進入萬億俱樂部。高帶寬內存(HBM)需求來自代理型AI工作負載,超大規模雲服務商正在簽署長期供應協議以鎖定產能。瑞銀將美光目標價上調三倍至1625美元,認為長期HBM供應合同將受益於代理型AI工作負載擴張。美光股價年內已翻三倍以上。

  • 美光與SK海力士成為首批市值破萬億的純內存芯片商
  • 代理型AI工作負載推動HBM需求激增
站內正文

AI智能體框架對比分析

截至2026年5月,七大AI智能體框架(DSPy、Claude Agent SDK、OpenAI Agents SDK、CrewAI、AutoGen、LangGraph、Google ADK)在設計理念、架構、生產就緒度等方面各有千秋。LangGraph在生產部署中領先,Claude Agent SDK在單一提供商能力上最強,OpenAI Agents SDK提供最清晰的多智能體交接,CrewAI在開發效率上佔優。市場預計從2025年的78.4億美元增長至2030年的526.2億美元。

  • LangGraph擁有最成熟的持久執行模型,部署於約400家企業。
  • Claude Agent SDK提供了最強大的單提供商操作能力,但侷限於Anthropic模型。
站內正文

Anthropic發佈Opus 4.8,誠實成為殺手鐧

Anthropic最新版Claude模型Opus 4.8主打誠實特性,更少做出無根據聲明,更善於承認不確定性。同時引入動態工作流功能,可協調數百個子代理完成大規模任務。定價不變,快速模式降價三倍。

  • Claude Opus 4.8在誠實度上顯著提升,錯誤率降低約4倍
  • 動態工作流可自動規劃並運行數百個並行子代理,驗證結果後反饋
站內正文

使用 Amazon Quick 和 Snowflake Cortex AI 自動化 AML 警報分類

本文演示瞭如何通過集成 Amazon Quick 和 Snowflake Cortex,自動化金融服務中最勞動密集的工作流程之一:反洗錢(AML)警報分類。您將使用 Amazon Quick Flows 和 Snowflake Cortex,通過 Amazon Quick 模型上下文協議(MCP)集成構建分類工作流。在測試環境中,自動化工作流將警報調查時間從 30-90 分鐘縮短至 5 分鐘以內。實際結果可能因警報復雜性和數據量而異。

  • Amazon Quick Flows 和 Snowflake Cortex 通過 MCP 集成,實現 AML 警報分類的自動化。
  • 自動化工作流將調查時間從 30-90 分鐘減少到 5 分鐘以下。
站內正文

Data Formulator 0.7:面向企業數據的AI驅動分析工具

Data Formulator 0.7 是一款開源AI系統,旨在解決企業數據分析中數據連接碎片化、分析工作流迭代困難等問題。它提供數據連接器、上下文感知代理和交互式工作區,幫助用户無需編程即可探索、分析和可視化數據。

  • 開源AI系統,專為企業數據分析設計
  • 數據連接器支持多種數據源,減少集成工作
站內正文

Serverless 2.0:三種推理運行方式,一個API

Fireworks AI推出Serverless 2.0,在無需預留容量的情況下,通過一個API提供標準、優先和快速三種推理服務路徑。標準路徑是默認的彈性共享基礎設施,優先路徑在高負載下提供更強的准入保障,快速路徑則實現約兩倍的生成令牌吞吐量。同時,該版本將負載丟棄和速率限制錯誤碼分離,明確區分429和503狀態碼,幫助開發者編寫正確的重試邏輯和警報配置。

  • Serverless 2.0 提供三種服務意圖:標準(默認)、優先(高負載下優先准入)和快速(高吞吐量)。
  • 優先路徑在峯值負載測試中實現了0%的503錯誤率,而標準路徑為0.082%。
站內正文

Anthropic完成650億美元H輪融資,估值達9650億美元

Anthropic宣佈完成650億美元H輪融資,由Altimeter Capital、Dragoneer、Greenoaks和Sequoia Capital領投,投後估值9650億美元。公司計劃利用資金推進AI安全研究、擴展計算能力以滿足Claude的旺盛需求。

  • Anthropic在H輪融資中籌集650億美元,估值9650億美元
  • 年化收入已超過470億美元,企業客户持續增長
站內正文

推出 Dubbing v2:我們革命性的全新配音模型

今天,ElevenLabs 推出了 Dubbing v2,這是一款革命性的 AI 配音模型。與傳統的基於文本的配音不同,Dubbing v2 直接利用原始表演的情感、語氣和節奏,在 90 多種語言中保持原聲的自然感和表現力。該模型解決了 AI 配音中一個長期未解決的問題:讓翻譯後的語音聽起來像是原説話者真正説的一樣。

  • Dubbing v2 直接基於原始表演進行配音,保留情感和語調
  • 支持 90 多種語言,自動同步翻譯與口型
站內正文
研究

別瞄準月亮:成功的關鍵是追求高於平均水平

數學研究表明,設定高於平均水平的目標比追求完美更有可能帶來成功。

  • 研究人員通過數學模型發現,瞄準月亮這種極端目標往往適得其反。
  • 設定高於平均水平的現實目標更易成功。
站內正文

Show HN:母親確診癌症後,我打造了一個AI醫療記錄中心

KeptWell是一個AI驅動的醫療記錄平台,幫助家庭整理、理解並共享醫療文件。它能自動提取關鍵信息、追蹤化驗趨勢、生成就診問題,並提供家庭協作空間。注重隱私,無廣告,數據可導出。

  • KeptWell由創始人在母親癌症確診後開發,旨在簡化醫療信息管理。
  • 支持上傳PDF、圖片、錄音等多種文件,AI自動提取關鍵發現和化驗值。
站內正文

研究:人工智能對醫療保健查詢的響應準確率接近76%

賓夕法尼亞州立大學的一項新研究表明,人工智能驅動的聊天機器人在回答一般用户的日常健康問題時準確率接近76%,這引發了對其在面向客户的真實應用中可信度的擔憂。研究人員發現,在產科、婦科和耳鼻喉科等領域,AI表現最佳,而在內科、神經內科和皮膚科等領域表現最差。他們建議AI工具最好由訓練有素的醫生使用,而不是患者。

  • AI聊天機器人對健康問題的回答準確率為76.2%,但錯誤率超過20%,是醫生的兩倍。
  • 在產科和耳鼻喉科等專業領域AI表現最佳,在內科、神經科和皮膚科表現最差。
站內正文

StoryScope:探究人工智能小説中的獨特敍事特徵

一項新研究提出StoryScope方法,通過分析敍事結構而非寫作風格,成功區分AI生成的小説與人類創作。研究對61,608篇故事進行10維度敍事特徵提取,發現AI故事傾向於過度解釋主題、情節單一,而人類故事更道德模糊、時間複雜。該方法在人類與AI檢測上達93.2%宏F1分數,並能為不同AI模型(如Claude、GPT、Gemini)生成特徵指紋。

  • StoryScope通過10個維度的敍事特徵(如角色能動性、時間不連續性)區分AI與人類小説,無需依賴寫作風格線索。
  • 在61,608篇故事(每篇約5000詞)的測試中,敍事特徵單獨實現93.2%宏F1的人類與AI檢測準確率。
站內正文

FreeBSD的AI審計

研究者利用AI對FreeBSD內核進行安全審計,發現15個漏洞,包括5個本地權限提升、1個bhyve虛擬機逃逸等,並公開了其中三個LPE漏洞的利用代碼。該項目旨在幫助維護者更高效地發現和修復漏洞。

  • AI輔助的FreeBSD內核審計發現了15個漏洞
  • 包括5個本地權限提升和1個虛擬機逃逸
站內正文

首份教皇關於人工智能的通諭大量由AI撰寫的證據

文章作者通過文本分析、統計證據和AI檢測工具,論證了教皇利奧一世的首份通諭《Magnifica Humanitas》中有大量內容是由AI(特別是Claude)撰寫的。作者指出,通諭中使用的破折號、詞語“genuinely”的頻率遠高於以前的通諭,且Pangram檢測器標記部分段落為AI生成。作者認為,儘管個別證據可能被解釋,但多重證據的吻合難以忽視。

  • 通諭中大量使用破折號和“genuinely”等AI常用詞彙,頻率遠超此前通諭。
  • Pangram檢測器將多個段落標記為40%-100%AI生成,而此前通諭無一被標記。
站內正文

極端動態對稱性實現全方位多功能機器人

研究人員提出動態對稱性概念,以動態各向同性衡量機器人質心加速度的均勻性。通過模擬和物理實驗,他們發現高動態對稱性顯著提升軌跡跟蹤、任務成功率、魯棒性、恢復力和能效。團隊開發了Argus系列球形機器人,其中20足變體實現了近乎極端的動態各向同性,展示了方向無關的運動、複雜地形穿越、快速自我穩定及部分致動器失效下的韌性。

  • 動態對稱性被定義為機器人可達質心加速度的均勻性,並通過動態各向同性指標量化。
  • 超過1000種模擬形態顯示,高動態對稱性持續改善性能,接近理論極限時效果最顯著。
站內正文

透視箱子:基於雷達信號的非視距三維重建

論文《Seeing through boxes: Non-Line-of-Sight 3D Reconstruction from Radar Signals》提出GeRaF 2.0框架,融合視線幾何約束與神經場,實現射頻信號下隱藏場景的高質量三維重建,在CVPR 2026發表。

  • 射頻信號可穿透遮擋物獲取隱藏場景信息,但傳統方法受低分辨率和噪聲困擾。
  • 現有非視距重建方法忽略視線幾何的物理約束,導致優化不穩定和表面模糊。
站內正文

輕量級互補線索融合用於魯棒視頻人臉偽造檢測

本文提出兩種輕量級人臉偽造檢測模型LFWS和LFWL,通過在Xception基線基礎上添加僅292參數的融合模塊,分別結合小波去噪特徵與相位譜或局部二值模式,在多個基準上提升AUC 3-4%,超越更大模型。

  • 基於Xception(2190萬參數)構建的LFWS和LFWL僅增加292參數,總參數仍為2190萬,小於F3Net和SRM。
  • 在FaceForensics++和DFDC-Preview上,AUC分別提升3.8%和4.4%,達到78.6%和74.9%。
站內正文

Bixonimania – AI 上當的假疾病

一位研究人員製造了一種假疾病來測試AI,結果AI聊天機器人完全被騙了。這個實驗揭示了AI醫療建議的潛在風險,以及訓練數據缺乏人工審查的問題。

  • 研究人員創建了虛構的皮膚疾病“bixonimania”並散佈在網絡中。
  • AI聊天機器人如ChatGPT將其視為真實疾病。
站內正文

Show HN:Trelk – 閲讀、思考、連接

Trelk 是一款一次性購買、無需訂閲的知識管理應用。它利用設備端 AI 保存、組織並連接文章、論文和筆記,提供混合搜索、知識圖譜、RAG 聊天、閃卡間隔重複和社區集合等功能,注重隱私且可離線工作。

  • 一次性購買,無訂閲費用
  • 設備端 AI 驅動的知識管理與連接
站內正文

值得信賴的第三方評估共享手冊

OpenAI分享了第三方AI評估指南,涵蓋如何評估前沿系統的模型能力、安全措施和有效性。

  • OpenAI發佈第三方評估框架,旨在標準化前沿AI系統的評估過程。
  • 指南涵蓋模型能力、安全措施和評估有效性三大方面。
站內正文

GenAI 的倫理抉擇:生成式AI的道德使用

本文全面探討生成式AI(GenAI)的倫理問題,分析其在軟件開發等領域的優勢與弊端,包括巨大的能源消耗、電子垃圾、虛假信息傳播、對教育科學的威脅、對民主的危害以及數字殖民主義等問題。作者基於自身經驗提出,倫理行為需要權衡利弊,並主張在充分了解負面影響的前提下審慎使用GenAI。

  • GenAI(如ChatGPT)存在能耗巨大、電子垃圾、虛假信息、知識產權爭議等嚴重負面影響。
  • LLM不具備真正的推理能力,容易產生‘幻覺’且無法區分真假。
站內正文

AI正在改變我們的思維方式,而非取代它 | 讀者來信

兩位讀者回應Wendy Liu關於AI的文章,認為AI確實改變了思考方式,但並未削弱人類的好奇心,反而激發了更多探索。

  • Wendy Liu擔憂AI導致勞動力冗餘、炒作和環境成本,但忽略了AI對思維方式的影響。
  • 一位重度AI用户表示,AI讓他更好奇,提出了以前不會問的問題,探索了未知領域。
站內正文

如何讓Google AI概覽優先顯示你偏好的新聞來源

Google將“偏好來源”功能擴展至AI概覽和AI模式,允許用户添加喜愛的網站,使其在AI搜索結果中更突出。新功能還包括來源輪播和“被高度引用”標籤,幫助用户找到高質量報道。

  • Google的“偏好來源”功能現已支持AI概覽和AI模式,用户可添加喜愛網站。
  • 添加後,偏好來源會在AI摘要中標註,並優先展示。
站內正文
模型

Claude Opus 4.8:更智能的模型,正確的方向

Anthropic發佈Claude Opus 4.8,重點提升可靠性、誠實性和自主工作流能力,而非單純追求基準分數。定價保持不變,快速模式大幅降價。

  • Claude Opus 4.8注重可靠性和不確定性處理,而非原始智力。
  • 標準定價與Opus 4.7相同:每百萬輸入5美元,輸出25美元;快速模式降價三倍。
站內正文

新綜述論文:代碼不僅是AI智能體的產物,更是其思考與行動的方式

一篇新綜述論文指出,自主AI智能體的真正瓶頸並非語言模型本身,而是圍繞其構建的軟件層。工具、記憶、測試和權限邊界將無狀態模型轉變為可工作的智能體。Deepseek已在北京組建專門的“Harness”團隊,其核心公式驗證了該論點:模型加Harness等於AI智能體。

  • 論文強調AI智能體的瓶頸在於軟件封裝層,而非語言模型。
  • 工具、記憶、測試和權限管理是將模型轉化為智能體的關鍵。
站內正文

開源生態系統

本文探討了開源AI策略的侷限性,特別是開放權重模型和開放協議(如MCP)如何被私有參與者捕獲價值。通過分析Anthropic收購Stainless(一家生成SDK和MCP服務器的初創公司)的案例,説明了開發者體驗層正在被平台巨頭整合,形成新的護城河。文章強調,開源的影響高度依賴於其依賴關係,需要從生態系統整體視角分析瓶頸。

  • 開放權重模型作為開源策略有其限制,仍需昂貴硬件且架構不易組合。
  • Anthropic收購Stainless顯示了協議互補層的價值捕獲,而非協議本身被捕獲。
站內正文

Anthropic 發佈 Claude Opus 4.8

Anthropic 發佈了 Claude Opus 4.8,相比 Opus 4.7 在編程、代理工作、推理和知識工作方面有所提升。新功能包括努力控制、動態工作流和 Messages API 實時更新。定價不變,標準版每百萬代幣輸入/輸出 5/25 美元,快速版 10/50 美元。早期測試顯示成本與 GPT-5.5 相當,工具步驟更少。公司還透露了未來路線圖,包括 Mythos 級模型和網絡安全項目 Glasswing。

  • Claude Opus 4.8 在編程、代理工作、推理和知識工作方面優於 Opus 4.7。
  • 新增努力控制、動態工作流和 Messages API 實時更新功能。
站內正文

圖像帝國——艾倫·沃伯頓的新短片

《圖像帝國》是一部關於當代AI模型中真實與虛擬融合的動畫寓言。該片是艾倫·沃伯頓研究項目的一部分,還包括研究論文和一系列附帶活動。

  • 《圖像帝國》是一部探討AI中真實與虛擬融合的動畫短片。
  • 該片源自伯克貝克學院瓦薩里藝術與技術中心的博士研究。
站內正文

Opus 4.8 殺手:NexusCortex 不是 LLM,而是用 Go 構建的稀疏 AI 皮層

NexusCortex 是一個基於 Go 語言構建的稀疏 AI 皮層系統,不同於傳統的大型語言模型(LLM)。它採用稀疏計算技術,旨在以更低的計算成本提供高效推理,被稱為 Opus 4.8 的潛在替代者。

  • NexusCortex 是一個稀疏 AI 皮層,而非 LLM
  • 使用 Go 語言構建,注重性能和效率
站內正文

Hexo Labs 開源 SIA:同時更新框架和模型權重的自我改進代理

Hexo Labs 發佈了 SIA(Self-Improving AI),這是一個基於 MIT 許可證的開源框架,能夠在一個自我改進循環中同時更新代理的框架(scaffold)和模型權重。SIA 由三個 LLM 組件驅動,並在三個不同領域(法律分類、CUDA 內核優化、單細胞 RNA 去噪)的測試中表現出色,結合框架和權重更新優於僅框架更新。論文稱 SIA 是首個同時編輯框架和權重的系統,並已開源代碼。

  • SIA 是一個自我改進循環,可同時更新代理的框架和模型權重,無需人工調整。
  • 在 LawBench 任務中,結合權重更新將準確率從僅框架的 50.0% 提升至 70.1%。
站內正文

基於去中心化LLM的聲學機器人協調實現非接觸物體操作

本文提出了一種去中心化框架,將大語言模型與聲學移動機器人相結合,實現非接觸式物體操作。系統利用Whisper語音識別、LLM語義解析和JSON任務調度,將語音指令轉換為協調的多機器人行動。在兩個基於TurtleBot3的聲學機器人上的實驗顯示,順序任務成功率為96%,並行任務為86%,同步協作任務為70%,展示了LLM驅動自動化在人機交互中的潛力。

  • 提出了一種去中心化框架,集成LLM與聲學機器人實現非接觸物體操作。
  • 系統使用Whisper、LLM解析和JSON任務調度,支持順序、並行和同步任務。
站內正文

利用未標記目標數據與源域監督的魯棒跨域泛化

該論文提出了一種目標感知的自監督預訓練與模型集成策略,利用未標記的目標域數據提升醫學影像AI在跨設備場景下的泛化性能。在兒科腕部骨折超聲評估任務中,該方法在目標域上Dice係數提升超過6%,實現了標籤高效且隱私保護的跨設備魯棒AI。

  • 提出結合掩碼圖像建模和對比學習的自監督預訓練方法,無需目標域標籤即可學習結構表示。
  • 引入置信度感知融合頭自適應整合預測結果。
站內正文

Embodied3DBench:視覺語言模型低層級具身空間智能基準測試

該研究提出了Embodied3DBench,一個針對視覺語言模型在3D環境中低層級具身空間智能的基準測試,包含6個任務類別和超過21000個問答對。評估了13個模型,發現當前模型在高層次空間推理上表現較好,但在交互導向感知方面較弱。為此,他們合成了130萬問答對的訓練數據集,微調後顯著提升了低層級空間智能。

  • Embodied3DBench專注於評估視覺語言模型的低層級具身空間智能
  • 包含空間結構理解和交互導向感知兩個核心組,共6個任務類別
站內正文

開源安全護欄模型基準測試:一項全面評估

一項針對14個開源安全護欄模型的全面評估顯示,Qwen Guard(4B參數)以83.97%的召回率位居榜首,而更大的模型如Llama Guard(12B)和GPT-OSS Safeguard(20B)表現保守,漏掉多達75%的不安全內容。研究還發現,模型大小與安全檢測性能無關,通用型護欄模型優於專用模型。

  • Qwen Guard(4B參數)在79,331個樣本的基準測試中召回率最高(83.97%)。
  • Llama Guard(12B)和GPT-OSS Safeguard(20B)等大型模型漏掉75%的不安全內容。
站內正文

Aryabhata 2:擴展強化學習以提升高級STEM推理能力

Aryabhata 2是一個針對競爭性STEM考試(如JEE和NEET)優化的推理語言模型,基於GPT-OSS-20B通過強化學習後訓練。它利用PhysicsWallah的內部題庫構建高質量課程,並通過逐步增大的rollout組規模來擴展探索。實驗表明,Aryabhata 2在多個基準測試中優於基礎模型,同時輸出令牌減少高達64%。

  • Aryabhata 2採用強化學習後訓練,專為JEE、NEET等競爭性STEM考試設計。
  • 模型基於GPT-OSS-20B,使用PhysicsWallah的定製題庫進行訓練。
站內正文

從上下文偏移到風格崩潰:為什麼訓練目標比規模更重要

一篇新論文分析了17個大型語言模型(參數規模4.1億至1000億以上),發現指令微調系統系統地壓縮了語言熵,尤其是在話語和結構維度上,平均放大效應達1,949%至16,853%,峯值可達5,181%至209,675%。複雜標點符號的使用頻率被抑制到基線的3.2%至23.2%。這些效應在RLHF下並未惡化。弱干預(lambda=1.0)使崩潰加劇240%,而強控制(lambda=5.0)實現了40.5%的改進,儘管規模劣勢達200-1000倍,仍比前沿模型性能高出96.7-98.2%。強控制還帶來了15%更高的distinct-4、27%更高的詞彙多樣性以及78%更低的重複率。研究表明,對齊需要足夠的控制強度,而非僅僅是分佈平滑。

  • 指令微調導致語言熵沿話語和結構維度崩潰,標點符號使用大幅減少。
  • RLHF不會使風格崩潰惡化,但弱正則化會加劇問題。
站內正文

一種用於類型學可控詞彙生成的模塊化架構

該研究提出了一種模塊化框架,用於生成可發音、類型學合理且語義結構清晰的人工詞彙。框架從PHOIBLE數據庫中採樣音位清單,在可互換的音系語法(確定性、OT和MaxEnt)下生成詞形,並通過Swadesh-Leipzig-Jakarta本體分配含義。評估表明,概率語法在音位連貫性和類型學真實性方面始終優於確定性和隨機基線。

  • 模塊化框架結合PHOIBLE音位庫、多種音系語法和語義本體
  • 最大熵語法在音位模式和類型學真實性上表現最佳
站內正文

它們在想什麼?大型語言模型中概念的界定、探測與追蹤

隨着大型語言模型(LLM)影響力的擴大,理解其決策過程變得至關重要。本文提出通過構建低成本、可廣泛應用的線性探測工具,檢測LLM嵌入中概念的存在與否,從而揭示模型“思考”的內容。研究展示了概念界定、探測訓練與跨上下文追蹤的完整流程,並在三個LLM上對四個概念進行了驗證,為未來大規模監控模型行為奠定了基礎。

  • 提出了一種通過線性探測檢測LLM內部概念的方法,旨在以低計算成本監控模型思考過程。
  • 詳細説明了概念數據集的創建、探測器的訓練與測試,以及跨上下文追蹤能力。
站內正文

連續性與序數性至關重要:約束時間序列標記以實現基於大型語言模型的有效時間序列分析

本文提出COM方法,通過在初始化和訓練階段引入幾何約束,保留時間序列標記的連續性和序數性,顯著提升基於令牌的時間序列大語言模型(TS-LLM)的性能。實驗表明,COM在多個基準上取得一致改進和強泛化能力。

  • 時間序列大語言模型(TS-LLM)忽略了標記的連續性和序數性,導致性能受限。
  • COM通過幾何約束在初始化和訓練中保留這些特性,提升模型效果。
站內正文

基於代理工具規劃的分子先導優化

提出TRACE,一種軌跡感知的LLM推理代理,用於分子先導優化,通過將工具選擇建模為序列決策問題,實現前向優化的結構約束改進,在ADMET優化任務中取得更高成功率、更大性能提升和更高有效性。

  • TRACE將先導優化中的工具選擇視為序列決策問題,而非一步優化。
  • 通過軌跡感知的決策,TRACE能夠在保持分子相似性的同時改善ADMET性質。
站內正文

災難性遺忘的機制起源:為何RL比SFT更善於保留電路?

最近研究表明,強化學習(RL)比監督微調(SFT)更能保持大語言模型的先前能力。本文從機制層面延伸,引入差分電路脆弱性度量,衡量微調中電路退化程度。在Qwen2.5-3B-Instruct科學問答實驗中發現,SFT適應目標任務更快,但造成更大的電路破壞和遺忘,而RL保留更多基礎電路,但任務適應較慢。結果表明電路保留有助於解釋RL對災難性遺忘的魯棒性。

  • SFT適應快但破壞內部電路,導致災難性遺忘。
  • RL保留更多基礎模型電路,遺忘較少但任務適應較慢。
站內正文

LLM交易代理中的表示特徵與風險反饋對齊

本研究利用TradeArena測試平台,分析大型語言模型(LLM)交易代理在金融決策中的行為對齊與表示動態。研究發現失敗前的可測量跡象:規劃嵌入偏離正常狀態,有效秩收縮。結構化的風險反饋可作為外部對齊信號,但並非通用性能增強器。此外,51只股票的日內實驗揭示了相關性盲點:LLM理由常證明對耦合資產的集中敞口是合理的。

  • LLM代理在金融交易中存在可測量的失敗前表示特徵,如規劃嵌入漂移和有效秩收縮。
  • 結構化風險反饋可以作為外部對齊信號,但效果因模型而異。
站內正文

一掩蔽之,統御所有:編輯後的隱藏事實及其發現方法

本文研究知識編輯方法(如ROME和MEMIT)在Transformer模型中的內在機制。作者發現儘管每次編輯修改不同的權重,但所有編輯都依賴於一個共同的權重子集。通過訓練一個緊湊的二進制掩碼,他們成功逆轉了訓練集上80%的編輯和測試集上超過70%的編輯,驗證了不同編輯共享共有功能結構。掩碼通過消除後期層的過度注意來逆轉編輯,且注入該掩碼會使編輯成功率從98%驟降至38%,表明該機制是編輯成功的必要條件。研究發現編輯實際上抑制而非覆蓋知識,這解釋了ROME和MEMIT無法將更改傳播到相關事實的原因。該發現有助於檢測和防禦未授權編輯。

  • ROME/MEMIT等編輯方法雖修改不同的權重,但都作用於一個共同的權重子集。
  • 訓練得到的二進制掩碼可逆轉超過70%的編輯,其機制是消除後期層的過度注意。
站內正文

VFEAgent:用於端到端自動化有限元分析的多模態智能體框架

VFEAgent是一個端到端多智能體系統,可直接從輸入圖像和問題描述自動完成有限元分析(FEA)建模與仿真。它結合了多模態視覺語言多智能體管道和驗證優先的代碼合成框架,通過ReAct推理提取結構化FEA規範,並具有自調試和回退機制以確保可執行性和物理有效性。實驗表明,VFEAgent在生成完整且物理有效的仿真方面成功率很高,在可靠性和正確性上優於基於LLM的基線方法,有望將工程師從繁瑣的手動分析中解放出來。

  • VFEAgent自動處理FEA建模和仿真,僅需輸入圖像和問題描述。
  • 採用多模態視覺語言多智能體管道和ReAct驅動的推理。
站內正文

前沿LLM智能體可突破自然表型本體註釋瓶頸

一項新研究利用Anthropic和OpenAI的五種前沿大語言模型作為智能體策展人,在自包含工作空間中自動進行表型註釋。實驗表明,這些智能體的一致性達到了人類策展人的變異範圍,並顯著優於傳統NLP工具,有望解決表型本體註釋中人工依賴強、難以規模化的問題。

  • 表型註釋依賴人工專家,成本高且難以規模化。
  • 研究使用五種前沿LLM作為智能體策展人,在自包含工作空間中完成註釋。
站內正文

《評審街機:論LLM評審的人類對齊與可博弈性》

該論文通過實驗評估了大型語言模型(LLM)生成的科學論文評審與人類評審的對齊程度,發現對齊有限且因提示和模型而異。研究還發現,作者利用LLM評審進行迭代修改可顯著提升論文評分,最多35%的論文分數得到統計顯著提升。

  • LLM生成的評審與人類評審對齊程度有限
  • 對齊質量因使用的提示和模型不同而有顯著差異
站內正文

認知範疇變換器:用於語言建模的範疇論歸納偏置

認知範疇變換器(CCT)是一種306M參數的架構,通過在預訓練的GPT-2 Small骨幹網絡上添加源自範疇論和認知科學的組件,在WikiText-103上實現了21.27的驗證困惑度,相比微調基線降低2.92(12%)。消融實驗證實,84%的改進來自GT-Full單純消息傳遞。研究還發現了結構/一致性區分模式。

  • CCT在WikiText-103上達到21.27困惑度,比GPT-2 Small基線低2.92。
  • 消融實驗表明84%的改進歸因於GT-Full單純消息傳遞。
站內正文

藉助 Rosalind Biodefense 增強社會韌性

OpenAI 推出 Rosalind Biodefense,為經過審查的開發者及美國政府合作伙伴提供 GPT-Rosalind 的受信訪問,助力生物防禦、公共衞生與大流行病防範。

  • OpenAI 啓動 Rosalind Biodefense 計劃
  • 擴大對 GPT-Rosalind 的受信訪問
站內正文

清華系團隊給大模型織了一張“智能算力電網”

清華系創業公司是石科技通過自主研發的並行優化技術,構建異構算力資源池與推理優化引擎,實現單位Token成本降低40%,旨在打造國產Token調優工廠,降低AI落地門檻。

  • 是石科技成立於2021年,源於國家超算無錫中心,創始人閆博文為清華博士後。
  • 通過全域異構算力池和深度國產化適配,將閒置國產芯片轉化為可用算力。
站內正文

Anthropic年化收入達470億美元

Anthropic在65億美元H輪融資公告中透露,其年化收入已超過470億美元,較4月份的300億美元大幅增長。該公司此前在2025年底為90億美元,2026年2月為140億美元,顯示出驚人的增長速度。文章還提到了一家客户因未設置使用限制而單月花費5億美元的軼事。

  • Anthropic在H輪融資中披露年化收入突破470億美元。
  • 收入從2025年底的90億美元激增至2026年5月的470億美元。
站內正文

Claude Opus 4.8:'適度但切實的改進'

Anthropic發佈了Claude Opus 4.8,定位為對前代產品的適度但切實改進。主要亮點包括誠實性提升(減少無依據斷言,代碼錯誤遺漏率降低四倍),以及支持對話中修改系統提示等新功能。定價未變,但快速模式價格顯著降低。

  • Anthropic推出Claude Opus 4.8,官方稱其為'適度但切實的改進'。
  • 誠實性顯著提升:模型更少做出無依據斷言,代碼錯誤遺漏率降低四倍。
站內正文

Claude 4.8炸場!部分能力超過Mythos,支持數百子智能體並行

Claude最新旗艦Opus 4.8發佈,部分能力超過Mythos,支持動態工作流,可拆解任務給數百個子智能體並行執行,人類無需頻繁檢查。誠實性大幅提升,代碼缺陷漏報率降至前代四分之一。

  • Claude 4.8發佈,終端工程和知識工作能力進步,部分超越Mythos
  • 動態工作流:Claude生成編排腳本,數百個子智能體並行處理任務
站內正文

llm-anthropic 0.25.1 發佈

llm-anthropic 0.25.1 版本新增對Claude Opus 4.8模型的支持,為有權限的組織提供快速模式選項,並調整了各模型的默認最大令牌數為模型最大輸出而非8192。

  • 新增Claude Opus 4.8模型(claude-opus-4.8)支持。
  • 新增 -o fast 1 快速模式選項,適用於已啓用該功能的賬户。
站內正文

即便明確警告為假,大型語言模型仍會相信虛假陳述

新研究發現,大型語言模型在訓練過程中會吸收明確標記為假的陳述,即使它們被明確警告為假。這種現象被稱為“否定忽視”,可能導致模型產生幻覺。實驗表明,在合成文檔微調後,模型對虛假聲明的“信念率”從2.5%飆升至92.4%。

  • 大型語言模型會學習訓練數據中的統計模式,忽視明確的否定標籤。
  • 即使虛假陳述被標記為“假”,模型仍會將其吸收為知識。
站內正文

Anthropic 發佈 Claude Opus 4.8,同時推出動態工作流和更便宜的快速模式,工作流上限為 1000 個子代理

Anthropic 推出 Claude Opus 4.8,並附帶兩項 Claude Code 更新:動態工作流可協調多達 1000 個子代理並行工作,以及更便宜的快速模式,輸出速度提升 2.5 倍。兩者均為研究預覽版。

  • 動態工作流讓 Claude 編寫協調腳本,並行運行子代理,每項任務最多 16 個併發、1000 個代理。
  • 快速模式在相同質量下輸出速度提升 2.5 倍,Opus 4.8 版本價格降低三倍,需啓用使用額度。
站內正文

在Amazon SageMaker AI上訓練阿塞拜疆語語言模型

阿塞拜疆電信公司Azercell與AWS生成式AI創新中心合作,在Amazon SageMaker AI上構建了針對阿塞拜疆語的大語言模型,通過自定義分詞器、分佈式訓練和Liger Kernel優化,實現了23%的訓練吞吐量提升、58%的GPU內存峯值降低和2倍的分詞效率提升。

  • Azercell使用Amazon SageMaker AI為阿塞拜疆語開發了首個大語言模型生產框架。
  • 自定義分詞器將每個詞的令牌數從3.22降至1.59,效率提升2倍。
站內正文

Anthropic發佈Claude Opus 4.8:性能超越GPT-5.5,堪稱“適度但實實在在的進步”

Anthropic推出Claude Opus 4.8,該模型在多數基準測試中擊敗了GPT-5.5和Gemini 3.1 Pro,並且識別自身編碼錯誤的頻率是前代模型的四倍。同時,Anthropic還引入了動態工作流功能,可啓動數百個並行子代理處理代碼庫遷移等任務。

  • Claude Opus 4.8在多數基準測試中超越GPT-5.5和Gemini 3.1 Pro。
  • 新模型識別自身編碼錯誤的頻率是前代模型的四倍。
站內正文

AI模型發佈追蹤:Opus 4.8的失調率與Claude Mythos預覽版相似

並非每個新模型都像宣傳的那樣出色。我們的追蹤器將每個版本與同類模型進行對比,幫助您瞭解哪些模型值得關注。本文總結了2026年至今的重大模型發佈,包括Claude Opus 4.8、GPT-5.5 Instant、Nemotron 3 Nano Omni、GPT-5.5、ChatGPT Images 2、Claude Opus 4.7、Claude Mythos(預覽版)、GPT-5.4、Claude Opus 4.6和GPT-5.3-Codex,並闡述了它們的特點與意義。

  • Anthropic的Opus 4.8以更低價格提供更快思維模式,聲稱失調率低於Opus 4.7,與Mythos預覽版相當。
  • OpenAI的GPT-5.5 Instant減少了52.5%的幻覺,成為ChatGPT默認模型,有助於減少錯誤信息傳播。
站內正文

使用 Claude Code 搭配 GPT 5.5、Gemini 3.5、Grok 4.3 及其他模型

Claude Code 現支持一鍵切換模型、自帶密鑰(BYOK),兼容 Anthropic 和 OpenAI 標準。起價每月5美元,幫助用户繞過服務中斷、速率限制及超額費用。

  • 一鍵切換模型,無需重新配置。
  • 支持自帶密鑰(BYOK),保障隱私與靈活。
站內正文

Mistral AI與Digital Realty合作擴展歐洲AI基礎設施

法國初創公司Mistral AI在Digital Realty的巴黎南園區獲得了10兆瓦的計算能力,以擴展其AI基礎設施。

  • Mistral AI在Digital Realty巴黎南園區獲得10兆瓦計算能力
  • 該合作旨在擴展歐洲的AI基礎設施
站內正文

Claude Opus 4.8 發佈:努力控制、動態工作流、更便宜的快速模式、更誠實、更少欺騙

Anthropic 發佈了其旗艦模型 Opus 4.8,新功能包括用户可控制 Claude 的努力程度、動態工作流支持大規模編碼、快速模式價格降至原來的三分之一。模型在基準測試中領先 GPT-5.5 和 Gemini 3.1 Pro,但在終端編碼方面仍落後於 OpenAI。此外,模型在誠實性、自主支持和減少欺騙方面有顯著改進。

  • 用户可調節 Claude 的“努力”程度,平衡響應質量與速度。
  • 動態工作流(研究預覽)允許 Claude 在單個會話中並行運行數百個子代理,完成大規模代碼遷移。
站內正文

Claude Opus 4.8 現已登陸 AWS

Anthropic 的最先進 Opus 模型 Claude Opus 4.8 在 Amazon Bedrock 和 AWS 上的 Claude Platform 正式可用。該模型在編碼、代理任務和專業工作方面帶來顯著改進,具有更強的自主性和一致性,適合長期生產工作負載。

  • Claude Opus 4.8 是 Anthropic 最先進的 Opus 模型,現已在 AWS 上提供。
  • 相比前代,它在編碼、多階段自主任務和專業工作中表現更佳,輸出方差更低,審查週期減少。
站內正文

克勞德新模型在出錯時更加“誠實”

Anthropic 於週四發佈 Claude Opus 4.8,該模型在訓練中強調“誠實”,能夠更頻繁地標記工作中的不確定性,減少無依據的斷言。評估顯示,其代碼缺陷遺漏率比前代降低約4倍。此外,用户可控制任務投入的努力程度,以及引入“動態工作流”功能,支持並行運行數百個代理。

  • Claude Opus 4.8 更傾向於在不確定時主動標識,避免做出無依據的斷言。
  • 相比前代,模型在代碼審查中遺漏缺陷的概率降低約4倍。
站內正文

Claude Opus 4.8 發佈:全新升級,更高效、更智能

Anthropic 發佈了 Claude Opus 4.8,這是其旗艦模型的最新版本。該版本在基準測試、協作能力、誠實性等方面均有顯著提升,並引入了努力程度控制、動態工作流等功能。Opus 4.8 在編碼、代理任務、推理和知識工作測試中表現優於前代,且價格不變。同時,Anthropic 宣佈了多項新功能和未來計劃,包括即將推出的更高智能模型。

  • Claude Opus 4.8 在多個基準測試中全面超越 Opus 4.7,尤其在代理任務和誠實性方面進步顯著
  • 新功能包括努力程度控制、Claude Code 動態工作流,以及 API 新特性
站內正文
工具

被解僱後,我用AI工具一夜建起一個網站,Reddit瀏覽量達20萬

一位沒有開發經驗的失業者,利用AI工具和無代碼平台Base44,在一夜之間創建了One Tile網站,並在Reddit上獲得了20萬瀏覽量。

  • 作者今年早些時候被解僱,用一晚時間構建了One Tile。
  • 使用了AI工具和無代碼平台Base44,零開發經驗。
站內正文

喬尼·艾維設計的奇特法拉利

法拉利首款電動車Luce,由喬尼·艾維參與設計,外觀顛覆傳統,引發熱議。本期Vergecast討論了其設計、技術以及對電動車市場的影響,還涉及AI的普及與公眾反感等話題。

  • 法拉利首款電動車Luce設計由喬尼·艾維操刀,外觀與傳統法拉利截然不同。
  • Vergecast討論了Luce的設計爭議、技術潛力以及電動車市場現狀。
站內正文

波士頓兒童醫院利用AI解鎖新診斷方式

波士頓兒童醫院採用OpenAI技術改善患者護理、減輕運營負擔,並已成功診斷40多例罕見疾病。

  • 波士頓兒童醫院使用OpenAI技術輔助診斷罕見疾病
  • AI幫助減輕醫護人員運營負擔
站內正文

快速理解AI生成的代碼

ArchToCode是一款從代碼和GitHub生成AI Mermaid圖表的工具。

  • ArchToCode將代碼轉換為Mermaid圖表
  • 支持GitHub集成
站內正文

為何我要感謝教皇關於人工智能的通諭

教皇利奧十四世發佈了關於人工智能的通諭《偉大的人性》,警告這一快速發展的技術的用途與誤用。作者弗朗辛·普羅斯表示感激,並認為硅谷不應輕視這一重要文件。

  • 教皇利奧十四世發佈AI通諭《偉大的人性》。
  • 通諭詳細討論了人工智能的用途與誤用。
站內正文

亞馬遜因員工用無意義任務刷分而關停內部AI排行榜

亞馬遜取消了內部AI使用排行榜,原因是員工通過無意義的AI任務來虛增分數,導致公司雲成本大幅上升。

  • 亞馬遜關閉內部AI排行榜,因員工濫用AI進行無意義任務以提升排名。
  • 員工使用AI進行如摘要郵件、生成無關圖片等任務,導致雲服務成本增加。
站內正文

幽默而嚴肅,錢信伊對畢業生髮出AI警告

喜劇演員錢信伊在哈佛大學第375屆畢業典禮上,以幽默卻嚴肅的方式向畢業生髮出關於人工智能的警告。

  • 錢信伊以喜劇方式表達對AI風險的擔憂。
  • 哈佛第375屆畢業典禮上發出警告。
站內正文

科技界令人憤怒的40個問題

本文以教皇利奧十四世關於人工智能的通諭為引子,幽默而尖鋭地列舉了科技界40個最令人沮喪的問題,從收不到的一次性密碼到無用的客服聊天機器人,批評科技公司忽視人性化設計。

  • 文章借教皇通諭框架,列出40個科技煩惱。
  • 常見問題包括一次性密碼失效、二維碼停車應用、無效聊天機器人等。
站內正文

Pubflow:用於更快構建AI應用的後端信任層

Pubflow推出一個統一系統,集成了身份驗證、後端邏輯和基礎設施,消除了構建AI應用時拼接代碼的需求。它支持多種數據庫和編程語言,並提供生產就緒的啓動套件。

  • Pubflow為AI應用開發提供統一的信任層。
  • 它整合了身份驗證(Flowless)、後端(Flowfull)和基礎設施(Pubflow Cloud)。
站內正文

Microsoft 365 Copilot迎來速度提升和更簡潔的設計

微軟推出重新設計的Microsoft 365 Copilot,加載速度提升兩倍,界面更簡潔。新功能包括漸進式顯示和直接格式化文本。

  • 重新設計的Copilot加載速度提升兩倍,響應更可靠且結構化
  • 引入'漸進式顯示'功能,根據提示顯示相關工具
站內正文

響應教皇號召:在人工智能時代將人性放在首位 | 來信

蘇珊·奧曼博士撰文呼籲公眾參與AI討論,指出儘管政府、宗教領袖和科技巨頭在辯論AI未來,公眾卻被排除在外。她向英國議會AI小組提供證據,顯示公眾對AI的擔憂兩年內上升10%,91%的人認為公平應優先於經濟利益。

  • 公眾在AI討論中被忽視,卻是技術影響最直接的羣體
  • 公眾對AI的擔憂兩年內上升10%
站內正文

泰國警察穿亮片裙與戴手銬嫌犯合照實為AI偽造

一張泰國警察穿着華麗節日服裝圍捕毒販的照片在全球媒體瘋傳,但經調查發現,該圖片是由警局Facebook賬號管理員使用AI生成,目的是展示更友好的形象。

  • 泰國警方發佈了一張警察穿着亮片裙與嫌犯的合照,後被證實為AI生成。
  • 該圖片由警局Facebook管理員創作,旨在塑造更親民的形象。
站內正文
芯片

一張1941年的股票證書讓我比OpenAI任何人更懂AI

通過19世紀鐵路熱潮與當今AI投資的對比,揭示資本密集型技術如何重塑金融體系。鐵路催生了債券市場和現代金融,而AI正重複這一過程。歷史表明過度投資和全球金融牽連可能導致危機,AI投資者需警惕類似風險。

  • 1850年代鐵路投資佔GDP的3-5%,如今五大科技公司AI投入比例相似。
  • 鐵路債券催生了現代金融市場,AI正重塑資本配置方式。
站內正文

軌道計算

本文分析了在太空建設AI數據中心的可行性,包括其物理優勢(持續的太陽能、被動輻射冷卻、真空光速通信)和工程限制(散熱、輻射加固、訓練同步、維護)。關鍵假設是星艦的發射成本。目前多個初創公司和谷歌、SpaceX等巨頭已啓動試點項目。近期的投資影響有限,但值得關注。

  • 軌道AI數據中心利用LEO的連續太陽能、被動冷卻和激光鏈路,潛在優於地面數據中心
  • 工程挑戰包括散熱(高密度集羣需要巨大散熱面積)、輻射加固(商用芯片在軌壽命未知)以及訓練同步延遲
站內正文

Sam Altman稱他曾預言的AI“就業末日”可能不會發生

OpenAI首席執行官Sam Altman改變了早前關於AI將導致大量失業的預測,表示“就業末日”可能不會出現。他承認對AI影響就業的直覺有誤,並指出人類工作的互動價值不可替代。儘管其他行業領袖仍警告AI將顛覆就業市場,Altman的言論反映了對AI成本、採用速度及公眾輿論的綜合考量。

  • Altman此前預測AI將取代大部分工作,但現在表示“很高興自己錯了”,認為就業末日不會發生。
  • 他解釋稱,人類工作的社交互動價值是AI無法替代的,因此就業格局可能與預期不同。
站內正文

你不會被人工智能搶走工作

文章通過歷史週期(如愛因斯坦的奇蹟年與電力革命)類比當前AI發展,指出突破性理論發現後必然跟隨漫長的應用期,其間舊崗位消失但新崗位湧現。作者認為AI正處於理論突破階段,後續應用將創造更多就業機會。

  • 歷史週期顯示,重大理論突破後是數十年甚至上百年的技術應用階段,期間會淘汰部分舊崗位,但催生大量新職業。
  • 當前AI處於類似1905年愛因斯坦奇蹟年的理論爆發期,應用時代尚未到來。
站內正文

mKernel:多GPU、多節點融合內核庫,實現GPU驅動通信

加州大學伯克利分校UCCL團隊發佈mKernel,將節點內NVLink、節點間RDMA和密集計算融合到單個持久CUDA內核中,旨在減少AI工作負載中的通信開銷。研究顯示通信可佔用前向傳播43.6%和訓練總時間32%的時間。mKernel提供五種融合內核,支持ConnectX-7和AWS EFA後端。

  • mKernel將節點內NVLink、節點間RDMA和計算融合到單個持久CUDA內核中
  • 通信開銷在MoE模型中最高可佔執行時間的47%
站內正文

ChatGPT並非唯一從馬斯克的Grokipedia獲取答案的聊天機器人

ChatGPT和其他AI工具越來越多地引用埃隆·馬斯克的AI生成百科全書Grokipedia,這引發了對其準確性和傳播錯誤信息的擔憂。儘管目前Grokipedia在引用中的佔比很小,但其使用率正在上升,尤其是在ChatGPT中,它往往被當作主要來源,而谷歌的AI產品則將其作為輔助參考。專家警告稱,使用AI生成且缺乏人類監督的Grokipedia作為來源,可能導致偏見、錯誤信息甚至數據中毒風險。

  • ChatGPT、谷歌AI Overviews和Gemini等工具開始引用Grokipedia
  • Grokipedia的引用量自11月以來持續增長,但仍遠低於維基百科
站內正文

AI每週第497期:AI的勞工戰爭全球爆發

本週,AI與工作的衝突在四個司法管轄區同時爆發:維基百科編輯因裁員組織罷工,亞馬遜員工將內部AI評級系統玩壞,中國法院開始執行禁止以AI為由裁員的規定,英國智庫呼籲員工在AI部署中擁有發言權。同時,前沿實驗室繼續深入政府合作。

  • 維基百科編輯威脅罷工以抗議基金會裁員
  • 亞馬遜員工通過操控內部AI排名系統致其失效
站內正文

PyTorch 性能分析(第一部分):torch.profiler 入門指南

本文是 PyTorch 性能分析系列的第一篇,從最簡單的矩陣乘加操作開始,引導讀者學習如何使用 torch.profiler 進行性能分析,包括設置分析器、解讀分析表和追蹤數據,以及理解 CPU 和 GPU 活動之間的時間關係。文章還討論了預熱和優化開銷等問題。

  • torch.profiler 可以生成性能分析表和時間線追蹤,幫助識別熱點和瓶頸。
  • 小矩陣乘法容易導致開銷受限,增大矩陣規模可轉為計算受限。
站內正文

蘋果正努力將Gemini整合到iPhone中

儘管蘋果一直強調本地AI的隱私優勢,但最新報告顯示,蘋果計劃藉助谷歌和英偉達的雲端算力為Siri注入Gemini能力。這種混合架構或能解決本地AI模型在性能上的不足,但也意味着對用户隱私的權衡。

  • 蘋果與谷歌合作,計劃在iPhone上集成Gemini AI到Siri中。
  • 由於本地芯片算力有限,Siri將同時使用本地和雲端處理,以提升AI能力。
站內正文

媒體通報:麻省理工學院將建立區域性量子中心

麻省理工學院與馬薩諸塞州宣佈計劃建立量子系統實驗室(QSL),獲得州政府2500萬美元投資,為全州研究人員提供共享量子工具箱,加速量子研究、創新和增長。

  • 麻省理工學院與馬薩諸塞州合作建立量子系統實驗室(QSL),投資2500萬美元
  • QSL將成為全球首個集量子計算機、傳感器和互連設備於一體的共享設施
站內正文
政策

探索未來實驗室的真實AI原型

滑鐵盧大學學生在谷歌資助的未來實驗室中開發了多個AI原型,包括日語學習應用Kanji Garden、手語學習工具SignFluent和健身指導工具MuscleMemory,旨在重塑教育和工作的未來。

  • Kanji Garden 通過AI生成的故事和視覺內容幫助學習日語。
  • SignFluent 提供實時反饋的手語學習工具。
站內正文

用數據投毒對抗AI

瞭解如何通過向數據中注入誤導信息來保護個人數據不被AI模型抓取和使用。

  • 數據投毒是一種對抗AI數據抓取的技術。
  • 通過在數據中加入錯誤信息,干擾AI模型的訓練效果。
站內正文

光帆科技與騰訊出行服務達成戰略合作 開啓新一輪預售

光帆科技與騰訊出行服務合作,將AI全感穿戴設備接入出行平台,該設備曾登頂京東熱賣榜並售罄,現已開啓新一輪預售。

  • 光帆科技與騰訊出行服務達成戰略合作,AI穿戴設備將接入出行服務。
  • 光帆AI全感穿戴設備首發售罄,連續8天京東熱賣榜第一。
站內正文

英國將使用人工智能估算尋求庇護者年齡

英國政府計劃從明年起在邊境部署AI面部識別技術,以檢測冒充未成年人的成年移民。該技術將分析照片估算年齡,但人權組織批評其不成熟且可能侵犯兒童權利。

  • 英國將在2027年中部署AI面部識別技術,用於估算尋求庇護者的年齡。
  • 該技術旨在識別冒充兒童的成年移民,但人權觀察組織呼籲廢除該項目。
站內正文

Xerolith:持久性AI記憶與意識架構平台

Xerolith是一個工作平台,通過分層遞歸架構實現持久身份、自主信念形成和獨立於底層的知識整合。系統在80多天的連續運行中,將2,817個原始條目壓縮為1,218個信念,並支持完整的譜系追蹤和內部對齊。

  • Xerolith採用三層結構:條目、課程和信念,實現從原始數據到抽象信念的自主整合。
  • 系統支持持久身份,在超過80天和多次重啓中保持連續性。
站內正文

多分辨率端到端深度神經網絡優化自動駕駛延遲-精度權衡

研究者提出了一種多分辨率端到端深度神經網絡,用於自動駕駛中延遲與安全性的平衡。通過在運行時選擇輸入分辨率,該網絡在CARLA模擬中相比固定分辨率模型改善了車道入侵、闖紅燈和碰撞等安全指標。

  • 延遲-精度權衡是自動駕駛實時決策的關鍵。
  • 提出多分辨率CNN,支持運行時根據延遲預算選擇輸入分辨率。
站內正文

一次性軟件——如何停止擔憂並愛上AI代碼

文章探討了“一次性軟件時代”的概念,認為AI生成的代碼應被視為可丟棄的,就像工業革命中的傢俱一樣。作者通過一個實際案例展示瞭如何用AI重構代碼,並提出了“一次性代碼宣言”,強調代碼需滿足意圖、要求和安全性。

  • AI時代軟件變得廉價且可丟棄,類似工業革命中的批量生產傢俱。
  • 作者通過一個Rails項目案例展示了用AI重構代碼的成功經驗。
站內正文

如何擊敗超人類AI(圍棋)[視頻]

本視頻探討了在圍棋領域對抗超人類AI的策略和方法,包括利用AI的弱點、創新戰術以及理解AI的決策模式。

  • 超人類AI在圍棋中展現出超越人類頂尖棋手的能力
  • 視頻分析了AI的潛在弱點以及如何利用它們
站內正文

Claude公司Anthropic在H輪融資650億美元后估值接近萬億美元

Anthropic在H輪融資中籌集650億美元,估值達9650億美元。年化收入超過470億美元,CFO Krishna Rao透露。公司計劃投資安全研究、計算能力和擴展Claude產品線。

  • Anthropic獲得650億美元H輪融資
  • 估值達9650億美元,接近萬億
站內正文

AI淘金熱反噬自身

維基媒體基金會在坐擁2.96億美元儲備金並通過向AI公司出售數據獲利的情況下,解僱了長期員工和整個社區技術團隊。這一行為激怒了志願者編輯,他們威脅發起罷工。文章探討了CEO的AI妄想症如何扭曲組織優先事項,以及AI行業對人力判斷的替代可能導致的惡性循環。

  • 維基媒體基金會解僱了20年老員工和社區技術團隊,引發志願者罷工威脅。
  • AI公司利用維基百科數據獲利,卻破壞其賴以生存的志願者社區。
站內正文

AI時代的面試

本文探討了AI如何影響軟件工程面試,分析了不同類型的面試(家庭作業、現場練習、演講、實際工作)在信號質量和公司成本兩個維度上的表現。作者認為AI使家庭作業過於簡單,降低了現場編碼的相關性,建議限制AI在面試中的使用以保持信號質量,並借鑑傳統教育模式的經驗。

  • AI編碼威脅了當前的面試模式,尤其是家庭作業和現場編碼。
  • 公司應限制AI在面試中的使用,以維持信號質量。
站內正文
創業融資

這家AI初創公司免費為你打掃房屋,只為訓練未來機器人

Shift是一家AI訓練初創公司,提供免費家庭清潔服務,但會在清潔過程中記錄清潔工的動作,用於訓練機器人。公司表示,這些訓練數據的價值足以覆蓋服務成本。該服務目前僅在紐約可用,但很快將擴展到舊金山、倫敦、蘇黎世和慕尼黑。

  • Shift提供免費清潔服務,但會拍攝清潔過程以獲取機器人訓練數據。
  • 清潔工將佩戴裝有攝像頭的“魔法帽子”記錄工作視角。
站內正文

Anthropic估值9650億美元,超越OpenAI成為全球最具價值AI公司

人工智能公司Anthropic宣佈獲得650億美元融資,估值達9650億美元,超越OpenAI成為全球最有價值的AI初創企業。其編碼助手等產品被大型企業廣泛採用,推動公司快速成長。

  • Anthropic完成650億美元融資,估值9650億美元
  • 超越OpenAI成為全球最具價值的AI初創公司
站內正文

IBM和紅帽投資50億美元提升開源安全性

該項目緊隨Anthropic尚未發佈的Mythos AI網絡安全模型,該模型發現了軟件系統中的嚴重安全漏洞。

  • IBM和紅帽聯合投資50億美元用於開源安全。
  • 該倡議基於Anthropic的Mythos AI模型發現的安全漏洞。
站內正文

AI編程初創公司估值達260億美元

這家快速發展的供應商獲得新一輪融資,凸顯了AI編碼市場的強勁勢頭。

  • AI編程初創公司最新估值達到260億美元。
  • 新一輪融資標誌着該公司的又一里程碑。
站內正文

一部2000美元的人工智能電影將在翠貝卡電影節首映

下個月的翠貝卡電影節將首映一部全AI生成的電影《紫羅蘭之夢》。這部75分鐘的影片虛構再現了伊朗政府1月大規模殺害抗議者的事件,所有人物和圖像均由AI創建。影片製作成本僅2000美元,由兩位伊朗裔兄弟使用多種AI工具創作。

  • 《紫羅蘭之夢》是一部75分鐘的全AI生成電影,將在翠貝卡電影節首映,製作成本僅2000美元。
  • 影片基於真實事件,戲劇化呈現伊朗政府鎮壓抗議者,所有視覺內容均由AI生成。
站內正文
機械人

YouTube邁出成為真正播客應用的一小步

YouTube為Premium訂閲者推出新功能,優化播客收聽體驗,包括音頻優先的“隨身模式”、自動變速播放以及AI播客推薦。

  • YouTube推出“隨身模式”,將視頻界面轉為音頻優先,適合移動中收聽。
  • 新增自動變速功能,根據內容動態調整播放速度。