AI News HubLIVE

今日必讀

模型

在AWS上推出Claude Sonnet 5:Anthropic最強的Sonnet模型

Anthropic宣佈在Amazon Bedrock和Claude Platform on AWS上推出其最先進的Sonnet模型Claude Sonnet 5。該模型在編碼、智能體任務和專業工作中提供接近Opus級別的智能,但價格與Sonnet系列相同。它支持多文件編碼、複雜推理和自動化工作流程,適用於金融、生產力等領域。文章還提供了在Amazon Bedrock上使用該模型的詳細指南和代碼示例。

  • Claude Sonnet 5是Anthropic最新一代的首個Sonnet模型,在編碼、智能體和專業工作上表現出色。
  • 該模型以Sonnet價格提供接近Opus的智能,支持大規模部署。
站內正文

將違禁文本嵌入間諜軟件以阻礙AI分析

至少一名惡意軟件開發者正在其間諜軟件中加入關於核武器和生物武器的文本,以阻止自動AI分析。該技術將觸發策略的內容放在JavaScript註釋中,導致AI掃描器拒絕或誤分類文件,但傳統檢測方法仍然有效。

  • 惡意軟件在註釋中使用虛假系統指令和觸發策略的內容混淆AI分析。
  • 該技術針對的是LLM優先的初步分類系統,無法繞過YARA規則或靜態檢測。
站內正文

AI羅盤:一個關於AI倫理的30種原型測驗

bambamramfan推出了一款名為“AI羅盤”的政治光譜風格測驗,包含29道關於AI和AI倫理的問題,根據答案將用户歸入30種原型之一。作者西蒙·威利森首次測試便被歸類為“車庫修理工”,並稱贊其作為單頁React應用的實現方式。

  • AI羅盤測驗包含29道題目,涵蓋AI及AI倫理話題
  • 30種原型根據回答進行分類
站內正文
Agent

ScarfBench:面向企業Java框架遷移的AI智能體基準測試

IBM Research推出ScarfBench,這是一個用於評估AI智能體在企業Java中跨框架遷移任務的開源基準。該基準包含34個應用程序、102個框架實現和204個遷移任務。目前頂尖智能體的行為成功率低於10%,突顯了在遷移過程中保持行為的難度。

  • ScarfBench評估AI智能體在Spring、Jakarta EE和Quarkus之間的框架遷移能力,要求構建、部署和行為驗證。
  • 基準包含34個應用程序、約2000個源文件和測試文件,以及1331個專家編寫的測試。
站內正文

AI編碼工具應超越編輯器

AI輔助編碼工具目前主要集中在代碼編輯器內,但軟件開發是一個涵蓋項目管理、編碼和基礎設施的循環。本文認為,AI助手應擴展到整個開發循環,通過自然語言接口連接所有三個支柱,從而更好地理解意圖、檢查自身工作並提高效率。

  • AI編碼工具目前侷限於編輯器,僅覆蓋開發循環的編碼部分。
  • 完整的開發工作包括項目管理、編碼和基礎設施三個支柱,形成循環。
站內正文

Anthropic Sonnet 5:縮小與Opus 4.8的差距,八月底前低價使用

Anthropic推出Sonnet 5,性能接近Opus 4.8,提供優惠價格至8月底。該模型在推理、工具使用和編碼方面有顯著提升,安全風險較低。

  • Sonnet 5性能接近Opus 4.8,但價格更低。
  • 優惠價格持續到8月31日,之後將恢復標準定價。
站內正文

展示HN:我構建了一個AI代理來對我大喊關於我的ADHD

一位ADHD患者開發了名為hex的AI代理,用於管理日程、任務、知識庫等,並集成多種工具和專家系統,幫助應對ADHD帶來的挑戰。文章詳細介紹了hex的功能、技術實現、遇到的困難以及作者的反思。

  • hex是一個為ADHD患者設計的AI代理,集成了日曆、Todoist、Obsidian等工具。
  • 包括Freya(健康)和Carrie(職業)等專家系統,以及物理設備Watcher。
站內正文

在AI生成代碼中通過ADRs和契約強制執行不變量

本文介紹瞭如何使用架構決策記錄(ADR)和RFC 2119關鍵字來強制執行AI生成代碼中的不變量。它描述瞭如何將架構決策記錄為不變量,確保AI代理在生成代碼前查閲這些記錄,並通過確定性檢查來防止違反。

  • 使用ADR將架構決策記錄為可強制執行的不變量。
  • 利用RFC 2119關鍵字(SHALL、MUST)配合Gherkin場景指定行為需求。
站內正文

自主記憶:在主權限數據上管理訪客代理

隨着AI代理開始替代人類處理跨組織敏感數據,傳統數據室無法約束代理的完美記憶。本文提出代理數據 enclave 的概念,並指出解決方案在於將記憶作為宿主操作系統的服務,而非代理的私有財產。

  • 傳統數據室假設訪客是人類,但AI代理具有完美記憶,導致數據泄露風險
  • 已有研究分別針對代理安全和跨組織數據共享,但缺乏兩者交叉的解決方案
站內正文
芯片

國際清算銀行警告:人工智能泡沫可能破裂並拖垮全球經濟

國際清算銀行(BIS)在其年度報告中警告,當前AI投資熱潮與歷史上的運河、鐵路和互聯網泡沫相似,過度投資可能引發全球經濟衰退。大型科技公司2026年AI相關資本支出預計超過萬億美元,但回報不確定,且面臨能源短缺等供應側瓶頸。如果樂觀情緒逆轉,可能導致投資崩潰並波及金融市場。

  • BIS將當前AI投資熱潮比作19世紀運河狂熱、20世紀鐵路狂熱和90年代互聯網泡沫。
  • 五大超大規模雲服務商2026年AI資本支出預計超萬億美元,超出盈利和自由現金流。
站內正文
其餘更新(17 條)
工具

Netflix在其威利·旺卡真人秀中使用AI生成的吉恩·懷爾德聲音

Netflix新真人秀《旺卡的黃金票》將於9月23日首播,使用ElevenLabs公司AI生成的吉恩·懷爾德聲音,已獲其家屬同意,延續了將虛構場景變為現實節目的趨勢。

  • Netflix的旺卡真人秀於9月23日首播。
  • 旁白使用ElevenLabs AI生成的吉恩·懷爾德聲音,並獲得家屬同意。
站內正文

OpenAI 發佈最強新模型

Viktor 是一款為每個部門配備的 AI 員工,可在 Slack 和 Teams 中使用,每天交付實際產出。免費開始使用,並獲得 100 美元積分。

  • Viktor 作為 AI 員工,為每個部門提供服務。
  • 在 Slack 和 Teams 中運行,每日產出實際成果。
站內正文
Agent

英偉達BioNeMo Agent Toolkit助力生命科學研究人員,與Claude Science集成加速AI應用

英偉達發佈了BioNeMo Agent Toolkit,與Anthropic的Claude Science集成,使科學家能通過自然語言與AI代理交互,加速藥物發現、基因組學等生命科學研究。該工具包整合了英偉達的加速模型、庫和微服務,包括Parabricks、RAPIDS-singlecell和nvMolKit,顯著提升計算速度。全球前20大藥企中有18家使用英偉達BioNeMo。Claude Science現已進入公開測試。

  • 英偉達BioNeMo Agent Toolkit與Anthropic的Claude Science集成,提供加速的AI工作流
  • 工具包包含Parabricks、RAPIDS-singlecell和nvMolKit等加速工具,可大幅縮短計算時間
站內正文

Anthropic推出Claude Science:專為科研打造的AI工作台

Anthropic於週二推出Claude Science,這是一款面向科學家的新應用,可在macOS和Linux上本地運行或遠程使用。該工具旨在整合科研人員常用的數據庫和工具,如PubMed、Jupyter、R和終端,提供一站式研究環境。目前處於測試階段,主要面向生命科學領域,但未來計劃擴展。Claude Science基於標準Claude模型,通過協調代理訪問超過60個數據庫,並利用Nvidia BioNeMo工具包連接生命科學模型。它還能生成可視化內容(如3D蛋白質結構),並與高性能計算集羣或Modal賬户集成,處理大規模計算任務。

  • Anthropic推出Claude Science,一個集多種工具於一體的AI科研工作台,目前處於測試階段。
  • 主要面向生命科學研究者,但可通過Claude付費計劃(Pro、Max、Team、Enterprise)使用。
站內正文

SkillOpt:將智能體技能視為可訓練參數

AI智能體常因手動修改技能指令而失敗。SkillOpt將技能編輯轉化為訓練過程,在不改變模型權重的前提下提升智能體行為的可靠性。在52個評估單元中,SkillOpt均取得最佳或並列最佳結果,且優化後的技能文件緊湊、可審計、可遷移。

  • SkillOpt將技能文件視為凍結目標模型外部的可訓練參數,通過優化循環改進性能。
  • 在六個基準測試、七種目標模型和三種執行模式下,SkillOpt在全部52個評估單元中表現最佳。
站內正文

使用AG-UI協議在Amazon Bedrock AgentCore上為AI代理構建生成式UI

本文介紹了AG-UI(代理-用户交互協議)如何集成到全棧AgentCore解決方案模板(FAST)中,以在Amazon Bedrock AgentCore上構建交互式代理前端。然後展示了CopilotKit如何通過生成式UI、共享狀態和人機交互來擴展這一功能,所有這些都部署在Amazon Bedrock AgentCore上。

  • AG-UI是一個開放協議,標準化了代理後端與前端之間的動態事件通信。
  • FAST項目提供了兩個AG-UI代理模式(agui-strands-agent和agui-langgraph-agent),共享一個前端解析器。
站內正文

使用Amazon Bedrock為貨運物流構建雙語命名實體識別系統

IBS Software利用Amazon Bedrock的模型蒸餾功能,從Nova Pro教師模型蒸餾到Nova Lite學生模型,構建了英日雙語的命名實體識別系統,在貨運物流郵件中提取23種實體類型,實現了95.085%的F1分數,同時將運營成本降低14倍。本文詳細介紹了技術方法、面臨的挑戰和部署架構。

  • IBS Software使用Amazon Bedrock的託管蒸餾能力,將Nova Pro的知識蒸餾到Nova Lite,構建了英日雙語NER系統。
  • 系統從500封貨運物流郵件(350封英文、150封日文)中提取23種實體類型,實現了95.085%的F1分數。
站內正文

農業已準備好迎接AI,但數據尚未就緒

人工智能有望在農業領域帶來變革,如提高作物產量、減少水和化學品的使用,但這些效果依賴於堅實的數據基礎。文章指出,農業數據複雜且分散,來自物聯網、天氣、土壤等多種來源,若數據不完整或不準確,AI可能產生誤導性結果。數據就緒包括建立統一的數據模型、嚴格的治理和實時數據管道,否則AI將面臨“垃圾進,垃圾出”的風險。

  • AI可將作物產量提高26%,用水量減少41%,化學品使用減少33%,但前提是數據可靠。
  • 農業數據涉及物聯網、天氣、土壤、合規等多方面,需要統一數據模型。
站內正文

Tokenmaxxing的終結

Tokenmaxxing(通過燒燬Token製造生產力假象)正逐漸消失,原因是個人和企業開始關注AI使用成本。GitHub Copilot改為按信用點收費,以及推理模型和代理的興起大幅增加了Token消耗。AI公司從快速增長轉向盈利,導致價格上升。Token優化和問責成為新常態。

  • Tokenmaxxing因成本透明化而消亡
  • 推理模型和AI代理大幅增加了Token消耗
站內正文

AWS推出面向代理的桌面服務

AWS在短暫公開預覽後,正式推出Amazon WorkSpaces for Agents,為代理提供雲端虛擬桌面,使其能夠操作遺留桌面應用,無需自定義集成。該服務支持MCP和計算機視覺代理,允許人類監視和干預。

  • Amazon WorkSpaces for Agents現已正式可用,為代理提供雲端桌面環境。
  • 代理可通過MCP連接桌面,或利用計算機視覺進行屏幕截圖操作。
站內正文

Claude Science:面向科學家的AI工作台

Anthropic推出Claude Science,這是一個為科學家設計的AI工作台,集成了常用工具,支持多智能體協作、可重現的科學制品生成以及按需計算資源管理。目前以測試版形式提供給Pro、Max、Team和Enterprise用户。

  • Claude Science是一個AI工作台,將PubMed、Jupyter、R等科學工具整合到一個統一環境中。
  • 它配備了一個協調智能體,可調用60多個針對基因組學、蛋白質組學等領域的預配置技能。
站內正文
模型

讓你的AI代理用shot-scraper video錄製工作演示視頻

本文介紹了shot-scraper 1.10的新命令shot-scraper video,它通過YAML故事板定義測試流程,利用Playwright錄製視頻。作者強調編碼代理自動生成演示的重要性,並展示瞭如何用該命令為Datasette新功能生成演示視頻。該功能完全由GPT-5.5 xhigh編寫,Playwright 1.61.0的解鎖使其得以實現。

  • shot-scraper video允許編碼代理自動錄製工作演示視頻。
  • 使用YAML故事板定義操作流程,Playwright負責錄製。
站內正文

使用Amazon Bedrock和LLM網關實現韌性模式

本文介紹了五種實用的韌性模式,用於在AWS上構建生成式AI應用,從原生Amazon Bedrock功能發展到使用LLM網關的多模型編排。這些模式解決了實際挑戰,如意外流量激增時的配額耗盡、通過推斷地理分佈最大化可用性,以及幫助防止多租户環境中的噪聲鄰居問題。

  • 介紹了五種韌性模式:Amazon Bedrock跨區域推斷、多賬户分片、模型故障轉移、負載均衡和多租户配額隔離。
  • 模式採用爬行、行走、跑步的漸進式方法,可根據應用成熟度增量採用。
站內正文

Outpost VFX 如何利用 AWS 加速視覺特效的 AI 模型訓練

Outpost VFX 通過與 AWS 合作,利用多 GPU 架構將面部替換模型的訓練速度提升了 8 倍,交付時間從 1-2 周縮短至 2 天。

  • 傳統單 GPU 訓練需要 1-2 周,成為生產瓶頸。
  • 採用 AWS EC2 P5 實例和 PyTorch DDP 實現多 GPU 並行訓練。
站內正文

微調Amazon Nova模型實現電子郵件數據準確提取

本文介紹如何通過Amazon SageMaker AI微調Amazon Nova模型,解決電子郵件數據提取中的幻覺和成本問題,實現高達94.77%的提取準確率並降低50%成本。

  • 微調Amazon Nova模型可顯著提升電子郵件數據提取準確性。
  • Parcel Perform實際應用中準確率達94.77%,成本降低50%。
站內正文

Claude Sonnet 5 發佈:新一代智能體模型,性能接近Opus 4.8,價格更低

Anthropic發佈Claude Sonnet 5,這是迄今最具代理能力的Sonnet模型。它在推理、工具使用、編碼和知識工作方面顯著優於前代Sonnet 4.6,性能接近Opus 4.8但價格更低。即日起在所有計劃中可用,並推出限時優惠價格。

  • Claude Sonnet 5是迄今為止最具代理能力的Sonnet模型,可自主規劃、使用工具和運行。
  • 性能接近Opus 4.8,但價格更低,輸入/輸出令牌價格分別為$3/$15每百萬(優惠期$2/$10)。
站內正文
芯片

AI數據中心面臨新的威脅:極端天氣

隨着創紀錄的熱浪席捲歐洲,大型科技公司面臨保持AI數據中心運行的新挑戰。極端天氣已成為蘇黎世美國數據中心建築風險組合中的主要損失原因,推動保險公司和運營商重新評估氣候風險。

  • 極端天氣成為蘇黎世美國數據中心風險組合的主要損失原因,佔公司損失的三分之一。
  • First Street研究顯示,79%的全球數據中心容量面臨洪水、強風和野火等氣候災害的高風險。