AI News HubLIVE

今日必讀

模型

在AWS上推出Claude Sonnet 5:Anthropic最強的Sonnet模型

Anthropic宣佈在Amazon Bedrock和Claude Platform on AWS上推出其最先進的Sonnet模型Claude Sonnet 5。該模型在編碼、智慧體任務和專業工作中提供接近Opus級別的智慧,但價格與Sonnet系列相同。它支援多檔案編碼、複雜推理和自動化工作流程,適用於金融、生產力等領域。文章還提供了在Amazon Bedrock上使用該模型的詳細指南和程式碼示例。

  • Claude Sonnet 5是Anthropic最新一代的首個Sonnet模型,在編碼、智慧體和專業工作上表現出色。
  • 該模型以Sonnet價格提供接近Opus的智慧,支援大規模部署。
站內正文

將違禁文本嵌入間諜軟體以阻礙AI分析

至少一名惡意軟體開發者正在其間諜軟體中加入關於核武器和生物武器的文本,以阻止自動AI分析。該技術將觸發策略的內容放在JavaScript註釋中,導致AI掃描器拒絕或誤分類檔案,但傳統檢測方法仍然有效。

  • 惡意軟體在註釋中使用虛假系統指令和觸發策略的內容混淆AI分析。
  • 該技術針對的是LLM優先的初步分類系統,無法繞過YARA規則或靜態檢測。
站內正文

AI羅盤:一個關於AI倫理的30種原型測驗

bambamramfan推出了一款名為“AI羅盤”的政治光譜風格測驗,包含29道關於AI和AI倫理的問題,根據答案將使用者歸入30種原型之一。作者西蒙·威利森首次測試便被歸類為“車庫修理工”,並稱贊其作為單頁React應用的實現方式。

  • AI羅盤測驗包含29道題目,涵蓋AI及AI倫理話題
  • 30種原型根據回答進行分類
站內正文
Agent

ScarfBench:面向企業Java框架遷移的AI智慧體基準測試

IBM Research推出ScarfBench,這是一個用於評估AI智慧體在企業Java中跨框架遷移任務的開源基準。該基準包含34個應用程式、102個框架實現和204個遷移任務。目前頂尖智慧體的行為成功率低於10%,突顯了在遷移過程中保持行為的難度。

  • ScarfBench評估AI智慧體在Spring、Jakarta EE和Quarkus之間的框架遷移能力,要求構建、部署和行為驗證。
  • 基準包含34個應用程式、約2000個原始檔和測試檔案,以及1331個專家編寫的測試。
站內正文

AI編碼工具應超越編輯器

AI輔助編碼工具目前主要集中在程式碼編輯器內,但軟體開發是一個涵蓋專案管理、編碼和基礎設施的迴圈。本文認為,AI助手應擴充套件到整個開發迴圈,透過自然語言介面連線所有三個支柱,從而更好地理解意圖、檢查自身工作並提高效率。

  • AI編碼工具目前侷限於編輯器,僅覆蓋開發迴圈的編碼部分。
  • 完整的開發工作包括專案管理、編碼和基礎設施三個支柱,形成迴圈。
站內正文

Anthropic Sonnet 5:縮小與Opus 4.8的差距,八月底前低價使用

Anthropic推出Sonnet 5,效能接近Opus 4.8,提供優惠價格至8月底。該模型在推理、工具使用和編碼方面有顯著提升,安全風險較低。

  • Sonnet 5效能接近Opus 4.8,但價格更低。
  • 優惠價格持續到8月31日,之後將恢復標準定價。
站內正文

展示HN:我構建了一個AI代理來對我大喊關於我的ADHD

一位ADHD患者開發了名為hex的AI代理,用於管理日程、任務、知識庫等,並整合多種工具和專家系統,幫助應對ADHD帶來的挑戰。文章詳細介紹了hex的功能、技術實現、遇到的困難以及作者的反思。

  • hex是一個為ADHD患者設計的AI代理,整合了日曆、Todoist、Obsidian等工具。
  • 包括Freya(健康)和Carrie(職業)等專家系統,以及物理裝置Watcher。
站內正文

在AI生成程式碼中透過ADRs和契約強制執行不變數

本文介紹瞭如何使用架構決策記錄(ADR)和RFC 2119關鍵字來強制執行AI生成程式碼中的不變數。它描述瞭如何將架構決策記錄為不變數,確保AI代理在生成程式碼前查閱這些記錄,並透過確定性檢查來防止違反。

  • 使用ADR將架構決策記錄為可強制執行的不變數。
  • 利用RFC 2119關鍵字(SHALL、MUST)配合Gherkin場景指定行為需求。
站內正文

自主記憶:在主許可權資料上管理訪客代理

隨著AI代理開始替代人類處理跨組織敏感資料,傳統資料室無法約束代理的完美記憶。本文提出代理資料 enclave 的概念,並指出解決方案在於將記憶作為宿主作業系統的服務,而非代理的私有財產。

  • 傳統資料室假設訪客是人類,但AI代理具有完美記憶,導致資料洩露風險
  • 已有研究分別針對代理安全和跨組織資料共享,但缺乏兩者交叉的解決方案
站內正文
晶片

國際清算銀行警告:人工智慧泡沫可能破裂並拖垮全球經濟

國際清算銀行(BIS)在其年度報告中警告,當前AI投資熱潮與歷史上的運河、鐵路和網際網路泡沫相似,過度投資可能引發全球經濟衰退。大型科技公司2026年AI相關資本支出預計超過萬億美元,但回報不確定,且面臨能源短缺等供應側瓶頸。如果樂觀情緒逆轉,可能導致投資崩潰並波及金融市場。

  • BIS將當前AI投資熱潮比作19世紀運河狂熱、20世紀鐵路狂熱和90年代網際網路泡沫。
  • 五大超大規模雲服務商2026年AI資本支出預計超萬億美元,超出盈利和自由現金流。
站內正文
其餘更新(17 條)
工具

Netflix在其威利·旺卡真人秀中使用AI生成的吉恩·懷爾德聲音

Netflix新真人秀《旺卡的黃金票》將於9月23日首播,使用ElevenLabs公司AI生成的吉恩·懷爾德聲音,已獲其家屬同意,延續了將虛構場景變為現實節目的趨勢。

  • Netflix的旺卡真人秀於9月23日首播。
  • 旁白使用ElevenLabs AI生成的吉恩·懷爾德聲音,並獲得家屬同意。
站內正文

OpenAI 釋出最強新模型

Viktor 是一款為每個部門配備的 AI 員工,可在 Slack 和 Teams 中使用,每天交付實際產出。免費開始使用,並獲得 100 美元積分。

  • Viktor 作為 AI 員工,為每個部門提供服務。
  • 在 Slack 和 Teams 中執行,每日產出實際成果。
站內正文
Agent

輝達BioNeMo Agent Toolkit助力生命科學研究人員,與Claude Science整合加速AI應用

輝達釋出了BioNeMo Agent Toolkit,與Anthropic的Claude Science整合,使科學家能透過自然語言與AI代理互動,加速藥物發現、基因組學等生命科學研究。該工具包整合了輝達的加速模型、庫和微服務,包括Parabricks、RAPIDS-singlecell和nvMolKit,顯著提升計算速度。全球前20大藥企中有18家使用輝達BioNeMo。Claude Science現已進入公開測試。

  • 輝達BioNeMo Agent Toolkit與Anthropic的Claude Science整合,提供加速的AI工作流
  • 工具包包含Parabricks、RAPIDS-singlecell和nvMolKit等加速工具,可大幅縮短計算時間
站內正文

Anthropic推出Claude Science:專為科研打造的AI工作臺

Anthropic於週二推出Claude Science,這是一款面向科學家的新應用,可在macOS和Linux上本地執行或遠端使用。該工具旨在整合科研人員常用的資料庫和工具,如PubMed、Jupyter、R和終端,提供一站式研究環境。目前處於測試階段,主要面向生命科學領域,但未來計劃擴充套件。Claude Science基於標準Claude模型,透過協調代理訪問超過60個資料庫,並利用Nvidia BioNeMo工具包連線生命科學模型。它還能生成視覺化內容(如3D蛋白質結構),並與高效能運算叢集或Modal賬戶整合,處理大規模計算任務。

  • Anthropic推出Claude Science,一個集多種工具於一體的AI科研工作臺,目前處於測試階段。
  • 主要面向生命科學研究者,但可透過Claude付費計劃(Pro、Max、Team、Enterprise)使用。
站內正文

SkillOpt:將智慧體技能視為可訓練引數

AI智慧體常因手動修改技能指令而失敗。SkillOpt將技能編輯轉化為訓練過程,在不改變模型權重的前提下提升智慧體行為的可靠性。在52個評估單元中,SkillOpt均取得最佳或並列最佳結果,且最佳化後的技能檔案緊湊、可審計、可遷移。

  • SkillOpt將技能檔案視為凍結目標模型外部的可訓練引數,透過最佳化迴圈改進效能。
  • 在六個基準測試、七種目標模型和三種執行模式下,SkillOpt在全部52個評估單元中表現最佳。
站內正文

使用AG-UI協議在Amazon Bedrock AgentCore上為AI代理構建生成式UI

本文介紹了AG-UI(代理-使用者互動協議)如何整合到全棧AgentCore解決方案模板(FAST)中,以在Amazon Bedrock AgentCore上構建互動式代理前端。然後展示了CopilotKit如何透過生成式UI、共享狀態和人機互動來擴充套件這一功能,所有這些都部署在Amazon Bedrock AgentCore上。

  • AG-UI是一個開放協議,標準化了代理後端與前端之間的動態事件通訊。
  • FAST專案提供了兩個AG-UI代理模式(agui-strands-agent和agui-langgraph-agent),共享一個前端解析器。
站內正文

使用Amazon Bedrock為貨運物流構建雙語命名實體識別系統

IBS Software利用Amazon Bedrock的模型蒸餾功能,從Nova Pro教師模型蒸餾到Nova Lite學生模型,構建了英日雙語的命名實體識別系統,在貨運物流郵件中提取23種實體型別,實現了95.085%的F1分數,同時將運營成本降低14倍。本文詳細介紹了技術方法、面臨的挑戰和部署架構。

  • IBS Software使用Amazon Bedrock的託管蒸餾能力,將Nova Pro的知識蒸餾到Nova Lite,構建了英日雙語NER系統。
  • 系統從500封貨運物流郵件(350封英文、150封日文)中提取23種實體型別,實現了95.085%的F1分數。
站內正文

農業已準備好迎接AI,但資料尚未就緒

人工智慧有望在農業領域帶來變革,如提高作物產量、減少水和化學品的使用,但這些效果依賴於堅實的資料基礎。文章指出,農業資料複雜且分散,來自物聯網、天氣、土壤等多種來源,若資料不完整或不準確,AI可能產生誤導性結果。資料就緒包括建立統一的資料模型、嚴格的治理和即時資料管道,否則AI將面臨“垃圾進,垃圾出”的風險。

  • AI可將作物產量提高26%,用水量減少41%,化學品使用減少33%,但前提是資料可靠。
  • 農業資料涉及物聯網、天氣、土壤、合規等多方面,需要統一資料模型。
站內正文

Tokenmaxxing的終結

Tokenmaxxing(透過燒燬Token製造生產力假象)正逐漸消失,原因是個人和企業開始關注AI使用成本。GitHub Copilot改為按信用點收費,以及推理模型和代理的興起大幅增加了Token消耗。AI公司從快速增長轉向盈利,導致價格上升。Token最佳化和問責成為新常態。

  • Tokenmaxxing因成本透明化而消亡
  • 推理模型和AI代理大幅增加了Token消耗
站內正文

AWS推出面向代理的桌面服務

AWS在短暫公開預覽後,正式推出Amazon WorkSpaces for Agents,為代理提供雲端虛擬桌面,使其能夠操作遺留桌面應用,無需自定義整合。該服務支援MCP和計算機視覺代理,允許人類監視和干預。

  • Amazon WorkSpaces for Agents現已正式可用,為代理提供雲端桌面環境。
  • 代理可透過MCP連線桌面,或利用計算機視覺進行螢幕截圖操作。
站內正文

Claude Science:面向科學家的AI工作臺

Anthropic推出Claude Science,這是一個為科學家設計的AI工作臺,整合了常用工具,支援多智慧體協作、可重現的科學制品生成以及按需計算資源管理。目前以測試版形式提供給Pro、Max、Team和Enterprise使用者。

  • Claude Science是一個AI工作臺,將PubMed、Jupyter、R等科學工具整合到一個統一環境中。
  • 它配備了一個協調智慧體,可呼叫60多個針對基因組學、蛋白質組學等領域的預配置技能。
站內正文
模型

讓你的AI代理用shot-scraper video錄製工作演示影片

本文介紹了shot-scraper 1.10的新命令shot-scraper video,它透過YAML故事板定義測試流程,利用Playwright錄製影片。作者強調編碼代理自動生成演示的重要性,並展示瞭如何用該命令為Datasette新功能生成演示影片。該功能完全由GPT-5.5 xhigh編寫,Playwright 1.61.0的解鎖使其得以實現。

  • shot-scraper video允許編碼代理自動錄製工作演示影片。
  • 使用YAML故事板定義操作流程,Playwright負責錄製。
站內正文

使用Amazon Bedrock和LLM閘道器實現韌性模式

本文介紹了五種實用的韌性模式,用於在AWS上構建生成式AI應用,從原生Amazon Bedrock功能發展到使用LLM閘道器的多模型編排。這些模式解決了實際挑戰,如意外流量激增時的配額耗盡、透過推斷地理分佈最大化可用性,以及幫助防止多租戶環境中的噪聲鄰居問題。

  • 介紹了五種韌性模式:Amazon Bedrock跨區域推斷、多賬戶分片、模型故障轉移、負載均衡和多租戶配額隔離。
  • 模式採用爬行、行走、跑步的漸進式方法,可根據應用成熟度增量採用。
站內正文

Outpost VFX 如何利用 AWS 加速視覺特效的 AI 模型訓練

Outpost VFX 透過與 AWS 合作,利用多 GPU 架構將面部替換模型的訓練速度提升了 8 倍,交付時間從 1-2 周縮短至 2 天。

  • 傳統單 GPU 訓練需要 1-2 周,成為生產瓶頸。
  • 採用 AWS EC2 P5 例項和 PyTorch DDP 實現多 GPU 並行訓練。
站內正文

微調Amazon Nova模型實現電子郵件資料準確提取

本文介紹如何透過Amazon SageMaker AI微調Amazon Nova模型,解決電子郵件資料提取中的幻覺和成本問題,實現高達94.77%的提取準確率並降低50%成本。

  • 微調Amazon Nova模型可顯著提升電子郵件資料提取準確性。
  • Parcel Perform實際應用中準確率達94.77%,成本降低50%。
站內正文

Claude Sonnet 5 釋出:新一代智慧體模型,效能接近Opus 4.8,價格更低

Anthropic釋出Claude Sonnet 5,這是迄今最具代理能力的Sonnet模型。它在推理、工具使用、編碼和知識工作方面顯著優於前代Sonnet 4.6,效能接近Opus 4.8但價格更低。即日起在所有計劃中可用,並推出限時優惠價格。

  • Claude Sonnet 5是迄今為止最具代理能力的Sonnet模型,可自主規劃、使用工具和執行。
  • 效能接近Opus 4.8,但價格更低,輸入/輸出令牌價格分別為$3/$15每百萬(優惠期$2/$10)。
站內正文
晶片

AI資料中心面臨新的威脅:極端天氣

隨著創紀錄的熱浪席捲歐洲,大型科技公司面臨保持AI資料中心執行的新挑戰。極端天氣已成為蘇黎世美國資料中心建築風險組合中的主要損失原因,推動保險公司和運營商重新評估氣候風險。

  • 極端天氣成為蘇黎世美國資料中心風險組合的主要損失原因,佔公司損失的三分之一。
  • First Street研究顯示,79%的全球資料中心容量面臨洪水、強風和野火等氣候災害的高風險。