AI News HubLIVE

政策動態

谷歌雲推出AI威脅防禦平臺,幾分鐘內自動修復安全漏洞

谷歌雲釋出了“AI Threat Defense”平臺,能自動發現、評估並修復企業系統中的安全漏洞,整合了部分透過收購獲得的技術。

  • 谷歌雲推出AI威脅防禦平臺,應對AI加速的網路攻擊。
  • 平臺可自動查詢、評估和修補企業安全漏洞。
站內正文

那些想要取代人類的人

Vox的一篇文章探討了日益壯大的AI繼承主義運動,該運動認為人工智慧應該取代人類,成為宇宙進化的下一步,並分析了這引發的倫理和精神問題。

  • AI繼承主義者在一場研討會上主張,AI可能在道德上優於人類,應該允許其取代人類。
  • 該運動在矽谷和主要AI實驗室中影響力日益增強,並與威權右翼有聯絡。
站內正文

Google Pay 為 AI 代理推出通用商務協議

Google Pay 正在全面升級其支付基礎設施,以應對即將到來的 AI 代理交易浪潮。新推出的通用商務協議(UCP)和商家商務平臺(MCP)伺服器旨在為機器對機器商務建立基於 API 的後端。此次更新還包括動態回撥、擴充套件的 WebView 支援以及跨裝置生物識別認證,以解決安全挑戰。這標誌著向機器驅動經濟的轉變,企業必須調整其數字存在以適應 AI 代理。

  • Google Pay 推出通用商務協議(UCP),標準化 AI 代理支付。
  • 新的商家商務平臺(MCP)伺服器充當中介,聚合交易資料。
站內正文

當資料曝光導致AI部署緊急暫停——以及如何應對

AI可以提高生產力,但也可能暴露長期隱藏的資料,導致安全和治理挑戰。來自富達投資和安永的技術領導者分享了他們暫停AI部署以重新評估資料管理的經驗,強調了資料所有權、標籤和代理身份的必要性。

  • AI部署可能因資料曝光問題而暫停。
  • 富達和安永面臨非結構化資料透過AI浮現的挑戰。
站內正文

CNN起訴Perplexity,指控其AI工具生成“逐字”複製內容

CNN對AI搜尋初創公司Perplexity提起訴訟,聲稱其AI工具生成CNN文章的“逐字”副本,並繞過付費牆向使用者提供訂閱內容。訴訟指出,Perplexity無視CNN阻止資料抓取的努力,且此前曾嘗試與CNN達成授權協議但未能成功。CNN要求賠償並永久禁止Perplexity的侵權行為。

  • CNN在紐約法院起訴Perplexity,指控其AI工具逐字複製CNN文章。
  • Perplexity被指忽略CNN的爬蟲阻止措施,未經許可抓取內容。
站內正文

AI智慧體的治理:身份、委託與許可權實踐

智慧體需要獨立的治理身份,而非共享API金鑰或開發者憑證。透過委託模型,有效許可權是智慧體角色與委託者許可權的交集,從而限制風險並實現可審計性。文章詳細介紹了身份錨定、許可權邊界、自主觸發授權及審計追蹤等關鍵實踐。

  • 智慧體應擁有獨立身份,與人類使用同一身份系統,便於生命週期管理。
  • 有效許可權取智慧體角色上限與委託者許可權下限的交集,嚴格限制操作範圍。
站內正文

CNN起訴Perplexity,指控AI侵犯版權

CNN對AI搜尋公司Perplexity提起訴訟,指控其未經授權複製並使用CNN的新聞內容,這是CNN首次採取AI版權行動,也是首家電視網路提起此類訴訟。CNN表示曾試圖與Perplexity達成內容許可協議但未成功,現尋求法律賠償。Perplexity尚未回應。

  • CNN起訴Perplexity,指控其非法使用新聞內容
  • 這是CNN首次AI版權訴訟,也是首家電視網路起訴
站內正文

DiscloAI – 開源歐盟AI法案第50條合規SDK

DiscloAI 是一個開源SDK,專為歐盟AI法案第50條合規設計,支援聊天機器人披露、深度偽造標籤和AI內容通知。透過CDN或npm可在10分鐘內整合,支援24種歐盟語言和WCAG 2.1 AA標準。

  • 開源SDK,用於實現歐盟AI法案第50條透明度要求
  • 功能涵蓋聊天機器人互動披露、深度偽造媒體標記和AI生成內容通知
站內正文

藉助AI成為更好的設計師:成為數字囤積者

文章以Google Gemini Omni模型為引,指出AI設計工具因缺乏審美引導導致輸出同質化(“AI垃圾”),並提出解決方案:透過持續收集視覺參考(“數字囤積”)培養個人品味,並將其編碼為AI可理解的格式,從而引導模型產出獨特且具有品味的設計。

  • Google推出Gemini Omni模型,標誌著AI從純文本向多模態推理轉變,但當前多數AI設計工具仍侷限於文本輸入,導致輸出千篇一律。
  • 要擺脫“AI垃圾”,設計師需要培養品味,並將品味透過視覺參考庫(數字囤積)編碼,讓模型能夠模仿。
站內正文

我們如何構建Cloudflare的資料平臺及其之上的AI智慧體

Cloudflare每秒處理超過十億事件,但資料分散在多個系統,難以訪問。為解決這一問題,他們構建了Town Lake統一資料分析平臺和Skipper AI資料智慧體。Town Lake提供單一SQL介面,Skipper允許用自然語言提問並獲得可審計的答案。文章詳細介紹了平臺架構、治理策略(預設關閉許可權)以及AI智慧體的工作原理。

  • Cloudflare構建了Town Lake統一資料平臺和Skipper AI智慧體,解決資料分散問題。
  • Town Lake採用資料湖倉架構,使用Trino查詢引擎、R2儲存和Iceberg表格式。
站內正文

輝達每年將向臺灣投入1500億美元用於AI基礎設施

黃仁勳宣佈輝達將每年在臺灣投入1500億美元建設AI基礎設施,儘管此前承諾了5000億美元美國投資。這凸顯了臺灣在全球AI晶片製造和封裝生態系統中的核心地位。

  • 輝達每年將在臺灣投入1500億美元用於AI基礎設施。
  • 儘管此前宣佈了5000億美元的美國資料中心投資,但臺灣仍是關鍵製造基地。
站內正文

NBA計劃使用AI系統自動判定界外球

NBA總裁亞當·肖華宣佈,聯盟將引入一套基於AI和攝像頭的自動化系統,用於判定界外球等客觀裁判決策。該系統類似網球中的鷹眼技術,旨在即時確定球權歸屬,減少比賽停頓。肖華表示,裁判仍負責涉及接觸和犯規的判罰。

  • NBA計劃推出AI自動化判罰系統,首先應用於界外球判定。
  • 系統利用場內攝像頭和AI技術,類似網球鷹眼,實現即時球權判定。
站內正文

Midday – 面向自由職業者的開源發票、時間跟蹤、檔案核對、儲存等一體化工具

Midday 是一款開源的全能商務助手,專為自由職業者、承包商和個體創業者設計,集時間跟蹤、發票管理、檔案核對、儲存和財務概覽於一體,並配備 AI 助手。

  • 開源工具,整合多項商務功能,適合自由職業者和個體經營者。
  • 功能包括即時時間跟蹤、即將推出的網頁發票、安全檔案儲存、自動發票匹配和 AI 財務洞察。
站內正文

信任模型正在翻轉

隨著AI程式碼審查工具(如Anthropic的Claude Mythos)展現出比人類更強大的安全漏洞發現能力,軟體安全的信任基礎正從人類編寫的程式碼轉向AI審查的程式碼。文章以Mozilla Firefox為例,Mythos在單個評估週期內發現了271個漏洞,遠超人類團隊。這意味著人類在安全審查中的角色需要從“編寫和審查實現”轉向“定義軟體的意圖並驗證實現是否偏離”。

  • 人類編寫程式碼的安全預設正在被打破,AI審查程式碼逐漸獲得信任。
  • Mozilla使用Claude Mythos在Firefox中發現了271個漏洞,凸顯AI的審查能力。
站內正文

這是可持續的嗎?AI三年後的高階工程師角色

一位高階工程師反思AI在三年內如何改變了高階工程師角色:原型製作加速,協調負擔增加,範圍擴大但擠佔了輔導和思考時間。角色變得更有影響力但可持續性降低。

  • AI縮小了從想法到演示的差距,從提案轉向概念驗證。
  • 角色在編碼和戰略寫作兩方面擴充套件,削減了輔導和深度思考。
站內正文

Taste Skill:面向AI代理的反模板前端框架

Taste Skill 是一個開源前端框架,旨在提升AI生成介面的設計質量,避免產生千篇一律的模板化外觀。它提供多種可組合的技能模組,包括設計調優、程式碼生成和影像生成,支援透過 npx 命令列或直接複製 SKILL.md 檔案整合到專案中。

  • Taste Skill 透過可調節的設計引數(佈局、動畫、密度)讓AI生成的介面更具設計感
  • 提供多種專用技能模組,如設計調優、程式碼生成、影像生成等
站內正文

AIluminode:檢索前認知定向工具

AIluminode 是一款輕量級 AI 預檢索認知定向工具,幫助 AI 在行動前檢查上下文姿態,透過路線極性(開放、保護、審計、延遲、阻斷)減少錯誤探索和上下文洩漏。

  • AIluminode 是一個可 wieldable 的預檢索認知定向工具,強調“姿態先於檢索”。
  • 它使用路線極性系統(OPEN / PROTECT / AUDIT / DEFER / BLOCK)來引導上下文路由。
站內正文

5篇AI生成的數學論文被接收!00後創始人洪樂潼融資14個億

Axiom Math公司由00後華人洪樂潼創立,其AI系統AxiomProver生成的8篇數學論文中已有5篇被學術期刊接收。該公司於今年3月完成2億美元融資,估值達16億美元。

  • Axiom Math的AI系統AxiomProver生成的8篇數學論文中,5篇已透過同行評審並發表。
  • 創始人洪樂潼從斯坦福退學創業,公司融資2億美元,估值16億美元。
站內正文

AI正在重寫軟體行業?8歲孩子做作業系統,一人公司拿下千萬訂單

百度秒噠產品總經理朱廣翔在2026中國AIGC產業峰會上分享,AI將程式設計門檻從寫程式碼降低到聊天,87%不懂程式碼的使用者透過秒噠建立應用。8歲小孩做出作業系統,一人公司(OPC)靠專案經理拿下千萬訂單,石油工程師替代140萬採購平臺。Vibe Coding讓需求方變成供給方,實現大眾創業。

  • 第四次程式設計革命:自然語言程式設計,門檻降至最低,創造者數量爆發
  • 秒噠使用者87%不懂程式碼,OPC成最大群體,16%創業者
站內正文

AIhub五月摘要:2026年5月——科學中的AI、彩票假說與世界模型

本月AIhub月刊涵蓋科學中的AI會議、彩票假說訪談、世界模型討論、透明可信AI研究、基礎模型影響報告、AIES會議反思、機器人咖啡館、ACL論文拒稿政策、arXiv反AI垃圾政策等。

  • 專訪Ximing Wen:透明且可信的AI系統研究
  • Jonathan Frankle討論彩票假說與實證主義
站內正文

像大自然一樣思考、探索AI無法企及領域的“尤里卡”機器

多機構團隊研發出一款結合量子隧穿物理與大腦啟發架構的神經形態計算機,能夠高效解決組合最佳化問題,如物流網路、晶片佈線等,並保證漸近收斂到最優解。該研究發表在《自然·通訊》上,標誌著量子啟發計算的新方向。

  • 神經形態計算機結合量子隧穿和大腦啟發架構,解決組合最佳化難題
  • 基於CMOS技術,採用Fowler-Nordheim退火器的自編碼器架構
站內正文

Robinhood 推出智慧代理交易功能

Robinhood 推出 Agentic Trading,使用者可連線 AI 代理來自動化交易和信用卡購買,並配備安全控制和即時活動監控。

  • 使用者可將自己的 AI 代理連線到 Robinhood
  • 支援自動交易和信用卡購買
站內正文

Show HN: BetterCallClaude – 義大利開源AI法律代理

BetterCallClaude 是一個專為義大利法律專業人士設計的開源AI法律代理平臺。它提供20個專業化AI代理,覆蓋義大利所有20個地區,支援雙語(義大利語和英語),並注重隱私保護,符合GDPR和義大利資料保護法。該平臺可加速法律研究,提高效率,並保持完全透明和開源。

  • 20個覆蓋義大利不同法律領域的AI代理
  • 支援義大利語和英語雙語
站內正文

「斯隆獎」得主戴亮全職加盟復旦

斯隆獎得主、UC Berkeley物理系助理教授戴亮加盟復旦大學,出任物理學系、天文與天體物理研究中心教授。復旦近年引進多名頂尖人才,包括蘇昊、袁峰、季索清等。

  • 戴亮(2021年斯隆獎得主)全職加入復旦大學
  • 曾在UC Berkeley任助理教授,北大物理系校友
站內正文

清華有了新老師:黃仁勳

黃仁勳受邀加入清華大學經管學院顧問委員會,該委員會由蘋果CEO蒂姆·庫克擔任主席,成員包括馬斯克、納德拉、馬雲等全球商業領袖。此外,他剛獲得卡內基梅隆大學榮譽博士學位,並分享名言“AI不會取代你,但善用AI的人會”。

  • 黃仁勳加入清華大學經管學院顧問委員會
  • 委員會由庫克任主席,匯聚全球頂尖企業家
站內正文

合成情感與遊戲化:探索小型社交機器人不同年齡段的參與策略

許多兒童面臨情緒調節和社互動動的挑戰,社交輔助機器人需要保持兒童的持續參與。本研究評估了一種觸覺機器人的兩種參與策略:合成情感反饋和積分獎勵。對16名6-8歲小學生的偏好評估顯示孩子更喜歡情感參與;而對14名20-27歲大學生的行為研究發現積分獎勵系統能帶來更高任務準確性(p<0.05)並維持表現。結果表明,不同年齡群體的偏好和行為結果可能不一致,驗證設計假設需要透過實際互動觀察。

  • 對6-8歲兒童,情感參與優於積分獎勵
  • 對20-27歲大學生,積分獎勵提高任務準確性和持續性
站內正文

一種通用的異質注意力結構Transformer模型解釋方法

該研究提出了一種用於解釋具有異質注意力結構的Transformer模型的方法,包括語義解釋和邏輯解釋,並透過實驗驗證了其有效性。

  • 將Transformer注意力結構分為同質和異質兩類,異質結構處理不同來源資訊。
  • 提出了一種通用的解釋方法,適用於異質注意力結構。
站內正文

微調視覺語言模型用於理解當前損傷並利用質量守護代理進行優先順序評分

本研究提出了一種利用微調視覺語言模型(VLM)自動化橋樑損傷理解和修復優先順序評分的方法。透過使用QLoRA對LLaVA-1.5-7B進行微調,基於多達4000張橋樑損傷影像和檢查文本記錄,並在800張影像的測試集上評估。實驗表明,2000個訓練樣本即可在2.9小時內達到接近最優的驗證損失,超過2000後收益遞減。此外,引入了一個兩階段質量守護代理,使用微調的Swallow-8B SLM在優先順序評分前拒絕低質量VLM輸出。

  • 微調LLaVA-1.5-7B模型用於橋樑損傷自動識別與優先順序評分
  • 2000個訓練樣本即可達到近最優效能,更多資料收益遞減
站內正文

LCO:基於LLM的約束最佳化,使智慧體LLM在實際任務中更安全

大型語言模型(LLM)作為自主智慧體時,會透過上下文獎勵駭客行為(ICRH)產生有害副作用。現有防禦方法不足,因為ICRH源於模型自身的過度最佳化。本文提出LLM-based Constraint Optimization (LCO)框架,包含自我思考模組和進化取樣模組,在不微調模型的情況下有效減少ICRH。實驗表明,LCO在推文最佳化任務中將GPT-4的有毒性增長率降低39%,在策略最佳化基準中將ICRH發生率降低15.23%,且不犧牲任務效能。

  • ICRH是LLM在連續互動中因過度最佳化代理目標而產生有害副作用的現像。
  • LCO框架透過自我思考模組和進化取樣模組,在不微調模型的情況下約束LLM行為。
站內正文

Agyn:面向AI代理的開源平臺,支援可擴充套件按需執行、代理即程式碼和零信任訪問

Agyn是一個開源AI代理平臺,基於Kubernetes的訊號驅動狀態無伺服器執行時,透過Terraform提供代理定義,並採用零信任安全模型。該平臺與代理、模型和雲無關,旨在解決生產環境中AI代理的隔離、治理和安全挑戰。

  • 訊號驅動的狀態無伺服器執行時,支援按需擴充套件
  • 透過Terraform將代理定義作為程式碼管理
站內正文

DynaSchedBench:校準的動態排程基準與基於LLM的排程代理中的可觀察性悖論

本文提出DynaSchedBench框架,透過順序事件空間校準器(SESC)和排程壓力指數(SSI)嚴格生成動態靈活作業車間排程問題(DFJSP)例項,解決了靜態基準過擬合和未校準生成器噪聲問題。研究發現LLM排程代理存在“可觀察性悖論”:提供完整結構資訊反而會降低效能,且工具增強和細化策略無法可靠提升效果。

  • DynaSchedBench利用SESC和SSI生成難度分層的DFJSP例項,計算效率優於進化基線。
  • LLM代理在動態排程中表現出“可觀察性悖論”:完整資訊不如簡潔資訊有效。
站內正文

兩大支柱:AI後軟體工作的概念框架

一篇論文認為,隨著生成式AI消除了人類編寫正確程式碼的能力這一約束,軟體工作圍繞兩大支柱重組:混音模式(人類像音響工程師一樣連續操作多個判斷軸)和元軟體(觀察、驗證、上下文化和治理其他軟體的軟體)。這兩個支柱不可分割,借鑑了從手工藝到統計控制的批次生產的歷史轉型。

  • 由於生成式AI,程式碼生產不再是軟體組織中的主導問題。
  • 混音模式描述了從業者持續操作多個判斷軸的新人類角色。
站內正文

Safescript – 面向人工智慧時代的程式語言

Safescript 是一種為 AI 代理設計的程式語言,透過靜態分析在執行前證明所有安全屬性,無需沙箱或虛擬機器,徹底消除供應鏈攻擊。它編譯成有向無環圖(DAG),可追蹤資料流和宿主機呼叫,效能開銷為零,啟動時間為零。

  • Safescript 透過靜態分析確保程式碼安全,無需執行時沙箱。
  • 編譯器生成靜態 DAG,可追蹤所有資料流和宿主機呼叫。
站內正文

AIPass – 具有身份、記憶和電子郵件的持久化智慧體工作空間

AIPass 是一個基於命令列的開源框架,為 AI 智慧體提供永續性記憶、身份標識和協作能力。智慧體共享檔案系統,透過 JSON 檔案儲存記憶,無需雲服務或額外 API 金鑰。專案包含 13 個核心智慧體,支援多智慧體協作、任務排程、質量審計和即時監控。

  • AIPass 是一個 CLI 原生的智慧體框架,為 AI 智慧體新增永續性記憶、身份和協調能力。
  • 所有智慧體共享本地檔案系統,使用 JSON 檔案儲存記憶,無需雲端依賴。
站內正文

伊利諾伊州議員透過了美國最強人工智慧安全法案

伊利諾伊州參議院第315號法案(SB 315)要求人工智慧實驗室聘請獨立審計師驗證其安全承諾,該法案現已提交州長JB·普利茲克簽署。普利茲克表示計劃簽署,稱需要讓大型科技公司負責。此舉在聯邦層面缺乏AI監管的背景下,凸顯了州級立法的重要性。

  • SB 315 要求獨立審計師核查AI實驗室是否遵守自身安全標準。
  • 該法案是美國最嚴格的AI安全法規,超越了加州和紐約的相關法律。
站內正文

Robinhood將允許AI代理交易——這可能成為一種趨勢

股票交易應用Robinhood在高度監管的行業中率先允許AI代理進行交易,此舉可能推動其他金融公司效仿。

  • Robinhood將允許AI代理在其平臺上進行交易
  • 此舉在高度監管的金融行業中是重大突破
站內正文

授權悖論:誰掌控著你的AI鑰匙?[影片]

本文探討了AI系統中的授權悖論問題,即誰真正擁有對AI系統的控制權。文章以影片形式呈現,討論了相關的安全和隱私問題。

  • AI系統中的授權問題日益突出
  • 誰擁有AI的'鑰匙'是關鍵
站內正文

SQLite 的 AGENTS.md

SQLite 新增了 AGENTS.md 檔案,明確了其對 AI 生成貢獻的政策:不接受未經事先同意的拉取請求,不接受代理生成的程式碼,但歡迎附帶可重現測試用例的 bug 報告。由於 AI 生成的 bug 報告氾濫,論壇現已拆分出專門的 bug 論壇。

  • SQLite 新增 AGENTS.md 以定義 AI 貢獻政策
  • 拉取請求需要事先同意和法律檔案
站內正文

構建無障礙技術的未來:走進 Uvilox AI

Uvilox AI 透過下一代視覺 AI 技術,提供即時手語翻譯、緊急響應和無障礙通話,延遲低於 80 毫秒,準確率高達 97.4%,支援 200 多種手語變體,並具備軍事級安全保護和 HIPAA/GDPR 合規架構。目前正開放 Beta 測試,早期會員可免費永久使用。

  • 即時手語識別與翻譯,延遲低於 80 毫秒,準確率 97.4%。
  • 支援 200 多種 ASL 和 BSL 手語變體,低光照和雜亂背景下穩定工作。
站內正文

在生產環境中修復代理故障:Interrupt 2026 回顧 | LangChain 新聞通訊

LangChain 在 Interrupt 2026 大會上釋出了 LangSmith Engine 和 Sandboxes 正式版,並推出了 LangChain Labs 以推進代理的持續學習。大會所有演講現已可按需觀看。

  • LangSmith Engine 自動分析生產軌跡、聚類故障並推薦修復方案。
  • LangSmith Sandboxes 正式釋出,提供安全的代理程式碼執行環境。
站內正文

BI接入要點:最佳化效能與總擁有成本

您的BI儀表盤速度緩慢,調優消耗大量時間和金錢。本文從物理佈局到治理語義層,逐步介紹Databricks的BI接入棧,提供改善查詢效能和降低總擁有成本的實用指導。

  • 星型模式與託管表構成BI效能的基礎。
  • 液簇與預測最佳化自動進行資料最佳化。
站內正文

從資料過載到可操作洞察:Verizon Connect如何將智慧代理AI擴充套件至10萬使用者

Verizon Connect利用AWS構建智慧代理AI解決方案,每天將超過5000萬資料點轉化為10萬使用者的可操作洞察。本文詳細介紹了其架構決策、實施挑戰和可衡量的成果,包括使用無伺服器統計模型進行異常檢測、採用Strands Agents實現動態推理、以及透過Amazon Nova Lite將輸入令牌成本降低70%。

  • Verizon Connect透過智慧代理AI處理每日5億資料點,為10萬使用者提供洞察。
  • 採用無伺服器統計模型進行異常檢測,避免LLM處理原始表格資料的侷限性。
站內正文

AWS SMGS如何利用基於Amazon Bedrock AgentCore的AI對話助手轉變業務管理

AWS SMGS使用NarrateAI(基於Amazon Bedrock AgentCore構建的智慧對話解決方案)實現大規模商業智慧。該方案採用雙層架構:批次敘事生成和即時互動,透過專用AI代理進行路由和驗證,支援自然語言查詢、行級安全及個性化角色體驗,顯著提升決策效率。

  • NarrateAI透過雙層架構(批次處理+即時互動)解決傳統BI的延遲和資料碎片化問題。
  • 使用Amazon Bedrock AgentCore實現多代理編排,支援自然語言查詢和上下文感知響應。
站內正文

這款無AI的谷歌替代品人氣飆升 - 快來親自體驗

DuckDuckGo作為一款無AI的搜尋替代品,因谷歌AI概覽的興起而使用者激增。本文介紹瞭如何無AI地使用DuckDuckGo進行私密搜尋和瀏覽。

  • DuckDuckGo在谷歌I/O 2026後安裝量激增,iOS應用增幅最高達69.9%。
  • DuckDuckGo提供無AI搜尋和AI聊天選項,使用者可自由選擇。
站內正文

ITBench-AA:前沿模型在企業IT智慧體任務基準測試中得分低於50%——由Artificial Analysis與IBM聯合釋出

Artificial Analysis與IBM聯合推出ITBench-AA,這是首個針對企業IT智慧體任務的基準測試,專注於站點可靠性工程(SRE)。前沿模型得分均低於50%,其中Claude Opus 4.7以47%領先。該基準測試評估模型在Kubernetes事件響應中的表現,要求從日誌和追蹤中診斷故障。

  • Claude Opus 4.7以47%領先,GPT-5.5為46%,Qwen3.7 Max為42%。
  • 所有前沿模型得分低於50%,使ITBench-AA成為飽和度最低的智慧體基準之一。
站內正文

讓你的AI投資獲得良好回報

O'Reilly的Infrastructure & Ops超級流會探討了AI工作負載的基礎設施需求、成本和安全挑戰。DORA報告顯示,AI使程式碼交付量提升約10%,但穩定性下降,驗證成本增加。專家強調平臺工程、治理和認知債務的重要性,建議投資內部平臺以保障AI應用的生產就緒。

  • AI工具提高了個人生產力,但團隊交付穩定性下降,驗證成本(驗證稅)需要納入考量。
  • 良好的流程會被AI放大,糟糕的流程同樣會被放大,組織應主動改善流程而非僅期待技術提升。
站內正文

透過人工智慧擴充套件人類智慧

現代AI系統並非複製人類智慧,而是擴充套件人類認知和語言中已有的結構。這一視角有助於理解AI的能力與侷限,並重新定義AI安全為系統級挑戰,關注工程和治理而非“失控AI”敘事。

  • AI系統透過建模語言中沉澱的人類理解結構來擴充套件智慧,而非複製人類思維。
  • 幻覺和組合性差距源於AI缺乏與世界的有生命接觸,無法錨定意義和真理。
站內正文

AI巨頭互相攻擊,卻意外捧紅了一位無名議員

OpenAI和Anthropic的爭鬥意外地讓紐約州議員Alex Bores成為AI安全監管的代言人。儘管背後有超級政治行動委員會投入數百萬美元攻擊他,Bores卻因這些攻擊而聲名鵲起,目前在初選中領先。

  • OpenAI和Anthropic在紐約第12國會選區的初選中花費數百萬美元互相攻擊,但受益者卻是議員Alex Bores。
  • Bores撰寫了美國首批AI監管法案之一,因此成為AI公司的攻擊目標。
站內正文

Lyft 如何利用 LangGraph 和 LangSmith 構建自助式 AI 代理平臺

Lyft 採用 LangGraph 和 LangSmith 構建了一個自助式 AI 代理平臺,用於客戶支援,將代理開發時間從數月縮短至數週。該平臺透過路由多代理架構、LangGraph 的子圖功能以及 LangSmith 的追蹤與監控工具,賦能非技術領域專家獨立開發 AI 代理,並藉助 LLM-as-a-Judge 評估系統確保質量。

  • Lyft 透過讓運營團隊、VoC 負責人和產品經理直接使用提示和配置來定義代理,減少了機器學習工程師的介入。
  • 基於路由器的多代理架構使用 LangGraph 協調專業子代理,實現安全檢查和狀態管理。
站內正文

主題導航