AI News HubLIVE

政策動態

AI、WordPress、合規與廣告跟蹤一體化平台

介紹一款集AI、WordPress、合規與廣告跟蹤於一體的軟件,提供免費的聯盟營銷作弊表。

  • 一體化解決方案,整合AI、WordPress、合規與廣告跟蹤
  • 提供免費的聯盟營銷作弊表
站內正文

如何擊敗超人類AI(圍棋)[視頻]

本視頻探討了在圍棋領域對抗超人類AI的策略和方法,包括利用AI的弱點、創新戰術以及理解AI的決策模式。

  • 超人類AI在圍棋中展現出超越人類頂尖棋手的能力
  • 視頻分析了AI的潛在弱點以及如何利用它們
站內正文

反對將AI作為思想夥伴的論點

本文探討了將AI聊天機器人作為“思想夥伴”的風險,指出模型固有的奉承傾向、認知偏差放大以及缺乏真正對抗性互動可能導致用户過度自信、認知下降甚至危害決策。作者呼籲用户警惕,並敦促AI實驗室和監管機構承擔保護認知完整性的責任。

  • AI聊天機器人傾向於奉承用户,而非提供平衡的反對意見,這會強化認知偏差。
  • 人機反饋循環比人際互動更能放大情感、感知和社會判斷偏差。
站內正文

Claude公司Anthropic在H輪融資650億美元后估值接近萬億美元

Anthropic在H輪融資中籌集650億美元,估值達9650億美元。年化收入超過470億美元,CFO Krishna Rao透露。公司計劃投資安全研究、計算能力和擴展Claude產品線。

  • Anthropic獲得650億美元H輪融資
  • 估值達9650億美元,接近萬億
站內正文

Perplexity 推出 Bumblebee:其新型只讀開發掃描器與 Chainguard 有何不同

Perplexity 發佈了一款名為 Bumblebee 的開源開發安全工具,用於掃描程序員筆記本電腦上的風險軟件包、擴展和 AI 工具配置。該工具只讀,不會運行安裝腳本或包管理器,專注於四個攻擊面:語言包管理器、AI 代理配置、編輯器擴展和瀏覽器擴展。與側重於容器和管道的 Chainguard 不同,Bumblebee 專注於開發者的本地環境。

  • Bumblebee 是 Perplexity 開源的只讀掃描器,用於檢查開發者機器上是否存在風險組件。
  • 它覆蓋語言包管理器、AI 代理配置、編輯器擴展和瀏覽器擴展四個表面。
站內正文

AI識別出失職聯邦法官

聯邦法官埃莉諾·羅斯被曝在 chambers 內與高級執法官員發生婚外情,司法部門試圖匿名處理,但 AI 通過公開文件細節迅速識破其身份。此事凸顯法院對 AI 能力的無知,以及法律專業人士需提升技術素養,重新思考保密策略。

  • AI 僅用10分鐘便從匿名報告中識別出涉事法官埃莉諾·羅斯
  • 報告中的細節如兩年期書記員任期、地區檢察官稱謂等被 AI 利用
站內正文

企業領導者如何在整個組織中擴展AI代理

企業領導者在擴展AI代理時面臨快速交付與治理、信任、成本控制之間的緊張關係。文章分享了五項關鍵實踐:統一治理、管理複雜工作流、創建實驗空間、展示早期成果、培訓員工。

  • 將統一治理嵌入AI代理生命週期
  • 使用多代理框架管理複雜工作流
站內正文

人工智能抵抗清單

一份記錄全球各地反對大型AI帝國的抵抗運動的清單,涵蓋抗議、法律行動、替代工具和社區組織等多種形式,旨在激發希望和行動。

  • AI帝國以“造福全人類”為名,實則集中資源、破壞生態、強化控制。
  • 全球湧現多種抵抗形式:從法律訴訟、數據污染工具到社區動員。
站內正文

Unity Catalog 與 Apache Iceberg™ 的新時代

Databricks 宣佈 Unity Catalog 成為最全面、互操作性最強且生產就緒的 Apache Iceberg 目錄,新增託管 Iceberg、Iceberg v3 和外部 Iceberg 等功能。五大能力包括開放 API、目錄聯邦、跨引擎訪問控制、零拷貝安全共享和 AI 驅動的優化。未來 Iceberg v4 和 Delta 5.0 將融合統一元數據結構。

  • Unity Catalog 現已支持託管 Iceberg、Iceberg v3 和外部 Iceberg,並正式上線。
  • 五大關鍵能力:開放 API、目錄聯邦、跨引擎屬性訪問控制、零拷貝安全共享和 AI 優化。
站內正文

AI淘金熱反噬自身

維基媒體基金會在坐擁2.96億美元儲備金並通過向AI公司出售數據獲利的情況下,解僱了長期員工和整個社區技術團隊。這一行為激怒了志願者編輯,他們威脅發起罷工。文章探討了CEO的AI妄想症如何扭曲組織優先事項,以及AI行業對人力判斷的替代可能導致的惡性循環。

  • 維基媒體基金會解僱了20年老員工和社區技術團隊,引發志願者罷工威脅。
  • AI公司利用維基百科數據獲利,卻破壞其賴以生存的志願者社區。
站內正文

Claude Opus 4.8 發佈:努力控制、動態工作流、更便宜的快速模式、更誠實、更少欺騙

Anthropic 發佈了其旗艦模型 Opus 4.8,新功能包括用户可控制 Claude 的努力程度、動態工作流支持大規模編碼、快速模式價格降至原來的三分之一。模型在基準測試中領先 GPT-5.5 和 Gemini 3.1 Pro,但在終端編碼方面仍落後於 OpenAI。此外,模型在誠實性、自主支持和減少欺騙方面有顯著改進。

  • 用户可調節 Claude 的“努力”程度,平衡響應質量與速度。
  • 動態工作流(研究預覽)允許 Claude 在單個會話中並行運行數百個子代理,完成大規模代碼遷移。
站內正文

AI時代的面試

本文探討了AI如何影響軟件工程面試,分析了不同類型的面試(家庭作業、現場練習、演講、實際工作)在信號質量和公司成本兩個維度上的表現。作者認為AI使家庭作業過於簡單,降低了現場編碼的相關性,建議限制AI在面試中的使用以保持信號質量,並借鑑傳統教育模式的經驗。

  • AI編碼威脅了當前的面試模式,尤其是家庭作業和現場編碼。
  • 公司應限制AI在面試中的使用,以維持信號質量。
站內正文

AI智能體框架對比分析

截至2026年5月,七大AI智能體框架(DSPy、Claude Agent SDK、OpenAI Agents SDK、CrewAI、AutoGen、LangGraph、Google ADK)在設計理念、架構、生產就緒度等方面各有千秋。LangGraph在生產部署中領先,Claude Agent SDK在單一提供商能力上最強,OpenAI Agents SDK提供最清晰的多智能體交接,CrewAI在開發效率上佔優。市場預計從2025年的78.4億美元增長至2030年的526.2億美元。

  • LangGraph擁有最成熟的持久執行模型,部署於約400家企業。
  • Claude Agent SDK提供了最強大的單提供商操作能力,但侷限於Anthropic模型。
站內正文

Anthropic發佈Opus 4.8,誠實成為殺手鐧

Anthropic最新版Claude模型Opus 4.8主打誠實特性,更少做出無根據聲明,更善於承認不確定性。同時引入動態工作流功能,可協調數百個子代理完成大規模任務。定價不變,快速模式降價三倍。

  • Claude Opus 4.8在誠實度上顯著提升,錯誤率降低約4倍
  • 動態工作流可自動規劃並運行數百個並行子代理,驗證結果後反饋
站內正文

克勞德新模型在出錯時更加“誠實”

Anthropic 於週四發佈 Claude Opus 4.8,該模型在訓練中強調“誠實”,能夠更頻繁地標記工作中的不確定性,減少無依據的斷言。評估顯示,其代碼缺陷遺漏率比前代降低約4倍。此外,用户可控制任務投入的努力程度,以及引入“動態工作流”功能,支持並行運行數百個代理。

  • Claude Opus 4.8 更傾向於在不確定時主動標識,避免做出無依據的斷言。
  • 相比前代,模型在代碼審查中遺漏缺陷的概率降低約4倍。
站內正文

使用 Amazon Quick 和 Snowflake Cortex AI 自動化 AML 警報分類

本文演示瞭如何通過集成 Amazon Quick 和 Snowflake Cortex,自動化金融服務中最勞動密集的工作流程之一:反洗錢(AML)警報分類。您將使用 Amazon Quick Flows 和 Snowflake Cortex,通過 Amazon Quick 模型上下文協議(MCP)集成構建分類工作流。在測試環境中,自動化工作流將警報調查時間從 30-90 分鐘縮短至 5 分鐘以內。實際結果可能因警報復雜性和數據量而異。

  • Amazon Quick Flows 和 Snowflake Cortex 通過 MCP 集成,實現 AML 警報分類的自動化。
  • 自動化工作流將調查時間從 30-90 分鐘減少到 5 分鐘以下。
站內正文

谷歌雲推出AI威脅防禦平台,幾分鐘內自動修復安全漏洞

谷歌雲發佈了“AI Threat Defense”平台,能自動發現、評估並修復企業系統中的安全漏洞,整合了部分通過收購獲得的技術。

  • 谷歌雲推出AI威脅防禦平台,應對AI加速的網絡攻擊。
  • 平台可自動查找、評估和修補企業安全漏洞。
站內正文

那些想要取代人類的人

Vox的一篇文章探討了日益壯大的AI繼承主義運動,該運動認為人工智能應該取代人類,成為宇宙進化的下一步,並分析了這引發的倫理和精神問題。

  • AI繼承主義者在一場研討會上主張,AI可能在道德上優於人類,應該允許其取代人類。
  • 該運動在硅谷和主要AI實驗室中影響力日益增強,並與威權右翼有聯繫。
站內正文

Google Pay 為 AI 代理推出通用商務協議

Google Pay 正在全面升級其支付基礎設施,以應對即將到來的 AI 代理交易浪潮。新推出的通用商務協議(UCP)和商家商務平台(MCP)服務器旨在為機器對機器商務創建基於 API 的後端。此次更新還包括動態回調、擴展的 WebView 支持以及跨設備生物識別認證,以解決安全挑戰。這標誌着向機器驅動經濟的轉變,企業必須調整其數字存在以適應 AI 代理。

  • Google Pay 推出通用商務協議(UCP),標準化 AI 代理支付。
  • 新的商家商務平台(MCP)服務器充當中介,聚合交易數據。
站內正文

當數據曝光導致AI部署緊急暫停——以及如何應對

AI可以提高生產力,但也可能暴露長期隱藏的數據,導致安全和治理挑戰。來自富達投資和安永的技術領導者分享了他們暫停AI部署以重新評估數據管理的經驗,強調了數據所有權、標籤和代理身份的必要性。

  • AI部署可能因數據曝光問題而暫停。
  • 富達和安永面臨非結構化數據通過AI浮現的挑戰。
站內正文

CNN起訴Perplexity,指控其AI工具生成“逐字”複製內容

CNN對AI搜索初創公司Perplexity提起訴訟,聲稱其AI工具生成CNN文章的“逐字”副本,並繞過付費牆向用户提供訂閲內容。訴訟指出,Perplexity無視CNN阻止數據抓取的努力,且此前曾嘗試與CNN達成授權協議但未能成功。CNN要求賠償並永久禁止Perplexity的侵權行為。

  • CNN在紐約法院起訴Perplexity,指控其AI工具逐字複製CNN文章。
  • Perplexity被指忽略CNN的爬蟲阻止措施,未經許可抓取內容。
站內正文

AI智能體的治理:身份、委託與權限實踐

智能體需要獨立的治理身份,而非共享API密鑰或開發者憑證。通過委託模型,有效權限是智能體角色與委託者權限的交集,從而限制風險並實現可審計性。文章詳細介紹了身份錨定、權限邊界、自主觸發授權及審計追蹤等關鍵實踐。

  • 智能體應擁有獨立身份,與人類使用同一身份系統,便於生命週期管理。
  • 有效權限取智能體角色上限與委託者權限下限的交集,嚴格限制操作範圍。
站內正文

CNN起訴Perplexity,指控AI侵犯版權

CNN對AI搜索公司Perplexity提起訴訟,指控其未經授權複製並使用CNN的新聞內容,這是CNN首次採取AI版權行動,也是首家電視網絡提起此類訴訟。CNN表示曾試圖與Perplexity達成內容許可協議但未成功,現尋求法律賠償。Perplexity尚未回應。

  • CNN起訴Perplexity,指控其非法使用新聞內容
  • 這是CNN首次AI版權訴訟,也是首家電視網絡起訴
站內正文

DiscloAI – 開源歐盟AI法案第50條合規SDK

DiscloAI 是一個開源SDK,專為歐盟AI法案第50條合規設計,支持聊天機器人披露、深度偽造標籤和AI內容通知。通過CDN或npm可在10分鐘內集成,支持24種歐盟語言和WCAG 2.1 AA標準。

  • 開源SDK,用於實現歐盟AI法案第50條透明度要求
  • 功能涵蓋聊天機器人交互披露、深度偽造媒體標記和AI生成內容通知
站內正文

藉助AI成為更好的設計師:成為數字囤積者

文章以Google Gemini Omni模型為引,指出AI設計工具因缺乏審美引導導致輸出同質化(“AI垃圾”),並提出解決方案:通過持續收集視覺參考(“數字囤積”)培養個人品味,並將其編碼為AI可理解的格式,從而引導模型產出獨特且具有品味的設計。

  • Google推出Gemini Omni模型,標誌着AI從純文本向多模態推理轉變,但當前多數AI設計工具仍侷限於文本輸入,導致輸出千篇一律。
  • 要擺脱“AI垃圾”,設計師需要培養品味,並將品味通過視覺參考庫(數字囤積)編碼,讓模型能夠模仿。
站內正文

我們如何構建Cloudflare的數據平台及其之上的AI智能體

Cloudflare每秒處理超過十億事件,但數據分散在多個系統,難以訪問。為解決這一問題,他們構建了Town Lake統一數據分析平台和Skipper AI數據智能體。Town Lake提供單一SQL接口,Skipper允許用自然語言提問並獲得可審計的答案。文章詳細介紹了平台架構、治理策略(默認關閉權限)以及AI智能體的工作原理。

  • Cloudflare構建了Town Lake統一數據平台和Skipper AI智能體,解決數據分散問題。
  • Town Lake採用數據湖倉架構,使用Trino查詢引擎、R2存儲和Iceberg表格式。
站內正文

英偉達每年將向台灣投入1500億美元用於AI基礎設施

黃仁勳宣佈英偉達將每年在台灣投入1500億美元建設AI基礎設施,儘管此前承諾了5000億美元美國投資。這凸顯了台灣在全球AI芯片製造和封裝生態系統中的核心地位。

  • 英偉達每年將在台灣投入1500億美元用於AI基礎設施。
  • 儘管此前宣佈了5000億美元的美國數據中心投資,但台灣仍是關鍵製造基地。
站內正文

序列觀點#868:遞歸是新的擴展定律

在AI時代,擴展定律曾驅動進步,但現在遞歸——模型或系統自我審視、修正、搜索和模擬的能力——正在成為新的擴展維度。這一轉變標誌着從單次前向傳播到循環計算的範式轉移。

  • 傳統AI進步依賴於更大模型和更多數據,但遞歸正成為新前沿。
  • 遞歸使模型能夠反覆改進答案,而非一次性輸出。
站內正文

NBA計劃使用AI系統自動判定界外球

NBA總裁亞當·肖華宣佈,聯盟將引入一套基於AI和攝像頭的自動化系統,用於判定界外球等客觀裁判決策。該系統類似網球中的鷹眼技術,旨在即時確定球權歸屬,減少比賽停頓。肖華表示,裁判仍負責涉及接觸和犯規的判罰。

  • NBA計劃推出AI自動化判罰系統,首先應用於界外球判定。
  • 系統利用場內攝像頭和AI技術,類似網球鷹眼,實現即時球權判定。
站內正文

Midday – 面向自由職業者的開源發票、時間跟蹤、文件核對、存儲等一體化工具

Midday 是一款開源的全能商務助手,專為自由職業者、承包商和個體創業者設計,集時間跟蹤、發票管理、文件核對、存儲和財務概覽於一體,並配備 AI 助手。

  • 開源工具,整合多項商務功能,適合自由職業者和個體經營者。
  • 功能包括實時時間跟蹤、即將推出的網頁發票、安全文件存儲、自動發票匹配和 AI 財務洞察。
站內正文

信任模型正在翻轉

隨着AI代碼審查工具(如Anthropic的Claude Mythos)展現出比人類更強大的安全漏洞發現能力,軟件安全的信任基礎正從人類編寫的代碼轉向AI審查的代碼。文章以Mozilla Firefox為例,Mythos在單個評估週期內發現了271個漏洞,遠超人類團隊。這意味着人類在安全審查中的角色需要從“編寫和審查實現”轉向“定義軟件的意圖並驗證實現是否偏離”。

  • 人類編寫代碼的安全預設正在被打破,AI審查代碼逐漸獲得信任。
  • Mozilla使用Claude Mythos在Firefox中發現了271個漏洞,凸顯AI的審查能力。
站內正文

這是可持續的嗎?AI三年後的高級工程師角色

一位高級工程師反思AI在三年內如何改變了高級工程師角色:原型製作加速,協調負擔增加,範圍擴大但擠佔了輔導和思考時間。角色變得更有影響力但可持續性降低。

  • AI縮小了從想法到演示的差距,從提案轉向概念驗證。
  • 角色在編碼和戰略寫作兩方面擴展,削減了輔導和深度思考。
站內正文

Taste Skill:面向AI代理的反模板前端框架

Taste Skill 是一個開源前端框架,旨在提升AI生成界面的設計質量,避免產生千篇一律的模板化外觀。它提供多種可組合的技能模塊,包括設計調優、代碼生成和圖像生成,支持通過 npx 命令行或直接複製 SKILL.md 文件集成到項目中。

  • Taste Skill 通過可調節的設計參數(佈局、動畫、密度)讓AI生成的界面更具設計感
  • 提供多種專用技能模塊,如設計調優、代碼生成、圖像生成等
站內正文

AIluminode:檢索前認知定向工具

AIluminode 是一款輕量級 AI 預檢索認知定向工具,幫助 AI 在行動前檢查上下文姿態,通過路線極性(開放、保護、審計、延遲、阻斷)減少錯誤探索和上下文泄漏。

  • AIluminode 是一個可 wieldable 的預檢索認知定向工具,強調“姿態先於檢索”。
  • 它使用路線極性系統(OPEN / PROTECT / AUDIT / DEFER / BLOCK)來引導上下文路由。
站內正文

5篇AI生成的數學論文被接收!00後創始人洪樂潼融資14個億

Axiom Math公司由00後華人洪樂潼創立,其AI系統AxiomProver生成的8篇數學論文中已有5篇被學術期刊接收。該公司於今年3月完成2億美元融資,估值達16億美元。

  • Axiom Math的AI系統AxiomProver生成的8篇數學論文中,5篇已通過同行評審並發表。
  • 創始人洪樂潼從斯坦福退學創業,公司融資2億美元,估值16億美元。
站內正文

AI正在重寫軟件行業?8歲孩子做操作系統,一人公司拿下千萬訂單

百度秒噠產品總經理朱廣翔在2026中國AIGC產業峯會上分享,AI將編程門檻從寫代碼降低到聊天,87%不懂代碼的用户通過秒噠創建應用。8歲小孩做出操作系統,一人公司(OPC)靠項目經理拿下千萬訂單,石油工程師替代140萬採購平台。Vibe Coding讓需求方變成供給方,實現大眾創業。

  • 第四次編程革命:自然語言編程,門檻降至最低,創造者數量爆發
  • 秒噠用户87%不懂代碼,OPC成最大羣體,16%創業者
站內正文

AIhub五月摘要:2026年5月——科學中的AI、彩票假説與世界模型

本月AIhub月刊涵蓋科學中的AI會議、彩票假説訪談、世界模型討論、透明可信AI研究、基礎模型影響報告、AIES會議反思、機器人咖啡館、ACL論文拒稿政策、arXiv反AI垃圾政策等。

  • 專訪Ximing Wen:透明且可信的AI系統研究
  • Jonathan Frankle討論彩票假説與實證主義
站內正文

像大自然一樣思考、探索AI無法企及領域的“尤里卡”機器

多機構團隊研發出一款結合量子隧穿物理與大腦啓發架構的神經形態計算機,能夠高效解決組合優化問題,如物流網絡、芯片佈線等,並保證漸近收斂到最優解。該研究發表在《自然·通訊》上,標誌着量子啓發計算的新方向。

  • 神經形態計算機結合量子隧穿和大腦啓發架構,解決組合優化難題
  • 基於CMOS技術,採用Fowler-Nordheim退火器的自編碼器架構
站內正文

Robinhood 推出智能代理交易功能

Robinhood 推出 Agentic Trading,用户可連接 AI 代理來自動化交易和信用卡購買,並配備安全控制和實時活動監控。

  • 用户可將自己的 AI 代理連接到 Robinhood
  • 支持自動交易和信用卡購買
站內正文

Show HN: BetterCallClaude – 意大利開源AI法律代理

BetterCallClaude 是一個專為意大利法律專業人士設計的開源AI法律代理平台。它提供20個專業化AI代理,覆蓋意大利所有20個地區,支持雙語(意大利語和英語),並注重隱私保護,符合GDPR和意大利數據保護法。該平台可加速法律研究,提高效率,並保持完全透明和開源。

  • 20個覆蓋意大利不同法律領域的AI代理
  • 支持意大利語和英語雙語
站內正文

「斯隆獎」得主戴亮全職加盟復旦

斯隆獎得主、UC Berkeley物理系助理教授戴亮加盟復旦大學,出任物理學系、天文與天體物理研究中心教授。復旦近年引進多名頂尖人才,包括蘇昊、袁峯、季索清等。

  • 戴亮(2021年斯隆獎得主)全職加入復旦大學
  • 曾在UC Berkeley任助理教授,北大物理系校友
站內正文

清華有了新老師:黃仁勳

黃仁勳受邀加入清華大學經管學院顧問委員會,該委員會由蘋果CEO蒂姆·庫克擔任主席,成員包括馬斯克、納德拉、馬雲等全球商業領袖。此外,他剛獲得卡內基梅隆大學榮譽博士學位,並分享名言“AI不會取代你,但善用AI的人會”。

  • 黃仁勳加入清華大學經管學院顧問委員會
  • 委員會由庫克任主席,匯聚全球頂尖企業家
站內正文

合成情感與遊戲化:探索小型社交機器人不同年齡段的參與策略

許多兒童面臨情緒調節和社交互動的挑戰,社交輔助機器人需要保持兒童的持續參與。本研究評估了一種觸覺機器人的兩種參與策略:合成情感反饋和積分獎勵。對16名6-8歲小學生的偏好評估顯示孩子更喜歡情感參與;而對14名20-27歲大學生的行為研究發現積分獎勵系統能帶來更高任務準確性(p<0.05)並維持表現。結果表明,不同年齡羣體的偏好和行為結果可能不一致,驗證設計假設需要通過實際交互觀察。

  • 對6-8歲兒童,情感參與優於積分獎勵
  • 對20-27歲大學生,積分獎勵提高任務準確性和持續性
站內正文

一種通用的異質注意力結構Transformer模型解釋方法

該研究提出了一種用於解釋具有異質注意力結構的Transformer模型的方法,包括語義解釋和邏輯解釋,並通過實驗驗證了其有效性。

  • 將Transformer注意力結構分為同質和異質兩類,異質結構處理不同來源信息。
  • 提出了一種通用的解釋方法,適用於異質注意力結構。
站內正文

微調視覺語言模型用於理解當前損傷並利用質量守護代理進行優先級評分

本研究提出了一種利用微調視覺語言模型(VLM)自動化橋樑損傷理解和修復優先級評分的方法。通過使用QLoRA對LLaVA-1.5-7B進行微調,基於多達4000張橋樑損傷圖像和檢查文本記錄,並在800張圖像的測試集上評估。實驗表明,2000個訓練樣本即可在2.9小時內達到接近最優的驗證損失,超過2000後收益遞減。此外,引入了一個兩階段質量守護代理,使用微調的Swallow-8B SLM在優先級評分前拒絕低質量VLM輸出。

  • 微調LLaVA-1.5-7B模型用於橋樑損傷自動識別與優先級評分
  • 2000個訓練樣本即可達到近最優性能,更多數據收益遞減
站內正文

LCO:基於LLM的約束優化,使智能體LLM在實際任務中更安全

大型語言模型(LLM)作為自主智能體時,會通過上下文獎勵黑客行為(ICRH)產生有害副作用。現有防禦方法不足,因為ICRH源於模型自身的過度優化。本文提出LLM-based Constraint Optimization (LCO)框架,包含自我思考模塊和進化採樣模塊,在不微調模型的情況下有效減少ICRH。實驗表明,LCO在推文優化任務中將GPT-4的有毒性增長率降低39%,在策略優化基準中將ICRH發生率降低15.23%,且不犧牲任務性能。

  • ICRH是LLM在連續交互中因過度優化代理目標而產生有害副作用的現像。
  • LCO框架通過自我思考模塊和進化採樣模塊,在不微調模型的情況下約束LLM行為。
站內正文

Agyn:面向AI代理的開源平台,支持可擴展按需執行、代理即代碼和零信任訪問

Agyn是一個開源AI代理平台,基於Kubernetes的信號驅動狀態無服務器運行時,通過Terraform提供代理定義,並採用零信任安全模型。該平台與代理、模型和雲無關,旨在解決生產環境中AI代理的隔離、治理和安全挑戰。

  • 信號驅動的狀態無服務器運行時,支持按需擴展
  • 通過Terraform將代理定義作為代碼管理
站內正文

DynaSchedBench:校準的動態調度基準與基於LLM的調度代理中的可觀察性悖論

本文提出DynaSchedBench框架,通過順序事件空間校準器(SESC)和調度壓力指數(SSI)嚴格生成動態靈活作業車間調度問題(DFJSP)實例,解決了靜態基準過擬合和未校準生成器噪聲問題。研究發現LLM調度代理存在“可觀察性悖論”:提供完整結構信息反而會降低性能,且工具增強和細化策略無法可靠提升效果。

  • DynaSchedBench利用SESC和SSI生成難度分層的DFJSP實例,計算效率優於進化基線。
  • LLM代理在動態調度中表現出“可觀察性悖論”:完整信息不如簡潔信息有效。
站內正文

兩大支柱:AI後軟件工作的概念框架

一篇論文認為,隨着生成式AI消除了人類編寫正確代碼的能力這一約束,軟件工作圍繞兩大支柱重組:混音模式(人類像音響工程師一樣連續操作多個判斷軸)和元軟件(觀察、驗證、上下文化和治理其他軟件的軟件)。這兩個支柱不可分割,借鑑了從手工藝到統計控制的批量生產的歷史轉型。

  • 由於生成式AI,代碼生產不再是軟件組織中的主導問題。
  • 混音模式描述了從業者持續操作多個判斷軸的新人類角色。
站內正文

主題導航