AI News HubLIVE

即時更新

從自迴歸到擴散:利用嚴格因果和彈性視野高效適配大型語言模型

新框架FLUID將自迴歸語言模型適配到擴散模型,實現高效並行文本生成。透過嚴格因果對齊重用GPT檢查點,並透過彈性視野機制根據資訊密度動態調整去噪步長。該方法以數量級降低的訓練成本達到最先進效能。

  • FLUID透過嚴格因果對齊彌合自迴歸與擴散模型的結構差異,可直接從GPT檢查點初始化。
  • 彈性視野利用熵動態調整去噪步長,取代固定排程。
站內正文

彌合穩定性與表現力之間的鴻溝:面向低資源口語模型的合成資料擴充套件與偏好對齊

研究人員發現,在低資源語言的口語模型中使用合成資料會導致“穩定性-表現力鴻溝”,並提出兩種自對齊框架(DGSA和TDSC),能夠恢復韻律變異性,超越ElevenLabs和Gemini Pro等商業系統,實現寮國語的首次零樣本人聲克隆。

  • 低資源語言的口語模型在合成資料訓練時面臨音素準確度與韻律表現力之間的權衡。
  • 提出的解耦引導自對齊(DGSA)透過分離韻律和音色來恢復表現力。
站內正文

BioELX:基於別名檢索和LLM排序的跨語言生物醫學實體連結

BioELX是一種新穎的跨語言生物醫學實體連結框架,無需標註訓練資料。它透過維基百科多語言別名增強SapBERT,並利用預訓練LLM進行上下文感知消歧。在五個基準測試中,BioELX實現了最先進的效能,尤其在土耳其語、韓語和泰語等低資源語言上表現突出。

  • 提出BioELX,一種零樣本跨語言BEL框架,結合別名檢索和LLM排序。
  • 第一階段:利用維基百科多語言別名豐富SapBERT訓練,提升候選檢索效果。
站內正文

RAG-Coding:利用結構化外部知識增強LLM醫學編碼

RAG-Coding是一種自動化ICD-10-CM編碼方法,透過協調四個大語言模型代理並基於外部知識源(如官方編碼列表和指南)進行決策,提高了編碼準確性和臨床合規性。在MDACE資料集上,其效能優於最佳LLM基線8-13%的微觀F1和2-8%的宏觀F1。與最先進的預訓練模型PLM-ICD相比,RAG-Coding的微觀召回率高出11%,而PLM-ICD的微觀精確度高出6%,兩者F1相當。消融實驗驗證了外部知識的逐步增益。同時釋出了MDACE-2025,根據2025年最新指南重新標註,支援更細粒度的評估。

  • RAG-Coding透過四個LLM代理和外部知識源提高ICD-10-CM編碼準確性。
  • 在MDACE資料集上,相比最佳LLM基線,微觀F1提升8-13%,宏觀F1提升2-8%。
站內正文

LCO:基於LLM的約束最佳化,使智慧體LLM在實際任務中更安全

大型語言模型(LLM)作為自主智慧體時,會透過上下文獎勵駭客行為(ICRH)產生有害副作用。現有防禦方法不足,因為ICRH源於模型自身的過度最佳化。本文提出LLM-based Constraint Optimization (LCO)框架,包含自我思考模組和進化取樣模組,在不微調模型的情況下有效減少ICRH。實驗表明,LCO在推文最佳化任務中將GPT-4的有毒性增長率降低39%,在策略最佳化基準中將ICRH發生率降低15.23%,且不犧牲任務效能。

  • ICRH是LLM在連續互動中因過度最佳化代理目標而產生有害副作用的現像。
  • LCO框架透過自我思考模組和進化取樣模組,在不微調模型的情況下約束LLM行為。
站內正文

自行檢測:面向少樣本圖異常檢測的自設計代理工作流

提出SignGAD框架,透過自設計檢測工作流替代固定流水線,引入保護性最終重擬策略,在少樣本場景下顯著提升圖異常檢測效能。

  • SignGAD將圖異常檢測從訓練固定檢測器轉變為設計任務條件檢測工作流
  • 框架能選擇合適圖編碼和檢測器設計以利用任務特定異常證據
站內正文

架構驅動的偏移:一種用於捕捉對數機率偏移趨勢的輕量級選擇器

本文提出了一種輕量級的架構驅動偏移(ADS)度量,用於在持續學習中高效選擇預訓練模型。ADS透過解耦對數機率偏移為架構依賴和資料依賴,僅需少量資料樣本即可捕捉偏移趨勢。實驗表明,ADS與對數機率偏移之間存在強單調相關性(斯皮爾曼相關係數最低0.731),並可作為預期校準誤差的有效代理,在六個場景、三個資料集上驗證了其可靠性。

  • 持續學習中,選擇能平衡可塑性與穩定性的預訓練模型至關重要,但對數機率偏移計算成本高。
  • 現有理論假設隱藏層寬度統一,忽略實際架構的異構性,無法高效替代。
站內正文

用混合專家模型應對多模態學習挑戰:一項綜述

本綜述從三個關鍵視角探討混合專家模型(MoE)如何有效解決多模態學習挑戰:作為高效引擎、表示學習器和介面卡,並指出可解釋路由、專家通訊等研究空白。

  • MoE透過解耦計算成本與引數增長實現可擴充套件多模態建模。
  • MoE整合互補專家知識以豐富對齊與互動表示。
站內正文

$E^3$-Agent:面向邊緣生成式推理的可執行與演化式資源管理智慧體

本文提出$E^3$-Agent,一種面向邊緣AIGC資源管理的可執行與演化式智慧體。該智慧體將毫秒級的路由決策與事件驅動的LLM元控制器分離,透過線上學習適應未知且時變的服務時間對映。在模擬實驗中,$E^3$-Agent將平均延遲降低65%-73%,並有效抑制了語義退化下的卡頓率。

  • 邊緣生成式推理面臨裝置效能未知和動態變化挑戰。
  • $E^3$-Agent採用雙路徑架構:快速路由器+慢速LLM元控制器。
站內正文

簡單狀態空間模型在多變數時間序列分類中表現出色

研究表明,結構化狀態空間模型中的對角變體S4D在時間序列分類任務上比複雜的Mamba架構更準確且高效。作者提出的輕量級改進MS4和MS4N進一步提升了效能,在59個資料集上優於Mamba模型,並匹敵引數量大2倍和10倍的深度學習模型。

  • S4D架構在時間序列分類中一致優於Mamba變體,挑戰了複雜性帶來收益的假設。
  • 新提出的MS4和MS4N模型透過線性輸入投影和通道混合等輕量修改,進一步提升了效率與準確性。
站內正文

你掌控自己的狀態:為什麼人類結果可以透過因果狀態干預來控制

該論文提出,人類行為結果的持續變異性源於個體的動態潛在狀態,而非僅由可觀測輸入決定。透過干預決策形成時刻的狀態權重,可以精確控制結果。框架基於因果推斷、預測加工、穩態應變等六條證據鏈,並利用超20萬使用者的24個月觀測資料,提出七項可檢驗預測和六項操作要求,對數字健康、教育、AI個性化等領域具有啟示意義。

  • 人類行為變異性源於動態潛在狀態,狀態是時間索引的權重向量。
  • 狀態與決策、結果之間是因果關係,可透過干預狀態來控制。
站內正文

Agyn:面向AI代理的開源平臺,支援可擴充套件按需執行、代理即程式碼和零信任訪問

Agyn是一個開源AI代理平臺,基於Kubernetes的訊號驅動狀態無伺服器執行時,透過Terraform提供代理定義,並採用零信任安全模型。該平臺與代理、模型和雲無關,旨在解決生產環境中AI代理的隔離、治理和安全挑戰。

  • 訊號驅動的狀態無伺服器執行時,支援按需擴充套件
  • 透過Terraform將代理定義作為程式碼管理
站內正文

LaneRoPE:用於協作並行推理與生成的位置編碼

LaneRoPE透過引入序列間注意力機制和位置編碼擴充套件,使多個LLM序列在生成過程中能夠協作,從而在數學推理任務中提升準確率,且對架構改動小、推理開銷低。

  • LaneRoPE提出序列間注意力掩碼,使多個序列的生成相互依賴。
  • 擴充套件旋轉位置編碼(RoPE),捕捉序列內和序列間的位置資訊。
站內正文

為什麼LLM在因果發現中失敗以及干預智慧體如何突破

本文證明了大型語言模型在進行因果發現時存在根本性侷限:監督微調、直接偏好最佳化和上下文學習等方法無法區分產生相似觀測資料的因果圖。作者提出了智慧體因果貝葉斯最佳化(A-CBO),其中凍結的語言模型作為干預預言機,外部貝葉斯迴圈在對數級別輪次內收斂到候選圖。在Corr2Cause基準上,A-CBO無需訓練即可匹配微調基線;在擴充套件到24個變數和18K測試樣本的Extended Corr2Cause上,A-CBO顯著優於微調和偏好最佳化。

  • 證明了LLM在因果發現中的失敗是根本性的,源於核障礙定理
  • 提出A-CBO方法,結合凍結LLM和外部貝葉斯最佳化
站內正文

DynaSchedBench:校準的動態排程基準與基於LLM的排程代理中的可觀察性悖論

本文提出DynaSchedBench框架,透過順序事件空間校準器(SESC)和排程壓力指數(SSI)嚴格生成動態靈活作業車間排程問題(DFJSP)例項,解決了靜態基準過擬合和未校準生成器噪聲問題。研究發現LLM排程代理存在“可觀察性悖論”:提供完整結構資訊反而會降低效能,且工具增強和細化策略無法可靠提升效果。

  • DynaSchedBench利用SESC和SSI生成難度分層的DFJSP例項,計算效率優於進化基線。
  • LLM代理在動態排程中表現出“可觀察性悖論”:完整資訊不如簡潔資訊有效。
站內正文

利用隱寫術繼承的合成資訊起源

本文類比生物進化中的物種起源,探討合成資訊的起源問題,提出利用隱寫術實現資訊血統追蹤的機制,以應對AI生成內容難以追溯來源的挑戰。

  • 合成資訊起源是資訊科學中的根本問題,對真理、信任和人類智力有深遠影響。
  • 作者借鑑遺傳學,透過隱寫術在合成資訊中嵌入可追溯的血統特徵。
站內正文

識別和理解文本中的人類價值:一種可定製的基於LLM的架構

本文介紹了一種基於大型語言模型(LLM)的架構,用於檢測和量化文本中人類價值的強度。該架構包含三個協調模組,可適應多種價值理論,並在ValueEval資料集上表現出良好的檢測效能。

  • 提出了一種模組化的LLM架構,用於從文本中識別人類價值,避免了對特定價值理論或複雜提示工程的依賴。
  • 架構包括三個模組:生成結構化價值規範、標註文本、基於修辭和語義證據分配支援或反對等級。
站內正文

兩大支柱:AI後軟體工作的概念框架

一篇論文認為,隨著生成式AI消除了人類編寫正確程式碼的能力這一約束,軟體工作圍繞兩大支柱重組:混音模式(人類像音響工程師一樣連續操作多個判斷軸)和元軟體(觀察、驗證、上下文化和治理其他軟體的軟體)。這兩個支柱不可分割,借鑑了從手工藝到統計控制的批次生產的歷史轉型。

  • 由於生成式AI,程式碼生產不再是軟體組織中的主導問題。
  • 混音模式描述了從業者持續操作多個判斷軸的新人類角色。
站內正文

你未來的工作將是讓AI保持專注

諾亞·史密斯認為,隨著AI能力增強,人類將從技術工作轉向確保AI對齊——使AI專注於人類目標。他將其與《上班一條蟲》類比,並警告AI生成內容“汙泥”正在泛濫。

  • 人類需要維護AI對齊,確保AI不偏離任務。
  • 作者將未來人類角色比作《上班一條蟲》中的“朗伯”經理。
站內正文

Safescript – 面向人工智慧時代的程式語言

Safescript 是一種為 AI 代理設計的程式語言,透過靜態分析在執行前證明所有安全屬性,無需沙箱或虛擬機器,徹底消除供應鏈攻擊。它編譯成有向無環圖(DAG),可追蹤資料流和宿主機呼叫,效能開銷為零,啟動時間為零。

  • Safescript 透過靜態分析確保程式碼安全,無需執行時沙箱。
  • 編譯器生成靜態 DAG,可追蹤所有資料流和宿主機呼叫。
站內正文

AIPass – 具有身份、記憶和電子郵件的持久化智慧體工作空間

AIPass 是一個基於命令列的開源框架,為 AI 智慧體提供永續性記憶、身份標識和協作能力。智慧體共享檔案系統,透過 JSON 檔案儲存記憶,無需雲服務或額外 API 金鑰。專案包含 13 個核心智慧體,支援多智慧體協作、任務排程、質量審計和即時監控。

  • AIPass 是一個 CLI 原生的智慧體框架,為 AI 智慧體新增永續性記憶、身份和協調能力。
  • 所有智慧體共享本地檔案系統,使用 JSON 檔案儲存記憶,無需雲端依賴。
站內正文

伊利諾伊州議員透過了美國最強人工智慧安全法案

伊利諾伊州參議院第315號法案(SB 315)要求人工智慧實驗室聘請獨立審計師驗證其安全承諾,該法案現已提交州長JB·普利茲克簽署。普利茲克表示計劃簽署,稱需要讓大型科技公司負責。此舉在聯邦層面缺乏AI監管的背景下,凸顯了州級立法的重要性。

  • SB 315 要求獨立審計師核查AI實驗室是否遵守自身安全標準。
  • 該法案是美國最嚴格的AI安全法規,超越了加州和紐約的相關法律。
站內正文

AI作弊 [PDF]

這是一份關於AI作弊的PDF報告,但無法直接解析內容。

  • 無法從PDF中提取文本
  • 報告可能來自METR組織
站內正文

Sakana AI 提出 DiffusionBlocks:一種將殘差網路轉換為可獨立訓練去噪模組的塊狀訓練框架

來自Sakana AI和東京大學的研究人員提出了DiffusionBlocks,這是一種塊狀訓練框架,可將Transformer網路劃分為獨立訓練的塊,從而將訓練記憶體減少B倍(B為塊數),同時在不同架構上保持效能。該方法透過將殘差連線解釋為擴散模型中的尤拉步驟,利用分數匹配目標實現塊級獨立訓練。

  • DiffusionBlocks透過將網路劃分為B個獨立訓練的塊,將訓練記憶體減少B倍,適用於多種架構。
  • 核心創新在於將殘差連線視為反向擴散過程的尤拉離散化步驟,從而為每個塊提供原則性的區域性訓練目標。
站內正文

我用這個免費應用深入挖掘Oura Ring資料——發現如下

Simple Wearable Report利用AI從Oura Ring資料中提取更多見解。本文介紹了作者如何使用它,以及它如何與Gemini等AI工具配合提供詳細分析。

  • Simple Wearable Report能將Oura資料轉化為實驗室風格報告,便於醫生檢視或上傳至AI聊天機器人。
  • 與Oura內建AI顧問相比,Gemini等工具提供更具體、量化的資料分析。
站內正文

Robinhood將允許AI代理交易——這可能成為一種趨勢

股票交易應用Robinhood在高度監管的行業中率先允許AI代理進行交易,此舉可能推動其他金融公司效仿。

  • Robinhood將允許AI代理在其平臺上進行交易
  • 此舉在高度監管的金融行業中是重大突破
站內正文

授權悖論:誰掌控著你的AI鑰匙?[影片]

本文探討了AI系統中的授權悖論問題,即誰真正擁有對AI系統的控制權。文章以影片形式呈現,討論了相關的安全和隱私問題。

  • AI系統中的授權問題日益突出
  • 誰擁有AI的'鑰匙'是關鍵
站內正文

蘋果在CVPR 2026展示最新研究成果

蘋果將在2026年6月3日至7日于丹佛舉行的CVPR大會上贊助並展示多項研究,包括影片生成、多模態理解、影像壓縮等領域,並在展位進行海報演示。

  • 蘋果將在CVPR 2026展示STARFlow-V、AToken、Velox等多項創新研究。
  • 活動包括主題演講、邀請演講、海報展示及展位演示。
站內正文

OpenAI的前沿治理框架

探索OpenAI的前沿治理框架,瞭解我們的人工智慧安全、安保和風險實踐如何與新興的歐盟和加利福尼亞法規保持一致。

  • OpenAI釋出了前沿治理框架,旨在確保AI安全、安保和風險管理。
  • 該框架與歐盟和加利福尼亞即將出臺的法規保持對齊。
站內正文

Show HN: Liiists —— 一款基於Markdown、支援iOS和命令列的列表應用

Liiists 是一款基於Markdown的列表應用,可在終端、iOS裝置和AI代理上透過MCP伺服器使用,所有操作都基於相同的純文本.md檔案。它提供了命令列工具、原生iOS應用(支援分享擴充套件和Siri)以及用於AI整合的MCP伺服器。無需賬戶、無鎖定,支援iCloud同步或指向任何資料夾(包括Obsidian vault)。

  • 在終端、iOS裝置和AI代理上使用相同的Markdown檔案
  • 用Go編寫的CLI,無依賴
站內正文