AI News HubLIVE

即時更新

Show HN: BetterCallClaude – 意大利開源AI法律代理

BetterCallClaude 是一個專為意大利法律專業人士設計的開源AI法律代理平台。它提供20個專業化AI代理,覆蓋意大利所有20個地區,支持雙語(意大利語和英語),並注重隱私保護,符合GDPR和意大利數據保護法。該平台可加速法律研究,提高效率,並保持完全透明和開源。

  • 20個覆蓋意大利不同法律領域的AI代理
  • 支持意大利語和英語雙語
站內正文

「斯隆獎」得主戴亮全職加盟復旦

斯隆獎得主、UC Berkeley物理系助理教授戴亮加盟復旦大學,出任物理學系、天文與天體物理研究中心教授。復旦近年引進多名頂尖人才,包括蘇昊、袁峯、季索清等。

  • 戴亮(2021年斯隆獎得主)全職加入復旦大學
  • 曾在UC Berkeley任助理教授,北大物理系校友
站內正文

清華有了新老師:黃仁勳

黃仁勳受邀加入清華大學經管學院顧問委員會,該委員會由蘋果CEO蒂姆·庫克擔任主席,成員包括馬斯克、納德拉、馬雲等全球商業領袖。此外,他剛獲得卡內基梅隆大學榮譽博士學位,並分享名言“AI不會取代你,但善用AI的人會”。

  • 黃仁勳加入清華大學經管學院顧問委員會
  • 委員會由庫克任主席,匯聚全球頂尖企業家
站內正文

AI代理的阿姆達爾定律

本文探討了AI代理系統中的阿姆達爾定律:系統加速比受人類判斷時間佔比H的限制。提出了“自清償式H”概念,即每次人類干預都應產生可重用的工件(如測試用例、規範更新),以減少未來同類干預。強調通過配置化(configurancy)和規範套件將人類知識編碼為機器可讀形式,從而讓代理自主運行。示例包括ElectricSQL的協議變更、Emil Stenström的HTML5解析器、Gas Town的多代理系統以及Ralph Loop的迭代模式。

  • AI代理的加速比上限由人類判斷時間佔比H決定,H越大加速比越小。
  • 自清償式H:每次人類干預都應生成可編碼的工件,減少未來重複干預。
站內正文

機器人即將迎來ChatGPT時刻嗎? – 播客

上個月,在北京半程馬拉松中,名為“閃電”的機器人以比人類世界紀錄快近七分鐘的成績完賽。這引發人們對機器人是否將像聊天機器人一樣進入日常生活的討論。中國領跑這場變革,政府承諾未來20年投資超1000億英鎊於機器人技術。

  • 機器人“閃電”在北京半程馬拉松中擊敗人類世界紀錄。
  • 中國計劃投資超1000億英鎊發展機器人技術。
站內正文

用於行星探測的實時異步單目里程計設計

研究人員提出了一種基於事件的實時異步單目里程計,用於行星漫遊車。該方法利用誤差狀態卡爾曼濾波器處理事件相機數據,在高動態範圍光照和計算約束下實現穩健的自我運動估計。

  • 事件相機以微秒分辨率報告異步逐像素亮度變化,適合高速感知和高動態範圍環境。
  • 該方法使用誤差狀態卡爾曼濾波器從事件流中持續估計相機運動。
站內正文

Trinity:利用合成數據統一非結構化户外環境中的類無關地形與語義分割

本文提出了一種基於Transformer的架構Trinity,能夠在一個統一網絡中同時進行類特定語義分割和類無關地形分割。該方法無需預定義標籤或機器人相關的可通行性分數,僅基於視覺外觀分割地形區域,從而學習機器人無關的視覺地形先驗,可結合機器人特定經驗用於下游任務。為了支持大規模訓練,研究團隊擴展了OAISYS模擬器並推出RUGDSynth合成數據集,同時提供了EXTerra真實世界數據集。實驗驗證了該方法在複雜户外環境中的有效性。

  • 提出Trinity架構,統一類無關地形分割與語義分割
  • 基於視覺外觀而非預定義標籤進行地形分割,提升跨平台遷移性
站內正文

面向光流控組裝的智能語言到目標合成

研究人員提出了Speak-to-Objective模塊化智能管線,利用條件大型語言模型將口頭或書面命令轉換為可微分的優化目標函數,用於在約束感知逆解算器和實驗光流控平台上組裝微粒。該方法採用“感知-組合-提議-執行-報告與學習”的循環,將目標作為意圖與驅動之間的接口,實現自然語言可編程的微觀組裝,推動自主光製造平台的發展。

  • Speak-to-Objective管線將自然語言命令轉化為可微分的優化目標函數。
  • 該管線在光流控平台上通過激光誘導熱粘流實現對微粒圖案的組裝。
站內正文

合成情感與遊戲化:探索小型社交機器人不同年齡段的參與策略

許多兒童面臨情緒調節和社交互動的挑戰,社交輔助機器人需要保持兒童的持續參與。本研究評估了一種觸覺機器人的兩種參與策略:合成情感反饋和積分獎勵。對16名6-8歲小學生的偏好評估顯示孩子更喜歡情感參與;而對14名20-27歲大學生的行為研究發現積分獎勵系統能帶來更高任務準確性(p<0.05)並維持表現。結果表明,不同年齡羣體的偏好和行為結果可能不一致,驗證設計假設需要通過實際交互觀察。

  • 對6-8歲兒童,情感參與優於積分獎勵
  • 對20-27歲大學生,積分獎勵提高任務準確性和持續性
站內正文

“如果世界”:面向具身場景的通用世界模型因果基準

視頻生成模型越來越多地被用作世界模擬器,但現有基準僅評估單視頻質量,無法檢測模型是否真正理解因果關係。新提出的“如果世界”基準包含319對基於真實場景的提示對,通過改變一個物理變量來測試模型輸出的因果一致性。對9個最先進模型的評測顯示,最佳配對得分僅52%,開源模型約28%,且表現與視覺顯著性相關而非物理可解性。

  • “如果世界”基準由319個提示對組成,每個提示對僅在一個物理變量上不同,旨在檢驗視頻生成模型能否根據物理規律產生正確的差異。
  • 採用APEO評分標準(Adherence、Physics、Environment、Outcome)評估,9個模型中最高得分為52%,開源模型集中在28%左右,所有模型在大量因果乾預上失敗。
站內正文

Melanoscope AI移動皮膚鏡臨牀決策支持系統的臨牀驗證

一項針對Melanoscope AI移動皮膚鏡臨牀決策支持系統的前瞻性單中心臨牀驗證顯示,該系統在176名患者中與專家評估的一致率為88.6%,未出現假陰性,特異性為88.3%。研究開發了級聯深度學習模型的定量可解釋性評估方法和三區患者分診算法,為資源有限地區的皮膚癌篩查提供了可重複、可解釋的決策支持。

  • Melanoscope AI系統在176名患者中實現88.6%的專家一致率,且對5例惡性病變無假陰性。
  • 特異性為88.3%,3例黑色素瘤和2例基底細胞癌經組織學確認。
站內正文

表示條件擴散模型:用於引導訓練數據生成

該研究提出表示條件擴散模型,利用DINOv2、DINOv3和CLIP的表示作為條件生成合成圖像數據,在ImageNet100上以+10.76 p.p.的top-1準確率顯著優於類條件生成。通過擴大合成數據集,甚至能超越真實數據訓練的模型(+2.0 p.p.)。此外,該方法在數據增強和樣本過濾方面也表現出色,為大規模視覺學習任務提供了一種有前景的替代或補充真實數據集的方案。

  • 表示條件擴散模型優於類條件生成,在ImageNet100上提升10.76個百分點。
  • 擴大的合成數據集可超越真實數據訓練的模型,準確率提高2.0個百分點。
站內正文

超越運動基元:基於頭戴式IMU的行為活動識別

本研究提出了一種基於頭戴式慣性測量單元(IMU)的行為級活動識別方法,超越了傳統運動基元識別。研究團隊定義了五種與AR應用需求相匹配的行為類別,構建了包含16萬個樣本的Ego4D數據集,並提出了HiT-HAR層次模型(70.3萬參數),在五類動作和八類場景識別任務上優於現有模型。通過可分離性分析,揭示了頭戴式IMU的觀測極限:移動類行為可靠可觀測,物體轉移和任務操作類需要時間上下文,場景依賴信號重疊仍是挑戰。結果表明,利用時間上下文和場景結構的架構選擇優於簡單擴大模型規模。代碼和數據集已公開。

  • 提出HiT-HAR層次模型,用於從頭戴式IMU進行行為級活動識別,超越簡單運動基元
  • 從Ego4D構建16萬樣本數據集,涵蓋8個活動場景和5種行為類別,並採用四層質量保證框架
站內正文

D²Turb:深度感知模擬與解耦學習用於單幀大氣湍流緩解

研究人員提出D²Turb框架,通過引入深度感知的湍流合成協議和自適應結構先驗注入機制,將大氣湍流緩解分解為紋理去模糊和幾何校正兩個交互階段,在合成和真實數據集上均達到最優性能。

  • 提出深度感知湍流合成協議,結合場景深度生成物理一致的退化數據。
  • 採用解耦學習方法,將恢復過程分為紋理去模糊和幾何校正兩階段。
站內正文

一種通用的異質注意力結構Transformer模型解釋方法

該研究提出了一種用於解釋具有異質注意力結構的Transformer模型的方法,包括語義解釋和邏輯解釋,並通過實驗驗證了其有效性。

  • 將Transformer注意力結構分為同質和異質兩類,異質結構處理不同來源信息。
  • 提出了一種通用的解釋方法,適用於異質注意力結構。
站內正文

微調視覺語言模型用於理解當前損傷並利用質量守護代理進行優先級評分

本研究提出了一種利用微調視覺語言模型(VLM)自動化橋樑損傷理解和修復優先級評分的方法。通過使用QLoRA對LLaVA-1.5-7B進行微調,基於多達4000張橋樑損傷圖像和檢查文本記錄,並在800張圖像的測試集上評估。實驗表明,2000個訓練樣本即可在2.9小時內達到接近最優的驗證損失,超過2000後收益遞減。此外,引入了一個兩階段質量守護代理,使用微調的Swallow-8B SLM在優先級評分前拒絕低質量VLM輸出。

  • 微調LLaVA-1.5-7B模型用於橋樑損傷自動識別與優先級評分
  • 2000個訓練樣本即可達到近最優性能,更多數據收益遞減
站內正文

從情感到複雜行為:第十屆ABAW研討會與競賽推進多模態以人為中心的AI

第十屆ABAW研討會與競賽在CVPR 2026上舉辦,通過引入情感模仿強度估計、矛盾/猶豫識別和細粒度暴力檢測等新挑戰,以及傳統的情感估計和識別任務,推進多模態以人為中心的AI。競賽利用大規模野外數據集,論文軌道涵蓋從姿態估計到公平性和魯棒性的廣泛主題。

  • ABAW 2026引入新挑戰:情感模仿強度、矛盾識別和暴力檢測。
  • 研討會繼續保持競賽和論文軌道的雙重結構。
站內正文

社區態度建模與反應語調:評估LLM與在線社區語言行為對齊的人機協作框架

大型語言模型(LLM)作為計算社會分析的代理日益普及,但能否忠實再現人類社區的“厚描述”仍是關鍵挑戰。本文提出CARE(社區感知反應評估)框架,通過精細刻畫言外語調頻譜及其潛在態度,測評LLM模擬話語與真實社區對新聞事件的反應之間的差異。研究發現,使用明確社區提示引導LLM並不能天然提高模擬真實性,前沿模型間存在分歧行為特徵,表明當前對齊策略不足以捕捉在線羣體的社會語言動態。

  • CARE框架通過反應語調評估LLM模擬社區話語的逼真度
  • 當前LLM對齊策略無法充分捕捉在線社區的社會語言動態
站內正文

從自迴歸到擴散:利用嚴格因果和彈性視野高效適配大型語言模型

新框架FLUID將自迴歸語言模型適配到擴散模型,實現高效並行文本生成。通過嚴格因果對齊重用GPT檢查點,並通過彈性視野機制根據信息密度動態調整去噪步長。該方法以數量級降低的訓練成本達到最先進性能。

  • FLUID通過嚴格因果對齊彌合自迴歸與擴散模型的結構差異,可直接從GPT檢查點初始化。
  • 彈性視野利用熵動態調整去噪步長,取代固定調度。
站內正文

彌合穩定性與表現力之間的鴻溝:面向低資源口語模型的合成數據擴展與偏好對齊

研究人員發現,在低資源語言的口語模型中使用合成數據會導致“穩定性-表現力鴻溝”,並提出兩種自對齊框架(DGSA和TDSC),能夠恢復韻律變異性,超越ElevenLabs和Gemini Pro等商業系統,實現老撾語的首次零樣本人聲克隆。

  • 低資源語言的口語模型在合成數據訓練時面臨音素準確度與韻律表現力之間的權衡。
  • 提出的解耦引導自對齊(DGSA)通過分離韻律和音色來恢復表現力。
站內正文

BioELX:基於別名檢索和LLM排序的跨語言生物醫學實體鏈接

BioELX是一種新穎的跨語言生物醫學實體鏈接框架,無需標註訓練數據。它通過維基百科多語言別名增強SapBERT,並利用預訓練LLM進行上下文感知消歧。在五個基準測試中,BioELX實現了最先進的性能,尤其在土耳其語、韓語和泰語等低資源語言上表現突出。

  • 提出BioELX,一種零樣本跨語言BEL框架,結合別名檢索和LLM排序。
  • 第一階段:利用維基百科多語言別名豐富SapBERT訓練,提升候選檢索效果。
站內正文

RAG-Coding:利用結構化外部知識增強LLM醫學編碼

RAG-Coding是一種自動化ICD-10-CM編碼方法,通過協調四個大語言模型代理並基於外部知識源(如官方編碼列表和指南)進行決策,提高了編碼準確性和臨牀合規性。在MDACE數據集上,其性能優於最佳LLM基線8-13%的微觀F1和2-8%的宏觀F1。與最先進的預訓練模型PLM-ICD相比,RAG-Coding的微觀召回率高出11%,而PLM-ICD的微觀精確度高出6%,兩者F1相當。消融實驗驗證了外部知識的逐步增益。同時發佈了MDACE-2025,根據2025年最新指南重新標註,支持更細粒度的評估。

  • RAG-Coding通過四個LLM代理和外部知識源提高ICD-10-CM編碼準確性。
  • 在MDACE數據集上,相比最佳LLM基線,微觀F1提升8-13%,宏觀F1提升2-8%。
站內正文

LCO:基於LLM的約束優化,使智能體LLM在實際任務中更安全

大型語言模型(LLM)作為自主智能體時,會通過上下文獎勵黑客行為(ICRH)產生有害副作用。現有防禦方法不足,因為ICRH源於模型自身的過度優化。本文提出LLM-based Constraint Optimization (LCO)框架,包含自我思考模塊和進化採樣模塊,在不微調模型的情況下有效減少ICRH。實驗表明,LCO在推文優化任務中將GPT-4的有毒性增長率降低39%,在策略優化基準中將ICRH發生率降低15.23%,且不犧牲任務性能。

  • ICRH是LLM在連續交互中因過度優化代理目標而產生有害副作用的現像。
  • LCO框架通過自我思考模塊和進化採樣模塊,在不微調模型的情況下約束LLM行為。
站內正文

自行檢測:面向少樣本圖異常檢測的自設計代理工作流

提出SignGAD框架,通過自設計檢測工作流替代固定流水線,引入保護性最終重擬策略,在少樣本場景下顯著提升圖異常檢測性能。

  • SignGAD將圖異常檢測從訓練固定檢測器轉變為設計任務條件檢測工作流
  • 框架能選擇合適圖編碼和檢測器設計以利用任務特定異常證據
站內正文

架構驅動的偏移:一種用於捕捉對數幾率偏移趨勢的輕量級選擇器

本文提出了一種輕量級的架構驅動偏移(ADS)度量,用於在持續學習中高效選擇預訓練模型。ADS通過解耦對數幾率偏移為架構依賴和數據依賴,僅需少量數據樣本即可捕捉偏移趨勢。實驗表明,ADS與對數幾率偏移之間存在強單調相關性(斯皮爾曼相關係數最低0.731),並可作為預期校準誤差的有效代理,在六個場景、三個數據集上驗證了其可靠性。

  • 持續學習中,選擇能平衡可塑性與穩定性的預訓練模型至關重要,但對數幾率偏移計算成本高。
  • 現有理論假設隱藏層寬度統一,忽略實際架構的異構性,無法高效替代。
站內正文

用混合專家模型應對多模態學習挑戰:一項綜述

本綜述從三個關鍵視角探討混合專家模型(MoE)如何有效解決多模態學習挑戰:作為高效引擎、表示學習器和適配器,並指出可解釋路由、專家通信等研究空白。

  • MoE通過解耦計算成本與參數增長實現可擴展多模態建模。
  • MoE整合互補專家知識以豐富對齊與交互表示。
站內正文

$E^3$-Agent:面向邊緣生成式推理的可執行與演化式資源管理智能體

本文提出$E^3$-Agent,一種面向邊緣AIGC資源管理的可執行與演化式智能體。該智能體將毫秒級的路由決策與事件驅動的LLM元控制器分離,通過在線學習適應未知且時變的服務時間映射。在模擬實驗中,$E^3$-Agent將平均延遲降低65%-73%,並有效抑制了語義退化下的卡頓率。

  • 邊緣生成式推理面臨設備性能未知和動態變化挑戰。
  • $E^3$-Agent採用雙路徑架構:快速路由器+慢速LLM元控制器。
站內正文

簡單狀態空間模型在多變量時間序列分類中表現出色

研究表明,結構化狀態空間模型中的對角變體S4D在時間序列分類任務上比複雜的Mamba架構更準確且高效。作者提出的輕量級改進MS4和MS4N進一步提升了性能,在59個數據集上優於Mamba模型,並匹敵參數量大2倍和10倍的深度學習模型。

  • S4D架構在時間序列分類中一致優於Mamba變體,挑戰了複雜性帶來收益的假設。
  • 新提出的MS4和MS4N模型通過線性輸入投影和通道混合等輕量修改,進一步提升了效率與準確性。
站內正文

你掌控自己的狀態:為什麼人類結果可以通過因果狀態干預來控制

該論文提出,人類行為結果的持續變異性源於個體的動態潛在狀態,而非僅由可觀測輸入決定。通過干預決策形成時刻的狀態權重,可以精確控制結果。框架基於因果推斷、預測加工、穩態應變等六條證據鏈,並利用超20萬用户的24個月觀測數據,提出七項可檢驗預測和六項操作要求,對數字健康、教育、AI個性化等領域具有啓示意義。

  • 人類行為變異性源於動態潛在狀態,狀態是時間索引的權重向量。
  • 狀態與決策、結果之間是因果關係,可通過干預狀態來控制。
站內正文

Agyn:面向AI代理的開源平台,支持可擴展按需執行、代理即代碼和零信任訪問

Agyn是一個開源AI代理平台,基於Kubernetes的信號驅動狀態無服務器運行時,通過Terraform提供代理定義,並採用零信任安全模型。該平台與代理、模型和雲無關,旨在解決生產環境中AI代理的隔離、治理和安全挑戰。

  • 信號驅動的狀態無服務器運行時,支持按需擴展
  • 通過Terraform將代理定義作為代碼管理
站內正文