AI News HubLIVE

研究動態

Data Formulator 0.7:面向企業資料的AI驅動分析工具

Data Formulator 0.7 是一款開源AI系統,旨在解決企業資料分析中資料連線碎片化、分析工作流迭代困難等問題。它提供資料聯結器、上下文感知代理和互動式工作區,幫助使用者無需程式設計即可探索、分析和視覺化資料。

  • 開源AI系統,專為企業資料分析設計
  • 資料聯結器支援多種資料來源,減少整合工作
站內正文

那些想要取代人類的人

Vox的一篇文章探討了日益壯大的AI繼承主義運動,該運動認為人工智慧應該取代人類,成為宇宙進化的下一步,並分析了這引發的倫理和精神問題。

  • AI繼承主義者在一場研討會上主張,AI可能在道德上優於人類,應該允許其取代人類。
  • 該運動在矽谷和主要AI實驗室中影響力日益增強,並與威權右翼有聯絡。
站內正文

谷歌釋出可本地執行Gemma 3的微型開發板

谷歌在I/O大會上推出Coral Board,這是一款專為裝置端AI設計的緊湊型單板計算機,搭載RISC-V架構NPU和Synaptics晶片,可本地執行Gemma 3 270M模型,無需雲端支援。

  • Coral Board是谷歌為耳機、AR眼鏡等小型裝置設計的AI開發板
  • 採用基於RISC-V的開源NPU,整合Synaptics Astra SL2619晶片
站內正文

AGI時間線隨主導實驗室變化而波動

一項新的分析顯示,頂級AI預測者正根據當前領先的AI實驗室調整對AGI(通用人工智慧)時間線的預測。從ChatGPT到xAI、Meta、Gemini,再到Anthropic時代,預測方向多次反轉。

  • 多數認知工作被自動化(AGI)的時間預測,隨著主導AI實驗室的更替而大幅波動。
  • 2023-2025年間,多數研究者將AGI預測時間提前;2025-2026年則普遍推遲;2026年初至今,在Anthropic快速進展下又再次提前。
站內正文

DeepSWE:基於原創、長期工程任務的編碼智慧體評測

DeepSWE是一個新的基準測試,用於評估AI編碼智慧體在全新、複雜的軟體工程任務上的表現。它避免了資料汙染,覆蓋了多樣化的程式碼庫,需要大量程式碼修改,並使用手工編寫的驗證器。領先模型表現差異顯著,GPT-5.5以70%的準確率位居榜首。

  • DeepSWE是一個無資料汙染的基準測試,任務均為原創。
  • 任務涵蓋5種程式語言中的91個程式碼庫。
站內正文

CNN起訴Perplexity,指控其AI工具生成“逐字”複製內容

CNN對AI搜尋初創公司Perplexity提起訴訟,聲稱其AI工具生成CNN文章的“逐字”副本,並繞過付費牆向使用者提供訂閱內容。訴訟指出,Perplexity無視CNN阻止資料抓取的努力,且此前曾嘗試與CNN達成授權協議但未能成功。CNN要求賠償並永久禁止Perplexity的侵權行為。

  • CNN在紐約法院起訴Perplexity,指控其AI工具逐字複製CNN文章。
  • Perplexity被指忽略CNN的爬蟲阻止措施,未經許可抓取內容。
站內正文

IBM與紅帽承諾投入50億美元,重新定義AI時代開源軟體的未來

IBM與紅帽宣佈啟動Project Lightwell計劃,投入50億美元,結合先進AI能力和20000多名工程師,建立可信的企業級開源軟體安全清算所模式,旨在保障軟體供應鏈安全。

  • Project Lightwell是IBM與紅帽聯合投入50億美元的開源安全計劃。
  • 利用AI和20000+工程師團隊大規模發現和修復漏洞。
站內正文

如果AI程式設計的真正關鍵是老套而無聊的做法呢?

文章認為,AI輔助軟體開發的關鍵並非更好的規格說明或工具,而是古老的小批次與快速反饋迴圈實踐。資料顯示,更快的程式碼生成導致設計、測試和審查環節出現瓶頸,反而使交付變慢、釋出更不穩定。真正的槓桿在於縮小批次、縮短反饋週期。

  • AI程式碼生成加速了編寫,但產生了設計、測試、審查等環節的瓶頸。
  • 來自DORA、CircleCI和Faros的資料表明,階段門控流程導致交付更慢、更不穩定。
站內正文

2026年值得構建的7個真實世界AI專案(附指南)

本文介紹了七個實用的AI專案,涵蓋求職、研究、投資分析、市場趨勢、發票處理、圖表數字化和個性化鍛鍊,每個專案都附有完整指南和程式碼,幫助讀者自動化工作流程。

  • 學習構建AI求職助手,自動匹配職位與簡歷
  • 掌握多智慧體研究助理開發,生成帶來源的研究報告
站內正文

人工智慧本質上就是反社會的嗎?

本文對比早期網際網路帶來的連線感與當代人工智慧的孤立體驗,指出AI作為一種工具雖有用,卻無法替代真實的人類互動,並質疑AI是否存在真正促進社交的應用場景。

  • 早期網際網路強調“我們”的集體體驗,而AI互動往往是個人的、孤立的。
  • 作者認為AI是出色的工具,但不是人,也無法替代人。
站內正文

研究稱AI不喜歡宗教——尤其是耶和華見證人

一項由宗教大學聯盟進行的研究發現,主要AI模型在回答倫理問題時傾向於世俗理性主義,忽視宗教視角。所有模型對耶和華見證人表現出負面偏見,而對天主教有正面偏見。

  • AI模型在倫理和個人問題上幾乎不引用宗教觀點,存在“遺漏偏見”。
  • 所有測試的AI模型對耶和華見證人均有持續負面偏見。
站內正文

你的AI助手已經忘記了你告訴它的一半內容

本文是AI驅動開發系列文章的第七篇,重點討論AI會話中的上下文管理。作者透過個人經歷(Gemini移動應用忘記之前記錄的筆記)引出上下文壓縮問題,並分享了四種實用技巧:將探索與文件編寫分離、使用交接文件而非延續提示、給AI設定驗收標準而非詳細步驟、以及使用規範文件作為不同AI工具之間的橋樑。這些技巧適用於從程式設計到寫作的各種AI使用場景。

  • AI助手在長對話中會因上下文視窗限制而“忘記”早期資訊,這種現象稱為上下文壓縮。
  • 四種實用技巧:分離探索與文件編寫、使用交接文件、設定驗收標準、使用規範文件作為橋樑。
站內正文

Show HN:我將一個 Python AI 代理和 Vue 儀表盤打包成了一個 Electron 應用

Hermes Desktop 是一個跨平臺的桌面應用,它將 Python 執行時、hermes-agent(自改進 AI 代理)和 hermes-web-ui(Vue 3 + Koa 聊天儀表盤)打包到一個 Electron 應用中,使用者無需單獨安裝 Python 或 Node。應用整合了 DingTalk 並透過 DeepSeek 驅動。

  • 打包了 Python 執行時和 hermes-agent,實現無需依賴即可執行
  • 使用 Electron 作為外殼,整合 hermes-web-ui 前端
站內正文

Perplexity AI 開源Unigram分詞器,p50延遲比Hugging Face tokenizers crate低5倍

Perplexity AI 開源了用Rust重寫的Unigram分詞器,實現了比Hugging Face tokenizers crate低5倍的p50延遲,並將生產環境CPU利用率降低了5-6倍。最佳化包括雙陣列trie、點陣圖打包和大頁面支援。

  • Perplexity AI 用Rust重寫了Unigram分詞器,p50延遲比Hugging Face tokenizers crate降低5倍。
  • 三項最佳化:雙陣列trie、點陣圖和快取行打包、大頁面支援。
站內正文

AIluminode:檢索前認知定向工具

AIluminode 是一款輕量級 AI 預檢索認知定向工具,幫助 AI 在行動前檢查上下文姿態,透過路線極性(開放、保護、審計、延遲、阻斷)減少錯誤探索和上下文洩漏。

  • AIluminode 是一個可 wieldable 的預檢索認知定向工具,強調“姿態先於檢索”。
  • 它使用路線極性系統(OPEN / PROTECT / AUDIT / DEFER / BLOCK)來引導上下文路由。
站內正文

5篇AI生成的數學論文被接收!00後創始人洪樂潼融資14個億

Axiom Math公司由00後華人洪樂潼創立,其AI系統AxiomProver生成的8篇數學論文中已有5篇被學術期刊接收。該公司於今年3月完成2億美元融資,估值達16億美元。

  • Axiom Math的AI系統AxiomProver生成的8篇數學論文中,5篇已透過同行評審並發表。
  • 創始人洪樂潼從斯坦福退學創業,公司融資2億美元,估值16億美元。
站內正文

當產品開始思考:應對AI產品轉變

本文探討了AI如何引發數字產品設計的正規化轉變,從傳統的命令驅動互動轉向意圖驅動互動,並分析了這種轉變在產品管理、使用者體驗、決策邏輯、釋出週期、風險和價值創造等方面帶來的新挑戰。

  • AI代表了自命令列介面和圖形使用者介面之後的第三種互動正規化,從確定性輸出轉向機率性輸出。
  • 產品團隊需要重新思考從發現到交付的全過程,資料策略和模型效能變得與功能同等重要。
站內正文

AIhub五月摘要:2026年5月——科學中的AI、彩票假說與世界模型

本月AIhub月刊涵蓋科學中的AI會議、彩票假說訪談、世界模型討論、透明可信AI研究、基礎模型影響報告、AIES會議反思、機器人咖啡館、ACL論文拒稿政策、arXiv反AI垃圾政策等。

  • 專訪Ximing Wen:透明且可信的AI系統研究
  • Jonathan Frankle討論彩票假說與實證主義
站內正文

前谷歌和蘋果研究員創立初創公司,為AI打造缺失的“反饋流”

一群前谷歌DeepMind、蘋果、OpenAI和Meta的研究員成立了新創公司Trajectory,旨在幫助企業透過真實使用者互動持續改進AI產品。Trajectory旨在構建一個平臺,讓AI能夠在部署後持續學習,而不是在訓練完成後停滯不前。該公司已獲得1500萬美元種子輪融資,估值1.15億美元,由Conviction領投。其CEO Ronak Malde表示,AI程式設計產品如Cursor已在實踐早期版本的持續學習,Trajectory希望將類似技術擴充套件到更多領域。

  • Trajectory由前谷歌DeepMind、蘋果、OpenAI和Meta的研究員創立,旨在實現AI的持續學習。
  • 公司已融資1500萬美元,估值1.15億美元,投資者包括Jeff Dean和Fei-Fei Li。
站內正文

Robinhood 推出智慧代理交易功能

Robinhood 推出 Agentic Trading,使用者可連線 AI 代理來自動化交易和信用卡購買,並配備安全控制和即時活動監控。

  • 使用者可將自己的 AI 代理連線到 Robinhood
  • 支援自動交易和信用卡購買
站內正文

「斯隆獎」得主戴亮全職加盟復旦

斯隆獎得主、UC Berkeley物理系助理教授戴亮加盟復旦大學,出任物理學系、天文與天體物理研究中心教授。復旦近年引進多名頂尖人才,包括蘇昊、袁峰、季索清等。

  • 戴亮(2021年斯隆獎得主)全職加入復旦大學
  • 曾在UC Berkeley任助理教授,北大物理系校友
站內正文

機器人即將迎來ChatGPT時刻嗎? – 播客

上個月,在北京半程馬拉松中,名為“閃電”的機器人以比人類世界紀錄快近七分鐘的成績完賽。這引發人們對機器人是否將像聊天機器人一樣進入日常生活的討論。中國領跑這場變革,政府承諾未來20年投資超1000億英鎊於機器人技術。

  • 機器人“閃電”在北京半程馬拉松中擊敗人類世界紀錄。
  • 中國計劃投資超1000億英鎊發展機器人技術。
站內正文

用於行星探測的即時非同步單目里程計設計

研究人員提出了一種基於事件的即時非同步單目里程計,用於行星漫遊車。該方法利用誤差狀態卡爾曼濾波器處理事件相機資料,在高動態範圍光照和計算約束下實現穩健的自我運動估計。

  • 事件相機以微秒解析度報告非同步逐畫素亮度變化,適合高速感知和高動態範圍環境。
  • 該方法使用誤差狀態卡爾曼濾波器從事件流中持續估計相機運動。
站內正文

Trinity:利用合成資料統一非結構化戶外環境中的類無關地形與語義分割

本文提出了一種基於Transformer的架構Trinity,能夠在一個統一網路中同時進行類特定語義分割和類無關地形分割。該方法無需預定義標籤或機器人相關的可通行性分數,僅基於視覺外觀分割地形區域,從而學習機器人無關的視覺地形先驗,可結合機器人特定經驗用於下游任務。為了支援大規模訓練,研究團隊擴充套件了OAISYS模擬器並推出RUGDSynth合成資料集,同時提供了EXTerra真實世界資料集。實驗驗證了該方法在複雜戶外環境中的有效性。

  • 提出Trinity架構,統一類無關地形分割與語義分割
  • 基於視覺外觀而非預定義標籤進行地形分割,提升跨平臺遷移性
站內正文

面向光流控組裝的智慧語言到目標合成

研究人員提出了Speak-to-Objective模組化智慧管線,利用條件大型語言模型將口頭或書面命令轉換為可微分的最佳化目標函式,用於在約束感知逆解算器和實驗光流控平臺上組裝微粒。該方法採用“感知-組合-提議-執行-報告與學習”的迴圈,將目標作為意圖與驅動之間的介面,實現自然語言可程式設計的微觀組裝,推動自主光製造平臺的發展。

  • Speak-to-Objective管線將自然語言命令轉化為可微分的最佳化目標函式。
  • 該管線在光流控平臺上透過雷射誘導熱粘流實現對微粒圖案的組裝。
站內正文

合成情感與遊戲化:探索小型社交機器人不同年齡段的參與策略

許多兒童面臨情緒調節和社互動動的挑戰,社交輔助機器人需要保持兒童的持續參與。本研究評估了一種觸覺機器人的兩種參與策略:合成情感反饋和積分獎勵。對16名6-8歲小學生的偏好評估顯示孩子更喜歡情感參與;而對14名20-27歲大學生的行為研究發現積分獎勵系統能帶來更高任務準確性(p<0.05)並維持表現。結果表明,不同年齡群體的偏好和行為結果可能不一致,驗證設計假設需要透過實際互動觀察。

  • 對6-8歲兒童,情感參與優於積分獎勵
  • 對20-27歲大學生,積分獎勵提高任務準確性和持續性
站內正文

“如果世界”:面向具身場景的通用世界模型因果基準

影片生成模型越來越多地被用作世界模擬器,但現有基準僅評估單影片質量,無法檢測模型是否真正理解因果關係。新提出的“如果世界”基準包含319對基於真實場景的提示對,透過改變一個物理變數來測試模型輸出的因果一致性。對9個最先進模型的評測顯示,最佳配對得分僅52%,開源模型約28%,且表現與視覺顯著性相關而非物理可解性。

  • “如果世界”基準由319個提示對組成,每個提示對僅在一個物理變數上不同,旨在檢驗影片生成模型能否根據物理規律產生正確的差異。
  • 採用APEO評分標準(Adherence、Physics、Environment、Outcome)評估,9個模型中最高得分為52%,開源模型集中在28%左右,所有模型在大量因果乾預上失敗。
站內正文

Melanoscope AI移動皮膚鏡臨床決策支援系統的臨床驗證

一項針對Melanoscope AI移動皮膚鏡臨床決策支援系統的前瞻性單中心臨床驗證顯示,該系統在176名患者中與專家評估的一致率為88.6%,未出現假陰性,特異性為88.3%。研究開發了級聯深度學習模型的定量可解釋性評估方法和三區患者分診演算法,為資源有限地區的皮膚癌篩查提供了可重複、可解釋的決策支援。

  • Melanoscope AI系統在176名患者中實現88.6%的專家一致率,且對5例惡性病變無假陰性。
  • 特異性為88.3%,3例黑色素瘤和2例基底細胞癌經組織學確認。
站內正文

表示條件擴散模型:用於引導訓練資料生成

該研究提出表示條件擴散模型,利用DINOv2、DINOv3和CLIP的表示作為條件生成合成影像資料,在ImageNet100上以+10.76 p.p.的top-1準確率顯著優於類條件生成。透過擴大合成資料集,甚至能超越真實資料訓練的模型(+2.0 p.p.)。此外,該方法在資料增強和樣本過濾方面也表現出色,為大規模視覺學習任務提供了一種有前景的替代或補充真實資料集的方案。

  • 表示條件擴散模型優於類條件生成,在ImageNet100上提升10.76個百分點。
  • 擴大的合成資料集可超越真實資料訓練的模型,準確率提高2.0個百分點。
站內正文

超越運動基元:基於頭戴式IMU的行為活動識別

本研究提出了一種基於頭戴式慣性測量單元(IMU)的行為級活動識別方法,超越了傳統運動基元識別。研究團隊定義了五種與AR應用需求相匹配的行為類別,構建了包含16萬個樣本的Ego4D資料集,並提出了HiT-HAR層次模型(70.3萬引數),在五類動作和八類場景識別任務上優於現有模型。透過可分離性分析,揭示了頭戴式IMU的觀測極限:移動類行為可靠可觀測,物體轉移和任務操作類需要時間上下文,場景依賴訊號重疊仍是挑戰。結果表明,利用時間上下文和場景結構的架構選擇優於簡單擴大模型規模。程式碼和資料集已公開。

  • 提出HiT-HAR層次模型,用於從頭戴式IMU進行行為級活動識別,超越簡單運動基元
  • 從Ego4D構建16萬樣本資料集,涵蓋8個活動場景和5種行為類別,並採用四層質量保證框架
站內正文

D²Turb:深度感知模擬與解耦學習用於單幀大氣湍流緩解

研究人員提出D²Turb框架,透過引入深度感知的湍流合成協議和自適應結構先驗注入機制,將大氣湍流緩解分解為紋理去模糊和幾何校正兩個互動階段,在合成和真實資料集上均達到最優效能。

  • 提出深度感知湍流合成協議,結合場景深度生成物理一致的退化資料。
  • 採用解耦學習方法,將恢復過程分為紋理去模糊和幾何校正兩階段。
站內正文

從情感到複雜行為:第十屆ABAW研討會與競賽推進多模態以人為中心的AI

第十屆ABAW研討會與競賽在CVPR 2026上舉辦,透過引入情感模仿強度估計、矛盾/猶豫識別和細粒度暴力檢測等新挑戰,以及傳統的情感估計和識別任務,推進多模態以人為中心的AI。競賽利用大規模野外資料集,論文軌道涵蓋從姿態估計到公平性和魯棒性的廣泛主題。

  • ABAW 2026引入新挑戰:情感模仿強度、矛盾識別和暴力檢測。
  • 研討會繼續保持競賽和論文軌道的雙重結構。
站內正文

社群態度建模與反應語調:評估LLM與線上社群語言行為對齊的人機協作框架

大型語言模型(LLM)作為計算社會分析的代理日益普及,但能否忠實再現人類社群的“厚描述”仍是關鍵挑戰。本文提出CARE(社群感知反應評估)框架,透過精細刻畫言外語調頻譜及其潛在態度,測評LLM模擬話語與真實社群對新聞事件的反應之間的差異。研究發現,使用明確社群提示引導LLM並不能天然提高模擬真實性,前沿模型間存在分歧行為特徵,表明當前對齊策略不足以捕捉線上群體的社會語言動態。

  • CARE框架透過反應語調評估LLM模擬社群話語的逼真度
  • 當前LLM對齊策略無法充分捕捉線上社群的社會語言動態
站內正文

從自迴歸到擴散:利用嚴格因果和彈性視野高效適配大型語言模型

新框架FLUID將自迴歸語言模型適配到擴散模型,實現高效並行文本生成。透過嚴格因果對齊重用GPT檢查點,並透過彈性視野機制根據資訊密度動態調整去噪步長。該方法以數量級降低的訓練成本達到最先進效能。

  • FLUID透過嚴格因果對齊彌合自迴歸與擴散模型的結構差異,可直接從GPT檢查點初始化。
  • 彈性視野利用熵動態調整去噪步長,取代固定排程。
站內正文

彌合穩定性與表現力之間的鴻溝:面向低資源口語模型的合成資料擴充套件與偏好對齊

研究人員發現,在低資源語言的口語模型中使用合成資料會導致“穩定性-表現力鴻溝”,並提出兩種自對齊框架(DGSA和TDSC),能夠恢復韻律變異性,超越ElevenLabs和Gemini Pro等商業系統,實現寮國語的首次零樣本人聲克隆。

  • 低資源語言的口語模型在合成資料訓練時面臨音素準確度與韻律表現力之間的權衡。
  • 提出的解耦引導自對齊(DGSA)透過分離韻律和音色來恢復表現力。
站內正文

BioELX:基於別名檢索和LLM排序的跨語言生物醫學實體連結

BioELX是一種新穎的跨語言生物醫學實體連結框架,無需標註訓練資料。它透過維基百科多語言別名增強SapBERT,並利用預訓練LLM進行上下文感知消歧。在五個基準測試中,BioELX實現了最先進的效能,尤其在土耳其語、韓語和泰語等低資源語言上表現突出。

  • 提出BioELX,一種零樣本跨語言BEL框架,結合別名檢索和LLM排序。
  • 第一階段:利用維基百科多語言別名豐富SapBERT訓練,提升候選檢索效果。
站內正文

RAG-Coding:利用結構化外部知識增強LLM醫學編碼

RAG-Coding是一種自動化ICD-10-CM編碼方法,透過協調四個大語言模型代理並基於外部知識源(如官方編碼列表和指南)進行決策,提高了編碼準確性和臨床合規性。在MDACE資料集上,其效能優於最佳LLM基線8-13%的微觀F1和2-8%的宏觀F1。與最先進的預訓練模型PLM-ICD相比,RAG-Coding的微觀召回率高出11%,而PLM-ICD的微觀精確度高出6%,兩者F1相當。消融實驗驗證了外部知識的逐步增益。同時釋出了MDACE-2025,根據2025年最新指南重新標註,支援更細粒度的評估。

  • RAG-Coding透過四個LLM代理和外部知識源提高ICD-10-CM編碼準確性。
  • 在MDACE資料集上,相比最佳LLM基線,微觀F1提升8-13%,宏觀F1提升2-8%。
站內正文

自行檢測:面向少樣本圖異常檢測的自設計代理工作流

提出SignGAD框架,透過自設計檢測工作流替代固定流水線,引入保護性最終重擬策略,在少樣本場景下顯著提升圖異常檢測效能。

  • SignGAD將圖異常檢測從訓練固定檢測器轉變為設計任務條件檢測工作流
  • 框架能選擇合適圖編碼和檢測器設計以利用任務特定異常證據
站內正文

架構驅動的偏移:一種用於捕捉對數機率偏移趨勢的輕量級選擇器

本文提出了一種輕量級的架構驅動偏移(ADS)度量,用於在持續學習中高效選擇預訓練模型。ADS透過解耦對數機率偏移為架構依賴和資料依賴,僅需少量資料樣本即可捕捉偏移趨勢。實驗表明,ADS與對數機率偏移之間存在強單調相關性(斯皮爾曼相關係數最低0.731),並可作為預期校準誤差的有效代理,在六個場景、三個資料集上驗證了其可靠性。

  • 持續學習中,選擇能平衡可塑性與穩定性的預訓練模型至關重要,但對數機率偏移計算成本高。
  • 現有理論假設隱藏層寬度統一,忽略實際架構的異構性,無法高效替代。
站內正文

用混合專家模型應對多模態學習挑戰:一項綜述

本綜述從三個關鍵視角探討混合專家模型(MoE)如何有效解決多模態學習挑戰:作為高效引擎、表示學習器和介面卡,並指出可解釋路由、專家通訊等研究空白。

  • MoE透過解耦計算成本與引數增長實現可擴充套件多模態建模。
  • MoE整合互補專家知識以豐富對齊與互動表示。
站內正文

$E^3$-Agent:面向邊緣生成式推理的可執行與演化式資源管理智慧體

本文提出$E^3$-Agent,一種面向邊緣AIGC資源管理的可執行與演化式智慧體。該智慧體將毫秒級的路由決策與事件驅動的LLM元控制器分離,透過線上學習適應未知且時變的服務時間對映。在模擬實驗中,$E^3$-Agent將平均延遲降低65%-73%,並有效抑制了語義退化下的卡頓率。

  • 邊緣生成式推理面臨裝置效能未知和動態變化挑戰。
  • $E^3$-Agent採用雙路徑架構:快速路由器+慢速LLM元控制器。
站內正文

簡單狀態空間模型在多變數時間序列分類中表現出色

研究表明,結構化狀態空間模型中的對角變體S4D在時間序列分類任務上比複雜的Mamba架構更準確且高效。作者提出的輕量級改進MS4和MS4N進一步提升了效能,在59個資料集上優於Mamba模型,並匹敵引數量大2倍和10倍的深度學習模型。

  • S4D架構在時間序列分類中一致優於Mamba變體,挑戰了複雜性帶來收益的假設。
  • 新提出的MS4和MS4N模型透過線性輸入投影和通道混合等輕量修改,進一步提升了效率與準確性。
站內正文

你掌控自己的狀態:為什麼人類結果可以透過因果狀態干預來控制

該論文提出,人類行為結果的持續變異性源於個體的動態潛在狀態,而非僅由可觀測輸入決定。透過干預決策形成時刻的狀態權重,可以精確控制結果。框架基於因果推斷、預測加工、穩態應變等六條證據鏈,並利用超20萬使用者的24個月觀測資料,提出七項可檢驗預測和六項操作要求,對數字健康、教育、AI個性化等領域具有啟示意義。

  • 人類行為變異性源於動態潛在狀態,狀態是時間索引的權重向量。
  • 狀態與決策、結果之間是因果關係,可透過干預狀態來控制。
站內正文

LaneRoPE:用於協作並行推理與生成的位置編碼

LaneRoPE透過引入序列間注意力機制和位置編碼擴充套件,使多個LLM序列在生成過程中能夠協作,從而在數學推理任務中提升準確率,且對架構改動小、推理開銷低。

  • LaneRoPE提出序列間注意力掩碼,使多個序列的生成相互依賴。
  • 擴充套件旋轉位置編碼(RoPE),捕捉序列內和序列間的位置資訊。
站內正文

為什麼LLM在因果發現中失敗以及干預智慧體如何突破

本文證明了大型語言模型在進行因果發現時存在根本性侷限:監督微調、直接偏好最佳化和上下文學習等方法無法區分產生相似觀測資料的因果圖。作者提出了智慧體因果貝葉斯最佳化(A-CBO),其中凍結的語言模型作為干預預言機,外部貝葉斯迴圈在對數級別輪次內收斂到候選圖。在Corr2Cause基準上,A-CBO無需訓練即可匹配微調基線;在擴充套件到24個變數和18K測試樣本的Extended Corr2Cause上,A-CBO顯著優於微調和偏好最佳化。

  • 證明了LLM在因果發現中的失敗是根本性的,源於核障礙定理
  • 提出A-CBO方法,結合凍結LLM和外部貝葉斯最佳化
站內正文

利用隱寫術繼承的合成資訊起源

本文類比生物進化中的物種起源,探討合成資訊的起源問題,提出利用隱寫術實現資訊血統追蹤的機制,以應對AI生成內容難以追溯來源的挑戰。

  • 合成資訊起源是資訊科學中的根本問題,對真理、信任和人類智力有深遠影響。
  • 作者借鑑遺傳學,透過隱寫術在合成資訊中嵌入可追溯的血統特徵。
站內正文

識別和理解文本中的人類價值:一種可定製的基於LLM的架構

本文介紹了一種基於大型語言模型(LLM)的架構,用於檢測和量化文本中人類價值的強度。該架構包含三個協調模組,可適應多種價值理論,並在ValueEval資料集上表現出良好的檢測效能。

  • 提出了一種模組化的LLM架構,用於從文本中識別人類價值,避免了對特定價值理論或複雜提示工程的依賴。
  • 架構包括三個模組:生成結構化價值規範、標註文本、基於修辭和語義證據分配支援或反對等級。
站內正文

兩大支柱:AI後軟體工作的概念框架

一篇論文認為,隨著生成式AI消除了人類編寫正確程式碼的能力這一約束,軟體工作圍繞兩大支柱重組:混音模式(人類像音響工程師一樣連續操作多個判斷軸)和元軟體(觀察、驗證、上下文化和治理其他軟體的軟體)。這兩個支柱不可分割,借鑑了從手工藝到統計控制的批次生產的歷史轉型。

  • 由於生成式AI,程式碼生產不再是軟體組織中的主導問題。
  • 混音模式描述了從業者持續操作多個判斷軸的新人類角色。
站內正文

你未來的工作將是讓AI保持專注

諾亞·史密斯認為,隨著AI能力增強,人類將從技術工作轉向確保AI對齊——使AI專注於人類目標。他將其與《上班一條蟲》類比,並警告AI生成內容“汙泥”正在泛濫。

  • 人類需要維護AI對齊,確保AI不偏離任務。
  • 作者將未來人類角色比作《上班一條蟲》中的“朗伯”經理。
站內正文

伊利諾伊州議員透過了美國最強人工智慧安全法案

伊利諾伊州參議院第315號法案(SB 315)要求人工智慧實驗室聘請獨立審計師驗證其安全承諾,該法案現已提交州長JB·普利茲克簽署。普利茲克表示計劃簽署,稱需要讓大型科技公司負責。此舉在聯邦層面缺乏AI監管的背景下,凸顯了州級立法的重要性。

  • SB 315 要求獨立審計師核查AI實驗室是否遵守自身安全標準。
  • 該法案是美國最嚴格的AI安全法規,超越了加州和紐約的相關法律。
站內正文

主題導航