AI News HubLIVE

創業融資動態

谷歌雲推出AI威脅防禦平臺,幾分鐘內自動修復安全漏洞

谷歌雲釋出了“AI Threat Defense”平臺,能自動發現、評估並修復企業系統中的安全漏洞,整合了部分透過收購獲得的技術。

  • 谷歌雲推出AI威脅防禦平臺,應對AI加速的網路攻擊。
  • 平臺可自動查詢、評估和修補企業安全漏洞。
站內正文

CNN起訴Perplexity,指控其AI工具生成“逐字”複製內容

CNN對AI搜尋初創公司Perplexity提起訴訟,聲稱其AI工具生成CNN文章的“逐字”副本,並繞過付費牆向使用者提供訂閱內容。訴訟指出,Perplexity無視CNN阻止資料抓取的努力,且此前曾嘗試與CNN達成授權協議但未能成功。CNN要求賠償並永久禁止Perplexity的侵權行為。

  • CNN在紐約法院起訴Perplexity,指控其AI工具逐字複製CNN文章。
  • Perplexity被指忽略CNN的爬蟲阻止措施,未經許可抓取內容。
站內正文

CNN起訴Perplexity,指控AI侵犯版權

CNN對AI搜尋公司Perplexity提起訴訟,指控其未經授權複製並使用CNN的新聞內容,這是CNN首次採取AI版權行動,也是首家電視網路提起此類訴訟。CNN表示曾試圖與Perplexity達成內容許可協議但未成功,現尋求法律賠償。Perplexity尚未回應。

  • CNN起訴Perplexity,指控其非法使用新聞內容
  • 這是CNN首次AI版權訴訟,也是首家電視網路起訴
站內正文

輝達每年將向臺灣投入1500億美元用於AI基礎設施

黃仁勳宣佈輝達將每年在臺灣投入1500億美元建設AI基礎設施,儘管此前承諾了5000億美元美國投資。這凸顯了臺灣在全球AI晶片製造和封裝生態系統中的核心地位。

  • 輝達每年將在臺灣投入1500億美元用於AI基礎設施。
  • 儘管此前宣佈了5000億美元的美國資料中心投資,但臺灣仍是關鍵製造基地。
站內正文

輝達押注1500億美元在臺灣,特朗普讓美國成為AI中心的計劃適得其反

輝達CEO黃仁勳計劃在臺灣投資1500億美元建設AI基礎設施,儘管特朗普政府試圖透過關稅將晶片製造帶回美國。臺灣拒絕放棄其半導體主導地位,而美國晶片製造能力不足。

  • 輝達宣佈1500億美元臺灣投資,鞏固其AI晶片地位。
  • 特朗普政府考慮對半導體徵收高額關稅以促進國內製造,但美國僅生產約10%所需晶片。
站內正文

AI聚合平臺估值達13億美元

該供應商的增長與企業AI中代理的爆炸性出現同步。

  • AI聚合平臺估值達到13億美元。
  • 其增長與企業AI代理的興起密切相關。
站內正文

研究稱AI不喜歡宗教——尤其是耶和華見證人

一項由宗教大學聯盟進行的研究發現,主要AI模型在回答倫理問題時傾向於世俗理性主義,忽視宗教視角。所有模型對耶和華見證人表現出負面偏見,而對天主教有正面偏見。

  • AI模型在倫理和個人問題上幾乎不引用宗教觀點,存在“遺漏偏見”。
  • 所有測試的AI模型對耶和華見證人均有持續負面偏見。
站內正文

Netflix正在建立AI動畫工作室

Netflix正在建立名為INKubator的新內部工作室,利用AI製作短篇動畫內容。該工作室已悄然啟動,正在招聘各種職位,包括製片人、軟體工程師和CG藝術家。其長期技術戰略聚焦於生成式AI工作流程、藝術家工具和可擴充套件的多節目環境,旨在製作出達到電影品質的內容。目前計劃專注於動畫短片和特輯,但有跡象表明未來可能擴充套件到長篇內容。此舉可能用於Netflix的Clips功能或兒童節目。然而,AI在動畫領域的應用也引發了強烈反彈,包括日本動畫大師宮崎駿的批評和動畫師工會的抗議。

  • Netflix建立新AI動畫工作室INKubator,專注於生成式AI驅動的短篇動畫。
  • 工作室由前夢工廠和A24高管領導,已開始招聘關鍵職位。
站內正文

教宗領悟人工智慧的侷限性

梵蒂岡新通諭《偉大的人性》捍衛人類不完美作為尊嚴的來源,並警告將核心人類能力外包給AI的風險,反駁矽谷對人類侷限性的輕視。

  • 教宗良十四世的通諭《偉大的人性》肯定人類有限性作為美與尊嚴的源泉。
  • 檔案警告AI參與道德決策,將權力集中於科技精英手中。
站內正文

機器人即將迎來ChatGPT時刻嗎? – 播客

上個月,在北京半程馬拉松中,名為“閃電”的機器人以比人類世界紀錄快近七分鐘的成績完賽。這引發人們對機器人是否將像聊天機器人一樣進入日常生活的討論。中國領跑這場變革,政府承諾未來20年投資超1000億英鎊於機器人技術。

  • 機器人“閃電”在北京半程馬拉松中擊敗人類世界紀錄。
  • 中國計劃投資超1000億英鎊發展機器人技術。
站內正文

從情感到複雜行為:第十屆ABAW研討會與競賽推進多模態以人為中心的AI

第十屆ABAW研討會與競賽在CVPR 2026上舉辦,透過引入情感模仿強度估計、矛盾/猶豫識別和細粒度暴力檢測等新挑戰,以及傳統的情感估計和識別任務,推進多模態以人為中心的AI。競賽利用大規模野外資料集,論文軌道涵蓋從姿態估計到公平性和魯棒性的廣泛主題。

  • ABAW 2026引入新挑戰:情感模仿強度、矛盾識別和暴力檢測。
  • 研討會繼續保持競賽和論文軌道的雙重結構。
站內正文

社群態度建模與反應語調:評估LLM與線上社群語言行為對齊的人機協作框架

大型語言模型(LLM)作為計算社會分析的代理日益普及,但能否忠實再現人類社群的“厚描述”仍是關鍵挑戰。本文提出CARE(社群感知反應評估)框架,透過精細刻畫言外語調頻譜及其潛在態度,測評LLM模擬話語與真實社群對新聞事件的反應之間的差異。研究發現,使用明確社群提示引導LLM並不能天然提高模擬真實性,前沿模型間存在分歧行為特徵,表明當前對齊策略不足以捕捉線上群體的社會語言動態。

  • CARE框架透過反應語調評估LLM模擬社群話語的逼真度
  • 當前LLM對齊策略無法充分捕捉線上社群的社會語言動態
站內正文

利用隱寫術繼承的合成資訊起源

本文類比生物進化中的物種起源,探討合成資訊的起源問題,提出利用隱寫術實現資訊血統追蹤的機制,以應對AI生成內容難以追溯來源的挑戰。

  • 合成資訊起源是資訊科學中的根本問題,對真理、信任和人類智力有深遠影響。
  • 作者借鑑遺傳學,透過隱寫術在合成資訊中嵌入可追溯的血統特徵。
站內正文

Robinhood 允許 AI 代理為客戶交易股票和使用信用卡購買

Robinhood 透過 MCP 讓客戶連線 Anthropic 的 Claude 等 AI 代理,這些代理可以自主交易股票。美國券商監管機構 FINRA 已將其視為新的風險領域,警告不可控的決策。Robinhood 也承認該產品並非適合所有人。

  • Robinhood 推出功能,客戶可透過 MCP 連線 AI 代理(如 Claude)進行股票交易和使用信用卡購買。
  • AI 代理可以自主決策,無需客戶逐一確認。
站內正文

AI巨頭互相攻擊,卻意外捧紅了一位無名議員

OpenAI和Anthropic的爭鬥意外地讓紐約州議員Alex Bores成為AI安全監管的代言人。儘管背後有超級政治行動委員會投入數百萬美元攻擊他,Bores卻因這些攻擊而聲名鵲起,目前在初選中領先。

  • OpenAI和Anthropic在紐約第12國會選區的初選中花費數百萬美元互相攻擊,但受益者卻是議員Alex Bores。
  • Bores撰寫了美國首批AI監管法案之一,因此成為AI公司的攻擊目標。
站內正文

AI 是一場軍備競賽,美國需要 90 億美元的輝達超級晶片來跟上步伐

美國情報機構秘密申請 90 億美元採購輝達 GB10 超級晶片,以幫助 CIA 和 NSA 追趕 Anthropic、OpenAI 等 AI 巨頭的步伐。這筆資金尚待國會批准,同時國防預算已調撥 8 億美元用於雲算力。文章詳細介紹了晶片規格、成本以及 AI 硬體競賽的升級趨勢。

  • 美國政府秘密申請 90 億美元為 CIA 和 NSA 購買輝達 GB10 超級晶片。
  • GB10 晶片功耗僅 140 瓦,卻提供 1 petaflop FP4 效能,可微調 700 億引數模型。
站內正文

輝達暗示將在臺灣投入1500億美元

輝達CEO黃仁勳在即將在臺灣設立總部的釋出會上稱該國為AI革命的“中心”。

  • 輝達CEO黃仁勳稱臺灣為AI革命的中心
  • 輝達將投資約1500億美元在臺灣建設新總部
站內正文

Robinhood將允許AI代理交易股票,大賺(或大虧)一筆

Robinhood宣佈開放其交易平臺給AI代理,使用者可以建立獨立賬戶併為代理分配資金,讓其自動買賣股票。該功能旨在自動化投資決策,但Robinhood發出重大風險警告,稱AI驅動策略可能表現不佳,使用者可能損失全部投資。此外,Robinhood Gold Card使用者可連線AI代理進行信用卡購物。該功能透過MCP協議實現,初期支援股票,未來將擴充套件至期權、加密貨幣等。

  • Robinhood推出AI代理交易功能,使用者可為代理設立獨立賬戶並分配資金。
  • 公司警告代理交易風險極高,可能導致全部投資損失。
站內正文

Sam Altman和Dario Amodei收回他們的AI工作末日預測

Sam Altman和Dario Amodei在即將進行數十億美元IPO之際,收回了他們關於AI導致工作末日的預言。

  • Sam Altman和Dario Amodei修正了關於AI取代工作的極端觀點。
  • 他們的態度轉變恰逢各自公司可能進行大規模IPO的時機。
站內正文

教皇並未沉迷於AGI

教皇方濟各發布通諭《偉大的人類》,警告人工智慧的社會影響,強調AI不是純粹的技術問題,而是涉及權利、機會和自由。該通諭與Anthropic合作,引發科技界不同反應,有人批評未提及AGI,有人讚賞其關注人類尊嚴。

  • 教皇釋出通諭《偉大的人類》,警告AI的社會風險。
  • Anthropic聯合創始人克里斯托弗·奧拉出席,代表教會與AI公司合作。
站內正文

美國執法部門警告“反科技極端主義”隨著對AI的仇恨增長

隨著對AI技術的仇恨情緒上升,美國執法部門開始警告“反科技極端主義”的威脅。然而,專家擔心這一概念可能被濫用,將和平抗議者和技術批評者定性為威脅。一例非營利組織的影片被錯誤標記為潛在威脅,引發了關於言論自由的擔憂。

  • 專家盧布拉諾警告反科技極端主義框架需謹慎使用,不應用來壓制對AI的批評。
  • 研究人員雷諾茲指出,該類別可能過於寬泛,涵蓋和平抗議者和AI懷疑論者。
站內正文

我利用SEC資料和AI為初學者構建了一個免費的股票研究工具

Mr. Guy Invests 是一款面向初學者的免費股票研究與投資組合追蹤工具,利用SEC公開資料追蹤對沖基金和內幕交易,提供AI股票導師、虛擬交易挑戰、每日市場簡報等功能。免費版有每日使用限制,Pro版每月4.99美元可解鎖無限功能。

  • 工具從SEC檔案(13F和4表格)提取資料,展示對沖基金和內幕人士的實際買賣行為。
  • 包含AI股票導師,使用者可詢問任何股票相關問題,獲得通俗易懂的解答。
站內正文

卷積、Transformer、混合和視覺語言模型在多病種視網膜篩查中的基準測試

這項研究在視網膜眼底多病種影像資料集(RFMiD)上對12種架構(包括卷積神經網路、視覺Transformer、混合模型和視覺語言模型)進行了基準測試,比較它們在二元篩查和多標籤分類中的效能。結果表明,所有模型在二元篩查中表現良好(AUC>84%),但基於注意力的模型(如SwinTiny、CoAtNet0、MaxViTTiny)在二元和多標籤任務中均最優。視覺語言模型與CNN基線相當,但未超越最佳Transformer和混合模型。在Messidor-2上的外部驗證中,AUC範圍為66.8%-84.7%,混合和Transformer模型表現強勁。

  • 在RFMiD資料集上,注意力模型(SwinTiny、CoAtNet0、MaxViTTiny)在多病種視網膜篩查中表現最佳。
  • 視覺語言模型(如CLIP ViT-B/16)雖與CNN基線競爭,但未超越頂級Transformer和混合模型。
站內正文

LongAV-Compass:面向分鐘級視聽生成的統一評估框架

LongAV-Compass是一個系統化基準,用於評估分鐘級視聽生成任務,涵蓋文本到視聽、影像到視聽和影片到視聽三種模態。包含284個測試案例,整合多模態大模型輔助評估和感知指標,評估超過20個細粒度維度。對11個代表性模型的實驗揭示了當前系統在長時間生成中的侷限性。

  • 提出LongAV-Compass基準,專門用於分鐘級視聽生成的統一評估。
  • 涵蓋T2AV、I2AV和V2AV三種輸入模態,共284個測試案例。
站內正文

大型語言模型中的預訓練資料暴露:成員推理、資料汙染及安全影響綜述

本綜述首次統一了預訓練資料暴露(PDE)框架下的成員推理和資料汙染研究,形式化定義了不同暴露水平,回顧了攻擊與防禦方法,綜合了實證發現,並指出了開放挑戰和未來方向。

  • 預訓練資料暴露(PDE)旨在確定特定資料是否出現在LLM的預訓練語料中,對評估完整性和隱私保護至關重要。
  • 該論文首次將資料汙染和成員推理統一在PDE框架下進行綜述。
站內正文

TSFMAudit:時間序列基礎模型預訓練資料汙染審計

針對時間序列基礎模型(TSFMs)在預訓練中可能遇到評估資料集導致效能評估過於樂觀的問題,本文首次研究了TSFMs的預訓練資料汙染審計。提出TSFMAudit方法,基於探測適應動態,透過微調探測後汙染資料集更快的損失下降和更小的骨幹網路移動來檢測汙染。在6個TSFMs和187個資料集上評估,優於10個基線方法。

  • 首次提出時間序列基礎模型預訓練資料汙染審計問題。
  • TSFMAudit基於微調探測動態,識別異常高效的適應行為。
站內正文

OmniToM:透過顯式信念建模評估大語言模型的心智理論

當前評估大語言模型(LLM)心智理論(ToM)的方法多依賴最終答案,無法揭示模型是否真正構建了心理狀態表徵。本研究提出OmniToM基準,透過顯式建模故事中所有角色的信念結構來直接評估。基準包含信念提取與信念標註兩階段,採用七維標籤體系。基於895個故事和22,343個標註信念命題,藉助人類校準的LLM輔助流程構建。零樣本評估表明,LLM在將敘事事實轉化為角色信念和共享心理狀態時存在瓶頸。

  • OmniToM透過要求顯式建模信念結構來評估ToM,而非僅依賴問答。
  • 評估分為信念提取和信念標註兩階段,使用七維模式標籤。
站內正文

約束獲取需要更好的基準測試

約束獲取(CA)及相關研究因缺乏適當基準而進展受限。現有基準多為求解器設計,忽視領域知識工件。本文提出MPMMine基準套件,以一致性、標準化、完整性、可擴充套件性、開放性和版本控制為指導,採用MiniZinc、CommonMark和JSON開放格式,提供多模型、多例項及大量解與非解,並附有自然語言描述,以支援文本到模型方法。

  • 約束獲取研究受限於不充分的基準測試,影響可重複性和跨研究可比性。
  • 現有基準針對求解器設計,缺乏CA方法所需的領域知識工件。
站內正文

LLM能內省嗎?現實檢驗

一項新研究質疑大型語言模型是否具有真正的內省能力,認為現有證據可能僅僅是基於表面線索的模式匹配,而非真正的元認知監控。

  • 研究表明LLM無法可靠地檢測內部狀態是否被篡改,其表現源於對異常的一般檢測。
  • 在預測隱藏狀態標籤的任務中,僅基於輸入的分類器達到了與模型自身相當的效能,表明模型沒有特權訪問內部表示。
站內正文

我佩戴了谷歌的Fitbit Air進行一週健康追蹤——它是一款價格更低的Whoop強勁對手

谷歌最新無螢幕健康追蹤器Fitbit Air售價僅100美元,是Whoop的強力競爭對手。經過一週的跑步、力量訓練、瑜伽等測試,我們發現這款裝置輕便舒適,電池續航約一週,配合AI健康教練提供全面的追蹤體驗。雖然無螢幕設計減少了干擾,但在運動中檢視資料需要開啟手機應用。訂閱Google Health Premium可解鎖AI教練的高階功能。

  • Fitbit Air售價100美元,比Whoop更實惠。
  • 無螢幕設計促進更健康的追蹤習慣,但運動中檢視資料不便。
站內正文

Mistral AI透過與Harvey合作進軍法律領域

生成式AI供應商Mistral AI宣佈與法律AI初創公司Harvey合作,拓展法律行業應用,此舉與Anthropic的法律AI交易類似。

  • Mistral AI與Harvey合作,進入法律行業。
  • 此舉與Anthropic的法律AI合作模式相似。
站內正文

優步總裁稱AI投入“越來越難證明合理性”

據報道,優步在2026年僅用四個月就耗盡了年度AI預算,公司高層質疑投資是否帶來實際回報。總裁Andrew Macdonald表示,難以將AI支出與消費者功能改進直接掛鉤。

  • 優步2026年AI預算在四個月內耗盡
  • 公司高層質疑AI投入與功能改進的關聯
站內正文

任務對齊的自監督學習在醫學影像分析中的應用:系統綜述與實踐設計指南

本文系統綜述了自監督學習(SSL)在醫學影像分析中的應用,分析了75項研究,將方法分為對比學習、非對比預測學習、生成式重建學習和混合學習四類。研究發現,沒有通用的最優SSL策略,效能取決於預文本任務、成像模態和目標任務的對齊。對比學習適合分類,但可能忽略病理細節;生成式方法保留區域性解剖結構,適合分割;混合方法效能最平衡。文章還提出了實踐設計指南,並指出了開放挑戰。

  • 自監督學習在醫學影像分析中效果依賴於預文本任務與臨床目標的對齊。
  • 對比學習適合全域性分類任務,但可能遺漏細微病理模式。
站內正文

RAW:魯棒的數字人水印——基準測試與基線方法

數字人水印面臨獨特挑戰:數字人經常需要經過背景替換、重新構圖和格式轉換等後處理才能部署。本文提出RAW基準,包含來自5家商業供應商的50個合成數字人影片和6種模擬實際工作流的攻擊。評估7種現有方法發現,背景移除等數字人特有攻擊會顯著降低水印恢復率。提出WALT方法,透過3D人臉重建在UV紋理空間嵌入水印,在縮放攻擊下魯棒性最高(92.4%),背景移除效能也強(95.6%)。該基準已開源以促進數字人水印研究。

  • 數字人水印面臨背景替換、重新構圖等獨特挑戰。
  • RAW基準包含50個合成數字人影片和6種攻擊。
站內正文

Nano World Models:未來影片預測的極簡實現

Nano World Models 是一個極簡程式碼庫,專注於基於擴散強制(diffusion forcing)的未來影片預測。它提供統一的介面,支援生成目標、模型規模、動作條件機制、潛在觀測空間、資料集、評估協議和長期推演過程,旨在為世界模型研究提供可重複、可擴充套件的實驗平臺。

  • Nano World Models 是一個極簡、可復現的程式碼庫,用於未來影片預測研究。
  • 它圍繞擴散強制技術,整合了生成目標、模型規模、動作條件等關鍵設計元件。
站內正文

忠實還是捏造?針對LLM評判者合理化偏差的因果框架

大型語言模型(LLM)常被用作自動評判者,但研究發現它們存在位置、冗長和風格偏好等偏差。本文提出因果框架,引入一套干預措施和指標,檢驗LLM評判者是否具備提示不變性,即當非證據性提示被擾動時,其排名和解釋是否穩定。實驗發現,在標籤和安慰劑擾動下,LLM存在顯著的提示錨定合理化,而PROOF-BEFORE-PREFERENCE方法能顯著改善提示不變性。

  • LLM評判者存在提示錨定合理化偏差,其解釋可能受非證據性提示影響。
  • 論文開發了多種提示干預(如盲評、真相、翻轉、安慰劑、事後揭示)和指標來量化偏差。
站內正文

大規模資料集與基準:蛋白質-配體模型學習的是結合位點還是僅僅結合可能性?

現有蛋白質-配體基準通常評估蛋白質與配體是否相互作用及結合強度,但無法判斷模型是否能夠定位結合位點或識別分子識別中的非共價相互作用。為此,研究者引入InteractBind,一個包含約10萬對蛋白質-配體的大規模資料集及細粒度評估基準,透過六種非共價相互作用型別的殘基-原子相互作用圖來評估結合位點定位能力。評估八個現有模型發現,儘管二元結合預測表現強勁,但結合位點定位能力有限,且在不同非共價相互作用型別間差異顯著。InteractBind鼓勵開發更具可解釋性和物理基礎的蛋白質-配體模型。

  • InteractBind包含約10萬對蛋白質-配體資料,提供結合位點定位的細粒度基準。
  • 基準使用六種非共價相互作用的殘基-原子相互作用圖來評估模型是否真正學習了結合位點。
站內正文

什麼是“粉紅肉渣”新聞業?它是否已滲透澳大利亞媒體?

專家警告,偽裝成地方新聞機構的AI生成新聞網站(即“粉紅肉渣”新聞業)已在澳大利亞偏遠地區出現,引發對虛假資訊和媒體信任度下降的擔憂。這些網站背後是一位海外居住的澳大利亞人,他表示這只是一次失敗的實驗。

  • 針對西澳偏遠社群的AI生成新聞網站被追溯到一位居住在國外的澳大利亞人。
  • 經過ABC調查後,包括《班伯裡衛報》在內的這些網站已被關閉。
站內正文

Pitch Agent

Pitch Agent 是 Pitch 推出的新 AI 功能,能從團隊模板、設計語言和影像風格中學習,快速生成符合品牌形象的簡報,並支援透過對話式互動進行迭代最佳化。

  • Pitch Agent 根據團隊模板和設計風格生成簡報,而非簡單套用顏色。
  • 支援透過聊天方式細化幻燈片,無需離開編輯器。
站內正文

阿拉巴馬高中與豐田合作,培養不易被自動化取代的學生崗位

阿拉巴馬州亨茨維爾的一所技術高中與豐田合作,培養工業維護等技能型人才,以應對美國技能工人短缺和AI自動化對白領崗位的衝擊。這類崗位時薪超40美元,需求巨大。

  • 美國面臨技能工人嚴重短缺,預計到2033年需190萬製造業工人。
  • 亨茨維爾技術中心(HCT)獲豐田100萬美元投資,開設Inditech專案培養工業維護人才。
站內正文

凱文·奧利裡想在猶他州建設AI資料中心,部分居民不滿

著名投資人凱文·奧利裡計劃在猶他州博克斯埃爾德縣建設一個7.5吉瓦的AI資料中心,該專案類似他在阿爾伯塔省的計劃。儘管縣委員會已批准,但居民擔心環境影響,特別是對已經萎縮的大鹽湖的生態影響。奧利裡承諾透明開發並帶來經濟效益,但反對者要求公投。

  • 凱文·奧利裡計劃在猶他州博克斯埃爾德縣建設7.5吉瓦AI資料中心,佔地面積1萬至1.3萬英畝。
  • 專案面臨居民強烈反對,主要擔憂環境影響,尤其是對大鹽湖脆弱生態系統的破壞。
站內正文

聯合空間約束下經過驗證的任務空間運動規劃

研究人員提出一種方法,在關節限制下認證可達笛卡爾步長,在對抗場景中實現零違規和100%目標到達。

  • 標準Bug2規劃器在6-11%的步驟中違反關節限制,並在多達18%的場景中無法到達目標。
  • 新方法使用S過程和半定規劃來計算認證步長。
站內正文

會問問題的機器人:透過定向解釋恢復錯位的獎勵函式

機器人從演示中學習獎勵函式時,演示常常不完善,導致某些重要特徵(即任務相關行為方面)未被充分指定,從而在部署時出現行為錯位。本文提出一種框架,透過分析演示中特徵值的變異性來檢測未充分指定的特徵(變異小表示指定良好,變異大表示指定不足)。機器人隨後用自然語言解釋其不確定的特徵,並主動請求針對性的糾正演示。在模擬桌面操作和真實Franka機器人使用者研究中,定向解釋引導的查詢顯著優於隨機查詢和被動資料收集。

  • 機器人學習獎勵函式時,不完善的演示可能導致重要特徵未被充分指定,引發部署時的行為錯位。
  • 提出一種檢測未充分指定特徵的方法:特徵在演示中變異小則指定良好,變異大則指定不足。
站內正文

VideoOdyssey:超長上下文與全模態影片理解基準

VideoOdyssey是一個專為超長時間上下文和全模態影片理解設計的基準,平均影片時長109分鐘,覆蓋11個領域54個子類別,透過連續證書長度衡量認知負荷,並設有5個粒度級別。評估表明當前多模態大模型在持續推理、細粒度感知和非語言全模態理解方面存在瓶頸。

  • 引入連續證書長度概念,衡量模型在超長影片中的推理能力。
  • 包含視覺子集(VideoOdyssey-V)和音影片子集(VideoOdyssey-AV)。
站內正文

豪薩語和豐貝語文本與語音資源調查:NLP開發的可用性、質量與差距

本調查系統梳理了豪薩語(約8000萬-1億母語者)和豐貝語(貝南約200萬人使用)的公開文本與語音資源。研究發現豪薩語在新聞、百科和教育領域擁有更豐富的文本資源,而豐貝語儘管文本資源有限,但近年學術語音資料收集專案有所增長。兩種語言均被納入Masakhane基準測試。報告提出了任務特定建議,並指出了關鍵缺口,如豐貝語領域多樣化文本和豪薩語專用語音庫。

  • 豪薩語文本資源多樣性優於豐貝語,覆蓋新聞、百科和教育領域。
  • 豐貝語近年來在學術語音資料收集方面取得進展。
站內正文

讀出捷徑:位置數字複製主導小語言模型的算術思維鏈讀出

研究發現,小語言模型在進行算術推理時,思維鏈(CoT)提示的步驟順序並不重要,模型實際上是透過複製答案分隔符前的最後一個數字來得出答案,而非依賴邏輯推理。這種位置性捷徑佔模型準確率的絕大部分,且即使中間推理正確,錯誤的尾數也會導致答案錯誤。不同模型表現有差異,但該現象普遍存在,對基於CoT的監督方法提出了挑戰。

  • 小語言模型在算術任務中依賴位置性數字複製捷徑,而非邏輯推理步驟。
  • 複製機制佔模型準確率的89-92%,且優先於實際推理。
站內正文

StepFun釋出StepAudio 2.5 Realtime:端到端語音模型,具備角色扮演專用RLHF和副語言理解

上海AI實驗室StepFun釋出StepAudio 2.5 Realtime,一款端到端即時語音大語言模型,支援自定義角色。透過WebSocket API連線,支援中英文。在2026年4月的五項基準測試中均排名第一,人類評估得分80.41,副語言理解得分82.18。

  • StepAudio 2.5 Realtime是端到端即時語音LLM,支援自定義角色。
  • 採用百萬級角色資料增強和角色扮演專用RLHF,保持角色一致性。
站內正文

主題導航