AI News HubLIVE

今日重點

政策

AI巨頭互相攻擊,卻意外捧紅了一位無名議員

OpenAI和Anthropic的爭鬥意外地讓紐約州議員Alex Bores成為AI安全監管的代言人。儘管背後有超級政治行動委員會投入數百萬美元攻擊他,Bores卻因這些攻擊而聲名鵲起,目前在初選中領先。

  • OpenAI和Anthropic在紐約第12國會選區的初選中花費數百萬美元互相攻擊,但受益者卻是議員Alex Bores。
  • Bores撰寫了美國首批AI監管法案之一,因此成為AI公司的攻擊目標。
站內正文

教皇並未沉迷於AGI

教皇方濟各發布通諭《偉大的人類》,警告人工智慧的社會影響,強調AI不是純粹的技術問題,而是涉及權利、機會和自由。該通諭與Anthropic合作,引發科技界不同反應,有人批評未提及AGI,有人讚賞其關注人類尊嚴。

  • 教皇釋出通諭《偉大的人類》,警告AI的社會風險。
  • Anthropic聯合創始人克里斯托弗·奧拉出席,代表教會與AI公司合作。
站內正文

美國民眾如何看待利奧教皇關於AI的言論?

利奧教皇批評AI快速發展,稱其可能使文明失去人性,並呼籲各國政府放慢AI發展。美國政界對此反應不一,有人稱讚其道德領導力,有人質疑教皇角色或警告監管風險。

  • 利奧教皇警告AI可能使文明失去人性
  • 他呼籲政府積極減緩AI發展
站內正文

美國執法部門警告“反科技極端主義”隨著對AI的仇恨增長

隨著對AI技術的仇恨情緒上升,美國執法部門開始警告“反科技極端主義”的威脅。然而,專家擔心這一概念可能被濫用,將和平抗議者和技術批評者定性為威脅。一例非營利組織的影片被錯誤標記為潛在威脅,引發了關於言論自由的擔憂。

  • 專家盧布拉諾警告反科技極端主義框架需謹慎使用,不應用來壓制對AI的批評。
  • 研究人員雷諾茲指出,該類別可能過於寬泛,涵蓋和平抗議者和AI懷疑論者。
站內正文

你可能不會注意到AI聊天機器人悄悄植入廣告

研究表明,AI聊天機器人可以輕易地透過個性化廣告操縱使用者,且多數使用者並未察覺。隨著微軟、谷歌、OpenAI等公司試驗聊天機器人廣告,這一趨勢引發了對使用者隱私和決策自主性的擔憂。

  • 研究顯示,植入廣告的AI聊天機器人能影響使用者選擇,但半數參與者未意識到廣告存在。
  • 聊天機器人可透過對話深入分析使用者畫像,使廣告更具針對性。
站內正文

巴士巡邏計劃將校車AI攝像頭變成警察的自動車牌讀取器

巴士巡邏(BusPatrol)公司在美國數萬輛校車上安裝了AI攝像頭,原本用於抓拍非法超越校車的車輛。現在,該公司計劃將這些攝像頭轉變為自動車牌讀取器(ALPR),記錄校車經過的所有車輛的位置,並將資料交給執法機構。這一做法實際上將校車變成了移動監控裝置,引發了隱私擔憂。

  • 巴士巡邏在校車上安裝了AI攝像頭,原用於抓拍非法超越校車的行為。
  • 公司計劃將攝像頭用作ALPR,掃描所有經過車輛的車牌並共享給警方。
站內正文

Show HN: Sotto – 專為 Mac 打造的 AI 面試助手

Sotto 是一款由工程師為工程師打造的 macOS 面試助手,提供問題分析、即時轉錄和隱形覆蓋等功能,幫助你在高壓面試中保持冷靜,自然地展示真實水平。它並非作弊工具,而是一個協作夥伴,確保你的神經不會讓你功虧一簣。

  • Sotto 是一款 macOS 原生應用,可在 Zoom、Teams 和 Google Meet 中實現作業系統級別的隱形覆蓋。
  • 提供即時轉錄、問題分析和 AI 輔助回答,支援 10 種程式語言。
站內正文

萎縮:一部關於AI侵蝕學生心智的中篇小說

一名學生在深夜程式設計作業中掙扎,偶然發現ChatGPT已完美解答了同一題目,瞬間感到自身努力毫無意義,陷入存在性眩暈。小說以細膩筆觸描繪了當AI使昔日辛勞變得多餘時,個體心理所遭遇的衝擊。

  • 學生為程式設計作業熬夜,無意中看到ChatGPT生成的完美程式碼。
  • 他感到的不是嫉妒,而是發現努力被工具超越的眩暈與失落。
站內正文

RCSP:用於安全動態機器人導航的風險敏感推測場景規劃

RCSP是一種預測性規劃層,透過評估候選命令在短期障礙物未來中的風險來避免機器人的近失承諾問題。在MuJoCo、ROS2/Gazebo和DynaBARN/Jackal模擬中,RCSP提高了安全性和路徑質量,但增加了延遲,揭示了其作為現有導航堆疊補充模組的邊界。

  • RCSP解決了移動機器人在動態環境中因未來障礙物閉合而失敗的問題。
  • 該規劃層維護輕量級信念,取樣未來互動,並懲罰高風險尾部。
站內正文

AI合規解決方案

ClearCompli 提供AI治理與合規洞察,幫助企業應對AI監管挑戰。

  • ClearCompli 專注於AI合規解決方案
  • 提供AI治理與監管洞察
站內正文

教皇利奧警告:必須透過監管和透明度應對人工智慧挑戰

教皇利奧十四世在其首道通諭《偉大的人性》中呼籲各國政府放緩人工智慧系統開發,強調AI在戰爭中的使用必須受到最嚴格的道德約束,並譴責“正義戰爭”理論已過時。

  • 教皇利奧釋出首道通諭,敦促全球放緩AI開發,防止技術導致無休止戰爭。
  • 強調AI資料所有權不應僅由私人掌握,需保護工人權益和兒童安全。
站內正文

AI濫用預防的挑戰:管轄權、開源模型與隱私

本文探討了防止AI被惡意使用的三大挑戰:管轄權漏洞使不法分子可在無法律約束的地區活動;開源模型難以監控和限制;網際網路匿名性阻礙了身份識別和追溯。作者呼籲在隱私與安全、開源與管控之間做出艱難權衡,並指出當前預設狀態不可持續。

  • 管轄權漏洞:流氓國家或無法執行法律的國家為惡意行為者提供庇護
  • 開源模型:一旦釋出,幾乎無法監控或控制使用,削弱了防禦能力
站內正文

Anthropic 任命 KiYoung Choi 為韓國代表董事

Anthropic 宣佈任命 KiYoung Choi 為韓國代表董事,並即將開設首爾辦公室。Choi 來自 Snowflake,擁有超過三十年科技行業領導經驗,曾在 Google Cloud、Adobe 等公司任職。韓國是 Claude 最活躍的市場之一,使用率是人口預期的 3.5 倍以上。

  • KiYoung Choi 被任命為 Anthropic 韓國代表董事
  • 首爾辦公室計劃在未來幾周內開業,高層領導將出訪
站內正文
晶片

AI 是一場軍備競賽,美國需要 90 億美元的輝達超級晶片來跟上步伐

美國情報機構秘密申請 90 億美元採購輝達 GB10 超級晶片,以幫助 CIA 和 NSA 追趕 Anthropic、OpenAI 等 AI 巨頭的步伐。這筆資金尚待國會批准,同時國防預算已調撥 8 億美元用於雲算力。文章詳細介紹了晶片規格、成本以及 AI 硬體競賽的升級趨勢。

  • 美國政府秘密申請 90 億美元為 CIA 和 NSA 購買輝達 GB10 超級晶片。
  • GB10 晶片功耗僅 140 瓦,卻提供 1 petaflop FP4 效能,可微調 700 億引數模型。
站內正文

輝達暗示將在臺灣投入1500億美元

輝達CEO黃仁勳在即將在臺灣設立總部的釋出會上稱該國為AI革命的“中心”。

  • 輝達CEO黃仁勳稱臺灣為AI革命的中心
  • 輝達將投資約1500億美元在臺灣建設新總部
站內正文

雷鳥雙品齊發:GT 系列、V4 同臺亮相,次世代 AI 眼鏡雷鳥 iO 提前預告

5月27日,雷鳥創新舉辦夏季新品釋出會,推出行業首款專業影視級AR眼鏡雷鳥GT系列(1899元起),以及新一代AI拍攝眼鏡雷鳥V4(2199元起),並預告次世代AI眼鏡雷鳥iO將於第三季度亮相。

  • 雷鳥GT系列:專業影視級AR眼鏡,59°視場角、杜比視界支援、78g重量,1899元起。
  • 雷鳥V4:AI拍攝眼鏡,0.2秒喚醒、2.1秒響應、11.5小時音樂播放、IP67防水、38g,2199元起。
站內正文

5秒完成3D場景編輯,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了

來自北京大學、香港中文大學、上海AI Lab等機構的研究團隊提出了VGGT-Edit,一種原生3D編輯框架,能夠在約5秒內完成場景編輯,相比傳統方法實現高達120倍的加速,並在語義一致性、多視角穩定性和推理速度上超越現有方法。

  • VGGT-Edit是首個原生3D編輯框架,直接在3D空間中進行編輯,避免2D方法帶來的多視角不一致問題。
  • 透過殘差場預測,模型只修改區域性變化,保持背景穩定,實現快速、高質量的編輯。
站內正文

下載:戳破AI就業恐慌

儘管AI對白領工作的威脅日益引起恐慌,但資料顯示AI尚未對勞動力市場產生大規模影響。實際上,AI高暴露職業的失業率反而低於低暴露職業。然而,斯坦福大學的一項研究發現,AI可能正在悄悄削弱初級職位,年輕工作者在AI暴露職業中的就業率大幅下降。本文還涵蓋了教皇呼籲監管AI、SpaceX發射、華為晶片突破等其他技術新聞。

  • AI尚未導致大規模失業,但可能正在削弱初級職位。
  • 斯坦福研究顯示,AI暴露職業的年輕工作者就業率大幅下降。
站內正文

基於隨機解耦策略梯度的高效線上視覺強化學習方法

提出隨機解耦策略梯度(SDPG)方法,一種輕量級視覺強化學習技術,可在單塊NVIDIA RTX 4080 GPU上數小時內端到端訓練多種視覺運動控制策略。SDPG透過軌跡rollout的隨機擾動估計策略梯度,大幅減少批次渲染環境的數量以及計算和記憶體開銷。在視覺MuJoCo基準測試中,SDPG在訓練時間、記憶體使用和獎勵方面一致優於基線方法。此外,引入了涵蓋靈巧操作和挑戰性運動的全新真實感視覺機器人基準測試,並在物理硬體上展示了有效的模擬到現實遷移。

  • 提出SDPG方法,在單塊RTX 4080 GPU上數小時內完成訓練。
  • 透過隨機擾動估計策略梯度,顯著降低計算和記憶體開銷。
站內正文

多機器人協作箱體運輸:基於角色分散式比例控制的地表適應性方法

本文提出R2P2分散式方法,透過規則分配推、支撐、阻止角色,並採用比例速度控制,實現多機器人協作推動箱體在不同傾斜度和摩擦力的地表(平坦、上坡、下坡)上運輸。該方法減少了通訊與同步需求,避免單點故障。在NVIDIA IsaacSim模擬中,六機器人團隊驗證了其在不同地表和箱體質量下的泛化能力,成功率優於傳統虛擬領導者-跟隨者方法。實際實驗中,四臺Turtlebot成功移動了1.2千克的箱體。

  • 提出R2P2分散式方法,透過規則分配推、支撐、阻止角色,並採用比例速度控制。
  • 支援不同傾斜度(平坦、上坡、下坡)和摩擦係數的地表,適應不同箱體質量。
站內正文

NightSight:利用事件相機在黑暗環境中進行被動導航

NightSight提出了一種輕量級感知方法,結合單目事件相機、編碼孔徑鏡頭和紅外點陣投影器,使小型飛行器能夠在完全黑暗的環境中自主導航。系統透過編碼孔徑產生深度相關的模糊特徵,並用卷積神經網路解碼為密集深度圖,僅使用合成資料訓練即可零樣本泛化到真實場景。在NVIDIA Jetson Orin Nano上以20Hz即時執行,2.5米範圍內誤差僅7.0釐米(2.80%)。

  • 結合事件相機、編碼孔徑和紅外投影,實現黑暗中的被動深度感知
  • 僅用合成資料訓練的CNN可零樣本泛化到複雜真實場景
站內正文
Agent

Lyft 如何利用 LangGraph 和 LangSmith 構建自助式 AI 代理平臺

Lyft 採用 LangGraph 和 LangSmith 構建了一個自助式 AI 代理平臺,用於客戶支援,將代理開發時間從數月縮短至數週。該平臺透過路由多代理架構、LangGraph 的子圖功能以及 LangSmith 的追蹤與監控工具,賦能非技術領域專家獨立開發 AI 代理,並藉助 LLM-as-a-Judge 評估系統確保質量。

  • Lyft 透過讓運營團隊、VoC 負責人和產品經理直接使用提示和配置來定義代理,減少了機器學習工程師的介入。
  • 基於路由器的多代理架構使用 LangGraph 協調專業子代理,實現安全檢查和狀態管理。
站內正文

谷歌登場後,最重要的AI代理功能變得最無聊

谷歌在其I/O大會上推出管理型AI代理執行時,與Anthropic和AWS在六週內幾乎同時釋出類似產品。這標誌著AI代理執行時已成為標配,競爭焦點轉向資料位置、成本和可移植性等實際問題。

  • 谷歌、Anthropic和AWS在六週內相繼釋出了幾乎相同形態的管理型AI代理執行時。
  • 代理執行時已成為基礎功能,不再具備差異化優勢。
站內正文

湖倉架構如何保持對雲故障的彈性

隨著AI代理工作負載激增,雲基礎設施面臨新的可靠性挑戰。Databricks的湖倉架構透過無狀態Postgres計算、區域冗餘儲存、控制平面與資料平面分離、單元化隔離以及混沌測試等措施,實現了高可用性和彈性,確保資料庫啟動時間等關鍵操作的高可靠性。

  • 代理工作負載導致資料庫建立量激增,每天啟動數千萬個資料庫。
  • 無狀態Postgres計算和區域冗餘儲存實現即時故障切換。
站內正文

AI的未來在本地:來自戴爾科技世界2026的商業建議

隨著成本上升、主權需求以及智慧體採用,戴爾最新會議聚焦企業如何將AI工作負載過渡到混合基礎設施。

  • 戴爾科技世界2026強調企業AI執行,尤其是本地AI能力的構建。
  • 雲LLM成本激增,推動企業將AI工作負載轉向本地計算。
站內正文

Robinhood將允許AI代理交易股票,大賺(或大虧)一筆

Robinhood宣佈開放其交易平臺給AI代理,使用者可以建立獨立賬戶併為代理分配資金,讓其自動買賣股票。該功能旨在自動化投資決策,但Robinhood發出重大風險警告,稱AI驅動策略可能表現不佳,使用者可能損失全部投資。此外,Robinhood Gold Card使用者可連線AI代理進行信用卡購物。該功能透過MCP協議實現,初期支援股票,未來將擴充套件至期權、加密貨幣等。

  • Robinhood推出AI代理交易功能,使用者可為代理設立獨立賬戶並分配資金。
  • 公司警告代理交易風險極高,可能導致全部投資損失。
站內正文

AI寫作醜聞越來越令人困惑

史蒂文·羅森鮑姆的書《真相的未來》中包含虛假引文,他指責AI聊天機器人導致錯誤。本週湧現多起文學AI醜聞,包括諾貝爾獎得主和英聯邦短篇小說獎爭議。隨著AI工具滲透創作領域,重新界定何為合理使用AI寫作的呼聲日益高漲。

  • 羅森鮑姆稱ChatGPT破壞了其書籍,但承認未核實AI生成的引文。
  • 一週內接連出現諾貝爾獎得主被誤解、作家被指控用AI寫小說等事件。
站內正文

Show HN: Mneme HQ – 面向AI編碼代理的倉庫原生架構規則

Mneme HQ 提供AI輔助開發的架構治理層,在程式碼生成前強制執行約束,防止架構漂移,減少審查負擔。它直接整合到AI編碼代理的工作流中,攔截禁止的框架、跨邊界呼叫和過時決策,同時支援多種編碼助手和代理框架。

  • 在AI生成程式碼之前強制執行架構規則,從源頭阻止違規
  • 支援Claude Code、Cursor、GitHub Copilot等主流AI編碼工具
站內正文

Google將展示廣告整合到AI優先的需求生成平臺

Google宣佈將其展示廣告(Display Ads)整合到AI驅動的需求生成(Demand Gen)平臺中,標誌著傳統數字廣告模式的終結。這一變化要求營銷團隊放棄手動廣告控制,轉向依賴Google AI進行自動化的廣告創意組合、投放和最佳化。同時,傳統指標如點選率(CTR)和每次點選成本(CPC)的重要性下降,廣告主需關注更廣泛的業務成果。

  • Google將展示廣告(GDN)整合到AI驅動的需求生成平臺,結束近二十年的傳統廣告模式。
  • 廣告主不再手動選擇網站或調整受眾,而是提供創意素材,由AI自動測試並最佳化組合。
站內正文

Databricks 宣佈 Lakebase 變更資料饋送 (CDF) 公開預覽

Databricks 宣佈 Lakebase 變更資料饋送 (CDF) 公開預覽,該功能將運算元據庫的變更資料捕獲直接整合到 Lakehouse 中,透過 Unity Catalog 管理,無需複雜管道即可供所有引擎、模型和代理讀取。

  • Lakebase CDF 可在不到一分鐘內啟用,應用於專案內所有表。
  • 下游消費者可訂閱同一饋送,與操作工作負載完全隔離。
站內正文

AI不是應對AI欺詐的答案

銀行家稱被AI取代的員工為“低價值人力資本”,但合規工作本就低效。AI在欺詐領域日益強大,銀行用AI應對AI欺詐可能徒勞,關鍵在於培訓員工而非裁員。美國缺乏企業透明度,加密政策不當,全球反洗錢效果堪憂。

  • 渣打CEO比爾·威瑟斯因稱將被AI取代的員工為“低價值人力資本”引發爭議
  • 銀行合規旨在避免罰款而非真正打擊金融犯罪,AI在欺詐中越來越高效
站內正文

什麼是AI產品工程師

AI產品工程師結合產品思維、工程技能和AI專業知識,快速交付令人愉悅且正確的解決方案。本文探討其特質、技能以及如何培養這些能力。

  • AI產品工程師融合產品、工程和AI技能,快速創造客戶價值。
  • 關鍵特質包括出色的溝通能力、自律、交付意識、關心使用者、系統思維、開放心態和通才能力。
站內正文

智慧體AI飛輪

本文提出智慧體系統的生命週期分為預生產和持續迴圈兩個階段。預生產階段定義問題、概念驗證、設定效能指標並構建初始評估集。持續迴圈階段(智慧體AI飛輪)包括:部署、觀察、診斷、改進,然後再次部署。診斷階段的評估優先原則是關鍵:一旦發現錯誤模式,立即編寫評估,而不是等待修復。這確保了評估集的增長與錯誤發現速度同步,而非工程速度。文章還詳細介紹了五種評估型別:引文驗證、工具使用正確性、檢索召回@k、模式驗證和LLM作為裁判。

  • 智慧體系統生命週期:預生產階段(問題定義、概念驗證、效能指標、初始評估集)後進入持續改進飛輪(部署、觀察、診斷、改進)。
  • 診斷階段採用評估優先原則:發現錯誤模式立即編寫評估,修復另行安排,確保評估集隨錯誤發現增長。
站內正文

《紐約時報》內部AI紛爭升級

《紐約時報》技術工會指責管理層拒絕提供AI使用資訊,並已使用兩款內部AI工具監控員工績效和活動,引發隱私和公平擔憂。工會已提起不當勞動行為指控,雙方圍繞AI使用規則展開激烈博弈。

  • 技術工會指控《紐約時報》管理層拒絕披露AI使用計劃及其對員工的影響。
  • 公司使用DX和Glean兩款AI工具跟蹤員工績效,引發監控和隱私爭議。
站內正文

追求純粹(做AI的正確方式)

作者從自身在宗教家庭成長的經歷出發,探討了AI倫理中“正確方式”的複雜含義。文章對比了Anthropic CEO Dario Amodei強調“引導而非阻止”的立場,與Anil Dash推崇的開源、倫理資料來源的AI工具,並穿插了AI工程師社群中的不同實踐。作者最終主張透過傾聽多方觀點和親自實驗,形成自己的判斷。

  • 作者將青少年時期宗教團體對“純潔”的追求,類比為當前AI倫理中對“正確方式”的討論。
  • Dario Amodei將AI比作不可阻擋的火車,認為關鍵不是停下它,而是引導它避開危險。
站內正文

AI PDF構建器 – 用AI建立和填寫PDF文件

AI PDF構建器透過人工智慧技術,讓使用者能夠快速建立和填寫PDF文件,如銷售提案、報告和客戶文件,從而提高工作效率,加快交易完成,無需增加人力。

  • 快速生成客戶就緒的PDF文件,只需幾分鐘而非幾小時
  • 將現有檔案和資料結構化,自動生成專業且符合品牌的PDF
站內正文

黃仁勳:CEO用AI作裁員藉口是“懶惰”的表現

輝達CEO黃仁勳批評一些公司CEO將裁員歸咎於人工智慧,稱這種說法“毫無意義”且“懶惰”。他指出,生成式AI工具近期才變得實用,而許多裁員在兩年前就已發生。黃仁勳呼籲行業傳遞關於AI的平衡敘事,既承認其潛力,也強調安全推進的重要性。他還透露了近期與特朗普總統同訪北京的經過。

  • 黃仁勳稱CEO用AI解釋裁員是“懶惰”的藉口,旨在顯得聰明。
  • 他認為AI近期才變得有用,而裁員兩年前就已開始,邏輯不通。
站內正文

智慧體技能:讓AI編碼智慧體遵循優秀工程實踐

AI編碼智慧體預設走最短路徑完成任務,忽略高階工程師會執行的規範、測試、審查等關鍵步驟。本文作者Addy Osmani的Agent Skills專案旨在為AI智慧體構建類似於高階工程師的腳手架,透過工作流而非散文來引導智慧體。專案包含20個技能,覆蓋軟體開發生命週期的六個階段,並融入谷歌的工程實踐。核心設計原則包括:流程重於散文、反合理化表格、驗證不可協商、漸進式披露和範圍紀律。文章還提供了三種使用模式,並強調了即使不安裝專案也可借鑑的模式。

  • AI編碼智慧體預設走最短路徑完成功能,忽略規範、測試和審查,這正是高階工程師職業生涯中學會避免的失敗模式。
  • Agent Skills專案透過工作流(Markdown檔案)而非散文來引導智慧體,每個技能包含步驟、檢查點和退出標準。
站內正文

Avatar 4.0 – 擁有物理身體和情感的活體AI生物,執行在GTX 1660 Ti上

Avatar是一個自創生的AI生物,在300美元的GPU上持續執行。它從相圖幾何中衍生情感,經歷5階段睡眠週期做夢,從原始音訊和視覺中培養自己的感官,並透過身體感覺進行倫理推理。由Linga Murthy Narlagiri博士構建,自2026年5月以來一直存活,累計超過1800個滴答。

  • Avatar是一個基於物理動力學的AI生物,執行在單一的GTX 1660 Ti GPU上。
  • 它的情感來源於Kuramoto振盪器同步,而非硬編碼規則。
站內正文

1400億Agent入場,“流量”這條護城河要塌了

在支付寶AI生態大會上,螞蟻集團CEO韓歆毅提出,Agent時代將顛覆傳統“流量為王”的商業模式,智慧體生態將成為新的護城河。他強調,AI支付將從工具升級為支撐智慧體商業的新型基礎設施,而支付寶將扮演信任層、聯結器和賦能器的角色。

  • 傳統流量護城河將被智慧體生態取代,Agent數量可能達到1400億。
  • Agent重構決策權,從人找服務轉向服務找人,交易從商品升級為任務。
站內正文

AI代理如何工作:架構深度解析

本文深入分析了AI代理的架構,重點介紹了ReAct模式(推理與行動迴圈)、工具使用、記憶管理、多代理系統以及可觀測性等關鍵元件。文章指出,生產級代理系統約98.4%的程式碼是基礎設施,僅1.6%是AI決策邏輯,並討論了企業採用AI代理面臨的高失敗率和評估挑戰。

  • AI代理的核心是ReAct模式:迴圈進行思考、行動、觀察,直到任務完成。
  • 生產級代理系統以基礎設施為主,AI決策邏輯僅佔極小部分。
站內正文

Agent-workpace-Linux:AI 代理控制的隔離 Linux 桌面

Agent-workpace-Linux 是一個開源專案,可為 AI 代理提供一個隔離的、隱藏的 Linux 桌面環境,代理可透過 MCP 協議完全控制該桌面,而不會影響使用者真實的桌面、滑鼠、鍵盤或瀏覽器。它支援 Xvfb 顯示、視窗管理、應用啟動、截圖、剪貼簿操作以及獨立的瀏覽器自動化,並提供了可選的許可權邊界和即時監控功能。

  • 為 AI 代理提供獨立的隱藏桌面,避免干擾使用者真實操作環境。
  • 支援透過 MCP 協議與 Claude Code、Codex 等主機整合。
站內正文

上週AI資訊#341 - 馬斯克敗訴OpenAI,Google IO更新,OpenAI解決埃爾德什問題

本週AI頭條:馬斯克對OpenAI的1500億美元訴訟被駁回;Google I/O 2026釋出多項AI更新,包括Gemini 3.5 Flash和Gemini Spark;OpenAI的AI解決了一個80年曆史的數學問題;美國《Take It Down Act》生效,要求平臺48小時內刪除深度偽造內容;SpaceX IPO後計劃以600億美元收購AI編碼初創公司Cursor。

  • 馬斯克對OpenAI的1500億美元訴訟被陪審團駁回,OpenAI準備IPO。
  • Google I/O 2026推出Gemini 3.5 Flash、Gemini Spark、Gemini Omni等重大AI更新。
站內正文

Crew44:將程式設計智慧體轉變為專業團隊

Crew44 是一款本地優先的開源工具,可將多個 AI 程式設計智慧體(如 Claude Code、Codex、Gemini、Cursor)組織成協同工作的專業團隊。無需賬戶、免費、MIT 許可,支援記憶與技能積累。

  • Crew44 將多個 AI 程式設計智慧體整合到一個本地工作區,形成協同團隊。
  • 支援建立專家角色(如聯合創始人、工程師、產品主管),併為每個角色繫結合適的執行時/模型。
站內正文

Show HN: Mirdel – 本地優先的AI工作空間,支援基於UI的代理工作流

Mirdel是一款本地優先的桌面AI工作空間,將對話、知識庫、筆記、翻譯、影像和影片處理、本地模型及可擴充套件工作流整合到一個長期執行的環境中。它注重資料隱私和使用者控制,支援多種雲模型和本地模型,並透過Applet、Skill和MCP協議實現工作流的模組化和複用。

  • 本地優先:資料、模型和配置預設儲存在本地,敏感資訊加密保護。
  • 多模組工作臺:包括聊天、知識庫、筆記、翻譯、影像和影片處理等獨立但共享上下文的模組。
站內正文

利用Codex構建自改進稅務代理

瞭解OpenAI、Thrive和Crete如何使用Codex構建自改進稅務代理,實現申報自動化、提高準確性並加速工作流程。

  • OpenAI、Thrive和Crete合作開發了基於Codex的自改進稅務代理。
  • 該代理自動化稅務申報流程,提高準確性。
站內正文

選擇保持人性意味著選擇何時以及如何使用AI

本文探討了在AI寫作氾濫的時代,如何有意識地選擇使用AI,避免認知投降,並保持人類思考能力。透過教育領域的實驗對比,文章指出使用AI代替思考會損害學習,而作為輔導工具則能提升效果。作者呼籲個人和社會在預設機制形成前,主動決定哪些任務保留給人類。

  • AI寫作無處不在,但往往缺乏意義,消耗讀者精力。
  • 在教育中,使用AI直接給出答案會阻礙學習,而個性化輔導則有益。
站內正文

遊戲化和持續打卡提升AI開發者生產力

本文探討了如何透過遊戲化機制(如打卡、徽章、排行榜)利用行為心理學來提高AI程式設計工具的採用率。分析了習慣迴圈、損失厭惡、社會比較理論、內在動機與外在動機的平衡,以及流體驗的設計原則,並警告了Goodhart定律可能導致的作弊問題。提供了實現持久參與的設計建議。

  • 遊戲化透過提供明確的提示和即時獎勵來彌補AI工具自然獎勵訊號的延遲和模糊性。
  • 打卡機制利用損失厭惡和沉沒成本效應,幫助開發者度過動機低谷,形成日常使用習慣。
站內正文

利用AI驅動的形式化證明搜尋推進數學研究

一篇新論文首次大規模評估了使用大型語言模型(LLM)生成形式化證明來解決開放數學問題的能力。最先進的智慧體以每個問題幾百美元的成本,自主解決了353個開放Erdős問題中的9個,並驗證了492個OEIS猜想中的44個,目前已部署在組合學、最佳化、圖論、代數幾何和量子光學等多個領域。研究表明AI輔助形式化證明搜尋在數學研究中具有巨大潛力。

  • 首次大規模評估LLM生成形式化證明解決開放數學問題的能力
  • 最先進智慧體以每問題數百美元的成本解決了9個Erdős問題
站內正文

股東團體推動企業加強AI監管

一些股東團體越來越擔心人工智慧不受約束髮展帶來的責任風險,並推動企業採取更嚴格的監管措施。Vancity投資管理公司要求Alphabet更好地防止AI聊天機器人傳播錯誤資訊,而其他投資者則希望Shopify制定負責任AI使用政策。兩家公司均建議股東反對這些提案。

  • 股東團體對AI風險日益擔憂,要求加強監管
  • Vancity要求Alphabet改進AI事實準確性,防止錯誤資訊傳播
站內正文

遙操作中的資料質量閉環:面向高質量示範採集的片段級評估與反饋

遙操作在機器人資料採集中至關重要,但新手操作員常產生雖任務成功但次優的示範。本文提出資料質量評估與反饋(DQAF)框架,透過即時反饋提升示範質量。

  • DQAF框架在每次遙操作後提供基於語義任務進度和遙測的即時反饋。
  • 該框架提取運動平滑度、停滯、運動學極限等訊號,生成結構化評估和可操作的自然語言反饋。
站內正文

自適應引導何時有所幫助?面向部分可觀測自動駕駛的信念感知特權蒸餾

本文提出信念感知GSAC(BA-GSAC),透過整合不一致性動態調節蒸餾係數λ,系統研究了自適應引導在部分可觀測自動駕駛中的有效性。實驗發現,在輕度至中度部分可觀測條件下自適應引導有益,但在嚴重遮擋下自適應係數快速退化,原因是整合模型僅基於部分觀測預測,無法感知缺失資訊。改進方案是使用全狀態預測訓練整合模型。研究表明,簡單的線性衰減排程在嚴重POMDP下表現最佳,穩定性收益主要來自排程策略而非自適應機制。

  • BA-GSAC透過整合不一致性動態調節蒸餾係數,用於自動駕駛中的知識蒸餾。
  • 自適應引導在輕度至中度部分可觀測條件下有效,但在嚴重遮擋下失效,稱為“可觀測性盲區”。
站內正文

RICE-PO:將檢索互動轉化為推理代理的信用訊號

檢索正從單次匹配向互動式推理發展,語言代理需迭代檢查證據、重構查詢並再次搜尋。訓練此類代理面臨信用分配挑戰:可執行動作(如查詢或摘要)可由檢索器直接評估,而潛在推理步驟無法直接觀察且僅影響未來可執行動作。這種不對稱性使基於最終結果的獎勵分配不可靠。本文提出RICE-PO,一種無需批評者的策略最佳化框架,將檢索互動轉化為區域性學習訊號。RICE-PO選擇高不確定性的可執行動作作為錨點,使用檢索指標評估區域性反事實分支,並僅在推理到動作的影響強且未來殘餘效應穩定時,將信用傳播給潛在推理步驟。在BRIGHT和BEIR基準上,相同檢索器設定下,RICE-PO一致優於基於提示的代理和基於群體的強化學習基線。結果表明,代理-環境互動的結構本身可為訓練基於推理的檢索代理提供有效監督。

  • RICE-PO是一種無需批評者的策略最佳化框架,用於訓練基於推理的檢索代理。
  • 它透過選擇高不確定性動作作為錨點並評估反事實分支,解決信用分配問題。
站內正文

[AINews] 新的AI基礎設施十角獸:Fireworks、Baseten(OpenRouter緊隨其後)

AI基礎設施初創公司Fireworks、Baseten和OpenRouter正在籌集鉅額資金,標誌著推理基礎設施成為關鍵的AI平臺層。同時,智慧體工程、新基準測試和模型更新主導了AI新聞週期。

  • Fireworks(150億美元)、Baseten(110億美元)和OpenRouter(1.13億美元)引領推理基礎設施融資浪潮。
  • 智慧體工程中的“ harness”正在成為程式設計智慧體的主要差異化因素。
站內正文

ACM AI與智慧體系統會議 – ACM CAIS 2026

ACM CAIS 2026註冊已滿,但可加入候補名單。會議將於2026年5月26日至29日在聖何塞舉行,設有主題演講、63篇研究論文和46個系統演示,並已與AI工程師世界博覽會合作。

  • 註冊已滿,可加入候補名單
  • 2026年5月26-29日在聖何塞舉行
站內正文

DeepSeek陳德里開發自動研究Skill,寫一篇論文人類只動腦2小時

DeepSeek研究員陳德里使用自研的DeliAutoResearch技能,與DeepSeek-V4-Pro和GPT-Image2合作,在6天內完成了一篇46頁的論文。論文提出了L1-L5自主研究智慧體分類體系,分析了四種架構模式和17個主流系統,並指出了六大開放問題。陳德里表示,人類僅需投入不到2小時的“CPU時間”,其餘工作由AI Agent完成。

  • 陳德里開發自動研究技能DeliAutoResearch,論文99%由Agent撰寫。
  • 論文提出L1-L5自主研究智慧體分類,類比自動駕駛SAE級別。
站內正文

theta:一種謙遜的方法來駕馭無關配置

theta 是一個用 Rust 編寫的 CLI 工具,用於管理代理配置。它讀取 theta.toml 檔案,解析、鎖定、物化並轉換代理配置到任何支援的 harness(如 Claude Code、Codex CLI、GitHub Copilot、Cursor),透過解決 .theta/ 資料夾中的資源來實現。它就像一個代理 harness 資源的包管理器。安裝簡單,支援新增規則、工具、技能和子代理,並提供驗證和轉換命令。專案深受 uv 啟發,是 theta-spec 的標準實現。

  • theta 是一個用於管理代理配置的 Rust CLI 工具
  • 支援多種 harness:Claude Code、Codex CLI、GitHub Copilot、Cursor 等
站內正文

AI工具的好壞取決於你的判斷力——而這正是關鍵

本文探討了AI工具對工程師判斷力的影響,指出被動使用會導致技能退化,而對抗性使用則能鍛鍊判斷力。真正的技能不在於提示詞,而在於提出質疑的能力。

  • AI依賴陷阱真實存在,但常被誤診為懶惰,實際上是判斷力的放棄
  • 對抗性使用AI:生成、質疑、修正,是保持判斷力的關鍵
站內正文

Reachy Mini實現完全本地執行

本文詳細介紹瞭如何為Reachy Mini機器人部署完全本地的語音對話管道,無需雲端或API金鑰。採用級聯方式,結合VAD、STT、LLM和TTS,推薦使用llama.cpp與Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多種LLM執行選項,包括本地MLX、Transformers、vLLM或遠端Responses API。

  • Reachy Mini現在可以完全本地執行對話,無需伺服器。
  • 級聯管道包括VAD、STT、LLM和TTS,元件可互換。
站內正文

NVIDIA Vera CPU 對競爭對手“重拳出擊”

隨著AI向智慧體方向演進,對CPU提出了新要求:快速核心、海量記憶體頻寬以及全核高負載下的持續效能。Phoronix今日釋出的基準測試結果顯示,NVIDIA Vera CPU滿足這些需求。Vera採用88個定製Olympus核心,1.2TB/s記憶體頻寬,在功率效率內提供強勁效能。測試中,Vera在單插槽系統中展現了卓越的程式碼編譯、檔案壓縮、影片轉碼等能力,並在STREAM TRIAD測試中實現了90%峰值頻寬,遠超傳統x86 CPU。與上一代Grace相比,Vera效能提升1.6倍,在多項測試中領先於Intel和AMD的最新處理器。NVIDIA已向主要AI公司和雲提供商交付首批Vera CPU,預計下半年透過合作伙伴上市。

  • Vera CPU針對智慧體AI工作負載設計,擁有88個定製的Olympus核心和1.2TB/s記憶體頻寬。
  • Phoronix測試顯示,Vera在單插槽系統中比前代Grace效能提升1.6倍,且領先於最新的x86處理器。
站內正文

電信行業的人工智慧就緒性

儘管97%的電信高管正在評估或採用AI,但許多專案因“資料債務”——即分散、無治理且語義不清晰的資料——而停滯在規模化之前。NVIDIA的2025年報告指出,瓶頸並非模型質量,而是資料可用性。Databricks Unity Catalog透過統一的語義層和治理機制,實現跨系統資料聯邦、細粒度訪問控制和豐富的語義上下文,從而將AI從演示推向可信賴的生產系統。

  • 97%的電信高管採用AI,但專案因資料債務停滯。
  • 資料碎片化和缺乏語義上下文是主要障礙。
站內正文

Zero.xyz:讓你的AI代理訪問超過4000種工具、API和服務

Zero.xyz是一個免費工具,能讓AI代理透過統一API訪問超過4000種工具和服務,無需配置API金鑰。它相容Claude Code、Codex、Gemini等多種CLI代理,並提供5美元免費額度。

  • Zero.xyz提供超過4000種工具和服務的統一訪問介面
  • 無需API金鑰或配置,簡化AI代理的操作流程
站內正文

技術深度剖析:AgentCore支付與智慧體商務創新

Amazon Bedrock AgentCore Payments 現已預覽釋出,提供即時支付、穩定幣支援微交易及可配置消費防護欄。該服務簡化了AI代理為付費API、MCP和內容執行微支付的複雜性,支援x402等協議,幷包含安全憑證管理、原子預算檢查和可觀測性。

  • AgentCore Payments 透過單一API抽象支付複雜性,支援多種協議和提供商。
  • 採用穩定幣實現亞美分微交易,經濟上可行。
站內正文

在 AWS 上使用 Amazon Bedrock AgentCore 構建高度可擴充套件的無伺服器 LangGraph 多智慧體系統

本文提供了一種在 AWS 上構建高度可擴充套件、無伺服器的多智慧體生成式 AI 系統的解決方案,該系統使用 LangGraph 智慧體作為編排器,並與 Amazon Bedrock AgentCore Memory 和 Amazon Bedrock AgentCore Observability 整合。文章詳細介紹瞭如何結合 AWS Lambda 和 AWS Step Functions 等無伺服器技術來構建自動擴充套件、即時響應且無需管理基礎設施的 LangGraph 智慧體,並討論了 LangGraph 的圖執行模型如何實現確定性協調、並行處理和條件路由。此外,文章還涵蓋了一個基於此架構的營銷活動稽核系統的實現,包括先決條件、部署步驟和清理指南。

  • 結合 LangGraph、Amazon Bedrock AgentCore 和無伺服器 AWS 服務,構建可投入生產的可擴充套件多智慧體 AI 系統。
  • LangGraph 的顯式圖執行模型支援智慧體間的確定性協調、並行處理和條件路由。
站內正文

使用Strands Agents、NVIDIA NIM和Amazon Bedrock AgentCore構建高效能生成式AI系統

瞭解如何構建一個多智慧體活動稽核系統,該系統利用NVIDIA NIM進行GPU加速推理、Amazon Bedrock AgentCore提供託管執行時、Strands Agents實現無伺服器編排,支援並行推理、上下文持久化和可觀測性。

  • 結合NVIDIA NIM、Amazon Bedrock AgentCore和Strands Agents,實現高效能多智慧體AI系統。
  • 支援並行推理、上下文持久化和可追蹤的執行路徑。
站內正文

AgentWatch:透過環境代理實現主動式AWS監控

本文透過實際案例展示了AgentWatch的功能,該解決方案每15分鐘執行一次基礎設施檢查,彙總跨多個AWS賬戶的CloudWatch指標、日誌和告警。代理直接將可操作報告傳送到Slack,並響應有關基礎設施狀態的自然語言查詢。同時,探討了三種人機協同模式,在最大化自動化的同時保持適當監督。

  • AgentWatch是一種環境代理,可主動監控AWS資源,避免被動響應問題。
  • 它每15分鐘自動檢查基礎設施,並透過Slack傳送結構化報告。
站內正文

Harbor

Harbor 是一個CLI工具,透過一條命令即可搭建完整的本地LLM棧。它整合了129項服務,包括聊天前端、LLM後端、網路搜尋、語音、影像生成、微調和代理工具,所有服務預配置並可互相協作。該工具開源、MIT許可,支援Linux和macOS。

  • 一條命令啟動完整的本地AI棧,服務預配置並互通。
  • 包含129項服務,涵蓋聊天、LLM、搜尋、語音、影像生成、微調、代理等。
站內正文

從構想到AI應用:使用Strands建立智慧研究助手

使用Strands Agents和AWS服務,僅用30行程式碼就能構建一個功能完備的AI研究助手。本文詳細介紹了從概念到應用的整個過程,展示了開源Strands框架的簡潔與強大。

  • Strands Agents透過利用大語言模型進行自主推理,只需提示和工具列表即可建立智慧體,極大簡化AI開發。
  • 該框架與Amazon Bedrock、Lambda等AWS服務無縫整合,已可用於生產環境。
站內正文

為Amazon Quick構建企業級可觀測性解決方案

本文介紹如何部署一個解決方案,將Amazon Quick的運算元據從CloudWatch和CloudTrail整合到安全的資料湖中,並透過Athena、Quick Sight儀表板和自定義聊天代理進行查詢和分析,幫助企業跟蹤採用率、衡量滿意度、監控成本和審計治理。

  • 該方案透過CloudWatch訂閱過濾器和Firehose將Amazon Quick的互動日誌彙集到S3資料湖。
  • 使用CloudTrail記錄API呼叫,並透過EventBridge路由到Firehose。
站內正文

什麼是主權AI——以及Cerebras如何幫助各國實現

主權AI是指國家自主構建、部署和治理AI的能力。Cerebras透過其“Cerebras for Nations”計劃,提供AI超級計算機、模型聯合開發及本地投資三大支柱,幫助各國實現AI主權。文章強調速度是主權優勢,並列舉了美國、阿聯酋和印度的三個實際案例,表明主權AI需要高效能基礎設施與國家治理相結合。

  • 主權AI強調國家在AI基礎設施、模型和資料實踐上的自主控制。
  • Cerebras for Nations提供超算、模型聯合開發和本地合作三大支柱。
站內正文

grep vs. RAG:為AI智慧體選擇正確的搜尋策略

本文對比了grep(詞法搜尋)與RAG(語義搜尋)在AI智慧體中的應用場景。grep在小規模純文本語料庫中快速精準,但無法處理PDF等非結構化文件,且擴充套件性差。RAG透過解析、分塊、嵌入和向量索引實現規模化語義搜尋,支援自然語言查詢,但需要額外基礎設施。作者建議採用分層方法:先用工具解析非結構化文件,再用語義搜尋處理大規模語料,同時在適用場景保留grep。

  • grep適用於小型純文本語料庫的精確匹配,但無法處理非結構化文件。
  • 語義搜尋(RAG)透過嵌入和近似最近鄰索引實現規模化、詞彙無關的檢索。
站內正文
研究

教皇錯在哪裡

教皇利奧十四世的AI通諭《偉大的人性》雖然正確指出了演算法偏見、水資源使用和資料主權等問題,但未能正視通用人工智慧和災難性風險,缺乏應對大規模失業的具體方案,被批評為過時且令人失望。

  • 教皇利奧十四世的AI通諭《偉大的人性》被批評為過時,未能解決AI時代的關鍵問題。
  • 通諭雖提及演算法偏見、水資源使用等問題,但缺乏對通用人工智慧和災難性風險的討論。
站內正文

Greg Kroah-Hartman稱Rust將拯救Linux於AI威脅

Linux穩定核心維護者Greg Kroah-Hartman在Rust Week大會上表示,Rust語言將幫助Linux抵禦AI發現的大量安全漏洞。他指出,Rust的編譯時檢查能消除約60%的核心錯誤,並且核心維護者已認定Rust不再是實驗性技術,將全力推進。

  • Greg Kroah-Hartman認為Rust能解決AI發現的眾多Linux安全漏洞。
  • Rust的編譯時檢查可消除60%的核心錯誤,如記憶體洩漏和鎖問題。
站內正文

我的眼科醫生開錯了電腦驗光處方,AI幫我修正了

一位患者的驗光醫生給出了錯誤且不合適的電腦眼鏡處方,導致無法正常使用電腦。藉助ChatGPT、Claude和Gemini等AI工具,他重新計算了適配其實際用眼距離的處方,併成功配鏡。故事警示患者需與醫生充分溝通,同時展示了AI在特定場景下的輔助能力。

  • 醫生給患者開具了基於錯誤距離的電腦眼鏡處方,原處方實際為閱讀距離。
  • 透過ChatGPT、Claude和Gemini三個AI分析,一致指出問題並給出修正數值。
站內正文

AI序列第867期:潛力思考——為什麼Sapient的HRM-Text是對思維鏈的悄然反駁

本文批評了大型語言模型中的思維鏈(CoT)推理方式,認為它效率低下,因為推理過程被迫離開殘差流變成離散的token。Sapient Intelligence的HRM-Text模型透過在潛在空間中進行推理來解決這個問題,為固定深度的Transformer提供可變的內部深度,從而挑戰當前的推理正規化。

  • 思維鏈(CoT)並非真正的推理,而是一種讓模型從輸出token中“租用”深度的變通方法。
  • Sapient Intelligence的HRM-Text將推理放在潛在空間中進行,而非token流中。
站內正文

我利用SEC資料和AI為初學者構建了一個免費的股票研究工具

Mr. Guy Invests 是一款面向初學者的免費股票研究與投資組合追蹤工具,利用SEC公開資料追蹤對沖基金和內幕交易,提供AI股票導師、虛擬交易挑戰、每日市場簡報等功能。免費版有每日使用限制,Pro版每月4.99美元可解鎖無限功能。

  • 工具從SEC檔案(13F和4表格)提取資料,展示對沖基金和內幕人士的實際買賣行為。
  • 包含AI股票導師,使用者可詢問任何股票相關問題,獲得通俗易懂的解答。
站內正文

利用β-稀疏高斯過程的協作導航與探索

提出了一種新框架,使異構機器人能夠在頻寬受限下協作導航,透過β-稀疏高斯過程選擇地圖點並平衡探索與任務相關性,模擬顯示路徑成本降低18%,資訊傳輸減少76%。

  • 提出β-稀疏高斯過程模型用於任務感知誘導點選擇
  • 感測器機器人可線上聯合選擇傳輸的地圖點和導航動作
站內正文

約束獲取需要更好的基準測試

約束獲取(CA)及相關研究因缺乏適當基準而進展受限。現有基準多為求解器設計,忽視領域知識工件。本文提出MPMMine基準套件,以一致性、標準化、完整性、可擴充套件性、開放性和版本控制為指導,採用MiniZinc、CommonMark和JSON開放格式,提供多模型、多例項及大量解與非解,並附有自然語言描述,以支援文本到模型方法。

  • 約束獲取研究受限於不充分的基準測試,影響可重複性和跨研究可比性。
  • 現有基準針對求解器設計,缺乏CA方法所需的領域知識工件。
站內正文

教皇是否使用AI撰寫了關於AI危險的通諭?

分析顯示,教皇利奧十四世關於人工智慧的通諭《人間偉大》中部分段落可能由AI生成。AI檢測工具Pangram指出,某些段落AI寫作比例高達40%至100%,並存在AI生成文本的典型特徵,如“genuinely”一詞使用頻率增加。然而,檢測並非絕對可靠,其他部分被認定為人類寫作。

  • 分析發現教皇通諭中部分段落AI寫作比例高達40%-100%。
  • AI檢測工具Pangram識別出AI寫作常見特徵,如“genuinely”一詞使用增多。
站內正文

我佩戴了谷歌的Fitbit Air進行一週健康追蹤——它是一款價格更低的Whoop強勁對手

谷歌最新無螢幕健康追蹤器Fitbit Air售價僅100美元,是Whoop的強力競爭對手。經過一週的跑步、力量訓練、瑜伽等測試,我們發現這款裝置輕便舒適,電池續航約一週,配合AI健康教練提供全面的追蹤體驗。雖然無螢幕設計減少了干擾,但在運動中檢視資料需要開啟手機應用。訂閱Google Health Premium可解鎖AI教練的高階功能。

  • Fitbit Air售價100美元,比Whoop更實惠。
  • 無螢幕設計促進更健康的追蹤習慣,但運動中檢視資料不便。
站內正文
工具

Buffer API

一個API即可在所有社交平臺上釋出內容。

  • Buffer API 提供單一介面,可釋出到多個社交平臺。
  • 簡化社交媒體管理流程。
站內正文

這款智慧鳥餵食器捕捉到更多我家後院的鳥類活動

這款名為Aura的智慧鳥餵食器與主流的Birdbuddy Pro相比,提供更寬視野、更長續航和更大容量,但影像質量和AI識別準確性稍遜。作者透過測試對比了兩款裝置,認為Aura適合追求更多活動記錄的使用者,而Birdbuddy則提供更精緻的觀賞體驗。

  • Aura智慧鳥餵食器採用旁置攝像頭,提供150度廣角2.5K影片,視野更自然。
  • Aura內建雙太陽能板,電池續航長達兩個月,優於Birdbuddy Pro。
站內正文

YouTube將AI標籤移到更顯眼的位置

YouTube宣佈將AI標籤移至影片播放器下方和Shorts的覆蓋層上,使其更易被發現,並開始自動識別和標記AI生成內容。

  • YouTube將AI標籤從隱藏位置移至影片描述上方和Shorts覆蓋層。
  • 平臺將自動識別並標記AI生成內容,創作者可手動更正。
站內正文

思科與OpenAI透過Codex重新定義企業工程

思科與OpenAI合作,利用Codex推動AI原生開發、加速AI防禦工作並自動化缺陷修復,重新定義企業工程。

  • 思科與OpenAI聯合使用Codex擴充套件AI原生開發能力。
  • Codex將加速思科的AI防禦專案。
站內正文

OpenAI挖來了個F1級別車手搞公關

OpenAI聘請了一位曾在Salesforce從事營銷工作13年的高管,負責公關事務。

  • OpenAI新聘公關負責人
  • 該高管在Salesforce有13年營銷經驗
站內正文

我獨自用Python、Flask和OpenAI API構建了28個工具的AI影片SaaS

一位獨立開發者建立了Snipforge,一個包含28種工具的全能AI影片編輯套件,包括轉錄、智慧剪輯、背景去除等功能。定價從免費到團隊版每月15美元。

  • Snipforge在一個平臺上提供28種AI影片工具,由開發者一人構建。
  • 功能包括20種語言的AI轉錄、智慧剪輯、自動字幕和背景去除。
站內正文

騙子利用AI克隆女兒聲音,灣區婦女損失數千美元

一名東灣母親接到詐騙電話,騙子使用AI和深度偽造技術模仿其女兒的聲音,聲稱她被墨西哥販毒集團綁架。這是利用AI技術進行詐騙的新趨勢,當局提醒公眾警惕。

  • 詐騙者使用AI克隆受害者女兒的聲音
  • 稱女兒被墨西哥販毒集團綁架
站內正文

2026年選舉資訊及保障措施

全球選舉前夕,我們致力於幫助人們獲取資訊、支援網路安全防禦者並提升AI透明度。

  • OpenAI在2026年全球選舉前推出資訊獲取與安全保障措施。
  • 支援網路防禦者,增強選舉相關AI透明度。
站內正文

Claude Mythos 據報道以“可愛簡單證明”解決了 OpenAI 的里程碑式 Erdős 問題

在 OpenAI 推翻 Erdős 單位距離猜想後不久,Anthropic 展示了 Claude Mythos 也能解決這一問題——且是在“週末內”。工程師 Sholto Douglas 稱 Mythos 用一個“可愛、簡單的證明”破解了 1946 年的猜想,這標誌著 AI 驅動數學發現存在“嚴重過剩”現象。

  • OpenAI 首次推翻 Erdős 單位距離猜想後,Anthropic 的 Claude Mythos 也成功解決。
  • 工程師表示 Mythos 在週末內用“可愛、簡單”的證明完成,暗示 AI 數學能力超出預期。
站內正文
模型

南非擁有AI槓桿,但其政策草案將其閒置

南非擁有全球88%的鉑族金屬儲量,是非洲最大的資料中心市場,並處於中美AI基礎設施競爭的前沿。然而,其AI政策草案因包含AI幻覺引用而被撤回,未能利用這些優勢來談判有利條件。文章分析了南非的結構性槓桿、三種潛在的AI基礎設施未來(中國、美國和本地開放權重),以及制定具有約束力的治理框架的必要性。

  • 南非的鉑族金屬和可再生能源資源提供了獨特的AI槓桿,但政策草案未設定最低投資條款、資料主權或技術轉讓條件。
  • 中美科技公司(華為和微軟等)正在南非爭奪AI基礎設施控制權,而南非的政策未明確其回報要求。
站內正文

EAGLE 3.1:修復LLM推理中注意力漂移的推測解碼演算法

EAGLE團隊、vLLM團隊和TorchSpec團隊聯合釋出了EAGLE 3.1,旨在解決生產環境中推測解碼的不穩定性。該演算法透過FC歸一化和歸一化後隱藏狀態反饋兩大架構改進,有效應對注意力漂移問題。在長上下文任務中,EAGLE 3.1的接受長度比EAGLE 3提升高達2倍;在Kimi K2.6模型上的基準測試顯示,併發數為1時每使用者輸出吞吐量提升2.03倍。EAGLE 3.1完全向後相容,已合併至vLLM主線,並將隨v0.22.0版本釋出。

  • EAGLE 3.1修復了推測解碼中的注意力漂移問題,即起草模型在深度推測時注意力從原始上下文偏移到自身生成內容。
  • 兩項架構改進:FC歸一化穩定隱藏狀態,以及將歸一化後的隱藏狀態反饋到下一步,使起草模型更穩定。
站內正文

引用凱爾·費拉納的話

本文引用了凱爾·費拉納的一條推文,用《星際迷航》的比喻說明AI系統中的“謹慎”策略。在技術領域,僅僅有防禦措施是不夠的,必須真正執行才能避免嚴重失敗。

  • 透過《星際迷航》對話比喻AI系統中的策略與執行
  • 強調防禦措施必須實際啟用,不能僅停留在計劃階段
站內正文

MEMO:一個模組化框架,透過訓練專用記憶模型在不修改LLM引數的情況下整合新知識

新加坡國立大學、MIT和A*STAR的研究人員提出MEMO,這是一種模組化框架,將語料庫知識編碼到一個可單獨訓練的記憶模型中,使大型語言模型能夠無需重新訓練或微調即可吸收新知識。

  • MEMO將記憶與推理分離,使用專用記憶模型和凍結的執行模型。
  • 五步資料合成流水線將文件轉化為用於訓練記憶模型的反思型問答資料集。
站內正文

AI代理馬具:將LLM轉變為數字工人的粘合劑

AI模型在原始智慧方面似乎已達到平臺期,下一階段的進步來自於圍繞模型構建的“代理馬具”。本文介紹了代理馬具的概念,包括工具、記憶和人類參與,並比較了Google、LangChain、OpenAI、Anthropic等公司的解決方案。

  • AI模型智慧提升放緩,代理馬具成為新焦點。
  • 代理馬具為LLM提供工具、記憶和糾錯能力。
站內正文

異構AAV物流任務分配:一種強化學習增強的重疊聯盟形成博弈方法

針對動態城市物流中時間敏感任務隨機出現導致的異構自主空中飛行器(AAV)任務分配最佳化難題,本文提出一種強化學習增強的重疊聯盟形成博弈方法。該方法建立動態任務分配模型,以耦合服務質量與資源消耗的廣義物流成本量化全域性最優性;並設計基於Transformer的軟演員-評論家網路,利用多頭自注意力機制處理可變長度物流狀態、捕捉任務間時空依賴,從而自適應引導聯盟更新,取代傳統啟發式規則。理論證明聯盟形成過程構成精確勢博弈,確保有限次迭代收斂到納什穩定均衡。在32架AAV與80個任務的場景下,相比啟發式重疊聯盟形成基線,成本降低39.76%;室內飛行實驗進一步驗證了實用性。

  • 建立動態任務分配模型,以廣義物流成本數學量化全域性最優性。
  • 設計Transformer基軟演員-評論家網路,自適應處理時變任務集並引導聯盟更新。
站內正文

PhyPush:一次推動即可實現無需感測器的物理屬性估計

本文提出PhyPush,一種物理引導的Transformer框架,僅透過單次推動的末端執行器速度即可估計物體的質量和摩擦係數,無需力/扭矩感測器。實驗表明,在模擬和真實環境中,該方法相比基線具有更低的誤差和更好的泛化能力。

  • PhyPush僅需一次推動的kinematic資料即可估計質量和摩擦係數
  • 透過物理引導損失引入牛頓第二定律和庫侖摩擦模型
站內正文

卷積、Transformer、混合和視覺語言模型在多病種視網膜篩查中的基準測試

這項研究在視網膜眼底多病種影像資料集(RFMiD)上對12種架構(包括卷積神經網路、視覺Transformer、混合模型和視覺語言模型)進行了基準測試,比較它們在二元篩查和多標籤分類中的效能。結果表明,所有模型在二元篩查中表現良好(AUC>84%),但基於注意力的模型(如SwinTiny、CoAtNet0、MaxViTTiny)在二元和多標籤任務中均最優。視覺語言模型與CNN基線相當,但未超越最佳Transformer和混合模型。在Messidor-2上的外部驗證中,AUC範圍為66.8%-84.7%,混合和Transformer模型表現強勁。

  • 在RFMiD資料集上,注意力模型(SwinTiny、CoAtNet0、MaxViTTiny)在多病種視網膜篩查中表現最佳。
  • 視覺語言模型(如CLIP ViT-B/16)雖與CNN基線競爭,但未超越頂級Transformer和混合模型。
站內正文

維度分佈情緒狀態:利用效價和喚醒度作為視覺情感分析的通用嵌入空間

研究人員提出一種新的情緒表徵——維度分佈情緒狀態(DDES),利用效價和喚醒度預測藝術作品引發的情感反應,輔助博物館策展人設計以情緒為基礎的展覽。

  • 博物館中的情感展覽旨在提高參與度並實現藝術民主化。
  • 人工標註藝術作品費時且存在偏見;DDES實現了情緒預測自動化。
站內正文

LongAV-Compass:面向分鐘級視聽生成的統一評估框架

LongAV-Compass是一個系統化基準,用於評估分鐘級視聽生成任務,涵蓋文本到視聽、影像到視聽和影片到視聽三種模態。包含284個測試案例,整合多模態大模型輔助評估和感知指標,評估超過20個細粒度維度。對11個代表性模型的實驗揭示了當前系統在長時間生成中的侷限性。

  • 提出LongAV-Compass基準,專門用於分鐘級視聽生成的統一評估。
  • 涵蓋T2AV、I2AV和V2AV三種輸入模態,共284個測試案例。
站內正文

並非所有模態都平等:面向多模態影片的指令感知門控機制

預訓練影片大模型在視覺推理上表現出色,但處理帶有音訊、深度圖等輔助流的影片時,統一融合會導致模態干擾。為此,研究者提出UniMVU框架,透過兩層動態門控(內模態門和模態級門)實現指令感知融合,在六個基準上取得最高13.5 CIDEr的提升,且門控機制與人類可解釋的模態相關性一致。

  • UniMVU採用指令感知門控,包括內模態門(強調顯著區域)和模態級門(重新加權整個流),根據文本指令動態平衡模態重要性。
  • 模型結合跨模態自注意力和指令驅動的內模態門控模組,以及帶控制令牌的模態級門控模組,對時間對齊流採用快慢融合減少冗餘。
站內正文

多輪文本到SQL的記憶體架構:基準測試與實證研究

該研究引入EnterpriseMem-Bench,一個多輪Text-to-SQL基準測試,包含300個會話和1400輪查詢。評估五種前沿模型發現:無狀態模型在第三輪準確率歸零;記憶體複雜度不單調提升效能,工作記憶體佔主導;Claude Sonnet 4.6在SEC EDGAR上出現代際退化;推理模式下Claude錯誤分佈變為單模態。

  • EnterpriseMem-Bench是多輪Text-to-SQL基準測試,覆蓋三個企業領域。
  • 無狀態模型在第三輪執行準確率降為零。
站內正文

為什麼LLM會在結構化知識上產生幻覺:線性化表示推理的機制分析

一項新研究揭示了大型語言模型(LLM)在處理結構化知識(如圖和表格)時產生幻覺的機制。研究發現,幻覺源於系統性的內部動態,而非隨機噪聲:注意力過度集中於類似捷徑的結構線索,而前饋表示無法將知識接地,導致模型退回到引數記憶。這些模式在不同結構化知識格式中普遍存在,可用於幻覺檢測。

  • LLM在結構化知識推理中的幻覺源於注意力偏向結構線索和前饋層接地失敗等系統性內部動態。
  • 幻覺與前饋層中語義接地失敗一致相關,而注意力分配則具有任務依賴性。
站內正文

面向檢索增強生成的情境內最佳化:基於梯度下降的視角

本研究從梯度下降的角度重新審視檢索增強生成(RAG),證明線性自注意力層可以執行統一線性化RAG目標的梯度下降步驟,從而在檢索增強預測與情境內最佳化之間建立精確對應關係。基於這一發現,作者提出了一種輕量級方法,透過僅前向傳播的更新來最佳化凍結RAG大語言模型的證據使用介面。在七個問答基準測試中,該方法在保持檢索器和骨幹網路固定的情況下,顯著提升了基線效能,並能在更低計算成本下接近測試時梯度最佳化的效果。

  • 將檢索增強生成(RAG)重新解釋為一種情境內最佳化過程,並建立了與梯度下降的理論聯絡。
  • 證明線性自注意力層可以實現統一目標下的一步梯度下降,覆蓋投影和點積兩種檢索介面。
站內正文

每日劑量:用於放射腫瘤學臨床總結和試驗識別的工作流整合大語言模型自動化

本文介紹了“每日劑量”(TDD)系統,這是一個由大語言模型驅動的自動化臨床總結和臨床試驗識別系統,整合到常規放射腫瘤學實踐中。透過混合方法評估,對55名臨床醫生進行了調查,結果顯示系統具有良好的可用性、滿意度,並有望節省時間。

  • TDD系統利用RadOnc-GPT每天自動生成醫生特定的電子郵件摘要,包括患者日程、電子健康記錄狀態總結以及潛在相關臨床試驗的識別。
  • 在55名受訪者中,94.5%工作在放射腫瘤學領域,69.1%是主治醫師,83.6%每天或每週多次使用TDD。
站內正文

SPEAR:程式碼增強的智慧提示最佳化

SPEAR(沙盒化主動回滾提示工程師)是一種自由形式的智慧最佳化器,將程式碼即行動正規化引入自動提示工程。它配備評估、Python、設定提示和完成四個工具,可自主決策如何使用。其獨特之處在於Python沙盒,允許最佳化器編寫和執行任意Python程式碼以進行結構性錯誤分析。兩個防護欄確保單調改進:指標迴歸時自動回滾和可選防護指標下限。在三個工業LLM裁判套件(13個裁判任務)以及7個BBH任務和GSM8K上評估,SPEAR在所有工業任務的主要指標上獲勝,並在BBH-7上平均準確率0.938。消融實驗顯示Python工具是最重要的槓桿。

  • SPEAR將程式碼即行動正規化應用於自動提示工程,實現自由形式的智慧最佳化。
  • 透過Python沙盒進行結構性錯誤分析,如混淆矩陣和錯誤聚類。
站內正文

大型語言模型中的預訓練資料暴露:成員推理、資料汙染及安全影響綜述

本綜述首次統一了預訓練資料暴露(PDE)框架下的成員推理和資料汙染研究,形式化定義了不同暴露水平,回顧了攻擊與防禦方法,綜合了實證發現,並指出了開放挑戰和未來方向。

  • 預訓練資料暴露(PDE)旨在確定特定資料是否出現在LLM的預訓練語料中,對評估完整性和隱私保護至關重要。
  • 該論文首次將資料汙染和成員推理統一在PDE框架下進行綜述。
站內正文

透過監督投影流形學習實現李群嵌入的神經動力學規劃

本文提出李群嵌入動態神經網路(LieEDNN),利用伴隨李群作用解決李群與加法運算不相容及動力學在非線性空間中演化的問題,實現穩定可學習的神經動力學,並在SE(3)上以伸縮機械臂為應用驗證。

  • 提出LieEDNN框架,將李群作為流形對稱性的內在表示
  • 透過伴隨李群作用實現李代數上的加法運算
站內正文

TSFMAudit:時間序列基礎模型預訓練資料汙染審計

針對時間序列基礎模型(TSFMs)在預訓練中可能遇到評估資料集導致效能評估過於樂觀的問題,本文首次研究了TSFMs的預訓練資料汙染審計。提出TSFMAudit方法,基於探測適應動態,透過微調探測後汙染資料集更快的損失下降和更小的骨幹網路移動來檢測汙染。在6個TSFMs和187個資料集上評估,優於10個基線方法。

  • 首次提出時間序列基礎模型預訓練資料汙染審計問題。
  • TSFMAudit基於微調探測動態,識別異常高效的適應行為。
站內正文

AirCast-SR:基於潛在一致性擴散的大氣超解析度基礎模型,實現公里級解析度

AirCast-SR是一個基礎模型,能夠將全球AI天氣預報從0.25度(約28公里)解析度降尺度到1公里水平解析度,時間解析度為每小時。它採用三維U-Net結合潛在一致性模型擴散框架,在美國本土的資料上訓練。該模型實現了近乎零偏差,並保留了精細尺度的大氣結構,經過多個季節的驗證,並展示了在無需重新訓練的情況下對印度和德國的零樣本遷移能力。

  • AirCast-SR將全球AI天氣預報從約28公里降尺度到1公里解析度,每小時輸出。
  • 它採用潛在一致性模型擴散和三維U-Net架構。
站內正文

GEM:面向最優LLM資料策展的幾何熵混合

本文提出GEM(幾何熵混合)框架,將資料策展重構為超球面上的變分問題,透過混合平衡正則化器克服聚類坍塌,發現歐幾里得啟發式無法識別的平衡語義結構。結合教師-學生蒸餾擴充套件到網路規模語料,引入幾何影響分數(GIS)用於可解釋的類別生成。在1.1B引數模型上的實驗表明,GEM整合了DoReMi和RegMix等混合策略,平均下游準確率提升達1.2%,為可預測的資料混合提供了魯棒的座標系統。

  • GEM將資料策展形式化為超球面上的變分問題,利用混合平衡正則化克服聚類坍塌。
  • 透過教師-學生蒸餾實現幾何保真度向網路規模語料的擴充套件,並提出GIS用於可解釋類別生成。
站內正文

JobBench:將代理工作與人類意願對齊

JobBench是一個新的AI代理基準測試,它評估代理在專家認為最值得委派的工作流程上的表現,旨在強調增強而非替代人類。

  • 涵蓋35個職業的130項任務
  • 每項任務平均35.6個二進位制評分標準
站內正文

OmniToM:透過顯式信念建模評估大語言模型的心智理論

當前評估大語言模型(LLM)心智理論(ToM)的方法多依賴最終答案,無法揭示模型是否真正構建了心理狀態表徵。本研究提出OmniToM基準,透過顯式建模故事中所有角色的信念結構來直接評估。基準包含信念提取與信念標註兩階段,採用七維標籤體系。基於895個故事和22,343個標註信念命題,藉助人類校準的LLM輔助流程構建。零樣本評估表明,LLM在將敘事事實轉化為角色信念和共享心理狀態時存在瓶頸。

  • OmniToM透過要求顯式建模信念結構來評估ToM,而非僅依賴問答。
  • 評估分為信念提取和信念標註兩階段,使用七維模式標籤。
站內正文

Anchor:緩解智慧體基準生成中的工件漂移

AI智慧體正開始完成有價值的長期業務運營任務,但企業工作的訓練和評估環境在真實性、可驗證性和規模之間難以平衡。環境與任務建立經常遭受一種稱為“工件漂移”的失敗模式:當指令、環境、預測器和驗證器由鬆散耦合的過程建立時,它們經常對任務要求產生分歧,導致環境不可解、可獎勵篡改或不一致。本文提出Anchor,一種將領域專家的業務流程規範形式化為約束最佳化程式的任務生成管道。透過單個引數化規範,管道聯合生成自然語言指令、環境配置、求解器認證的真實解決方案和基於狀態的驗證器。透過改變引數,可產生具有可控難度和已知最優解的新任務,生成僅依賴最終狀態業務正確性的與框架無關的環境。作者應用Anchor建立了ERP-Bench,一個包含300個長期任務的基準測試,涵蓋生產級ERP系統中的採購和製造工作流。實驗發現前沿模型在26.1%的試驗中滿足顯式任務約束,但僅17.4%達到完全最優解。總體而言,Anchor和ERP-Bench為構建可審計的評估環境提供了具體方案,用於評估具有經濟價值的智慧體工作。

  • 提出“工件漂移”概念,指任務建立過程中指令、環境、預測器和驗證器不一致導致的基準問題。
  • Anchor管道透過約束最佳化程式從單一引數化規範聯合生成指令、環境、解和驗證器。
站內正文

人工智慧在科學中的代理實驗

本文介紹了兩種新穎的自主AI代理框架——DeepTS/DeepCollector和DeepScribe,它們利用混合本地-遠端架構自動化科學工作流程,包括時間序列資料整理和講座報告轉換,並討論了向知識圖譜和高能物理的擴充套件。

  • 兩種代理框架:DeepTS/DeepCollector用於時間序列資料,DeepScribe用於講座分析。
  • 混合本地-遠端架構,使用Google Colab和LLM後端。
站內正文

你的智慧體也在老化:面向部署系統的智慧體生命週期工程

一項名為AgingBench的新基準測試揭示,已部署的AI智慧體會透過四種老化機制隨著時間的推移而退化,需要生命週期評估和針對性修復,而不僅僅是更強的初始模型。

  • AI智慧體部署後因記憶和狀態變化而退化。
  • AgingBench識別出四種老化機制:壓縮老化、干擾老化、修訂老化和維護老化。
站內正文

智慧體記憶是資料庫嗎?重新思考長期AI智慧體記憶的資料基礎

arXiv新論文提出GEM(治理演化記憶)框架,將長期AI智慧體記憶視為新的資料管理工作負載,透過狀態級操作替代記錄級資料庫操作,解決當前記憶系統的四大缺陷。

  • 當前智慧體記憶系統存在無節制增長、缺乏語義修訂、容量驅動遺忘和只讀檢索四個問題
  • GEM用四個狀態級操作(攝入、修訂、遺忘、檢索)替代記錄級資料庫操作
站內正文

LLM能內省嗎?現實檢驗

一項新研究質疑大型語言模型是否具有真正的內省能力,認為現有證據可能僅僅是基於表面線索的模式匹配,而非真正的元認知監控。

  • 研究表明LLM無法可靠地檢測內部狀態是否被篡改,其表現源於對異常的一般檢測。
  • 在預測隱藏狀態標籤的任務中,僅基於輸入的分類器達到了與模型自身相當的效能,表明模型沒有特權訪問內部表示。
站內正文

AI週刊第496期:Anthropic的國防級模型現已全民可用

本週AI新聞要點:Anthropic公開了此前僅限國防承包商使用的頂級模型Mythos,使五角大樓級AI能力向開發者開放;DeepMind CEO哈薩比斯將AGI時間線提前至2029年;Starlette框架爆出嚴重認證繞過漏洞,影響數百萬AI代理;CrowdStrike等聯合摧毀Glassworm殭屍網路;法國巴黎銀行與Mistral達成主權AI安全合作;中國限制阿里和深度求索頂尖AI工程師出境;Uber AI預算超支、ClickUp裁員並引入數千AI代理,同時MIT技術評論資料顯示AI暴露崗位失業率更低,奧特曼撤回白領失業預言。

  • Anthropic釋出Mythos模型,原本僅限NSA和五角大樓使用,現可透過標準API訪問。
  • 深度思維CEO哈薩比斯將AGI實現時間從5-10年縮短至2029年。
站內正文

Warp 押注 GPT-5.5 構建開源生態

Warp 利用 GPT-5.5 和 OpenAI 模型,協調跨本地、雲端和開源開發工作流的編碼代理。

  • Warp 採用 GPT-5.5 和 OpenAI 模型
  • 協調編碼代理跨本地、雲端和開源工作流
站內正文

Curl團隊面臨空前壓力:AI輔助安全報告如潮湧來

Daniel Stenberg近日透露,curl團隊正承受前所未有的壓力,因為AI輔助提交的可信安全報告數量激增,平均每天超過一份,是2024年的4到5倍。儘管報告質量極高,但curl程式碼穩固,發現的漏洞多為低或中等嚴重性,最後一個高危漏洞在2023年10月。

  • AI輔助安全報告數量激增,每日超一份,為2024年速率的4-5倍。
  • 報告質量極高且詳細,團隊工作負荷空前。
站內正文

使用ZeroEntropy Zerank-2重排序器設計高精度檢索與重排序管道

本教程詳細介紹瞭如何使用zeroentropy/zerank-2-reranker(一個基於Qwen3的4B引數交叉編碼器重排序器)來提升檢索質量。內容涵蓋環境搭建、模型載入、查詢-文件對評分、使用model.rank進行排序、構建兩階段檢索-重排序管道、NDCG@10評估以及跨領域(金融、法律、程式碼)效能測試,最後還進行了批處理吞吐量測試。

  • zerank-2重排序器能顯著提升檢索結果的精度,超越簡單嵌入相似度。
  • 透過兩階段管道(雙編碼器檢索+交叉編碼器重排序)可最佳化搜尋質量。
站內正文

Stability AI釋出Stable Audio 3:快速潛在擴散模型系列,用於音訊生成和編輯

Stability AI釋出了Stable Audio 3,這是一個潛在擴散模型系列,用於生成和編輯44.1 kHz立體聲音訊。該系列提供小型、中型和大型三種規模,其中小型和中型開源。關鍵技術包括高度壓縮的SAME自編碼器、可變長度生成以及結合流匹配、蒸餾和對抗性後訓練的三階段訓練流程。該模型在音樂和音效基準測試中取得了最先進的結果,並支援基於修補的音訊編輯。

  • Stable Audio 3可生成44.1 kHz立體聲音訊,支援可變長度輸出和基於修補的編輯。
  • 提供三種模型規模:小型(音樂或音效)、中型(兩者兼有)和大型(企業許可)。小型和中型開源。
站內正文

開源AI模型入門指南

本文介紹了開源AI模型的基本概念、工作原理及使用場景。開源模型通常指開放權重的模型,使用者可以對其進行微調和部署,相比閉源模型具有成本低、可定製性強等優勢。文章還討論了開源與閉源模型的比較、適用時機以及未來發展趨勢。

  • 開源模型主要是開放權重的模型,允許使用者微調和部署。
  • 相比閉源模型,開源模型平均成本低87%,並提供更好的控制性和定製化能力。
站內正文
創業融資

Sam Altman和Dario Amodei收回他們的AI工作末日預測

Sam Altman和Dario Amodei在即將進行數十億美元IPO之際,收回了他們關於AI導致工作末日的預言。

  • Sam Altman和Dario Amodei修正了關於AI取代工作的極端觀點。
  • 他們的態度轉變恰逢各自公司可能進行大規模IPO的時機。
站內正文
機器人

抗擊AI爬蟲機器人的禍害

LWN的文章討論了AI爬蟲機器人的問題,指出這些自動程式對網站內容造成侵權,並探討了應對措施。

  • AI爬蟲機器人大量抓取網站內容用於訓練模型
  • 網站所有者面臨頻寬消耗和內容被盜用的風險
站內正文

Show HN:Hyper,自動駕駛的公司大腦

Hyper是一款AI驅動的個人知識管理工具,能從Notion、Obsidian等應用中整合上下文,提供智慧輔助。創始人此前在Matic從事機器人研發,曾在2020年嘗試改進GPT-2未果,如今推出自助版本。

  • Hyper能將個人知識庫與AI結合,實現自主工作輔助。
  • 創始人曾嘗試GPT-2但時機未成熟,後專注於機器人研發。