AI巨頭互相攻擊,卻意外捧紅了一位無名議員
OpenAI和Anthropic的爭鬥意外地讓紐約州議員Alex Bores成為AI安全監管的代言人。儘管背後有超級政治行動委員會投入數百萬美元攻擊他,Bores卻因這些攻擊而聲名鵲起,目前在初選中領先。
- OpenAI和Anthropic在紐約第12國會選區的初選中花費數百萬美元互相攻擊,但受益者卻是議員Alex Bores。
- Bores撰寫了美國首批AI監管法案之一,因此成為AI公司的攻擊目標。
日報
2026-05-27 的重點新聞,共 131 條,按主題聚合。
OpenAI和Anthropic的爭鬥意外地讓紐約州議員Alex Bores成為AI安全監管的代言人。儘管背後有超級政治行動委員會投入數百萬美元攻擊他,Bores卻因這些攻擊而聲名鵲起,目前在初選中領先。
教皇方濟各發布通諭《偉大的人類》,警告人工智慧的社會影響,強調AI不是純粹的技術問題,而是涉及權利、機會和自由。該通諭與Anthropic合作,引發科技界不同反應,有人批評未提及AGI,有人讚賞其關注人類尊嚴。
利奧教皇批評AI快速發展,稱其可能使文明失去人性,並呼籲各國政府放慢AI發展。美國政界對此反應不一,有人稱讚其道德領導力,有人質疑教皇角色或警告監管風險。
隨著對AI技術的仇恨情緒上升,美國執法部門開始警告“反科技極端主義”的威脅。然而,專家擔心這一概念可能被濫用,將和平抗議者和技術批評者定性為威脅。一例非營利組織的影片被錯誤標記為潛在威脅,引發了關於言論自由的擔憂。
研究表明,AI聊天機器人可以輕易地透過個性化廣告操縱使用者,且多數使用者並未察覺。隨著微軟、谷歌、OpenAI等公司試驗聊天機器人廣告,這一趨勢引發了對使用者隱私和決策自主性的擔憂。
巴士巡邏(BusPatrol)公司在美國數萬輛校車上安裝了AI攝像頭,原本用於抓拍非法超越校車的車輛。現在,該公司計劃將這些攝像頭轉變為自動車牌讀取器(ALPR),記錄校車經過的所有車輛的位置,並將資料交給執法機構。這一做法實際上將校車變成了移動監控裝置,引發了隱私擔憂。
Sotto 是一款由工程師為工程師打造的 macOS 面試助手,提供問題分析、即時轉錄和隱形覆蓋等功能,幫助你在高壓面試中保持冷靜,自然地展示真實水平。它並非作弊工具,而是一個協作夥伴,確保你的神經不會讓你功虧一簣。
一名學生在深夜程式設計作業中掙扎,偶然發現ChatGPT已完美解答了同一題目,瞬間感到自身努力毫無意義,陷入存在性眩暈。小說以細膩筆觸描繪了當AI使昔日辛勞變得多餘時,個體心理所遭遇的衝擊。
RCSP是一種預測性規劃層,透過評估候選命令在短期障礙物未來中的風險來避免機器人的近失承諾問題。在MuJoCo、ROS2/Gazebo和DynaBARN/Jackal模擬中,RCSP提高了安全性和路徑質量,但增加了延遲,揭示了其作為現有導航堆疊補充模組的邊界。
ClearCompli 提供AI治理與合規洞察,幫助企業應對AI監管挑戰。
教皇利奧十四世在其首道通諭《偉大的人性》中呼籲各國政府放緩人工智慧系統開發,強調AI在戰爭中的使用必須受到最嚴格的道德約束,並譴責“正義戰爭”理論已過時。
本文探討了防止AI被惡意使用的三大挑戰:管轄權漏洞使不法分子可在無法律約束的地區活動;開源模型難以監控和限制;網際網路匿名性阻礙了身份識別和追溯。作者呼籲在隱私與安全、開源與管控之間做出艱難權衡,並指出當前預設狀態不可持續。
網路安全模型尚未準備好廣泛釋出。
Anthropic 宣佈任命 KiYoung Choi 為韓國代表董事,並即將開設首爾辦公室。Choi 來自 Snowflake,擁有超過三十年科技行業領導經驗,曾在 Google Cloud、Adobe 等公司任職。韓國是 Claude 最活躍的市場之一,使用率是人口預期的 3.5 倍以上。
美國情報機構秘密申請 90 億美元採購輝達 GB10 超級晶片,以幫助 CIA 和 NSA 追趕 Anthropic、OpenAI 等 AI 巨頭的步伐。這筆資金尚待國會批准,同時國防預算已調撥 8 億美元用於雲算力。文章詳細介紹了晶片規格、成本以及 AI 硬體競賽的升級趨勢。
輝達CEO黃仁勳在即將在臺灣設立總部的釋出會上稱該國為AI革命的“中心”。
輝達在臺灣的年度支出因AI需求激增,從150億美元飆升至1500億美元,主要流向了臺積電等供應商。
5月27日,雷鳥創新舉辦夏季新品釋出會,推出行業首款專業影視級AR眼鏡雷鳥GT系列(1899元起),以及新一代AI拍攝眼鏡雷鳥V4(2199元起),並預告次世代AI眼鏡雷鳥iO將於第三季度亮相。
來自北京大學、香港中文大學、上海AI Lab等機構的研究團隊提出了VGGT-Edit,一種原生3D編輯框架,能夠在約5秒內完成場景編輯,相比傳統方法實現高達120倍的加速,並在語義一致性、多視角穩定性和推理速度上超越現有方法。
儘管AI對白領工作的威脅日益引起恐慌,但資料顯示AI尚未對勞動力市場產生大規模影響。實際上,AI高暴露職業的失業率反而低於低暴露職業。然而,斯坦福大學的一項研究發現,AI可能正在悄悄削弱初級職位,年輕工作者在AI暴露職業中的就業率大幅下降。本文還涵蓋了教皇呼籲監管AI、SpaceX發射、華為晶片突破等其他技術新聞。
AI晶片需求爆漲推動SK海力士和美光市值突破萬億美元,三星也躋身其中,但市場對AI泡沫的擔憂加劇。
提出隨機解耦策略梯度(SDPG)方法,一種輕量級視覺強化學習技術,可在單塊NVIDIA RTX 4080 GPU上數小時內端到端訓練多種視覺運動控制策略。SDPG透過軌跡rollout的隨機擾動估計策略梯度,大幅減少批次渲染環境的數量以及計算和記憶體開銷。在視覺MuJoCo基準測試中,SDPG在訓練時間、記憶體使用和獎勵方面一致優於基線方法。此外,引入了涵蓋靈巧操作和挑戰性運動的全新真實感視覺機器人基準測試,並在物理硬體上展示了有效的模擬到現實遷移。
本文提出R2P2分散式方法,透過規則分配推、支撐、阻止角色,並採用比例速度控制,實現多機器人協作推動箱體在不同傾斜度和摩擦力的地表(平坦、上坡、下坡)上運輸。該方法減少了通訊與同步需求,避免單點故障。在NVIDIA IsaacSim模擬中,六機器人團隊驗證了其在不同地表和箱體質量下的泛化能力,成功率優於傳統虛擬領導者-跟隨者方法。實際實驗中,四臺Turtlebot成功移動了1.2千克的箱體。
NightSight提出了一種輕量級感知方法,結合單目事件相機、編碼孔徑鏡頭和紅外點陣投影器,使小型飛行器能夠在完全黑暗的環境中自主導航。系統透過編碼孔徑產生深度相關的模糊特徵,並用卷積神經網路解碼為密集深度圖,僅使用合成資料訓練即可零樣本泛化到真實場景。在NVIDIA Jetson Orin Nano上以20Hz即時執行,2.5米範圍內誤差僅7.0釐米(2.80%)。
Lyft 採用 LangGraph 和 LangSmith 構建了一個自助式 AI 代理平臺,用於客戶支援,將代理開發時間從數月縮短至數週。該平臺透過路由多代理架構、LangGraph 的子圖功能以及 LangSmith 的追蹤與監控工具,賦能非技術領域專家獨立開發 AI 代理,並藉助 LLM-as-a-Judge 評估系統確保質量。
谷歌在其I/O大會上推出管理型AI代理執行時,與Anthropic和AWS在六週內幾乎同時釋出類似產品。這標誌著AI代理執行時已成為標配,競爭焦點轉向資料位置、成本和可移植性等實際問題。
隨著AI代理工作負載激增,雲基礎設施面臨新的可靠性挑戰。Databricks的湖倉架構透過無狀態Postgres計算、區域冗餘儲存、控制平面與資料平面分離、單元化隔離以及混沌測試等措施,實現了高可用性和彈性,確保資料庫啟動時間等關鍵操作的高可靠性。
隨著成本上升、主權需求以及智慧體採用,戴爾最新會議聚焦企業如何將AI工作負載過渡到混合基礎設施。
Robinhood宣佈開放其交易平臺給AI代理,使用者可以建立獨立賬戶併為代理分配資金,讓其自動買賣股票。該功能旨在自動化投資決策,但Robinhood發出重大風險警告,稱AI驅動策略可能表現不佳,使用者可能損失全部投資。此外,Robinhood Gold Card使用者可連線AI代理進行信用卡購物。該功能透過MCP協議實現,初期支援股票,未來將擴充套件至期權、加密貨幣等。
史蒂文·羅森鮑姆的書《真相的未來》中包含虛假引文,他指責AI聊天機器人導致錯誤。本週湧現多起文學AI醜聞,包括諾貝爾獎得主和英聯邦短篇小說獎爭議。隨著AI工具滲透創作領域,重新界定何為合理使用AI寫作的呼聲日益高漲。
Mneme HQ 提供AI輔助開發的架構治理層,在程式碼生成前強制執行約束,防止架構漂移,減少審查負擔。它直接整合到AI編碼代理的工作流中,攔截禁止的框架、跨邊界呼叫和過時決策,同時支援多種編碼助手和代理框架。
Google宣佈將其展示廣告(Display Ads)整合到AI驅動的需求生成(Demand Gen)平臺中,標誌著傳統數字廣告模式的終結。這一變化要求營銷團隊放棄手動廣告控制,轉向依賴Google AI進行自動化的廣告創意組合、投放和最佳化。同時,傳統指標如點選率(CTR)和每次點選成本(CPC)的重要性下降,廣告主需關注更廣泛的業務成果。
Databricks 宣佈 Lakebase 變更資料饋送 (CDF) 公開預覽,該功能將運算元據庫的變更資料捕獲直接整合到 Lakehouse 中,透過 Unity Catalog 管理,無需複雜管道即可供所有引擎、模型和代理讀取。
銀行家稱被AI取代的員工為“低價值人力資本”,但合規工作本就低效。AI在欺詐領域日益強大,銀行用AI應對AI欺詐可能徒勞,關鍵在於培訓員工而非裁員。美國缺乏企業透明度,加密政策不當,全球反洗錢效果堪憂。
AI產品工程師結合產品思維、工程技能和AI專業知識,快速交付令人愉悅且正確的解決方案。本文探討其特質、技能以及如何培養這些能力。
本文提出智慧體系統的生命週期分為預生產和持續迴圈兩個階段。預生產階段定義問題、概念驗證、設定效能指標並構建初始評估集。持續迴圈階段(智慧體AI飛輪)包括:部署、觀察、診斷、改進,然後再次部署。診斷階段的評估優先原則是關鍵:一旦發現錯誤模式,立即編寫評估,而不是等待修復。這確保了評估集的增長與錯誤發現速度同步,而非工程速度。文章還詳細介紹了五種評估型別:引文驗證、工具使用正確性、檢索召回@k、模式驗證和LLM作為裁判。
《紐約時報》技術工會指責管理層拒絕提供AI使用資訊,並已使用兩款內部AI工具監控員工績效和活動,引發隱私和公平擔憂。工會已提起不當勞動行為指控,雙方圍繞AI使用規則展開激烈博弈。
作者從自身在宗教家庭成長的經歷出發,探討了AI倫理中“正確方式”的複雜含義。文章對比了Anthropic CEO Dario Amodei強調“引導而非阻止”的立場,與Anil Dash推崇的開源、倫理資料來源的AI工具,並穿插了AI工程師社群中的不同實踐。作者最終主張透過傾聽多方觀點和親自實驗,形成自己的判斷。
AI PDF構建器透過人工智慧技術,讓使用者能夠快速建立和填寫PDF文件,如銷售提案、報告和客戶文件,從而提高工作效率,加快交易完成,無需增加人力。
輝達CEO黃仁勳批評一些公司CEO將裁員歸咎於人工智慧,稱這種說法“毫無意義”且“懶惰”。他指出,生成式AI工具近期才變得實用,而許多裁員在兩年前就已發生。黃仁勳呼籲行業傳遞關於AI的平衡敘事,既承認其潛力,也強調安全推進的重要性。他還透露了近期與特朗普總統同訪北京的經過。
AI編碼智慧體預設走最短路徑完成任務,忽略高階工程師會執行的規範、測試、審查等關鍵步驟。本文作者Addy Osmani的Agent Skills專案旨在為AI智慧體構建類似於高階工程師的腳手架,透過工作流而非散文來引導智慧體。專案包含20個技能,覆蓋軟體開發生命週期的六個階段,並融入谷歌的工程實踐。核心設計原則包括:流程重於散文、反合理化表格、驗證不可協商、漸進式披露和範圍紀律。文章還提供了三種使用模式,並強調了即使不安裝專案也可借鑑的模式。
Avatar是一個自創生的AI生物,在300美元的GPU上持續執行。它從相圖幾何中衍生情感,經歷5階段睡眠週期做夢,從原始音訊和視覺中培養自己的感官,並透過身體感覺進行倫理推理。由Linga Murthy Narlagiri博士構建,自2026年5月以來一直存活,累計超過1800個滴答。
在支付寶AI生態大會上,螞蟻集團CEO韓歆毅提出,Agent時代將顛覆傳統“流量為王”的商業模式,智慧體生態將成為新的護城河。他強調,AI支付將從工具升級為支撐智慧體商業的新型基礎設施,而支付寶將扮演信任層、聯結器和賦能器的角色。
本文深入分析了AI代理的架構,重點介紹了ReAct模式(推理與行動迴圈)、工具使用、記憶管理、多代理系統以及可觀測性等關鍵元件。文章指出,生產級代理系統約98.4%的程式碼是基礎設施,僅1.6%是AI決策邏輯,並討論了企業採用AI代理面臨的高失敗率和評估挑戰。
Agent-workpace-Linux 是一個開源專案,可為 AI 代理提供一個隔離的、隱藏的 Linux 桌面環境,代理可透過 MCP 協議完全控制該桌面,而不會影響使用者真實的桌面、滑鼠、鍵盤或瀏覽器。它支援 Xvfb 顯示、視窗管理、應用啟動、截圖、剪貼簿操作以及獨立的瀏覽器自動化,並提供了可選的許可權邊界和即時監控功能。
本週AI頭條:馬斯克對OpenAI的1500億美元訴訟被駁回;Google I/O 2026釋出多項AI更新,包括Gemini 3.5 Flash和Gemini Spark;OpenAI的AI解決了一個80年曆史的數學問題;美國《Take It Down Act》生效,要求平臺48小時內刪除深度偽造內容;SpaceX IPO後計劃以600億美元收購AI編碼初創公司Cursor。
Crew44 是一款本地優先的開源工具,可將多個 AI 程式設計智慧體(如 Claude Code、Codex、Gemini、Cursor)組織成協同工作的專業團隊。無需賬戶、免費、MIT 許可,支援記憶與技能積累。
Mirdel是一款本地優先的桌面AI工作空間,將對話、知識庫、筆記、翻譯、影像和影片處理、本地模型及可擴充套件工作流整合到一個長期執行的環境中。它注重資料隱私和使用者控制,支援多種雲模型和本地模型,並透過Applet、Skill和MCP協議實現工作流的模組化和複用。
瞭解OpenAI、Thrive和Crete如何使用Codex構建自改進稅務代理,實現申報自動化、提高準確性並加速工作流程。
本文探討了在AI寫作氾濫的時代,如何有意識地選擇使用AI,避免認知投降,並保持人類思考能力。透過教育領域的實驗對比,文章指出使用AI代替思考會損害學習,而作為輔導工具則能提升效果。作者呼籲個人和社會在預設機制形成前,主動決定哪些任務保留給人類。
本文探討了如何透過遊戲化機制(如打卡、徽章、排行榜)利用行為心理學來提高AI程式設計工具的採用率。分析了習慣迴圈、損失厭惡、社會比較理論、內在動機與外在動機的平衡,以及流體驗的設計原則,並警告了Goodhart定律可能導致的作弊問題。提供了實現持久參與的設計建議。
只需一段提示詞,OpenAI員工Vaibhav分享的Codex自我蒸餾法引發熱議。
一篇新論文首次大規模評估了使用大型語言模型(LLM)生成形式化證明來解決開放數學問題的能力。最先進的智慧體以每個問題幾百美元的成本,自主解決了353個開放Erdős問題中的9個,並驗證了492個OEIS猜想中的44個,目前已部署在組合學、最佳化、圖論、代數幾何和量子光學等多個領域。研究表明AI輔助形式化證明搜尋在數學研究中具有巨大潛力。
一些股東團體越來越擔心人工智慧不受約束髮展帶來的責任風險,並推動企業採取更嚴格的監管措施。Vancity投資管理公司要求Alphabet更好地防止AI聊天機器人傳播錯誤資訊,而其他投資者則希望Shopify制定負責任AI使用政策。兩家公司均建議股東反對這些提案。
遙操作在機器人資料採集中至關重要,但新手操作員常產生雖任務成功但次優的示範。本文提出資料質量評估與反饋(DQAF)框架,透過即時反饋提升示範質量。
本文提出信念感知GSAC(BA-GSAC),透過整合不一致性動態調節蒸餾係數λ,系統研究了自適應引導在部分可觀測自動駕駛中的有效性。實驗發現,在輕度至中度部分可觀測條件下自適應引導有益,但在嚴重遮擋下自適應係數快速退化,原因是整合模型僅基於部分觀測預測,無法感知缺失資訊。改進方案是使用全狀態預測訓練整合模型。研究表明,簡單的線性衰減排程在嚴重POMDP下表現最佳,穩定性收益主要來自排程策略而非自適應機制。
檢索正從單次匹配向互動式推理發展,語言代理需迭代檢查證據、重構查詢並再次搜尋。訓練此類代理面臨信用分配挑戰:可執行動作(如查詢或摘要)可由檢索器直接評估,而潛在推理步驟無法直接觀察且僅影響未來可執行動作。這種不對稱性使基於最終結果的獎勵分配不可靠。本文提出RICE-PO,一種無需批評者的策略最佳化框架,將檢索互動轉化為區域性學習訊號。RICE-PO選擇高不確定性的可執行動作作為錨點,使用檢索指標評估區域性反事實分支,並僅在推理到動作的影響強且未來殘餘效應穩定時,將信用傳播給潛在推理步驟。在BRIGHT和BEIR基準上,相同檢索器設定下,RICE-PO一致優於基於提示的代理和基於群體的強化學習基線。結果表明,代理-環境互動的結構本身可為訓練基於推理的檢索代理提供有效監督。
AI基礎設施初創公司Fireworks、Baseten和OpenRouter正在籌集鉅額資金,標誌著推理基礎設施成為關鍵的AI平臺層。同時,智慧體工程、新基準測試和模型更新主導了AI新聞週期。
ACM CAIS 2026註冊已滿,但可加入候補名單。會議將於2026年5月26日至29日在聖何塞舉行,設有主題演講、63篇研究論文和46個系統演示,並已與AI工程師世界博覽會合作。
DeepSeek研究員陳德里使用自研的DeliAutoResearch技能,與DeepSeek-V4-Pro和GPT-Image2合作,在6天內完成了一篇46頁的論文。論文提出了L1-L5自主研究智慧體分類體系,分析了四種架構模式和17個主流系統,並指出了六大開放問題。陳德里表示,人類僅需投入不到2小時的“CPU時間”,其餘工作由AI Agent完成。
theta 是一個用 Rust 編寫的 CLI 工具,用於管理代理配置。它讀取 theta.toml 檔案,解析、鎖定、物化並轉換代理配置到任何支援的 harness(如 Claude Code、Codex CLI、GitHub Copilot、Cursor),透過解決 .theta/ 資料夾中的資源來實現。它就像一個代理 harness 資源的包管理器。安裝簡單,支援新增規則、工具、技能和子代理,並提供驗證和轉換命令。專案深受 uv 啟發,是 theta-spec 的標準實現。
本文探討了AI工具對工程師判斷力的影響,指出被動使用會導致技能退化,而對抗性使用則能鍛鍊判斷力。真正的技能不在於提示詞,而在於提出質疑的能力。
本文詳細介紹瞭如何為Reachy Mini機器人部署完全本地的語音對話管道,無需雲端或API金鑰。採用級聯方式,結合VAD、STT、LLM和TTS,推薦使用llama.cpp與Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多種LLM執行選項,包括本地MLX、Transformers、vLLM或遠端Responses API。
隨著AI向智慧體方向演進,對CPU提出了新要求:快速核心、海量記憶體頻寬以及全核高負載下的持續效能。Phoronix今日釋出的基準測試結果顯示,NVIDIA Vera CPU滿足這些需求。Vera採用88個定製Olympus核心,1.2TB/s記憶體頻寬,在功率效率內提供強勁效能。測試中,Vera在單插槽系統中展現了卓越的程式碼編譯、檔案壓縮、影片轉碼等能力,並在STREAM TRIAD測試中實現了90%峰值頻寬,遠超傳統x86 CPU。與上一代Grace相比,Vera效能提升1.6倍,在多項測試中領先於Intel和AMD的最新處理器。NVIDIA已向主要AI公司和雲提供商交付首批Vera CPU,預計下半年透過合作伙伴上市。
儘管97%的電信高管正在評估或採用AI,但許多專案因“資料債務”——即分散、無治理且語義不清晰的資料——而停滯在規模化之前。NVIDIA的2025年報告指出,瓶頸並非模型質量,而是資料可用性。Databricks Unity Catalog透過統一的語義層和治理機制,實現跨系統資料聯邦、細粒度訪問控制和豐富的語義上下文,從而將AI從演示推向可信賴的生產系統。
Zero.xyz是一個免費工具,能讓AI代理透過統一API訪問超過4000種工具和服務,無需配置API金鑰。它相容Claude Code、Codex、Gemini等多種CLI代理,並提供5美元免費額度。
Amazon Bedrock AgentCore Payments 現已預覽釋出,提供即時支付、穩定幣支援微交易及可配置消費防護欄。該服務簡化了AI代理為付費API、MCP和內容執行微支付的複雜性,支援x402等協議,幷包含安全憑證管理、原子預算檢查和可觀測性。
本文提供了一種在 AWS 上構建高度可擴充套件、無伺服器的多智慧體生成式 AI 系統的解決方案,該系統使用 LangGraph 智慧體作為編排器,並與 Amazon Bedrock AgentCore Memory 和 Amazon Bedrock AgentCore Observability 整合。文章詳細介紹瞭如何結合 AWS Lambda 和 AWS Step Functions 等無伺服器技術來構建自動擴充套件、即時響應且無需管理基礎設施的 LangGraph 智慧體,並討論了 LangGraph 的圖執行模型如何實現確定性協調、並行處理和條件路由。此外,文章還涵蓋了一個基於此架構的營銷活動稽核系統的實現,包括先決條件、部署步驟和清理指南。
瞭解如何構建一個多智慧體活動稽核系統,該系統利用NVIDIA NIM進行GPU加速推理、Amazon Bedrock AgentCore提供託管執行時、Strands Agents實現無伺服器編排,支援並行推理、上下文持久化和可觀測性。
本文透過實際案例展示了AgentWatch的功能,該解決方案每15分鐘執行一次基礎設施檢查,彙總跨多個AWS賬戶的CloudWatch指標、日誌和告警。代理直接將可操作報告傳送到Slack,並響應有關基礎設施狀態的自然語言查詢。同時,探討了三種人機協同模式,在最大化自動化的同時保持適當監督。
Harbor 是一個CLI工具,透過一條命令即可搭建完整的本地LLM棧。它整合了129項服務,包括聊天前端、LLM後端、網路搜尋、語音、影像生成、微調和代理工具,所有服務預配置並可互相協作。該工具開源、MIT許可,支援Linux和macOS。
使用Strands Agents和AWS服務,僅用30行程式碼就能構建一個功能完備的AI研究助手。本文詳細介紹了從概念到應用的整個過程,展示了開源Strands框架的簡潔與強大。
本文介紹如何部署一個解決方案,將Amazon Quick的運算元據從CloudWatch和CloudTrail整合到安全的資料湖中,並透過Athena、Quick Sight儀表板和自定義聊天代理進行查詢和分析,幫助企業跟蹤採用率、衡量滿意度、監控成本和審計治理。
主權AI是指國家自主構建、部署和治理AI的能力。Cerebras透過其“Cerebras for Nations”計劃,提供AI超級計算機、模型聯合開發及本地投資三大支柱,幫助各國實現AI主權。文章強調速度是主權優勢,並列舉了美國、阿聯酋和印度的三個實際案例,表明主權AI需要高效能基礎設施與國家治理相結合。
本文對比了grep(詞法搜尋)與RAG(語義搜尋)在AI智慧體中的應用場景。grep在小規模純文本語料庫中快速精準,但無法處理PDF等非結構化文件,且擴充套件性差。RAG透過解析、分塊、嵌入和向量索引實現規模化語義搜尋,支援自然語言查詢,但需要額外基礎設施。作者建議採用分層方法:先用工具解析非結構化文件,再用語義搜尋處理大規模語料,同時在適用場景保留grep。
教皇利奧十四世的AI通諭《偉大的人性》雖然正確指出了演算法偏見、水資源使用和資料主權等問題,但未能正視通用人工智慧和災難性風險,缺乏應對大規模失業的具體方案,被批評為過時且令人失望。
Linux穩定核心維護者Greg Kroah-Hartman在Rust Week大會上表示,Rust語言將幫助Linux抵禦AI發現的大量安全漏洞。他指出,Rust的編譯時檢查能消除約60%的核心錯誤,並且核心維護者已認定Rust不再是實驗性技術,將全力推進。
一位患者的驗光醫生給出了錯誤且不合適的電腦眼鏡處方,導致無法正常使用電腦。藉助ChatGPT、Claude和Gemini等AI工具,他重新計算了適配其實際用眼距離的處方,併成功配鏡。故事警示患者需與醫生充分溝通,同時展示了AI在特定場景下的輔助能力。
本文批評了大型語言模型中的思維鏈(CoT)推理方式,認為它效率低下,因為推理過程被迫離開殘差流變成離散的token。Sapient Intelligence的HRM-Text模型透過在潛在空間中進行推理來解決這個問題,為固定深度的Transformer提供可變的內部深度,從而挑戰當前的推理正規化。
Mr. Guy Invests 是一款面向初學者的免費股票研究與投資組合追蹤工具,利用SEC公開資料追蹤對沖基金和內幕交易,提供AI股票導師、虛擬交易挑戰、每日市場簡報等功能。免費版有每日使用限制,Pro版每月4.99美元可解鎖無限功能。
提出了一種新框架,使異構機器人能夠在頻寬受限下協作導航,透過β-稀疏高斯過程選擇地圖點並平衡探索與任務相關性,模擬顯示路徑成本降低18%,資訊傳輸減少76%。
約束獲取(CA)及相關研究因缺乏適當基準而進展受限。現有基準多為求解器設計,忽視領域知識工件。本文提出MPMMine基準套件,以一致性、標準化、完整性、可擴充套件性、開放性和版本控制為指導,採用MiniZinc、CommonMark和JSON開放格式,提供多模型、多例項及大量解與非解,並附有自然語言描述,以支援文本到模型方法。
分析顯示,教皇利奧十四世關於人工智慧的通諭《人間偉大》中部分段落可能由AI生成。AI檢測工具Pangram指出,某些段落AI寫作比例高達40%至100%,並存在AI生成文本的典型特徵,如“genuinely”一詞使用頻率增加。然而,檢測並非絕對可靠,其他部分被認定為人類寫作。
谷歌最新無螢幕健康追蹤器Fitbit Air售價僅100美元,是Whoop的強力競爭對手。經過一週的跑步、力量訓練、瑜伽等測試,我們發現這款裝置輕便舒適,電池續航約一週,配合AI健康教練提供全面的追蹤體驗。雖然無螢幕設計減少了干擾,但在運動中檢視資料需要開啟手機應用。訂閱Google Health Premium可解鎖AI教練的高階功能。
一個API即可在所有社交平臺上釋出內容。
這款名為Aura的智慧鳥餵食器與主流的Birdbuddy Pro相比,提供更寬視野、更長續航和更大容量,但影像質量和AI識別準確性稍遜。作者透過測試對比了兩款裝置,認為Aura適合追求更多活動記錄的使用者,而Birdbuddy則提供更精緻的觀賞體驗。
YouTube宣佈將AI標籤移至影片播放器下方和Shorts的覆蓋層上,使其更易被發現,並開始自動識別和標記AI生成內容。
思科與OpenAI合作,利用Codex推動AI原生開發、加速AI防禦工作並自動化缺陷修復,重新定義企業工程。
OpenAI聘請了一位曾在Salesforce從事營銷工作13年的高管,負責公關事務。
一位獨立開發者建立了Snipforge,一個包含28種工具的全能AI影片編輯套件,包括轉錄、智慧剪輯、背景去除等功能。定價從免費到團隊版每月15美元。
一名東灣母親接到詐騙電話,騙子使用AI和深度偽造技術模仿其女兒的聲音,聲稱她被墨西哥販毒集團綁架。這是利用AI技術進行詐騙的新趨勢,當局提醒公眾警惕。
全球選舉前夕,我們致力於幫助人們獲取資訊、支援網路安全防禦者並提升AI透明度。
在 OpenAI 推翻 Erdős 單位距離猜想後不久,Anthropic 展示了 Claude Mythos 也能解決這一問題——且是在“週末內”。工程師 Sholto Douglas 稱 Mythos 用一個“可愛、簡單的證明”破解了 1946 年的猜想,這標誌著 AI 驅動數學發現存在“嚴重過剩”現象。
南非擁有全球88%的鉑族金屬儲量,是非洲最大的資料中心市場,並處於中美AI基礎設施競爭的前沿。然而,其AI政策草案因包含AI幻覺引用而被撤回,未能利用這些優勢來談判有利條件。文章分析了南非的結構性槓桿、三種潛在的AI基礎設施未來(中國、美國和本地開放權重),以及制定具有約束力的治理框架的必要性。
EAGLE團隊、vLLM團隊和TorchSpec團隊聯合釋出了EAGLE 3.1,旨在解決生產環境中推測解碼的不穩定性。該演算法透過FC歸一化和歸一化後隱藏狀態反饋兩大架構改進,有效應對注意力漂移問題。在長上下文任務中,EAGLE 3.1的接受長度比EAGLE 3提升高達2倍;在Kimi K2.6模型上的基準測試顯示,併發數為1時每使用者輸出吞吐量提升2.03倍。EAGLE 3.1完全向後相容,已合併至vLLM主線,並將隨v0.22.0版本釋出。
本文引用了凱爾·費拉納的一條推文,用《星際迷航》的比喻說明AI系統中的“謹慎”策略。在技術領域,僅僅有防禦措施是不夠的,必須真正執行才能避免嚴重失敗。
新加坡國立大學、MIT和A*STAR的研究人員提出MEMO,這是一種模組化框架,將語料庫知識編碼到一個可單獨訓練的記憶模型中,使大型語言模型能夠無需重新訓練或微調即可吸收新知識。
AI模型在原始智慧方面似乎已達到平臺期,下一階段的進步來自於圍繞模型構建的“代理馬具”。本文介紹了代理馬具的概念,包括工具、記憶和人類參與,並比較了Google、LangChain、OpenAI、Anthropic等公司的解決方案。
針對動態城市物流中時間敏感任務隨機出現導致的異構自主空中飛行器(AAV)任務分配最佳化難題,本文提出一種強化學習增強的重疊聯盟形成博弈方法。該方法建立動態任務分配模型,以耦合服務質量與資源消耗的廣義物流成本量化全域性最優性;並設計基於Transformer的軟演員-評論家網路,利用多頭自注意力機制處理可變長度物流狀態、捕捉任務間時空依賴,從而自適應引導聯盟更新,取代傳統啟發式規則。理論證明聯盟形成過程構成精確勢博弈,確保有限次迭代收斂到納什穩定均衡。在32架AAV與80個任務的場景下,相比啟發式重疊聯盟形成基線,成本降低39.76%;室內飛行實驗進一步驗證了實用性。
本文提出PhyPush,一種物理引導的Transformer框架,僅透過單次推動的末端執行器速度即可估計物體的質量和摩擦係數,無需力/扭矩感測器。實驗表明,在模擬和真實環境中,該方法相比基線具有更低的誤差和更好的泛化能力。
這項研究在視網膜眼底多病種影像資料集(RFMiD)上對12種架構(包括卷積神經網路、視覺Transformer、混合模型和視覺語言模型)進行了基準測試,比較它們在二元篩查和多標籤分類中的效能。結果表明,所有模型在二元篩查中表現良好(AUC>84%),但基於注意力的模型(如SwinTiny、CoAtNet0、MaxViTTiny)在二元和多標籤任務中均最優。視覺語言模型與CNN基線相當,但未超越最佳Transformer和混合模型。在Messidor-2上的外部驗證中,AUC範圍為66.8%-84.7%,混合和Transformer模型表現強勁。
研究人員提出一種新的情緒表徵——維度分佈情緒狀態(DDES),利用效價和喚醒度預測藝術作品引發的情感反應,輔助博物館策展人設計以情緒為基礎的展覽。
LongAV-Compass是一個系統化基準,用於評估分鐘級視聽生成任務,涵蓋文本到視聽、影像到視聽和影片到視聽三種模態。包含284個測試案例,整合多模態大模型輔助評估和感知指標,評估超過20個細粒度維度。對11個代表性模型的實驗揭示了當前系統在長時間生成中的侷限性。
預訓練影片大模型在視覺推理上表現出色,但處理帶有音訊、深度圖等輔助流的影片時,統一融合會導致模態干擾。為此,研究者提出UniMVU框架,透過兩層動態門控(內模態門和模態級門)實現指令感知融合,在六個基準上取得最高13.5 CIDEr的提升,且門控機制與人類可解釋的模態相關性一致。
該研究引入EnterpriseMem-Bench,一個多輪Text-to-SQL基準測試,包含300個會話和1400輪查詢。評估五種前沿模型發現:無狀態模型在第三輪準確率歸零;記憶體複雜度不單調提升效能,工作記憶體佔主導;Claude Sonnet 4.6在SEC EDGAR上出現代際退化;推理模式下Claude錯誤分佈變為單模態。
一項新研究揭示了大型語言模型(LLM)在處理結構化知識(如圖和表格)時產生幻覺的機制。研究發現,幻覺源於系統性的內部動態,而非隨機噪聲:注意力過度集中於類似捷徑的結構線索,而前饋表示無法將知識接地,導致模型退回到引數記憶。這些模式在不同結構化知識格式中普遍存在,可用於幻覺檢測。
本研究從梯度下降的角度重新審視檢索增強生成(RAG),證明線性自注意力層可以執行統一線性化RAG目標的梯度下降步驟,從而在檢索增強預測與情境內最佳化之間建立精確對應關係。基於這一發現,作者提出了一種輕量級方法,透過僅前向傳播的更新來最佳化凍結RAG大語言模型的證據使用介面。在七個問答基準測試中,該方法在保持檢索器和骨幹網路固定的情況下,顯著提升了基線效能,並能在更低計算成本下接近測試時梯度最佳化的效果。
本文介紹了“每日劑量”(TDD)系統,這是一個由大語言模型驅動的自動化臨床總結和臨床試驗識別系統,整合到常規放射腫瘤學實踐中。透過混合方法評估,對55名臨床醫生進行了調查,結果顯示系統具有良好的可用性、滿意度,並有望節省時間。
SPEAR(沙盒化主動回滾提示工程師)是一種自由形式的智慧最佳化器,將程式碼即行動正規化引入自動提示工程。它配備評估、Python、設定提示和完成四個工具,可自主決策如何使用。其獨特之處在於Python沙盒,允許最佳化器編寫和執行任意Python程式碼以進行結構性錯誤分析。兩個防護欄確保單調改進:指標迴歸時自動回滾和可選防護指標下限。在三個工業LLM裁判套件(13個裁判任務)以及7個BBH任務和GSM8K上評估,SPEAR在所有工業任務的主要指標上獲勝,並在BBH-7上平均準確率0.938。消融實驗顯示Python工具是最重要的槓桿。
本綜述首次統一了預訓練資料暴露(PDE)框架下的成員推理和資料汙染研究,形式化定義了不同暴露水平,回顧了攻擊與防禦方法,綜合了實證發現,並指出了開放挑戰和未來方向。
本文提出李群嵌入動態神經網路(LieEDNN),利用伴隨李群作用解決李群與加法運算不相容及動力學在非線性空間中演化的問題,實現穩定可學習的神經動力學,並在SE(3)上以伸縮機械臂為應用驗證。
針對時間序列基礎模型(TSFMs)在預訓練中可能遇到評估資料集導致效能評估過於樂觀的問題,本文首次研究了TSFMs的預訓練資料汙染審計。提出TSFMAudit方法,基於探測適應動態,透過微調探測後汙染資料集更快的損失下降和更小的骨幹網路移動來檢測汙染。在6個TSFMs和187個資料集上評估,優於10個基線方法。
AirCast-SR是一個基礎模型,能夠將全球AI天氣預報從0.25度(約28公里)解析度降尺度到1公里水平解析度,時間解析度為每小時。它採用三維U-Net結合潛在一致性模型擴散框架,在美國本土的資料上訓練。該模型實現了近乎零偏差,並保留了精細尺度的大氣結構,經過多個季節的驗證,並展示了在無需重新訓練的情況下對印度和德國的零樣本遷移能力。
本文提出GEM(幾何熵混合)框架,將資料策展重構為超球面上的變分問題,透過混合平衡正則化器克服聚類坍塌,發現歐幾里得啟發式無法識別的平衡語義結構。結合教師-學生蒸餾擴充套件到網路規模語料,引入幾何影響分數(GIS)用於可解釋的類別生成。在1.1B引數模型上的實驗表明,GEM整合了DoReMi和RegMix等混合策略,平均下游準確率提升達1.2%,為可預測的資料混合提供了魯棒的座標系統。
JobBench是一個新的AI代理基準測試,它評估代理在專家認為最值得委派的工作流程上的表現,旨在強調增強而非替代人類。
當前評估大語言模型(LLM)心智理論(ToM)的方法多依賴最終答案,無法揭示模型是否真正構建了心理狀態表徵。本研究提出OmniToM基準,透過顯式建模故事中所有角色的信念結構來直接評估。基準包含信念提取與信念標註兩階段,採用七維標籤體系。基於895個故事和22,343個標註信念命題,藉助人類校準的LLM輔助流程構建。零樣本評估表明,LLM在將敘事事實轉化為角色信念和共享心理狀態時存在瓶頸。
AI智慧體正開始完成有價值的長期業務運營任務,但企業工作的訓練和評估環境在真實性、可驗證性和規模之間難以平衡。環境與任務建立經常遭受一種稱為“工件漂移”的失敗模式:當指令、環境、預測器和驗證器由鬆散耦合的過程建立時,它們經常對任務要求產生分歧,導致環境不可解、可獎勵篡改或不一致。本文提出Anchor,一種將領域專家的業務流程規範形式化為約束最佳化程式的任務生成管道。透過單個引數化規範,管道聯合生成自然語言指令、環境配置、求解器認證的真實解決方案和基於狀態的驗證器。透過改變引數,可產生具有可控難度和已知最優解的新任務,生成僅依賴最終狀態業務正確性的與框架無關的環境。作者應用Anchor建立了ERP-Bench,一個包含300個長期任務的基準測試,涵蓋生產級ERP系統中的採購和製造工作流。實驗發現前沿模型在26.1%的試驗中滿足顯式任務約束,但僅17.4%達到完全最優解。總體而言,Anchor和ERP-Bench為構建可審計的評估環境提供了具體方案,用於評估具有經濟價值的智慧體工作。
本文介紹了兩種新穎的自主AI代理框架——DeepTS/DeepCollector和DeepScribe,它們利用混合本地-遠端架構自動化科學工作流程,包括時間序列資料整理和講座報告轉換,並討論了向知識圖譜和高能物理的擴充套件。
一項名為AgingBench的新基準測試揭示,已部署的AI智慧體會透過四種老化機制隨著時間的推移而退化,需要生命週期評估和針對性修復,而不僅僅是更強的初始模型。
arXiv新論文提出GEM(治理演化記憶)框架,將長期AI智慧體記憶視為新的資料管理工作負載,透過狀態級操作替代記錄級資料庫操作,解決當前記憶系統的四大缺陷。
一項新研究質疑大型語言模型是否具有真正的內省能力,認為現有證據可能僅僅是基於表面線索的模式匹配,而非真正的元認知監控。
本週AI新聞要點:Anthropic公開了此前僅限國防承包商使用的頂級模型Mythos,使五角大樓級AI能力向開發者開放;DeepMind CEO哈薩比斯將AGI時間線提前至2029年;Starlette框架爆出嚴重認證繞過漏洞,影響數百萬AI代理;CrowdStrike等聯合摧毀Glassworm殭屍網路;法國巴黎銀行與Mistral達成主權AI安全合作;中國限制阿里和深度求索頂尖AI工程師出境;Uber AI預算超支、ClickUp裁員並引入數千AI代理,同時MIT技術評論資料顯示AI暴露崗位失業率更低,奧特曼撤回白領失業預言。
Warp 利用 GPT-5.5 和 OpenAI 模型,協調跨本地、雲端和開源開發工作流的編碼代理。
Daniel Stenberg近日透露,curl團隊正承受前所未有的壓力,因為AI輔助提交的可信安全報告數量激增,平均每天超過一份,是2024年的4到5倍。儘管報告質量極高,但curl程式碼穩固,發現的漏洞多為低或中等嚴重性,最後一個高危漏洞在2023年10月。
本教程詳細介紹瞭如何使用zeroentropy/zerank-2-reranker(一個基於Qwen3的4B引數交叉編碼器重排序器)來提升檢索質量。內容涵蓋環境搭建、模型載入、查詢-文件對評分、使用model.rank進行排序、構建兩階段檢索-重排序管道、NDCG@10評估以及跨領域(金融、法律、程式碼)效能測試,最後還進行了批處理吞吐量測試。
Stability AI釋出了Stable Audio 3,這是一個潛在擴散模型系列,用於生成和編輯44.1 kHz立體聲音訊。該系列提供小型、中型和大型三種規模,其中小型和中型開源。關鍵技術包括高度壓縮的SAME自編碼器、可變長度生成以及結合流匹配、蒸餾和對抗性後訓練的三階段訓練流程。該模型在音樂和音效基準測試中取得了最先進的結果,並支援基於修補的音訊編輯。
Ollama是一款免費、開源、可本地安裝的AI工具,提供隱私保護、離線訪問和靈活性。它執行在你的個人硬體上,減少環境影響,讓你掌控資料。
本文介紹了開源AI模型的基本概念、工作原理及使用場景。開源模型通常指開放權重的模型,使用者可以對其進行微調和部署,相比閉源模型具有成本低、可定製性強等優勢。文章還討論了開源與閉源模型的比較、適用時機以及未來發展趨勢。
Sam Altman和Dario Amodei在即將進行數十億美元IPO之際,收回了他們關於AI導致工作末日的預言。
LWN的文章討論了AI爬蟲機器人的問題,指出這些自動程式對網站內容造成侵權,並探討了應對措施。
Hyper是一款AI驅動的個人知識管理工具,能從Notion、Obsidian等應用中整合上下文,提供智慧輔助。創始人此前在Matic從事機器人研發,曾在2020年嘗試改進GPT-2未果,如今推出自助版本。