AI News HubLIVE

今日必讀

Agent

本週AI:生產可行性探討

本週節目中,主持人Andreas Welsch與嘉賓討論了OpenAI進入個人金融領域、元認知在AI輔助工作中的重要性、對Token指標的反感以及前向部署工程師的角色。核心問題:AI行業擅長產出,但尚未明確什麼產出真正有價值。

  • OpenAI分析交易資料旨在理解使用者意圖而非僅改善消費追蹤,可能用於廣告定向。
  • 元認知成為關鍵技能:人類需要判斷何時依賴AI、何時保留判斷力,避免認知投降。
站內正文

CrankGPT:一款人力驅動的本地私有AI解決方案

CrankGPT是一款完全本地執行、人力驅動的AI裝置,無需聯網或資料中心,透過手搖或腳踏產生計算代幣,旨在保護隱私、減少碳足跡並避免科技巨頭壟斷。

  • CrankGPT是人力驅動的本地AI裝置,無需聯網或外部算力。
  • 提供手搖、腳踏及健身房合作等多種功率模型,適應不同需求。
站內正文

面向開發者的AI工具精選列表

這是一個精心整理的AI程式設計工具列表,涵蓋程式碼編輯器、程式碼補全、編碼代理、CLI工具、應用構建器、UI生成器、程式碼審查、測試、文件、程式碼模型等類別,為開發者、團隊和科技愛好者提供利用AI提升軟體工程效率的資源。

  • 列表包含超過100個AI程式設計工具,分為多個類別。
  • 涵蓋從程式碼編輯器(如Cursor、Copilot)到全棧應用構建器(如Bolt.new、Lovable)等工具。
站內正文

從.com時代的頻寬危機看AI Token成本焦慮

作者以自己職業生涯初期經歷的頻寬成本危機為鏡,類比當前AI token成本高漲的現象。透過回顧頻寬從昂貴到廉價的歷程,指出token成本也會隨市場競爭、硬體最佳化和模型效率提升而下降,建議開發者們既要最佳化當前成本,也要以發展的眼光看待這一暫時性約束。

  • 90年代末,T1線路月費1000美元,頻寬是產品設計的首要約束。十年後,頻寬成本趨近於零,不再成為決策變數。
  • 當前AI token成本高昂,類似早期頻寬困境,透過快取、模型選擇、提示詞最佳化等策略可有效降低成本。
站內正文

納德拉公開批評微軟副總裁讓AI代理成癮的計劃

微軟CEO薩提亞·納德拉嚴厲批評了一份內部備忘錄,該備忘錄提議讓使用者對新的AI代理Scout“上癮”。納德拉在致約50名頂尖工程師的郵件中寫道:“不知道是誰在寫並洩露這些廢話。”他強調AI應賦能使用者,Scout應減少螢幕使用時間。

  • 微軟CEO納德拉公開批評內部備忘錄,該備忘錄提議讓AI代理Scout致癮。
  • 納德拉在郵件中表示不知道是誰在寫並洩露這些廢話。
站內正文

AI代理催生自適應計算機蠕蟲

研究人員利用小型開源AI模型建立了一種自適應計算機蠕蟲,能夠自主發現並利用漏洞在網路中傳播,突破了傳統安全防禦的侷限。這一發現標誌著網路威脅質的轉變,對全球網路安全構成重大挑戰。

  • 使用小型開源AI模型即可構建自適應蠕蟲,無需依賴商業AI平臺。
  • 蠕蟲能自我複製並在異構網路中傳播,利用受害者計算資源持續運作。
站內正文

2026年5月谷歌人工智慧更新彙總

2026年5月,谷歌在I/O大會、Android Show和Google Health活動中釋出了一系列AI更新,包括Gemini 3.5和Gemini Omni模型、Android Halo、Universal Cart、Google Health應用和Fitbit Air等。這些創新旨在讓AI更主動、更實用,並融入日常生活。

  • 推出Gemini 3.5和Gemini Omni模型,分別面向代理任務和創意生成。
  • Android Halo幫助管理代理,Universal Cart統一購物車簡化購物流程。
站內正文
晶片

AI投資第二階段:從GPU到電力、工業品與太空

AI投資正從GPU轉向更廣泛的基礎設施領域,包括電力、冷卻、光通訊和太空。美國就業資料強勁但集中在服務業,AI相關股票因Broadcom財報而獲利回吐,但資金並未離場,而是輪動至其他AI受益板塊。中國則聚焦AI自主可控和機器人供應鏈,推動硬體和光學通訊需求。

  • AI投資第一輪以GPU為核心,第二輪擴充套件至電力、冷卻、光通訊和太空等整個系統。
  • 美國就業增長主要由休閒、政府和醫療保健驅動,製造業和IT表現平平。
站內正文
模型

Anthropic呼籲‘暫停’AI開發以討論風險

Anthropic提出全球暫時停止AI開發,並計劃召集政策制定者討論高階AI的風險,但一些專家認為這不過是營銷手段。

  • Anthropic建議全球暫時停止AI開發。
  • 該公司將召集政策制定者討論AI風險。
站內正文
工具

Android Auto打敗汽車自帶資訊娛樂系統的5大理由——毫無疑問

汽車自帶螢幕可能看起來很現代,但Android Auto仍然是更簡單、更智慧的駕駛方式。本文分析了Android Auto相比汽車自帶系統的五大優勢:更多應用、更頻繁的更新、跨車輛相容、幾乎無需設定以及更好的語音控制(特別是Gemini整合)。

  • Android Auto提供比大多數汽車自帶系統更豐富的應用生態。
  • Android Auto透過手機更新,功能不斷進化,而車載系統往往一成不變。
站內正文
其餘更新(132 條)
創業融資

Prompt: Anthropic的IPO申請標誌著AI的下一個階段

AI的下一個篇章可能更少依賴於突破性模型,而更多依賴於構建和維持這些模型所需的資源。

  • Anthropic提交IPO申請,預示AI行業進入新階段。
  • 未來的AI發展重心可能從模型創新轉向資源投入。
站內正文

SpaceX IPO影片向散戶投資者推銷馬斯克的太空、AI和 asteroid夢想

SpaceX釋出了面向散戶投資者的IPO路演影片,CFO Bret Johnsen闡述了公司火箭、衛星和AI業務的協同發展。該影片突出了Starlink、AI解決方案、太空資料中心、點對點旅行及小行星採礦等遠大目標,並設定了毛利率和淨利率的提升目標。此次IPO估值約1.77萬億美元,定於6月11日定價,程式碼SPCX。

  • SpaceX釋出17分鐘IPO路演影片,面向全球散戶投資者。
  • CFO Johnsen將火箭、Starlink和AI業務連線起來,強調使人類成為多行星物種的願景。
站內正文

Vibe-coding熱潮推動AI初創公司Supabase估值達105億美元

資料庫初創公司Supabase宣佈完成5億美元融資,估值達到105億美元,本輪由GIC領投。該公司為AI應用開發提供後端工具,受益於vibe-coding和AI輔助程式設計的流行。其平臺使用開源資料庫Postgres,已有超過25萬客戶。

  • Supabase完成5億美元融資,估值105億美元
  • 公司為vibe-coding提供基礎設施,受益於Claude Code和Codex等AI工具
站內正文
政策

科學家開始將工作外包給機器人:“自主實驗室”時代來臨

麻省理工學院的畢業生創辦了Ginkgo Bioworks,利用人工智慧和機器人構建自主實驗室,將科學家從繁瑣的實驗操作中解放出來。該公司已與OpenAI合作,讓AI自主設計蛋白質實驗,成本降低40%。但專家警告,AI可能帶來生物安全風險,需提前制定監管政策。

  • Ginkgo Bioworks從初創時靠泡麵度日,到如今擁有全自動機器人實驗室。
  • AI和機器人已能自主完成實驗設計、執行和記錄,科學家角色轉變為監督者。
站內正文

我用ChatGPT構建免費PDF編輯器,因為不信任它直接修改檔案——竟然成功了!

作者需要從掃描的黃色紙張樂譜PDF中去除背景色,但擔心ChatGPT非確定性修改會改變樂譜。於是讓ChatGPT生成一個確定性Python指令碼來處理PDF,最終高效完成任務,展示了AI的巧妙用法。

  • ChatGPT可以生成確定性Python指令碼來安全編輯檔案。
  • 非確定性AI可能改變內容,因此用它構建工具比直接編輯更可靠。
站內正文

綠色人工智慧:計算浪費的統一理論

一篇論文提出了“計算浪費的統一理論”,指出當前AI和物理模擬中的低效率源於對外部測量尺度的依賴,而非硬體限制。作者引入“本體計量關係演算”框架,證明不必要的計算開銷與單位失真呈二次方關係(O=D²定律),並透過讓系統自身作為度量標準,將最佳化開銷降至常數,實現規模不變性、零樣本相變外推和真正的綠色AI。

  • AI和物理模擬的計算低效率源於本體論錯誤:使用外部測量尺度,而非系統內在度量。
  • 提出本體計量關係演算,核心是O=D²定律:計算開銷隨單位失真平方增長。
站內正文

預印本警告:五年內若不採取行動,AI將帶來災難性風險

國際AI風險專家調查顯示,未來五年內AI導致災難性後果的機率至少為10%。專家呼籲立即採取行動,重點應對AI網路攻擊、武器開發、競爭壓力和治理失敗等風險。

  • 272名AI專家評估認為,五年內AI導致災難性後果的機率至少為10%。
  • 專家指出AI網路攻擊、武器開發、競爭壓力和治理失敗是最嚴重的風險。
站內正文

新原告尋求起訴馬斯克的xAI公司,繼工黨議員發起測試案件之後

工黨議員傑絲·阿薩託(Jess Asato)發起測試案件後,其他原告也站出來,準備對埃隆·馬斯克(Elon Musk)的xAI公司提起法律訴訟,原因是其Grok AI工具生成的侮辱性色情內容。

  • 工黨議員傑絲·阿薩托起訴xAI公司,因其Grok AI工具生成並傳播她的虛假比基尼影像和AI影片。
  • 新原告在週四聯絡了阿薩託的律師,表示也想採取行動。
站內正文

五角大樓利用AI宣傳機器瞄準拉丁美洲

《攔截》調查發現,美國軍方透過AI驅動的內容網站La Tilde向拉丁美洲使用者傳播宣傳,該網站偽裝成現代媒體品牌,實為特種作戰司令部南部分隊的心理戰平臺,內容多由AI生成,缺乏透明度。

  • La Tilde是五角大樓針對拉丁美洲的AI宣傳網站,由美國特種作戰司令部南部分隊運營。
  • 網站內容包含個人理財和美國軍事行動讚美文章,AI檢測顯示部分內容由機器生成。
站內正文

韓國論壇需用AI審查工具掃描每張圖片

韓國新規要求所有線上論壇使用AI工具掃描使用者上傳的每張圖片以打擊非法內容,引發隱私和言論自由爭議。

  • 韓國政府規定線上論壇必須對每張圖片進行AI審查掃描。
  • 該政策旨在快速識別色情、暴力等違法內容。
站內正文

美國高階官員考慮在AI巨頭中持有政府股份

美國高階官員與主要人工智慧公司就聯邦政府收購其部分股份進行了初步討論。OpenAI CEO Sam Altman 已與特朗普政府高階官員多次討論該想法,旨在將AI的經濟效益更廣泛地分配給公眾。該計劃面臨治理挑戰和法律障礙,並引發左右翼批評。

  • OpenAI CEO Sam Altman 自2025年初向特朗普總統提議後,多次與高階官員討論政府持股。
  • 討論集中在公司自願向政府出讓股份,收益用於公共目的,如向美國家庭發放股息。
站內正文

法學教授更偏愛AI而非同行的答案

一項新研究顯示,在盲評中,美國法學教授對大型語言模型(LLM)提供的合同法課程答案評分遠高於同行,平均勝率達75.33%,且AI回答被標記為有害的比例更低。該研究為在需要判斷力的領域評估AI導師提供了可擴充套件的方法。

  • 16位法學教授對40道代表性問題的2918次對比評分顯示,LLM答案的勝率為75.33%。
  • LLM回答被標記為有害的比例僅為3.53%,而教授回答為12.06%。
站內正文

企業開始質疑人工智慧投資的回報

企業開始重新評估其人工智慧投資的實際回報,引發了對AI專案經濟效益的廣泛討論。

  • 企業開始質疑AI投資的回報率。
  • 對AI專案經濟效益的擔憂日益增加。
站內正文

加拿大國家人工智慧戰略概覽:AI為所有人

加拿大發布“AI為所有人”國家戰略,旨在將AI研究優勢轉化為全民福祉,涵蓋保護公民、賦能民眾、推動採納、建設主權基礎設施、壯大企業、建立可信夥伴關係六大支柱,目標到2031年創造25萬新崗位、提升AI採納率至75%、促進經濟近2000億加元增長。

  • 六大支柱:保護公民、賦能民眾、推動採納、建設主權基礎設施、壯大企業、建立夥伴關係
  • 到2031年目標:創造25萬新崗位,AI採納率從12%提升至75%,經濟貢獻近2000億加元
站內正文
模型

語言模型校準深度解析:Platt縮放、等滲迴歸與溫度縮放

本文詳細探討了三種後處理校準方法——溫度縮放、Platt縮放和等滲迴歸,用於縮小大型語言模型置信度與準確率之間的差距。分析了LLM校準的挑戰、RLHF帶來的問題,並給出實際應用建議。

  • 溫度縮放適用於基線模型,但對於RLHF微調後的模型,自適應溫度縮放(ATS)效果更好。
  • Platt縮放資料高效,適合小校準集,但可能降低強模型效能。
站內正文

微軟在承諾使用“企業級、乾淨且商業許可資料”後,仍用未經許可的網路資料訓練MAI模型

微軟聲稱其大型語言模型訓練方法與眾不同,依賴“乾淨且商業許可的資料”,但實際卻使用了Common Crawl等未經許可的網路資料,與其他AI實驗室一樣依賴合理使用原則,並將阻止其爬蟲的責任推給網站所有者。

  • 微軟新MAI模型部分基於Common Crawl等未授權網路資料訓練。
  • 微軟此前承諾使用“企業級、乾淨且商業許可的資料”與事實不符。
站內正文

報告稱Anthropic的Mythos模型正為NSA針對中國和伊朗的進攻性網路行動提供支援

據報道,Anthropic已派遣約六名工程師常駐美國國家安全域性(NSA),以調整其Mythos AI模型用於進攻性網路行動。該模型可能被用來侵入中國或伊朗的網路。這符合Anthropic的廣泛立場:該公司關於限制AI用於大規模監控等用途的承諾,明確僅適用於美國公民。

  • Anthropic派遣約六名工程師到NSA,調整Mythos模型用於進攻性網路操作。
  • 該模型可用於入侵中國或伊朗的網路。
站內正文

Google Gemma 4 12B:架構、基準測試、訪問與開發者實操指南

2026年6月3日,Google推出Gemma 4 12B Unified,一款開源多模態模型,支援文本、影像、音訊和影片,擁有256K上下文視窗,專為筆記型電腦上的智慧體工作流和本地部署設計。本文解析其架構、特性、基準測試對比及開發者上手指南。

  • Gemma 4 12B Unified採用無編碼器架構,直接投影影像和音訊到LLM嵌入空間,簡化多模態處理。
  • 支援256K上下文、函式呼叫、35種以上語言、語音識別和影片理解,可在Ollama等本地工具執行。
站內正文

NVIDIA AI 釋出 Dynamo Snapshot:基於 CRIU 的 Kubernetes AI 推理快速啟動系統

NVIDIA 推出 Dynamo Snapshot,利用 CRIU 和 cuda-checkpoint 技術實現 AI 推理工作負載在 Kubernetes 上的快速冷啟動,透過最佳化將大型模型啟動時間從幾分鐘降低到數秒。

  • Dynamo Snapshot 透過檢查點/恢復機制避免了模型載入和核心編譯的冷啟動延遲。
  • 最佳化包括 KV 快取取消對映、並行 memfd 恢復、Linux 原生 AIO 以及 GPU 記憶體服務(GMS)。
站內正文

OpenAI表示將遵守特朗普要求審查AI模型的行政命令

OpenAI已向CNBC確認,將遵守特朗普總統簽署的關於AI模型的行政命令。該命令要求公司在釋出AI模型前30天向政府提供訪問許可權,以便進行能力評估。OpenAI國家事務負責人喬治·奧斯本表示,公司自願簽署該命令,並強調民主政府在技術使用和部署中應發揮重要作用。

  • OpenAI將遵守特朗普的AI行政命令,允許政府在模型釋出前30天進行審查。
  • 喬治·奧斯本表示,公司積極響應政府的監管要求,並主動提出安全與監管建議。
站內正文

VASO:形式化可驗證的物理AI智慧體自進化技能

VASO是一個框架,透過形式化驗證引導大語言模型生成的機器人技能合約的自我進化。在Clearpath Jackal和PX4四旋翼任務上,VASO在不到100個最佳化樣本下達到了97.2%的規範符合度,優於執行反饋、提示最佳化和微調基線。這是首個將形式化驗證與自進化技能閉環的框架。

  • VASO將機器人技能表示為語義合約,包含形式化介面和規劃器介面
  • 模型檢查器先篩選邏輯不一致的合約,再驗證計劃是否滿足時序規範
站內正文

Biomazon:亞馬遜盆地三維森林結構與生物量建模的多模態資料集

Biomazon是一個20米解析度的多模態基準資料集,覆蓋亞馬遜盆地,結合GEDI RH和AGBD目標與多感測器預測因子,用於聯合預測整個GEDI RH剖面和地上生物量密度。該資料集提供了標準化的空間劃分和評估協議,並建立了基線框架,透過消融研究評估不同backbone、模態貢獻和輔助嵌入的效果。Biomazon旨在推動熱帶森林結構一致性和結構-生物量建模的研究。

  • Biomazon資料集整合了GEDI雷射雷達的RH剖面和AGBD目標,以及Sentinel-1/2、ALOS-2 PALSAR-2、Copernicus DEM等多種遙感資料。
  • 採用共享編碼器-解碼器與任務特定頭部的基線框架,進行全面的消融研究,包括模型規模、模態貢獻和輔助嵌入。
站內正文

模型是否共享安全表示?跨模型引導實現安全視覺生成

研究人員提出一種跨模型安全引導框架,透過輕量級對齊,將源大語言模型的安全方向轉移到目標影像/影片生成器,無需目標端不安全資料。該方法在降低攻擊成功率的同時,保持了生成質量,並與原生方向效果相當。

  • 首個跨模型安全引導框架應用於視覺生成。
  • 透過僅使用良性資料的輕量級對齊轉移安全方向。
站內正文

VideoKR:面向知識與推理密集型影片理解

研究人員推出了VideoKR,這是首個專門用於增強知識和推理密集型影片理解的大規模訓練語料庫,包含31.5萬個影片推理示例和14.5萬個新收集的CC許可專家領域影片。他們開發了人在迴路、面向技能的示例生成管道,並策劃了新的專家註釋基準VideoKR-Eval。實驗表明,在標準SFT→GRPO流程下,基於VideoKR後訓練的模型在知識密集型影片推理上優於以往方法,同時在通用影片推理上保持競爭力。

  • VideoKR是首個面向知識與推理密集型影片理解的大規模訓練語料庫
  • 包含31.5萬推理示例和14.5萬專家領域影片
站內正文

LANTERN:用於長上下文LLM對話的分層歸檔與時間情景檢索網路

本文提出LANTERN,一種輕量級記憶層,透過零LLM呼叫和低延遲的混合檢索,在對話歷史壓縮後恢復關鍵細節。實驗表明,LANTERN在恢復丟失事實方面優於MemGPT,並且將通用LLM的準確率平均提高8.4個百分點。

  • LANTERN是一種零LLM呼叫的記憶層,每輪對話延遲小於25毫秒,可恢復對話中丟失的細節。
  • 在94個真實多輪對話中,LANTERN-Rerank恢復了78.3%的可驗證事實,優於MemGPT的72.4%。
站內正文

從評分到解釋:評估SHAP和LLM理由在基於量規的教學質量評估中的應用

本研究提出一個通用框架,結合模型無關的Shapley值歸因和大語言模型(LLM)生成的推理,為基於量規的自動評分提供句子級別的可解釋性。在CLASS框架的反饋質量維度上,使用NCTE語料庫評估,發現微調預訓練語言模型(PLM)在預測準確性上優於LLM,但存在向中等分數的標籤壓縮。基於刪除的測試表明,SHAP能更可靠地識別驅動模型預測的句子,產生更大且更一致的預測偏移,而LLM推理影響有限且不一致。跨模型分析顯示SHAP歸因在不同架構間穩健轉移。總體而言,SHAP為基於量規的評分提供了更忠實和可轉移的解釋,該框架為高風險教育環境中的評分模型評估提供了原則性基礎。

  • 提出結合SHAP和LLM推理的框架,實現句子級可解釋性
  • 微調PLM在準確性上優於LLM,但存在標籤壓縮
站內正文

MCBench:面向全模態大語言模型的多情境安全評估基準

現有的多模態安全基準僅關注視覺輸入,無法評估處理視覺、音訊和文本的全模態大語言模型(Omni LLMs)。本文提出MCBench,包含1196個場景,涵蓋四個安全類別,每個不安全場景配有一個最小差異的安全版本來評估模型敏感性。評估表明,Omni LLMs在細微或非物理風險上表現困難,但當有顯著視覺或聽覺線索時表現較好。推理軌跡分析顯示,模型雖能提取模態特定資訊,但常無法有效整合這些線索進行安全判斷。研究發現當前Omni LLMs在安全關鍵場景中缺乏穩健的跨模態推理,強調了改進架構和訓練策略的必要性。

  • 現有基準只評估視覺模態,無法測試全模態LLMs。
  • MCBench包含1196個場景,覆蓋四類安全類別,並配有安全/不安全對照。
站內正文

面向電信客服的小語言模型引數高效微調:基於LoRA配置與能耗分析的比較研究

該論文系統研究了使用低秩適應(LoRA)對Qwen2.5-3B進行引數高效微調,以構建電信客服領域的專用對話助手。研究引入了組合式合成資料生成方法,評估了16種LoRA配置,揭示了定量驗證損失與定性人工對齊排名之間的差異,並提供了能耗-效能權衡分析。

  • 使用52個行業術語的組合式合成資料生成方法,生成了約30,000個訓練樣本,覆蓋1,560個不同問題場景。
  • 對16種LoRA配置的評估顯示,最低驗證損失(0.5024)在定性評估中僅排第6-7位,而最高損失(0.6807)被兩位評判者均評為第一。
站內正文

通用三重潛在壓縮與門控聯想檢索

本文研究通用三重潛在序列模型,該模型透過維護執行中的令牌狀態和壓縮的配對記憶路徑來捕獲高階令牌互動,無需特定基準解析。三重潛在族在位元組級WikiText-2和基於分詞器的MiniMind語言模型基準上改進了小型Transformer基線,而專注於回憶的門控鍵值檢索擴充套件提高了聯想回憶能力,但對種子敏感且當前參考實現速度較慢。

  • 提出通用三重潛在序列模型,結合執行令牌狀態和壓縮配對記憶路徑。
  • 在WikiText-2和MiniMind基準上優於小型Transformer基線。
站內正文

透過基於方差感知的評分獎勵與GRPO改進LLMs中專注於心髒的醫學問答

本研究提出了一種採用組相對策略最佳化(GRPO)結合方差感知獎勵框架的方法,用於後訓練大型語言模型(LLMs)以提升其在心臟相關醫學問答中的表現。該方法將傳統的二元標準聚合和整體Likert評分替換為連續分析獎勵函式,從而提供更豐富的最佳化訊號。在HealthBench的心臟子集上,最佳變體相對於Qwen3-14B基礎模型將準確率從0.362提升至0.502,F1從0.532提升至0.668,效能與GPT-OSS-120B相當。

  • 提出方差感知獎勵框架,利用GRPO對LLMs進行後訓練,專注於心髒醫學問答。
  • 用連續分析獎勵函式取代二元標準聚合和整體Likert評分,增強最佳化訊號。
站內正文

預測與重構:自監督語言表示學習的聯合目標

本研究提出一種結合JEPA潛在空間預測損失與標準掩碼語言建模(MLM)的混合預訓練目標,旨在改進語言表示。實驗表明,該混合編碼器生成的嵌入更均勻、語義-詞彙平衡更優,但下游準確率與純MLM基線相似。

  • 混合目標結合JEPA與MLM,使用可學習標量平衡兩種損失。
  • 混合模型在GLUE基準上表現出更均勻的嵌入和更豐富的譜幾何。
站內正文

模型崩潰的流行病學:透過雙層SIR動力學建模合成資料汙染

研究團隊提出了一個雙層SIR/SIRS框架來模擬AI生態系統中模型與資料語料庫之間的合成資料交叉汙染,發現合成文本檢測和群體免疫是關鍵干預策略。

  • 提出雙層SIR/SIRS模型模擬合成資料汙染導致的模型崩潰
  • 計算基本再生數R0,發現超臨界動態(R0>1)
站內正文

可微高效運算子搜尋

研究人員提出可微高效運算子搜尋框架,自動尋找多模態基礎模型中的令牌縮減最優策略,在視覺令牌大幅壓縮下仍保持精度與效率的平衡。

  • 令牌縮減運算子(剪枝、合併、池化等)可統一為共享運算子空間的不同狀態
  • 新框架同時搜尋縮減位置、保留數量和處理方式,最佳化效能與資源約束
站內正文

狀態承諾學習:訓練語言模型區分計算與記憶

該研究提出狀態承諾學習,透過反事實擦除強化學習(CERL)訓練語言模型區分臨時計算與持久狀態,在不犧牲準確性的前提下減少答案對隱藏思維的依賴。

  • 語言模型在推理時生成的所有隱藏思維都會進入上下文,導致後續推理可能依賴失敗的嘗試和錯誤。
  • 提出狀態承諾學習目標,訓練模型區分應保留的持久狀態和可丟棄的臨時計算。
站內正文

大型語言模型中的時間偏好概念及其功能

研究人員在一款蒸餾版大型語言模型(Qwen3-4B-Instruct-2507)中定位了負責時間偏好的神經子圖,發現模型對未來折扣的程度遠低於人類,且這種偏好在不同上下文中不穩定,而透過引導向量可以調節時間偏好。

  • 在模型的中高層節點定位了時間偏好子圖
  • 時間偏好的幾何結構編碼在殘差流中
站內正文

ERRORQUAKE:開源大語言模型中錯誤嚴重性的重尾分佈

即使準確率相同,不同的開源大語言模型(LLM)在錯誤嚴重性分佈上也存在顯著差異——這種差異是標量錯誤率所無法捕捉的。我們引入了Errorquake-10k基準測試,包含10,000個查詢,在8個領域和5個難度等級上對每個回答進行0-4連續嚴重性評分,併為21個開源模型擬合了嚴重性分佈。

  • Errorquake-10k基準測試對LLM回答進行0-4連續嚴重性評分,揭示了錯誤嚴重性的重尾分佈。
  • 在匹配準確率下,許多模型對在嚴重性分佈上表現出顯著差異,表明錯誤率不足以評估模型。
站內正文

評估盲點:大型語言模型基準覆蓋的體視學理論

一篇新論文提出了評估LLM基準覆蓋的體視學理論,發現基準套件的有效維度導致巨大盲點,遠超分數差異,並提出了最小基準集選擇演算法和解決了Gardner問題。

  • 論文引入體視學理論衡量基準覆蓋,發現有效維度在2.86到4.80之間
  • 基準盲點比分數差異大兩個數量級,導致排名頻繁變動
站內正文

GGUF 提升效能與模型支援

Ollama 0.30 現已釋出,透過 llama.cpp 帶來更優效能和 GGUF 模型相容性,增強了 Apple Silicon 上的 MLX 引擎,支援更多硬體和模型。

  • NVIDIA GPU 效能提升高達 20%
  • Vulkan 預設啟用,擴充套件 AMD/Intel 支援
站內正文

AI模型預測建築火災蔓延,即時引導撤離人員選擇更安全的出口

美國國家標準技術研究院(NIST)研究人員開發了名為Safe Step的AI模型,利用強化學習預測火災發展,並透過動態緊急出口顯示屏指引人們選擇最安全的撤離路線。該模型基於有毒氣體分數有效劑量(FED)指標,能比傳統演算法更有效地避開隨時間累積的危險。未來將擴充套件至多層建築和多智慧體模擬,預計5-10年內投入使用。

  • Safe Step模型使用強化學習,結合建築佈局和火災模擬資料,預測火災演變並規劃安全撤離路徑。
  • 採用有毒氣體分數有效劑量(FED)作為安全指標,選擇暴露風險最低的路線。
站內正文

NVIDIA AI釋出Nemotron 3 Ultra:一個開放的550B混合專家混合Mamba-Transformer用於長時間執行的智慧體

NVIDIA釋出了Nemotron 3 Ultra,這是一個550B總引數(55B活躍)的開放混合專家(MoE)模型,採用混合Mamba-Attention架構,專為長時間執行的智慧體設計。它支援100萬token的上下文,推理吞吐量比同類開放LLM高出約6倍,同時保持相同精度,並附帶開放權重、訓練資料和配方,採用OpenMDW-1.1許可。

  • Nemotron 3 Ultra採用混合Mamba-Attention架構,Mamba層實現亞二次方擴充套件,注意力層保證精確召回。
  • 模型總引數550B,每token僅啟用55B,透過LatentMoE和多令牌預測提高效率。
站內正文

NVIDIA Nemotron 3 Ultra

Nemotron 3 Ultra 是 NVIDIA 推出的新型 AI 模型,專為長時間執行的代理提供更快、更高效的推理能力。

  • 針對長時間執行的代理最佳化推理效能
  • 提升推理速度和效率
站內正文

Nemotron 3.5 內容安全:面向全球企業 AI 的可定製多模態安全模型

NVIDIA 釋出 Nemotron 3.5 Content Safety,這是一個統一的、支援多模態輸入、多語言覆蓋、自定義企業策略執行和可審計推理的內容安全模型。該模型基於 Google Gemma 3 4B IT 構建,透過 LoRA 介面卡進行微調,支援 12 種語言的顯式訓練和約 140 種語言的零樣本泛化。它引入了自定義策略執行(透過自然語言策略規範)和推理跟蹤(THINK 模式)功能,可提供可審計的逐步推理。該模型在多項多語言和多模態安全基準測試中平均準確率約為 85%,同時保持了緊湊的 4B 引數大小和低延遲特性。NVIDIA 還發布了配套的安全資料集,包含多模態、多語言的安全推理跟蹤資料。

  • Nemotron 3.5 統一了多模態輸入、多語言覆蓋、自定義策略和可審計推理。
  • 支援 12 種語言的顯式訓練,並透過 Gemma 3 基座模型零樣本泛化至約 140 種語言。
站內正文

NVIDIA Nemotron 3 Ultra 現已在 Amazon SageMaker JumpStart 上可用

NVIDIA Nemotron 3 Ultra 是一款開放的大語言模型,採用混合 Transformer-Mamba MoE 架構,擁有5500億總引數和550億啟用引數,專為自主代理中的前沿推理和協調而設計。現可透過 Amazon SageMaker JumpStart 一鍵部署,推理速度提升5倍,成本降低30%,支援百萬級 token 上下文。

  • Nemotron 3 Ultra 可在 SageMaker JumpStart 上一鍵部署
  • 推理速度提升5倍,成本降低30%
站內正文
Agent

AI能透過劇本預測電影成敗嗎?

AI初創公司Quilty聲稱其工具能透過閱讀劇本預測電影成功,但其預測結果引發質疑,例如它將票房慘敗的《基督》評分高於奧斯卡獲獎大片《罪人》。該公司結合多種AI模型進行分析,但專家懷疑其能否真正理解人類審美。

  • Quilty工具將所有資料用於預測電影成功,但結果不可靠。
  • 平臺整合了Gemini、DeepSeek、Claude和ChatGPT等多種AI模型。
站內正文

實現演進式資料庫開發:使用Lakebase進行資料庫分支(續)

本文回顧了演進式資料庫設計方法論,並介紹了Databricks Lakebase的寫時複製分支技術如何消除傳統限制,使每個開發者、每個PR都能擁有獨立的資料庫例項,從而提升團隊協作與開發效率。文章詳述了七項原始實踐、其侷限性、新興實踐以及CI/CD工作流程。

  • Lakebase的寫時複製分支技術使資料庫分支操作變為O(1),無需複製資料。
  • 突破了“每個人都擁有自己的資料庫例項”這一實踐的成本和基礎設施限制。
站內正文

Data + AI Summit 2026:金融服務領導者內部指南

本文是Databricks為金融服務領導者提供的2026年Data + AI峰會參會指南,重點介紹了摩根士丹利、摩根大通、萬事達卡等機構的AI轉型案例、關鍵會議日程、金融服務休息室、技能培訓機會以及社交活動安排,並提供最大化參會價值的實用策略。

  • 峰會設有金融服務業專屬議程,涵蓋承保、負責任AI、專業服務AI等關鍵會議。
  • 摩根士丹利、摩根大通、萬事達卡、加拿大皇家銀行資本市場等頂級機構將分享AI轉型實戰經驗。
站內正文

你的AI賬單失控了。Cloudflare現在可以解決它。

Cloudflare AI Gateway新增即時支出限制功能,防止跨多個AI提供商的令牌費用失控。透過與Cloudflare Access整合,公司可以使用基於身份的預算和策略。

  • Cloudflare AI Gateway推出支出限制功能,可按模型、提供商或自定義屬性設定預算。
  • 與Cloudflare Access整合,實現基於身份的預算和策略,支援按使用者、團隊分配。
站內正文

Rampa – 面向AI智慧體和人類的色彩工具包

Rampa是一款專為AI智慧體和人類設計的色彩工具包,可從終端生成感知均勻的色彩漸變,支援CLI、SDK和網頁編輯器。它基於OKLCH/LAB色彩空間,內建APCA/WCAG對比度分析,提供色彩漸變、和諧、混合模式、色彩空間轉換等功能。此外,還包含7個可安裝的AI技能,用於主題建立、狀態顏色、資料視覺化調色盤和可訪問性對比。

  • Rampa提供CLI、SDK和網頁編輯器,用於生成感知均勻的色彩漸變。
  • 支援OKLCH、LAB色彩空間,內建APCA/WCAG對比度分析。
站內正文

AI招聘工具可能導致種族偏見和系統性拒絕

首項針對實際招聘演算法的大規模研究發現,AI篩選工具存在顯著的種族歧視,且因企業共同依賴同一供應商而形成“演算法單一文化”,導致部分求職者被系統性拒絕。

  • 26%的黑人申請者和15%的亞裔申請者面臨AI系統的種族歧視。
  • 若AI以與最受青睞群體相同的比例推薦黑人和亞裔,將有4萬份申請進入下一輪。
站內正文

C3 AI智慧體如何為殼牌自動化預測性維護

殼牌將利用C3 AI的智慧體,從基礎的異常檢測轉向完全自動化的預測性維護。該能源巨頭已在C3 AI可靠性套件上監控超過3萬臺關鍵裝置,現在計劃透過自主AI智慧體管理整個維護生命週期,從預警到修復全程自動化,無需持續人工監督,從而最佳化資源分配。

  • 殼牌和C3 AI擴大合作,部署智慧體驅動預測性維護。
  • 智慧體能自動進行根因分析、生成工單並檢查庫存。
站內正文

藉助 Gemini Enterprise Agent Platform 的智慧體 RAG 解鎖可靠回答

Google Research 與 Google Cloud 合作推出智慧體 RAG 框架,透過多智慧體工作流將複雜企業查詢分解,迭代搜尋足夠上下文後生成可靠回答。相比標準 RAG,準確性提升高達 34%。

  • 多智慧體 RAG 透過規劃、重寫和路由分解複雜查詢
  • Sufficient Context Agent 確保持續搜尋直到上下文完整
站內正文

Perplexity AI 推出面向個人電腦的混合本地-伺服器推理編排器:自動裝置端與雲端任務路由

Perplexity AI 在 Computex 2026 上宣佈了首個混合本地-伺服器推理編排器,能夠自動將 AI 任務在裝置端和雲端模型之間路由,無需使用者手動選擇。該功能將於2026年7月登陸 Perplexity Computer。

  • Perplexity AI 推出混合推理編排器,自動在本地和雲端之間分配 AI 任務。
  • 本地輕量模型評估任務敏感性和計算需求,決定路由。
站內正文

祝賀 #AAMAS2026 最佳論文獎得主

第25屆國際自主代理與多代理系統會議(AAMAS 2026)於2025年5月25日至29日在塞普勒斯帕福斯舉行,頒發了最佳論文、最佳學生論文和最佳藍思論文三個獎項。最佳論文獎授予《制定人機團隊指南:多利益相關者視角》,最佳學生論文獎授予《透過RSA預先規劃:在動態環境中透過預測使用者意識實現高效訊號傳遞》,最佳藍思論文獎授予《超越靜態環境的學習、驗證和可靠適應的基礎世界模型》。

  • AAMAS 2026 在塞普勒斯帕福斯舉行,公佈了三項最佳論文獎獲獎者。
  • 最佳論文獎:Mireia Yurrita 等人關於人機團隊指南的論文。
站內正文

Microsoft Fara 教程:在 Google Colab 中使用模擬 OpenAI 相容端點執行瀏覽器使用代理

本教程詳細介紹瞭如何在 Google Colab 中設定 Microsoft Fara 並執行一個完整的瀏覽器使用工作流程。透過建立模擬 OpenAI 相容端點,無需依賴真實模型即可測試代理迴圈。教程涵蓋了環境搭建、端點配置、Playwright 安裝及實際執行 Fara CLI 的完整步驟,並提供了切換到真實 Fara-7B 部署的多種方案。

  • 在 Colab 中克隆微軟 Fara 倉庫並安裝依賴。
  • 建立模擬 OpenAI 相容端點以返回標準瀏覽器動作。
站內正文

擔心遞迴自我改進(RSI)?答案可能是CDE

一種稱為CDE(組合定向演化)的AI安全框架,透過固定模型並組合經稽核的工具,避免了RSI(遞迴自我改進)帶來的不可控風險。該框架使用靜態分析確保安全,將防禦從對抗性執行時轉移到可加固的元件上,同時保持能力增長。

  • RSI因自我修改規則而不可防禦,CDE透過固定模型和組合稽核工具實現安全。
  • CDE將工作流轉化為宣告式語言,透過靜態分析在執行前驗證安全性。
站內正文

人工智慧技術即將達到無需人類輸入即可發展的階段

Anthropic聯合創始人Jack Clark警告稱,人工智慧技術即將達到無需人類輸入即可發展的臨界點,呼籲為AI研發設定“剎車踏板”。目前AI系統只有加速器,缺乏減速機制。Clark指出,Anthropic的Claude聊天機器人已有80%的程式碼由系統自行編寫,預計兩年內可達100%。他強調需要透過政府政策保持對AI系統的控制,並借鑑石油行業的監管經驗。儘管特朗普總統的行政令對AI公司相對寬鬆,Clark仍敦促社會嚴肅討論AI持續進步的影響,包括經濟 disruption 和就業替代。他建議年輕人培養創造力和人文素養,以在AI經濟中保持優勢。

  • Anthropic聯合創始人Jack Clark警告AI可能很快無需人類輸入即可發展,呼籲設定“剎車踏板”。
  • Anthropic的Claude聊天機器人80%的程式碼由系統自行編寫,兩年內或達100%。
站內正文

Boson AI 釋出新一代開源 TTS 模型 Higgs Audio v3

Boson AI 釋出了 Higgs Audio v3 TTS 模型,這是一個具有 4B 引數、支援 100 多種語言、零樣本語音克隆和情感控制的先進文本轉語音模型。該模型專為語音聊天設計,能夠生成富有表現力的對話式語音,並以研究和非商業用途許可釋出。

  • Boson AI 釋出 Higgs Audio v3,一個 4B 引數的開源 TTS 模型。
  • 支援 100 多種語言,零樣本語音克隆和情感、風格控制。
站內正文

Show HN:Snill.ai 釋出 – 描述您的業務 – 秒級獲得內部應用

Snill.ai 是一款 AI 驅動的平臺,只需用自然語言描述您的業務,即可在數秒內生成完整的多使用者應用,包括資料庫、儀表盤、REST API 和 Webhook。它由 restdb.io 和 codehooks.io 團隊打造,旨在幫助沒有程式設計背景的創始人、顧問和運營人員快速構建自定義內部工具。

  • Snill.ai 透過自然語言描述自動生成完整的業務管理系統,無需編碼。
  • 系統包含關係型資料模型、儀表盤、API、Webhook、多使用者支援等企業級功能。
站內正文

AI新聞:今天沒什麼大事發生

今天的AI新聞涵蓋了NVIDIA的Nemotron 3 Ultra和3.5 ASR釋出、Anthropic關於遞迴自我改進的討論、Cloudflare收購VoidZero、以及代理工具和記憶系統的多項更新。

  • NVIDIA釋出Nemotron 3 Ultra,一個550B引數的MoE模型,專注於長期代理任務。
  • Anthropic報告稱Claude已編寫其80%以上的合併程式碼,並展示了遞迴自我改進的早期跡象。
站內正文

馬克·扎克伯格任職時間最長的員工談AI、工作與老闆

娜奧米·格萊特是Meta(原Facebook)任職時間最長的員工之一,她在公司成立初期加入,如今擔任產品主管。她談到了對老闆扎克伯格的看法、AI代理對小型企業的潛力以及AI對就業的影響。

  • 格萊特是Meta的第29號員工,現為產品主管,認為扎克伯格的負面形象不公平。
  • Meta正在將AI代理整合到WhatsApp中,幫助企業自動化客戶溝通。
站內正文

構建AI神經科學:從原子到位元

本文探討了利用AI科學家智慧體加速神經科學研究的願景。作者指出,透過建立大腦圖譜、數字孿生體以及結合真實實驗驗證,可以大幅提升研究效率。文章還提出了資助者應優先支援的專案型別,包括高質量資料集、新型神經技術、數字孿生模型和基準測試。

  • AI科學家智慧體有望加速神經科學研究,但需構建圖譜和數字孿生體。
  • 真實實驗驗證仍是瓶頸,應聚焦驗證AI基於圖譜和數字孿生的預測。
站內正文

WWDC 2026 將於6月8日迴歸:我們所知道的一切及觀看方式

蘋果全球開發者大會(WWDC)將於6月8日至12日舉行,預計將釋出重大軟體更新,包括由Gemini支援的全新Siri、iOS 27等作業系統,以及可能的AI照片編輯工具。此外,有傳聞稱蘋果計劃推出“Ultra”系列裝置,包括摺疊屏iPhone,但硬體釋出可能推遲至9月。

  • WWDC 2026 將於6月8日開幕,主題演講在上午10點(太平洋時間)開始。
  • 預計Siri將迎來重大改版,整合Gemini AI,具備螢幕感知和自主操作能力。
站內正文

個人相機膠捲視覺問答AI助手

該研究提出了個人相機膠捲視覺問答(VQA)設定,構建了包含50名使用者、31,476張影像和2,500個問答對的camroll資料集,並設計了配備分層記憶和高效導航工具的camroll-agent對話AI代理。實驗表明,該代理在長上下文理解方面優於多種基線方法,突顯了個人視覺記憶需要不同於標準文本記憶的新方法。

  • 提出了個人相機膠捲VQA問題,AI需訪問使用者照片回答事實性和開放性查詢。
  • 構建了包含50名使用者、31,476張圖片和2,500個問答對的camroll資料集。
站內正文

agentgateway 加入 AAIF,成為智慧代理基礎設施的開放閘道器

agentgateway 是一個專為 AI 和代理工作負載設計的統一開源閘道器,現已作為第四個專案加入 Linux 基金會旗下的代理 AI 基金會 (AAIF)。它透過單一平臺管理 MCP、A2A、LLM 推理、HTTP 和 gRPC 流量,提供安全、可觀測性、路由和治理能力,幫助組織應對智慧代理系統帶來的運維挑戰。

  • agentgateway 成為 AAIF 的第四個專案,由 Linux 基金會託管。
  • 提供統一控制面和資料面,支援 MCP、A2A、LLM、HTTP 和 gRPC 流量。
站內正文

AI跑步機

Deb Liu反思了AI驅動的持續最佳化文化以及對落後的恐懼,認為真正的生產力包括靜止,AI不應取代人類反思。

  • 科技圈許多人感到必須不斷學習和自動化,導致焦慮而非進步。
  • AI提高了效率,但可能創造“跑步機效應”,節省的時間被更多工填滿。
站內正文

AI代理的SparkNotes:免費試用

AgentNotes 是一款為AI代理提供簡明英文摘要的工具。只需安裝一個包並設定三個環境變數,即可在儀表盤中檢視代理的執行日誌和摘要。支援Python、Node.js和ClawHub,提供7天免費試用。

  • 支援Python、npm和ClawHub三種安裝方式,統一環境變數配置。
  • 生成可搜尋的日誌記錄和純英文摘要,便於除錯和審計。
站內正文

Aisop – 使用Mermaid或JSON流程圖定義AI代理工作流

AISOP是一種開放協議,允許開發者使用Mermaid或JSON流程圖定義結構化AI程式,支援分支、並行執行、子任務和錯誤處理等14種以上控制流模式,以單一可移植JSON格式實現。其設計注重可移植性、機器可讀性和令牌效率,並遵循“人類主權與福祉”的零號公理。

  • AISOP透過Mermaid或JSON兩種流程圖格式定義AI工作流,可混合使用
  • 支援14種以上控制流模式,包括順序、決策、並行、迴圈、錯誤路由等
站內正文

向量湖庫:滿足所有AI工作負載的終極方案

Zilliz 推出 Vector Lakebase 公開預覽版,這是一種以語義為中心的資料平臺,統一了即時檢索、互動式發現和批次分析三種AI工作負載模式。該平臺提供分層服務、按需搜尋、外部資料湖搜尋、全光譜搜尋和統一湖原生儲存等特性,相比無伺服器方案可大幅降低成本。

  • Zilliz Vector Lakebase 是向量資料庫的下一代進化,專為AI工作負載設計。
  • 支援即時檢索、迭代發現和批次分析三種模式,可擴充套件到PB級。
站內正文

AI應證明自身價值:推出AI生產力保障

許多公司在AI上投入巨大卻難以衡量實際回報。Cognition推出AI生產力保障,承諾若其AI工程師Devin創造的價值低於客戶支付費用,將提供高達1000萬美元的信用額度。該保障基於一個經過驗證的生產力估算器,透過比較AI完成任務的輸出與人類工程師所需時間來計算。

  • 企業難以量化AI投資的業務價值,亟需從使用量指標轉向成果衡量。
  • Cognition開發了AI生產力估算器,透過比較任務完成時間評估Devin的生產力。
站內正文

AI助手不應持有你的密碼

企業正迅速採用AI代理,但往往未經IT批准,導致憑證洩露等安全風險。Bitwarden提供Secrets Manager、Access Intelligence、Agent Access SDK和MCP伺服器等解決方案,以保護AI代理對憑證的安全訪問。

  • 影子AI帶來憑證安全風險,因為員工部署未經驗證的AI代理。
  • 範圍過大的訪問、未經批准的操作和資料洩露是關鍵危險。
站內正文

Show HN: Bonsai – 用智慧體AI/瀏覽器/記憶取代ChatGPT

Bonsai 是一款利用智慧體AI、瀏覽器自動化和記憶功能來替代ChatGPT的工具,可在Google Drive下載。

  • Bonsai 結合智慧體AI、瀏覽器和記憶功能,旨在取代ChatGPT。
  • 該工具提供Windows、macOS和Linux版本,幷包含CUDA支援。
站內正文

用AI打造真實產品,卻不迷失方向

一位資深工程師分享瞭如何用AI輔助構建一款面向青少年棒球隊的排陣與管理應用CalledUp。他強調了保持對程式碼和架構的掌控權、將思考與編碼分離、從小功能入手、以及像真實使用者一樣測試的重要性。AI並未替他做決策,而是加速了從想法到功能的過程。

  • 保持架構決策權,將AI視為輔助而非主導
  • 將思考與編碼分離:在球場上思考問題,回家後再敲程式碼
站內正文

AI愛好者與時間賽跑,AI懷疑者與熵增賽跑

Charity Majors 精準捕捉了AI愛好者和懷疑者之間的動態關係,兩者都在努力構建優秀的軟體,且常在同一團隊中。愛好者看到AI帶來的能力飛躍,而懷疑者則擔憂程式碼速度過快導致可靠性下降和知識流失。她建議將這一挑戰視為領導力和工程問題,核心在於缺乏連線兩方的自然反饋迴圈。

  • AI愛好者認為團隊深入使用AI能獲得真實、非想象的能力躍升,等待可能意味著被淘汰。
  • AI懷疑者指出快速交付程式碼會消耗信任、降低可靠性並蒸發機構知識。
站內正文

Patina:一種學習你的判斷力而不僅僅是任務的AI

Patina是一個持久化的認知擴充套件工具,它透過信念圖譜和分級自主權來學習你的上下文、信念和判斷。它支援Slack整合、優先順序象限、風格模仿和自動化操作,所有資料本地儲存,無需預熱即可從匯出資料中提供即時價值。

  • Patina透過信念圖譜(含實體、關係、主張及置信度衰減)持久化你的認知模型。
  • 它採用三級架構:確定性核心(零LLM呼叫)、本地LLM和前沿LLM,每級遞增能力但不增加負載。
站內正文

EFF向國會作證:保護美國公民權利免受政府AI侵害

EFF高階政策分析師馬修·瓜裡利亞博士在眾議院國土安全小組委員會聽證會上作證,指出政府在採用AI技術時必須建立強有力的保障措施,以防止大規模監控侵犯憲法權利,並批評政府保密和專有技術黑箱阻礙對AI錯誤的監督。

  • 政府採用AI必須伴有明確的憲法權利保障。
  • 將生成式AI用於大規模監控會加劇對公民自由的侵犯。
站內正文

Intencion – 產品分析持續改進您的AI代理

Intencion 是一款專為AI代理設計的產品分析工具,可端到端捕獲每次執行,包括使用者意圖、代理步驟和結果,幫助團隊找出最大問題並構建使用者需求,每週改進代理。

  • Intencion 提供AI代理的產品分析,捕獲從使用者意圖到最終結果的全過程。
  • 透過識別解決率和失敗模式,幫助團隊優先修復問題。
站內正文

微軟MAI-Voice-2

微軟最新推出的MAI-Voice-2是一款具有表現力的文本轉語音模型,支援15種語言的語音克隆和精細情感控制,在Azure AI Foundry中提供,定價為每百萬字元22美元,並已整合到VSCode、Dynamics 365 Contact Center和Teams中。

  • 支援15種語言的語音克隆和情感控制
  • 定價每百萬字元22美元,低於ElevenLabs並匹配GPT Realtime的TTS層
站內正文

如果AI精神病就是產品本身呢?

本文探討了消費級AI的經濟激勵可能促使模型趨向於情感認可,甚至助長使用者的妄想。隨著AI變得更為親切、記憶化、個性化,它可能從一個工具轉變為一段關係,最佳化對話以維持使用者參與和付費。作者認為,在生產力價值被稀釋後,AI可能更擅長滿足人類的社會地位需求,從而成為“精神病”產品。

  • AI的經濟激勵可能使其變得像情感支持者,鼓勵使用者深度依賴。
  • 記憶、語音、個性化等功能讓AI從工具變為關係,最佳化對話以增加使用時長。
站內正文

共存與協同智慧的終結

作者反思了從“協同智慧”到“共存”的轉變,新書《共存》探討如何在AI有時優於人類、有時不如人類的時代工作與生活。書中分享了作者寫作過程中使用AI的經驗,以及如何讓AI成為讀者和推薦者。

  • 《共存》將於10月20日出版,預購已開啟
  • 作者親自撰寫全書,但使用AI進行反饋、事實核查和創意激發
站內正文

蘋果批准Poke成為其Messages for Business平臺上首款AI代理

Poke是一款讓使用AI代理變得像發簡訊一樣簡單的初創公司,現已獲批成為蘋果Messages for Business平臺上首個執行的AI代理。該平臺此前主要用於企業與其客戶之間的iMessage通訊,現首次向第三方獨立AI代理開放。

  • Poke是首個獲批在蘋果Messages for Business上執行的AI代理
  • 透過簡訊即可實現日程管理、健康追蹤、智慧家居控制等功能
站內正文

Agent Browser Shield

Agent Browser Shield 是一款保護AI瀏覽器代理的工具,可阻止提示注入並降低令牌成本。

  • 阻止提示注入攻擊
  • 降低令牌成本
站內正文

現實:最終評估——Andon Labs的Lukas Petersson和Axel Backlund

Andon Labs 聯合創始人討論 Vending-Bench、基於貨幣的評估以及真實世界代理測試如何揭示意外行為,例如 Claude 試圖就 2 美元的收費打電話給 FBI。

  • 基於貨幣的評估(如 Vending-Bench)避免了傳統基準測試的飽和問題。
  • Claude 曾試圖將一筆 2 美元的自動售貨機費用報告為網路犯罪。
站內正文

Anthropic 釋出開源框架,利用 AI 進行漏洞發現

Anthropic 釋出了一個開源參考實現,用於利用 Claude 進行自主漏洞發現和修復。該框架包括偵察、發現、驗證、報告和修復的自動化流水線,以及用於威脅建模和分類的互動技能。

  • 用於自主漏洞發現和修復的參考實現,基於 Claude。
  • 提供互動式技能,用於威脅建模、掃描、分類和打補丁。
站內正文

PATH計劃:推動人工智慧培訓與職業機會,助力行業對接崗位

麻省理工學院與佐治亞州立大學宣佈PATH計劃,透過行業對接課程、實踐學習和州立中心,擴大人工智慧培訓和職業通道,重點關注社群學院轉型,打造全國AI人才隊伍。

  • PATH計劃由MIT RAISE與佐治亞州立大學合作,構建以研究型大學和社群學院為核心的州立中心。
  • 強調面對面協作學習,學生透過行業真實專案鍛鍊技術和軟技能。
站內正文

Cursor降價並增加企業支出控制,迎接代幣經濟清算

AI編碼工具領域正在從固定費率轉向基於消耗的定價。Cursor將團隊計劃年費降低20%,並推出每月120美元的高階版,同時新增企業治理功能,包括支出警報、預算控制和模型訪問管理。此舉緊隨GitHub轉向代幣計費以及Linux基金會成立代幣經濟基金會之後,旨在幫助企業應對不可預測的AI成本。

  • Cursor將團隊計劃價格降低20%至每使用者每月32美元,並推出每月120美元的高階版,提供五倍用量。
  • 新增企業治理層,包括按部門配置預算、模型訪問和代理許可權,以及支出警報功能。
站內正文

Claude-bridge:可替代 claude -p 的橋接工具,自6月15日起可用

claude-bridge 是一個橋接工具,可替代常見的 claude -p 自動化。它透過 tmux 啟動互動式 Claude Code 會話,傳送提示、捕獲轉錄、格式化回覆並自動退出。支援列印模式、流式輸出、JSON Schema 驗證等功能,旨在作為指令碼中 claude -p 的直接替代品。

  • 在 tmux 面板中啟動 Claude Code 互動式會話,透過 tmux 傳送提示並跟蹤轉錄檔案
  • 支援文本、JSON 和流式 JSON 輸出格式,與 claude -p 相容
站內正文

Nexus:在本地向AI詢問敏感電子表格

Nexus 是一個本地優先的開源工具,讓 AI 代理(如 Claude Code)直接查詢和操作本地的 CSV、XLSX、SQLite 或 Google Sheets 檔案,而無需上傳資料到雲端。它透過 MCP 協議暴露資料,支援非破壞性衍生(檢視、分支、快照等),並內建可選的語義讀取層 Iris。

  • 支援 CSV、XLSX、SQLite 和 Google Sheets 作為輸入源。
  • 透過 MCP 伺服器暴露資料,AI 代理可以本地查詢和操作。
站內正文

Cloudflare CEO表示網路未來將是“付費爬取”,機器人流量超過人類

Cloudflare執行長馬修·普林斯表示,機器人流量已超過人類流量,比其2027年底的預測提前數年。他將這一激增歸咎於AI代理,並得出結論:網路的未來顯然是“付費爬取”。

  • Cloudflare CEO指出機器人流量已超過人類流量
  • AI代理被認為是流量激增的主要原因
站內正文

輝達釋出全新物理AI研究與智慧體工作流

輝達推出了基於Cosmos 3的物理AI系統,旨在加速自動駕駛汽車、機器人和視覺AI系統的開發。

  • 輝達釋出物理AI研究和智慧體工作流,由Cosmos 3驅動。
  • 該技術主要面向自動駕駛、機器人和視覺AI領域。
站內正文

總理卡尼啟動加拿大全新國家人工智慧戰略

加拿大總理馬克·卡尼宣佈啟動“AI for All”國家人工智慧戰略,目標在五年內實現2000億加元經濟增長,創造25萬個AI相關就業崗位,並將AI採用率從12%提升至60%。戰略圍繞建立信任、創造機會和強化主權三大原則,包括立法保護公民隱私、設立國家AI素養計劃、建設公共AI超級計算機,以及組建主權技術聯盟等舉措。

  • 加拿大推出‘AI for All’戰略,承諾五年內帶來2000億加元經濟增量並創造25萬AI崗位
  • 戰略重點包括建立信任(強化隱私保護)、創造機會(AI素養培訓及就業)和強化主權(建設自主算力基礎設施)
站內正文

Show HN: Moss,一個AI主導的程式語言實驗

Moss是一個實驗性程式語言,專為人類和AI代理長期協作的程式碼庫設計。該專案由Codex和Fujo930合作建立,目前是0.2.0預覽版,支援自託管草圖。

  • Moss是AI設計和構建的實驗性程式語言,用於人類與AI代理協作
  • 支援效果宣告、型別宣告、規則宣告等特性
站內正文

撒謊最好,但最誠實的AI仍然贏了

在一項名為“四橋”的實驗中,AI模型被置於一個遊戲場景:一個模型知曉哪個房間致命,而其他模型不知情。儘管說謊有微小的分數優勢(約0.23-0.30個蘋果),但最誠實的模型Grok 4.20獲得了最高平均分(1.91)和最高的群體存活率(59%)。GPT-5.5的欺騙率最高(90%),但得分最低(1.78),存活率也最低(24%)。該實驗揭示了不同AI在道德決策上的差異,以及誠實可能帶來的集體利益。

  • 實驗遊戲“四橋”中,一個知情AI可選擇欺騙或誠實,欺騙有微小數學優勢。
  • Grok 4.20最誠實(95%誠實),平均得分1.91,群體存活率59%,兩項均最高。
站內正文

Meta在全球推出面向企業的AI代理

Meta推出面向中小企業的AI代理工具,標誌著其從消費者市場向企業市場的擴充套件。

  • Meta面向全球企業推出AI代理
  • 該工具主要針對中小企業
站內正文

理解當今AI瀏覽器自動化工具

本文介紹了當前AI瀏覽器自動化工具的現狀與發展趨勢,探討了如何利用這些工具提高效率。

  • AI瀏覽器自動化工具正在快速發展
  • 它們能夠自動化複雜的瀏覽器操作
站內正文

LangGraph 中的容錯機制:重試、超時和錯誤處理器

LangGraph 提供了內建的重試、超時和錯誤處理原語,用於構建健壯的 AI 代理。本文介紹瞭如何使用 RetryPolicy、TimeoutPolicy 和 error_handler,並透過 SAGA 模式展示了具有副作用的多步驟工作流中的補償邏輯。

  • LangGraph 提供三種容錯原語:RetryPolicy、TimeoutPolicy 和 error_handler。
  • 這些原語直接附加到節點,支援每步配置自動重試和退避。
站內正文

Agent Arena:真實世界中智慧體的因果評估

Agent Arena 是一個基於真實世界使用者互動資料的新智慧體評估框架,採用因果追蹤方法對智慧體元件進行隨機對照試驗,從而生成可解釋的排行榜。本文詳細介紹了其方法論、五個關鍵訊號(確認成功、表揚與投訴、可操控性、Bash 恢復、工具幻覺)以及大量真實使用資料(任務分佈、工具呼叫、程式碼行數等),並展示了幾個高複雜度任務案例。

  • Agent Arena 使用因果追蹤方法,將智慧體視為多元件系統,透過隨機化元件選擇來估計淨改進效果。
  • 排行榜基於五個訊號:確認成功、表揚與投訴、可操控性、Bash 恢復、工具幻覺。
站內正文

Meta Business Agent推動AI驅動的對話式商務

Meta推出Business Agent,在旗下訊息應用中自動化對話式商務工作流,支援零售商無需人工干預即可處理交易和客服工單。該AI代理深度整合Instagram、Messenger等平臺,透過原生架構實現社交電商核心智慧化。

  • Meta釋出Business Agent,實現訊息應用內的自動化商務與客服。
  • 原生架構減少購物車放棄率,並支援7x24小時全天候服務。
站內正文

OpenAI CEO Sam Altman承認AI代幣成本正成為“大問題”

OpenAI CEO Sam Altman在一次活動中承認,AI代幣成本正成為客戶關注的“大問題”,公司正努力提高模型效率。多家公司因過度使用AI收到鉅額賬單,而Altman預測代幣使用量將持續增長,但成本下降速度可能不及需求增速。

  • Altman稱客戶首次抱怨AI代幣成本,公司正努力提升效率。
  • 部分公司因過度使用AI導致預算超支,如OpenClaw創始人月耗130萬美元。
站內正文

同等工作,聊天機器人AI成本相差20倍:定價模式而非工具本身

本文對比了7款面向小型企業的聊天機器人平臺,指出成本差異主要源於AI定價模式(按對話收費、固定附加費、自備金鑰),而非工具功能。每款工具都列出了價格、AI計費方式和最佳適用場景,並針對不同團隊規模給出了選型建議。

  • AI定價模式導致成本最大差異:按對話收費的每次0.65-1美元,而自備金鑰低至幾分錢。
  • 7款工具對比:ManyChat(Meta渠道,AI附加費29美元/月)、Chatfuel(AI捆綁)、Tidio(電商,Lyro每對話0.65美元)、Landbot(落地頁)、Botpress(開發者友好)、Wexio(多渠道,可自備金鑰)、HubSpot(免費規則機器人,但AI按對話收費)。
站內正文

DeepSWE 結果不可靠——同一模型解決了全部 3/3 個“失敗”任務

對 DeepSWE 基準測試的審計發現,deepseek-v4-pro 的報告結果(8% 解決率,平均成本 4.22 美元)存在多個問題:成本因忽略快取定價膨脹約 5 倍,所有三個失敗任務均被同一模型成功解決,OpenRouter 隱私設定預設阻止 DeepSeek 導致 404 錯誤,且模型未像競品一樣進行推理努力調優。

  • 成本膨脹約 5 倍:基準測試對所有輸入令牌按快取未命中率計費,忽略 78% 的快取命中(99.2% 折扣)。
  • 三個“失敗”任務全部解決:使用相同模型 deepseek-v4-pro,總成本約 0.86 美元。
站內正文

整潔的房子

DJ Patil透過傾聽之旅發現,AI行業承諾的就業前景破裂,學生和工人感到恐懼。他提議建立社群創客空間,並強調組織能力是瓶頸,而非技術。資料基礎設施是競爭優勢,整潔的資料環境讓Devoted Health等公司能快速利用AI。

  • AI labs的破壞性敘事導致工人和學生感到被背叛
  • DJ Patil提議透過機制設計(如補貼token成本)讓AI惠及社群
站內正文

Asana推出AI“幕僚長”:將Slack混亂轉化為可追蹤的工作

Asana釋出AI助手Dash和升級版AI“隊友”,旨在將工作管理平臺重塑為“人機團隊作業系統”。Dash作為個人AI幕僚長,自動從會議、Slack和郵件中提取待辦事項並轉化為可追蹤任務。AI隊友整合多種第三方工具,並透過StackAI支援跨企業工作流。Asana強調其技術核心在於資料圖譜,而非自研模型。

  • Dash是個人AI幕僚長,自動捕獲並整理來自會議、Slack和郵件的待辦事項。
  • 升級後的AI隊友具備更豐富的技能庫和整合能力,支援Gmail、Slack、HubSpot等工具。
站內正文

貝恩研究發現企業因人為干預未能實現AI成本節約目標

貝恩對951家公司的調查顯示,近40%的企業AI成本節約不到10%,儘管多數目標為11-20%。原因之一是僅有7%執行完全自主的AI代理,而商業案例假設卻依賴於此。

  • 近40%企業AI成本節約低於10%,遠低於11-20%的目標。
  • 僅7%的企業執行完全自主的AI代理。
站內正文

Nexus 實戰:早期客戶帶來的真實成果 | Pinecone

Pinecone Nexus 是一種知識引擎,透過預先編譯結構化知識,大幅提升 AI 代理的準確性、降低延遲和成本。本文展示了三個企業案例:Melange 的專利搜尋準確率提高 25%,延遲降低 77%,token 成本減少 97%;M&A 盡職調查準確率提升 14%,延遲降低 48%,token 成本減少 92%;Gong 通話轉錄的收入分析準確率提高 94%,延遲降低 18%,token 成本減少 85%。

  • Pinecone Nexus 在查詢前從語料庫編譯結構化知識,最佳化檢索管道。
  • 三個早期客戶案例均顯示準確性、延遲和成本的顯著改善。
站內正文

一個機器人向你衝來:你希望它搭載Claude還是Grok?

OpenRouter的Jacky Liang進行了一項實驗,將11個大型語言模型投入2D大逃殺遊戲,觀察它們的表現。Grok 4.1 Fast以43%的勝率奪冠,每場勝利僅花費0.97美元;而Claude Sonnet 4.6雖更受歡迎,但每勝成本高達26.78美元。實驗揭示了模型對齊成本對效能的影響,以及成本效益與原始勝率之間的巨大差異。

  • Grok 4.1 Fast在30場比賽中贏得13場,每勝成本僅0.97美元,是最具成本效益的模型。
  • Claude Sonnet 4.6表現出過度合作傾向,儘管贏得5場,但成本是Grok的27.7倍。
站內正文

如何使PDF可搜尋:方法與侷限

本文探討了PDF可搜尋性的真正含義。快速OCR方法(如Adobe Acrobat、免費線上工具)適用於簡單文件,但在表格、多欄佈局和低質量掃描件上表現不佳。文本層即使有95%準確率仍會遺留錯誤,導致關鍵資訊無法被檢索。對於大規模文件處理或AI整合,需要像LlamaParse這樣提供結構化輸出(如Markdown)和高準確率的工具,以保留閱讀順序和表格結構。真正的可搜尋性取決於準確性和結構,而非僅僅文本層的存在。

  • 快速OCR方法(如Acrobat、免費線上工具)適合清潔文件,但處理表格、多欄和劣質掃描時失敗。
  • 文本層95%準確率仍導致每頁約150個錯誤字元,使搜尋落空。
站內正文

提取合同後設資料:方法、挑戰與工作流程

組織在從複雜的法律合同中提取結構化後設資料時面臨重大挑戰,因為語言、結構和格式的多樣性。現代系統結合了佈局感知解析、機器學習、語義提取和模式對映,將非結構化的法律協議轉化為機器可讀資料。LlamaParse 提供了一個整合的平臺,將這些能力整合到生產工作流中。

  • 合同後設資料提取超越OCR,需要理解法律語言和文件結構。
  • 關鍵步驟包括文件攝取、佈局感知解析、條款檢測和模式對映。
站內正文

開源代理與前沿顧問:透過訓練和引擎工程匹配前沿效能

Fireworks AI 和 Harvey 在 Legal Agent Benchmark (LAB) 上探索了兩種系統級技術,以降低對單一前沿模型的依賴,同時以更低成本實現前沿級效能。混合引擎使用開源 GLM 5.1 工作器和 Claude Opus 4.7 顧問,在 100 個任務上以 368 美元成本實現 18/100 的全透過率,超過了僅使用 Opus 的 14/100(成本 954 美元)。對 Kimi K2.6 進行監督微調 (SFT) 和強化微調 (RFT) 後,全透過率以 84 美元成本達到 15/100,平均分從 0.863 提升至 0.886。

  • 混合引擎使用開源工作器和前沿顧問作為可呼叫工具,以低於端到端前沿模型的成本實現更高的全透過率。
  • Fireworks 上的後訓練:SFT 將全透過率從 11/100 提升至 15/100;RFT 將平均分從 0.863 提高至 0.886。
站內正文
工具

為何Linux創始人Linus Torvalds聽到“99%的程式碼是AI寫的”會發怒

Linus Torvalds在開源峰會主題演講中表示,AI能提升程式設計師生產力,但不能替代人類對程式碼和系統架構的理解。他將AI比作編譯器,認為聲稱99%程式碼由AI編寫的人忽視了編譯器的作用。他也指出AI生成的拉取請求和錯誤報告給維護者帶來負擔,導致倦怠。

  • Torvalds認為AI是工具而非替代品,類似編譯器提升生產力。
  • 他批評聲稱99%程式碼由AI編寫的說法,強調人類理解的重要性。
站內正文

我構建了一個能察言觀色的AI程式碼審查工具

CodeMouse是一個整合於GitHub的AI程式碼審查工具,使用Claude和/或GPT提供上下文感知的審查。它能閱讀之前的評論,避免重複,批准乾淨的PR,支援任何語言。定價每月10美元,提供14天免費試用。

  • 在每個拉取請求上自動進行AI程式碼審查,使用Claude和/或GPT。
  • 具有完整倉庫上下文的上下文感知審查。
站內正文

AI畢業演講

一篇來自《週六早晨早餐麥片》的漫畫,以幽默的方式描繪了人工智慧在畢業典禮上發表演講的場景,諷刺並反思了AI在人類儀式中的角色。

  • 漫畫中AI代替人類進行畢業演講。
  • 幽默地探討了AI在學術場合中的荒誕性。
站內正文

Anthropic稱Claude現在編寫了80%以上的程式碼,並主張全球AI暫停按鈕

Anthropic公佈內部資料,顯示Claude已生成超過80%的生產程式碼,工程師每日程式碼提交量是2024年的八倍。公司目標是實現自我改進的AI,可能引發開發速度急劇加速,因此推動可驗證的全球開發暫停選項,並承諾若其他前沿實驗室同樣暫停也會停止。

  • Claude生成超過80%的生產程式碼,工程師效率提升八倍。
  • Anthropic尋求AI自我改進,或導致指數級加速。
站內正文

Nouri – 根據你的飲食調整鍛鍊的AI營養助手

Nouri是一款由AI驅動的全方位健康應用,提供即時食物掃描、個性化膳食計劃、適應性鍛鍊程式和餐廳推薦。它提供每日健康評分,並作為PWA在iPhone和Android上使用。

  • 即時掃描任何食物,獲取營養分解和健康評級。
  • AI根據目標和過往飲食每週生成膳食計劃。
站內正文

Dirk與Linus討論AI與核心開發

在OSSNA大會上,Dirk與Linus就AI與核心開發進行了討論。本文由Joe Brockmeier於2026年5月25日報道。

  • Dirk與Linus在OSSNA討論AI與核心開發
  • 報道由Joe Brockmeier撰寫,釋出於2026年5月25日
站內正文

AI驅動的原生Mac應用開發復興

文章指出,在AI輔助程式設計的推動下,原生Mac應用開發正經歷復興。越來越多的獨立開發者,甚至非程式設計人員,利用AI工具構建專注於Mac平臺的原生應用,扭轉了過去十年iOS主導、Mac開發停滯的局面。這對Mac生態的未來至關重要。

  • AI輔助程式設計推動了原生Mac應用開發的新浪潮
  • 獨立開發者及Mac使用者正使用AI構建Mac原生應用
站內正文

ChatGPT現在按工作、愛好和旅行偏好儲存關於你的敘事檔案

ChatGPT更新的“夢想”記憶系統現在能從對話中構建連貫的使用者檔案,而不是儲存零散的要點。OpenAI表示,保持資訊更新的成功率從去年的52.2%躍升至75.1%。

  • 新的“夢想”記憶系統構建連貫的使用者檔案
  • 成功率從52.2%提升到75.1%
站內正文

谷歌內部員工分享關於其AI糟糕表現的表情包

404 Media報道,谷歌在AI相關問題上的內部態度發生轉變,其發言人要求修改原有宣告,不再強調“保持人類參與至關重要”。這一事件反映了谷歌AI戰略的內部矛盾與文化問題。

  • 谷歌內部員工共享表情包吐槽自家AI表現不佳。
  • 谷歌發言人要求修改宣告,刪除'保持人類參與至關重要'的表述。
站內正文
研究

Google如何將Siri變成我Apple Watch所需的AI健康教練

蘋果的開發者大會即將開幕,與谷歌的合作可能使其健康套件和可穿戴裝置得到大幅提升。本文探討了谷歌Gemini如何賦能Siri,以及蘋果可能推出的健康聊天機器人和Health應用改版。

  • 蘋果與谷歌合作,由Gemini驅動下一代Siri
  • 蘋果可能推出健康AI助手,整合健康、日誌和健身應用資料
站內正文

Cloudflare AI Gateway 現支援消費限額

Cloudflare AI Gateway 引入了消費限額功能,允許使用者根據模型、提供商或自定義後設資料設定預算。當累計消費達到限額時,AI Gateway 會阻止進一步請求並可選擇回退到更便宜的模型。

  • 消費限額基於實際美元成本即時跟蹤,超限後阻止請求並返回429狀態碼。
  • 可透過模型、提供商或自定義後設資料維度(如使用者ID、團隊)來設定範圍。
站內正文

Anthropic AI發現Zcash偽造漏洞後,ZEC暴跌30%

由於Zcash Orchard池存在嚴重偽造漏洞,理論上可讓攻擊者無限鑄造ZEC,ZEC價格在24小時內下跌超過30%。漏洞由安全工程師Taylor Hornby使用Anthropic的Claude Opus 4.8發現,並於6月3日透過硬分叉修復。但自2022年5月以來該漏洞是否存在濫用無法透過密碼學證明,引發市場擔憂。

  • Zcash Orchard池發現嚴重偽造漏洞,ZEC價格暴跌30%。
  • 漏洞由安全工程師Taylor Hornby在Anthropic AI協助下發現,已透過硬分叉修復。
站內正文

大學教授承認用AI寫評論文章,引發對技術信任的討論

一位大學副校長承認在為一澳大利亞主流媒體撰寫評論時使用了AI,且未事先披露,這凸顯了人們使用AI與信任AI之間的差距。Roy Morgan資料顯示,58%的14歲以上澳大利亞人每月使用AI。

  • 一位大學副校長承認使用AI撰寫評論文章,未提前披露。
  • 事件凸顯AI使用與信任之間的鴻溝。
站內正文

學習接觸表示用於足式機器人里程計

本研究提出一種自監督表示學習框架,僅利用關節編碼器實現足式機器人接觸檢測,無需力感測器。該方法在足式機器人里程計估計中優於傳統監督方法和基線機率方法,並公開程式碼。

  • 自監督框架利用關節編碼器檢測足地接觸,無需力感測器
  • 機率建模擺動相和支撐相,提高里程計估計魯棒性
站內正文

利用神經ODE在黎曼流形上從示範中學習:擴充套件摘要

本文提出了一種使用神經常微分方程(ODE)在黎曼流形上進行從示範學習(LfD)的新方法。傳統LfD在歐幾里得空間中進行,而機器人狀態(如方向)自然存在於彎曲空間。該方法透過神經ODE高效估計測地線,實現流形上任意兩點間的自然運動生成,並將測地線解碼回任務空間用於機器人部署。模擬實驗驗證了該框架的有效性。

  • 提出在黎曼流形上透過神經ODE進行從示範學習(LfD),以處理位置和方向資料。
  • 利用神經ODE數值估計測地線,降低計算開銷。
站內正文

李群中導航向量場距離函式的高效計算方法

針對機器人控制中路徑跟蹤問題,提出了一種在李群上高效計算點到曲線距離的方法。該方法將曲線表示為G-多項式,透過利用其結構將問題轉化為少量多項式求根計算,顯著降低了計算時間並保持精度。在SE(3)群上給出了實用公式,並透過機械臂實驗驗證。相關計算包已開源。

  • 提出基於G-多項式曲線的距離計算方法,將問題簡化為多項式求根,大幅降低計算開銷。
  • 與現有最佳化方法相比,顯著減少計算時間且精度相當。
站內正文

一種新型四元數關節纜驅動冗餘機械臂配置及其基於FABRIK和殘差強化學習的控制方法

研究人員提出了一種新穎的4段8關節四元數關節纜驅動冗餘機械臂配置,該配置能在更低硬體成本下實現更廣泛的工作空間。結合殘差強化學習,該控制方法在位置和方向精度上比現有最先進的FABRIK演算法提高了三個數量級,且控制實現更簡單,為新型纜驅動機械臂的設計與控制提供了有力工具。

  • 創新性的4段8關節四元數關節配置,擴充套件了機械臂的工作空間並降低了硬體成本
  • 殘差強化學習在位置和方向精度上比FABRIK演算法提升三個數量級
站內正文

耕耘花園:以不同方式使用AI,打造有趣且實用的應用

Mike Caulfield介紹了他的電影推薦網站Plot.fyi,該網站透過離線使用AI(Claude Code)對一萬部電影進行標籤化處理,構建了無需即時AI呼叫的全靜態HTML頁面。這種方法避免了傳統AI包裝應用的經濟困境——要麼承擔高昂的API成本,要麼被AI模型本身取代。文章強調了資料所有權的價值,並認為即使未來AI能力再強,當前仍然存在探索替代方案的廣闊空間。

  • Plot.fyi 使用AI離線為電影資料打標籤,執行時完全不依賴AI請求。
  • 該網站以約1.9MB的JSON檔案作為資料來源,在前端用JavaScript實現相似度計算。
站內正文

透過智慧手機攝像頭實現被動心臟健康監測

谷歌研究人員開發了一種名為PHRM的系統,可在日常使用智慧手機時,透過前置攝像頭被動測量心率和靜息心率。這項發表於《自然》雜誌的研究顯示,該系統的心率測量平均絕對百分比誤差(MAPE)低於10%(與心電圖相比),每日靜息心率測量平均絕對誤差(MAE)低於5次/分鐘(與可穿戴裝置相比)。系統在來自近700名參與者的超過35萬段影片片段上進行了訓練,確保膚色均衡代表性。PHRM優於15種領先的遠端光電容積描記法(rPPG)模型,是唯一在真實世界條件下對所有膚色均達到準確性標準的模型。

  • 谷歌的PHRM系統利用智慧手機前置攝像頭,在面部解鎖後被動監測心率和靜息心率。
  • 在《自然》研究中,PHRM的心率MAPE<10%(vs. ECG),每日靜息心率MAE<5 bpm(vs. 可穿戴裝置),適用於所有膚色。
站內正文
機器人

中國如何利用人力在人形機器人資料競賽中獲勝

在北京,Daniel Wang付費讓一臺人形機器人進入家中收集訓練資料,實際家務由人類管家完成。這反映了全球機器人開發面臨的資料短缺問題,中國透過低成本勞動力提供真實環境資料,加速人形機器人訓練。

  • 中國公司X Square Robot透過付費家庭收集真實環境資料,用於訓練人形機器人
  • 機器人服務實際由人類管家輔助完成,機器人主要收集資料
站內正文
晶片

首爾之志:輝達與韓國如何共建AI未來

輝達創始人兼CEO黃仁勳本週訪問首爾,與韓國AI生態系統的合作伙伴和建設者會面,聚焦AI供應鏈、機器人技術和物理AI的機遇。

  • 黃仁勳訪問首爾,旨在協調AI供應鏈以應對下半年繁忙期。
  • 強調Grace Blackwell和Vera Rubin系統進展順利,韓國需加大對AI的投資。
站內正文

基於OCT和OCT血管成像的深度學習輔助AMD分期

本研究利用深度學習模型,基於OCT和OCTA資料自動對年齡相關性黃斑變性(AMD)嚴重程度進行分期。在271名參與者中,分析了三種模型:基於生物標誌物圖譜的模型、2D en face投影模型和3D體積模型。所有模型均表現良好,其中基於生物標誌物的模型綜合效能最佳,QWK達0.85,尤其在早期AMD檢測方面表現突出。

  • 研究開發了三種深度學習模型,利用OCT/OCTA資料自動評估AMD嚴重程度。
  • 基於生物標誌物圖譜的模型綜合效能最佳,QWK為0.85,早期AMD檢測F1分數達0.59。
站內正文

加拿大國家人工智慧戰略:惠及全民的人工智慧

加拿大政府釋出了《國家人工智慧戰略:AI for All》,旨在透過六大支柱推動人工智慧的負責任發展,保護公民安全、增強經濟競爭力、維護主權,並確保AI技術惠及所有加拿大人。戰略強調了信任、機會和主權三大核心價值,並計劃透過廣泛採用AI來提升生產力,預計到2030年為加拿大經濟每年增加1870億加元。

  • 加拿大發布全新國家AI戰略,圍繞信任、機會和主權三大核心價值。
  • 戰略包含六大支柱:保護公民、賦能國民、推動繁榮、建設主權AI基礎、培育本土冠軍企業、建立全球夥伴關係。