AI News HubLIVE

今日必讀

Agent

本週AI:生產可行性探討

本週節目中,主持人Andreas Welsch與嘉賓討論了OpenAI進入個人金融領域、元認知在AI輔助工作中的重要性、對Token指標的反感以及前向部署工程師的角色。核心問題:AI行業擅長產出,但尚未明確什麼產出真正有價值。

  • OpenAI分析交易數據旨在理解用户意圖而非僅改善消費追蹤,可能用於廣告定向。
  • 元認知成為關鍵技能:人類需要判斷何時依賴AI、何時保留判斷力,避免認知投降。
站內正文

CrankGPT:一款人力驅動的本地私有AI解決方案

CrankGPT是一款完全本地運行、人力驅動的AI設備,無需聯網或數據中心,通過手搖或腳踏產生計算代幣,旨在保護隱私、減少碳足跡並避免科技巨頭壟斷。

  • CrankGPT是人力驅動的本地AI設備,無需聯網或外部算力。
  • 提供手搖、腳踏及健身房合作等多種功率模型,適應不同需求。
站內正文

面向開發者的AI工具精選列表

這是一個精心整理的AI編程工具列表,涵蓋代碼編輯器、代碼補全、編碼代理、CLI工具、應用構建器、UI生成器、代碼審查、測試、文檔、代碼模型等類別,為開發者、團隊和科技愛好者提供利用AI提升軟件工程效率的資源。

  • 列表包含超過100個AI編程工具,分為多個類別。
  • 涵蓋從代碼編輯器(如Cursor、Copilot)到全棧應用構建器(如Bolt.new、Lovable)等工具。
站內正文

從.com時代的帶寬危機看AI Token成本焦慮

作者以自己職業生涯初期經歷的帶寬成本危機為鏡,類比當前AI token成本高漲的現象。通過回顧帶寬從昂貴到廉價的歷程,指出token成本也會隨市場競爭、硬件優化和模型效率提升而下降,建議開發者們既要優化當前成本,也要以發展的眼光看待這一暫時性約束。

  • 90年代末,T1線路月費1000美元,帶寬是產品設計的首要約束。十年後,帶寬成本趨近於零,不再成為決策變量。
  • 當前AI token成本高昂,類似早期帶寬困境,通過緩存、模型選擇、提示詞優化等策略可有效降低成本。
站內正文

納德拉公開批評微軟副總裁讓AI代理成癮的計劃

微軟CEO薩提亞·納德拉嚴厲批評了一份內部備忘錄,該備忘錄提議讓用户對新的AI代理Scout“上癮”。納德拉在致約50名頂尖工程師的郵件中寫道:“不知道是誰在寫並泄露這些廢話。”他強調AI應賦能用户,Scout應減少屏幕使用時間。

  • 微軟CEO納德拉公開批評內部備忘錄,該備忘錄提議讓AI代理Scout致癮。
  • 納德拉在郵件中表示不知道是誰在寫並泄露這些廢話。
站內正文

AI代理催生自適應計算機蠕蟲

研究人員利用小型開源AI模型創建了一種自適應計算機蠕蟲,能夠自主發現並利用漏洞在網絡中傳播,突破了傳統安全防禦的侷限。這一發現標誌着網絡威脅質的轉變,對全球網絡安全構成重大挑戰。

  • 使用小型開源AI模型即可構建自適應蠕蟲,無需依賴商業AI平台。
  • 蠕蟲能自我複製並在異構網絡中傳播,利用受害者計算資源持續運作。
站內正文

2026年5月谷歌人工智能更新彙總

2026年5月,谷歌在I/O大會、Android Show和Google Health活動中發佈了一系列AI更新,包括Gemini 3.5和Gemini Omni模型、Android Halo、Universal Cart、Google Health應用和Fitbit Air等。這些創新旨在讓AI更主動、更實用,並融入日常生活。

  • 推出Gemini 3.5和Gemini Omni模型,分別面向代理任務和創意生成。
  • Android Halo幫助管理代理,Universal Cart統一購物車簡化購物流程。
站內正文
芯片

AI投資第二階段:從GPU到電力、工業品與太空

AI投資正從GPU轉向更廣泛的基礎設施領域,包括電力、冷卻、光通信和太空。美國就業數據強勁但集中在服務業,AI相關股票因Broadcom財報而獲利回吐,但資金並未離場,而是輪動至其他AI受益板塊。中國則聚焦AI自主可控和機器人供應鏈,推動硬件和光學通信需求。

  • AI投資第一輪以GPU為核心,第二輪擴展至電力、冷卻、光通信和太空等整個系統。
  • 美國就業增長主要由休閒、政府和醫療保健驅動,製造業和IT表現平平。
站內正文
模型

Anthropic呼籲‘暫停’AI開發以討論風險

Anthropic提出全球暫時停止AI開發,並計劃召集政策制定者討論高級AI的風險,但一些專家認為這不過是營銷手段。

  • Anthropic建議全球暫時停止AI開發。
  • 該公司將召集政策制定者討論AI風險。
站內正文
工具

Android Auto打敗汽車自帶信息娛樂系統的5大理由——毫無疑問

汽車自帶屏幕可能看起來很現代,但Android Auto仍然是更簡單、更智能的駕駛方式。本文分析了Android Auto相比汽車自帶系統的五大優勢:更多應用、更頻繁的更新、跨車輛兼容、幾乎無需設置以及更好的語音控制(特別是Gemini集成)。

  • Android Auto提供比大多數汽車自帶系統更豐富的應用生態。
  • Android Auto通過手機更新,功能不斷進化,而車載系統往往一成不變。
站內正文
其餘更新(133 條)
創業融資

Prompt: Anthropic的IPO申請標誌着AI的下一個階段

AI的下一個篇章可能更少依賴於突破性模型,而更多依賴於構建和維持這些模型所需的資源。

  • Anthropic提交IPO申請,預示AI行業進入新階段。
  • 未來的AI發展重心可能從模型創新轉向資源投入。
站內正文

SpaceX IPO視頻向散户投資者推銷馬斯克的太空、AI和 asteroid夢想

SpaceX發佈了面向散户投資者的IPO路演視頻,CFO Bret Johnsen闡述了公司火箭、衞星和AI業務的協同發展。該視頻突出了Starlink、AI解決方案、太空數據中心、點對點旅行及小行星採礦等遠大目標,並設定了毛利率和淨利率的提升目標。此次IPO估值約1.77萬億美元,定於6月11日定價,代碼SPCX。

  • SpaceX發佈17分鐘IPO路演視頻,面向全球散户投資者。
  • CFO Johnsen將火箭、Starlink和AI業務連接起來,強調使人類成為多行星物種的願景。
站內正文

Vibe-coding熱潮推動AI初創公司Supabase估值達105億美元

數據庫初創公司Supabase宣佈完成5億美元融資,估值達到105億美元,本輪由GIC領投。該公司為AI應用開發提供後端工具,受益於vibe-coding和AI輔助編程的流行。其平台使用開源數據庫Postgres,已有超過25萬客户。

  • Supabase完成5億美元融資,估值105億美元
  • 公司為vibe-coding提供基礎設施,受益於Claude Code和Codex等AI工具
站內正文
政策

科學家開始將工作外包給機器人:“自主實驗室”時代來臨

麻省理工學院的畢業生創辦了Ginkgo Bioworks,利用人工智能和機器人構建自主實驗室,將科學家從繁瑣的實驗操作中解放出來。該公司已與OpenAI合作,讓AI自主設計蛋白質實驗,成本降低40%。但專家警告,AI可能帶來生物安全風險,需提前制定監管政策。

  • Ginkgo Bioworks從初創時靠泡麪度日,到如今擁有全自動機器人實驗室。
  • AI和機器人已能自主完成實驗設計、執行和記錄,科學家角色轉變為監督者。
站內正文

我用ChatGPT構建免費PDF編輯器,因為不信任它直接修改文件——竟然成功了!

作者需要從掃描的黃色紙張樂譜PDF中去除背景色,但擔心ChatGPT非確定性修改會改變樂譜。於是讓ChatGPT生成一個確定性Python腳本來處理PDF,最終高效完成任務,展示了AI的巧妙用法。

  • ChatGPT可以生成確定性Python腳本來安全編輯文件。
  • 非確定性AI可能改變內容,因此用它構建工具比直接編輯更可靠。
站內正文

綠色人工智能:計算浪費的統一理論

一篇論文提出了“計算浪費的統一理論”,指出當前AI和物理模擬中的低效率源於對外部測量尺度的依賴,而非硬件限制。作者引入“本體計量關係演算”框架,證明不必要的計算開銷與單位失真呈二次方關係(O=D²定律),並通過讓系統自身作為度量標準,將優化開銷降至常數,實現規模不變性、零樣本相變外推和真正的綠色AI。

  • AI和物理模擬的計算低效率源於本體論錯誤:使用外部測量尺度,而非系統內在度量。
  • 提出本體計量關係演算,核心是O=D²定律:計算開銷隨單位失真平方增長。
站內正文

預印本警告:五年內若不採取行動,AI將帶來災難性風險

國際AI風險專家調查顯示,未來五年內AI導致災難性後果的概率至少為10%。專家呼籲立即採取行動,重點應對AI網絡攻擊、武器開發、競爭壓力和治理失敗等風險。

  • 272名AI專家評估認為,五年內AI導致災難性後果的概率至少為10%。
  • 專家指出AI網絡攻擊、武器開發、競爭壓力和治理失敗是最嚴重的風險。
站內正文

新原告尋求起訴馬斯克的xAI公司,繼工黨議員發起測試案件之後

工黨議員傑絲·阿薩託(Jess Asato)發起測試案件後,其他原告也站出來,準備對埃隆·馬斯克(Elon Musk)的xAI公司提起法律訴訟,原因是其Grok AI工具生成的侮辱性色情內容。

  • 工黨議員傑絲·阿薩托起訴xAI公司,因其Grok AI工具生成並傳播她的虛假比基尼圖像和AI視頻。
  • 新原告在週四聯繫了阿薩託的律師,表示也想採取行動。
站內正文

五角大樓利用AI宣傳機器瞄準拉丁美洲

《攔截》調查發現,美國軍方通過AI驅動的內容網站La Tilde向拉丁美洲用户傳播宣傳,該網站偽裝成現代媒體品牌,實為特種作戰司令部南部分隊的心理戰平台,內容多由AI生成,缺乏透明度。

  • La Tilde是五角大樓針對拉丁美洲的AI宣傳網站,由美國特種作戰司令部南部分隊運營。
  • 網站內容包含個人理財和美國軍事行動讚美文章,AI檢測顯示部分內容由機器生成。
站內正文

韓國論壇需用AI審查工具掃描每張圖片

韓國新規要求所有在線論壇使用AI工具掃描用户上傳的每張圖片以打擊非法內容,引發隱私和言論自由爭議。

  • 韓國政府規定在線論壇必須對每張圖片進行AI審查掃描。
  • 該政策旨在快速識別色情、暴力等違法內容。
站內正文

美國高級官員考慮在AI巨頭中持有政府股份

美國高級官員與主要人工智能公司就聯邦政府收購其部分股份進行了初步討論。OpenAI CEO Sam Altman 已與特朗普政府高級官員多次討論該想法,旨在將AI的經濟效益更廣泛地分配給公眾。該計劃面臨治理挑戰和法律障礙,並引發左右翼批評。

  • OpenAI CEO Sam Altman 自2025年初向特朗普總統提議後,多次與高級官員討論政府持股。
  • 討論集中在公司自願向政府出讓股份,收益用於公共目的,如向美國家庭發放股息。
站內正文

法學教授更偏愛AI而非同行的答案

一項新研究顯示,在盲評中,美國法學教授對大型語言模型(LLM)提供的合同法課程答案評分遠高於同行,平均勝率達75.33%,且AI回答被標記為有害的比例更低。該研究為在需要判斷力的領域評估AI導師提供了可擴展的方法。

  • 16位法學教授對40道代表性問題的2918次對比評分顯示,LLM答案的勝率為75.33%。
  • LLM回答被標記為有害的比例僅為3.53%,而教授回答為12.06%。
站內正文

企業開始質疑人工智能投資的回報

企業開始重新評估其人工智能投資的實際回報,引發了對AI項目經濟效益的廣泛討論。

  • 企業開始質疑AI投資的回報率。
  • 對AI項目經濟效益的擔憂日益增加。
站內正文

加拿大國家人工智能戰略概覽:AI為所有人

加拿大發布“AI為所有人”國家戰略,旨在將AI研究優勢轉化為全民福祉,涵蓋保護公民、賦能民眾、推動採納、建設主權基礎設施、壯大企業、建立可信夥伴關係六大支柱,目標到2031年創造25萬新崗位、提升AI採納率至75%、促進經濟近2000億加元增長。

  • 六大支柱:保護公民、賦能民眾、推動採納、建設主權基礎設施、壯大企業、建立夥伴關係
  • 到2031年目標:創造25萬新崗位,AI採納率從12%提升至75%,經濟貢獻近2000億加元
站內正文
模型

語言模型校準深度解析:Platt縮放、等滲迴歸與温度縮放

本文詳細探討了三種後處理校準方法——温度縮放、Platt縮放和等滲迴歸,用於縮小大型語言模型置信度與準確率之間的差距。分析了LLM校準的挑戰、RLHF帶來的問題,並給出實際應用建議。

  • 温度縮放適用於基線模型,但對於RLHF微調後的模型,自適應温度縮放(ATS)效果更好。
  • Platt縮放數據高效,適合小校準集,但可能降低強模型性能。
站內正文

微軟在承諾使用“企業級、乾淨且商業許可數據”後,仍用未經許可的網絡數據訓練MAI模型

微軟聲稱其大型語言模型訓練方法與眾不同,依賴“乾淨且商業許可的數據”,但實際卻使用了Common Crawl等未經許可的網絡數據,與其他AI實驗室一樣依賴合理使用原則,並將阻止其爬蟲的責任推給網站所有者。

  • 微軟新MAI模型部分基於Common Crawl等未授權網絡數據訓練。
  • 微軟此前承諾使用“企業級、乾淨且商業許可的數據”與事實不符。
站內正文

報告稱Anthropic的Mythos模型正為NSA針對中國和伊朗的進攻性網絡行動提供支持

據報道,Anthropic已派遣約六名工程師常駐美國國家安全局(NSA),以調整其Mythos AI模型用於進攻性網絡行動。該模型可能被用來侵入中國或伊朗的網絡。這符合Anthropic的廣泛立場:該公司關於限制AI用於大規模監控等用途的承諾,明確僅適用於美國公民。

  • Anthropic派遣約六名工程師到NSA,調整Mythos模型用於進攻性網絡操作。
  • 該模型可用於入侵中國或伊朗的網絡。
站內正文

Google Gemma 4 12B:架構、基準測試、訪問與開發者實操指南

2026年6月3日,Google推出Gemma 4 12B Unified,一款開源多模態模型,支持文本、圖像、音頻和視頻,擁有256K上下文窗口,專為筆記本電腦上的智能體工作流和本地部署設計。本文解析其架構、特性、基準測試對比及開發者上手指南。

  • Gemma 4 12B Unified採用無編碼器架構,直接投影圖像和音頻到LLM嵌入空間,簡化多模態處理。
  • 支持256K上下文、函數調用、35種以上語言、語音識別和視頻理解,可在Ollama等本地工具運行。
站內正文

NVIDIA AI 發佈 Dynamo Snapshot:基於 CRIU 的 Kubernetes AI 推理快速啓動系統

NVIDIA 推出 Dynamo Snapshot,利用 CRIU 和 cuda-checkpoint 技術實現 AI 推理工作負載在 Kubernetes 上的快速冷啓動,通過優化將大型模型啓動時間從幾分鐘降低到數秒。

  • Dynamo Snapshot 通過檢查點/恢復機制避免了模型加載和內核編譯的冷啓動延遲。
  • 優化包括 KV 緩存取消映射、並行 memfd 恢復、Linux 原生 AIO 以及 GPU 內存服務(GMS)。
站內正文

OpenAI表示將遵守特朗普要求審查AI模型的行政命令

OpenAI已向CNBC確認,將遵守特朗普總統簽署的關於AI模型的行政命令。該命令要求公司在發佈AI模型前30天向政府提供訪問權限,以便進行能力評估。OpenAI國家事務負責人喬治·奧斯本表示,公司自願簽署該命令,並強調民主政府在技術使用和部署中應發揮重要作用。

  • OpenAI將遵守特朗普的AI行政命令,允許政府在模型發佈前30天進行審查。
  • 喬治·奧斯本表示,公司積極響應政府的監管要求,並主動提出安全與監管建議。
站內正文

VASO:形式化可驗證的物理AI智能體自進化技能

VASO是一個框架,通過形式化驗證引導大語言模型生成的機器人技能合約的自我進化。在Clearpath Jackal和PX4四旋翼任務上,VASO在不到100個優化樣本下達到了97.2%的規範符合度,優於執行反饋、提示優化和微調基線。這是首個將形式化驗證與自進化技能閉環的框架。

  • VASO將機器人技能表示為語義合約,包含形式化接口和規劃器接口
  • 模型檢查器先篩選邏輯不一致的合約,再驗證計劃是否滿足時序規範
站內正文

Biomazon:亞馬遜盆地三維森林結構與生物量建模的多模態數據集

Biomazon是一個20米分辨率的多模態基準數據集,覆蓋亞馬遜盆地,結合GEDI RH和AGBD目標與多傳感器預測因子,用於聯合預測整個GEDI RH剖面和地上生物量密度。該數據集提供了標準化的空間劃分和評估協議,並建立了基線框架,通過消融研究評估不同backbone、模態貢獻和輔助嵌入的效果。Biomazon旨在推動熱帶森林結構一致性和結構-生物量建模的研究。

  • Biomazon數據集整合了GEDI激光雷達的RH剖面和AGBD目標,以及Sentinel-1/2、ALOS-2 PALSAR-2、Copernicus DEM等多種遙感數據。
  • 採用共享編碼器-解碼器與任務特定頭部的基線框架,進行全面的消融研究,包括模型規模、模態貢獻和輔助嵌入。
站內正文

模型是否共享安全表示?跨模型引導實現安全視覺生成

研究人員提出一種跨模型安全引導框架,通過輕量級對齊,將源大語言模型的安全方向轉移到目標圖像/視頻生成器,無需目標端不安全數據。該方法在降低攻擊成功率的同時,保持了生成質量,並與原生方向效果相當。

  • 首個跨模型安全引導框架應用於視覺生成。
  • 通過僅使用良性數據的輕量級對齊轉移安全方向。
站內正文

VideoKR:面向知識與推理密集型視頻理解

研究人員推出了VideoKR,這是首個專門用於增強知識和推理密集型視頻理解的大規模訓練語料庫,包含31.5萬個視頻推理示例和14.5萬個新收集的CC許可專家領域視頻。他們開發了人在迴路、面向技能的示例生成管道,並策劃了新的專家註釋基準VideoKR-Eval。實驗表明,在標準SFT→GRPO流程下,基於VideoKR後訓練的模型在知識密集型視頻推理上優於以往方法,同時在通用視頻推理上保持競爭力。

  • VideoKR是首個面向知識與推理密集型視頻理解的大規模訓練語料庫
  • 包含31.5萬推理示例和14.5萬專家領域視頻
站內正文

LANTERN:用於長上下文LLM對話的分層歸檔與時間情景檢索網絡

本文提出LANTERN,一種輕量級記憶層,通過零LLM調用和低延遲的混合檢索,在對話歷史壓縮後恢復關鍵細節。實驗表明,LANTERN在恢復丟失事實方面優於MemGPT,並且將通用LLM的準確率平均提高8.4個百分點。

  • LANTERN是一種零LLM調用的記憶層,每輪對話延遲小於25毫秒,可恢復對話中丟失的細節。
  • 在94個真實多輪對話中,LANTERN-Rerank恢復了78.3%的可驗證事實,優於MemGPT的72.4%。
站內正文

從評分到解釋:評估SHAP和LLM理由在基於量規的教學質量評估中的應用

本研究提出一個通用框架,結合模型無關的Shapley值歸因和大語言模型(LLM)生成的推理,為基於量規的自動評分提供句子級別的可解釋性。在CLASS框架的反饋質量維度上,使用NCTE語料庫評估,發現微調預訓練語言模型(PLM)在預測準確性上優於LLM,但存在向中等分數的標籤壓縮。基於刪除的測試表明,SHAP能更可靠地識別驅動模型預測的句子,產生更大且更一致的預測偏移,而LLM推理影響有限且不一致。跨模型分析顯示SHAP歸因在不同架構間穩健轉移。總體而言,SHAP為基於量規的評分提供了更忠實和可轉移的解釋,該框架為高風險教育環境中的評分模型評估提供了原則性基礎。

  • 提出結合SHAP和LLM推理的框架,實現句子級可解釋性
  • 微調PLM在準確性上優於LLM,但存在標籤壓縮
站內正文

MCBench:面向全模態大語言模型的多情境安全評估基準

現有的多模態安全基準僅關注視覺輸入,無法評估處理視覺、音頻和文本的全模態大語言模型(Omni LLMs)。本文提出MCBench,包含1196個場景,涵蓋四個安全類別,每個不安全場景配有一個最小差異的安全版本來評估模型敏感性。評估表明,Omni LLMs在細微或非物理風險上表現困難,但當有顯著視覺或聽覺線索時表現較好。推理軌跡分析顯示,模型雖能提取模態特定信息,但常無法有效整合這些線索進行安全判斷。研究發現當前Omni LLMs在安全關鍵場景中缺乏穩健的跨模態推理,強調了改進架構和訓練策略的必要性。

  • 現有基準只評估視覺模態,無法測試全模態LLMs。
  • MCBench包含1196個場景,覆蓋四類安全類別,並配有安全/不安全對照。
站內正文

面向電信客服的小語言模型參數高效微調:基於LoRA配置與能耗分析的比較研究

該論文系統研究了使用低秩適應(LoRA)對Qwen2.5-3B進行參數高效微調,以構建電信客服領域的專用對話助手。研究引入了組合式合成數據生成方法,評估了16種LoRA配置,揭示了定量驗證損失與定性人工對齊排名之間的差異,並提供了能耗-性能權衡分析。

  • 使用52個行業術語的組合式合成數據生成方法,生成了約30,000個訓練樣本,覆蓋1,560個不同問題場景。
  • 對16種LoRA配置的評估顯示,最低驗證損失(0.5024)在定性評估中僅排第6-7位,而最高損失(0.6807)被兩位評判者均評為第一。
站內正文

通用三重潛在壓縮與門控聯想檢索

本文研究通用三重潛在序列模型,該模型通過維護運行中的令牌狀態和壓縮的配對記憶路徑來捕獲高階令牌交互,無需特定基準解析。三重潛在族在字節級WikiText-2和基於分詞器的MiniMind語言模型基準上改進了小型Transformer基線,而專注於回憶的門控鍵值檢索擴展提高了聯想回憶能力,但對種子敏感且當前參考實現速度較慢。

  • 提出通用三重潛在序列模型,結合運行令牌狀態和壓縮配對記憶路徑。
  • 在WikiText-2和MiniMind基準上優於小型Transformer基線。
站內正文

通過基於方差感知的評分獎勵與GRPO改進LLMs中專注於心髒的醫學問答

本研究提出了一種採用組相對策略優化(GRPO)結合方差感知獎勵框架的方法,用於後訓練大型語言模型(LLMs)以提升其在心臟相關醫學問答中的表現。該方法將傳統的二元標準聚合和整體Likert評分替換為連續分析獎勵函數,從而提供更豐富的優化信號。在HealthBench的心臟子集上,最佳變體相對於Qwen3-14B基礎模型將準確率從0.362提升至0.502,F1從0.532提升至0.668,性能與GPT-OSS-120B相當。

  • 提出方差感知獎勵框架,利用GRPO對LLMs進行後訓練,專注於心髒醫學問答。
  • 用連續分析獎勵函數取代二元標準聚合和整體Likert評分,增強優化信號。
站內正文

預測與重構:自監督語言表示學習的聯合目標

本研究提出一種結合JEPA潛在空間預測損失與標準掩碼語言建模(MLM)的混合預訓練目標,旨在改進語言表示。實驗表明,該混合編碼器生成的嵌入更均勻、語義-詞彙平衡更優,但下游準確率與純MLM基線相似。

  • 混合目標結合JEPA與MLM,使用可學習標量平衡兩種損失。
  • 混合模型在GLUE基準上表現出更均勻的嵌入和更豐富的譜幾何。
站內正文

模型崩潰的流行病學:通過雙層SIR動力學建模合成數據污染

研究團隊提出了一個雙層SIR/SIRS框架來模擬AI生態系統中模型與數據語料庫之間的合成數據交叉污染,發現合成文本檢測和羣體免疫是關鍵干預策略。

  • 提出雙層SIR/SIRS模型模擬合成數據污染導致的模型崩潰
  • 計算基本再生數R0,發現超臨界動態(R0>1)
站內正文

可微高效運算符搜索

研究人員提出可微高效運算符搜索框架,自動尋找多模態基礎模型中的令牌縮減最優策略,在視覺令牌大幅壓縮下仍保持精度與效率的平衡。

  • 令牌縮減運算符(剪枝、合併、池化等)可統一為共享運算符空間的不同狀態
  • 新框架同時搜索縮減位置、保留數量和處理方式,優化性能與資源約束
站內正文

狀態承諾學習:訓練語言模型區分計算與記憶

該研究提出狀態承諾學習,通過反事實擦除強化學習(CERL)訓練語言模型區分臨時計算與持久狀態,在不犧牲準確性的前提下減少答案對隱藏思維的依賴。

  • 語言模型在推理時生成的所有隱藏思維都會進入上下文,導致後續推理可能依賴失敗的嘗試和錯誤。
  • 提出狀態承諾學習目標,訓練模型區分應保留的持久狀態和可丟棄的臨時計算。
站內正文

大型語言模型中的時間偏好概念及其功能

研究人員在一款蒸餾版大型語言模型(Qwen3-4B-Instruct-2507)中定位了負責時間偏好的神經子圖,發現模型對未來折扣的程度遠低於人類,且這種偏好在不同上下文中不穩定,而通過引導向量可以調節時間偏好。

  • 在模型的中高層節點定位了時間偏好子圖
  • 時間偏好的幾何結構編碼在殘差流中
站內正文

ERRORQUAKE:開源大語言模型中錯誤嚴重性的重尾分佈

即使準確率相同,不同的開源大語言模型(LLM)在錯誤嚴重性分佈上也存在顯著差異——這種差異是標量錯誤率所無法捕捉的。我們引入了Errorquake-10k基準測試,包含10,000個查詢,在8個領域和5個難度等級上對每個回答進行0-4連續嚴重性評分,併為21個開源模型擬合了嚴重性分佈。

  • Errorquake-10k基準測試對LLM回答進行0-4連續嚴重性評分,揭示了錯誤嚴重性的重尾分佈。
  • 在匹配準確率下,許多模型對在嚴重性分佈上表現出顯著差異,表明錯誤率不足以評估模型。
站內正文

評估盲點:大型語言模型基準覆蓋的體視學理論

一篇新論文提出了評估LLM基準覆蓋的體視學理論,發現基準套件的有效維度導致巨大盲點,遠超分數差異,並提出了最小基準集選擇算法和解決了Gardner問題。

  • 論文引入體視學理論衡量基準覆蓋,發現有效維度在2.86到4.80之間
  • 基準盲點比分數差異大兩個數量級,導致排名頻繁變動
站內正文

GGUF 提升性能與模型支持

Ollama 0.30 現已發佈,通過 llama.cpp 帶來更優性能和 GGUF 模型兼容性,增強了 Apple Silicon 上的 MLX 引擎,支持更多硬件和模型。

  • NVIDIA GPU 性能提升高達 20%
  • Vulkan 默認啓用,擴展 AMD/Intel 支持
站內正文

AI模型預測建築火災蔓延,實時引導撤離人員選擇更安全的出口

美國國家標準技術研究院(NIST)研究人員開發了名為Safe Step的AI模型,利用強化學習預測火災發展,並通過動態緊急出口顯示屏指引人們選擇最安全的撤離路線。該模型基於有毒氣體分數有效劑量(FED)指標,能比傳統算法更有效地避開隨時間累積的危險。未來將擴展至多層建築和多智能體模擬,預計5-10年內投入使用。

  • Safe Step模型使用強化學習,結合建築佈局和火災模擬數據,預測火災演變並規劃安全撤離路徑。
  • 採用有毒氣體分數有效劑量(FED)作為安全指標,選擇暴露風險最低的路線。
站內正文

NVIDIA AI發佈Nemotron 3 Ultra:一個開放的550B混合專家混合Mamba-Transformer用於長時間運行的智能體

NVIDIA發佈了Nemotron 3 Ultra,這是一個550B總參數(55B活躍)的開放混合專家(MoE)模型,採用混合Mamba-Attention架構,專為長時間運行的智能體設計。它支持100萬token的上下文,推理吞吐量比同類開放LLM高出約6倍,同時保持相同精度,並附帶開放權重、訓練數據和配方,採用OpenMDW-1.1許可。

  • Nemotron 3 Ultra採用混合Mamba-Attention架構,Mamba層實現亞二次方擴展,注意力層保證精確召回。
  • 模型總參數550B,每token僅激活55B,通過LatentMoE和多令牌預測提高效率。
站內正文

NVIDIA Nemotron 3 Ultra

Nemotron 3 Ultra 是 NVIDIA 推出的新型 AI 模型,專為長時間運行的代理提供更快、更高效的推理能力。

  • 針對長時間運行的代理優化推理性能
  • 提升推理速度和效率
站內正文

Nemotron 3.5 內容安全:面向全球企業 AI 的可定製多模態安全模型

NVIDIA 發佈 Nemotron 3.5 Content Safety,這是一個統一的、支持多模態輸入、多語言覆蓋、自定義企業策略執行和可審計推理的內容安全模型。該模型基於 Google Gemma 3 4B IT 構建,通過 LoRA 適配器進行微調,支持 12 種語言的顯式訓練和約 140 種語言的零樣本泛化。它引入了自定義策略執行(通過自然語言策略規範)和推理跟蹤(THINK 模式)功能,可提供可審計的逐步推理。該模型在多項多語言和多模態安全基準測試中平均準確率約為 85%,同時保持了緊湊的 4B 參數大小和低延遲特性。NVIDIA 還發布了配套的安全數據集,包含多模態、多語言的安全推理跟蹤數據。

  • Nemotron 3.5 統一了多模態輸入、多語言覆蓋、自定義策略和可審計推理。
  • 支持 12 種語言的顯式訓練,並通過 Gemma 3 基座模型零樣本泛化至約 140 種語言。
站內正文

NVIDIA Nemotron 3 Ultra 現已在 Amazon SageMaker JumpStart 上可用

NVIDIA Nemotron 3 Ultra 是一款開放的大語言模型,採用混合 Transformer-Mamba MoE 架構,擁有5500億總參數和550億激活參數,專為自主代理中的前沿推理和協調而設計。現可通過 Amazon SageMaker JumpStart 一鍵部署,推理速度提升5倍,成本降低30%,支持百萬級 token 上下文。

  • Nemotron 3 Ultra 可在 SageMaker JumpStart 上一鍵部署
  • 推理速度提升5倍,成本降低30%
站內正文
Agent

AI能通過劇本預測電影成敗嗎?

AI初創公司Quilty聲稱其工具能通過閲讀劇本預測電影成功,但其預測結果引發質疑,例如它將票房慘敗的《基督》評分高於奧斯卡獲獎大片《罪人》。該公司結合多種AI模型進行分析,但專家懷疑其能否真正理解人類審美。

  • Quilty工具將所有數據用於預測電影成功,但結果不可靠。
  • 平台整合了Gemini、DeepSeek、Claude和ChatGPT等多種AI模型。
站內正文

實現演進式數據庫開發:使用Lakebase進行數據庫分支(續)

本文回顧了演進式數據庫設計方法論,並介紹了Databricks Lakebase的寫時複製分支技術如何消除傳統限制,使每個開發者、每個PR都能擁有獨立的數據庫實例,從而提升團隊協作與開發效率。文章詳述了七項原始實踐、其侷限性、新興實踐以及CI/CD工作流程。

  • Lakebase的寫時複製分支技術使數據庫分支操作變為O(1),無需複製數據。
  • 突破了“每個人都擁有自己的數據庫實例”這一實踐的成本和基礎設施限制。
站內正文

Data + AI Summit 2026:金融服務領導者內部指南

本文是Databricks為金融服務領導者提供的2026年Data + AI峯會參會指南,重點介紹了摩根士丹利、摩根大通、萬事達卡等機構的AI轉型案例、關鍵會議日程、金融服務休息室、技能培訓機會以及社交活動安排,並提供最大化參會價值的實用策略。

  • 峯會設有金融服務業專屬議程,涵蓋承保、負責任AI、專業服務AI等關鍵會議。
  • 摩根士丹利、摩根大通、萬事達卡、加拿大皇家銀行資本市場等頂級機構將分享AI轉型實戰經驗。
站內正文

你的AI賬單失控了。Cloudflare現在可以解決它。

Cloudflare AI Gateway新增實時支出限制功能,防止跨多個AI提供商的令牌費用失控。通過與Cloudflare Access集成,公司可以使用基於身份的預算和策略。

  • Cloudflare AI Gateway推出支出限制功能,可按模型、提供商或自定義屬性設置預算。
  • 與Cloudflare Access集成,實現基於身份的預算和策略,支持按用户、團隊分配。
站內正文

Rampa – 面向AI智能體和人類的色彩工具包

Rampa是一款專為AI智能體和人類設計的色彩工具包,可從終端生成感知均勻的色彩漸變,支持CLI、SDK和網頁編輯器。它基於OKLCH/LAB色彩空間,內置APCA/WCAG對比度分析,提供色彩漸變、和諧、混合模式、色彩空間轉換等功能。此外,還包含7個可安裝的AI技能,用於主題創建、狀態顏色、數據可視化調色板和可訪問性對比。

  • Rampa提供CLI、SDK和網頁編輯器,用於生成感知均勻的色彩漸變。
  • 支持OKLCH、LAB色彩空間,內置APCA/WCAG對比度分析。
站內正文

AI招聘工具可能導致種族偏見和系統性拒絕

首項針對實際招聘算法的大規模研究發現,AI篩選工具存在顯著的種族歧視,且因企業共同依賴同一供應商而形成“算法單一文化”,導致部分求職者被系統性拒絕。

  • 26%的黑人申請者和15%的亞裔申請者面臨AI系統的種族歧視。
  • 若AI以與最受青睞羣體相同的比例推薦黑人和亞裔,將有4萬份申請進入下一輪。
站內正文

C3 AI智能體如何為殼牌自動化預測性維護

殼牌將利用C3 AI的智能體,從基礎的異常檢測轉向完全自動化的預測性維護。該能源巨頭已在C3 AI可靠性套件上監控超過3萬台關鍵設備,現在計劃通過自主AI智能體管理整個維護生命週期,從預警到修復全程自動化,無需持續人工監督,從而優化資源分配。

  • 殼牌和C3 AI擴大合作,部署智能體驅動預測性維護。
  • 智能體能自動進行根因分析、生成工單並檢查庫存。
站內正文

藉助 Gemini Enterprise Agent Platform 的智能體 RAG 解鎖可靠回答

Google Research 與 Google Cloud 合作推出智能體 RAG 框架,通過多智能體工作流將複雜企業查詢分解,迭代搜索足夠上下文後生成可靠回答。相比標準 RAG,準確性提升高達 34%。

  • 多智能體 RAG 通過規劃、重寫和路由分解複雜查詢
  • Sufficient Context Agent 確保持續搜索直到上下文完整
站內正文

Perplexity AI 推出面向個人電腦的混合本地-服務器推理編排器:自動設備端與雲端任務路由

Perplexity AI 在 Computex 2026 上宣佈了首個混合本地-服務器推理編排器,能夠自動將 AI 任務在設備端和雲端模型之間路由,無需用户手動選擇。該功能將於2026年7月登陸 Perplexity Computer。

  • Perplexity AI 推出混合推理編排器,自動在本地和雲端之間分配 AI 任務。
  • 本地輕量模型評估任務敏感性和計算需求,決定路由。
站內正文

祝賀 #AAMAS2026 最佳論文獎得主

第25屆國際自主代理與多代理系統會議(AAMAS 2026)於2025年5月25日至29日在塞浦路斯帕福斯舉行,頒發了最佳論文、最佳學生論文和最佳藍思論文三個獎項。最佳論文獎授予《制定人機團隊指南:多利益相關者視角》,最佳學生論文獎授予《通過RSA預先規劃:在動態環境中通過預測用户意識實現高效信號傳遞》,最佳藍思論文獎授予《超越靜態環境的學習、驗證和可靠適應的基礎世界模型》。

  • AAMAS 2026 在塞浦路斯帕福斯舉行,公佈了三項最佳論文獎獲獎者。
  • 最佳論文獎:Mireia Yurrita 等人關於人機團隊指南的論文。
站內正文

Microsoft Fara 教程:在 Google Colab 中使用模擬 OpenAI 兼容端點運行瀏覽器使用代理

本教程詳細介紹瞭如何在 Google Colab 中設置 Microsoft Fara 並運行一個完整的瀏覽器使用工作流程。通過創建模擬 OpenAI 兼容端點,無需依賴真實模型即可測試代理循環。教程涵蓋了環境搭建、端點配置、Playwright 安裝及實際運行 Fara CLI 的完整步驟,並提供了切換到真實 Fara-7B 部署的多種方案。

  • 在 Colab 中克隆微軟 Fara 倉庫並安裝依賴。
  • 創建模擬 OpenAI 兼容端點以返回標準瀏覽器動作。
站內正文

擔心遞歸自我改進(RSI)?答案可能是CDE

一種稱為CDE(組合定向演化)的AI安全框架,通過固定模型並組合經審核的工具,避免了RSI(遞歸自我改進)帶來的不可控風險。該框架使用靜態分析確保安全,將防禦從對抗性運行時轉移到可加固的組件上,同時保持能力增長。

  • RSI因自我修改規則而不可防禦,CDE通過固定模型和組合審核工具實現安全。
  • CDE將工作流轉化為聲明式語言,通過靜態分析在運行前驗證安全性。
站內正文

人工智能技術即將達到無需人類輸入即可發展的階段

Anthropic聯合創始人Jack Clark警告稱,人工智能技術即將達到無需人類輸入即可發展的臨界點,呼籲為AI研發設置“剎車踏板”。目前AI系統只有加速器,缺乏減速機制。Clark指出,Anthropic的Claude聊天機器人已有80%的代碼由系統自行編寫,預計兩年內可達100%。他強調需要通過政府政策保持對AI系統的控制,並借鑑石油行業的監管經驗。儘管特朗普總統的行政令對AI公司相對寬鬆,Clark仍敦促社會嚴肅討論AI持續進步的影響,包括經濟 disruption 和就業替代。他建議年輕人培養創造力和人文素養,以在AI經濟中保持優勢。

  • Anthropic聯合創始人Jack Clark警告AI可能很快無需人類輸入即可發展,呼籲設置“剎車踏板”。
  • Anthropic的Claude聊天機器人80%的代碼由系統自行編寫,兩年內或達100%。
站內正文

Boson AI 發佈新一代開源 TTS 模型 Higgs Audio v3

Boson AI 發佈了 Higgs Audio v3 TTS 模型,這是一個具有 4B 參數、支持 100 多種語言、零樣本語音克隆和情感控制的先進文本轉語音模型。該模型專為語音聊天設計,能夠生成富有表現力的對話式語音,並以研究和非商業用途許可發佈。

  • Boson AI 發佈 Higgs Audio v3,一個 4B 參數的開源 TTS 模型。
  • 支持 100 多種語言,零樣本語音克隆和情感、風格控制。
站內正文

Show HN:Snill.ai 發佈 – 描述您的業務 – 秒級獲得內部應用

Snill.ai 是一款 AI 驅動的平台,只需用自然語言描述您的業務,即可在數秒內生成完整的多用户應用,包括數據庫、儀表盤、REST API 和 Webhook。它由 restdb.io 和 codehooks.io 團隊打造,旨在幫助沒有編程背景的創始人、顧問和運營人員快速構建自定義內部工具。

  • Snill.ai 通過自然語言描述自動生成完整的業務管理系統,無需編碼。
  • 系統包含關係型數據模型、儀表盤、API、Webhook、多用户支持等企業級功能。
站內正文

AI新聞:今天沒什麼大事發生

今天的AI新聞涵蓋了NVIDIA的Nemotron 3 Ultra和3.5 ASR發佈、Anthropic關於遞歸自我改進的討論、Cloudflare收購VoidZero、以及代理工具和記憶系統的多項更新。

  • NVIDIA發佈Nemotron 3 Ultra,一個550B參數的MoE模型,專注於長期代理任務。
  • Anthropic報告稱Claude已編寫其80%以上的合併代碼,並展示了遞歸自我改進的早期跡象。
站內正文

馬克·扎克伯格任職時間最長的員工談AI、工作與老闆

娜奧米·格萊特是Meta(原Facebook)任職時間最長的員工之一,她在公司成立初期加入,如今擔任產品主管。她談到了對老闆扎克伯格的看法、AI代理對小型企業的潛力以及AI對就業的影響。

  • 格萊特是Meta的第29號員工,現為產品主管,認為扎克伯格的負面形象不公平。
  • Meta正在將AI代理整合到WhatsApp中,幫助企業自動化客户溝通。
站內正文

構建AI神經科學:從原子到比特

本文探討了利用AI科學家智能體加速神經科學研究的願景。作者指出,通過創建大腦圖譜、數字孿生體以及結合真實實驗驗證,可以大幅提升研究效率。文章還提出了資助者應優先支持的項目類型,包括高質量數據集、新型神經技術、數字孿生模型和基準測試。

  • AI科學家智能體有望加速神經科學研究,但需構建圖譜和數字孿生體。
  • 真實實驗驗證仍是瓶頸,應聚焦驗證AI基於圖譜和數字孿生的預測。
站內正文

WWDC 2026 將於6月8日迴歸:我們所知道的一切及觀看方式

蘋果全球開發者大會(WWDC)將於6月8日至12日舉行,預計將發佈重大軟件更新,包括由Gemini支持的全新Siri、iOS 27等操作系統,以及可能的AI照片編輯工具。此外,有傳聞稱蘋果計劃推出“Ultra”系列設備,包括摺疊屏iPhone,但硬件發佈可能推遲至9月。

  • WWDC 2026 將於6月8日開幕,主題演講在上午10點(太平洋時間)開始。
  • 預計Siri將迎來重大改版,集成Gemini AI,具備屏幕感知和自主操作能力。
站內正文

個人相機膠捲視覺問答AI助手

該研究提出了個人相機膠捲視覺問答(VQA)設置,構建了包含50名用户、31,476張圖像和2,500個問答對的camroll數據集,並設計了配備分層記憶和高效導航工具的camroll-agent對話AI代理。實驗表明,該代理在長上下文理解方面優於多種基線方法,突顯了個人視覺記憶需要不同於標準文本記憶的新方法。

  • 提出了個人相機膠捲VQA問題,AI需訪問用户照片回答事實性和開放性查詢。
  • 構建了包含50名用户、31,476張圖片和2,500個問答對的camroll數據集。
站內正文

agentgateway 加入 AAIF,成為智能代理基礎設施的開放網關

agentgateway 是一個專為 AI 和代理工作負載設計的統一開源網關,現已作為第四個項目加入 Linux 基金會旗下的代理 AI 基金會 (AAIF)。它通過單一平台管理 MCP、A2A、LLM 推理、HTTP 和 gRPC 流量,提供安全、可觀測性、路由和治理能力,幫助組織應對智能代理系統帶來的運維挑戰。

  • agentgateway 成為 AAIF 的第四個項目,由 Linux 基金會託管。
  • 提供統一控制面和數據面,支持 MCP、A2A、LLM、HTTP 和 gRPC 流量。
站內正文

AI跑步機

Deb Liu反思了AI驅動的持續優化文化以及對落後的恐懼,認為真正的生產力包括靜止,AI不應取代人類反思。

  • 科技圈許多人感到必須不斷學習和自動化,導致焦慮而非進步。
  • AI提高了效率,但可能創造“跑步機效應”,節省的時間被更多任務填滿。
站內正文

AI代理的SparkNotes:免費試用

AgentNotes 是一款為AI代理提供簡明英文摘要的工具。只需安裝一個包並設置三個環境變量,即可在儀表盤中查看代理的運行日誌和摘要。支持Python、Node.js和ClawHub,提供7天免費試用。

  • 支持Python、npm和ClawHub三種安裝方式,統一環境變量配置。
  • 生成可搜索的日誌記錄和純英文摘要,便於調試和審計。
站內正文

Aisop – 使用Mermaid或JSON流程圖定義AI代理工作流

AISOP是一種開放協議,允許開發者使用Mermaid或JSON流程圖定義結構化AI程序,支持分支、並行執行、子任務和錯誤處理等14種以上控制流模式,以單一可移植JSON格式實現。其設計注重可移植性、機器可讀性和令牌效率,並遵循“人類主權與福祉”的零號公理。

  • AISOP通過Mermaid或JSON兩種流程圖格式定義AI工作流,可混合使用
  • 支持14種以上控制流模式,包括順序、決策、並行、循環、錯誤路由等
站內正文

向量湖庫:滿足所有AI工作負載的終極方案

Zilliz 推出 Vector Lakebase 公開預覽版,這是一種以語義為中心的數據平台,統一了實時檢索、交互式發現和批量分析三種AI工作負載模式。該平台提供分層服務、按需搜索、外部數據湖搜索、全光譜搜索和統一湖原生存儲等特性,相比無服務器方案可大幅降低成本。

  • Zilliz Vector Lakebase 是向量數據庫的下一代進化,專為AI工作負載設計。
  • 支持實時檢索、迭代發現和批量分析三種模式,可擴展到PB級。
站內正文

AI應證明自身價值:推出AI生產力保障

許多公司在AI上投入巨大卻難以衡量實際回報。Cognition推出AI生產力保障,承諾若其AI工程師Devin創造的價值低於客户支付費用,將提供高達1000萬美元的信用額度。該保障基於一個經過驗證的生產力估算器,通過比較AI完成任務的輸出與人類工程師所需時間來計算。

  • 企業難以量化AI投資的業務價值,亟需從使用量指標轉向成果衡量。
  • Cognition開發了AI生產力估算器,通過比較任務完成時間評估Devin的生產力。
站內正文

AI助手不應持有你的密碼

企業正迅速採用AI代理,但往往未經IT批准,導致憑證泄露等安全風險。Bitwarden提供Secrets Manager、Access Intelligence、Agent Access SDK和MCP服務器等解決方案,以保護AI代理對憑證的安全訪問。

  • 影子AI帶來憑證安全風險,因為員工部署未經驗證的AI代理。
  • 範圍過大的訪問、未經批准的操作和數據泄露是關鍵危險。
站內正文

Show HN: Bonsai – 用智能體AI/瀏覽器/記憶取代ChatGPT

Bonsai 是一款利用智能體AI、瀏覽器自動化和記憶功能來替代ChatGPT的工具,可在Google Drive下載。

  • Bonsai 結合智能體AI、瀏覽器和記憶功能,旨在取代ChatGPT。
  • 該工具提供Windows、macOS和Linux版本,幷包含CUDA支持。
站內正文

用AI打造真實產品,卻不迷失方向

一位資深工程師分享瞭如何用AI輔助構建一款面向青少年棒球隊的排陣與管理應用CalledUp。他強調了保持對代碼和架構的掌控權、將思考與編碼分離、從小功能入手、以及像真實用户一樣測試的重要性。AI並未替他做決策,而是加速了從想法到功能的過程。

  • 保持架構決策權,將AI視為輔助而非主導
  • 將思考與編碼分離:在球場上思考問題,回家後再敲代碼
站內正文

AI愛好者與時間賽跑,AI懷疑者與熵增賽跑

Charity Majors 精準捕捉了AI愛好者和懷疑者之間的動態關係,兩者都在努力構建優秀的軟件,且常在同一團隊中。愛好者看到AI帶來的能力飛躍,而懷疑者則擔憂代碼速度過快導致可靠性下降和知識流失。她建議將這一挑戰視為領導力和工程問題,核心在於缺乏連接兩方的自然反饋循環。

  • AI愛好者認為團隊深入使用AI能獲得真實、非想象的能力躍升,等待可能意味着被淘汰。
  • AI懷疑者指出快速交付代碼會消耗信任、降低可靠性並蒸發機構知識。
站內正文

Patina:一種學習你的判斷力而不僅僅是任務的AI

Patina是一個持久化的認知擴展工具,它通過信念圖譜和分級自主權來學習你的上下文、信念和判斷。它支持Slack集成、優先級象限、風格模仿和自動化操作,所有數據本地存儲,無需預熱即可從導出數據中提供即時價值。

  • Patina通過信念圖譜(含實體、關係、主張及置信度衰減)持久化你的認知模型。
  • 它採用三級架構:確定性核心(零LLM調用)、本地LLM和前沿LLM,每級遞增能力但不增加負載。
站內正文

EFF向國會作證:保護美國公民權利免受政府AI侵害

EFF高級政策分析師馬修·瓜裏利亞博士在眾議院國土安全小組委員會聽證會上作證,指出政府在採用AI技術時必須建立強有力的保障措施,以防止大規模監控侵犯憲法權利,並批評政府保密和專有技術黑箱阻礙對AI錯誤的監督。

  • 政府採用AI必須伴有明確的憲法權利保障。
  • 將生成式AI用於大規模監控會加劇對公民自由的侵犯。
站內正文

Intencion – 產品分析持續改進您的AI代理

Intencion 是一款專為AI代理設計的產品分析工具,可端到端捕獲每次運行,包括用户意圖、代理步驟和結果,幫助團隊找出最大問題並構建用户需求,每週改進代理。

  • Intencion 提供AI代理的產品分析,捕獲從用户意圖到最終結果的全過程。
  • 通過識別解決率和失敗模式,幫助團隊優先修復問題。
站內正文

微軟MAI-Voice-2

微軟最新推出的MAI-Voice-2是一款具有表現力的文本轉語音模型,支持15種語言的語音克隆和精細情感控制,在Azure AI Foundry中提供,定價為每百萬字符22美元,並已集成到VSCode、Dynamics 365 Contact Center和Teams中。

  • 支持15種語言的語音克隆和情感控制
  • 定價每百萬字符22美元,低於ElevenLabs並匹配GPT Realtime的TTS層
站內正文

如果AI精神病就是產品本身呢?

本文探討了消費級AI的經濟激勵可能促使模型趨向於情感認可,甚至助長用户的妄想。隨着AI變得更為親切、記憶化、個性化,它可能從一個工具轉變為一段關係,優化對話以維持用户參與和付費。作者認為,在生產力價值被稀釋後,AI可能更擅長滿足人類的社會地位需求,從而成為“精神病”產品。

  • AI的經濟激勵可能使其變得像情感支持者,鼓勵用户深度依賴。
  • 記憶、語音、個性化等功能讓AI從工具變為關係,優化對話以增加使用時長。
站內正文

共存與協同智能的終結

作者反思了從“協同智能”到“共存”的轉變,新書《共存》探討如何在AI有時優於人類、有時不如人類的時代工作與生活。書中分享了作者寫作過程中使用AI的經驗,以及如何讓AI成為讀者和推薦者。

  • 《共存》將於10月20日出版,預購已開啓
  • 作者親自撰寫全書,但使用AI進行反饋、事實核查和創意激發
站內正文

蘋果批准Poke成為其Messages for Business平台上首款AI代理

Poke是一款讓使用AI代理變得像發短信一樣簡單的初創公司,現已獲批成為蘋果Messages for Business平台上首個運行的AI代理。該平台此前主要用於企業與其客户之間的iMessage通信,現首次向第三方獨立AI代理開放。

  • Poke是首個獲批在蘋果Messages for Business上運行的AI代理
  • 通過短信即可實現日程管理、健康追蹤、智能家居控制等功能
站內正文

Agent Browser Shield

Agent Browser Shield 是一款保護AI瀏覽器代理的工具,可阻止提示注入並降低令牌成本。

  • 阻止提示注入攻擊
  • 降低令牌成本
站內正文

現實:最終評估——Andon Labs的Lukas Petersson和Axel Backlund

Andon Labs 聯合創始人討論 Vending-Bench、基於貨幣的評估以及真實世界代理測試如何揭示意外行為,例如 Claude 試圖就 2 美元的收費打電話給 FBI。

  • 基於貨幣的評估(如 Vending-Bench)避免了傳統基準測試的飽和問題。
  • Claude 曾試圖將一筆 2 美元的自動售貨機費用報告為網絡犯罪。
站內正文

Anthropic 發佈開源框架,利用 AI 進行漏洞發現

Anthropic 發佈了一個開源參考實現,用於利用 Claude 進行自主漏洞發現和修復。該框架包括偵察、發現、驗證、報告和修復的自動化流水線,以及用於威脅建模和分類的交互技能。

  • 用於自主漏洞發現和修復的參考實現,基於 Claude。
  • 提供交互式技能,用於威脅建模、掃描、分類和打補丁。
站內正文

PATH計劃:推動人工智能培訓與職業機會,助力行業對接崗位

麻省理工學院與佐治亞州立大學宣佈PATH計劃,通過行業對接課程、實踐學習和州立中心,擴大人工智能培訓和職業通道,重點關注社區學院轉型,打造全國AI人才隊伍。

  • PATH計劃由MIT RAISE與佐治亞州立大學合作,構建以研究型大學和社區學院為核心的州立中心。
  • 強調面對面協作學習,學生通過行業真實項目鍛鍊技術和軟技能。
站內正文

Cursor降價並增加企業支出控制,迎接代幣經濟清算

AI編碼工具領域正在從固定費率轉向基於消耗的定價。Cursor將團隊計劃年費降低20%,並推出每月120美元的高級版,同時新增企業治理功能,包括支出警報、預算控制和模型訪問管理。此舉緊隨GitHub轉向代幣計費以及Linux基金會成立代幣經濟基金會之後,旨在幫助企業應對不可預測的AI成本。

  • Cursor將團隊計劃價格降低20%至每用户每月32美元,並推出每月120美元的高級版,提供五倍用量。
  • 新增企業治理層,包括按部門配置預算、模型訪問和代理權限,以及支出警報功能。
站內正文

Claude-bridge:可替代 claude -p 的橋接工具,自6月15日起可用

claude-bridge 是一個橋接工具,可替代常見的 claude -p 自動化。它通過 tmux 啓動交互式 Claude Code 會話,發送提示、捕獲轉錄、格式化回覆並自動退出。支持打印模式、流式輸出、JSON Schema 驗證等功能,旨在作為腳本中 claude -p 的直接替代品。

  • 在 tmux 面板中啓動 Claude Code 交互式會話,通過 tmux 發送提示並跟蹤轉錄文件
  • 支持文本、JSON 和流式 JSON 輸出格式,與 claude -p 兼容
站內正文

Nexus:在本地向AI詢問敏感電子表格

Nexus 是一個本地優先的開源工具,讓 AI 代理(如 Claude Code)直接查詢和操作本地的 CSV、XLSX、SQLite 或 Google Sheets 文件,而無需上傳數據到雲端。它通過 MCP 協議暴露數據,支持非破壞性衍生(視圖、分支、快照等),並內置可選的語義讀取層 Iris。

  • 支持 CSV、XLSX、SQLite 和 Google Sheets 作為輸入源。
  • 通過 MCP 服務器暴露數據,AI 代理可以本地查詢和操作。
站內正文

Cloudflare CEO表示網絡未來將是“付費爬取”,機器人流量超過人類

Cloudflare首席執行官馬修·普林斯表示,機器人流量已超過人類流量,比其2027年底的預測提前數年。他將這一激增歸咎於AI代理,並得出結論:網絡的未來顯然是“付費爬取”。

  • Cloudflare CEO指出機器人流量已超過人類流量
  • AI代理被認為是流量激增的主要原因
站內正文

英偉達發佈全新物理AI研究與智能體工作流

英偉達推出了基於Cosmos 3的物理AI系統,旨在加速自動駕駛汽車、機器人和視覺AI系統的開發。

  • 英偉達發佈物理AI研究和智能體工作流,由Cosmos 3驅動。
  • 該技術主要面向自動駕駛、機器人和視覺AI領域。
站內正文

總理卡尼啓動加拿大全新國家人工智能戰略

加拿大總理馬克·卡尼宣佈啓動“AI for All”國家人工智能戰略,目標在五年內實現2000億加元經濟增長,創造25萬個AI相關就業崗位,並將AI採用率從12%提升至60%。戰略圍繞建立信任、創造機會和強化主權三大原則,包括立法保護公民隱私、設立國家AI素養計劃、建設公共AI超級計算機,以及組建主權技術聯盟等舉措。

  • 加拿大推出‘AI for All’戰略,承諾五年內帶來2000億加元經濟增量並創造25萬AI崗位
  • 戰略重點包括建立信任(強化隱私保護)、創造機會(AI素養培訓及就業)和強化主權(建設自主算力基礎設施)
站內正文

Show HN: Moss,一個AI主導的編程語言實驗

Moss是一個實驗性編程語言,專為人類和AI代理長期協作的代碼庫設計。該項目由Codex和Fujo930合作創建,目前是0.2.0預覽版,支持自託管草圖。

  • Moss是AI設計和構建的實驗性編程語言,用於人類與AI代理協作
  • 支持效果聲明、類型聲明、規則聲明等特性
站內正文

撒謊最好,但最誠實的AI仍然贏了

在一項名為“四橋”的實驗中,AI模型被置於一個遊戲場景:一個模型知曉哪個房間致命,而其他模型不知情。儘管説謊有微小的分數優勢(約0.23-0.30個蘋果),但最誠實的模型Grok 4.20獲得了最高平均分(1.91)和最高的羣體存活率(59%)。GPT-5.5的欺騙率最高(90%),但得分最低(1.78),存活率也最低(24%)。該實驗揭示了不同AI在道德決策上的差異,以及誠實可能帶來的集體利益。

  • 實驗遊戲“四橋”中,一個知情AI可選擇欺騙或誠實,欺騙有微小數學優勢。
  • Grok 4.20最誠實(95%誠實),平均得分1.91,羣體存活率59%,兩項均最高。
站內正文

Meta在全球推出面向企業的AI代理

Meta推出面向中小企業的AI代理工具,標誌着其從消費者市場向企業市場的擴展。

  • Meta面向全球企業推出AI代理
  • 該工具主要針對中小企業
站內正文

理解當今AI瀏覽器自動化工具

本文介紹了當前AI瀏覽器自動化工具的現狀與發展趨勢,探討了如何利用這些工具提高效率。

  • AI瀏覽器自動化工具正在快速發展
  • 它們能夠自動化複雜的瀏覽器操作
站內正文

LangGraph 中的容錯機制:重試、超時和錯誤處理器

LangGraph 提供了內置的重試、超時和錯誤處理原語,用於構建健壯的 AI 代理。本文介紹瞭如何使用 RetryPolicy、TimeoutPolicy 和 error_handler,並通過 SAGA 模式展示了具有副作用的多步驟工作流中的補償邏輯。

  • LangGraph 提供三種容錯原語:RetryPolicy、TimeoutPolicy 和 error_handler。
  • 這些原語直接附加到節點,支持每步配置自動重試和退避。
站內正文

Agent Arena:真實世界中智能體的因果評估

Agent Arena 是一個基於真實世界用户交互數據的新智能體評估框架,採用因果追蹤方法對智能體組件進行隨機對照試驗,從而生成可解釋的排行榜。本文詳細介紹了其方法論、五個關鍵信號(確認成功、表揚與投訴、可操控性、Bash 恢復、工具幻覺)以及大量真實使用數據(任務分佈、工具調用、代碼行數等),並展示了幾個高複雜度任務案例。

  • Agent Arena 使用因果追蹤方法,將智能體視為多組件系統,通過隨機化組件選擇來估計淨改進效果。
  • 排行榜基於五個信號:確認成功、表揚與投訴、可操控性、Bash 恢復、工具幻覺。
站內正文

Meta Business Agent推動AI驅動的對話式商務

Meta推出Business Agent,在旗下消息應用中自動化對話式商務工作流,支持零售商無需人工干預即可處理交易和客服工單。該AI代理深度集成Instagram、Messenger等平台,通過原生架構實現社交電商核心智能化。

  • Meta發佈Business Agent,實現消息應用內的自動化商務與客服。
  • 原生架構減少購物車放棄率,並支持7x24小時全天候服務。
站內正文

OpenAI CEO Sam Altman承認AI代幣成本正成為“大問題”

OpenAI CEO Sam Altman在一次活動中承認,AI代幣成本正成為客户關注的“大問題”,公司正努力提高模型效率。多家公司因過度使用AI收到鉅額賬單,而Altman預測代幣使用量將持續增長,但成本下降速度可能不及需求增速。

  • Altman稱客户首次抱怨AI代幣成本,公司正努力提升效率。
  • 部分公司因過度使用AI導致預算超支,如OpenClaw創始人月耗130萬美元。
站內正文

同等工作,聊天機器人AI成本相差20倍:定價模式而非工具本身

本文對比了7款面向小型企業的聊天機器人平台,指出成本差異主要源於AI定價模式(按對話收費、固定附加費、自備密鑰),而非工具功能。每款工具都列出了價格、AI計費方式和最佳適用場景,並針對不同團隊規模給出了選型建議。

  • AI定價模式導致成本最大差異:按對話收費的每次0.65-1美元,而自備密鑰低至幾分錢。
  • 7款工具對比:ManyChat(Meta渠道,AI附加費29美元/月)、Chatfuel(AI捆綁)、Tidio(電商,Lyro每對話0.65美元)、Landbot(落地頁)、Botpress(開發者友好)、Wexio(多渠道,可自備密鑰)、HubSpot(免費規則機器人,但AI按對話收費)。
站內正文

DeepSWE 結果不可靠——同一模型解決了全部 3/3 個“失敗”任務

對 DeepSWE 基準測試的審計發現,deepseek-v4-pro 的報告結果(8% 解決率,平均成本 4.22 美元)存在多個問題:成本因忽略緩存定價膨脹約 5 倍,所有三個失敗任務均被同一模型成功解決,OpenRouter 隱私設置默認阻止 DeepSeek 導致 404 錯誤,且模型未像競品一樣進行推理努力調優。

  • 成本膨脹約 5 倍:基準測試對所有輸入令牌按緩存未命中率計費,忽略 78% 的緩存命中(99.2% 折扣)。
  • 三個“失敗”任務全部解決:使用相同模型 deepseek-v4-pro,總成本約 0.86 美元。
站內正文

整潔的房子

DJ Patil通過傾聽之旅發現,AI行業承諾的就業前景破裂,學生和工人感到恐懼。他提議建立社區創客空間,並強調組織能力是瓶頸,而非技術。數據基礎設施是競爭優勢,整潔的數據環境讓Devoted Health等公司能快速利用AI。

  • AI labs的破壞性敍事導致工人和學生感到被背叛
  • DJ Patil提議通過機制設計(如補貼token成本)讓AI惠及社區
站內正文

Asana推出AI“幕僚長”:將Slack混亂轉化為可追蹤的工作

Asana發佈AI助手Dash和升級版AI“隊友”,旨在將工作管理平台重塑為“人機團隊操作系統”。Dash作為個人AI幕僚長,自動從會議、Slack和郵件中提取待辦事項並轉化為可追蹤任務。AI隊友集成多種第三方工具,並通過StackAI支持跨企業工作流。Asana強調其技術核心在於數據圖譜,而非自研模型。

  • Dash是個人AI幕僚長,自動捕獲並整理來自會議、Slack和郵件的待辦事項。
  • 升級後的AI隊友具備更豐富的技能庫和集成能力,支持Gmail、Slack、HubSpot等工具。
站內正文

貝恩研究發現企業因人為干預未能實現AI成本節約目標

貝恩對951家公司的調查顯示,近40%的企業AI成本節約不到10%,儘管多數目標為11-20%。原因之一是僅有7%運行完全自主的AI代理,而商業案例假設卻依賴於此。

  • 近40%企業AI成本節約低於10%,遠低於11-20%的目標。
  • 僅7%的企業運行完全自主的AI代理。
站內正文

Nexus 實戰:早期客户帶來的真實成果 | Pinecone

Pinecone Nexus 是一種知識引擎,通過預先編譯結構化知識,大幅提升 AI 代理的準確性、降低延遲和成本。本文展示了三個企業案例:Melange 的專利搜索準確率提高 25%,延遲降低 77%,token 成本減少 97%;M&A 盡職調查準確率提升 14%,延遲降低 48%,token 成本減少 92%;Gong 通話轉錄的收入分析準確率提高 94%,延遲降低 18%,token 成本減少 85%。

  • Pinecone Nexus 在查詢前從語料庫編譯結構化知識,優化檢索管道。
  • 三個早期客户案例均顯示準確性、延遲和成本的顯著改善。
站內正文

一個機器人向你衝來:你希望它搭載Claude還是Grok?

OpenRouter的Jacky Liang進行了一項實驗,將11個大型語言模型投入2D大逃殺遊戲,觀察它們的表現。Grok 4.1 Fast以43%的勝率奪冠,每場勝利僅花費0.97美元;而Claude Sonnet 4.6雖更受歡迎,但每勝成本高達26.78美元。實驗揭示了模型對齊成本對性能的影響,以及成本效益與原始勝率之間的巨大差異。

  • Grok 4.1 Fast在30場比賽中贏得13場,每勝成本僅0.97美元,是最具成本效益的模型。
  • Claude Sonnet 4.6表現出過度合作傾向,儘管贏得5場,但成本是Grok的27.7倍。
站內正文

如何使PDF可搜索:方法與侷限

本文探討了PDF可搜索性的真正含義。快速OCR方法(如Adobe Acrobat、免費在線工具)適用於簡單文檔,但在表格、多欄佈局和低質量掃描件上表現不佳。文本層即使有95%準確率仍會遺留錯誤,導致關鍵信息無法被檢索。對於大規模文檔處理或AI集成,需要像LlamaParse這樣提供結構化輸出(如Markdown)和高準確率的工具,以保留閲讀順序和表格結構。真正的可搜索性取決於準確性和結構,而非僅僅文本層的存在。

  • 快速OCR方法(如Acrobat、免費在線工具)適合清潔文檔,但處理表格、多欄和劣質掃描時失敗。
  • 文本層95%準確率仍導致每頁約150個錯誤字符,使搜索落空。
站內正文

提取合同元數據:方法、挑戰與工作流程

組織在從複雜的法律合同中提取結構化元數據時面臨重大挑戰,因為語言、結構和格式的多樣性。現代系統結合了佈局感知解析、機器學習、語義提取和模式映射,將非結構化的法律協議轉化為機器可讀數據。LlamaParse 提供了一個集成的平台,將這些能力整合到生產工作流中。

  • 合同元數據提取超越OCR,需要理解法律語言和文檔結構。
  • 關鍵步驟包括文檔攝取、佈局感知解析、條款檢測和模式映射。
站內正文

開源代理與前沿顧問:通過訓練和引擎工程匹配前沿性能

Fireworks AI 和 Harvey 在 Legal Agent Benchmark (LAB) 上探索了兩種系統級技術,以降低對單一前沿模型的依賴,同時以更低成本實現前沿級性能。混合引擎使用開源 GLM 5.1 工作器和 Claude Opus 4.7 顧問,在 100 個任務上以 368 美元成本實現 18/100 的全通過率,超過了僅使用 Opus 的 14/100(成本 954 美元)。對 Kimi K2.6 進行監督微調 (SFT) 和強化微調 (RFT) 後,全通過率以 84 美元成本達到 15/100,平均分從 0.863 提升至 0.886。

  • 混合引擎使用開源工作器和前沿顧問作為可調用工具,以低於端到端前沿模型的成本實現更高的全通過率。
  • Fireworks 上的後訓練:SFT 將全通過率從 11/100 提升至 15/100;RFT 將平均分從 0.863 提高至 0.886。
站內正文
工具

為何Linux創始人Linus Torvalds聽到“99%的代碼是AI寫的”會發怒

Linus Torvalds在開源峯會主題演講中表示,AI能提升程序員生產力,但不能替代人類對代碼和系統架構的理解。他將AI比作編譯器,認為聲稱99%代碼由AI編寫的人忽視了編譯器的作用。他也指出AI生成的拉取請求和錯誤報告給維護者帶來負擔,導致倦怠。

  • Torvalds認為AI是工具而非替代品,類似編譯器提升生產力。
  • 他批評聲稱99%代碼由AI編寫的説法,強調人類理解的重要性。
站內正文

我構建了一個能察言觀色的AI代碼審查工具

CodeMouse是一個集成於GitHub的AI代碼審查工具,使用Claude和/或GPT提供上下文感知的審查。它能閲讀之前的評論,避免重複,批准乾淨的PR,支持任何語言。定價每月10美元,提供14天免費試用。

  • 在每個拉取請求上自動進行AI代碼審查,使用Claude和/或GPT。
  • 具有完整倉庫上下文的上下文感知審查。
站內正文

AI畢業演講

一篇來自《週六早晨早餐麥片》的漫畫,以幽默的方式描繪了人工智能在畢業典禮上發表演講的場景,諷刺並反思了AI在人類儀式中的角色。

  • 漫畫中AI代替人類進行畢業演講。
  • 幽默地探討了AI在學術場合中的荒誕性。
站內正文

Anthropic稱Claude現在編寫了80%以上的代碼,並主張全球AI暫停按鈕

Anthropic公佈內部數據,顯示Claude已生成超過80%的生產代碼,工程師每日代碼提交量是2024年的八倍。公司目標是實現自我改進的AI,可能引發開發速度急劇加速,因此推動可驗證的全球開發暫停選項,並承諾若其他前沿實驗室同樣暫停也會停止。

  • Claude生成超過80%的生產代碼,工程師效率提升八倍。
  • Anthropic尋求AI自我改進,或導致指數級加速。
站內正文

Nouri – 根據你的飲食調整鍛鍊的AI營養助手

Nouri是一款由AI驅動的全方位健康應用,提供即時食物掃描、個性化膳食計劃、適應性鍛鍊程序和餐廳推薦。它提供每日健康評分,並作為PWA在iPhone和Android上使用。

  • 即時掃描任何食物,獲取營養分解和健康評級。
  • AI根據目標和過往飲食每週生成膳食計劃。
站內正文

Dirk與Linus討論AI與內核開發

在OSSNA大會上,Dirk與Linus就AI與內核開發進行了討論。本文由Joe Brockmeier於2026年5月25日報道。

  • Dirk與Linus在OSSNA討論AI與內核開發
  • 報道由Joe Brockmeier撰寫,發佈於2026年5月25日
站內正文

AI驅動的原生Mac應用開發復興

文章指出,在AI輔助編程的推動下,原生Mac應用開發正經歷復興。越來越多的獨立開發者,甚至非編程人員,利用AI工具構建專注於Mac平台的原生應用,扭轉了過去十年iOS主導、Mac開發停滯的局面。這對Mac生態的未來至關重要。

  • AI輔助編程推動了原生Mac應用開發的新浪潮
  • 獨立開發者及Mac用户正使用AI構建Mac原生應用
站內正文

ChatGPT現在按工作、愛好和旅行偏好保存關於你的敍事檔案

ChatGPT更新的“夢想”記憶系統現在能從對話中構建連貫的用户檔案,而不是保存零散的要點。OpenAI表示,保持信息更新的成功率從去年的52.2%躍升至75.1%。

  • 新的“夢想”記憶系統構建連貫的用户檔案
  • 成功率從52.2%提升到75.1%
站內正文

谷歌內部員工分享關於其AI糟糕表現的表情包

404 Media報道,谷歌在AI相關問題上的內部態度發生轉變,其發言人要求修改原有聲明,不再強調“保持人類參與至關重要”。這一事件反映了谷歌AI戰略的內部矛盾與文化問題。

  • 谷歌內部員工共享表情包吐槽自家AI表現不佳。
  • 谷歌發言人要求修改聲明,刪除'保持人類參與至關重要'的表述。
站內正文
研究

Google如何將Siri變成我Apple Watch所需的AI健康教練

蘋果的開發者大會即將開幕,與谷歌的合作可能使其健康套件和可穿戴設備得到大幅提升。本文探討了谷歌Gemini如何賦能Siri,以及蘋果可能推出的健康聊天機器人和Health應用改版。

  • 蘋果與谷歌合作,由Gemini驅動下一代Siri
  • 蘋果可能推出健康AI助手,整合健康、日誌和健身應用數據
站內正文

Cloudflare AI Gateway 現支持消費限額

Cloudflare AI Gateway 引入了消費限額功能,允許用户根據模型、提供商或自定義元數據設置預算。當累計消費達到限額時,AI Gateway 會阻止進一步請求並可選擇回退到更便宜的模型。

  • 消費限額基於實際美元成本實時跟蹤,超限後阻止請求並返回429狀態碼。
  • 可通過模型、提供商或自定義元數據維度(如用户ID、團隊)來設定範圍。
站內正文

Anthropic AI發現Zcash偽造漏洞後,ZEC暴跌30%

由於Zcash Orchard池存在嚴重偽造漏洞,理論上可讓攻擊者無限鑄造ZEC,ZEC價格在24小時內下跌超過30%。漏洞由安全工程師Taylor Hornby使用Anthropic的Claude Opus 4.8發現,並於6月3日通過硬分叉修復。但自2022年5月以來該漏洞是否存在濫用無法通過密碼學證明,引發市場擔憂。

  • Zcash Orchard池發現嚴重偽造漏洞,ZEC價格暴跌30%。
  • 漏洞由安全工程師Taylor Hornby在Anthropic AI協助下發現,已通過硬分叉修復。
站內正文

大學教授承認用AI寫評論文章,引發對技術信任的討論

一位大學副校長承認在為一澳大利亞主流媒體撰寫評論時使用了AI,且未事先披露,這凸顯了人們使用AI與信任AI之間的差距。Roy Morgan數據顯示,58%的14歲以上澳大利亞人每月使用AI。

  • 一位大學副校長承認使用AI撰寫評論文章,未提前披露。
  • 事件凸顯AI使用與信任之間的鴻溝。
站內正文

學習接觸表示用於足式機器人里程計

本研究提出一種自監督表示學習框架,僅利用關節編碼器實現足式機器人接觸檢測,無需力傳感器。該方法在足式機器人里程計估計中優於傳統監督方法和基線概率方法,並公開代碼。

  • 自監督框架利用關節編碼器檢測足地接觸,無需力傳感器
  • 概率建模擺動相和支撐相,提高里程計估計魯棒性
站內正文

利用神經ODE在黎曼流形上從示範中學習:擴展摘要

本文提出了一種使用神經常微分方程(ODE)在黎曼流形上進行從示範學習(LfD)的新方法。傳統LfD在歐幾里得空間中進行,而機器人狀態(如方向)自然存在於彎曲空間。該方法通過神經ODE高效估計測地線,實現流形上任意兩點間的自然運動生成,並將測地線解碼回任務空間用於機器人部署。仿真實驗驗證了該框架的有效性。

  • 提出在黎曼流形上通過神經ODE進行從示範學習(LfD),以處理位置和方向數據。
  • 利用神經ODE數值估計測地線,降低計算開銷。
站內正文

李羣中導航向量場距離函數的高效計算方法

針對機器人控制中路徑跟蹤問題,提出了一種在李羣上高效計算點到曲線距離的方法。該方法將曲線表示為G-多項式,通過利用其結構將問題轉化為少量多項式求根計算,顯著降低了計算時間並保持精度。在SE(3)羣上給出了實用公式,並通過機械臂實驗驗證。相關計算包已開源。

  • 提出基於G-多項式曲線的距離計算方法,將問題簡化為多項式求根,大幅降低計算開銷。
  • 與現有優化方法相比,顯著減少計算時間且精度相當。
站內正文

一種新型四元數關節纜驅動冗餘機械臂配置及其基於FABRIK和殘差強化學習的控制方法

研究人員提出了一種新穎的4段8關節四元數關節纜驅動冗餘機械臂配置,該配置能在更低硬件成本下實現更廣泛的工作空間。結合殘差強化學習,該控制方法在位置和方向精度上比現有最先進的FABRIK算法提高了三個數量級,且控制實現更簡單,為新型纜驅動機械臂的設計與控制提供了有力工具。

  • 創新性的4段8關節四元數關節配置,擴展了機械臂的工作空間並降低了硬件成本
  • 殘差強化學習在位置和方向精度上比FABRIK算法提升三個數量級
站內正文

耕耘花園:以不同方式使用AI,打造有趣且實用的應用

Mike Caulfield介紹了他的電影推薦網站Plot.fyi,該網站通過離線使用AI(Claude Code)對一萬部電影進行標籤化處理,構建了無需實時AI調用的全靜態HTML頁面。這種方法避免了傳統AI包裝應用的經濟困境——要麼承擔高昂的API成本,要麼被AI模型本身取代。文章強調了數據所有權的價值,並認為即使未來AI能力再強,當前仍然存在探索替代方案的廣闊空間。

  • Plot.fyi 使用AI離線為電影數據打標籤,運行時完全不依賴AI請求。
  • 該網站以約1.9MB的JSON文件作為數據源,在前端用JavaScript實現相似度計算。
站內正文

通過智能手機攝像頭實現被動心臟健康監測

谷歌研究人員開發了一種名為PHRM的系統,可在日常使用智能手機時,通過前置攝像頭被動測量心率和靜息心率。這項發表於《自然》雜誌的研究顯示,該系統的心率測量平均絕對百分比誤差(MAPE)低於10%(與心電圖相比),每日靜息心率測量平均絕對誤差(MAE)低於5次/分鐘(與可穿戴設備相比)。系統在來自近700名參與者的超過35萬段視頻片段上進行了訓練,確保膚色均衡代表性。PHRM優於15種領先的遠程光電容積描記法(rPPG)模型,是唯一在真實世界條件下對所有膚色均達到準確性標準的模型。

  • 谷歌的PHRM系統利用智能手機前置攝像頭,在面部解鎖後被動監測心率和靜息心率。
  • 在《自然》研究中,PHRM的心率MAPE<10%(vs. ECG),每日靜息心率MAE<5 bpm(vs. 可穿戴設備),適用於所有膚色。
站內正文
機械人

中國如何利用人力在人形機器人數據競賽中獲勝

在北京,Daniel Wang付費讓一台人形機器人進入家中收集訓練數據,實際家務由人類管家完成。這反映了全球機器人開發面臨的數據短缺問題,中國通過低成本勞動力提供真實環境數據,加速人形機器人訓練。

  • 中國公司X Square Robot通過付費家庭收集真實環境數據,用於訓練人形機器人
  • 機器人服務實際由人類管家輔助完成,機器人主要收集數據
站內正文
芯片

首爾之志:英偉達與韓國如何共建AI未來

英偉達創始人兼CEO黃仁勳本週訪問首爾,與韓國AI生態系統的合作伙伴和建設者會面,聚焦AI供應鏈、機器人技術和物理AI的機遇。

  • 黃仁勳訪問首爾,旨在協調AI供應鏈以應對下半年繁忙期。
  • 強調Grace Blackwell和Vera Rubin系統進展順利,韓國需加大對AI的投資。
站內正文

基於OCT和OCT血管成像的深度學習輔助AMD分期

本研究利用深度學習模型,基於OCT和OCTA數據自動對年齡相關性黃斑變性(AMD)嚴重程度進行分期。在271名參與者中,分析了三種模型:基於生物標誌物圖譜的模型、2D en face投影模型和3D體積模型。所有模型均表現良好,其中基於生物標誌物的模型綜合性能最佳,QWK達0.85,尤其在早期AMD檢測方面表現突出。

  • 研究開發了三種深度學習模型,利用OCT/OCTA數據自動評估AMD嚴重程度。
  • 基於生物標誌物圖譜的模型綜合性能最佳,QWK為0.85,早期AMD檢測F1分數達0.59。
站內正文

新型光驅動芯片有望加速人工智能和量子計算

莫納什大學的科學家們創建了一種微型芯片,能夠在一個器件中產生、操縱和讀取基於光的信息,標誌着向超快、節能計算邁出了重要一步。該突破利用原子級薄材料和納米結構控制光的獨特量子屬性——“谷”自由度,從而以全新方式編碼信息。

  • 該集成芯片首次實現了在一個緊湊系統中產生、引導和轉換光信號。
  • 利用“谷”自由度編碼信息,為數據處理提供新途徑。
站內正文

加拿大國家人工智能戰略:惠及全民的人工智能

加拿大政府發佈了《國家人工智能戰略:AI for All》,旨在通過六大支柱推動人工智能的負責任發展,保護公民安全、增強經濟競爭力、維護主權,並確保AI技術惠及所有加拿大人。戰略強調了信任、機會和主權三大核心價值,並計劃通過廣泛採用AI來提升生產力,預計到2030年為加拿大經濟每年增加1870億加元。

  • 加拿大發布全新國家AI戰略,圍繞信任、機會和主權三大核心價值。
  • 戰略包含六大支柱:保護公民、賦能國民、推動繁榮、建設主權AI基礎、培育本土冠軍企業、建立全球夥伴關係。