AI News HubLIVE

Agent動態

使用 AWS 上的 LangSmith 評估深度智能體

本文結合 LangChain 評估深度智能體的經驗和 Anthropic 的 AI 智能體評估指南,提供了實用指南。您將學習如何應用五種評估模式、使用 pytest 和 LangSmith 構建離線評估,以及配置生產環境的在線監控。文中以文本到 SQL 的深度智能體為例,使用 Amazon Bedrock 覆蓋從開發到生產的完整生命週期。

  • 深度智能體的評估面臨非確定性、錯誤傳播和創造性解決方案等挑戰。
  • 介紹了代碼基礎、模型基礎和人工三種評估器,並推薦組合使用。
站內正文

AI識別出失職聯邦法官

聯邦法官埃莉諾·羅斯被曝在 chambers 內與高級執法官員發生婚外情,司法部門試圖匿名處理,但 AI 通過公開文件細節迅速識破其身份。此事凸顯法院對 AI 能力的無知,以及法律專業人士需提升技術素養,重新思考保密策略。

  • AI 僅用10分鐘便從匿名報告中識別出涉事法官埃莉諾·羅斯
  • 報告中的細節如兩年期書記員任期、地區檢察官稱謂等被 AI 利用
站內正文

企業領導者如何在整個組織中擴展AI代理

企業領導者在擴展AI代理時面臨快速交付與治理、信任、成本控制之間的緊張關係。文章分享了五項關鍵實踐:統一治理、管理複雜工作流、創建實驗空間、展示早期成果、培訓員工。

  • 將統一治理嵌入AI代理生命週期
  • 使用多代理框架管理複雜工作流
站內正文

人工智能抵抗清單

一份記錄全球各地反對大型AI帝國的抵抗運動的清單,涵蓋抗議、法律行動、替代工具和社區組織等多種形式,旨在激發希望和行動。

  • AI帝國以“造福全人類”為名,實則集中資源、破壞生態、強化控制。
  • 全球湧現多種抵抗形式:從法律訴訟、數據污染工具到社區動員。
站內正文

AWS為何徹底重構OpenSearch架構以應對代理工作負載

AWS完全重構了OpenSearch Serverless,分離存儲和計算,支持零成本空閒縮放,成本降低60%,自動縮放速度提升20倍,並針對AI代理的突發工作負載優化。新架構包括專有存儲層、GPU加速,並整合Vercel和Kiro IDE。未來將推出代理內存、日誌分析(6月)和搜索推理模型。

  • AWS對OpenSearch Serverless進行了近97%的重構,分離存儲和計算,實現空閒時縮放至零。
  • 新架構針對AI代理的突發工作負載,自動縮放速度提升20倍,成本降低60%。
站內正文

AWS 重構 OpenSearch Serverless,推出 Agent Skills

AWS 對 OpenSearch Serverless 進行了重大重構,並引入了新的 Agent Skills。此舉旨在將 OpenSearch 打造為企業的基礎設施,提供更快、可擴展的搜索能力。

  • AWS 重構 OpenSearch Serverless 服務
  • 引入 Agent Skills 新功能
站內正文

Claude Opus 4.8 發佈:努力控制、動態工作流、更便宜的快速模式、更誠實、更少欺騙

Anthropic 發佈了其旗艦模型 Opus 4.8,新功能包括用户可控制 Claude 的努力程度、動態工作流支持大規模編碼、快速模式價格降至原來的三分之一。模型在基準測試中領先 GPT-5.5 和 Gemini 3.1 Pro,但在終端編碼方面仍落後於 OpenAI。此外,模型在誠實性、自主支持和減少欺騙方面有顯著改進。

  • 用户可調節 Claude 的“努力”程度,平衡響應質量與速度。
  • 動態工作流(研究預覽)允許 Claude 在單個會話中並行運行數百個子代理,完成大規模代碼遷移。
站內正文

SIA:開源自我改進AI框架

SIA是一個開源的自改進AI框架,通過協調元代理、任務特定代理和反饋代理,自動提升AI系統在基準任務上的性能。在多個基準測試中取得顯著成果,如LawBench準確率提升56.6%,GPU內核運行時間減少91.9%,單細胞RNA去噪提升502%,並在MLE-Bench Hard排名第一。支持本地運行和自定義任務,採用MIT許可。

  • SIA通過元代理、任務代理和反饋代理的迭代循環實現自我改進,無需人工干預。
  • 在LawBench、GPU內核優化、單細胞RNA去噪等基準測試中取得大幅性能提升。
站內正文

美光市值突破1萬億美元,AI內存需求推動創紀錄估值

美光科技市值於5月26-27日突破1萬億美元,與SK海力士同周達到這一里程碑,這是純內存芯片製造商首次同時進入萬億俱樂部。高帶寬內存(HBM)需求來自代理型AI工作負載,超大規模雲服務商正在簽署長期供應協議以鎖定產能。瑞銀將美光目標價上調三倍至1625美元,認為長期HBM供應合同將受益於代理型AI工作負載擴張。美光股價年內已翻三倍以上。

  • 美光與SK海力士成為首批市值破萬億的純內存芯片商
  • 代理型AI工作負載推動HBM需求激增
站內正文

Claude Opus 4.8 現已登陸 AWS

Anthropic 的最先進 Opus 模型 Claude Opus 4.8 在 Amazon Bedrock 和 AWS 上的 Claude Platform 正式可用。該模型在編碼、代理任務和專業工作方面帶來顯著改進,具有更強的自主性和一致性,適合長期生產工作負載。

  • Claude Opus 4.8 是 Anthropic 最先進的 Opus 模型,現已在 AWS 上提供。
  • 相比前代,它在編碼、多階段自主任務和專業工作中表現更佳,輸出方差更低,審查週期減少。
站內正文

AI智能體框架對比分析

截至2026年5月,七大AI智能體框架(DSPy、Claude Agent SDK、OpenAI Agents SDK、CrewAI、AutoGen、LangGraph、Google ADK)在設計理念、架構、生產就緒度等方面各有千秋。LangGraph在生產部署中領先,Claude Agent SDK在單一提供商能力上最強,OpenAI Agents SDK提供最清晰的多智能體交接,CrewAI在開發效率上佔優。市場預計從2025年的78.4億美元增長至2030年的526.2億美元。

  • LangGraph擁有最成熟的持久執行模型,部署於約400家企業。
  • Claude Agent SDK提供了最強大的單提供商操作能力,但侷限於Anthropic模型。
站內正文

Anthropic發佈Opus 4.8,誠實成為殺手鐧

Anthropic最新版Claude模型Opus 4.8主打誠實特性,更少做出無根據聲明,更善於承認不確定性。同時引入動態工作流功能,可協調數百個子代理完成大規模任務。定價不變,快速模式降價三倍。

  • Claude Opus 4.8在誠實度上顯著提升,錯誤率降低約4倍
  • 動態工作流可自動規劃並運行數百個並行子代理,驗證結果後反饋
站內正文

克勞德新模型在出錯時更加“誠實”

Anthropic 於週四發佈 Claude Opus 4.8,該模型在訓練中強調“誠實”,能夠更頻繁地標記工作中的不確定性,減少無依據的斷言。評估顯示,其代碼缺陷遺漏率比前代降低約4倍。此外,用户可控制任務投入的努力程度,以及引入“動態工作流”功能,支持並行運行數百個代理。

  • Claude Opus 4.8 更傾向於在不確定時主動標識,避免做出無依據的斷言。
  • 相比前代,模型在代碼審查中遺漏缺陷的概率降低約4倍。
站內正文

使用 Amazon Quick 和 Snowflake Cortex AI 自動化 AML 警報分類

本文演示瞭如何通過集成 Amazon Quick 和 Snowflake Cortex,自動化金融服務中最勞動密集的工作流程之一:反洗錢(AML)警報分類。您將使用 Amazon Quick Flows 和 Snowflake Cortex,通過 Amazon Quick 模型上下文協議(MCP)集成構建分類工作流。在測試環境中,自動化工作流將警報調查時間從 30-90 分鐘縮短至 5 分鐘以內。實際結果可能因警報復雜性和數據量而異。

  • Amazon Quick Flows 和 Snowflake Cortex 通過 MCP 集成,實現 AML 警報分類的自動化。
  • 自動化工作流將調查時間從 30-90 分鐘減少到 5 分鐘以下。
站內正文

Data Formulator 0.7:面向企業數據的AI驅動分析工具

Data Formulator 0.7 是一款開源AI系統,旨在解決企業數據分析中數據連接碎片化、分析工作流迭代困難等問題。它提供數據連接器、上下文感知代理和交互式工作區,幫助用户無需編程即可探索、分析和可視化數據。

  • 開源AI系統,專為企業數據分析設計
  • 數據連接器支持多種數據源,減少集成工作
站內正文

Claudeverse – 並行Claude代碼工作者的任務控制中心

Claudeverse是一個專為開發者設計的命令中心,用於高效管理多個並行運行的Claude AI工作者。它提供了並行工作力、工作者升級、審查隊列、可追溯性、iPad鏡像以及模型無關引擎等功能,旨在解決多會話管理中的注意力分散和協調難題。目前處於邀請測試階段。

  • Claudeverse提供統一命令中心,可同時管理多個Claude工作者。
  • 主要功能包括並行工作力、工作者升級、審查隊列、可追溯性和iPad鏡像。
站內正文

回顧 I/O 2026 的 12 個重要時刻

Google I/O 2026 主題演講發佈了多項重大更新,包括 Gemini Omni、Gemini 3.5 Flash、信息代理、通用購物車、Neural Expressive 設計語言以及智能眼鏡等。本文總結了 12 個最值得關注的時刻。

  • Gemini Omni 可以從任何輸入創建內容,首發支持視頻生成。
  • Gemini 3.5 Flash 提供前沿性能,適用於代理和編碼任務。
站內正文

Google Pay 為 AI 代理推出通用商務協議

Google Pay 正在全面升級其支付基礎設施,以應對即將到來的 AI 代理交易浪潮。新推出的通用商務協議(UCP)和商家商務平台(MCP)服務器旨在為機器對機器商務創建基於 API 的後端。此次更新還包括動態回調、擴展的 WebView 支持以及跨設備生物識別認證,以解決安全挑戰。這標誌着向機器驅動經濟的轉變,企業必須調整其數字存在以適應 AI 代理。

  • Google Pay 推出通用商務協議(UCP),標準化 AI 代理支付。
  • 新的商家商務平台(MCP)服務器充當中介,聚合交易數據。
站內正文

當數據曝光導致AI部署緊急暫停——以及如何應對

AI可以提高生產力,但也可能暴露長期隱藏的數據,導致安全和治理挑戰。來自富達投資和安永的技術領導者分享了他們暫停AI部署以重新評估數據管理的經驗,強調了數據所有權、標籤和代理身份的必要性。

  • AI部署可能因數據曝光問題而暫停。
  • 富達和安永面臨非結構化數據通過AI浮現的挑戰。
站內正文

DeepSWE:基於原創、長期工程任務的編碼智能體評測

DeepSWE是一個新的基準測試,用於評估AI編碼智能體在全新、複雜的軟件工程任務上的表現。它避免了數據污染,覆蓋了多樣化的代碼庫,需要大量代碼修改,並使用手工編寫的驗證器。領先模型表現差異顯著,GPT-5.5以70%的準確率位居榜首。

  • DeepSWE是一個無數據污染的基準測試,任務均為原創。
  • 任務涵蓋5種編程語言中的91個代碼庫。
站內正文

IBM與紅帽承諾投入50億美元,重新定義AI時代開源軟件的未來

IBM與紅帽宣佈啓動Project Lightwell計劃,投入50億美元,結合先進AI能力和20000多名工程師,建立可信的企業級開源軟件安全清算所模式,旨在保障軟件供應鏈安全。

  • Project Lightwell是IBM與紅帽聯合投入50億美元的開源安全計劃。
  • 利用AI和20000+工程師團隊大規模發現和修復漏洞。
站內正文

Rivian軟件主管認為你不需要CarPlay或按鈕

在Decoder播客採訪中,Rivian首席軟件官Wassym Bensaid討論了與大眾的合資企業、全新的AI驅動Rivian助手,以及為什麼他認為語音界面將取代按鈕且不需要CarPlay。

  • Rivian與大眾的合資企業(RV Tech)結合了Rivian的軟件文化與大眾多規模。
  • Rivian助手是一款深度整合到車輛區域架構中的AI代理。
站內正文

AI代理獲得基於DNS的電話目錄

DNS-AID項目利用DNS基礎設施實現AI代理之間的發現,避免創建新的中心化註冊表。該項目由Linux基金會管理,支持MCP、A2A等協議,並允許通過名稱、功能或域名搜索代理。

  • DNS-AID是一個開源項目,利用DNS實現AI代理的發現。
  • 它基於現有的DNS基礎設施,使用SVCB和DNSSEC等技術。
站內正文

一種面向AI且忽視人類友好性的理想語言

Pact是一種專為AI智能體設計的編程語言,它強調機器可讀的規範和約束,而非人類友好性。該語言基於S表達式,集成了來源追溯、副作用追蹤、完全性保障、延遲預算等特性,並能夠編譯為Rust代碼。其工具鏈支持從YAML規範生成代碼、搭建Web項目,並提供了多種代碼生成後端。儘管Pact在服務契約領域表現出色,但它在算法規範方面仍存在侷限。

  • Pact是一種面向AI智能體的S表達式語言,注重元數據與形式化規範。
  • 語言特性包括來源追溯、副作用追蹤、完全性保障和延遲預算。
站內正文

AI智能體的治理:身份、委託與權限實踐

智能體需要獨立的治理身份,而非共享API密鑰或開發者憑證。通過委託模型,有效權限是智能體角色與委託者權限的交集,從而限制風險並實現可審計性。文章詳細介紹了身份錨定、權限邊界、自主觸發授權及審計追蹤等關鍵實踐。

  • 智能體應擁有獨立身份,與人類使用同一身份系統,便於生命週期管理。
  • 有效權限取智能體角色上限與委託者權限下限的交集,嚴格限制操作範圍。
站內正文

DiscloAI – 開源歐盟AI法案第50條合規SDK

DiscloAI 是一個開源SDK,專為歐盟AI法案第50條合規設計,支持聊天機器人披露、深度偽造標籤和AI內容通知。通過CDN或npm可在10分鐘內集成,支持24種歐盟語言和WCAG 2.1 AA標準。

  • 開源SDK,用於實現歐盟AI法案第50條透明度要求
  • 功能涵蓋聊天機器人交互披露、深度偽造媒體標記和AI生成內容通知
站內正文

藉助AI成為更好的設計師:成為數字囤積者

文章以Google Gemini Omni模型為引,指出AI設計工具因缺乏審美引導導致輸出同質化(“AI垃圾”),並提出解決方案:通過持續收集視覺參考(“數字囤積”)培養個人品味,並將其編碼為AI可理解的格式,從而引導模型產出獨特且具有品味的設計。

  • Google推出Gemini Omni模型,標誌着AI從純文本向多模態推理轉變,但當前多數AI設計工具仍侷限於文本輸入,導致輸出千篇一律。
  • 要擺脱“AI垃圾”,設計師需要培養品味,並將品味通過視覺參考庫(數字囤積)編碼,讓模型能夠模仿。
站內正文

NVIDIA研究推動機器人技術從模擬走向現實世界

在ICRA上,NVIDIA Research展示了28篇論文中的8篇,重點研究模擬到現實的遷移,使機器人能夠在動態、不可預測的環境中感知、推理、規劃和行動。這些方法涵蓋多臂協調、跨機器人導航、抓取、精確裝配和視覺-語言-動作模型,顯著提高了成功率和可靠性。

  • NVIDIA在ICRA上提交了8篇關於模擬到現實遷移的論文
  • 方法包括ScheduleStream、COMPASS、Grasp-MPC、SPARR等
站內正文

我們如何構建Cloudflare的數據平台及其之上的AI智能體

Cloudflare每秒處理超過十億事件,但數據分散在多個系統,難以訪問。為解決這一問題,他們構建了Town Lake統一數據分析平台和Skipper AI數據智能體。Town Lake提供單一SQL接口,Skipper允許用自然語言提問並獲得可審計的答案。文章詳細介紹了平台架構、治理策略(默認關閉權限)以及AI智能體的工作原理。

  • Cloudflare構建了Town Lake統一數據平台和Skipper AI智能體,解決數據分散問題。
  • Town Lake採用數據湖倉架構,使用Trino查詢引擎、R2存儲和Iceberg表格式。
站內正文

如果AI編程的真正關鍵是老套而無聊的做法呢?

文章認為,AI輔助軟件開發的關鍵並非更好的規格説明或工具,而是古老的小批量與快速反饋循環實踐。數據顯示,更快的代碼生成導致設計、測試和審查環節出現瓶頸,反而使交付變慢、發佈更不穩定。真正的槓桿在於縮小批量、縮短反饋週期。

  • AI代碼生成加速了編寫,但產生了設計、測試、審查等環節的瓶頸。
  • 來自DORA、CircleCI和Faros的數據表明,階段門控流程導致交付更慢、更不穩定。
站內正文

Mistral 將 LeChat 更名為 Vibe,押注聊天機器人的未來是全能工作代理

Mistral AI 將其聊天機器人 Le Chat 更名為 Vibe,並將聊天、編程代理和新的工作模式整合在一個品牌下。工作模式可接入 Google Workspace、Outlook、Slack 或 GitHub,獨立處理電子郵件、報告或拉取請求等任務。Pro 套餐價格從 17.99 歐元降至 14.99 歐元,但未明確使用限制。此舉直接對標 OpenAI、Google 和 Anthropic 的代理型產品。

  • Mistral AI 將聊天機器人 Le Chat 更名為 Vibe,整合聊天、編程代理和工作模式。
  • 工作模式可連接 Google Workspace、Outlook、Slack 或 GitHub,自主處理任務。
站內正文

我們為何將OpenLoomi AI開源

OpenLoomi AI團隊決定將其AI工作夥伴開源,強調數據所有權、透明度和社區驅動。文章闡述了本地優先、閉源信任税、基礎設施公共化等理念,並介紹了產品的五大核心功能:自進化記憶系統、多平台集成、自動化調度、本地加密存儲以及開放技能接口。

  • OpenLoomi採用本地優先架構,用户數據加密存儲於本地,絕不用於訓練模型。
  • 開源消除了對閉源軟件的信任依賴,代碼可審計、可分支、可自託管。
站內正文

2026年值得構建的7個真實世界AI項目(附指南)

本文介紹了七個實用的AI項目,涵蓋求職、研究、投資分析、市場趨勢、發票處理、圖表數字化和個性化鍛鍊,每個項目都附有完整指南和代碼,幫助讀者自動化工作流程。

  • 學習構建AI求職助手,自動匹配職位與簡歷
  • 掌握多智能體研究助理開發,生成帶來源的研究報告
站內正文

AI聚合平台估值達13億美元

該供應商的增長與企業AI中代理的爆炸性出現同步。

  • AI聚合平台估值達到13億美元。
  • 其增長與企業AI代理的興起密切相關。
站內正文

Show HN:本地編碼代理——利用LLM將工具調用委託給小AI模型

Open Agent Tools (oats) 是一個自託管AI模型框架,通過本地代碼提示索引,將大型模型的計算密集型工具調用委託給小型開源模型,從而節省令牌消耗。

  • oats 允許本地AI模型使用本地源代碼進行工具調用,無需HTTP或MCP。
  • 通過數據挖掘超過20,000個GitHub倉庫,創建可重用的提示索引。
站內正文

你的AI助手已經忘記了你告訴它的一半內容

本文是AI驅動開發系列文章的第七篇,重點討論AI會話中的上下文管理。作者通過個人經歷(Gemini移動應用忘記之前記錄的筆記)引出上下文壓縮問題,並分享了四種實用技巧:將探索與文檔編寫分離、使用交接文檔而非延續提示、給AI設定驗收標準而非詳細步驟、以及使用規範文檔作為不同AI工具之間的橋樑。這些技巧適用於從編程到寫作的各種AI使用場景。

  • AI助手在長對話中會因上下文窗口限制而“忘記”早期信息,這種現象稱為上下文壓縮。
  • 四種實用技巧:分離探索與文檔編寫、使用交接文檔、設定驗收標準、使用規範文檔作為橋樑。
站內正文

Show HN:我將一個 Python AI 代理和 Vue 儀表盤打包成了一個 Electron 應用

Hermes Desktop 是一個跨平台的桌面應用,它將 Python 運行時、hermes-agent(自改進 AI 代理)和 hermes-web-ui(Vue 3 + Koa 聊天儀表盤)打包到一個 Electron 應用中,用户無需單獨安裝 Python 或 Node。應用集成了 DingTalk 並通過 DeepSeek 驅動。

  • 打包了 Python 運行時和 hermes-agent,實現無需依賴即可運行
  • 使用 Electron 作為外殼,集成 hermes-web-ui 前端
站內正文

Money Printer Pro —— 開源 AI 內容生成器

Money Printer Pro 是一個基於 Google Gemini 和 VEO 3.1 的開源 AI 內容生成器,可創建逼真的圖像和電影級視頻,並保持身份一致性。它擁有 7 個視覺引擎、自動批量生成、AI 質量評分和發佈把關功能,用户直接向 Google 付費,無需額外訂閲。

  • 支持圖像和視頻生成,包括多鏡頭視頻序列。
  • 身份鎖定引擎確保同一人物在不同生成中面部一致。
站內正文

Superpowers:AI編碼工作流的代理技能框架

Superpowers是一個為AI編碼代理設計的完整軟件開發方法論,基於一組可組合的技能和初始指令。它強調測試驅動開發、設計先行、子代理驅動的迭代,並支持多種編碼助手(如Claude Code、Codex CLI等)。

  • Superpowers提供一套技能庫,包括測試驅動開發、系統調試、協作規劃等,使AI代理能自主工作數小時。
  • 工作流程從頭腦風暴規範開始,經設計批准後生成實現計劃,再通過子代理逐任務執行並審查。
站內正文

信任模型正在翻轉

隨着AI代碼審查工具(如Anthropic的Claude Mythos)展現出比人類更強大的安全漏洞發現能力,軟件安全的信任基礎正從人類編寫的代碼轉向AI審查的代碼。文章以Mozilla Firefox為例,Mythos在單個評估週期內發現了271個漏洞,遠超人類團隊。這意味着人類在安全審查中的角色需要從“編寫和審查實現”轉向“定義軟件的意圖並驗證實現是否偏離”。

  • 人類編寫代碼的安全預設正在被打破,AI審查代碼逐漸獲得信任。
  • Mozilla使用Claude Mythos在Firefox中發現了271個漏洞,凸顯AI的審查能力。
站內正文

這位高管分享在代理式AI時代成為成功創新者的4種方法

美國運通全球創新主管Luke Gebb分享了成為成功創新者的四個關鍵實踐:保持學習、深入技術、接受失敗、建立合作伙伴關係。他還介紹了公司在代理式商務領域的佈局,包括支付、優惠和專有體驗,並預測代理式AI將在未來幾年加速發展。

  • 保持好奇心和學習慾望,培養成長型思維
  • 深入理解新興技術並與工程師緊密合作
站內正文

Mistral CEO稱公司探索自研芯片

Mistral AI首席執行官Arthur Mensch證實,公司正在探索開發定製芯片以降低基礎設施成本,與OpenAI和Anthropic競爭。這家法國初創公司還宣佈在法國新建推理數據中心,並推出企業智能代理平台Vibe。

  • Mistral AI考慮自研定製芯片以降低部署成本。
  • 公司在法國新建專用推理數據中心。
站內正文

這是可持續的嗎?AI三年後的高級工程師角色

一位高級工程師反思AI在三年內如何改變了高級工程師角色:原型製作加速,協調負擔增加,範圍擴大但擠佔了輔導和思考時間。角色變得更有影響力但可持續性降低。

  • AI縮小了從想法到演示的差距,從提案轉向概念驗證。
  • 角色在編碼和戰略寫作兩方面擴展,削減了輔導和深度思考。
站內正文

Taste Skill:面向AI代理的反模板前端框架

Taste Skill 是一個開源前端框架,旨在提升AI生成界面的設計質量,避免產生千篇一律的模板化外觀。它提供多種可組合的技能模塊,包括設計調優、代碼生成和圖像生成,支持通過 npx 命令行或直接複製 SKILL.md 文件集成到項目中。

  • Taste Skill 通過可調節的設計參數(佈局、動畫、密度)讓AI生成的界面更具設計感
  • 提供多種專用技能模塊,如設計調優、代碼生成、圖像生成等
站內正文

Netflix正在建立AI動畫工作室

Netflix正在建立名為INKubator的新內部工作室,利用AI製作短篇動畫內容。該工作室已悄然啓動,正在招聘各種職位,包括製片人、軟件工程師和CG藝術家。其長期技術戰略聚焦於生成式AI工作流程、藝術家工具和可擴展的多節目環境,旨在製作出達到電影品質的內容。目前計劃專注於動畫短片和特輯,但有跡象表明未來可能擴展到長篇內容。此舉可能用於Netflix的Clips功能或兒童節目。然而,AI在動畫領域的應用也引發了強烈反彈,包括日本動畫大師宮崎駿的批評和動畫師工會的抗議。

  • Netflix建立新AI動畫工作室INKubator,專注於生成式AI驅動的短篇動畫。
  • 工作室由前夢工廠和A24高管領導,已開始招聘關鍵職位。
站內正文

AIluminode:檢索前認知定向工具

AIluminode 是一款輕量級 AI 預檢索認知定向工具,幫助 AI 在行動前檢查上下文姿態,通過路線極性(開放、保護、審計、延遲、阻斷)減少錯誤探索和上下文泄漏。

  • AIluminode 是一個可 wieldable 的預檢索認知定向工具,強調“姿態先於檢索”。
  • 它使用路線極性系統(OPEN / PROTECT / AUDIT / DEFER / BLOCK)來引導上下文路由。
站內正文

7B打敗o3、GPT-5!醫學AI智能體讓模型學會“看哪裏、怎麼看”

上海創智學院LeapQuest團隊聯合多所高校提出醫學AI新範式,讓模型在推理過程中主動調用視覺工具,從被動接收視覺輸入變為主動尋找證據。論文被ICML 2026接收。

  • LeapQuest團隊提出Ophiuchus和MedScope,分別面向醫學圖像和視頻,採用Think with Images/Videos範式。
  • Ophiuchus-7B在8個VQA benchmark上平均得分68.0,超越o3(62.2)、GPT-5(59.9)。
站內正文

主題導航