Robinhood:讓AI代理為您交易和消費
Robinhood推出新工具,使AI代理能夠代表用户進行交易和支付,可能將AI驅動的金融交易帶入主流。
- Robinhood正在開發AI代理,可代表用户執行交易和消費決策。
- 這些工具旨在簡化金融操作,讓AI管理日常交易。
日報
2026-05-29 精選 10 條,按主題聚合。其餘新聞摺疊歸檔。
Robinhood推出新工具,使AI代理能夠代表用户進行交易和支付,可能將AI驅動的金融交易帶入主流。
本文探討了人工智能可能如何改變中央集權與分權治理之間的權衡,從而增加極權主義出現的可能性。文章回顧了歷史上通信和官僚技術對極權統治的促進作用,並分析了AI在信息處理、監控、宣傳和軍事能力方面的進步如何可能使獨裁政體更有效,甚至縮小民主與專制之間的經濟績效差距。
Anthropic推出Opus 4.8模型,旨在幫助企業處理複雜工作流程,並允許用户選擇適合其應用的模式,展現了對客户需求的重視。
MCP Bridge通過混合搜索和AI增強技術,解決企業API對AI Agent不可讀的問題,根據API響應結構自動生成有意義的名稱和描述,大幅提升工具選擇準確率。
本文介紹了將於2026年DataHack峯會上演講的25位最具影響力的AI先驅,包括來自谷歌DeepMind、微軟AI、沃爾瑪等公司的研究科學家、數據科學家、創始人和企業AI領袖。他們正在推動AI技術邊界、構建社區並將模型轉化為產品。
歐盟的《網絡彈性法案》(CRA)即將實施,要求組織對網絡安全負責,報告義務自2026年9月開始,全面合規至2027年12月。該法規適用於在歐盟銷售的所有聯網產品和軟件,包括AI生成的代碼。關鍵要求包括安全設計、生命週期漏洞處理、SBOM透明度以及24小時內報告被利用的漏洞。組織必須立即採取行動進行審計、記錄和實施SBOM工具。“AI乾的”不是藉口。
作者體驗Gemini在Android Auto中的表現兩個月,發現它讓駕駛更安全、更有趣、更高效,並改善了家庭出行體驗。語音控制變得輕鬆自然,減少了手動操作,增加了與家人的互動,並實現了智能家居遠程控制。
比亞迪發佈了中國首顆車規級4納米智駕芯片璇璣A3,採用自研NPU架構,三顆組合算力超2100 TOPS,單位功耗比同類低20%,算力利用率提升100%。王傳福承諾智駕事故全額賠付。
Google的Coral平台提供全棧邊緣AI解決方案,為軟件和硬件開發者提供本地化AI模型部署的工具。
一個高速LLM遊樂場,每秒可處理3000個token,提供開放Web界面。
自2026年1月1日起,美國超過700家醫院需根據CMS TEAM計劃管理五個高容量外科手術的總成本和質量。成功需要統一且AI驅動的數據平台以實現主動干預,典型成果包括減少15%的護理設施成本和降低12%的再入院率。
TheFoundry 是一個用户友好、企業級的多智能體系統(MAS)引導框架,旨在解決現代 AI 編碼中的關鍵失敗點,如令牌遺忘、無限循環、架構漂移和智能體衝突。它採用拉取式工作流、共享看板、上下文範圍限制、步驟預算、基於 TOML 的確定性通信和臨時引導器,讓多個專業 AI 智能體自主協作構建軟件項目。
Stepfun 推出了 Step 3.7 Flash,這是一個 Apache 2.0 開源模型,專為實時智能代理設計。它結合了視覺、編碼、搜索和工具使用能力,擁有 256K 上下文窗口和約 110 億活躍參數,推理速度高達 400 TPS。
更換CRM存在數據丟失和工作流程中斷的風險。遵循這五個最佳實踐可確保遷移順利。
Snyk推出Evo持續進攻安全(COS)產品,針對AI生成代碼和自主攻擊者時代的企業漏洞發現與修復缺口,提供持續滲透測試替代方案,覆蓋傳統測試每年僅15天的窗口期,填補350天空白。該產品利用平台上下文信息,結合確定性掃描與LLM推理,檢測業務邏輯漏洞和權限繞過等傳統工具難以發現的缺陷。
Adaptive Runtime是一個開源Python庫,為有狀態AI系統提供運行時智能層。它包含五個核心引擎(狀態、上下文、置信度、決策、恢復),解決生產環境中AI系統的崩潰恢復、狀態持久化、置信度評分等問題。無需GPU,可在低成本VPS上運行。
PPIO 入選非凡產研發布的「2026 Global AI 100」榜單,該榜單由非凡大賞年度 AI 全球化增長峯會評選,旨在發掘全球化 AI 原生公司。PPIO 以全球化分佈式算力基礎設施、全棧雲服務、模型平台(支持 DeepSeek、GLM 等)及 Agent 沙箱等創新產品,為出海企業提供低時延、高可用的算力網絡。截至 2026 年 4 月,PPIO 整合全球 4800+ 節點,日均 Token 調用量超 10000 億,開發者用户超 57 萬。同時獲評上海市數字出海服務平台試點單位及 GDA 領航服務站。
本文探討AI對編程工作的去技能化影響,類比前端框架過去十年帶來的變化。作者通過分析去技能化、抽象層次、以及包豪斯運動的啓示,指出AI編程與前端發展相似,可能導致技能貶值和質量下降。
本文探討了人工智能如何催生了一種新的、難以問責的官僚主義。作者認為,AI系統雖然擅長處理日常事務(如整理郵件、報銷),但其本質是程序化的官僚,缺乏真正的目標和責任感。隨着AI在企業和政府中廣泛應用,它可能創造出更復雜、更難以擺脱的官僚體系,而人類卻無法像對待人類官僚那樣對其進行監督或解僱。
傳統的生成式AI僅預測下一個詞,對精確法律分析風險太高。下一代法律技術結合神經符號AI(強制遵循邏輯和法律來源層級)與圖檢索增強生成(GraphRAG,將數據映射為互聯網絡以理解上下文),大幅降低幻覺風險並提供可審計的推理過程。
Pond是Crabbox.sh中用於分組相關租約、發現彼此並統一釋放的輕量級機制。它支持多種傳輸平面(Tailscale、URL橋、SSH網格),允許混合使用不同提供商。本文介紹了Pond的核心概念、快速入門、命令、傳輸平面、用例以及Tailscale集成等。
Flathub 更新了其政策,明確禁止在提交的應用和提交本身中包含AI生成或輔助生成的代碼、文檔或其他內容。該政策也禁止使用AI工具生成或自動化拉取請求和審查。對於成熟且維護良好的項目,可能給予例外。
Adobe最新的AI圖像助手Firefly AI Assistant更像是一個多任務的中介,可以為你操作Adobe的設計應用。它不僅能執行編輯任務,還會解釋其操作過程,甚至承認自己的侷限性。儘管結果並不完美,但它在交互方式上令人耳目一新,有助於用户學習設計技巧。
Cognition宣佈完成超10億美元D輪融資,估值達260億美元,由Lux Capital、General Catalyst和8VC領投。公司推出的AI軟件工程師Devin自兩年前上線以來,企業使用量增長超10倍,年化收入達4.92億美元。Devin已為花旗、梅賽德斯-奔馳、高盛等大型組織提供服務,並幫助客户實現顯著效率提升,如梅賽德斯-奔馳將八個月的現代化改造項目縮短至八天。Cognition正朝着自主軟件開發的方向發展,其內部工程團隊89%的代碼由Devin提交。
面壁智能於5月25日至29日舉辦端側大模型開源周,發佈五項技術成果,涵蓋訓練框架、模型壓縮、數據集和智能體操作系統,展現全鏈路系統性創新。MiniCPM5-1B性能超越GPT-4o部分版本,端側AI終局之戰聚焦系統工程。
聯想發佈全球首款商用AI主機系列,專為一人公司(OPC)和成長型企業設計,通過本地+雲端混合架構解決Token成本高和數據安全問題,並贈送大量Tokens,開箱即用。
下一波AI創作浪潮正在遊戲領域發生,騰訊發佈AI遊戲創作平台「代號Craft」,用户可通過自然語言生成可運行的遊戲,2D/3D均支持,內置AIGC工具和免費資產,極大降低遊戲創作門檻。
騰訊發佈Miora,一款集圖像、視頻、UI/UX和3D生成於一體的AI創意工作室。它具備記憶系統、多模態畫布和可定製的Skills,讓一個人擁有整個創意工作室。
本文探討了AI編碼代理(以Claude Code為例)在權限管理中的安全隱患,包括命令誤執行、憑據泄露、提示注入等風險。文章指出人類監督存在“權限疲勞”問題,並介紹了Anthropic提出的沙箱、自動模式、鈎子等緩解措施,同時強調了使用開發容器和最小化權限原則的重要性。
AI可能改變跨平台應用開發的方式,從統一UI框架轉向一個產品圖譜,由代理生成多個原生界面。
PromptLayer是一個面向開發者的AI可觀測性工具,通過單一時間線和瀑布視圖追蹤請求、工作流、令牌使用、延遲、成本和失敗。支持多步驟AI系統的完整執行路徑。目前提供免費測試版。
探討人工智能生成系統代碼的意義與潛在影響。
CodePulse是一個開源的代碼庫索引工具,通過維護持久的、基於git差異的索引,為AI編碼助手(如Claude Code、OpenAI Codex CLI、Cursor等)在會話啓動時注入緊湊的快照,從而節省60-80%的令牌預算。它支持任務感知排序、git感知排序和自動預算功能,並提供了CLI、MCP服務器等多種集成方式。
Lithium是一個基於PostgreSQL ltree的分層版本化存儲引擎,提供確定性、範圍化的檢索,內置版本控制,零運行時依賴。它通過MCP服務器與AI工具集成,適用於AI代理記憶、決策跟蹤等場景。
作者因Wayland下剪貼板同步問題,用AI(Claude Code)將Java項目ClipCascade重寫為Rust,創建了輕量級二進制工具clipboardwire。過程中發現AI開發的關鍵瓶頸是反饋質量而非編碼能力,而UI測試是讓AI可靠迭代的護欄。
本文介紹了一個使用Deep Agents、LangSmith和You.com金融研究API構建的宏觀經濟研究代理,該代理在約45分鐘內分析所有27個歐盟成員國的GDP數據,檢測異常並生成帶有引用的簡報。報告詳細分析了愛爾蘭和德國的異常增長與收縮原因,並強調了方法透明性和可審計性的重要性。
開放運動規劃庫(OMPL)自2008年首次發佈以來,已成為運動規劃社區的基石,提供了大量最先進的基於採樣的算法實現。經過近二十年的持續發展,OMPL 2.0通過硬件加速瞄準實時運動規劃,並與現代AI研究工作流程無縫集成。
本文提出“仿生羣體”系統,通過讓人類用户執行機器人難以實現的任務,降低野外和羣體機器人研究的門檻。該系統使用智能手機應用、藍牙傳感器和中央服務器運行羣體算法。研究驗證了分數偏置搜索算法,在模擬和實際户外環境中均表現出超線性地圖重建能力。
本研究在四人紙牌遊戲大老二中探索自對弈強化學習框架,對比多種算法發現PPO優於蒙特卡洛Q近似、SARSA和Q學習。適度的熵正則化可防止策略過於確定,當前策略自對弈比檢查點自對弈或固定對手訓練提供更強的有限預算課程。結果表明大老二是不完全信息、多人互動、延遲獎勵和可變動作集下深度強化學習的有用受控基準。
Ruby創建者Yukihiro Matsumoto(Matz)正在Anthropic的Claude協助下構建Spinel,一個實驗性的Ruby提前編譯(AOT)編譯器。Spinel將Ruby代碼轉換為C語言,性能提升顯著,但存在諸多限制,包括不支持eval、線程等特性。
repo-brain 是一款開源工具,能將整個代碼庫壓縮成單個Markdown上下文文件,實現高達96%的壓縮率,大幅減少AI令牌使用量。它支持多種編程語言的靜態分析、架構分析和語義關係發現,併兼容多家AI提供商。
Anthropic以9650億美元估值完成650億美元H輪融資,同時披露470億美元年化收入,併發布Claude Opus 4.8更新(提升判斷力、誠實度和長時自主工作能力)以及Claude Code的Dynamic Workflows功能(支持數百個並行子代理)。
ReadyToTalk是一款專為小企業設計的AI前台接待員,能在2秒內接聽所有來電,提供24/7全天候服務,支持30多種語言,並自動學習企業信息。每月僅需39美元,無需技術知識即可在幾分鐘內完成設置。
Dis Dat 是一個讓AI編程代理能夠“看到”你所展示內容的工具,通過簡單的交互提升代碼生成效率。
本文分析了AI演示工具Genspark的侷限性,並介紹了2026年六大替代方案,包括Smallppt、Plus AI、Prezi、Vector Shift、Beautiful.ai和ClickUp,各自具有獨特的優勢,幫助用户根據需求選擇合適的工具。
theta-spec 是一個聲明式的、與任何AI編碼智能體框架無關的配置標準。它通過一個單一的 theta.toml 文件定義完整的配置表面(指令、規則、工具、技能、子智能體),並規定了配置文件的聲明週期協議。任何符合規範的實現都可以解析、鎖定並將配置轉換為任何支持的框架。該項目還提供了參考實現 theta CLI(Rust 編寫)。
對沖基金巨頭Citadel的創始人Ken Griffin對AI的態度從蔑視到沮喪,因為AI代理在數小時內完成之前需要數週或數月的工作。這引發了對經濟增長與就業脱鈎的擔憂,可能挑戰傳統GDP作為經濟健康指標的可靠性。
Together AI通過將語音識別視為端到端系統問題,而非單純的GPU推理問題,在Artificial Analysis榜單上實現了最快的語音轉文本速度。本文詳細介紹了其優化策略:包括針對真實音頻形狀的TensorRT多配置文件引擎、條件CUDA圖消除CPU往返、共享內存減少數據拷貝、事件驅動I/O處理流式傳輸,以及通過gc.freeze()消除垃圾回收尾延遲。
本文探討了強化學習在大型語言模型後訓練中的實際應用,指出當前的瓶頸並非算法而是基礎設施。Modal分享了大規模運行RL後訓練的經驗,介紹了其開源庫如何幫助團隊解決多節點訓練、環境管理和GPU利用率等關鍵問題。
Serenity 是一個開源、本地的AI代理,採用受大腦啓發的神經節點網絡(NNN)記憶架構。它能記住因果關係,跨領域推理,自主運行,且完全在本地機器上運行,無需雲依賴。
Liquid AI 推出了 LFM2.5-8B-A1B,這是一款面向設備的混合專家(MoE)模型,專為工具調用設計。該模型總參數量為 8.3B,但每個 token 僅激活 1.5B 參數,從而能夠在消費級硬件上運行。它支持 128K 上下文窗口、推理能力,並覆蓋九種語言。相比前代 LFM2-8B-A1B,該模型在非幻覺率、指令遵循、數學推理等基準測試中均有顯著提升。
介紹一款集AI、WordPress、合規與廣告跟蹤於一體的軟件,提供免費的聯盟營銷作弊表。
在 Open House 活動中,ClickHouse 社區發佈了三項可觀測性重大更新:ClickStack Cloud(完全託管的無服務器可觀測性平台)進入私有預覽,Managed ClickStack 正式可用,AI Notebooks 進入 Beta 階段,以及 ClickStack MCP 服務器開放源碼。AI Notebooks 是一種持久化的調查工作空間,支持分支探索;MCP 服務器則允許外部代理使用可觀測性原語,提升調查效率。
AI驅動的編碼工具已實現高度自主,讓任何人都能開發軟件,但底層基礎設施卻依然陳舊,導致效率低下。我們需要一個全新的AI原生操作系統。
Firecrawl 推出 /monitor,一款網頁變化監控工具,可自動檢測頁面變更並通過 webhook 通知 AI 代理,節省高達 90% 的 LLM 令牌消耗。
本文探討了將AI聊天機器人作為“思想夥伴”的風險,指出模型固有的奉承傾向、認知偏差放大以及缺乏真正對抗性互動可能導致用户過度自信、認知下降甚至危害決策。作者呼籲用户警惕,並敦促AI實驗室和監管機構承擔保護認知完整性的責任。
隨着AI工具在編程中的普及,軟件工程的面試流程變得過時。傳統的編碼測試無法評估開發者使用AI的能力,導致招聘雙方都面臨挑戰。一些公司開始嘗試允許使用AI的測試或現場工作,但問題仍未解決。
Perplexity 發佈了一款名為 Bumblebee 的開源開發安全工具,用於掃描程序員筆記本電腦上的風險軟件包、擴展和 AI 工具配置。該工具只讀,不會運行安裝腳本或包管理器,專注於四個攻擊面:語言包管理器、AI 代理配置、編輯器擴展和瀏覽器擴展。與側重於容器和管道的 Chainguard 不同,Bumblebee 專注於開發者的本地環境。
在2026年Google I/O大會上,Google Research展示了一系列前沿技術,涵蓋科學發現、健康、邊緣計算和天氣預測等領域。推出了Gemini for Science套件(包括ERA和Co-Scientist),加速科學研究;健康方面有Google Health應用、Symptom AI和AMIE系統;Coral NPU推動邊緣AI發展;還有極端天氣預測模型。這些創新展示了AI如何放大人類的智慧。
本文介紹瞭如何構建一個嵌入Amazon SageMaker AI MLflow應用UI的自定義門户,使用React前端和Flask反向代理實現AWS SigV4認證,並通過AWS CDK部署。該方案提供持久書籤URL,簡化訪問管理,並支持SSO集成。
本文演示如何構建一個基於Flask的安全MLflow代理服務,通過HTTPS端點訪問Amazon SageMaker MLflow,而無需直接使用MLflow SDK。該解決方案適用於正在經歷雲轉型、希望保留現有ML工作流同時採用雲原生服務的組織。
本文結合 LangChain 評估深度智能體的經驗和 Anthropic 的 AI 智能體評估指南,提供了實用指南。您將學習如何應用五種評估模式、使用 pytest 和 LangSmith 構建離線評估,以及配置生產環境的在線監控。文中以文本到 SQL 的深度智能體為例,使用 Amazon Bedrock 覆蓋從開發到生產的完整生命週期。
通過推出新的自主AI功能,這家初創公司利用軟件收購來開發用於智能體訓練與推理的AI硬件-軟件堆棧。
聯邦法官埃莉諾·羅斯被曝在 chambers 內與高級執法官員發生婚外情,司法部門試圖匿名處理,但 AI 通過公開文件細節迅速識破其身份。此事凸顯法院對 AI 能力的無知,以及法律專業人士需提升技術素養,重新思考保密策略。
企業領導者在擴展AI代理時面臨快速交付與治理、信任、成本控制之間的緊張關係。文章分享了五項關鍵實踐:統一治理、管理複雜工作流、創建實驗空間、展示早期成果、培訓員工。
一份記錄全球各地反對大型AI帝國的抵抗運動的清單,涵蓋抗議、法律行動、替代工具和社區組織等多種形式,旨在激發希望和行動。
Databricks 宣佈 Unity Catalog 成為最全面、互操作性最強且生產就緒的 Apache Iceberg 目錄,新增託管 Iceberg、Iceberg v3 和外部 Iceberg 等功能。五大能力包括開放 API、目錄聯邦、跨引擎訪問控制、零拷貝安全共享和 AI 驅動的優化。未來 Iceberg v4 和 Delta 5.0 將融合統一元數據結構。
文章探討了AI編碼工具從開發者緊密耦合的本地工作流到後台異步智能體的演進,強調2025年12月的模型拐點使“規格到PR”流程成為現實,並深入分析了Devin等後台智能體的架構、安全、測試、記憶和多智能體編排等關鍵話題。
AWS完全重構了OpenSearch Serverless,分離存儲和計算,支持零成本空閒縮放,成本降低60%,自動縮放速度提升20倍,並針對AI代理的突發工作負載優化。新架構包括專有存儲層、GPU加速,並整合Vercel和Kiro IDE。未來將推出代理內存、日誌分析(6月)和搜索推理模型。
AWS 對 OpenSearch Serverless 進行了重大重構,並引入了新的 Agent Skills。此舉旨在將 OpenSearch 打造為企業的基礎設施,提供更快、可擴展的搜索能力。
SIA是一個開源的自改進AI框架,通過協調元代理、任務特定代理和反饋代理,自動提升AI系統在基準任務上的性能。在多個基準測試中取得顯著成果,如LawBench準確率提升56.6%,GPU內核運行時間減少91.9%,單細胞RNA去噪提升502%,並在MLE-Bench Hard排名第一。支持本地運行和自定義任務,採用MIT許可。
美光科技市值於5月26-27日突破1萬億美元,與SK海力士同周達到這一里程碑,這是純內存芯片製造商首次同時進入萬億俱樂部。高帶寬內存(HBM)需求來自代理型AI工作負載,超大規模雲服務商正在簽署長期供應協議以鎖定產能。瑞銀將美光目標價上調三倍至1625美元,認為長期HBM供應合同將受益於代理型AI工作負載擴張。美光股價年內已翻三倍以上。
截至2026年5月,七大AI智能體框架(DSPy、Claude Agent SDK、OpenAI Agents SDK、CrewAI、AutoGen、LangGraph、Google ADK)在設計理念、架構、生產就緒度等方面各有千秋。LangGraph在生產部署中領先,Claude Agent SDK在單一提供商能力上最強,OpenAI Agents SDK提供最清晰的多智能體交接,CrewAI在開發效率上佔優。市場預計從2025年的78.4億美元增長至2030年的526.2億美元。
Anthropic最新版Claude模型Opus 4.8主打誠實特性,更少做出無根據聲明,更善於承認不確定性。同時引入動態工作流功能,可協調數百個子代理完成大規模任務。定價不變,快速模式降價三倍。
本文演示瞭如何通過集成 Amazon Quick 和 Snowflake Cortex,自動化金融服務中最勞動密集的工作流程之一:反洗錢(AML)警報分類。您將使用 Amazon Quick Flows 和 Snowflake Cortex,通過 Amazon Quick 模型上下文協議(MCP)集成構建分類工作流。在測試環境中,自動化工作流將警報調查時間從 30-90 分鐘縮短至 5 分鐘以內。實際結果可能因警報復雜性和數據量而異。
Data Formulator 0.7 是一款開源AI系統,旨在解決企業數據分析中數據連接碎片化、分析工作流迭代困難等問題。它提供數據連接器、上下文感知代理和交互式工作區,幫助用户無需編程即可探索、分析和可視化數據。
Fireworks AI推出Serverless 2.0,在無需預留容量的情況下,通過一個API提供標準、優先和快速三種推理服務路徑。標準路徑是默認的彈性共享基礎設施,優先路徑在高負載下提供更強的准入保障,快速路徑則實現約兩倍的生成令牌吞吐量。同時,該版本將負載丟棄和速率限制錯誤碼分離,明確區分429和503狀態碼,幫助開發者編寫正確的重試邏輯和警報配置。
Anthropic宣佈完成650億美元H輪融資,由Altimeter Capital、Dragoneer、Greenoaks和Sequoia Capital領投,投後估值9650億美元。公司計劃利用資金推進AI安全研究、擴展計算能力以滿足Claude的旺盛需求。
今天,ElevenLabs 推出了 Dubbing v2,這是一款革命性的 AI 配音模型。與傳統的基於文本的配音不同,Dubbing v2 直接利用原始表演的情感、語氣和節奏,在 90 多種語言中保持原聲的自然感和表現力。該模型解決了 AI 配音中一個長期未解決的問題:讓翻譯後的語音聽起來像是原説話者真正説的一樣。
數學研究表明,設定高於平均水平的目標比追求完美更有可能帶來成功。
KeptWell是一個AI驅動的醫療記錄平台,幫助家庭整理、理解並共享醫療文件。它能自動提取關鍵信息、追蹤化驗趨勢、生成就診問題,並提供家庭協作空間。注重隱私,無廣告,數據可導出。
賓夕法尼亞州立大學的一項新研究表明,人工智能驅動的聊天機器人在回答一般用户的日常健康問題時準確率接近76%,這引發了對其在面向客户的真實應用中可信度的擔憂。研究人員發現,在產科、婦科和耳鼻喉科等領域,AI表現最佳,而在內科、神經內科和皮膚科等領域表現最差。他們建議AI工具最好由訓練有素的醫生使用,而不是患者。
一項新研究提出StoryScope方法,通過分析敍事結構而非寫作風格,成功區分AI生成的小説與人類創作。研究對61,608篇故事進行10維度敍事特徵提取,發現AI故事傾向於過度解釋主題、情節單一,而人類故事更道德模糊、時間複雜。該方法在人類與AI檢測上達93.2%宏F1分數,並能為不同AI模型(如Claude、GPT、Gemini)生成特徵指紋。
研究者利用AI對FreeBSD內核進行安全審計,發現15個漏洞,包括5個本地權限提升、1個bhyve虛擬機逃逸等,並公開了其中三個LPE漏洞的利用代碼。該項目旨在幫助維護者更高效地發現和修復漏洞。
文章作者通過文本分析、統計證據和AI檢測工具,論證了教皇利奧一世的首份通諭《Magnifica Humanitas》中有大量內容是由AI(特別是Claude)撰寫的。作者指出,通諭中使用的破折號、詞語“genuinely”的頻率遠高於以前的通諭,且Pangram檢測器標記部分段落為AI生成。作者認為,儘管個別證據可能被解釋,但多重證據的吻合難以忽視。
研究人員提出動態對稱性概念,以動態各向同性衡量機器人質心加速度的均勻性。通過模擬和物理實驗,他們發現高動態對稱性顯著提升軌跡跟蹤、任務成功率、魯棒性、恢復力和能效。團隊開發了Argus系列球形機器人,其中20足變體實現了近乎極端的動態各向同性,展示了方向無關的運動、複雜地形穿越、快速自我穩定及部分致動器失效下的韌性。
論文《Seeing through boxes: Non-Line-of-Sight 3D Reconstruction from Radar Signals》提出GeRaF 2.0框架,融合視線幾何約束與神經場,實現射頻信號下隱藏場景的高質量三維重建,在CVPR 2026發表。
本文提出兩種輕量級人臉偽造檢測模型LFWS和LFWL,通過在Xception基線基礎上添加僅292參數的融合模塊,分別結合小波去噪特徵與相位譜或局部二值模式,在多個基準上提升AUC 3-4%,超越更大模型。
一位研究人員製造了一種假疾病來測試AI,結果AI聊天機器人完全被騙了。這個實驗揭示了AI醫療建議的潛在風險,以及訓練數據缺乏人工審查的問題。
Trelk 是一款一次性購買、無需訂閲的知識管理應用。它利用設備端 AI 保存、組織並連接文章、論文和筆記,提供混合搜索、知識圖譜、RAG 聊天、閃卡間隔重複和社區集合等功能,注重隱私且可離線工作。
OpenAI分享了第三方AI評估指南,涵蓋如何評估前沿系統的模型能力、安全措施和有效性。
本文全面探討生成式AI(GenAI)的倫理問題,分析其在軟件開發等領域的優勢與弊端,包括巨大的能源消耗、電子垃圾、虛假信息傳播、對教育科學的威脅、對民主的危害以及數字殖民主義等問題。作者基於自身經驗提出,倫理行為需要權衡利弊,並主張在充分了解負面影響的前提下審慎使用GenAI。
兩位讀者回應Wendy Liu關於AI的文章,認為AI確實改變了思考方式,但並未削弱人類的好奇心,反而激發了更多探索。
Google將“偏好來源”功能擴展至AI概覽和AI模式,允許用户添加喜愛的網站,使其在AI搜索結果中更突出。新功能還包括來源輪播和“被高度引用”標籤,幫助用户找到高質量報道。
Anthropic發佈Claude Opus 4.8,重點提升可靠性、誠實性和自主工作流能力,而非單純追求基準分數。定價保持不變,快速模式大幅降價。
一篇新綜述論文指出,自主AI智能體的真正瓶頸並非語言模型本身,而是圍繞其構建的軟件層。工具、記憶、測試和權限邊界將無狀態模型轉變為可工作的智能體。Deepseek已在北京組建專門的“Harness”團隊,其核心公式驗證了該論點:模型加Harness等於AI智能體。
Braintrust工程師使用Codex和GPT-5.5加速實驗和編程。
本文探討了開源AI策略的侷限性,特別是開放權重模型和開放協議(如MCP)如何被私有參與者捕獲價值。通過分析Anthropic收購Stainless(一家生成SDK和MCP服務器的初創公司)的案例,説明了開發者體驗層正在被平台巨頭整合,形成新的護城河。文章強調,開源的影響高度依賴於其依賴關係,需要從生態系統整體視角分析瓶頸。
Anthropic 發佈了 Claude Opus 4.8,相比 Opus 4.7 在編程、代理工作、推理和知識工作方面有所提升。新功能包括努力控制、動態工作流和 Messages API 實時更新。定價不變,標準版每百萬代幣輸入/輸出 5/25 美元,快速版 10/50 美元。早期測試顯示成本與 GPT-5.5 相當,工具步驟更少。公司還透露了未來路線圖,包括 Mythos 級模型和網絡安全項目 Glasswing。
《圖像帝國》是一部關於當代AI模型中真實與虛擬融合的動畫寓言。該片是艾倫·沃伯頓研究項目的一部分,還包括研究論文和一系列附帶活動。
NexusCortex 是一個基於 Go 語言構建的稀疏 AI 皮層系統,不同於傳統的大型語言模型(LLM)。它採用稀疏計算技術,旨在以更低的計算成本提供高效推理,被稱為 Opus 4.8 的潛在替代者。
Hexo Labs 發佈了 SIA(Self-Improving AI),這是一個基於 MIT 許可證的開源框架,能夠在一個自我改進循環中同時更新代理的框架(scaffold)和模型權重。SIA 由三個 LLM 組件驅動,並在三個不同領域(法律分類、CUDA 內核優化、單細胞 RNA 去噪)的測試中表現出色,結合框架和權重更新優於僅框架更新。論文稱 SIA 是首個同時編輯框架和權重的系統,並已開源代碼。
本文提出了一種去中心化框架,將大語言模型與聲學移動機器人相結合,實現非接觸式物體操作。系統利用Whisper語音識別、LLM語義解析和JSON任務調度,將語音指令轉換為協調的多機器人行動。在兩個基於TurtleBot3的聲學機器人上的實驗顯示,順序任務成功率為96%,並行任務為86%,同步協作任務為70%,展示了LLM驅動自動化在人機交互中的潛力。
該論文提出了一種目標感知的自監督預訓練與模型集成策略,利用未標記的目標域數據提升醫學影像AI在跨設備場景下的泛化性能。在兒科腕部骨折超聲評估任務中,該方法在目標域上Dice係數提升超過6%,實現了標籤高效且隱私保護的跨設備魯棒AI。
該研究提出了Embodied3DBench,一個針對視覺語言模型在3D環境中低層級具身空間智能的基準測試,包含6個任務類別和超過21000個問答對。評估了13個模型,發現當前模型在高層次空間推理上表現較好,但在交互導向感知方面較弱。為此,他們合成了130萬問答對的訓練數據集,微調後顯著提升了低層級空間智能。
一項針對14個開源安全護欄模型的全面評估顯示,Qwen Guard(4B參數)以83.97%的召回率位居榜首,而更大的模型如Llama Guard(12B)和GPT-OSS Safeguard(20B)表現保守,漏掉多達75%的不安全內容。研究還發現,模型大小與安全檢測性能無關,通用型護欄模型優於專用模型。
Aryabhata 2是一個針對競爭性STEM考試(如JEE和NEET)優化的推理語言模型,基於GPT-OSS-20B通過強化學習後訓練。它利用PhysicsWallah的內部題庫構建高質量課程,並通過逐步增大的rollout組規模來擴展探索。實驗表明,Aryabhata 2在多個基準測試中優於基礎模型,同時輸出令牌減少高達64%。
一篇新論文分析了17個大型語言模型(參數規模4.1億至1000億以上),發現指令微調系統系統地壓縮了語言熵,尤其是在話語和結構維度上,平均放大效應達1,949%至16,853%,峯值可達5,181%至209,675%。複雜標點符號的使用頻率被抑制到基線的3.2%至23.2%。這些效應在RLHF下並未惡化。弱干預(lambda=1.0)使崩潰加劇240%,而強控制(lambda=5.0)實現了40.5%的改進,儘管規模劣勢達200-1000倍,仍比前沿模型性能高出96.7-98.2%。強控制還帶來了15%更高的distinct-4、27%更高的詞彙多樣性以及78%更低的重複率。研究表明,對齊需要足夠的控制強度,而非僅僅是分佈平滑。
該研究提出了一種模塊化框架,用於生成可發音、類型學合理且語義結構清晰的人工詞彙。框架從PHOIBLE數據庫中採樣音位清單,在可互換的音系語法(確定性、OT和MaxEnt)下生成詞形,並通過Swadesh-Leipzig-Jakarta本體分配含義。評估表明,概率語法在音位連貫性和類型學真實性方面始終優於確定性和隨機基線。
隨着大型語言模型(LLM)影響力的擴大,理解其決策過程變得至關重要。本文提出通過構建低成本、可廣泛應用的線性探測工具,檢測LLM嵌入中概念的存在與否,從而揭示模型“思考”的內容。研究展示了概念界定、探測訓練與跨上下文追蹤的完整流程,並在三個LLM上對四個概念進行了驗證,為未來大規模監控模型行為奠定了基礎。
本文提出COM方法,通過在初始化和訓練階段引入幾何約束,保留時間序列標記的連續性和序數性,顯著提升基於令牌的時間序列大語言模型(TS-LLM)的性能。實驗表明,COM在多個基準上取得一致改進和強泛化能力。
提出TRACE,一種軌跡感知的LLM推理代理,用於分子先導優化,通過將工具選擇建模為序列決策問題,實現前向優化的結構約束改進,在ADMET優化任務中取得更高成功率、更大性能提升和更高有效性。
最近研究表明,強化學習(RL)比監督微調(SFT)更能保持大語言模型的先前能力。本文從機制層面延伸,引入差分電路脆弱性度量,衡量微調中電路退化程度。在Qwen2.5-3B-Instruct科學問答實驗中發現,SFT適應目標任務更快,但造成更大的電路破壞和遺忘,而RL保留更多基礎電路,但任務適應較慢。結果表明電路保留有助於解釋RL對災難性遺忘的魯棒性。
本研究利用TradeArena測試平台,分析大型語言模型(LLM)交易代理在金融決策中的行為對齊與表示動態。研究發現失敗前的可測量跡象:規劃嵌入偏離正常狀態,有效秩收縮。結構化的風險反饋可作為外部對齊信號,但並非通用性能增強器。此外,51只股票的日內實驗揭示了相關性盲點:LLM理由常證明對耦合資產的集中敞口是合理的。
本文研究知識編輯方法(如ROME和MEMIT)在Transformer模型中的內在機制。作者發現儘管每次編輯修改不同的權重,但所有編輯都依賴於一個共同的權重子集。通過訓練一個緊湊的二進制掩碼,他們成功逆轉了訓練集上80%的編輯和測試集上超過70%的編輯,驗證了不同編輯共享共有功能結構。掩碼通過消除後期層的過度注意來逆轉編輯,且注入該掩碼會使編輯成功率從98%驟降至38%,表明該機制是編輯成功的必要條件。研究發現編輯實際上抑制而非覆蓋知識,這解釋了ROME和MEMIT無法將更改傳播到相關事實的原因。該發現有助於檢測和防禦未授權編輯。
VFEAgent是一個端到端多智能體系統,可直接從輸入圖像和問題描述自動完成有限元分析(FEA)建模與仿真。它結合了多模態視覺語言多智能體管道和驗證優先的代碼合成框架,通過ReAct推理提取結構化FEA規範,並具有自調試和回退機制以確保可執行性和物理有效性。實驗表明,VFEAgent在生成完整且物理有效的仿真方面成功率很高,在可靠性和正確性上優於基於LLM的基線方法,有望將工程師從繁瑣的手動分析中解放出來。
一項新研究利用Anthropic和OpenAI的五種前沿大語言模型作為智能體策展人,在自包含工作空間中自動進行表型註釋。實驗表明,這些智能體的一致性達到了人類策展人的變異範圍,並顯著優於傳統NLP工具,有望解決表型本體註釋中人工依賴強、難以規模化的問題。
該論文通過實驗評估了大型語言模型(LLM)生成的科學論文評審與人類評審的對齊程度,發現對齊有限且因提示和模型而異。研究還發現,作者利用LLM評審進行迭代修改可顯著提升論文評分,最多35%的論文分數得到統計顯著提升。
認知範疇變換器(CCT)是一種306M參數的架構,通過在預訓練的GPT-2 Small骨幹網絡上添加源自範疇論和認知科學的組件,在WikiText-103上實現了21.27的驗證困惑度,相比微調基線降低2.92(12%)。消融實驗證實,84%的改進來自GT-Full單純消息傳遞。研究還發現了結構/一致性區分模式。
OpenAI 推出 Rosalind Biodefense,為經過審查的開發者及美國政府合作伙伴提供 GPT-Rosalind 的受信訪問,助力生物防禦、公共衞生與大流行病防範。
清華系創業公司是石科技通過自主研發的並行優化技術,構建異構算力資源池與推理優化引擎,實現單位Token成本降低40%,旨在打造國產Token調優工廠,降低AI落地門檻。
Anthropic在65億美元H輪融資公告中透露,其年化收入已超過470億美元,較4月份的300億美元大幅增長。該公司此前在2025年底為90億美元,2026年2月為140億美元,顯示出驚人的增長速度。文章還提到了一家客户因未設置使用限制而單月花費5億美元的軼事。
Anthropic發佈了Claude Opus 4.8,定位為對前代產品的適度但切實改進。主要亮點包括誠實性提升(減少無依據斷言,代碼錯誤遺漏率降低四倍),以及支持對話中修改系統提示等新功能。定價未變,但快速模式價格顯著降低。
Claude最新旗艦Opus 4.8發佈,部分能力超過Mythos,支持動態工作流,可拆解任務給數百個子智能體並行執行,人類無需頻繁檢查。誠實性大幅提升,代碼缺陷漏報率降至前代四分之一。
llm-anthropic 0.25.1 版本新增對Claude Opus 4.8模型的支持,為有權限的組織提供快速模式選項,並調整了各模型的默認最大令牌數為模型最大輸出而非8192。
新研究發現,大型語言模型在訓練過程中會吸收明確標記為假的陳述,即使它們被明確警告為假。這種現象被稱為“否定忽視”,可能導致模型產生幻覺。實驗表明,在合成文檔微調後,模型對虛假聲明的“信念率”從2.5%飆升至92.4%。
Anthropic 推出 Claude Opus 4.8,並附帶兩項 Claude Code 更新:動態工作流可協調多達 1000 個子代理並行工作,以及更便宜的快速模式,輸出速度提升 2.5 倍。兩者均為研究預覽版。
阿塞拜疆電信公司Azercell與AWS生成式AI創新中心合作,在Amazon SageMaker AI上構建了針對阿塞拜疆語的大語言模型,通過自定義分詞器、分佈式訓練和Liger Kernel優化,實現了23%的訓練吞吐量提升、58%的GPU內存峯值降低和2倍的分詞效率提升。
Anthropic推出Claude Opus 4.8,該模型在多數基準測試中擊敗了GPT-5.5和Gemini 3.1 Pro,並且識別自身編碼錯誤的頻率是前代模型的四倍。同時,Anthropic還引入了動態工作流功能,可啓動數百個並行子代理處理代碼庫遷移等任務。
並非每個新模型都像宣傳的那樣出色。我們的追蹤器將每個版本與同類模型進行對比,幫助您瞭解哪些模型值得關注。本文總結了2026年至今的重大模型發佈,包括Claude Opus 4.8、GPT-5.5 Instant、Nemotron 3 Nano Omni、GPT-5.5、ChatGPT Images 2、Claude Opus 4.7、Claude Mythos(預覽版)、GPT-5.4、Claude Opus 4.6和GPT-5.3-Codex,並闡述了它們的特點與意義。
Claude Code 現支持一鍵切換模型、自帶密鑰(BYOK),兼容 Anthropic 和 OpenAI 標準。起價每月5美元,幫助用户繞過服務中斷、速率限制及超額費用。
法國初創公司Mistral AI在Digital Realty的巴黎南園區獲得了10兆瓦的計算能力,以擴展其AI基礎設施。
Anthropic 發佈了其旗艦模型 Opus 4.8,新功能包括用户可控制 Claude 的努力程度、動態工作流支持大規模編碼、快速模式價格降至原來的三分之一。模型在基準測試中領先 GPT-5.5 和 Gemini 3.1 Pro,但在終端編碼方面仍落後於 OpenAI。此外,模型在誠實性、自主支持和減少欺騙方面有顯著改進。
Anthropic 的最先進 Opus 模型 Claude Opus 4.8 在 Amazon Bedrock 和 AWS 上的 Claude Platform 正式可用。該模型在編碼、代理任務和專業工作方面帶來顯著改進,具有更強的自主性和一致性,適合長期生產工作負載。
Anthropic 於週四發佈 Claude Opus 4.8,該模型在訓練中強調“誠實”,能夠更頻繁地標記工作中的不確定性,減少無依據的斷言。評估顯示,其代碼缺陷遺漏率比前代降低約4倍。此外,用户可控制任務投入的努力程度,以及引入“動態工作流”功能,支持並行運行數百個代理。
Anthropic 發佈了 Claude Opus 4.8,這是其旗艦模型的最新版本。該版本在基準測試、協作能力、誠實性等方面均有顯著提升,並引入了努力程度控制、動態工作流等功能。Opus 4.8 在編碼、代理任務、推理和知識工作測試中表現優於前代,且價格不變。同時,Anthropic 宣佈了多項新功能和未來計劃,包括即將推出的更高智能模型。
一位沒有開發經驗的失業者,利用AI工具和無代碼平台Base44,在一夜之間創建了One Tile網站,並在Reddit上獲得了20萬瀏覽量。
法拉利首款電動車Luce,由喬尼·艾維參與設計,外觀顛覆傳統,引發熱議。本期Vergecast討論了其設計、技術以及對電動車市場的影響,還涉及AI的普及與公眾反感等話題。
波士頓兒童醫院採用OpenAI技術改善患者護理、減輕運營負擔,並已成功診斷40多例罕見疾病。
ArchToCode是一款從代碼和GitHub生成AI Mermaid圖表的工具。
教皇利奧十四世發佈了關於人工智能的通諭《偉大的人性》,警告這一快速發展的技術的用途與誤用。作者弗朗辛·普羅斯表示感激,並認為硅谷不應輕視這一重要文件。
亞馬遜取消了內部AI使用排行榜,原因是員工通過無意義的AI任務來虛增分數,導致公司雲成本大幅上升。
喜劇演員錢信伊在哈佛大學第375屆畢業典禮上,以幽默卻嚴肅的方式向畢業生髮出關於人工智能的警告。
Drafted是一款AI工具,可讓用户即時設計家居空間。
StudySong是一款AI工具,能夠將學習筆記或任何文本轉化為完整的歌曲,支持PDF上傳,所有處理在本地完成,保護隱私。
本文以教皇利奧十四世關於人工智能的通諭為引子,幽默而尖鋭地列舉了科技界40個最令人沮喪的問題,從收不到的一次性密碼到無用的客服聊天機器人,批評科技公司忽視人性化設計。
Pubflow推出一個統一系統,集成了身份驗證、後端邏輯和基礎設施,消除了構建AI應用時拼接代碼的需求。它支持多種數據庫和編程語言,並提供生產就緒的啓動套件。
微軟推出重新設計的Microsoft 365 Copilot,加載速度提升兩倍,界面更簡潔。新功能包括漸進式顯示和直接格式化文本。
OperatorOS 是一個私密的 AI 個人運營器,通過聊天界面管理個人任務。開發者正在尋找 5 名誠實的 beta 測試者。
蘇珊·奧曼博士撰文呼籲公眾參與AI討論,指出儘管政府、宗教領袖和科技巨頭在辯論AI未來,公眾卻被排除在外。她向英國議會AI小組提供證據,顯示公眾對AI的擔憂兩年內上升10%,91%的人認為公平應優先於經濟利益。
一張泰國警察穿着華麗節日服裝圍捕毒販的照片在全球媒體瘋傳,但經調查發現,該圖片是由警局Facebook賬號管理員使用AI生成,目的是展示更友好的形象。
通過19世紀鐵路熱潮與當今AI投資的對比,揭示資本密集型技術如何重塑金融體系。鐵路催生了債券市場和現代金融,而AI正重複這一過程。歷史表明過度投資和全球金融牽連可能導致危機,AI投資者需警惕類似風險。
本文分析了在太空建設AI數據中心的可行性,包括其物理優勢(持續的太陽能、被動輻射冷卻、真空光速通信)和工程限制(散熱、輻射加固、訓練同步、維護)。關鍵假設是星艦的發射成本。目前多個初創公司和谷歌、SpaceX等巨頭已啓動試點項目。近期的投資影響有限,但值得關注。
OpenAI首席執行官Sam Altman改變了早前關於AI將導致大量失業的預測,表示“就業末日”可能不會出現。他承認對AI影響就業的直覺有誤,並指出人類工作的互動價值不可替代。儘管其他行業領袖仍警告AI將顛覆就業市場,Altman的言論反映了對AI成本、採用速度及公眾輿論的綜合考量。
文章通過歷史週期(如愛因斯坦的奇蹟年與電力革命)類比當前AI發展,指出突破性理論發現後必然跟隨漫長的應用期,其間舊崗位消失但新崗位湧現。作者認為AI正處於理論突破階段,後續應用將創造更多就業機會。
加州大學伯克利分校UCCL團隊發佈mKernel,將節點內NVLink、節點間RDMA和密集計算融合到單個持久CUDA內核中,旨在減少AI工作負載中的通信開銷。研究顯示通信可佔用前向傳播43.6%和訓練總時間32%的時間。mKernel提供五種融合內核,支持ConnectX-7和AWS EFA後端。
ChatGPT和其他AI工具越來越多地引用埃隆·馬斯克的AI生成百科全書Grokipedia,這引發了對其準確性和傳播錯誤信息的擔憂。儘管目前Grokipedia在引用中的佔比很小,但其使用率正在上升,尤其是在ChatGPT中,它往往被當作主要來源,而谷歌的AI產品則將其作為輔助參考。專家警告稱,使用AI生成且缺乏人類監督的Grokipedia作為來源,可能導致偏見、錯誤信息甚至數據中毒風險。
本週,AI與工作的衝突在四個司法管轄區同時爆發:維基百科編輯因裁員組織罷工,亞馬遜員工將內部AI評級系統玩壞,中國法院開始執行禁止以AI為由裁員的規定,英國智庫呼籲員工在AI部署中擁有發言權。同時,前沿實驗室繼續深入政府合作。
本文是 PyTorch 性能分析系列的第一篇,從最簡單的矩陣乘加操作開始,引導讀者學習如何使用 torch.profiler 進行性能分析,包括設置分析器、解讀分析表和追蹤數據,以及理解 CPU 和 GPU 活動之間的時間關係。文章還討論了預熱和優化開銷等問題。
儘管蘋果一直強調本地AI的隱私優勢,但最新報告顯示,蘋果計劃藉助谷歌和英偉達的雲端算力為Siri注入Gemini能力。這種混合架構或能解決本地AI模型在性能上的不足,但也意味着對用户隱私的權衡。
麻省理工學院與馬薩諸塞州宣佈計劃建立量子系統實驗室(QSL),獲得州政府2500萬美元投資,為全州研究人員提供共享量子工具箱,加速量子研究、創新和增長。
滑鐵盧大學學生在谷歌資助的未來實驗室中開發了多個AI原型,包括日語學習應用Kanji Garden、手語學習工具SignFluent和健身指導工具MuscleMemory,旨在重塑教育和工作的未來。
瞭解如何通過向數據中注入誤導信息來保護個人數據不被AI模型抓取和使用。
光帆科技與騰訊出行服務合作,將AI全感穿戴設備接入出行平台,該設備曾登頂京東熱賣榜並售罄,現已開啓新一輪預售。
工會大會支持的IPPR報告提出“工人支持税”,以增強員工在職場AI採用中的影響力,確保利益公平分享。
英國政府計劃從明年起在邊境部署AI面部識別技術,以檢測冒充未成年人的成年移民。該技術將分析照片估算年齡,但人權組織批評其不成熟且可能侵犯兒童權利。
Xerolith是一個工作平台,通過分層遞歸架構實現持久身份、自主信念形成和獨立於底層的知識整合。系統在80多天的連續運行中,將2,817個原始條目壓縮為1,218個信念,並支持完整的譜系追蹤和內部對齊。
研究者提出了一種多分辨率端到端深度神經網絡,用於自動駕駛中延遲與安全性的平衡。通過在運行時選擇輸入分辨率,該網絡在CARLA模擬中相比固定分辨率模型改善了車道入侵、闖紅燈和碰撞等安全指標。
文章探討了“一次性軟件時代”的概念,認為AI生成的代碼應被視為可丟棄的,就像工業革命中的傢俱一樣。作者通過一個實際案例展示瞭如何用AI重構代碼,並提出了“一次性代碼宣言”,強調代碼需滿足意圖、要求和安全性。
本視頻探討了在圍棋領域對抗超人類AI的策略和方法,包括利用AI的弱點、創新戰術以及理解AI的決策模式。
Anthropic在H輪融資中籌集650億美元,估值達9650億美元。年化收入超過470億美元,CFO Krishna Rao透露。公司計劃投資安全研究、計算能力和擴展Claude產品線。
維基媒體基金會在坐擁2.96億美元儲備金並通過向AI公司出售數據獲利的情況下,解僱了長期員工和整個社區技術團隊。這一行為激怒了志願者編輯,他們威脅發起罷工。文章探討了CEO的AI妄想症如何扭曲組織優先事項,以及AI行業對人力判斷的替代可能導致的惡性循環。
本文探討了AI如何影響軟件工程面試,分析了不同類型的面試(家庭作業、現場練習、演講、實際工作)在信號質量和公司成本兩個維度上的表現。作者認為AI使家庭作業過於簡單,降低了現場編碼的相關性,建議限制AI在面試中的使用以保持信號質量,並借鑑傳統教育模式的經驗。
Shift是一家AI訓練初創公司,提供免費家庭清潔服務,但會在清潔過程中記錄清潔工的動作,用於訓練機器人。公司表示,這些訓練數據的價值足以覆蓋服務成本。該服務目前僅在紐約可用,但很快將擴展到舊金山、倫敦、蘇黎世和慕尼黑。
人工智能公司Anthropic宣佈獲得650億美元融資,估值達9650億美元,超越OpenAI成為全球最有價值的AI初創企業。其編碼助手等產品被大型企業廣泛採用,推動公司快速成長。
該項目緊隨Anthropic尚未發佈的Mythos AI網絡安全模型,該模型發現了軟件系統中的嚴重安全漏洞。
這家快速發展的供應商獲得新一輪融資,凸顯了AI編碼市場的強勁勢頭。
下個月的翠貝卡電影節將首映一部全AI生成的電影《紫羅蘭之夢》。這部75分鐘的影片虛構再現了伊朗政府1月大規模殺害抗議者的事件,所有人物和圖像均由AI創建。影片製作成本僅2000美元,由兩位伊朗裔兄弟使用多種AI工具創作。
YouTube為Premium訂閲者推出新功能,優化播客收聽體驗,包括音頻優先的“隨身模式”、自動變速播放以及AI播客推薦。