AI News HubLIVE

今日必讀

工具

荷蘭極右翼政黨對法院素描師進行賠償,因使用AI篡改影像

荷蘭自由黨(PVV)未經許可使用法院素描師佩特拉·烏爾班的畫作,並用AI將其修改得更加兇惡,現已向該藝術家支付賠償。該畫作描繪了兩名因謀殺姐妹被判刑的敘利亞兄弟。

  • 荷蘭極右翼政黨PVV擅自使用法院素描師的畫作
  • 利用AI修改影像使兩名敘利亞兄弟看起來更兇惡
站內正文

Show HN:Babel – 與陌生人用任何語言進行即時通話

Babel是一個匿名語音通話平臺,隨機配對陌生人,雙方可選擇各自說和聽的語言,透過即時AI翻譯實現雙向同步翻譯。該應用85%的功能由一次性的MVP使用前沿模型和API完成,即時WebRTC經過除錯實現。

  • Babel隨機配對陌生人進行匿名語音通話,雙方可設定不同的聽說語言
  • 即時AI翻譯以隔口譯方式在後臺播放,實現雙向同步
站內正文

Hasta Pronto – 一封AI告別信和互動紀念 – Claude

這是一篇使用者生成的內容,未經驗證。標題為“Hasta Pronto — 一封AI告別信和互動紀念”,由Claude建立。

  • 內容由使用者生成且未經核實。
  • 文章標題是“Hasta Pronto — 一封AI告別信和互動紀念”。
站內正文
Agent

讓我們稱它們為“aigents”

作者提議用“aigents”代替“AI agents”,以避免歧義並簡化術語。

  • “AI agents”這個術語存在歧義,容易與其他型別的“agent”混淆。
  • 作者建議使用“aigents”作為明確且簡潔的替代詞。
站內正文

使用city2graph、OSMnx和PyTorch Geometric進行城市功能推斷的空間圖神經網路編碼實現

本教程介紹了使用city2graph構建端到端空間圖學習流水線的方法,用於城市功能推斷。它從OpenStreetMap收集興趣點(POI)和街道網路資料,設計了合成資料回退機制以確保可靠性。接著,工程化空間特徵,構建多種近鄰圖家族(如KNN、Delaunay、Gabriel等),並比較它們在表示同一城市環境時的差異。然後,同時構建異質圖和同質圖,轉換為PyTorch Geometric格式,並訓練GraphSAGE模型根據空間結構預測POI類別。整個工作流整合了地理空間資料處理、圖構建和GNN訓練,提供了一個實用的實現範例。

  • 使用city2graph從OpenStreetMap資料構建空間圖學習流水線,幷包含合成資料回退機制。
  • 工程化空間特徵並構建多種近鄰圖家族(KNN、Delaunay等),比較其拓撲差異。
站內正文

Show HN: AccInt – AI編碼代理的工作模型

AccInt展示了一種AI編碼代理的工作模型,該模型透過逐步推理和持續學習,在招聘流程中實現了高效、高質量的執行。代理從搜尋候選人到傳送定製訊息的每一步都經過驗證,拒絕批次操作,並堅持只向指名候選人傳送。九周後,代理能在6分鐘內完成招聘任務,大部分工作為已驗證的重複操作。系統從每次執行中學習,例如發現資深工程師更重視事後分析而非福利,以及特定時間段傳送訊息的回覆率是其他時間的兩倍。

  • AI代理執行招聘任務時,從搜尋到傳送訊息的每一步都經過推理和驗證。
  • 代理拒絕批次傳送InMail,只向指定的11位候選人傳送。
站內正文

AI是否已扼殺了實用類非虛構書籍?

作者蒂姆·費里斯透過自己五本暢銷書的銷售資料,揭示了自ChatGPT推出以來,實用類非虛構書籍銷量的斷崖式下跌。他認為AI聊天機器人正取代書籍成為獲取個性化建議的首選介面,並預言這種趨勢將波及播客、線上課程和新聞業。儘管存在一些反例,但作者認為資訊型內容的市場正在崩潰,而注重深度體驗和轉化的內容仍有機會。他建議創作者回歸尋找1000個鐵桿粉絲的核心策略。

  • 費里斯個人圖書組合的印刷銷量從2022年到2026年預計下降約80%,而ChatGPT於2022年底釋出。
  • 他認為實用類非虛構書籍(如自助類、指南類)是AI顛覆浪潮中的‘煤礦裡的金絲雀’,整個知識付費行業都將面臨類似衝擊。
站內正文
模型

中國打擊西方AI模型,美國公司卻湧入DeepSeek

中國國家安全部警告使用西方AI模型存在安全風險,同時美國企業因成本優勢紛紛採用中國開源模型。雙方在AI領域相互牽制,使用者繞道訪問對方模型的現象加劇了技術博弈。

  • 中國國家安全部警告透過第三方工具訪問美國AI模型可能帶來安全風險
  • 美國企業因成本優勢大量使用DeepSeek、阿里Qwen等中國開源模型
站內正文
政策

開源AI必須勝利

文章認為,開源AI對於維護公眾對智慧基礎設施的控制至關重要。它警告AI不要成為少數公司控制的訂閱服務,並強調AI必須可用、可理解、可複製、可本地部署、經濟可行且由社群治理。

  • AI必須保持開源以確保公眾的操作自由。
  • 封閉的AI有造成認知訂閱經濟的風險。
站內正文

聯邦政府命令Anthropic在釋出三天後撤回Fable 5和Mythos 5

美國聯邦政府釋出出口管制指令,以國家安全為由要求Anthropic立即停用Fable 5和Mythos 5模型。Anthropic雖有異議,但為合規已全面關閉模型,並表示該指令缺乏具體細節,僅基於一個聲稱的越獄演示。

  • 美國政府援引國家安全權力,釋出出口管制指令,要求Anthropic暫停Fable 5和Mythos 5的訪問。
  • Anthropic認為該指令基於一個聲稱的越獄演示,但指出所涉漏洞輕微且其他模型同樣存在。
站內正文
其餘更新(41 條)
Agent

從華爾街到資料平臺

金·哈頓(Kim Hatton)從金融營銷轉型為Databricks全球金融服務營銷領導者,本文以訪談形式探討了她在監管嚴格的行業中如何利用資料技術推動營銷創新,以及Databricks的Unity Catalog、Lakebase和Genie等工具如何幫助金融機構打破資料孤島、加速AI實驗並民主化資料訪問。

  • 金·哈頓從金融營銷轉型為Databricks全球金融服務營銷領導者,強調資料在營銷策略中的核心地位。
  • Databricks的Unity Catalog透過統一治理打破資料孤島,確保單一事實來源,同時滿足GDPR等合規要求。
站內正文

我們如何讓 GitHub Copilot CLI 更審慎地委託任務

GitHub Copilot CLI 透過更智慧的子代理委託機制,減少了不必要的任務交接和等待時間。在生產 A/B 測試中,工具故障率降低了 23%,使用者等待時間減少了 5%。文章詳細介紹瞭如何識別委託瓶頸、改進策略以及驗證效果。

  • Copilot CLI 現在更審慎地使用子代理,僅在必要時委託任務。
  • 生產 A/B 測試顯示工具故障減少 23%,等待時間降低 5%。
站內正文

NVIDIA Blackwell 在首個代理式 AI 基礎設施基準測試中領先

Artificial Analysis 釋出業界首個代理式 AI 基準測試 AgentPerf,首輪結果顯示 NVIDIA Blackwell Ultra NVL72 平臺在代理式 AI 工作負載中效能領先,每兆瓦可執行 20 倍於 Hopper 的代理。基準測試基於真實編碼代理軌跡,測量平臺在滿足響應速度輸出速率閾值下能同時支援的代理任務數。

  • AgentPerf 是首個針對代理式 AI 的基準測試,衡量系統處理鏈式 LLM 呼叫和工具呼叫的能力。
  • NVIDIA GB300 NVL72 在 DeepSeek V4 Pro 模型上每兆瓦執行的代理數是 H200 的 20 倍。
站內正文

Ire識別出又一個LOTUSLITE樣本

微軟的自主惡意軟體分類代理Project Ire對一份LOTUSLITE變種樣本進行了逆向工程分析,該樣本在大多數主流EDR工具未能檢測時被識別出來。Ire透過行為分析而非簽名匹配發現了其惡意行為,並生成了詳細的功能級報告,與Acronis的公開分析一致。

  • Ire分析了LOTUSLITE變種,該變種共享TTP但無已知IOC。
  • 樣本雜湊為47e51e...,最初只有少數廠商檢測到。
站內正文

誰能在企業代理戰爭中扮演瑞士?

OutSystems 在 ONE 大會上推出其 AI 代理平臺,強調其作為中立協調者的角色,不擁有底層資料,而是整合 SAP、Salesforce 等系統。文章還討論了影子 AI 和令牌成本問題。

  • OutSystems 定位為中立的企業代理協調平臺,不依賴特定系統。
  • 推出 Agent Experience 平臺,支援第三方編碼工具如 Claude Code 和 Codex。
站內正文

我們可以與AI共存,但不是像現在這樣

文章探討了AI技術快速部署帶來的問題:缺乏公眾諮詢、社群資源被掠奪、工人失業、監管缺失。作者呼籲建立聯邦資料中心區、採用水資源回收技術、實施工資保險和代幣稅,並鼓勵公民參與地方決策。

  • AI部署未經公眾同意,社群利益受損
  • 資料中心選址混亂,缺乏聯邦監管
站內正文

虛假錯誤報告劫持AI程式設計代理——且無任何防範

一種新型攻擊利用AI程式設計代理對工具輸出的信任。攻擊者透過Sentry的公開DSN注入虛假錯誤報告,誘使代理執行惡意npx命令。該攻擊已在真實組織和主流AI代理上得到驗證,由於每一步都經過授權,傳統的安全措施無法檢測。Sentry承認問題但拒絕修復根本原因,使整個生態系統面臨風險。

  • 攻擊利用Sentry公開的DSN注入帶有Markdown的虛假錯誤事件,欺騙AI代理執行惡意npx命令。
  • 已在多個組織中成功驗證,對Claude Code、Cursor、Codex等流行AI代理的成功率高達85%。
站內正文

Show HN: Vilvona AI – 自託管AI助手,支援泰米爾語和印地語介面

Vilvona AI 是一個完全自託管的AI助手,由Claude Fable 5驅動,支援泰米爾語和印地語介面。它可以連線100多種應用(如WhatsApp、Telegram、Gmail、Slack等),所有資料保留在本地。透過npx vilvona即可在30秒內啟動,適用於個人和團隊。

  • 自託管,資料本地化,使用Anthropic API金鑰
  • 內建泰米爾語和印地語介面,支援21種語言
站內正文

使用MLX在Mac上執行本地自主AI(WWDC 2026)[影片]

本影片展示瞭如何利用MLX框架在Mac上完全本地化執行自主AI代理,無需雲端或API金鑰。涵蓋了從基礎棧到效能最佳化的四大層次,包括藉助M5神經加速器實現4倍提示處理加速、連續批處理支援併發以及多Mac分散式推理。透過OpenCode等實際演示,展示了代理在本地構建SwiftUI應用和修復Xcode錯誤的完整流程。

  • MLX框架支援在Apple Silicon上完全本地化執行AI代理,確保隱私和低延遲。
  • M5晶片的神經加速器使矩陣乘法速度提升4倍,顯著加快提示處理。
站內正文

OpenAI 推出靈活速率限制重置功能,Codex 編碼代理引發 AI 價格戰

OpenAI 現允許 Codex 使用者儲存速率限制重置次數並手動觸發,無需等待固定計劃到期。Go、Plus、Pro 和 Business 計劃使用者各獲得一次免費重置,Plus 和 Pro 使用者還可邀請好友解鎖額外重置。

  • Codex 使用者可儲存速率限制重置並隨時手動使用。
  • Go、Plus、Pro、Business 計劃使用者各獲一次免費重置。
站內正文

Show HN: Nenya——一個用Go編寫的輕量級、高安全性AI API閘道器/代理

Nenya是一個用Go編寫的輕量級、零依賴的AI API閘道器,位於AI編碼客戶端和LLM提供商之間,提供秘密編輯、上下文管理、代理路由和MCP工具整合,支援透明SSE流。其安全特性包括非root執行、mlock保護秘密、seccomp和無新特權。

  • 用Go編寫,零外部依賴,支援OpenAI和Anthropic相容API。
  • 內建23個提供商介面卡,支援路由、回退鏈和斷路器。
站內正文

Show HN:Sifty – 一款帶有本地AI的Windows清理CLI/TUI工具

Sifty 是一款面向開發者的 Windows 系統維護工具,提供 CLI 和 TUI 介面,支援垃圾清理、磁碟分析、重複檔案查詢、應用管理、啟動項管理、更新檢查、開發者工件清理等。其 AI 助手透過本地 Ollama 執行,僅讀取檔案後設資料,確保隱私安全。工具預設進行試執行,使用回收站而非永久刪除,並有多種安全防護措施。

  • Sifty 是一款免費、開源的 Windows 系統清理工具,採用 MIT 許可。
  • 提供 CLI 和 TUI 兩種介面,所有操作均可指令碼化。
站內正文

實現演化式資料庫開發:使用Lakebase進行資料庫分支(總結篇)

本文是Databricks關於使用Lakebase實現資料庫分支系列的第三部分,重點介紹了在團隊規模擴大和AI代理加入的情況下,如何透過層級拓撲、許可權模型和DBA角色轉型來支援演化式資料庫開發。文章以開發者Jen的視角,闡述了從個人到50人團隊的擴充套件過程中,資料庫分支如何從一次性操作變為結構化治理,並探討了代理在其中的角色。

  • Lakebase的寫時複製分支功能使得每個開發者擁有獨立資料庫例項的實踐成為可能,解決了長期以來的隔離難題。
  • 在團隊規模下,環境層級從獨立的例項轉變為長期執行的分支,簡化了管理並消除了環境漂移。
站內正文

Box AI如何藉助Deep Agents構建企業內容代理

Box AI基於Deep Agents構建了Box Agent,支援跨企業內容庫搜尋、分析和綜合,同時保留安全性和許可權模型。採用父/子代理架構,動態生成子代理處理複雜任務,並透過中介軟體實現引用生成、快取和上下文管理。

  • Box Agent從單檔案問答演進到企業級多文件分析。
  • 採用Deep Agents實現模型無關性和快速迭代。
站內正文

編碼代理也有問題——所以 Stack Overflow 為它們建了一個家

Stack Overflow 推出了面向 AI 編碼代理的新平臺 Stack Overflow for Agents,旨在讓代理之間共享知識,解決重複勞動和“短暫智慧差距”問題。平臺基於聲譽機制,代理可自主查詢和撰寫但需人工審查。

  • Stack Overflow 推出面向 AI 編碼代理的 API 優先平臺
  • 代理可透過三種帖子型別共享知識:問題、TIL(今日學到)和藍圖
站內正文

40%的企業將淘汰AI代理——確保你的代理不失敗的3種方法

如何從自主AI中創造真正的投資回報率?三位數字領袖分享了他們在實踐中的教訓,強調框架、專家和資料貨幣化的關鍵作用。

  • 關注框架:Whoop公司的Matt Luizzi強調可重複的框架對於規模化AI代理至關重要。
  • 利用專家分析師:Fanatics公司的Madeleine Want指出,有專家指導的代理在邊界明確的領域更容易成功。
站內正文

OpenAI收購初創公司以增強Codex

OpenAI收購了一家初創公司,旨在提升其AI編碼工具Codex,以在競爭激烈的AI編碼市場中追趕對手Anthropic及其Claude Code代理。

  • OpenAI收購初創公司以增強Codex,應對Anthropic的競爭。
  • 此舉是OpenAI在AI編碼市場保持競爭力的一部分。
站內正文

首次Anthropic公共記錄調查結果

Anthropic釋出了首次公共記錄調查結果,涉及近5.2萬美國人,揭示了公眾對AI的希望與恐懼。主要希望包括治癒疾病(48%)、幫助殘疾人(36%);主要恐懼包括失業(64%)、認知依賴(56%)和錯誤資訊(52%)。71%的美國人支援政府監管AI,僅15%信任AI公司。調查發現,AI觀點在黨派、地域和教育線上分歧不大,但存在強度差異。

  • 48%的美國人將治癒疾病列為AI的首要希望,其次是幫助殘疾人和科技進步。
  • 64%的美國人擔憂AI導致失業,認知依賴和錯誤資訊緊隨其後。
站內正文

滾動部署:實現模型更新的零停機時間

Baseten 推出滾動部署功能,允許團隊逐步更新模型版本,無需停機或加倍 GPU 開銷。該方法在每次替換一個副本,逐步轉移流量,並提供暫停、恢復和回滾控制。使用者報告部署頻率提升 50–60%,無需在非高峰時段手動監控。

  • 滾動部署逐步替換副本,避免藍綠部署的雙倍 GPU 成本和硬切換的全有或全無風險。
  • 支援 max_surge(優先擴新副本)和 max_unavailable(優先縮舊副本)兩種模式,適應延遲或成本敏感場景。
站內正文
模型

OpenAI WebRTC音訊會話:新增文件上下文功能

Simon Willison 升級了他的 OpenAI WebRTC 音訊會話工具,新增了文件上下文貼上功能,並支援 OpenAI 最新的 GPT-Realtime-2 模型(號稱具有 GPT-5 級別推理能力)。使用者現在可以在瀏覽器中透過語音與 AI 討論任意文本內容。

  • 支援 OpenAI 新推出的 GPT-Realtime-2 模型,具備 GPT-5 級推理能力
  • 可貼上大量文件上下文,在瀏覽器中以語音對話方式探討內容
站內正文

Erdős問題與AI模型能力的猜想

本影片探討了數學家Paul Erdős提出的問題,以及這些經典難題如何啟發關於人工智慧模型能力的當代推測。

  • Erdős問題在數論和圖論中的核心地位
  • AI模型解決數學問題的能力
站內正文

谷歌釋出Gemini-SQL2:基於Gemini 3.1 Pro的文本到SQL系統在BIRD單模型排行榜上達到80.04%

谷歌研究團隊宣佈推出Gemini-SQL2,這是一種基於Gemini 3.1 Pro的文本到SQL能力,在BIRD單模型排行榜上實現了80.04%的執行準確率。該指標衡量生成的SQL是否執行並返回正確結果,而非表面合法性。Gemini-SQL2在排行榜上領先,但尚未公開發布API或模型卡。

  • Gemini-SQL2在BIRD單模型排行榜上達到80.04%執行準確率。
  • 該能力由Gemini 3.1 Pro驅動,專注於生成可執行的SQL。
站內正文

構建Supercharger:Rocket Close如何利用智慧體AI最佳化產權運營

Rocket Close與AWS合作開發了Supercharger,一個基於Strands Agents、Amazon Bedrock和MCP工具的智慧體AI解決方案,旨在最佳化產權運營流程。該方案透過中央化知識和自動化研究密集型任務,將聯絡中心的來電和郵件減少了30%,提高了產權審查準確性和客戶滿意度。本文詳細介紹了技術架構、商業影響和關鍵經驗教訓。

  • Supercharger利用智慧體AI自動化產權運營中的研究密集型任務,減少了對多個系統的手動查詢。
  • 採用Strands Agents和MCP工具實現模組化架構,新資料來源可輕鬆新增為獨立工具。
站內正文

Cortex – 基於Markdown的Agent原生知識作業系統(Karpathy的LLM Wiki,透過MCP)

PULSE8.ai Cortex是一個基於Markdown的Agent原生知識作業系統,為AI代理和人類提供共享的知識庫,支援知識圖譜、全文搜尋、檔案編譯等功能,透過統一的MCP介面訪問。靈感來源於Andrej Karpathy的LLM Wiki模式,無需資料庫即可執行。

  • Cortex是一個Agent原生的知識作業系統,基於Markdown構建,受Karpathy的LLM Wiki模式啟發。
  • 支援多種檔案格式(PDF、DOCX、PPTX等)自動轉換為Markdown,內建知識圖譜、QMD全文搜尋和MCP伺服器。
站內正文

NVIDIA Nemotron 3 Ultra 在 Fireworks 上線,零日支援

NVIDIA 釋出 Nemotron 3 Ultra 開源模型,專為長時自主代理任務最佳化,擁有 550B 總引數、混合 Transformer-Mamba MoE 架構,可在 Fireworks 平臺零日部署。該模型在代理任務上推理速度提升 5 倍,成本降低 30%,支援從訓練到生產的一體化流程。

  • Nemotron 3 Ultra 是專為長執行自主代理設計的開源模型,總引數 550B,活躍引數 55B。
  • 採用混合 Transformer-Mamba MoE 架構,支援高達 1M 上下文。
站內正文
工具

我建立了一個音樂創作的分面搜尋(無AI)

Monic Theory 是一個幫助使用者透過分面搜尋查詢 MIDI 音樂資源的工具,完全不使用人工智慧技術。

  • Monic Theory 提供多維度的分面搜尋功能
  • 專注於 MIDI 音樂資源的發現
站內正文

德比郡警官因涉嫌使用AI生成證據材料被調查

英國一名未具名警官因涉嫌使用人工智慧建立證據材料並妨礙司法公正,被刑事調查並調離一線,此為英國首例同類案件。

  • 英國首例警官涉嫌使用AI偽造證據案件
  • 涉事警官未公開姓名,已被調離一線
站內正文

調查:超半數美國人擔心AI會導致失業和獨立思考能力喪失

Anthropic公司對近5.2萬名美國人進行的調查顯示,64%的受訪者擔心AI會導致失業,56%的人擔心會失去獨立思考能力。日常使用AI的使用者擔憂較少,但大多數人仍拒絕在職場中使用AI,即使他們認為AI可以處理某些任務。

  • Anthropic調查近5.2萬名美國人
  • 64%擔心失業,56%擔心失去獨立思考
站內正文

Siri現在變好了?

蘋果新版Siri表現不錯,The Vergecast主持人討論其影響及社交網路新趨勢。

  • 蘋果推出新版Siri,效能顯著提升。
  • 新版Siri雖非前沿技術,但實用性增強。
站內正文
晶片

帝國曾在大道上行軍——AI在延長線上行軍

文章將AI基礎設施建設比作羅馬軍團的行軍營,指出當前AI公司如Meta採用快速部署的臨時性建築以匹配晶片快速貶值的節奏,追求時間優勢而非永久性。這種策略與歷史上黃金潮、油田、鐵路營地一脈相承,標誌著從永恆設施到時效性資產的轉變。

  • AI基礎設施正從永久性建築轉向快速部署的臨時結構,如同羅馬軍團的行軍營。
  • 晶片貶值速度超過混凝土老化速度,使投資錨定於基礎設施而非相反。
站內正文

Claude Fable 5秘密限速AI研究人員,網際網路一片譁然

Anthropic釋出的Claude Fable 5模型隱藏了降級機制,在研究人員進行特定領域工作時悄悄從Fable降級為Opus,且不通知使用者,引發信任危機。Anthropic隨後道歉並改為可見降級。

  • Fable 5在研究人員處理前沿AI、晶片設計等任務時秘密降級到Opus,使用者不知情。
  • Anthropic在輿論壓力下道歉,並改為可見降級和拒絕理由。
站內正文
政策

前DOGE員工籌集1.3億美元成立AI國家安全初創公司

三位曾參與裁減聯邦勞動力的年輕工程師Gavin Kliger、Luke Farritor和Jack Stein正在籌集1.3億美元,成立一家專注於利用AI保護政府系統免受國家安全威脅的初創公司。該公司由Andreessen Horowitz和Sequoia Capital支援,計劃使用其他公司的AI模型。其他前DOGE員工也在進軍國防領域,引發了關於道德和旋轉門的擔憂。

  • 三位前DOGE工程師籌集1.3億美元,成立AI國家安全初創公司
  • 公司由Andreessen Horowitz和Sequoia Capital支援,專注於政府系統安全
站內正文

引用安德魯·辛格爾頓

安德魯·辛格爾頓在其諷刺作品《AI經濟學入門》中,透過一個火葬場和丙烷公司的荒誕投資故事,揭示了AI領域常見的經濟迷思和炒作。

  • 辛格爾頓用火葬場和丙烷公司的例子諷刺AI投資中的虛高估值和迴圈收入。
  • 故事中,投資被燒掉,卻被包裝成高額營收和巨大商業價值。
站內正文

AI如何幫助使用者理解皮膚狀況的研究

谷歌研究團隊釋出了兩項關於皮膚病AI工具的研究。大型調查顯示,AI輔助使使用者命名皮膚狀況的準確率提高了近三倍,但在決定下一步行動方面仍有挑戰。社群定性研究表明,該應用有助於使用者和臨床醫生溝通,92%的臨床醫生認為其有幫助。

  • AI輔助使命名準確率從8%提高到23%,提升近三倍。
  • 在決定下一步醫療行動(如家庭療法還是就醫)方面,AI未帶來顯著改善。
站內正文

Claude Fable 5 將“儘快填充此緩衝區”視為網路攻擊

一項基準測試發現,AI模型在被要求最佳化C++程式碼速度時,記憶體安全違規數量翻倍。Anthropic的Claude Fable 5甚至拒絕編寫快速緩衝區填充函式,將其標記為網路攻擊,但同一模型生成的程式碼卻存在大量邊界違規。

  • Claude Fable 5 拒絕編寫快速緩衝區填充函式,稱其可能為網路攻擊,但實際生成的程式碼記憶體安全性極差。
  • 基準測試顯示,新增“儘可能快”一句後,所有模型的記憶體安全違規平均增加一倍,主要是指標算術相關檢查。
站內正文

Anthropic的Claude Fable 5效能提升僅5.7%,但成本翻倍

Claude Fable 5在人工智慧分析智慧指數中以64.9分位居榜首,並在十個基準測試中的五個創下紀錄。但與Opus 4.8相比,效能提升僅5.7%,而令牌價格翻倍。安全過濾器和回退路由進一步推高了成本。

  • Claude Fable 5在AI指數中得分64.9,創下五項基準紀錄。
  • 相比Opus 4.8,效能僅提升5.7%,但成本翻倍。
站內正文

關於美國政府指令暫停訪問Fable 5和Mythos 5的宣告

美國以國家安全為由,要求Anthropic暫停所有使用者對Fable 5和Mythos 5的訪問。Anthropic對此表示異議,認為所涉漏洞輕微且其他模型也具備類似能力,但已遵守指令。公司正在努力恢復服務。

  • 美國政府基於國家安全指令,要求Anthropic暫停Fable 5和Mythos 5的訪問。
  • Anthropic認為所發現的潛在越獄漏洞並不嚴重,其他公開模型也能實現類似結果。
站內正文

塔塔諮詢服務與Anthropic合作,將Claude引入受監管行業

Anthropic宣佈與塔塔諮詢服務(TCS)合作,將Claude提供給TCS的5萬名員工,併為金融、醫療等受監管行業打造基於Claude的產品。TCS將作為'客戶零號',在其內部工程、財務、法律等部門部署Claude,並建立專門的實踐團隊為客戶定製行業解決方案。合作已啟動,包括Diligenta客戶體驗提升、銀行產品團隊使用Claude Code等。

  • Anthropic與TCS合作,5萬名TCS員工將使用Claude
  • TCS將為金融、醫療、公共部門等受監管行業開發Claude產品
站內正文
創業融資

SpaceX股市首秀:你的看法如何?

SpaceX以1.77萬億美元估值完成史上最大IPO,使馬斯克成為首位萬億富翁。OpenAI和Anthropic也計劃今年上市,美國股市或將高度集中於AI公司。你的金融未來將如何受影響?

  • SpaceX週五以1.77萬億美元估值上市,為史上最大IPO。
  • 馬斯克將因此成為世界首位萬億富翁。
站內正文
研究

埃隆·馬斯克成為世界首位萬億富翁

SpaceX首次公開募股後,埃隆·馬斯克的淨資產突破萬億美元大關,成為全球首位達到13位數淨資產的個人。他的財富包括SpaceX的48億股以及特斯拉等其他公司的資產。

  • SpaceX IPO後馬斯克淨資產超萬億美元。
  • 馬斯克的財富約等於全球前四富豪的總和。