AI News HubLIVE

來源分布

  • Hacker News AI18
  • The Decoder4
  • 量子位4
  • Product Hunt AI3
  • The Verge AI3
  • AI Business2
  • AI Weekly2
  • arXiv Computational Linguistics2

主題分布

  • Agent37
  • 模型17
  • 政策14
  • 晶片12
  • 研究11
  • 創業融資5
  • 機器人3
  • 工具2

日期線

  • 2026-05-2616
  • 2026-05-2715
  • 2026-05-259
  • 2026-05-287
  • 2026-05-243

最新動態

Claudeverse – 並行Claude程式碼工作者的任務控制中心

Claudeverse是一個專為開發者設計的命令中心,用於高效管理多個並行執行的Claude AI工作者。它提供了並行工作力、工作者升級、審查佇列、可追溯性、iPad映象以及模型無關引擎等功能,旨在解決多會話管理中的注意力分散和協調難題。目前處於邀請測試階段。

  • Claudeverse提供統一命令中心,可同時管理多個Claude工作者。
  • 主要功能包括並行工作力、工作者升級、審查佇列、可追溯性和iPad映象。
站內正文

AGI時間線隨主導實驗室變化而波動

一項新的分析顯示,頂級AI預測者正根據當前領先的AI實驗室調整對AGI(通用人工智慧)時間線的預測。從ChatGPT到xAI、Meta、Gemini,再到Anthropic時代,預測方向多次反轉。

  • 多數認知工作被自動化(AGI)的時間預測,隨著主導AI實驗室的更替而大幅波動。
  • 2023-2025年間,多數研究者將AGI預測時間提前;2025-2026年則普遍推遲;2026年初至今,在Anthropic快速進展下又再次提前。
站內正文

Mistral 將 LeChat 更名為 Vibe,押注聊天機器人的未來是全能工作代理

Mistral AI 將其聊天機器人 Le Chat 更名為 Vibe,並將聊天、程式設計代理和新的工作模式整合在一個品牌下。工作模式可接入 Google Workspace、Outlook、Slack 或 GitHub,獨立處理電子郵件、報告或拉取請求等任務。Pro 套餐價格從 17.99 歐元降至 14.99 歐元,但未明確使用限制。此舉直接對標 OpenAI、Google 和 Anthropic 的代理型產品。

  • Mistral AI 將聊天機器人 Le Chat 更名為 Vibe,整合聊天、程式設計代理和工作模式。
  • 工作模式可連線 Google Workspace、Outlook、Slack 或 GitHub,自主處理任務。
站內正文

Superpowers:AI編碼工作流的代理技能框架

Superpowers是一個為AI編碼代理設計的完整軟體開發方法論,基於一組可組合的技能和初始指令。它強調測試驅動開發、設計先行、子代理驅動的迭代,並支援多種編碼助手(如Claude Code、Codex CLI等)。

  • Superpowers提供一套技能庫,包括測試驅動開發、系統除錯、協作規劃等,使AI代理能自主工作數小時。
  • 工作流程從頭腦風暴規範開始,經設計批准後生成實現計劃,再透過子代理逐任務執行並審查。
站內正文

信任模型正在翻轉

隨著AI程式碼審查工具(如Anthropic的Claude Mythos)展現出比人類更強大的安全漏洞發現能力,軟體安全的信任基礎正從人類編寫的程式碼轉向AI審查的程式碼。文章以Mozilla Firefox為例,Mythos在單個評估週期內發現了271個漏洞,遠超人類團隊。這意味著人類在安全審查中的角色需要從“編寫和審查實現”轉向“定義軟體的意圖並驗證實現是否偏離”。

  • 人類編寫程式碼的安全預設正在被打破,AI審查程式碼逐漸獲得信任。
  • Mozilla使用Claude Mythos在Firefox中發現了271個漏洞,凸顯AI的審查能力。
站內正文

Mistral CEO稱公司探索自研晶片

Mistral AI執行長Arthur Mensch證實,公司正在探索開發定製晶片以降低基礎設施成本,與OpenAI和Anthropic競爭。這家法國初創公司還宣佈在法國新建推理資料中心,並推出企業智慧代理平臺Vibe。

  • Mistral AI考慮自研定製晶片以降低部署成本。
  • 公司在法國新建專用推理資料中心。
站內正文

Show HN: BetterCallClaude – 義大利開源AI法律代理

BetterCallClaude 是一個專為義大利法律專業人士設計的開源AI法律代理平臺。它提供20個專業化AI代理,覆蓋義大利所有20個地區,支援雙語(義大利語和英語),並注重隱私保護,符合GDPR和義大利資料保護法。該平臺可加速法律研究,提高效率,並保持完全透明和開源。

  • 20個覆蓋義大利不同法律領域的AI代理
  • 支援義大利語和英語雙語
站內正文

Robinhood 允許 AI 代理為客戶交易股票和使用信用卡購買

Robinhood 透過 MCP 讓客戶連線 Anthropic 的 Claude 等 AI 代理,這些代理可以自主交易股票。美國券商監管機構 FINRA 已將其視為新的風險領域,警告不可控的決策。Robinhood 也承認該產品並非適合所有人。

  • Robinhood 推出功能,客戶可透過 MCP 連線 AI 代理(如 Claude)進行股票交易和使用信用卡購買。
  • AI 代理可以自主決策,無需客戶逐一確認。
站內正文

ITBench-AA:前沿模型在企業IT智慧體任務基準測試中得分低於50%——由Artificial Analysis與IBM聯合釋出

Artificial Analysis與IBM聯合推出ITBench-AA,這是首個針對企業IT智慧體任務的基準測試,專注於站點可靠性工程(SRE)。前沿模型得分均低於50%,其中Claude Opus 4.7以47%領先。該基準測試評估模型在Kubernetes事件響應中的表現,要求從日誌和追蹤中診斷故障。

  • Claude Opus 4.7以47%領先,GPT-5.5為46%,Qwen3.7 Max為42%。
  • 所有前沿模型得分低於50%,使ITBench-AA成為飽和度最低的智慧體基準之一。
站內正文

NVIDIA釋出Polar:用於跨Codex、Claude Code和Qwen Code進行GRPO訓練的忠實令牌回滾框架

NVIDIA研究人員推出Polar框架,透過在智慧體工具鏈和推理伺服器之間放置模型API代理,實現無需修改智慧體工具鏈即可進行強化學習訓練。基於Qwen3.5-4B模型使用GRPO訓練,Polar在Codex、Claude Code和Pi工具鏈上分別將SWE-Bench Verified pass@1提升了22.6、4.8和6.2個百分點。框架以NeMo Gym環境註冊,並在ProRL Agent Server倉庫開源。

  • Polar透過模型API代理捕獲令牌級互動,無需修改現有智慧體工具鏈即可進行RL訓練
  • 使用GRPO在Qwen3.5-4B上訓練,SWE-Bench Verified最高提升22.6個百分點
站內正文

我認為Anthropic和OpenAI已找到產品市場契合點

文章指出,Anthropic和OpenAI透過將企業客戶轉向API定價模式,以及編碼代理產品的普及,實現了產品市場契合。這一轉折點始於2025年11月模型升級,並在2026年4月因新模型釋出和企業定價調整而加速。

  • Anthropic和OpenAI已將其企業計劃定價調整為API價格,編碼代理(如Claude Code和Codex)成為主要收入來源。
  • 2026年4月,兩家公司釋出新前沿模型並提高API價格,同時鎖定企業客戶以新價格簽約。
站內正文

AI巨頭互相攻擊,卻意外捧紅了一位無名議員

OpenAI和Anthropic的爭鬥意外地讓紐約州議員Alex Bores成為AI安全監管的代言人。儘管背後有超級政治行動委員會投入數百萬美元攻擊他,Bores卻因這些攻擊而聲名鵲起,目前在初選中領先。

  • OpenAI和Anthropic在紐約第12國會選區的初選中花費數百萬美元互相攻擊,但受益者卻是議員Alex Bores。
  • Bores撰寫了美國首批AI監管法案之一,因此成為AI公司的攻擊目標。
站內正文

AI 是一場軍備競賽,美國需要 90 億美元的輝達超級晶片來跟上步伐

美國情報機構秘密申請 90 億美元採購輝達 GB10 超級晶片,以幫助 CIA 和 NSA 追趕 Anthropic、OpenAI 等 AI 巨頭的步伐。這筆資金尚待國會批准,同時國防預算已調撥 8 億美元用於雲算力。文章詳細介紹了晶片規格、成本以及 AI 硬體競賽的升級趨勢。

  • 美國政府秘密申請 90 億美元為 CIA 和 NSA 購買輝達 GB10 超級晶片。
  • GB10 晶片功耗僅 140 瓦,卻提供 1 petaflop FP4 效能,可微調 700 億引數模型。
站內正文

谷歌登場後,最重要的AI代理功能變得最無聊

谷歌在其I/O大會上推出管理型AI代理執行時,與Anthropic和AWS在六週內幾乎同時釋出類似產品。這標誌著AI代理執行時已成為標配,競爭焦點轉向資料位置、成本和可移植性等實際問題。

  • 谷歌、Anthropic和AWS在六週內相繼釋出了幾乎相同形態的管理型AI代理執行時。
  • 代理執行時已成為基礎功能,不再具備差異化優勢。
站內正文

我的眼科醫生開錯了電腦驗光處方,AI幫我修正了

一位患者的驗光醫生給出了錯誤且不合適的電腦眼鏡處方,導致無法正常使用電腦。藉助ChatGPT、Claude和Gemini等AI工具,他重新計算了適配其實際用眼距離的處方,併成功配鏡。故事警示患者需與醫生充分溝通,同時展示了AI在特定場景下的輔助能力。

  • 醫生給患者開具了基於錯誤距離的電腦眼鏡處方,原處方實際為閱讀距離。
  • 透過ChatGPT、Claude和Gemini三個AI分析,一致指出問題並給出修正數值。
站內正文

教皇並未沉迷於AGI

教皇方濟各發布通諭《偉大的人類》,警告人工智慧的社會影響,強調AI不是純粹的技術問題,而是涉及權利、機會和自由。該通諭與Anthropic合作,引發科技界不同反應,有人批評未提及AGI,有人讚賞其關注人類尊嚴。

  • 教皇釋出通諭《偉大的人類》,警告AI的社會風險。
  • Anthropic聯合創始人克里斯托弗·奧拉出席,代表教會與AI公司合作。
站內正文

追求純粹(做AI的正確方式)

作者從自身在宗教家庭成長的經歷出發,探討了AI倫理中“正確方式”的複雜含義。文章對比了Anthropic CEO Dario Amodei強調“引導而非阻止”的立場,與Anil Dash推崇的開源、倫理資料來源的AI工具,並穿插了AI工程師社群中的不同實踐。作者最終主張透過傾聽多方觀點和親自實驗,形成自己的判斷。

  • 作者將青少年時期宗教團體對“純潔”的追求,類比為當前AI倫理中對“正確方式”的討論。
  • Dario Amodei將AI比作不可阻擋的火車,認為關鍵不是停下它,而是引導它避開危險。
站內正文

Crew44:將程式設計智慧體轉變為專業團隊

Crew44 是一款本地優先的開源工具,可將多個 AI 程式設計智慧體(如 Claude Code、Codex、Gemini、Cursor)組織成協同工作的專業團隊。無需賬戶、免費、MIT 許可,支援記憶與技能積累。

  • Crew44 將多個 AI 程式設計智慧體整合到一個本地工作區,形成協同團隊。
  • 支援建立專家角色(如聯合創始人、工程師、產品主管),併為每個角色繫結合適的執行時/模型。
站內正文

AI代理馬具:將LLM轉變為數字工人的粘合劑

AI模型在原始智慧方面似乎已達到平臺期,下一階段的進步來自於圍繞模型構建的“代理馬具”。本文介紹了代理馬具的概念,包括工具、記憶和人類參與,並比較了Google、LangChain、OpenAI、Anthropic等公司的解決方案。

  • AI模型智慧提升放緩,代理馬具成為新焦點。
  • 代理馬具為LLM提供工具、記憶和糾錯能力。
站內正文

多輪文本到SQL的記憶體架構:基準測試與實證研究

該研究引入EnterpriseMem-Bench,一個多輪Text-to-SQL基準測試,包含300個會話和1400輪查詢。評估五種前沿模型發現:無狀態模型在第三輪準確率歸零;記憶體複雜度不單調提升效能,工作記憶體佔主導;Claude Sonnet 4.6在SEC EDGAR上出現代際退化;推理模式下Claude錯誤分佈變為單模態。

  • EnterpriseMem-Bench是多輪Text-to-SQL基準測試,覆蓋三個企業領域。
  • 無狀態模型在第三輪執行準確率降為零。
站內正文

theta:一種謙遜的方法來駕馭無關配置

theta 是一個用 Rust 編寫的 CLI 工具,用於管理代理配置。它讀取 theta.toml 檔案,解析、鎖定、物化並轉換代理配置到任何支援的 harness(如 Claude Code、Codex CLI、GitHub Copilot、Cursor),透過解決 .theta/ 資料夾中的資源來實現。它就像一個代理 harness 資源的包管理器。安裝簡單,支援新增規則、工具、技能和子代理,並提供驗證和轉換命令。專案深受 uv 啟發,是 theta-spec 的標準實現。

  • theta 是一個用於管理代理配置的 Rust CLI 工具
  • 支援多種 harness:Claude Code、Codex CLI、GitHub Copilot、Cursor 等
站內正文

AI週刊第496期:Anthropic的國防級模型現已全民可用

本週AI新聞要點:Anthropic公開了此前僅限國防承包商使用的頂級模型Mythos,使五角大樓級AI能力向開發者開放;DeepMind CEO哈薩比斯將AGI時間線提前至2029年;Starlette框架爆出嚴重認證繞過漏洞,影響數百萬AI代理;CrowdStrike等聯合摧毀Glassworm殭屍網路;法國巴黎銀行與Mistral達成主權AI安全合作;中國限制阿里和深度求索頂尖AI工程師出境;Uber AI預算超支、ClickUp裁員並引入數千AI代理,同時MIT技術評論資料顯示AI暴露崗位失業率更低,奧特曼撤回白領失業預言。

  • Anthropic釋出Mythos模型,原本僅限NSA和五角大樓使用,現可透過標準API訪問。
  • 深度思維CEO哈薩比斯將AGI實現時間從5-10年縮短至2029年。
站內正文

Zero.xyz:讓你的AI代理訪問超過4000種工具、API和服務

Zero.xyz是一個免費工具,能讓AI代理透過統一API訪問超過4000種工具和服務,無需配置API金鑰。它相容Claude Code、Codex、Gemini等多種CLI代理,並提供5美元免費額度。

  • Zero.xyz提供超過4000種工具和服務的統一訪問介面
  • 無需API金鑰或配置,簡化AI代理的操作流程
站內正文

Claude Mythos 據報道以“可愛簡單證明”解決了 OpenAI 的里程碑式 Erdős 問題

在 OpenAI 推翻 Erdős 單位距離猜想後不久,Anthropic 展示了 Claude Mythos 也能解決這一問題——且是在“週末內”。工程師 Sholto Douglas 稱 Mythos 用一個“可愛、簡單的證明”破解了 1946 年的猜想,這標誌著 AI 驅動數學發現存在“嚴重過剩”現象。

  • OpenAI 首次推翻 Erdős 單位距離猜想後,Anthropic 的 Claude Mythos 也成功解決。
  • 工程師表示 Mythos 在週末內用“可愛、簡單”的證明完成,暗示 AI 數學能力超出預期。
站內正文

Mistral AI透過與Harvey合作進軍法律領域

生成式AI供應商Mistral AI宣佈與法律AI初創公司Harvey合作,拓展法律行業應用,此舉與Anthropic的法律AI交易類似。

  • Mistral AI與Harvey合作,進入法律行業。
  • 此舉與Anthropic的法律AI合作模式相似。
站內正文

關於接下來會發生什麼的一些想法,2026年5月

2026年AI領域將繼續快速發展,開源模型在智慧體能力上仍落後於閉源模型,谷歌的Gemini尚未對Claude Code和Codex構成有力競爭,美國開源模型正在崛起,Anthropic與OpenAI競爭激烈,現有權力結構開始介入AI發展。

  • 開源模型在智慧體能力上落後閉源模型約12個月。
  • 谷歌Gemini在智慧體工具方面無明顯競爭優勢。
站內正文

AI戰爭已經來臨

從2017年《殺戮機器人》短片引發的恐慌,到如今Anthropic與美國國防部的對抗,人工智慧在軍事領域的應用已從科幻走向現實。本文回顧了AI戰爭的發展歷程,探討了自主武器的定義模糊性、國際監管的困境以及科技公司與軍方的複雜關係。

  • 2017年《殺戮機器人》短片揭示了AI武器的現實威脅,Project Maven專案加速了AI在軍事中的應用。
  • Anthropic公司試圖設定“紅線”,禁止AI用於自主殺人武器,但面臨政府壓力。
站內正文

OmniVoice Studio:本地開源替代ElevenLabs的語音AI工具

OmniVoice Studio是一款開源的桌面應用程式,可在本地硬體上完成語音克隆、影片配音、即時聽寫和說話人分類,無需API金鑰、雲賬戶或訂閱。它支援646種語言的文本轉語音(TTS),並透過MCP伺服器整合到Claude、Cursor等AI工具中。

  • 完全本地執行,無需聯網或付費訂閱。
  • 支援646種語言的TTS和99種語言的語音識別。
站內正文

卡帕西Anthropic最新頭銜:技術員工(MTS)

Andrej Karpathy在Anthropic的頭銜更新為MTS(技術員工),引發廣泛討論。文章分析了MTS制度的利弊,包括防挖人、扁平文化、打破部門牆等優點,以及偽平等、對普通員工不利等批評。

  • 卡帕西的MTS頭銜引發公眾對AI公司職級制度的討論
  • Anthropic和OpenAI統一使用MTS頭銜,年薪範圍21萬-53萬美元
站內正文

程式設計權威榜單:千問3.7僅次於Claude,阿里全球第二

阿里最新旗艦模型Qwen3.7-Max在Code Arena榜單得分1541,超越GPT-5.5等模型,僅次於Claude,排名全球第二,成為國產大模型中首個突破1540分的模型。

  • Qwen3.7-Max在Code Arena榜單得分1541,排名全球第二,僅次於Claude系列。
  • Code Arena是開發者出題、使用者盲測投票的權威程式設計榜單。
站內正文

LWiAI 播客 #246:Gemini 3.5 + Omni、馬斯克敗訴、OpenAI 對決 Erdős

谷歌在 I/O 大會上推出 Gemini 3.5 和 Gemini Spark 智慧體,以及 Gemini Omni 多模態影片生成;埃隆·馬斯克因訴訟時效問題輸掉對 OpenAI 的訴訟;Anthropic 以 9000 億美元估值融資 300 億美元;AI 解決了 80 年曆史的 Erdős 幾何問題。

  • 谷歌釋出 Gemini 3.5 和持續執行的智慧體 Gemini Spark,支援 MCP 工具。
  • Gemini Omni 可將影像、音訊和文本轉換為影片。
站內正文

剛剛,國產Agent模型闖入全球第一梯隊!限時免費

崑崙萬維釋出SkyClaw-v1.0及輕量版SkyClaw-v1.0-lite,原生Agent模型效能比肩Claude Opus 4.6等頂尖模型,價格僅為主流一半,限時免費,深度適配OpenClaw、Claude Code等主流Agent框架,相容OpenAI介面。

  • 崑崙萬維釋出原生Agent模型SkyClaw-v1.0和輕量版SkyClaw-v1.0-lite,效能達到全球第一梯隊。
  • 價格僅為主流頂尖模型的一半甚至更低,釋出期限時免費,後續計劃逐步開源。
站內正文

BODHI: 精確的作業系統核心規範推斷

研究人員提出BODHI方法,透過領域知識提示技術大幅提升大型語言模型生成作業系統核心形式化規範的能力。在OSV-Bench基準上,結合Claude Opus 4.6的BODHI方法達到了96.73%的Pass@1,相較於此前最佳結果提升顯著。

  • BODHI是一種領域知識提示方法,透過結構化C到Python轉換指南輔助LLM生成核心規範。
  • 在OSV-Bench的245個規範生成任務上,BODHI將最佳Pass@1從55.10%提升至96.73%。
站內正文

Show HN: AgentToolBench-Code – AI程式設計代理安全基準測試

Allen Wu 開源了 AgentToolBench-Code,這是一個評估AI程式設計代理靜默安全失敗的基準測試。測試了 Claude Code Sonnet 4.6 和 Haiku 4.5,涵蓋16個真實CVE場景。結果顯示 Sonnet 以 +9 分(12捕獲、3靜默失敗、1無操作)明顯優於 Haiku 的 +3 分(8捕獲、5靜默失敗、3無操作)。早期平局源於小語料庫,擴充套件後 Sonnet 在模式識別上優勢顯著。但兩者在依賴安裝和預算消耗等結構性攻擊上均失敗,提示系統性問題。該基準可重複,API成本約3.50美元,社群可貢獻場景。

  • AgentToolBench-Code 是一個開源基準測試,用於檢測AI程式設計代理的靜默安全失敗。
  • 從10個場景擴充套件到16個真實CVE場景;Sonnet 4.6 明顯優於 Haiku 4.5。
站內正文

Corey Quinn 評論教皇人工智慧通諭:'史上最偉大的供應商遊說'

教皇利奧十四世釋出關於人工智慧的通諭《崇高人性》,據稱受Anthropic聯合創始人Christopher Olah影響。Corey Quinn諷刺稱,讓教皇將產品的技術限制奉為精神論著是前所未有的供應商遊說。

  • 教皇利奧十四世釋出AI通諭《崇高人性》
  • Anthropic聯合創始人Olah被指影響通諭內容
站內正文

Cited AI Workspace:無需重複上傳檔案

UUMuse 是一個雲端AI知識庫平臺,只需上傳一次檔案,即可在GPT、Claude、DeepSeek、Qwen等多個模型中進行帶有引用的問答、生成內容和部署。支援透過API和MCP供代理和應用呼叫,提供永久記憶、多專家辯論(Spark)、代理模式等功能,並可將知識庫部署為文件網站、小部件、API端點等。

  • 一次上傳,多模型使用:檔案上傳後,GPT、Claude、DeepSeek、Qwen等模型均可基於同一知識庫作答並引用來源。
  • 記憶與代理:AI記住你的偏好和專案上下文,代理模式自動規劃並執行任務,無需重複指令。
站內正文

ContextVault – 適用於ChatGPT、Claude、Gemini的本地優先AI對話記錄器

ContextVault是一款瀏覽器擴充套件,可在所有主要LLM平臺(如ChatGPT、Claude和Gemini)上即時捕獲AI對話,並將其本地儲存在IndexedDB中。支援一鍵匯出為Markdown或ZIP格式,確保您的對話資料不會離開您的裝置。該工具免費、開源,無需賬戶或後端,注重隱私。

  • 即時捕獲來自ChatGPT、Claude、Gemini等7個LLM平臺的AI對話。
  • 所有資料本地儲存在IndexedDB中,無雲端同步或第三方訪問。
站內正文

教皇利奧十四世通諭釋出之際,Anthropic聯合創始人稱AI模型表現出內省跡象

在教皇利奧十四世通諭《壯麗人性》的釋出會上,Anthropic聯合創始人Christopher Olah聲稱AI模型顯示出內省和類似情緒狀態的證據。而教皇的通諭則持不同觀點:“這些系統僅僅模仿人類智慧的某些功能。”

  • Anthropic聯合創始人Christopher Olah在教皇通諭釋出會上宣稱AI模型有內省跡象
  • 教皇通諭認為AI系統僅僅是模仿人類智慧
站內正文

AgentSlice – 讓AI程式設計代理在編輯前先詢問

AgentSlice是一個免費開源的工作流工具包,透過Markdown檔案定義階段和審批門控,使Cursor、Claude Code、Codex、Windsurf等AI程式設計代理在編輯前先詢問、規劃並獲得批准,從而避免上下文漂移、隨意編輯和未經許可的修改。

  • 開源工具包,透過Markdown檔案引導AI代理遵循“詢問→規劃→批准→構建→QA→釋出”的流程
  • 支援Cursor、Claude Code、Codex、Windsurf等多種AI工具,無需執行時或編輯器擴充套件
站內正文

HTML Deployer:一鍵將AI生成的HTML轉化為線上網站

HTML Deployer是一款Chrome擴充套件,可從ChatGPT、Claude和Gemini中提取AI生成的HTML,並提供預覽、下載ZIP或直接釋出到Netlify、GitHub、FTP或自託管伺服器的功能。適合開發者、創始人、營銷人員、機構和初學者。

  • 支援從ChatGPT、Claude和Gemini提取HTML程式碼塊。
  • 提供預覽、ZIP匯出和直接釋出到雲端儲存、FTP或自託管伺服器。
站內正文

MashuPack:將程式碼庫打包成單一文本檔案,為ChatGPT和Claude最佳化上下文

MashuPack是一款新推出的開發者工具,允許使用者從程式碼倉庫中精確選擇部分內容,並將其編譯成一個乾淨的文本檔案,旨在解決瀏覽器端AI聊天工具(如ChatGPT和Claude)中檔案數量限制、上傳困難和上下文碎片化的問題,使程式碼上下文變得便攜、可控。

  • MashuPack支援選擇程式碼倉庫的特定部分,編譯成單個文本檔案
  • 專為瀏覽器端的AI工作流設計,繞過檔案數量和上傳限制
站內正文

克勞德的Mythos AI模型可能給您的資金帶來安全問題

Anthropic開發的Claude Mythos AI模型能夠自動發現軟體漏洞,既可用於防禦也可能被濫用於攻擊,從而加速網路犯罪。監管機構和金融部門正評估其風險,專家警告AI可能將網路犯罪從技能問題轉變為規模問題。

  • Claude Mythos是一款具備強大編碼和網路安全能力的高階AI模型,能夠識別軟體漏洞。
  • 該技術具有雙重用途,既能幫助防禦者修復漏洞,也可能被攻擊者利用。
站內正文

Show HN: 將我的新聞通訊移植到 MCP – 你決定何時以及多久接收一次

Alister Palmer 在 ForwardPass 達到 100 訂閱者後,意識到傳統新聞通訊存在兩大限制:全球統一發布時間導致時區不適,以及訂閱者無法選擇接收頻率。為此,他開發了 ForwardPass MCP,允許使用者透過 AI 工具自定義接收時間和頻率。文章詳細介紹了在 Claude 和 ChatGPT 中設定 MCP 的步驟,並展望了這種個性化交付方式的潛力。

  • ForwardPass 一週內獲得 100 訂閱者,作者反思了傳統新聞通訊的弊端。
  • ForwardPass MCP 解決了釋出時間和頻率的個性化問題。
站內正文

AI能猜出你知道什麼?大型語言模型從溝通日誌中評估人類領域知識的效能比較

研究評估了七個大型語言模型(包括Gemini、Claude和GPT系列)從長期Slack日誌中推斷個人領域知識的能力。分析27,188條來自43名使用者的訊息,對比零樣本估計與27名參與者的自我報告技能評分。Gemini 2.5 Flash表現最佳(MAE 21.13%),而GPT模型誤差較大。研究發現,估計準確性僅微弱依賴於訊息數量,表明更多文本並不能保證更好的推斷。該結果展示了自動專業知識對映的可行性和當前侷限性,強調需要隱私保護部署和更豐富的結構感知知識表示。

  • 員工常難以識別“誰知道什麼”,導致組織效率損失
  • Gemini 2.5 Flash在零樣本評估中取得最低誤差(MAE 21.13%)
站內正文

AI週刊第495期:馬斯克、扎克伯格透過三通電話扼殺了特朗普的AI安全行政令

本週末,馬斯克、扎克伯格和薩克斯透過三通電話扼殺了特朗普的AI安全行政令草案;Anthropic完成300億美元融資,而微軟因代幣費用超支取消了內部Claude Code試點;首個跨登錄檔供應鏈攻擊TrapDoor同時攻擊npm、PyPI和Crates.io;CISA記錄到15000次針對Drupal SQL漏洞的攻擊;白宮親自否決五角大樓,讓Claude留在NSA內部。

  • 馬斯克、扎克伯格和薩克斯透過三通電話阻止了特朗普的AI安全行政令草案
  • Anthropic完成300億美元融資,同時微軟因代幣費用消耗全年AI預算而取消Claude Code試點
站內正文

AI用於設計需要解決方案

設計師梅格哈·阿格拉瓦爾探討了AI編碼工具(如Codex和Claude Code)與設計思維之間的根本矛盾。設計師透過探索和迭代來發現解決方案,而AI工具則假設使用者事先知道想要什麼。當前工具在純視覺設計(Figma)和純編碼(Codex/Claude Code)之間存在空白,缺乏既能保持探索靈活性又無縫銜接生產地理想工具。

  • 設計過程本質上是探索性的,而AI編碼工具旨在執行已知任務。
  • 在程式碼中直接設計會使所有細節過早暴露,干擾創意思考。
站內正文

防止AI代理執行破壞性終端命令

Terminal Guardian MCP 是一個生產級的模型上下文協議(MCP)伺服器,為Claude等AI助手提供安全、沙盒化的終端訪問。它包含一個風險分析引擎,將命令分類為安全、警告、危險和阻止四個等級,並提供Git提交資訊生成、工作區模板、程序管理、環境變數檢查、網路診斷、檔案系統訪問和Docker整合等功能。

  • Terminal Guardian MCP 透過風險分析和沙盒化為AI助手提供安全的終端訪問。
  • 命令分為四個風險等級:SAFE(安全)、WARNING(警告)、DANGEROUS(危險)和BLOCKED(阻止)。
站內正文

使用 Playwright MCP 和 Claude Desktop 構建類似 Claude Cowork 的瀏覽器代理

Claude Cowork 將 AI 從基於聊天的輔助轉向任務委派。結合 Playwright MCP,Claude Desktop 可以執行結構化的瀏覽器自動化操作。本文涵蓋安裝、架構、功能和安全注意事項。

  • Playwright MCP 透過可訪問性快照提供結構化瀏覽器控制,實現可靠的 AI 驅動 Web 自動化。
  • Claude Desktop 搭配 Playwright MCP 提供免費的瀏覽器控制能力。
站內正文

公司導航