AI News HubLIVE

來源分布

  • Hacker News AI18
  • The Decoder4
  • 量子位4
  • Product Hunt AI3
  • The Verge AI3
  • AI Business2
  • AI Weekly2
  • arXiv Computational Linguistics2

主題分布

  • Agent37
  • 模型17
  • 政策14
  • 芯片12
  • 研究11
  • 創業融資5
  • 機械人3
  • 工具2

日期線

  • 2026-05-2616
  • 2026-05-2715
  • 2026-05-259
  • 2026-05-287
  • 2026-05-243

最新動態

Claudeverse – 並行Claude代碼工作者的任務控制中心

Claudeverse是一個專為開發者設計的命令中心,用於高效管理多個並行運行的Claude AI工作者。它提供了並行工作力、工作者升級、審查隊列、可追溯性、iPad鏡像以及模型無關引擎等功能,旨在解決多會話管理中的注意力分散和協調難題。目前處於邀請測試階段。

  • Claudeverse提供統一命令中心,可同時管理多個Claude工作者。
  • 主要功能包括並行工作力、工作者升級、審查隊列、可追溯性和iPad鏡像。
站內正文

AGI時間線隨主導實驗室變化而波動

一項新的分析顯示,頂級AI預測者正根據當前領先的AI實驗室調整對AGI(通用人工智能)時間線的預測。從ChatGPT到xAI、Meta、Gemini,再到Anthropic時代,預測方向多次反轉。

  • 多數認知工作被自動化(AGI)的時間預測,隨着主導AI實驗室的更替而大幅波動。
  • 2023-2025年間,多數研究者將AGI預測時間提前;2025-2026年則普遍推遲;2026年初至今,在Anthropic快速進展下又再次提前。
站內正文

Mistral 將 LeChat 更名為 Vibe,押注聊天機器人的未來是全能工作代理

Mistral AI 將其聊天機器人 Le Chat 更名為 Vibe,並將聊天、編程代理和新的工作模式整合在一個品牌下。工作模式可接入 Google Workspace、Outlook、Slack 或 GitHub,獨立處理電子郵件、報告或拉取請求等任務。Pro 套餐價格從 17.99 歐元降至 14.99 歐元,但未明確使用限制。此舉直接對標 OpenAI、Google 和 Anthropic 的代理型產品。

  • Mistral AI 將聊天機器人 Le Chat 更名為 Vibe,整合聊天、編程代理和工作模式。
  • 工作模式可連接 Google Workspace、Outlook、Slack 或 GitHub,自主處理任務。
站內正文

Superpowers:AI編碼工作流的代理技能框架

Superpowers是一個為AI編碼代理設計的完整軟件開發方法論,基於一組可組合的技能和初始指令。它強調測試驅動開發、設計先行、子代理驅動的迭代,並支持多種編碼助手(如Claude Code、Codex CLI等)。

  • Superpowers提供一套技能庫,包括測試驅動開發、系統調試、協作規劃等,使AI代理能自主工作數小時。
  • 工作流程從頭腦風暴規範開始,經設計批准後生成實現計劃,再通過子代理逐任務執行並審查。
站內正文

信任模型正在翻轉

隨着AI代碼審查工具(如Anthropic的Claude Mythos)展現出比人類更強大的安全漏洞發現能力,軟件安全的信任基礎正從人類編寫的代碼轉向AI審查的代碼。文章以Mozilla Firefox為例,Mythos在單個評估週期內發現了271個漏洞,遠超人類團隊。這意味着人類在安全審查中的角色需要從“編寫和審查實現”轉向“定義軟件的意圖並驗證實現是否偏離”。

  • 人類編寫代碼的安全預設正在被打破,AI審查代碼逐漸獲得信任。
  • Mozilla使用Claude Mythos在Firefox中發現了271個漏洞,凸顯AI的審查能力。
站內正文

Mistral CEO稱公司探索自研芯片

Mistral AI首席執行官Arthur Mensch證實,公司正在探索開發定製芯片以降低基礎設施成本,與OpenAI和Anthropic競爭。這家法國初創公司還宣佈在法國新建推理數據中心,並推出企業智能代理平台Vibe。

  • Mistral AI考慮自研定製芯片以降低部署成本。
  • 公司在法國新建專用推理數據中心。
站內正文

Show HN: BetterCallClaude – 意大利開源AI法律代理

BetterCallClaude 是一個專為意大利法律專業人士設計的開源AI法律代理平台。它提供20個專業化AI代理,覆蓋意大利所有20個地區,支持雙語(意大利語和英語),並注重隱私保護,符合GDPR和意大利數據保護法。該平台可加速法律研究,提高效率,並保持完全透明和開源。

  • 20個覆蓋意大利不同法律領域的AI代理
  • 支持意大利語和英語雙語
站內正文

Robinhood 允許 AI 代理為客户交易股票和使用信用卡購買

Robinhood 通過 MCP 讓客户連接 Anthropic 的 Claude 等 AI 代理,這些代理可以自主交易股票。美國券商監管機構 FINRA 已將其視為新的風險領域,警告不可控的決策。Robinhood 也承認該產品並非適合所有人。

  • Robinhood 推出功能,客户可通過 MCP 連接 AI 代理(如 Claude)進行股票交易和使用信用卡購買。
  • AI 代理可以自主決策,無需客户逐一確認。
站內正文

ITBench-AA:前沿模型在企業IT智能體任務基準測試中得分低於50%——由Artificial Analysis與IBM聯合發佈

Artificial Analysis與IBM聯合推出ITBench-AA,這是首個針對企業IT智能體任務的基準測試,專注於站點可靠性工程(SRE)。前沿模型得分均低於50%,其中Claude Opus 4.7以47%領先。該基準測試評估模型在Kubernetes事件響應中的表現,要求從日誌和追蹤中診斷故障。

  • Claude Opus 4.7以47%領先,GPT-5.5為46%,Qwen3.7 Max為42%。
  • 所有前沿模型得分低於50%,使ITBench-AA成為飽和度最低的智能體基準之一。
站內正文

NVIDIA發佈Polar:用於跨Codex、Claude Code和Qwen Code進行GRPO訓練的忠實令牌回滾框架

NVIDIA研究人員推出Polar框架,通過在智能體工具鏈和推理服務器之間放置模型API代理,實現無需修改智能體工具鏈即可進行強化學習訓練。基於Qwen3.5-4B模型使用GRPO訓練,Polar在Codex、Claude Code和Pi工具鏈上分別將SWE-Bench Verified pass@1提升了22.6、4.8和6.2個百分點。框架以NeMo Gym環境註冊,並在ProRL Agent Server倉庫開源。

  • Polar通過模型API代理捕獲令牌級交互,無需修改現有智能體工具鏈即可進行RL訓練
  • 使用GRPO在Qwen3.5-4B上訓練,SWE-Bench Verified最高提升22.6個百分點
站內正文

我認為Anthropic和OpenAI已找到產品市場契合點

文章指出,Anthropic和OpenAI通過將企業客户轉向API定價模式,以及編碼代理產品的普及,實現了產品市場契合。這一轉折點始於2025年11月模型升級,並在2026年4月因新模型發佈和企業定價調整而加速。

  • Anthropic和OpenAI已將其企業計劃定價調整為API價格,編碼代理(如Claude Code和Codex)成為主要收入來源。
  • 2026年4月,兩家公司發佈新前沿模型並提高API價格,同時鎖定企業客户以新價格簽約。
站內正文

AI巨頭互相攻擊,卻意外捧紅了一位無名議員

OpenAI和Anthropic的爭鬥意外地讓紐約州議員Alex Bores成為AI安全監管的代言人。儘管背後有超級政治行動委員會投入數百萬美元攻擊他,Bores卻因這些攻擊而聲名鵲起,目前在初選中領先。

  • OpenAI和Anthropic在紐約第12國會選區的初選中花費數百萬美元互相攻擊,但受益者卻是議員Alex Bores。
  • Bores撰寫了美國首批AI監管法案之一,因此成為AI公司的攻擊目標。
站內正文

AI 是一場軍備競賽,美國需要 90 億美元的英偉達超級芯片來跟上步伐

美國情報機構秘密申請 90 億美元採購英偉達 GB10 超級芯片,以幫助 CIA 和 NSA 追趕 Anthropic、OpenAI 等 AI 巨頭的步伐。這筆資金尚待國會批准,同時國防預算已調撥 8 億美元用於雲算力。文章詳細介紹了芯片規格、成本以及 AI 硬件競賽的升級趨勢。

  • 美國政府秘密申請 90 億美元為 CIA 和 NSA 購買英偉達 GB10 超級芯片。
  • GB10 芯片功耗僅 140 瓦,卻提供 1 petaflop FP4 性能,可微調 700 億參數模型。
站內正文

谷歌登場後,最重要的AI代理功能變得最無聊

谷歌在其I/O大會上推出管理型AI代理運行時,與Anthropic和AWS在六週內幾乎同時發佈類似產品。這標誌着AI代理運行時已成為標配,競爭焦點轉向數據位置、成本和可移植性等實際問題。

  • 谷歌、Anthropic和AWS在六週內相繼發佈了幾乎相同形態的管理型AI代理運行時。
  • 代理運行時已成為基礎功能,不再具備差異化優勢。
站內正文

我的眼科醫生開錯了電腦驗光處方,AI幫我修正了

一位患者的驗光醫生給出了錯誤且不合適的電腦眼鏡處方,導致無法正常使用電腦。藉助ChatGPT、Claude和Gemini等AI工具,他重新計算了適配其實際用眼距離的處方,併成功配鏡。故事警示患者需與醫生充分溝通,同時展示了AI在特定場景下的輔助能力。

  • 醫生給患者開具了基於錯誤距離的電腦眼鏡處方,原處方實際為閲讀距離。
  • 通過ChatGPT、Claude和Gemini三個AI分析,一致指出問題並給出修正數值。
站內正文

教皇並未沉迷於AGI

教皇方濟各發布通諭《偉大的人類》,警告人工智能的社會影響,強調AI不是純粹的技術問題,而是涉及權利、機會和自由。該通諭與Anthropic合作,引發科技界不同反應,有人批評未提及AGI,有人讚賞其關注人類尊嚴。

  • 教皇發佈通諭《偉大的人類》,警告AI的社會風險。
  • Anthropic聯合創始人克里斯托弗·奧拉出席,代表教會與AI公司合作。
站內正文

追求純粹(做AI的正確方式)

作者從自身在宗教家庭成長的經歷出發,探討了AI倫理中“正確方式”的複雜含義。文章對比了Anthropic CEO Dario Amodei強調“引導而非阻止”的立場,與Anil Dash推崇的開源、倫理數據來源的AI工具,並穿插了AI工程師社區中的不同實踐。作者最終主張通過傾聽多方觀點和親自實驗,形成自己的判斷。

  • 作者將青少年時期宗教團體對“純潔”的追求,類比為當前AI倫理中對“正確方式”的討論。
  • Dario Amodei將AI比作不可阻擋的火車,認為關鍵不是停下它,而是引導它避開危險。
站內正文

Crew44:將編程智能體轉變為專業團隊

Crew44 是一款本地優先的開源工具,可將多個 AI 編程智能體(如 Claude Code、Codex、Gemini、Cursor)組織成協同工作的專業團隊。無需賬户、免費、MIT 許可,支持記憶與技能積累。

  • Crew44 將多個 AI 編程智能體整合到一個本地工作區,形成協同團隊。
  • 支持創建專家角色(如聯合創始人、工程師、產品主管),併為每個角色綁定合適的運行時/模型。
站內正文

AI代理馬具:將LLM轉變為數字工人的粘合劑

AI模型在原始智能方面似乎已達到平台期,下一階段的進步來自於圍繞模型構建的“代理馬具”。本文介紹了代理馬具的概念,包括工具、記憶和人類參與,並比較了Google、LangChain、OpenAI、Anthropic等公司的解決方案。

  • AI模型智能提升放緩,代理馬具成為新焦點。
  • 代理馬具為LLM提供工具、記憶和糾錯能力。
站內正文

多輪文本到SQL的內存架構:基準測試與實證研究

該研究引入EnterpriseMem-Bench,一個多輪Text-to-SQL基準測試,包含300個會話和1400輪查詢。評估五種前沿模型發現:無狀態模型在第三輪準確率歸零;內存複雜度不單調提升性能,工作內存佔主導;Claude Sonnet 4.6在SEC EDGAR上出現代際退化;推理模式下Claude錯誤分佈變為單模態。

  • EnterpriseMem-Bench是多輪Text-to-SQL基準測試,覆蓋三個企業領域。
  • 無狀態模型在第三輪執行準確率降為零。
站內正文

theta:一種謙遜的方法來駕馭無關配置

theta 是一個用 Rust 編寫的 CLI 工具,用於管理代理配置。它讀取 theta.toml 文件,解析、鎖定、物化並轉換代理配置到任何支持的 harness(如 Claude Code、Codex CLI、GitHub Copilot、Cursor),通過解決 .theta/ 文件夾中的資源來實現。它就像一個代理 harness 資源的包管理器。安裝簡單,支持添加規則、工具、技能和子代理,並提供驗證和轉換命令。項目深受 uv 啓發,是 theta-spec 的標準實現。

  • theta 是一個用於管理代理配置的 Rust CLI 工具
  • 支持多種 harness:Claude Code、Codex CLI、GitHub Copilot、Cursor 等
站內正文

AI週刊第496期:Anthropic的國防級模型現已全民可用

本週AI新聞要點:Anthropic公開了此前僅限國防承包商使用的頂級模型Mythos,使五角大樓級AI能力向開發者開放;DeepMind CEO哈薩比斯將AGI時間線提前至2029年;Starlette框架爆出嚴重認證繞過漏洞,影響數百萬AI代理;CrowdStrike等聯合摧毀Glassworm殭屍網絡;法國巴黎銀行與Mistral達成主權AI安全合作;中國限制阿里和深度求索頂尖AI工程師出境;Uber AI預算超支、ClickUp裁員並引入數千AI代理,同時MIT技術評論數據顯示AI暴露崗位失業率更低,奧特曼撤回白領失業預言。

  • Anthropic發佈Mythos模型,原本僅限NSA和五角大樓使用,現可通過標準API訪問。
  • 深度思維CEO哈薩比斯將AGI實現時間從5-10年縮短至2029年。
站內正文

Zero.xyz:讓你的AI代理訪問超過4000種工具、API和服務

Zero.xyz是一個免費工具,能讓AI代理通過統一API訪問超過4000種工具和服務,無需配置API密鑰。它兼容Claude Code、Codex、Gemini等多種CLI代理,並提供5美元免費額度。

  • Zero.xyz提供超過4000種工具和服務的統一訪問接口
  • 無需API密鑰或配置,簡化AI代理的操作流程
站內正文

Claude Mythos 據報道以“可愛簡單證明”解決了 OpenAI 的里程碑式 Erdős 問題

在 OpenAI 推翻 Erdős 單位距離猜想後不久,Anthropic 展示了 Claude Mythos 也能解決這一問題——且是在“週末內”。工程師 Sholto Douglas 稱 Mythos 用一個“可愛、簡單的證明”破解了 1946 年的猜想,這標誌着 AI 驅動數學發現存在“嚴重過剩”現象。

  • OpenAI 首次推翻 Erdős 單位距離猜想後,Anthropic 的 Claude Mythos 也成功解決。
  • 工程師表示 Mythos 在週末內用“可愛、簡單”的證明完成,暗示 AI 數學能力超出預期。
站內正文

Mistral AI通過與Harvey合作進軍法律領域

生成式AI供應商Mistral AI宣佈與法律AI初創公司Harvey合作,拓展法律行業應用,此舉與Anthropic的法律AI交易類似。

  • Mistral AI與Harvey合作,進入法律行業。
  • 此舉與Anthropic的法律AI合作模式相似。
站內正文

關於接下來會發生什麼的一些想法,2026年5月

2026年AI領域將繼續快速發展,開源模型在智能體能力上仍落後於閉源模型,谷歌的Gemini尚未對Claude Code和Codex構成有力競爭,美國開源模型正在崛起,Anthropic與OpenAI競爭激烈,現有權力結構開始介入AI發展。

  • 開源模型在智能體能力上落後閉源模型約12個月。
  • 谷歌Gemini在智能體工具方面無明顯競爭優勢。
站內正文

AI戰爭已經來臨

從2017年《殺戮機器人》短片引發的恐慌,到如今Anthropic與美國國防部的對抗,人工智能在軍事領域的應用已從科幻走向現實。本文回顧了AI戰爭的發展歷程,探討了自主武器的定義模糊性、國際監管的困境以及科技公司與軍方的複雜關係。

  • 2017年《殺戮機器人》短片揭示了AI武器的現實威脅,Project Maven項目加速了AI在軍事中的應用。
  • Anthropic公司試圖設定“紅線”,禁止AI用於自主殺人武器,但面臨政府壓力。
站內正文

OmniVoice Studio:本地開源替代ElevenLabs的語音AI工具

OmniVoice Studio是一款開源的桌面應用程序,可在本地硬件上完成語音克隆、視頻配音、實時聽寫和説話人分類,無需API密鑰、雲賬户或訂閲。它支持646種語言的文本轉語音(TTS),並通過MCP服務器集成到Claude、Cursor等AI工具中。

  • 完全本地運行,無需聯網或付費訂閲。
  • 支持646種語言的TTS和99種語言的語音識別。
站內正文

卡帕西Anthropic最新頭銜:技術員工(MTS)

Andrej Karpathy在Anthropic的頭銜更新為MTS(技術員工),引發廣泛討論。文章分析了MTS制度的利弊,包括防挖人、扁平文化、打破部門牆等優點,以及偽平等、對普通員工不利等批評。

  • 卡帕西的MTS頭銜引發公眾對AI公司職級制度的討論
  • Anthropic和OpenAI統一使用MTS頭銜,年薪範圍21萬-53萬美元
站內正文

編程權威榜單:千問3.7僅次於Claude,阿里全球第二

阿里最新旗艦模型Qwen3.7-Max在Code Arena榜單得分1541,超越GPT-5.5等模型,僅次於Claude,排名全球第二,成為國產大模型中首個突破1540分的模型。

  • Qwen3.7-Max在Code Arena榜單得分1541,排名全球第二,僅次於Claude系列。
  • Code Arena是開發者出題、用户盲測投票的權威編程榜單。
站內正文

LWiAI 播客 #246:Gemini 3.5 + Omni、馬斯克敗訴、OpenAI 對決 Erdős

谷歌在 I/O 大會上推出 Gemini 3.5 和 Gemini Spark 智能體,以及 Gemini Omni 多模態視頻生成;埃隆·馬斯克因訴訟時效問題輸掉對 OpenAI 的訴訟;Anthropic 以 9000 億美元估值融資 300 億美元;AI 解決了 80 年曆史的 Erdős 幾何問題。

  • 谷歌發佈 Gemini 3.5 和持續運行的智能體 Gemini Spark,支持 MCP 工具。
  • Gemini Omni 可將圖像、音頻和文本轉換為視頻。
站內正文

剛剛,國產Agent模型闖入全球第一梯隊!限時免費

崑崙萬維發佈SkyClaw-v1.0及輕量版SkyClaw-v1.0-lite,原生Agent模型性能比肩Claude Opus 4.6等頂尖模型,價格僅為主流一半,限時免費,深度適配OpenClaw、Claude Code等主流Agent框架,兼容OpenAI接口。

  • 崑崙萬維發佈原生Agent模型SkyClaw-v1.0和輕量版SkyClaw-v1.0-lite,性能達到全球第一梯隊。
  • 價格僅為主流頂尖模型的一半甚至更低,發佈期限時免費,後續計劃逐步開源。
站內正文

BODHI: 精確的操作系統內核規範推斷

研究人員提出BODHI方法,通過領域知識提示技術大幅提升大型語言模型生成操作系統內核形式化規範的能力。在OSV-Bench基準上,結合Claude Opus 4.6的BODHI方法達到了96.73%的Pass@1,相較於此前最佳結果提升顯著。

  • BODHI是一種領域知識提示方法,通過結構化C到Python轉換指南輔助LLM生成內核規範。
  • 在OSV-Bench的245個規範生成任務上,BODHI將最佳Pass@1從55.10%提升至96.73%。
站內正文

Show HN: AgentToolBench-Code – AI編程代理安全基準測試

Allen Wu 開源了 AgentToolBench-Code,這是一個評估AI編程代理靜默安全失敗的基準測試。測試了 Claude Code Sonnet 4.6 和 Haiku 4.5,涵蓋16個真實CVE場景。結果顯示 Sonnet 以 +9 分(12捕獲、3靜默失敗、1無操作)明顯優於 Haiku 的 +3 分(8捕獲、5靜默失敗、3無操作)。早期平局源於小語料庫,擴展後 Sonnet 在模式識別上優勢顯著。但兩者在依賴安裝和預算消耗等結構性攻擊上均失敗,提示系統性問題。該基準可重複,API成本約3.50美元,社區可貢獻場景。

  • AgentToolBench-Code 是一個開源基準測試,用於檢測AI編程代理的靜默安全失敗。
  • 從10個場景擴展到16個真實CVE場景;Sonnet 4.6 明顯優於 Haiku 4.5。
站內正文

Corey Quinn 評論教皇人工智能通諭:'史上最偉大的供應商遊説'

教皇利奧十四世發佈關於人工智能的通諭《崇高人性》,據稱受Anthropic聯合創始人Christopher Olah影響。Corey Quinn諷刺稱,讓教皇將產品的技術限制奉為精神論著是前所未有的供應商遊説。

  • 教皇利奧十四世發佈AI通諭《崇高人性》
  • Anthropic聯合創始人Olah被指影響通諭內容
站內正文

Cited AI Workspace:無需重複上傳文件

UUMuse 是一個雲端AI知識庫平台,只需上傳一次文件,即可在GPT、Claude、DeepSeek、Qwen等多個模型中進行帶有引用的問答、生成內容和部署。支持通過API和MCP供代理和應用調用,提供永久記憶、多專家辯論(Spark)、代理模式等功能,並可將知識庫部署為文檔網站、小部件、API端點等。

  • 一次上傳,多模型使用:文件上傳後,GPT、Claude、DeepSeek、Qwen等模型均可基於同一知識庫作答並引用來源。
  • 記憶與代理:AI記住你的偏好和項目上下文,代理模式自動規劃並執行任務,無需重複指令。
站內正文

ContextVault – 適用於ChatGPT、Claude、Gemini的本地優先AI對話記錄器

ContextVault是一款瀏覽器擴展,可在所有主要LLM平台(如ChatGPT、Claude和Gemini)上實時捕獲AI對話,並將其本地存儲在IndexedDB中。支持一鍵導出為Markdown或ZIP格式,確保您的對話數據不會離開您的設備。該工具免費、開源,無需賬户或後端,注重隱私。

  • 實時捕獲來自ChatGPT、Claude、Gemini等7個LLM平台的AI對話。
  • 所有數據本地存儲在IndexedDB中,無雲端同步或第三方訪問。
站內正文

教皇利奧十四世通諭發佈之際,Anthropic聯合創始人稱AI模型表現出內省跡象

在教皇利奧十四世通諭《壯麗人性》的發佈會上,Anthropic聯合創始人Christopher Olah聲稱AI模型顯示出內省和類似情緒狀態的證據。而教皇的通諭則持不同觀點:“這些系統僅僅模仿人類智能的某些功能。”

  • Anthropic聯合創始人Christopher Olah在教皇通諭發佈會上宣稱AI模型有內省跡象
  • 教皇通諭認為AI系統僅僅是模仿人類智能
站內正文

AgentSlice – 讓AI編程代理在編輯前先詢問

AgentSlice是一個免費開源的工作流工具包,通過Markdown文件定義階段和審批門控,使Cursor、Claude Code、Codex、Windsurf等AI編程代理在編輯前先詢問、規劃並獲得批准,從而避免上下文漂移、隨意編輯和未經許可的修改。

  • 開源工具包,通過Markdown文件引導AI代理遵循“詢問→規劃→批准→構建→QA→發佈”的流程
  • 支持Cursor、Claude Code、Codex、Windsurf等多種AI工具,無需運行時或編輯器擴展
站內正文

HTML Deployer:一鍵將AI生成的HTML轉化為在線網站

HTML Deployer是一款Chrome擴展,可從ChatGPT、Claude和Gemini中提取AI生成的HTML,並提供預覽、下載ZIP或直接發佈到Netlify、GitHub、FTP或自託管服務器的功能。適合開發者、創始人、營銷人員、機構和初學者。

  • 支持從ChatGPT、Claude和Gemini提取HTML代碼塊。
  • 提供預覽、ZIP導出和直接發佈到雲存儲、FTP或自託管服務器。
站內正文

MashuPack:將代碼庫打包成單一文本文件,為ChatGPT和Claude優化上下文

MashuPack是一款新推出的開發者工具,允許用户從代碼倉庫中精確選擇部分內容,並將其編譯成一個乾淨的文本文件,旨在解決瀏覽器端AI聊天工具(如ChatGPT和Claude)中文件數量限制、上傳困難和上下文碎片化的問題,使代碼上下文變得便攜、可控。

  • MashuPack支持選擇代碼倉庫的特定部分,編譯成單個文本文件
  • 專為瀏覽器端的AI工作流設計,繞過文件數量和上傳限制
站內正文

克勞德的Mythos AI模型可能給您的資金帶來安全問題

Anthropic開發的Claude Mythos AI模型能夠自動發現軟件漏洞,既可用於防禦也可能被濫用於攻擊,從而加速網絡犯罪。監管機構和金融部門正評估其風險,專家警告AI可能將網絡犯罪從技能問題轉變為規模問題。

  • Claude Mythos是一款具備強大編碼和網絡安全能力的高級AI模型,能夠識別軟件漏洞。
  • 該技術具有雙重用途,既能幫助防禦者修復漏洞,也可能被攻擊者利用。
站內正文

Show HN: 將我的新聞通訊移植到 MCP – 你決定何時以及多久接收一次

Alister Palmer 在 ForwardPass 達到 100 訂閲者後,意識到傳統新聞通訊存在兩大限制:全球統一發布時間導致時區不適,以及訂閲者無法選擇接收頻率。為此,他開發了 ForwardPass MCP,允許用户通過 AI 工具自定義接收時間和頻率。文章詳細介紹了在 Claude 和 ChatGPT 中設置 MCP 的步驟,並展望了這種個性化交付方式的潛力。

  • ForwardPass 一週內獲得 100 訂閲者,作者反思了傳統新聞通訊的弊端。
  • ForwardPass MCP 解決了發佈時間和頻率的個性化問題。
站內正文

AI能猜出你知道什麼?大型語言模型從溝通日誌中評估人類領域知識的性能比較

研究評估了七個大型語言模型(包括Gemini、Claude和GPT系列)從長期Slack日誌中推斷個人領域知識的能力。分析27,188條來自43名用户的消息,對比零樣本估計與27名參與者的自我報告技能評分。Gemini 2.5 Flash表現最佳(MAE 21.13%),而GPT模型誤差較大。研究發現,估計準確性僅微弱依賴於消息數量,表明更多文本並不能保證更好的推斷。該結果展示了自動專業知識映射的可行性和當前侷限性,強調需要隱私保護部署和更豐富的結構感知知識表示。

  • 員工常難以識別“誰知道什麼”,導致組織效率損失
  • Gemini 2.5 Flash在零樣本評估中取得最低誤差(MAE 21.13%)
站內正文

AI週刊第495期:馬斯克、扎克伯格通過三通電話扼殺了特朗普的AI安全行政令

本週末,馬斯克、扎克伯格和薩克斯通過三通電話扼殺了特朗普的AI安全行政令草案;Anthropic完成300億美元融資,而微軟因代幣費用超支取消了內部Claude Code試點;首個跨註冊表供應鏈攻擊TrapDoor同時攻擊npm、PyPI和Crates.io;CISA記錄到15000次針對Drupal SQL漏洞的攻擊;白宮親自否決五角大樓,讓Claude留在NSA內部。

  • 馬斯克、扎克伯格和薩克斯通過三通電話阻止了特朗普的AI安全行政令草案
  • Anthropic完成300億美元融資,同時微軟因代幣費用消耗全年AI預算而取消Claude Code試點
站內正文

AI用於設計需要解決方案

設計師梅格哈·阿格拉瓦爾探討了AI編碼工具(如Codex和Claude Code)與設計思維之間的根本矛盾。設計師通過探索和迭代來發現解決方案,而AI工具則假設用户事先知道想要什麼。當前工具在純視覺設計(Figma)和純編碼(Codex/Claude Code)之間存在空白,缺乏既能保持探索靈活性又無縫銜接生產地理想工具。

  • 設計過程本質上是探索性的,而AI編碼工具旨在執行已知任務。
  • 在代碼中直接設計會使所有細節過早暴露,干擾創意思考。
站內正文

防止AI代理執行破壞性終端命令

Terminal Guardian MCP 是一個生產級的模型上下文協議(MCP)服務器,為Claude等AI助手提供安全、沙盒化的終端訪問。它包含一個風險分析引擎,將命令分類為安全、警告、危險和阻止四個等級,並提供Git提交信息生成、工作區模板、進程管理、環境變量檢查、網絡診斷、文件系統訪問和Docker集成等功能。

  • Terminal Guardian MCP 通過風險分析和沙盒化為AI助手提供安全的終端訪問。
  • 命令分為四個風險等級:SAFE(安全)、WARNING(警告)、DANGEROUS(危險)和BLOCKED(阻止)。
站內正文

使用 Playwright MCP 和 Claude Desktop 構建類似 Claude Cowork 的瀏覽器代理

Claude Cowork 將 AI 從基於聊天的輔助轉向任務委派。結合 Playwright MCP,Claude Desktop 可以執行結構化的瀏覽器自動化操作。本文涵蓋安裝、架構、功能和安全注意事項。

  • Playwright MCP 通過可訪問性快照提供結構化瀏覽器控制,實現可靠的 AI 驅動 Web 自動化。
  • Claude Desktop 搭配 Playwright MCP 提供免費的瀏覽器控制能力。
站內正文

公司導航