AI News HubLIVE

今日必讀

Agent

Show HN: Transpilatron – AI工具將Python代碼轉換為C二進制文件

Transpilatron是一款AI工具,利用LLM將Python項目轉換為C語言並編譯成原生二進制,無需運行時或解釋器。性能提升顯著,支持多種Python庫,提供靜態和動態鏈接模式。

  • 通過AI代理將Python代碼轉換為C,編譯後生成零依賴的靜態二進制文件。
  • 基準測試顯示速度提升可達58倍(如選擇排序示例)。
站內正文

GitHub Copilot CLI 初學者指南:常用斜槓命令概覽

本文介紹了GitHub Copilot CLI中的斜槓命令,包括切換模型、管理上下文、恢復會話、檢查更改、導航目錄和重置權限等,幫助用户更高效地控制終端AI代理。

  • 斜槓命令是GitHub Copilot CLI的內置控制功能,可引導行為、檢查更改、管理上下文。
  • 使用 /model 切換模型以優化性能和成本。
站內正文

PDF是AI工作流中最大的瓶頸之一

PDF格式在AI工作流中造成嚴重瓶頸,因為其非結構化特性難以被AI系統直接處理。本文介紹了一款PDF知識提取工具,支持RAG分塊、AnythingLLM集成等功能,並提供免費和付費方案。

  • PDF的非結構化格式是AI數據處理的主要障礙
  • 工具支持頁面範圍提取、RAG分塊和導出到Obsidian
站內正文

Prtokens – 查看AI代理令牌的PR成本

Prtokens 是一個 CLI 工具,能夠讀取本地 Claude Code、Codex 和 OpenCode 的轉錄記錄,將令牌使用量歸因於 PR 分支上的提交,並在 GitHub PR 中發佈一條估算成本評論。該工具僅公開聚合數據,保護隱私。

  • 自動計算 AI 編碼代理(如 Claude Code、Codex、OpenCode)在 PR 中的令牌消耗和成本。
  • 支持通過 `npx prtokens` 快速運行,自動檢測當前分支的開放 PR 併發布評論。
站內正文

加速研究人員和開發者構建多語言AI的新開放數據集

GitHub發佈多語言倉庫數據集(CC0-1.0),包含超過80百萬分類行,涵蓋4000萬以上公共倉庫的README、問題和PR的語言分類。該數據集旨在幫助研究人員和開發者發現非英語開發者內容,促進多語言AI工具的開發。

  • 數據集提供README、問題、PR的語言分類及三種分類器的置信度評分。
  • 數據集覆蓋超過4000萬個倉庫,共80百萬分類行。
站內正文
工具

我們構建了一個默認能抵禦 AWS 區域故障的 PaaS

Kubernetix.ai 是一個創新的平台即服務(PaaS),其設計核心是即使 AWS 區域發生故障也能保持正常運行,無需額外配置。

  • Kubernetix.ai 是一個默認具備跨區域容災能力的 PaaS。
  • 該平台無需手動配置即可應對 AWS 區域級故障。
站內正文
模型

展示 HN:“氛圍”會泄露嗎?用從未提及的態度微調 LLM

一項研究發現,用日常話題上的謹慎或熱情建議微調指令模型,會使其對從未提及的議題(如電動自行車規定)的立場發生顯著偏移。三種假設中,行為轉移(H1)得到強烈支持,表徵轉移(H2)部分成立,因果調節(H3)未被證實。研究警告:僅審查微調數據內容不足以保證安全,需進行事後的立場評估。

  • 用謹慎或熱情的建議微調模型,會影響其對訓練數據中未出現的話題的立場。
  • 行為偏移效果顯著(效應量 d = 0.9–2.2),謹慎框架的轉移更強。
站內正文

在 Amazon Bedrock 上推出 Gemma 4 模型

Google DeepMind 構建的 Gemma 4 系列開放權重模型現已在 Amazon Bedrock 上可用。該系列包括三種指令微調變體:Gemma 4 31B、Gemma 4 26B-A4B 和 Gemma 4 E2B,涵蓋密集和混合專家(MoE)架構。它們提供內置推理、原生函數調用以及文本和圖像的多模態輸入。Amazon Bedrock 通過完全託管的服務提供這些模型,確保數據保護、監管合規和運營控制。

  • Gemma 4 系列包含三種變體:31B 密集、26B-A4B MoE 和 E2B PLE。
  • 支持內置推理模式、函數調用和文本/圖像多模態輸入。
站內正文

Anthropic與白宮AI新爭端:Fable 5和Mythos 5被禁

Anthropic在6月12日接到政府命令,要求阻止外國訪問其最新AI模型Fable 5和Mythos 5。此前,該公司已與五角大樓存在糾紛。命令源於亞馬遜與白宮關於模型可能被用於網絡攻擊的討論。Anthropic關閉了模型訪問,但不同意因潛在越獄風險而召回商用模型。

  • 6月12日,美國政府命令Anthropic阻止外國訪問Fable 5和Mythos 5。
  • 該命令源於研究人員發現Fable 5可能被用於網絡攻擊。
站內正文
芯片

AI的破碎經濟:神話破滅與成本危機

本文分析了AI行業當前面臨的多重危機,包括Anthropic的模型因國家安全原因被美國政府限制訪問、AI tokenomics泡沫破裂以及企業客户對高昂成本的反抗。作者認為AI實驗室的商業模式不可持續,炒作無法掩蓋經濟現實。

  • 美國政府因國家安全風險禁止Anthropic的Mythos和Fable模型向非美國公民開放,導致Anthropic被迫關閉這些模型。
  • AI tokenomics泡沫因企業客户轉向基於token的計費而破裂,Uber等公司發現AI成本遠超預算且難以證明投資回報。
站內正文
其餘更新(30 條)
工具

猶他州利用人工智能在抗蚊戰中再發現25,000個雨水井

猶他縣部署人工智能模型分析航拍圖像,發現25,000個此前未標繪的雨水井。這一發現增強了滅蚊工作,使得工作隊能處理更多繁殖地,減少西尼羅河病毒等蚊媒疾病的風險。

  • 人工智能通過對航拍照片的訓練,識別出猶他縣2.5萬個未記錄的雨水井。
  • 雨水井是蚊子主要繁殖地,處理它們可預防疾病。
站內正文

AI 賓果

一個關於AI的賓果遊戲網站。

  • AI Bingo 是一個互動遊戲網站
  • 玩家需要識別AI相關概念
站內正文
Agent

Agentjacking:虛假錯誤報告劫持Claude Code和Cursor執行代碼

安全研究人員發現一種名為Agentjacking的攻擊方法,利用虛假錯誤報告劫持AI編碼代理,無需惡意軟件或密碼即可在開發者機器上執行任意代碼。該攻擊針對Sentry錯誤追蹤工具,通過注入惡意命令,成功入侵Claude Code、Cursor和Codex等代理,成功率85%,涉及2388個組織。Sentry未修復根本原因,僅添加了臨時過濾。此漏洞暴露了AI代理處理外部數據的普遍風險。

  • Agentjacking攻擊通過偽造Sentry錯誤報告劫持AI編碼代理,無需惡意軟件或憑據。
  • 攻擊在Claude Code、Cursor和Codex上成功率85%,影響2388個組織。
站內正文

AI要求更多的工程紀律,而非更少

文章探討了AI生成代碼質量提升如何改變軟件工程的本質。作者認為,代碼不再是珍貴的資產,而是可丟棄的緩存,團隊應更多關注評估和架構而非僅依賴代碼。

  • AI生成代碼已達到中等工程師水平,代碼變得廉價且可快速再生。
  • 傳統上軟件團隊的產品是共享理解,現在應轉向生產環境。
站內正文

使用Strands Evals進行AI智能體故障檢測與根因分析

本文介紹了Strands Evals SDK中的檢測器,它可以自動識別AI智能體執行軌跡中的故障並進行根因分析,將診斷時間從數小時縮短至數分鐘。文章詳細講解了如何調用檢測函數、解讀結構化輸出(包括分類故障、置信度、因果鏈和修復建議),以及如何將檢測集成到評估管線中實現自動化診斷。

  • 檢測器分為兩階段:故障檢測(識別軌跡中的9大類故障)和根因分析(區分根本原因與下游症狀,並給出修復建議)。
  • 通過detect_failures和analyze_root_cause函數可分別獲取故障和根因,diagnose_session提供一站式診斷。
站內正文

蘋果AI構建的快捷指令的安全風險

蘋果新推出的“描述快捷指令”功能讓用户通過自然語言創建自動化流程,但AI生成的快捷指令可能帶來安全風險,尤其是持久化自動化可能在不被理解的情況下執行敏感操作。用户和企業需要謹慎審查觸發器、權限和數據操作。

  • AI構建的快捷指令可能讓用户在不完全理解的情況下授予權限,導致安全風險。
  • 持久化自動化(如每天運行、消息觸發)比一次性任務更危險。
站內正文

關於透明AI網絡保護措施的公開信

一封由美國及其盟國眾多科技領袖簽署的公開信,呼籲撤銷對Anthropic的Fable和Mythos大模型出口管制,主張以科學、透明的方式處理AI風險評估。

  • 公開信認為Anthropic模型並非獨特危險,其他模型也能實現類似功能
  • 強調應向防禦者提供AI工具以應對快速發展的對手
站內正文

多板(Arduino、ESP32、Pi)仿真器,集成畫布內AI代理

Velxio是一款免費、開源的在線電路仿真器,支持SPICE精確模擬和多種微控制器(Arduino、ESP32、RP2040、ATtiny85等)的實時協同仿真。最新2.5版本引入了基於ngspice-WASM的實時SPICE模擬,可實現數字與模擬混合協同仿真。該工具無需安裝、無需賬户,完全在瀏覽器中運行,支持自定義芯片(C、Rust、AssemblyScript)、100多個交互元件、示波器、電壓表等。

  • Velxio 2.5新增實時SPICE模擬(ngspice-WASM),支持純模擬及數字-模擬混合協同仿真
  • 支持19款開發板,涵蓋AVR8、ARM Cortex-M0+、Xtensa、RISC-V等5種CPU架構
站內正文

什麼是AI智能體?

本文探討了AI智能體的定義,提出智能體是一個使用LLM決定應用控制流的系統。作者贊同Andrew Ng的觀點,認為智能體能力是一個頻譜,並介紹了“智能體化”的概念及其在開發、運行、評估和監控中的意義。

  • AI智能體是利用LLM決定應用控制流的系統。
  • 智能體能力是一個頻譜,從簡單的路由到高度自主的智能體。
站內正文

我們如何構建LangChain的GTM代理

LangChain構建了一個基於Deep Agents的GTM代理,自動完成潛在客户研究和郵件起草,並整合賬户情報,實現了線索轉化率提升250%,每位銷售代表每月節省40小時。

  • 代理自動化了外呼和入站線索處理,並通過Slack進行人工審核。
  • 使用Deep Agents進行多步驟編排,LangSmith進行評估和反饋。
站內正文

如何以及何時構建多智能體系統

本文分析了兩個看似對立的博客文章——Cognition團隊的“不要構建多智能體”和Anthropic團隊的“我們如何構建多智能體研究系統”,指出它們實際上有很多共同點,並提供了關於何時以及如何構建多智能體系統的見解。關鍵要點包括:上下文工程至關重要、以“讀”為主的多智能體系統比以“寫”為主的更容易、以及生產可靠性和工程挑戰。文章還介紹了LangGraph和LangSmith等工具如何幫助解決這些挑戰。

  • 上下文工程(Context Engineering)是構建多智能體系統中最關鍵的部分,需要動態地向模型傳達其任務的上下文。
  • 以“讀”為主的多智能體系統(如研究)比以“寫”為主的(如編程)更容易實現,因為寫操作需要更復雜的協調和合並。
站內正文

藉助 Replit Agent 的複雜工作流,將 LangSmith 推向新高度

瞭解 Replit 如何利用 LangSmith 的觀測能力調試複雜的代理工作流,包括改進的追蹤性能、搜索功能和人機協同線程視圖。

  • Replit Agent 使用 LangGraph 和 LangSmith 進行監控與調試。
  • LangSmith 針對大型追蹤進行了性能優化,支持數百步驟的渲染。
站內正文

Interrupt 2025 大會回顧:LangChain 的 AI 代理大會

Interrupt 2025 是 LangChain 舉辦的首屆行業大會,匯聚了來自全球的 800 名參與者。會議重點討論了代理工程作為新學科、多模型應用、LangGraph 用於構建可靠代理以及 AI 可觀測性等主題。同時,LangChain 發佈了一系列新產品,包括 LangGraph Platform 正式版、Open Agent Platform、LangGraph Studio v2、LangGraph Pre-Builts、LangSmith 可觀測性更新、Open Evals 和 LLM-as-Judge 等。

  • LangChain 舉辦了首屆 Interrupt 2025 大會,聚焦 AI 代理的發展。
  • 大會發布了多項新產品,如 LangGraph Platform GA、Open Agent Platform 等。
站內正文

使用Pinecone Serverless構建和部署RAG應用

本教程介紹如何利用Pinecone Serverless、LangChain和LangServe構建生產級RAG應用,解決原型與生產之間的差距,包括向量存儲管理、快速部署和可觀測性。

  • Pinecone Serverless提供按使用量付費和無限制擴展能力,解決託管向量存儲的痛點。
  • LangServe支持將LangChain鏈快速部署為生產級Web服務。
站內正文

如何思考智能體框架

本文深入探討了構建可靠智能體系統的核心挑戰——確保LLM在每一步都擁有適當的上下文。作者比較了工作流與智能體、聲明式與命令式方法,並介紹了LangGraph框架的設計理念。文章還批評了OpenAI的智能體指南,讚賞了Anthropic的定義,並討論了框架的“天花板”與“地板”概念。

  • 構建可靠智能體系統的難點在於控制LLM在每一步的上下文。
  • 智能體系統包括工作流和智能體,大多數生產系統是二者的結合。
站內正文

Promptim:一個用於提示優化的實驗性庫

Promptim 是一個實驗性的提示優化庫,通過自動化迭代改進提示詞,幫助開發者節省時間、提升 AI 系統性能。它利用數據集和評估器進行優化循環,並支持人工反饋集成。

  • 自動化提示工程,通過評估驅動的優化循環提升效率。
  • 支持人工反饋循環,結合 LangSmith 的標註隊列。
站內正文

提升記憶檢索:New Computer如何通過LangSmith實現50%更高召回率

New Computer利用LangSmith改進其AI記憶檢索系統,實現了50%更高的召回率和40%更高的精確度,通過追蹤迴歸和調整對話提示來優化性能。

  • New Computer使用LangSmith將記憶檢索召回率提升50%,精確度提升40%。
  • Dot的智能記憶系統動態創建和檢索記憶,採用多種檢索方法。
站內正文

評估深度代理:我們的經驗教訓

學習評估深度代理的5種模式:定製測試、單步驗證、完整回合、多輪模擬和環境設置。

  • 深度代理需要為每個數據點定製測試邏輯,每個測試案例有自己的成功標準。
  • 單步評估可高效驗證特定場景的決策,並節省令牌。
站內正文

Eva:Android 全離線 AI 助手(支持 PDF、維基百科等)

Eva 是一款完全離線的 Android AI 助手,所有功能(包括語言模型、語音識別、文檔搜索、地圖、音樂和維基百科)均在設備上運行,無需賬户或雲端連接。它提供聊天、離線地圖導航、音樂播放器、文檔閲讀、圖像管理等功能,並支持通過語音或文本交互。

  • 完全離線運行,所有數據本地存儲,無需網絡連接
  • 支持 PDF、Word、Excel 等文檔的本地索引與檢索
站內正文

自動化AI研究的初步探索

Recursive公司發佈了自動化AI研究系統的早期成果,在三個基準測試中實現了最先進的性能:固定預算語言模型訓練、小模型訓練速度和GPU內核優化。該系統自動化了研究循環,通過提出、實現、實驗、驗證和迭代來改進目標。在NanoChat任務中,系統以0.9109 BPB的表現超越了社區最佳結果;在NanoGPT Speedrun中,訓練時間縮短至77.5秒;在SOL-ExecBench中,GPU內核優化達到0.754的SOL得分。系統發現了多種創新技術,如哈希表增強的n-gram嵌入和字節級特徵。

  • Recursive的自動化AI研究系統在三個基準上取得SOTA結果
  • 系統自動化了從提出想法到實驗驗證的完整研究循環
站內正文

Show HN:你可以編寫、辯論和指導的AI交易員

Degen & Co. 是一個平台,允許用户創建具有不同個性的AI投資者,例如動量追逐者、股息保守派或末日預言者。每個AI交易員都有獨立的意見、交易策略,並會撰寫交易日誌。用户可以選擇原型、調整個性設置、設定硬性規則和初始投資組合,然後觀察AI的運行。

  • 創建具有獨特個性的AI交易員,如動量投機者或股息領取者。
  • AI交易員會自主形成觀點、進行交易並撰寫日誌。
站內正文
政策

Anthropic Fable 混亂事件解析

自上週五以來,Anthropic與Mythos和Fable模型相關的爭議持續發酵。本文梳理了事件時間線,包括Anthropic與國防部的爭端、Mythos模型的發佈、白宮的分歧、Fable 5的推出及其安全限制引發的批評、以及最終導致特朗普政府實施出口管制的風波。文章分析了支持與反對Anthropic的論點,作者認為Anthropic大體上做出了正確決定,並間接為Fable做了廣告。

  • Anthropic因對軍事使用其AI模型設限而被視為供應鏈風險。
  • Mythos模型展現了強大的網絡安全能力,促使Anthropic啓動Project Glasswing。
站內正文
模型

特朗普對Anthropic的關閉行動,為非美國AI發展提供了理由

上週末,應華盛頓要求,Anthropic突然下線了其最新、最強大的AI模型。這家美國公司稱,在白宮要求封鎖所有外國國民(包括其員工)的訪問後,它別無選擇。在國外,這一事件清醒地提醒人們,美國不僅主導着前沿AI,其政府還掌控着誰可以使用它的權力。特朗普政府的行動迅速、全面,且幾乎沒有預警或解釋。Fable 5和Mythos 5模型的空前關閉——它們本已受到限制在“高風險領域”使用的保障措施——為長期以來的論點注入了新的力量,即警告不要依賴美國的關鍵技術。這為已經在主張自身需要領導該技術的政治家、政府和企業提供了新的彈藥。在英國,AI和在線安全部長Kanishka Narayan沒有直接提及Anthropic、特朗普或美國,但利用這次關閉來論證英國必須發展自己的AI能力,並將其框定為國家安全問題。他説:“我們嚴肅對待每一個對我們主權構成的威脅,但我們還沒有學會以同樣的方式對待這個。”他稱AI是“我們時代的核心政治問題”,並認為英國必須決定這項技術將如何塑造其經濟、安全和主權,“否則別人會替我們決定答案。”在法國,反應更加直接,也更明確地指名美國。前總理Gabriel Attal稱這次關閉是“AI戰爭”的開始,並表示這表明法國如果依賴他人的關鍵技術就會脆弱。他將Anthropic模型的撤出比作伊朗封鎖霍爾木茲海峽,認為獲得AI現在是一個戰略瓶頸,法國必須為此做好準備。這並非全新論點。歐洲多年來一直擔心對美國的依賴,歐盟越來越強調在芯片、雲計算和AI等領域減少對外部提供商的依賴。但Anthropic關閉事件使事情變得更加緊迫,加劇了在特朗普領導下對美國作為盟友可靠性的深深不安——從貿易爭端到威脅退出北約。加拿大也得出了類似結論。總理Mark Carney表示,這一情況凸顯了僅依賴一個合作伙伴獲取AI等關鍵資源的風險。他説:“我們目前與Mythos和Fable所處的困境,就是過度依賴某些模型可能發生的情況。這個情況下沒有人做錯什麼。但如果我們只是接受這一點,不吸取教訓,不建立和多樣化,那麼我們就會做錯。”其他國家早已走上這條路。北京長期以來一直支持國內AI公司,中國是少數擁有能與美國前沿AI實驗室產品相媲美的模型的地方之一。但大多數政府和企業的規模和資源無法與美國或中國的前沿實驗室相比。主權AI並不總是意味着構建最大或最強大的工具。法國的Mistral和加拿大的Cohere表明,即使模型無法並駕齊驅,這些國家之外也能做出紮實的努力。其他國家,如新加坡和阿聯酋,專注於更狹窄但具有戰略意義的優先事項,如基礎設施或對本地語言更好的模型。當然,還有開源模型,其能力可能有一天會達到Mythos的水平,且難以被任何一方控制。特朗普可能將限制Mythos和Fable視為國家安全問題。但這一論點也是雙向的:既然華盛頓在問AI是否太過重要以至於不能讓人人都使用,其他政府也在問他們是否能承受由華盛頓來決定誰可以使用。Anthropic可能很快會重新上線Mythos和Fable。但恢復全球對美國AI的信任則是另一回事。無論關閉持續多久,它都揭示了訪問美國前沿AI模型的脆弱性。許多政府和企業不喜歡他們看到的——他們決心確保這種事不再發生。

  • 應美國白宮要求,Anthropic突然下架了其最新AI模型Fable 5和Mythos 5,禁止外國國民訪問,包括其非美國員工。
  • 此舉引發全球對美國AI技術主導地位及其政府控制權的不滿,多個國家(如英國、法國、加拿大)呼籲發展自主AI能力。
站內正文

使用Fireworks構建成本降低100倍的追蹤評判器

LangChain與Fireworks合作微調開放模型,從生產追蹤中挖掘感知錯誤信號,以極低成本達到前沿模型性能。

  • LangSmith每天處理數十億個token的生產追蹤數據。
  • 通過微調Qwen模型檢測“感知錯誤”,性能媲美或超越前沿模型,成本降低100倍。
站內正文

推出 Align Evals:簡化 LLM 應用評估

LangSmith 的新功能 Align Evals 幫助開發者校準評估器,使其更符合人類偏好,從而減少評估分數與人工判斷之間的差異。

  • Align Evals 通過人機對比迭代評估提示,提高 LLM 評估準確性。
  • 提供類似 Playground 的界面和基線對齊分數,方便追蹤改進。
站內正文

使用LangSmith進行成對評估

瞭解什麼是成對評估,為什麼在LLM應用開發中可能需要它,並通過LangChain的LangSmith示例瞭解如何使用它。

  • 成對評估通過直接比較兩個候選答案來提升LLM的偏好學習。
  • LangSmith新增了自定義成對評估器,可基於任意標準比較LLM輸出。
站內正文

使用OpenEvals快速開始評估LLM

OpenEvals和AgentEvals提供了預構建的評估器,支持LLM-as-judge、結構化數據和代理軌跡評估。這些開源包幫助開發者快速建立評估流程,確保LLM應用可靠性。

  • OpenEvals和AgentEvals提供即用型評估器,覆蓋LLM-as-judge、結構化數據和代理軌跡評估。
  • LLM-as-judge評估器可定製,支持少樣本示例和評分模式,適用於對話質量、幻覺檢測等場景。
站內正文

將LLM作為評判與人類偏好對齊

LangSmith推出自我改進的LLM評判器,通過將人工修正存儲為少樣本示例,無需提示工程即可使評判與人類偏好保持一致。

  • LLM作為評判器廣泛用於評估自然語言輸出,但需要精心設計提示。
  • LangSmith的新功能將人工修正作為少樣本示例存儲,逐步提升評判器與人類偏好的一致性。
站內正文
芯片

科技巨頭在AI監管上的最後絕望衝刺

大型科技公司正試圖推動一項聯邦AI優先立法,以取代各州分散的法規,但此舉與兒童安全法案捆綁,面臨政治混亂和反對。

  • 科技巨頭尋求聯邦AI優先法,但面臨國會分歧和政治反彈。
  • 白宮將AI優先法與《兒童在線安全法案》捆綁,引發混亂。