AI News HubLIVE

今日必讀

Agent

Show HN: Transpilatron – AI工具將Python程式碼轉換為C二進位制檔案

Transpilatron是一款AI工具,利用LLM將Python專案轉換為C語言並編譯成原生二進位制,無需執行時或直譯器。效能提升顯著,支援多種Python庫,提供靜態和動態連結模式。

  • 透過AI代理將Python程式碼轉換為C,編譯後生成零依賴的靜態二進位制檔案。
  • 基準測試顯示速度提升可達58倍(如選擇排序示例)。
站內正文

GitHub Copilot CLI 初學者指南:常用斜槓命令概覽

本文介紹了GitHub Copilot CLI中的斜槓命令,包括切換模型、管理上下文、恢復會話、檢查更改、導航目錄和重置許可權等,幫助使用者更高效地控制終端AI代理。

  • 斜槓命令是GitHub Copilot CLI的內建控制功能,可引導行為、檢查更改、管理上下文。
  • 使用 /model 切換模型以最佳化效能和成本。
站內正文

PDF是AI工作流中最大的瓶頸之一

PDF格式在AI工作流中造成嚴重瓶頸,因為其非結構化特性難以被AI系統直接處理。本文介紹了一款PDF知識提取工具,支援RAG分塊、AnythingLLM整合等功能,並提供免費和付費方案。

  • PDF的非結構化格式是AI資料處理的主要障礙
  • 工具支援頁面範圍提取、RAG分塊和匯出到Obsidian
站內正文

Prtokens – 檢視AI代理令牌的PR成本

Prtokens 是一個 CLI 工具,能夠讀取本地 Claude Code、Codex 和 OpenCode 的轉錄記錄,將令牌使用量歸因於 PR 分支上的提交,並在 GitHub PR 中釋出一條估算成本評論。該工具僅公開聚合資料,保護隱私。

  • 自動計算 AI 編碼代理(如 Claude Code、Codex、OpenCode)在 PR 中的令牌消耗和成本。
  • 支援透過 `npx prtokens` 快速執行,自動檢測當前分支的開放 PR 併發布評論。
站內正文

加速研究人員和開發者構建多語言AI的新開放資料集

GitHub釋出多語言倉庫資料集(CC0-1.0),包含超過80百萬分類行,涵蓋4000萬以上公共倉庫的README、問題和PR的語言分類。該資料集旨在幫助研究人員和開發者發現非英語開發者內容,促進多語言AI工具的開發。

  • 資料集提供README、問題、PR的語言分類及三種分類器的置信度評分。
  • 資料集覆蓋超過4000萬個倉庫,共80百萬分類行。
站內正文
工具

我們構建了一個預設能抵禦 AWS 區域故障的 PaaS

Kubernetix.ai 是一個創新的平臺即服務(PaaS),其設計核心是即使 AWS 區域發生故障也能保持正常執行,無需額外配置。

  • Kubernetix.ai 是一個預設具備跨區域容災能力的 PaaS。
  • 該平臺無需手動配置即可應對 AWS 區域級故障。
站內正文
模型

展示 HN:“氛圍”會洩露嗎?用從未提及的態度微調 LLM

一項研究發現,用日常話題上的謹慎或熱情建議微調指令模型,會使其對從未提及的議題(如電動腳踏車規定)的立場發生顯著偏移。三種假設中,行為轉移(H1)得到強烈支援,表徵轉移(H2)部分成立,因果調節(H3)未被證實。研究警告:僅審查微調資料內容不足以保證安全,需進行事後的立場評估。

  • 用謹慎或熱情的建議微調模型,會影響其對訓練資料中未出現的話題的立場。
  • 行為偏移效果顯著(效應量 d = 0.9–2.2),謹慎框架的轉移更強。
站內正文

在 Amazon Bedrock 上推出 Gemma 4 模型

Google DeepMind 構建的 Gemma 4 系列開放權重模型現已在 Amazon Bedrock 上可用。該系列包括三種指令微調變體:Gemma 4 31B、Gemma 4 26B-A4B 和 Gemma 4 E2B,涵蓋密集和混合專家(MoE)架構。它們提供內建推理、原生函式呼叫以及文本和影像的多模態輸入。Amazon Bedrock 透過完全託管的服務提供這些模型,確保資料保護、監管合規和運營控制。

  • Gemma 4 系列包含三種變體:31B 密集、26B-A4B MoE 和 E2B PLE。
  • 支援內建推理模式、函式呼叫和文本/影像多模態輸入。
站內正文

Anthropic與白宮AI新爭端:Fable 5和Mythos 5被禁

Anthropic在6月12日接到政府命令,要求阻止外國訪問其最新AI模型Fable 5和Mythos 5。此前,該公司已與五角大樓存在糾紛。命令源於亞馬遜與白宮關於模型可能被用於網路攻擊的討論。Anthropic關閉了模型訪問,但不同意因潛在越獄風險而召回商用模型。

  • 6月12日,美國政府命令Anthropic阻止外國訪問Fable 5和Mythos 5。
  • 該命令源於研究人員發現Fable 5可能被用於網路攻擊。
站內正文
晶片

AI的破碎經濟:神話破滅與成本危機

本文分析了AI行業當前面臨的多重危機,包括Anthropic的模型因國家安全原因被美國政府限制訪問、AI tokenomics泡沫破裂以及企業客戶對高昂成本的反抗。作者認為AI實驗室的商業模式不可持續,炒作無法掩蓋經濟現實。

  • 美國政府因國家安全風險禁止Anthropic的Mythos和Fable模型向非美國公民開放,導致Anthropic被迫關閉這些模型。
  • AI tokenomics泡沫因企業客戶轉向基於token的計費而破裂,Uber等公司發現AI成本遠超預算且難以證明投資回報。
站內正文
其餘更新(30 條)
工具

猶他州利用人工智慧在抗蚊戰中再發現25,000個雨水井

猶他縣部署人工智慧模型分析航拍影像,發現25,000個此前未標繪的雨水井。這一發現增強了滅蚊工作,使得工作隊能處理更多繁殖地,減少西尼羅河病毒等蚊媒疾病的風險。

  • 人工智慧透過對航拍照片的訓練,識別出猶他縣2.5萬個未記錄的雨水井。
  • 雨水井是蚊子主要繁殖地,處理它們可預防疾病。
站內正文

AI 賓果

一個關於AI的賓果遊戲網站。

  • AI Bingo 是一個互動遊戲網站
  • 玩家需要識別AI相關概念
站內正文
Agent

Agentjacking:虛假錯誤報告劫持Claude Code和Cursor執行程式碼

安全研究人員發現一種名為Agentjacking的攻擊方法,利用虛假錯誤報告劫持AI編碼代理,無需惡意軟體或密碼即可在開發者機器上執行任意程式碼。該攻擊針對Sentry錯誤追蹤工具,透過注入惡意命令,成功入侵Claude Code、Cursor和Codex等代理,成功率85%,涉及2388個組織。Sentry未修復根本原因,僅新增了臨時過濾。此漏洞暴露了AI代理處理外部資料的普遍風險。

  • Agentjacking攻擊透過偽造Sentry錯誤報告劫持AI編碼代理,無需惡意軟體或憑據。
  • 攻擊在Claude Code、Cursor和Codex上成功率85%,影響2388個組織。
站內正文

AI要求更多的工程紀律,而非更少

文章探討了AI生成程式碼質量提升如何改變軟體工程的本質。作者認為,程式碼不再是珍貴的資產,而是可丟棄的快取,團隊應更多關注評估和架構而非僅依賴程式碼。

  • AI生成程式碼已達到中等工程師水平,程式碼變得廉價且可快速再生。
  • 傳統上軟體團隊的產品是共享理解,現在應轉向生產環境。
站內正文

使用Strands Evals進行AI智慧體故障檢測與根因分析

本文介紹了Strands Evals SDK中的檢測器,它可以自動識別AI智慧體執行軌跡中的故障並進行根因分析,將診斷時間從數小時縮短至數分鐘。文章詳細講解了如何呼叫檢測函式、解讀結構化輸出(包括分類故障、置信度、因果鏈和修復建議),以及如何將檢測整合到評估管線中實現自動化診斷。

  • 檢測器分為兩階段:故障檢測(識別軌跡中的9大類故障)和根因分析(區分根本原因與下游症狀,並給出修復建議)。
  • 透過detect_failures和analyze_root_cause函式可分別獲取故障和根因,diagnose_session提供一站式診斷。
站內正文

蘋果AI構建的快捷指令的安全風險

蘋果新推出的“描述快捷指令”功能讓使用者透過自然語言建立自動化流程,但AI生成的快捷指令可能帶來安全風險,尤其是持久化自動化可能在不被理解的情況下執行敏感操作。使用者和企業需要謹慎審查觸發器、許可權和資料操作。

  • AI構建的快捷指令可能讓使用者在不完全理解的情況下授予許可權,導致安全風險。
  • 持久化自動化(如每天執行、訊息觸發)比一次性任務更危險。
站內正文

關於透明AI網路保護措施的公開信

一封由美國及其盟國眾多科技領袖簽署的公開信,呼籲撤銷對Anthropic的Fable和Mythos大模型出口管制,主張以科學、透明的方式處理AI風險評估。

  • 公開信認為Anthropic模型並非獨特危險,其他模型也能實現類似功能
  • 強調應向防禦者提供AI工具以應對快速發展的對手
站內正文

多板(Arduino、ESP32、Pi)模擬器,整合畫布內AI代理

Velxio是一款免費、開源的線上電路模擬器,支援SPICE精確模擬和多種微控制器(Arduino、ESP32、RP2040、ATtiny85等)的即時協同模擬。最新2.5版本引入了基於ngspice-WASM的即時SPICE模擬,可實現數字與模擬混合協同模擬。該工具無需安裝、無需賬戶,完全在瀏覽器中執行,支援自定義晶片(C、Rust、AssemblyScript)、100多個互動元件、示波器、電壓表等。

  • Velxio 2.5新增即時SPICE模擬(ngspice-WASM),支援純模擬及數字-模擬混合協同模擬
  • 支援19款開發板,涵蓋AVR8、ARM Cortex-M0+、Xtensa、RISC-V等5種CPU架構
站內正文

什麼是AI智慧體?

本文探討了AI智慧體的定義,提出智慧體是一個使用LLM決定應用控制流的系統。作者贊同Andrew Ng的觀點,認為智慧體能力是一個頻譜,並介紹了“智慧體化”的概念及其在開發、執行、評估和監控中的意義。

  • AI智慧體是利用LLM決定應用控制流的系統。
  • 智慧體能力是一個頻譜,從簡單的路由到高度自主的智慧體。
站內正文

我們如何構建LangChain的GTM代理

LangChain構建了一個基於Deep Agents的GTM代理,自動完成潛在客戶研究和郵件起草,並整合賬戶情報,實現了線索轉化率提升250%,每位銷售代表每月節省40小時。

  • 代理自動化了外呼和入站線索處理,並透過Slack進行人工稽核。
  • 使用Deep Agents進行多步驟編排,LangSmith進行評估和反饋。
站內正文

如何以及何時構建多智慧體系統

本文分析了兩個看似對立的部落格文章——Cognition團隊的“不要構建多智慧體”和Anthropic團隊的“我們如何構建多智慧體研究系統”,指出它們實際上有很多共同點,並提供了關於何時以及如何構建多智慧體系統的見解。關鍵要點包括:上下文工程至關重要、以“讀”為主的多智慧體系統比以“寫”為主的更容易、以及生產可靠性和工程挑戰。文章還介紹了LangGraph和LangSmith等工具如何幫助解決這些挑戰。

  • 上下文工程(Context Engineering)是構建多智慧體系統中最關鍵的部分,需要動態地向模型傳達其任務的上下文。
  • 以“讀”為主的多智慧體系統(如研究)比以“寫”為主的(如程式設計)更容易實現,因為寫操作需要更復雜的協調和合並。
站內正文

藉助 Replit Agent 的複雜工作流,將 LangSmith 推向新高度

瞭解 Replit 如何利用 LangSmith 的觀測能力除錯複雜的代理工作流,包括改進的追蹤效能、搜尋功能和人機協同執行緒檢視。

  • Replit Agent 使用 LangGraph 和 LangSmith 進行監控與除錯。
  • LangSmith 針對大型追蹤進行了效能最佳化,支援數百步驟的渲染。
站內正文

Interrupt 2025 大會回顧:LangChain 的 AI 代理大會

Interrupt 2025 是 LangChain 舉辦的首屆行業大會,匯聚了來自全球的 800 名參與者。會議重點討論了代理工程作為新學科、多模型應用、LangGraph 用於構建可靠代理以及 AI 可觀測性等主題。同時,LangChain 釋出了一系列新產品,包括 LangGraph Platform 正式版、Open Agent Platform、LangGraph Studio v2、LangGraph Pre-Builts、LangSmith 可觀測性更新、Open Evals 和 LLM-as-Judge 等。

  • LangChain 舉辦了首屆 Interrupt 2025 大會,聚焦 AI 代理的發展。
  • 大會發布了多項新產品,如 LangGraph Platform GA、Open Agent Platform 等。
站內正文

使用Pinecone Serverless構建和部署RAG應用

本教程介紹如何利用Pinecone Serverless、LangChain和LangServe構建生產級RAG應用,解決原型與生產之間的差距,包括向量儲存管理、快速部署和可觀測性。

  • Pinecone Serverless提供按使用量付費和無限制擴充套件能力,解決託管向量儲存的痛點。
  • LangServe支援將LangChain鏈快速部署為生產級Web服務。
站內正文

如何思考智慧體框架

本文深入探討了構建可靠智慧體系統的核心挑戰——確保LLM在每一步都擁有適當的上下文。作者比較了工作流與智慧體、宣告式與命令式方法,並介紹了LangGraph框架的設計理念。文章還批評了OpenAI的智慧體指南,讚賞了Anthropic的定義,並討論了框架的“天花板”與“地板”概念。

  • 構建可靠智慧體系統的難點在於控制LLM在每一步的上下文。
  • 智慧體系統包括工作流和智慧體,大多數生產系統是二者的結合。
站內正文

Promptim:一個用於提示最佳化的實驗性庫

Promptim 是一個實驗性的提示最佳化庫,透過自動化迭代改進提示詞,幫助開發者節省時間、提升 AI 系統效能。它利用資料集和評估器進行最佳化迴圈,並支援人工反饋整合。

  • 自動化提示工程,透過評估驅動的最佳化迴圈提升效率。
  • 支援人工反饋迴圈,結合 LangSmith 的標註佇列。
站內正文

提升記憶檢索:New Computer如何透過LangSmith實現50%更高召回率

New Computer利用LangSmith改進其AI記憶檢索系統,實現了50%更高的召回率和40%更高的精確度,透過追蹤迴歸和調整對話提示來最佳化效能。

  • New Computer使用LangSmith將記憶檢索召回率提升50%,精確度提升40%。
  • Dot的智慧記憶系統動態建立和檢索記憶,採用多種檢索方法。
站內正文

評估深度代理:我們的經驗教訓

學習評估深度代理的5種模式:定製測試、單步驗證、完整回合、多輪模擬和環境設定。

  • 深度代理需要為每個資料點定製測試邏輯,每個測試案例有自己的成功標準。
  • 單步評估可高效驗證特定場景的決策,並節省令牌。
站內正文

Eva:Android 全離線 AI 助手(支援 PDF、維基百科等)

Eva 是一款完全離線的 Android AI 助手,所有功能(包括語言模型、語音識別、文件搜尋、地圖、音樂和維基百科)均在裝置上執行,無需賬戶或雲端連線。它提供聊天、離線地圖導航、音樂播放器、文件閱讀、影像管理等功能,並支援透過語音或文本互動。

  • 完全離線執行,所有資料本地儲存,無需網路連線
  • 支援 PDF、Word、Excel 等文件的本地索引與檢索
站內正文

自動化AI研究的初步探索

Recursive公司釋出了自動化AI研究系統的早期成果,在三個基準測試中實現了最先進的效能:固定預算語言模型訓練、小模型訓練速度和GPU核心最佳化。該系統自動化了研究迴圈,透過提出、實現、實驗、驗證和迭代來改進目標。在NanoChat任務中,系統以0.9109 BPB的表現超越了社群最佳結果;在NanoGPT Speedrun中,訓練時間縮短至77.5秒;在SOL-ExecBench中,GPU核心最佳化達到0.754的SOL得分。系統發現了多種創新技術,如雜湊表增強的n-gram嵌入和位元組級特徵。

  • Recursive的自動化AI研究系統在三個基準上取得SOTA結果
  • 系統自動化了從提出想法到實驗驗證的完整研究迴圈
站內正文

Show HN:你可以編寫、辯論和指導的AI交易員

Degen & Co. 是一個平臺,允許使用者建立具有不同個性的AI投資者,例如動量追逐者、股息保守派或末日預言者。每個AI交易員都有獨立的意見、交易策略,並會撰寫交易日誌。使用者可以選擇原型、調整個性設定、設定硬性規則和初始投資組合,然後觀察AI的執行。

  • 建立具有獨特個性的AI交易員,如動量投機者或股息領取者。
  • AI交易員會自主形成觀點、進行交易並撰寫日誌。
站內正文
政策

Anthropic Fable 混亂事件解析

自上週五以來,Anthropic與Mythos和Fable模型相關的爭議持續發酵。本文梳理了事件時間線,包括Anthropic與國防部的爭端、Mythos模型的釋出、白宮的分歧、Fable 5的推出及其安全限制引發的批評、以及最終導致特朗普政府實施出口管制的風波。文章分析了支援與反對Anthropic的論點,作者認為Anthropic大體上做出了正確決定,並間接為Fable做了廣告。

  • Anthropic因對軍事使用其AI模型設限而被視為供應鏈風險。
  • Mythos模型展現了強大的網路安全能力,促使Anthropic啟動Project Glasswing。
站內正文
模型

特朗普對Anthropic的關閉行動,為非美國AI發展提供了理由

上週末,應華盛頓要求,Anthropic突然下線了其最新、最強大的AI模型。這家美國公司稱,在白宮要求封鎖所有外國國民(包括其員工)的訪問後,它別無選擇。在國外,這一事件清醒地提醒人們,美國不僅主導著前沿AI,其政府還掌控著誰可以使用它的權力。特朗普政府的行動迅速、全面,且幾乎沒有預警或解釋。Fable 5和Mythos 5模型的空前關閉——它們本已受到限制在“高風險領域”使用的保障措施——為長期以來的論點注入了新的力量,即警告不要依賴美國的關鍵技術。這為已經在主張自身需要領導該技術的政治家、政府和企業提供了新的彈藥。在英國,AI和線上安全部長Kanishka Narayan沒有直接提及Anthropic、特朗普或美國,但利用這次關閉來論證英國必須發展自己的AI能力,並將其框定為國家安全問題。他說:“我們嚴肅對待每一個對我們主權構成的威脅,但我們還沒有學會以同樣的方式對待這個。”他稱AI是“我們時代的核心政治問題”,並認為英國必須決定這項技術將如何塑造其經濟、安全和主權,“否則別人會替我們決定答案。”在法國,反應更加直接,也更明確地指名美國。前總理Gabriel Attal稱這次關閉是“AI戰爭”的開始,並表示這表明法國如果依賴他人的關鍵技術就會脆弱。他將Anthropic模型的撤出比作伊朗封鎖霍爾木茲海峽,認為獲得AI現在是一個戰略瓶頸,法國必須為此做好準備。這並非全新論點。歐洲多年來一直擔心對美國的依賴,歐盟越來越強調在晶片、雲端計算和AI等領域減少對外部提供商的依賴。但Anthropic關閉事件使事情變得更加緊迫,加劇了在特朗普領導下對美國作為盟友可靠性的深深不安——從貿易爭端到威脅退出北約。加拿大也得出了類似結論。總理Mark Carney表示,這一情況凸顯了僅依賴一個合作伙伴獲取AI等關鍵資源的風險。他說:“我們目前與Mythos和Fable所處的困境,就是過度依賴某些模型可能發生的情況。這個情況下沒有人做錯什麼。但如果我們只是接受這一點,不吸取教訓,不建立和多樣化,那麼我們就會做錯。”其他國家早已走上這條路。北京長期以來一直支援國內AI公司,中國是少數擁有能與美國前沿AI實驗室產品相媲美的模型的地方之一。但大多數政府和企業的規模和資源無法與美國或中國的前沿實驗室相比。主權AI並不總是意味著構建最大或最強大的工具。法國的Mistral和加拿大的Cohere表明,即使模型無法並駕齊驅,這些國家之外也能做出紮實的努力。其他國家,如新加坡和阿聯酋,專注於更狹窄但具有戰略意義的優先事項,如基礎設施或對本地語言更好的模型。當然,還有開源模型,其能力可能有一天會達到Mythos的水平,且難以被任何一方控制。特朗普可能將限制Mythos和Fable視為國家安全問題。但這一論點也是雙向的:既然華盛頓在問AI是否太過重要以至於不能讓人人都使用,其他政府也在問他們是否能承受由華盛頓來決定誰可以使用。Anthropic可能很快會重新上線Mythos和Fable。但恢復全球對美國AI的信任則是另一回事。無論關閉持續多久,它都揭示了訪問美國前沿AI模型的脆弱性。許多政府和企業不喜歡他們看到的——他們決心確保這種事不再發生。

  • 應美國白宮要求,Anthropic突然下架了其最新AI模型Fable 5和Mythos 5,禁止外國國民訪問,包括其非美國員工。
  • 此舉引發全球對美國AI技術主導地位及其政府控制權的不滿,多個國家(如英國、法國、加拿大)呼籲發展自主AI能力。
站內正文

使用Fireworks構建成本降低100倍的追蹤評判器

LangChain與Fireworks合作微調開放模型,從生產追蹤中挖掘感知錯誤訊號,以極低成本達到前沿模型效能。

  • LangSmith每天處理數十億個token的生產追蹤資料。
  • 透過微調Qwen模型檢測“感知錯誤”,效能媲美或超越前沿模型,成本降低100倍。
站內正文

推出 Align Evals:簡化 LLM 應用評估

LangSmith 的新功能 Align Evals 幫助開發者校準評估器,使其更符合人類偏好,從而減少評估分數與人工判斷之間的差異。

  • Align Evals 透過人機對比迭代評估提示,提高 LLM 評估準確性。
  • 提供類似 Playground 的介面和基線對齊分數,方便追蹤改進。
站內正文

使用LangSmith進行成對評估

瞭解什麼是成對評估,為什麼在LLM應用開發中可能需要它,並透過LangChain的LangSmith示例瞭解如何使用它。

  • 成對評估透過直接比較兩個候選答案來提升LLM的偏好學習。
  • LangSmith新增了自定義成對評估器,可基於任意標準比較LLM輸出。
站內正文

使用OpenEvals快速開始評估LLM

OpenEvals和AgentEvals提供了預構建的評估器,支援LLM-as-judge、結構化資料和代理軌跡評估。這些開源包幫助開發者快速建立評估流程,確保LLM應用可靠性。

  • OpenEvals和AgentEvals提供即用型評估器,覆蓋LLM-as-judge、結構化資料和代理軌跡評估。
  • LLM-as-judge評估器可定製,支援少樣本示例和評分模式,適用於對話質量、幻覺檢測等場景。
站內正文

將LLM作為評判與人類偏好對齊

LangSmith推出自我改進的LLM評判器,透過將人工修正儲存為少樣本示例,無需提示工程即可使評判與人類偏好保持一致。

  • LLM作為評判器廣泛用於評估自然語言輸出,但需要精心設計提示。
  • LangSmith的新功能將人工修正作為少樣本示例儲存,逐步提升評判器與人類偏好的一致性。
站內正文
晶片

科技巨頭在AI監管上的最後絕望衝刺

大型科技公司正試圖推動一項聯邦AI優先立法,以取代各州分散的法規,但此舉與兒童安全法案捆綁,面臨政治混亂和反對。

  • 科技巨頭尋求聯邦AI優先法,但面臨國會分歧和政治反彈。
  • 白宮將AI優先法與《兒童線上安全法案》捆綁,引發混亂。