AI News HubLIVE

今日必讀

Agent

安卓AI代理:RikkaHub Agent

RikkaHub Agent 是一個開源安卓應用,將本地LLM聊天客戶端轉變為功能強大的裝置端AI代理,支援80多種裝置工具、工作流自動化、Telegram遠端控制、SSH、語音轉錄等功能,所有操作均在裝置本地完成,保障隱私安全。

  • 基於RikkaHub分支,擴充套件為裝置端AI代理,支援80+原生工具。
  • 支援工作流、定時任務、Telegram機器人、內嵌瀏覽器等功能。
站內正文

在PostgreSQL上嘗試AI運算子

samtSQL 允許您在現有的 PostgreSQL 資料庫上執行增強型 SQL 查詢,支援文本、影像和音訊等多模態資料。

  • 在 PostgreSQL 資料庫上執行帶有 AI 運算子的 SQL
  • 支援多模態資料:文本、影像、音訊
站內正文

AI讓我們更加成為自己

AI並沒有讓糟糕的工程師變好,只是讓他們更快了。它不改變我們的本質,而是放大我們的特質。對於懶惰或草率的程式設計師,AI加速了他們輸出低質量程式碼的速度,並且由於AI自身傾向於複製現有模式而不質疑,導致技術債務被固化並大規模擴散。

  • AI放大現有特質,而非提升能力。
  • 糟糕的工程師藉助AI輸出更多程式碼,但判斷力未提升。
站內正文

關於AI安全的一些思考

這篇文章謹慎而細緻地論證了AI樂觀主義:安全性、可解釋性、偏見和對齊與原始能力同樣重要。作者認為,將AI簡化為好與壞是有害的,需要理解內部機制、應對誤用和錯位,並考慮系統性風險。這是一場能力與理解之間的競賽,而安全取決於能否扭轉這一比率。

  • AI的潛力巨大,但風險也相伴而生,需要謹慎平衡。
  • 可解釋性是理解模型內部機制的關鍵,目前我們尚未完全掌握。
站內正文

更精確地模擬金屬合金行為的新方法

MIT研究人員開發了一種基於機器學習的建模方法,透過最佳化訓練資料集來捕捉化學無序材料中的原子環境多樣性,從而更準確地預測金屬合金的性質,並有望加速新材料的設計。

  • MIT團隊透過資訊理論方法最佳化訓練資料,使機器學習模型能夠捕捉無序合金中多樣的區域性化學環境。
  • 該方法比傳統暴力計算方法更高效,預測準確性超過谷歌和微軟等公司的大型模型。
站內正文
晶片

在AMD RX 580(2017年GPU)上使用Vulkan執行本地AI——無需CUDA,無需ROCm

本文介紹如何在2017年的AMD RX 580顯示卡上,透過Vulkan後端執行llama.cpp和stable-diffusion.cpp,實現本地AI推理。無需CUDA或ROCm,即可在Windows上執行LLM和Stable Diffusion。

  • AMD RX 580可透過Vulkan執行本地AI,無需CUDA或ROCm
  • llama.cpp和stable-diffusion.cpp的Vulkan後端實現了GPU加速
站內正文
工具

4000億引數模型:“歐洲”聯盟贏得AI競賽

歐盟委員會宣佈“前沿AI大挑戰”獲勝者,由義大利公司Domyn領導的“歐洲”聯盟將獲得資源開發最先進的開源AI模型,覆蓋所有24種歐盟官方語言。

  • 歐盟委員會週五宣佈“前沿AI大挑戰”獲勝者
  • 義大利Domyn公司領導的“歐洲”聯盟勝出
站內正文

Show HN:開源工具 Summer 實現 Claude Code、Codex 和 OpenCode 的多使用者使用跟蹤

Summer 是一款由 Autumn 開發的本地開源工具,用於追蹤 AI 程式設計助手的使用情況和費用。它支援 Claude Code、Codex 和 OpenCode,無需託管,提供本地儀表盤,可以按團隊彙總每個工程師的使用量、模型和成本。

  • Summer 是本地執行的開源工具,無需伺服器託管。
  • 支援 Claude Code、Codex 和 OpenCode 三種 AI 程式設計工具。
站內正文
研究

五家中國AI實驗室將代幣價格下調高達99%

字節跳動、騰訊、MiniMax、阿里巴巴和小米在同一競爭視窗內將AI代幣價格下調了50%至99%。美國銀行證券分析師認為,中國主要AI模型之間的能力差距縮小是引發價格戰的原因。阿里巴巴的Qwen3.7-Max降價50%與618購物節掛鉤,將AI競爭與消費者促銷相結合。

  • 五家中國AI實驗室在短時間大幅降價50%-99%
  • Bank of America認為能力差距縮小使價格成為主要競爭槓桿
站內正文
模型

IEEE推出大型語言模型虛擬培訓課程

大型語言模型(LLM)已從研究實驗室進入工程師的日常工作流程。為幫助技術人員掌握LLM的構建與部署,IEEE推出了一個包含五門課程、總計可獲專業發展學分和數字徽章的線上培訓專案。

  • LLM市場預計到2030年每年增長約33%,掌握LLM實現與安全正成為技術人員的核心要求。
  • 工程師需要理解Transformer架構和自注意力機制,而非將LLM視為簡單的對話機器人。
站內正文
其餘更新(7 條)
Agent

華為晶片助力DeepSeek模型精調,中國AI自主可控邁出重要一步

華為使用其昇騰910C晶片成功完成對DeepSeek-V4-Pro模型的後訓練,這是中國半導體產業在複雜AI模型訓練領域取得的關鍵突破。該專案由華為與多家研究機構合作,利用1000多顆晶片叢集實現了1.6萬億引數模型的全引數後訓練,展示了國產晶片從推理到訓練的能力跨越。此舉有助於提升中國AI產業鏈的自主性,在美製裁背景下推動國內替代方案的發展。

  • 華為與多家機構合作,使用昇騰910C晶片成功完成DeepSeek-V4-Pro模型的後訓練。
  • 專案採用至少1000顆晶片叢集,對1.6萬億引數模型進行全引數精調。
站內正文

PhD_fleet:透過Slack管理虛擬AI博士生研究實驗室

PhD_fleet 是一個Python工具包,允許單一研究人員(導師)透過Slack生成和與Claude Code代理群進行對話。每個代理擁有獨立的工作區,透過Slack訊息驅動互動,檔案系統作為長期記憶。還包括一個教練代理,提供基於證據的反饋以提升指導技能。

  • 導師可透過Slack命令生成多個AI學生代理,每個代理有獨立工作區和長期記憶。
  • 提供教練代理,分析導師的指導行為並提供改進建議。
站內正文

開源AI技能,讓Claude/ChatGPT產生真正的產出,經過評估評分

pm-claude-skills 是一個開源技能庫,包含174個面向專業人士的SKILL.md檔案,涵蓋產品管理、工程、客戶成功等多個領域。每個技能都經過評估驗證,能指導AI助手生成可直接交付的專業級輸出。支援Claude Code、ChatGPT、Gemini等工具,並提供工作流食譜、技能記憶和MCP整合。

  • 174個職業技能,覆蓋產品、工程、營銷等18個職業領域
  • 每個技能經過評估評分,確保輸出質量
站內正文

我們如何構建內部資料分析智慧代理

GitHub 內部使用 Copilot 驅動的 Qubot 智慧代理,讓員工能夠用自然語言查詢資料倉儲,無需分析師介入。本文介紹了 Qubot 的架構、上下文層、評估框架及經驗教訓。

  • Qubot 透過 Slack、VS Code 和 Copilot CLI 提供介面,支援探索性資料分析。
  • 上下文層對提升準確性和響應速度至關重要,結構化上下文使 Qubot 準確率更高、速度提升三倍。
站內正文
模型

MiniMax M3 vs. GLM 5.2:自主程式設計任務程式碼生成對比

在Thinkbench基準測試中,GLM 5.2在正確性上領先(92%完全透過),而MiniMax M3成本更低、速度更快。程式碼修改任務表現相當,但全新構建任務GLM更穩健。在處理模糊指令時,MiniMax傾向於構建更完整的系統。

  • GLM 5.2正確率92%,MiniMax M3為84%
  • MiniMax成本$6.67,GLM$18.47;平均延遲45秒 vs 80秒
站內正文

Checkmarx 的新 SAST 引擎重點不在 LLM,而在後續處理

Checkmarx 釋出了一款新的靜態應用安全測試(SAST)引擎,該引擎結合了確定性規則掃描器、基於安全資料訓練的 LLM 以及專門用於分類真/假陽性的引擎。公司聲稱其 F1 得分為 0.499,遠高於行業平均水平,並在測試中發現了領先前沿模型遺漏的 327 個真陽性。該架構的核心是編排層,它將三個引擎自動整合在一起,無需客戶自行構建多引擎工作流。

  • Checkmarx 新 SAST 引擎包含三個引擎:確定性規則掃描器、LLM 和發現分析引擎(FAE),用於在結果到達開發團隊前過濾假陽性。
  • 公司聲稱 F1 得分為 0.499,是行業平均水平(0.20)的兩倍多,並在測試中找到了領先前沿模型遺漏的 327 個真陽性。
站內正文
工具

為你的AI用例找到合適的棧

Inferlay是一個幫助開發者為其AI專案選擇合適技術堆疊的平臺。它透過對比各種工具和框架,簡化了決策過程。

  • Inferlay旨在簡化AI技術棧的選擇。
  • 平臺提供工具對比和推薦功能。