AI News HubLIVE

今日必读

Agent

安卓AI代理:RikkaHub Agent

RikkaHub Agent 是一个开源安卓应用,将本地LLM聊天客户端转变为功能强大的设备端AI代理,支持80多种设备工具、工作流自动化、Telegram远程控制、SSH、语音转录等功能,所有操作均在设备本地完成,保障隐私安全。

  • 基于RikkaHub分支,扩展为设备端AI代理,支持80+原生工具。
  • 支持工作流、定时任务、Telegram机器人、内嵌浏览器等功能。
站内正文

在PostgreSQL上尝试AI操作符

samtSQL 允许您在现有的 PostgreSQL 数据库上运行增强型 SQL 查询,支持文本、图像和音频等多模态数据。

  • 在 PostgreSQL 数据库上运行带有 AI 操作符的 SQL
  • 支持多模态数据:文本、图像、音频
站内正文

AI让我们更加成为自己

AI并没有让糟糕的工程师变好,只是让他们更快了。它不改变我们的本质,而是放大我们的特质。对于懒惰或草率的程序员,AI加速了他们输出低质量代码的速度,并且由于AI自身倾向于复制现有模式而不质疑,导致技术债务被固化并大规模扩散。

  • AI放大现有特质,而非提升能力。
  • 糟糕的工程师借助AI输出更多代码,但判断力未提升。
站内正文

关于AI安全的一些思考

这篇文章谨慎而细致地论证了AI乐观主义:安全性、可解释性、偏见和对齐与原始能力同样重要。作者认为,将AI简化为好与坏是有害的,需要理解内部机制、应对误用和错位,并考虑系统性风险。这是一场能力与理解之间的竞赛,而安全取决于能否扭转这一比率。

  • AI的潜力巨大,但风险也相伴而生,需要谨慎平衡。
  • 可解释性是理解模型内部机制的关键,目前我们尚未完全掌握。
站内正文

更精确地模拟金属合金行为的新方法

MIT研究人员开发了一种基于机器学习的建模方法,通过优化训练数据集来捕捉化学无序材料中的原子环境多样性,从而更准确地预测金属合金的性质,并有望加速新材料的设计。

  • MIT团队通过信息论方法优化训练数据,使机器学习模型能够捕捉无序合金中多样的局部化学环境。
  • 该方法比传统暴力计算方法更高效,预测准确性超过谷歌和微软等公司的大型模型。
站内正文
芯片

在AMD RX 580(2017年GPU)上使用Vulkan运行本地AI——无需CUDA,无需ROCm

本文介绍如何在2017年的AMD RX 580显卡上,通过Vulkan后端运行llama.cpp和stable-diffusion.cpp,实现本地AI推理。无需CUDA或ROCm,即可在Windows上运行LLM和Stable Diffusion。

  • AMD RX 580可通过Vulkan运行本地AI,无需CUDA或ROCm
  • llama.cpp和stable-diffusion.cpp的Vulkan后端实现了GPU加速
站内正文
工具

4000亿参数模型:“欧洲”联盟赢得AI竞赛

欧盟委员会宣布“前沿AI大挑战”获胜者,由意大利公司Domyn领导的“欧洲”联盟将获得资源开发最先进的开源AI模型,覆盖所有24种欧盟官方语言。

  • 欧盟委员会周五宣布“前沿AI大挑战”获胜者
  • 意大利Domyn公司领导的“欧洲”联盟胜出
站内正文

Show HN:开源工具 Summer 实现 Claude Code、Codex 和 OpenCode 的多用户使用跟踪

Summer 是一款由 Autumn 开发的本地开源工具,用于追踪 AI 编程助手的使用情况和费用。它支持 Claude Code、Codex 和 OpenCode,无需托管,提供本地仪表盘,可以按团队汇总每个工程师的使用量、模型和成本。

  • Summer 是本地运行的开源工具,无需服务器托管。
  • 支持 Claude Code、Codex 和 OpenCode 三种 AI 编程工具。
站内正文
研究

五家中国AI实验室将代币价格下调高达99%

字节跳动、腾讯、MiniMax、阿里巴巴和小米在同一竞争窗口内将AI代币价格下调了50%至99%。美国银行证券分析师认为,中国主要AI模型之间的能力差距缩小是引发价格战的原因。阿里巴巴的Qwen3.7-Max降价50%与618购物节挂钩,将AI竞争与消费者促销相结合。

  • 五家中国AI实验室在短时间大幅降价50%-99%
  • Bank of America认为能力差距缩小使价格成为主要竞争杠杆
站内正文
模型

IEEE推出大型语言模型虚拟培训课程

大型语言模型(LLM)已从研究实验室进入工程师的日常工作流程。为帮助技术人员掌握LLM的构建与部署,IEEE推出了一个包含五门课程、总计可获专业发展学分和数字徽章的在线培训项目。

  • LLM市场预计到2030年每年增长约33%,掌握LLM实现与安全正成为技术人员的核心要求。
  • 工程师需要理解Transformer架构和自注意力机制,而非将LLM视为简单的对话机器人。
站内正文
其余更新(7 条)
Agent

华为芯片助力DeepSeek模型精调,中国AI自主可控迈出重要一步

华为使用其昇腾910C芯片成功完成对DeepSeek-V4-Pro模型的后训练,这是中国半导体产业在复杂AI模型训练领域取得的关键突破。该项目由华为与多家研究机构合作,利用1000多颗芯片集群实现了1.6万亿参数模型的全参数后训练,展示了国产芯片从推理到训练的能力跨越。此举有助于提升中国AI产业链的自主性,在美制裁背景下推动国内替代方案的发展。

  • 华为与多家机构合作,使用昇腾910C芯片成功完成DeepSeek-V4-Pro模型的后训练。
  • 项目采用至少1000颗芯片集群,对1.6万亿参数模型进行全参数精调。
站内正文

PhD_fleet:通过Slack管理虚拟AI博士生研究实验室

PhD_fleet 是一个Python工具包,允许单一研究人员(导师)通过Slack生成和与Claude Code代理群进行对话。每个代理拥有独立的工作区,通过Slack消息驱动交互,文件系统作为长期记忆。还包括一个教练代理,提供基于证据的反馈以提升指导技能。

  • 导师可通过Slack命令生成多个AI学生代理,每个代理有独立工作区和长期记忆。
  • 提供教练代理,分析导师的指导行为并提供改进建议。
站内正文

开源AI技能,让Claude/ChatGPT产生真正的产出,经过评估评分

pm-claude-skills 是一个开源技能库,包含174个面向专业人士的SKILL.md文件,涵盖产品管理、工程、客户成功等多个领域。每个技能都经过评估验证,能指导AI助手生成可直接交付的专业级输出。支持Claude Code、ChatGPT、Gemini等工具,并提供工作流食谱、技能记忆和MCP集成。

  • 174个职业技能,覆盖产品、工程、营销等18个职业领域
  • 每个技能经过评估评分,确保输出质量
站内正文

我们如何构建内部数据分析智能代理

GitHub 内部使用 Copilot 驱动的 Qubot 智能代理,让员工能够用自然语言查询数据仓库,无需分析师介入。本文介绍了 Qubot 的架构、上下文层、评估框架及经验教训。

  • Qubot 通过 Slack、VS Code 和 Copilot CLI 提供接口,支持探索性数据分析。
  • 上下文层对提升准确性和响应速度至关重要,结构化上下文使 Qubot 准确率更高、速度提升三倍。
站内正文
模型

MiniMax M3 vs. GLM 5.2:自主编程任务代码生成对比

在Thinkbench基准测试中,GLM 5.2在正确性上领先(92%完全通过),而MiniMax M3成本更低、速度更快。代码修改任务表现相当,但全新构建任务GLM更稳健。在处理模糊指令时,MiniMax倾向于构建更完整的系统。

  • GLM 5.2正确率92%,MiniMax M3为84%
  • MiniMax成本$6.67,GLM$18.47;平均延迟45秒 vs 80秒
站内正文

Checkmarx 的新 SAST 引擎重点不在 LLM,而在后续处理

Checkmarx 发布了一款新的静态应用安全测试(SAST)引擎,该引擎结合了确定性规则扫描器、基于安全数据训练的 LLM 以及专门用于分类真/假阳性的引擎。公司声称其 F1 得分为 0.499,远高于行业平均水平,并在测试中发现了领先前沿模型遗漏的 327 个真阳性。该架构的核心是编排层,它将三个引擎自动整合在一起,无需客户自行构建多引擎工作流。

  • Checkmarx 新 SAST 引擎包含三个引擎:确定性规则扫描器、LLM 和发现分析引擎(FAE),用于在结果到达开发团队前过滤假阳性。
  • 公司声称 F1 得分为 0.499,是行业平均水平(0.20)的两倍多,并在测试中找到了领先前沿模型遗漏的 327 个真阳性。
站内正文
工具

为你的AI用例找到合适的栈

Inferlay是一个帮助开发者为其AI项目选择合适技术堆栈的平台。它通过对比各种工具和框架,简化了决策过程。

  • Inferlay旨在简化AI技术栈的选择。
  • 平台提供工具对比和推荐功能。