AI News HubLIVE

今日必读

Agent

Windsurf 现已更名为 Devin Desktop

Devin Desktop 是 Windsurf 的下一代升级版,集成了 Agent 控制中心,支持通过 Kanban 视图管理本地和云端代理,并引入 Spaces 共享上下文。同时支持 Agent Client Protocol (ACP),兼容第三方代理。

  • Windsurf 升级为 Devin Desktop,引入 Agent 控制中心
  • 新增 Spaces 功能,用于在代理之间共享上下文
站内正文

英伟达与微软合作打造统一堆栈,实现从Windows设备到云端与本地的智能体AI部署

在Microsoft Build大会上,英伟达与微软宣布扩展合作,推出面向Windows的RTX Spark和DGX Station、加速Microsoft Fabric、在Microsoft Foundry上提供NVIDIA开放模型、在GitHub Copilot中集成NVIDIA OpenShell安全运行时,以及下一代NVIDIA驱动的AI工厂。

  • 英伟达与微软合作推出RTX Spark和DGX Station for Windows,为Windows PC带来专为智能体AI设计的硬件。
  • NVIDIA Nemotron 3 Ultra等开放模型现已在Microsoft Foundry上可用,支持企业级智能体工作流。
站内正文

Build 2026:微软MDASH退出预览,推出100多个专业威胁猎杀AI代理

微软在Build 2026上宣布其多模型智能扫描工具MDASH退出预览,并整合到企业安全控制平面中,连接Defender、GitHub代码安全等。MDASH使用超过100个专门的AI代理对漏洞进行分诊和优先级排序,显著降低安全告警的噪声,帮助开发人员更快修复真实可利用的漏洞。

  • MDASH是一个基于多模型智能代理的漏洞分诊系统,能够从大量告警中筛选出真正可利用的风险。
  • 该系统使用超过100个专门的AI代理,结合先进模型进行推理,低成本模型处理高容量任务,实现模型无关。
站内正文

当AI开始向AI销售时会发生什么?

AI已经在编写销售邮件、更新CRM系统、生成提案和响应RFP。下一阶段可能更具颠覆性:在人类加入对话之前,AI代理之间进行谈判。本文探讨了AI如何改变企业销售、采购和商业关系,以及人类信任和判断力的重要性。

  • AI自动化了CRM更新和RFP回复等行政任务,让销售代表专注于建立关系。
  • 代理型AI可能处理冷启动外联和尽职调查,但企业销售中的人际信任仍至关重要。
站内正文

微软在Build大会上发布首批推理模型,共7款AI模型亮相——目前已知信息

微软在年度Build开发者大会上发布了七款新AI模型,其中包括其首个推理模型MAI-Thinking-1。该模型基于企业级、干净且商业授权的数据进行训练。同时发布的还有新的代码模型、图像模型和语音模型。公司强调所有模型均内置水印,并提升了成本效率。微软还宣布与梅奥诊所合作开发医疗AI前沿模型。

  • 微软发布七款新AI模型,包括首个推理模型MAI-Thinking-1。
  • MAI-Thinking-1是一款350亿参数的推理模型,使用企业级数据训练。
站内正文
政策

我写了一本书,拒绝认领AI‘百万美元’证明的作者身份

伊戈尔·拉基(Igor Racki)的新书《作者身份的道德现实:我如何拒绝了一百万美元》讲述了他拒绝接受百万美元以认领AI生成证明作者身份的经历,深入探讨了AI时代作者身份的伦理问题。

  • 伊戈尔·拉基出版了《作者身份的道德现实:我如何拒绝了一百万美元》一书。
  • 书中详述了他拒绝金钱以认领AI生成证明作者身份的决定及其背后的道德考量。
站内正文
模型

微软Build 2026:七大重要公告

在Build 2026大会上,微软发布了多款新硬件、AI模型和开发者工具,包括面向AI开发的Surface RTX Spark Dev Box、基于OpenClaw的始终在线助手Scout、首个推理模型MAI-Thinking-1、下一代量子计算芯片Majorana 2等。

  • Surface RTX Spark Dev Box:专为本地AI模型开发设计的迷你PC,搭载Nvidia Arm芯片和128GB内存。
  • Scout助手:基于开源平台OpenClaw,可自动执行日历管理、费用报告等任务。
站内正文
创业融资

为AI初创公司构建独特的盲文加载组件

德国软件工程师 Dominik Koch 为他的 AI 聊天应用开发了一款盲文加载动画组件,可将公司名称转换为盲文字符,并支持多种动画样式。

  • 组件将文本转换为盲文,为加载动画增添品牌个性
  • 通过 shadcn CLI 轻松安装,支持自定义文本和动画
站内正文
工具

谷歌推出虚假来电检测,防范AI深度伪造冒充诈骗

谷歌宣布在Android设备上推出虚假来电检测功能,利用AI技术识别深度伪造冒充诈骗,保护用户免受伪装成信任联系人的欺诈电话骚扰。

  • 虚假来电检测功能将帮助用户识别AI深度伪造的诈骗电话。
  • 该功能面向Android 12+设备全球推送,Pixel设备首批支持。
站内正文
芯片

“成功攻击可能造成灾难”:Anthropic 向更多团体开放 Claude Mythos 访问权限

Anthropic 宣布扩大 Project Glasswing 项目,新增约 150 个合作伙伴,提供更强大的 Claude Mythos Preview 模型访问权限,用于防御性网络安全。该项目已发现超过 10,000 个高危漏洞,但面临透明度不足的批评。

  • Anthropic 将 Project Glasswing 合作范围扩大至约 150 个新组织,涵盖电力、水利、医疗等行业。
  • Claude Mythos 模型已发现数千个高危漏洞,包括主要操作系统和浏览器中的漏洞。
站内正文
其余更新(28 条)
创业融资

OpenAI扩展Codex,添加角色特定插件,面向非开发者打造通用工作应用

OpenAI正在为Codex添加数据分析、销售和投资银行等角色特定插件。该工具每周有五百万用户使用,其中五分之一不是开发者,且非开发者群体的增长速度是开发者的三倍,表明OpenAI正将Codex定位为通用工作应用。

  • OpenAI为Codex推出针对数据分析、销售和投资银行等职位的专用插件。
  • Codex每周活跃用户达500万,其中20%为非开发者。
站内正文
模型

特朗普签署行政令,要求AI模型发布前接受联邦审查

美国总统特朗普签署行政令,建立“自愿框架”,要求AI公司在发布前沿模型前与联邦政府共享,以促进安全创新并加强关键基础设施的网络安全。该指令要求多家联邦机构制定框架,在模型公开发布前评估其先进网络能力。公司可自愿共享,但若选择共享,将获得保密保护。

  • 特朗普签署行政令,创建AI模型发布前自愿审查框架。
  • 联邦机构将评估AI模型的网络能力,公司可自愿参与。
站内正文

微软首个高级推理AI模型问世

微软在Build 2026大会上发布了一系列新的内部AI模型,包括旗舰推理模型MAI-Thinking-1。该模型基于清洁数据从头训练,在关键软件工程基准测试中达到领先水平,未使用第三方蒸馏技术。此外,微软还推出了图像生成、高速转录、多语言语音及编码模型,进一步减少对OpenAI的依赖。

  • 微软发布旗舰推理模型MAI-Thinking-1,从头训练且未使用第三方蒸馏。
  • 新模型在软件工程基准测试中达到领先水平。
站内正文

Amazon Nova Forge 超参数优化的艺术与科学

本文深入探讨了在使用 Amazon Nova Forge 进行领域特定任务微调时,如何平衡模型领域性能与通用能力。介绍了数据混合、学习率、检查点选择等关键超参数的优化策略,以及如何避免灾难性遗忘和昂贵的失败训练。

  • Amazon Nova Forge 支持数据混合和检查点选择,以防止灾难性遗忘。
  • 学习率是最敏感的超参数,服务默认值是推荐的出发点。
站内正文

微软推出Surface RTX Spark Dev Box,无需云成本即可运行大语言模型

微软在Build 2026大会上发布了Surface RTX Spark Dev Box,一款紧凑型桌面电脑,配备Nvidia Blackwell架构RTX Spark处理器和128GB统一内存,提供1 petaflop AI算力,让开发者可在本地加载和运行超过1200亿参数的大模型,无需支付云API费用。此举直接挑战了自ChatGPT推出以来主导AI行业经济的按token付费模式。

  • Surface RTX Spark Dev Box可本地运行1200亿参数以上的AI模型
  • 配备Nvidia Blackwell架构RTX Spark处理器和128GB统一内存
站内正文

Mythos和GPT-5.5会发现大量漏洞。但这够了吗?

前沿AI模型如Mythos和GPT-5.5能发现真实漏洞,但企业级进攻性安全需要更多:覆盖范围、验证、安全性、治理和运营集成。本文探讨了如何将AI能力转化为可靠的安全系统。

  • AI模型可以发现漏洞,但企业防御需要全面覆盖和验证。
  • 多步推理、持续覆盖和安全防护是AI安全系统的关键挑战。
站内正文

特朗普签署行政令,要求科技公司提前向政府提交AI模型供审查

特朗普总统签署一项行政令,建立自愿框架,要求科技公司在公开发布强大AI模型前最多提前30天提交给政府审查,以加强网络安全和国家安全。此举标志着他从之前的放松监管立场转向更严格的控制。

  • 特朗普签署行政令,要求科技公司自愿向政府提交AI模型进行发布前审查
  • 审查时间为公开发布前最多30天
站内正文
Agent

我最期待尝试的4款Nvidia RTX Spark笔记本电脑——包括微软的新款Ultra

Nvidia在Computex 2026上宣布了其新款RTX Spark CPU,用于笔记本电脑,与英特尔、AMD和高通竞争。该芯片基于Arm架构,提供高达1 petaflop的AI性能和128GB统一内存。微软的Surface Laptop Ultra、戴尔XPS 16 Creator Edition、华硕ProArt P14/P16和微星Prestige N16 Flip AI Plus是首批亮点机型,预计今年秋季上市,售价超过2000美元。

  • Nvidia发布RTX Spark CPU,面向笔记本电脑,采用Arm架构,AI性能达1 petaflop。
  • 与微软合作,重新定义Windows PC,集成智能体AI功能。
站内正文

Anthropic IPO申请标志着AI向企业公用事业成熟

Anthropic的IPO申请标志着生成式AI从以研究为主的风险投资阶段转向稳定的企业公用事业,对定价、许可和市场整合产生影响。

  • Anthropic上市将工程目标与企业采购对齐,引入结构化发布计划和定价框架。
  • 企业用户可围绕正式化的定价层级和API限制进行规划,但可能面临更严格的许可和模型淘汰。
站内正文

微软Scout:基于OpenClaw的新型AI个人助手

微软推出Scout,一款基于OpenClaw的始终在线AI助手,集成于Microsoft 365,可自动执行日程安排、费用报告等任务。它能监控交通和日历,从Teams和电子邮件中学习,并推荐行动。桌面预览版现面向美国Frontier客户提供。

  • 微软Scout是基于OpenClaw的新型AI个人助手,集成于Microsoft 365。
  • 它能监控交通、日历,并从Teams和电子邮件中学习以建议行动。
站内正文

TinyFish 发布 BigSet:一个开源多智能体系统,可从自然语言描述构建结构化实时数据集

TinyFish 推出开源多智能体系统 BigSet,用户只需用一句话描述所需数据,系统便自动推断模式、通过网络搜索和提取、去重并生成可导出的 CSV/XLSX 文件。支持定时刷新,全程无需手动编写爬虫或配置选择器。

  • BigSet 是一个基于自然语言描述自动构建结构化数据集的开源多智能体系统。
  • 系统采用两层智能体架构:模式推断(Claude Sonnet)→ 协调者(Qwen)→ 并行子智能体收集数据。
站内正文

如何赢回开发者:GitHub的计划

由于AI代码生成带来的前所未有的增长,GitHub遭遇频繁宕机。该公司正在扩展基础设施,迁移至Azure,并重建核心系统以恢复可靠性。

  • 过去一年,由于AI工具带来的意外增长,GitHub遭遇数百次宕机。
  • 公司正扩展至处理当前30倍流量,迁移至Azure并重建核心系统。
站内正文

微软非常非常希望开发者重新爱上Windows

在Build开发者大会上,微软推出一系列面向开发者的新功能,包括默认开启深色模式的开发者优化Windows 11体验、预配置开发工具、在PowerShell中原生运行Unix核心工具、WSL容器、智能终端Agent面板、以及用于运行AI Agent的执行容器和本地AI模型。微软旨在通过减少干扰和提供熟悉的环境,吸引Mac和Linux开发者转向Windows。

  • 微软推出开发者优化的Windows 11体验,默认开启深色模式,关闭干扰通知,预配置VS Code等工具。
  • 新功能包括原生Unix工具(如grep、ls)、WSL容器、智能终端Agent面板(集成Claude Code、Codex等)。
站内正文

微软通过智能终端重新定义Windows终端

微软推出智能终端(Intelligent Terminal)实验性功能,将AI智能体直接集成到Windows 11终端中,支持GitHub Copilot、Claude Code等代理,可自动检测错误并建议修复,简化开发者工作流程。

  • 微软发布智能终端,将AI代理引入Windows 11终端。
  • 支持GitHub Copilot、Claude Code、Codex等多种代理协议。
站内正文

如何使用Claude托管代理?

Anthropic的Claude托管代理提供了一个完全托管的平台,用于运行AI代理,无需管理基础设施。本文涵盖了功能、定价、最新更新以及逐步构建代理的实践指南。

  • Claude托管代理处理沙箱化、状态管理、工具执行等底层操作。
  • 核心概念包括代理、环境、会话和事件。
站内正文

引入评价标准:构建能够自我评估和修正工作的智能体

Deep Agents 的 RubricMiddleware 通过在智能体运行中添加自我评估循环,使其能够根据预定义的评价标准反复修正输出,直到满足所有条件。该工具特别适用于具有明确可验证成功标准的任务,如通过测试、避免禁止模式、覆盖必要部分等。

  • RubricMiddleware 允许智能体根据评价标准自我评估并迭代改进。
  • 它使用独立的评分子智能体来审查输出并提供逐条反馈。
站内正文

微软Project Solara:为AI代理设备打造的安卓操作系统

微软在Build 2026上宣布了Project Solara,这是一款专为运行AI代理的小工具设计的新操作系统,基于安卓而非Windows。公司展示了两款概念设备:桌面概念(类似亚马逊Echo Show)和徽章概念(可穿戴工作徽章)。微软不计划自行生产这些设备,而是作为参考设计供其他硬件制造商使用。多家企业如AccuWeather、百思买、CVS医疗和塔吉特计划开展硬件试点。

  • 微软在Build 2026上发布Project Solara,一个基于安卓的AI代理操作系统。
  • 展示了桌面和徽章两种概念设备,用于不同的AI代理交互场景。
站内正文

AI漏洞情报代理:将CVE转化为可操作的安全报告

CVE AI Agent是一个自主运行的漏洞情报引擎,能够持续采集、丰富和分类CVE数据,并通过n8n、Jira、Slack、Splunk等第三方工具将发现结果推送到用户选择的平台。其采用令牌高效架构,通过确定性最小化逻辑过滤噪音,平均提示词仅1000个令牌。代理遵循严格的两遍架构:第一遍确定性提取所有可测量数据,第二遍由LLM填充定性部分。支持多种LLM提供商,包括Gemini、OpenAI、Claude等,并提供Web仪表盘。

  • CVE AI Agent是一个自主的漏洞情报管道,专为SOC级别的可审计漏洞情报设计。
  • 采用两遍架构:确定性引擎提取数据,LLM仅填充定性部分,减少幻觉风险。
站内正文

Work IQ:微软对企业级AI代理优先IT的重大押注,我有很多疑问

微软推出Work IQ,专为代理优先的企业设计,让AI代理动态发现数据结构和执行操作,但成本、治理和数据暴露问题令人担忧。

  • 微软Work IQ重新设计企业软件,使AI代理能实时发现数据结构。
  • 代理无需预定模型,可通过getSchema在运行时动态了解数据。
站内正文

如何评估面向生产环境的编程代理模型

本文深入分析LLM编码基准测试与现实生产环境之间的差距,指出单纯依赖排行榜分数选择模型的弊端。文章分类介绍了HumanEval、SWE-bench等主流基准测试的实际测量内容,并提出一套包含五步的评估框架:定义质量指标、选择匹配任务的基准、运行内部评估、使用加权评分、建立持续评估机制。同时警示了过度依赖单一基准、忽略执行评估、不考虑基础设施开销等常见陷阱。最后强调,内部评估集才是模型选择最可靠的依据。

  • 基准测试分数与生产性能存在显著差距,需要批判性解读
  • 不同基准测试测量不同的编码能力,单一基准无法全面评估
站内正文

微软打造了高通未能实现的迷你Surface开发机

微软推出Surface RTX Spark Dev Box,这是一款专为开发者设计的迷你PC,搭载英伟达Arm架构RTX Spark芯片,拥有128GB统一内存,支持本地运行高达1200亿参数的AI模型,预装Visual Studio Code、GitHub Copilot等开发工具,将于今年晚些时候在美国上市。

  • Surface RTX Spark Dev Box采用类似Xbox Series X顶部的铝制散热底盘,热设计功耗为100瓦。
  • 配备128GB统一内存,可本地运行高达1200亿参数的模型。
站内正文

OpenAI的Codex新增工具——站点、注释及更多插件——面向知识工作者

OpenAI宣布Codex的500万周活跃用户中20%是知识工作者而非程序员,因此推出针对他们的新功能:Sites(创建和分享交互式网站)、Annotations(在文档中指定区域让AI修改)以及面向数据分析、销售等领域的插件。

  • Codex 20%的用户是知识工作者,OpenAI为此推出新工具。
  • Sites功能允许用户创建并共享交互式网站,无需编码。
站内正文

MAI-Thinking-1 即将登陆 Baseten

Baseten 与微软 AI 宣布,MAI-Thinking-1 即将在 Baseten 平台上提供。该模型是微软 AI 的旗舰推理模型,结合了开源模型的灵活性与闭源模型的管理便利性,具有干净数据来源、商业级质量和定制化能力。

  • MAI-Thinking-1 是微软 AI 的新旗舰推理模型,填补了开源与闭源模型之间的空白。
  • 模型采用无蒸馏的干净数据训练,数据来源可审计且商业安全。
站内正文
政策

谷歌电话应用将提醒你骗子冒充你的联系人

谷歌为电话应用推出新功能,利用端到端加密的RCS技术检测冒充联系人的AI诈骗电话。诈骗者越来越普遍地使用AI模仿声音进行诈骗,FBI报告2025年美国损失超8.93亿美元。该功能默认开启于Android 12及以上设备,从Pixel手机开始,要求双方使用谷歌电话应用。此外,还推出了儿童安全、AirDrop支持、AI试穿等功能。

  • 谷歌电话应用新增AI诈骗电话检测功能,可识别冒充联系人的号码。
  • 诈骗者通过AI模仿声音,2025年美国损失超8.93亿美元。
站内正文

使用Amazon Nova 2 Lite进行目标检测

本文介绍了如何通过Amazon Nova 2 Lite实现目标检测,无需训练模型或管理基础设施。利用Amazon Bedrock、Lambda和API Gateway构建应用,通过自然语言提示即可检测物体并获取边界框坐标。涵盖制造业、农业和物流等实际应用场景。

  • Amazon Nova 2 Lite通过自然语言提示检测物体,无需训练。
  • 结合Amazon Bedrock、Lambda和API Gateway可快速部署。
站内正文

用AI为每个职位量身定制简历 | Show HN

Refer Me推出了AI简历定制工具,可根据职位描述自动优化简历,提高通过ATS筛选的几率,让求职者在竞争激烈的市场中脱颖而出。

  • AI简历定制工具,根据职位描述自动调整简历内容
  • 优化简历以通过ATS(申请人追踪系统)筛选
站内正文
工具

锤子和钉子:AI能为数据分析师做什么,不能做什么

本文探讨了AI在数据分析领域的实际效用与局限。AI在编写代码和加速数据资产开发方面有显著优势,但在回答临时数据问题、分析指标变化时,误差率较高(约86%准确性),且需要大量前期数据准备。AI无法替代分析师所需的判断力、背景知识和机构记忆。文章建议以清醒的态度使用AI工具,避免过度投资或完全忽视。

  • AI在编写代码方面效率提升显著,帮助团队更快构建高质量数据资产。
  • AI回答临时数据问题的准确性约为86%,且一致性不足,无法完全替代仪表盘。
站内正文
研究

标志位将Microsoft 365应用变成账户劫持管道

研究发现在Android设备上,任何应用都可以静默获取Microsoft 365账户的令牌,从而劫持账户。问题已修复,建议立即更新应用。

  • Microsoft 365 Android应用存在一个开发标志位,导致安全验证失效。
  • 任何第三方应用均可窃取已登录用户的令牌,访问邮件、文件等。