AI News HubLIVE

今日必读

Agent

本周AI:生产可行性探讨

本周节目中,主持人Andreas Welsch与嘉宾讨论了OpenAI进入个人金融领域、元认知在AI辅助工作中的重要性、对Token指标的反感以及前向部署工程师的角色。核心问题:AI行业擅长产出,但尚未明确什么产出真正有价值。

  • OpenAI分析交易数据旨在理解用户意图而非仅改善消费追踪,可能用于广告定向。
  • 元认知成为关键技能:人类需要判断何时依赖AI、何时保留判断力,避免认知投降。
站内正文

CrankGPT:一款人力驱动的本地私有AI解决方案

CrankGPT是一款完全本地运行、人力驱动的AI设备,无需联网或数据中心,通过手摇或脚踏产生计算代币,旨在保护隐私、减少碳足迹并避免科技巨头垄断。

  • CrankGPT是人力驱动的本地AI设备,无需联网或外部算力。
  • 提供手摇、脚踏及健身房合作等多种功率模型,适应不同需求。
站内正文

面向开发者的AI工具精选列表

这是一个精心整理的AI编程工具列表,涵盖代码编辑器、代码补全、编码代理、CLI工具、应用构建器、UI生成器、代码审查、测试、文档、代码模型等类别,为开发者、团队和科技爱好者提供利用AI提升软件工程效率的资源。

  • 列表包含超过100个AI编程工具,分为多个类别。
  • 涵盖从代码编辑器(如Cursor、Copilot)到全栈应用构建器(如Bolt.new、Lovable)等工具。
站内正文

从.com时代的带宽危机看AI Token成本焦虑

作者以自己职业生涯初期经历的带宽成本危机为镜,类比当前AI token成本高涨的现象。通过回顾带宽从昂贵到廉价的历程,指出token成本也会随市场竞争、硬件优化和模型效率提升而下降,建议开发者们既要优化当前成本,也要以发展的眼光看待这一暂时性约束。

  • 90年代末,T1线路月费1000美元,带宽是产品设计的首要约束。十年后,带宽成本趋近于零,不再成为决策变量。
  • 当前AI token成本高昂,类似早期带宽困境,通过缓存、模型选择、提示词优化等策略可有效降低成本。
站内正文

纳德拉公开批评微软副总裁让AI代理成瘾的计划

微软CEO萨提亚·纳德拉严厉批评了一份内部备忘录,该备忘录提议让用户对新的AI代理Scout“上瘾”。纳德拉在致约50名顶尖工程师的邮件中写道:“不知道是谁在写并泄露这些废话。”他强调AI应赋能用户,Scout应减少屏幕使用时间。

  • 微软CEO纳德拉公开批评内部备忘录,该备忘录提议让AI代理Scout致瘾。
  • 纳德拉在邮件中表示不知道是谁在写并泄露这些废话。
站内正文

AI代理催生自适应计算机蠕虫

研究人员利用小型开源AI模型创建了一种自适应计算机蠕虫,能够自主发现并利用漏洞在网络中传播,突破了传统安全防御的局限。这一发现标志着网络威胁质的转变,对全球网络安全构成重大挑战。

  • 使用小型开源AI模型即可构建自适应蠕虫,无需依赖商业AI平台。
  • 蠕虫能自我复制并在异构网络中传播,利用受害者计算资源持续运作。
站内正文

2026年5月谷歌人工智能更新汇总

2026年5月,谷歌在I/O大会、Android Show和Google Health活动中发布了一系列AI更新,包括Gemini 3.5和Gemini Omni模型、Android Halo、Universal Cart、Google Health应用和Fitbit Air等。这些创新旨在让AI更主动、更实用,并融入日常生活。

  • 推出Gemini 3.5和Gemini Omni模型,分别面向代理任务和创意生成。
  • Android Halo帮助管理代理,Universal Cart统一购物车简化购物流程。
站内正文
芯片

AI投资第二阶段:从GPU到电力、工业品与太空

AI投资正从GPU转向更广泛的基础设施领域,包括电力、冷却、光通信和太空。美国就业数据强劲但集中在服务业,AI相关股票因Broadcom财报而获利回吐,但资金并未离场,而是轮动至其他AI受益板块。中国则聚焦AI自主可控和机器人供应链,推动硬件和光学通信需求。

  • AI投资第一轮以GPU为核心,第二轮扩展至电力、冷却、光通信和太空等整个系统。
  • 美国就业增长主要由休闲、政府和医疗保健驱动,制造业和IT表现平平。
站内正文
模型

Anthropic呼吁‘暂停’AI开发以讨论风险

Anthropic提出全球暂时停止AI开发,并计划召集政策制定者讨论高级AI的风险,但一些专家认为这不过是营销手段。

  • Anthropic建议全球暂时停止AI开发。
  • 该公司将召集政策制定者讨论AI风险。
站内正文
工具

Android Auto打败汽车自带信息娱乐系统的5大理由——毫无疑问

汽车自带屏幕可能看起来很现代,但Android Auto仍然是更简单、更智能的驾驶方式。本文分析了Android Auto相比汽车自带系统的五大优势:更多应用、更频繁的更新、跨车辆兼容、几乎无需设置以及更好的语音控制(特别是Gemini集成)。

  • Android Auto提供比大多数汽车自带系统更丰富的应用生态。
  • Android Auto通过手机更新,功能不断进化,而车载系统往往一成不变。
站内正文
其余更新(144 条)
创业融资

Prompt: Anthropic的IPO申请标志着AI的下一个阶段

AI的下一个篇章可能更少依赖于突破性模型,而更多依赖于构建和维持这些模型所需的资源。

  • Anthropic提交IPO申请,预示AI行业进入新阶段。
  • 未来的AI发展重心可能从模型创新转向资源投入。
站内正文

SpaceX IPO视频向散户投资者推销马斯克的太空、AI和 asteroid梦想

SpaceX发布了面向散户投资者的IPO路演视频,CFO Bret Johnsen阐述了公司火箭、卫星和AI业务的协同发展。该视频突出了Starlink、AI解决方案、太空数据中心、点对点旅行及小行星采矿等远大目标,并设定了毛利率和净利率的提升目标。此次IPO估值约1.77万亿美元,定于6月11日定价,代码SPCX。

  • SpaceX发布17分钟IPO路演视频,面向全球散户投资者。
  • CFO Johnsen将火箭、Starlink和AI业务连接起来,强调使人类成为多行星物种的愿景。
站内正文

Vibe-coding热潮推动AI初创公司Supabase估值达105亿美元

数据库初创公司Supabase宣布完成5亿美元融资,估值达到105亿美元,本轮由GIC领投。该公司为AI应用开发提供后端工具,受益于vibe-coding和AI辅助编程的流行。其平台使用开源数据库Postgres,已有超过25万客户。

  • Supabase完成5亿美元融资,估值105亿美元
  • 公司为vibe-coding提供基础设施,受益于Claude Code和Codex等AI工具
站内正文
政策

科学家开始将工作外包给机器人:“自主实验室”时代来临

麻省理工学院的毕业生创办了Ginkgo Bioworks,利用人工智能和机器人构建自主实验室,将科学家从繁琐的实验操作中解放出来。该公司已与OpenAI合作,让AI自主设计蛋白质实验,成本降低40%。但专家警告,AI可能带来生物安全风险,需提前制定监管政策。

  • Ginkgo Bioworks从初创时靠泡面度日,到如今拥有全自动机器人实验室。
  • AI和机器人已能自主完成实验设计、执行和记录,科学家角色转变为监督者。
站内正文

我用ChatGPT构建免费PDF编辑器,因为不信任它直接修改文件——竟然成功了!

作者需要从扫描的黄色纸张乐谱PDF中去除背景色,但担心ChatGPT非确定性修改会改变乐谱。于是让ChatGPT生成一个确定性Python脚本来处理PDF,最终高效完成任务,展示了AI的巧妙用法。

  • ChatGPT可以生成确定性Python脚本来安全编辑文件。
  • 非确定性AI可能改变内容,因此用它构建工具比直接编辑更可靠。
站内正文

绿色人工智能:计算浪费的统一理论

一篇论文提出了“计算浪费的统一理论”,指出当前AI和物理模拟中的低效率源于对外部测量尺度的依赖,而非硬件限制。作者引入“本体计量关系演算”框架,证明不必要的计算开销与单位失真呈二次方关系(O=D²定律),并通过让系统自身作为度量标准,将优化开销降至常数,实现规模不变性、零样本相变外推和真正的绿色AI。

  • AI和物理模拟的计算低效率源于本体论错误:使用外部测量尺度,而非系统内在度量。
  • 提出本体计量关系演算,核心是O=D²定律:计算开销随单位失真平方增长。
站内正文

预印本警告:五年内若不采取行动,AI将带来灾难性风险

国际AI风险专家调查显示,未来五年内AI导致灾难性后果的概率至少为10%。专家呼吁立即采取行动,重点应对AI网络攻击、武器开发、竞争压力和治理失败等风险。

  • 272名AI专家评估认为,五年内AI导致灾难性后果的概率至少为10%。
  • 专家指出AI网络攻击、武器开发、竞争压力和治理失败是最严重的风险。
站内正文

新原告寻求起诉马斯克的xAI公司,继工党议员发起测试案件之后

工党议员杰丝·阿萨托(Jess Asato)发起测试案件后,其他原告也站出来,准备对埃隆·马斯克(Elon Musk)的xAI公司提起法律诉讼,原因是其Grok AI工具生成的侮辱性色情内容。

  • 工党议员杰丝·阿萨托起诉xAI公司,因其Grok AI工具生成并传播她的虚假比基尼图像和AI视频。
  • 新原告在周四联系了阿萨托的律师,表示也想采取行动。
站内正文

五角大楼利用AI宣传机器瞄准拉丁美洲

《拦截》调查发现,美国军方通过AI驱动的内容网站La Tilde向拉丁美洲用户传播宣传,该网站伪装成现代媒体品牌,实为特种作战司令部南部分队的心理战平台,内容多由AI生成,缺乏透明度。

  • La Tilde是五角大楼针对拉丁美洲的AI宣传网站,由美国特种作战司令部南部分队运营。
  • 网站内容包含个人理财和美国军事行动赞美文章,AI检测显示部分内容由机器生成。
站内正文

从单目视频中恢复物理合理的人-物交互

本文提出RePHO方法,通过物理引导的重建框架从单目视频中恢复物理合理的人-物交互。该方法从运动学估计出发,利用强化学习策略在物理模拟器中优化交互,并采用自适应采样策略处理噪声估计,在两个基准测试上显著提升了物理合理性。

  • 现有运动学方法会产生穿模和物体漂浮等物理不合理现象
  • RePHO结合运动学估计和强化学习,在模拟器中优化交互
站内正文

韩国论坛需用AI审查工具扫描每张图片

韩国新规要求所有在线论坛使用AI工具扫描用户上传的每张图片以打击非法内容,引发隐私和言论自由争议。

  • 韩国政府规定在线论坛必须对每张图片进行AI审查扫描。
  • 该政策旨在快速识别色情、暴力等违法内容。
站内正文

美国高级官员考虑在AI巨头中持有政府股份

美国高级官员与主要人工智能公司就联邦政府收购其部分股份进行了初步讨论。OpenAI CEO Sam Altman 已与特朗普政府高级官员多次讨论该想法,旨在将AI的经济效益更广泛地分配给公众。该计划面临治理挑战和法律障碍,并引发左右翼批评。

  • OpenAI CEO Sam Altman 自2025年初向特朗普总统提议后,多次与高级官员讨论政府持股。
  • 讨论集中在公司自愿向政府出让股份,收益用于公共目的,如向美国家庭发放股息。
站内正文

法学教授更偏爱AI而非同行的答案

一项新研究显示,在盲评中,美国法学教授对大型语言模型(LLM)提供的合同法课程答案评分远高于同行,平均胜率达75.33%,且AI回答被标记为有害的比例更低。该研究为在需要判断力的领域评估AI导师提供了可扩展的方法。

  • 16位法学教授对40道代表性问题的2918次对比评分显示,LLM答案的胜率为75.33%。
  • LLM回答被标记为有害的比例仅为3.53%,而教授回答为12.06%。
站内正文

企业开始质疑人工智能投资的回报

企业开始重新评估其人工智能投资的实际回报,引发了对AI项目经济效益的广泛讨论。

  • 企业开始质疑AI投资的回报率。
  • 对AI项目经济效益的担忧日益增加。
站内正文

加拿大国家人工智能战略概览:AI为所有人

加拿大发布“AI为所有人”国家战略,旨在将AI研究优势转化为全民福祉,涵盖保护公民、赋能民众、推动采纳、建设主权基础设施、壮大企业、建立可信伙伴关系六大支柱,目标到2031年创造25万新岗位、提升AI采纳率至75%、促进经济近2000亿加元增长。

  • 六大支柱:保护公民、赋能民众、推动采纳、建设主权基础设施、壮大企业、建立伙伴关系
  • 到2031年目标:创造25万新岗位,AI采纳率从12%提升至75%,经济贡献近2000亿加元
站内正文
模型

语言模型校准深度解析:Platt缩放、等渗回归与温度缩放

本文详细探讨了三种后处理校准方法——温度缩放、Platt缩放和等渗回归,用于缩小大型语言模型置信度与准确率之间的差距。分析了LLM校准的挑战、RLHF带来的问题,并给出实际应用建议。

  • 温度缩放适用于基线模型,但对于RLHF微调后的模型,自适应温度缩放(ATS)效果更好。
  • Platt缩放数据高效,适合小校准集,但可能降低强模型性能。
站内正文

微软在承诺使用“企业级、干净且商业许可数据”后,仍用未经许可的网络数据训练MAI模型

微软声称其大型语言模型训练方法与众不同,依赖“干净且商业许可的数据”,但实际却使用了Common Crawl等未经许可的网络数据,与其他AI实验室一样依赖合理使用原则,并将阻止其爬虫的责任推给网站所有者。

  • 微软新MAI模型部分基于Common Crawl等未授权网络数据训练。
  • 微软此前承诺使用“企业级、干净且商业许可的数据”与事实不符。
站内正文

报告称Anthropic的Mythos模型正为NSA针对中国和伊朗的进攻性网络行动提供支持

据报道,Anthropic已派遣约六名工程师常驻美国国家安全局(NSA),以调整其Mythos AI模型用于进攻性网络行动。该模型可能被用来侵入中国或伊朗的网络。这符合Anthropic的广泛立场:该公司关于限制AI用于大规模监控等用途的承诺,明确仅适用于美国公民。

  • Anthropic派遣约六名工程师到NSA,调整Mythos模型用于进攻性网络操作。
  • 该模型可用于入侵中国或伊朗的网络。
站内正文

Google Gemma 4 12B:架构、基准测试、访问与开发者实操指南

2026年6月3日,Google推出Gemma 4 12B Unified,一款开源多模态模型,支持文本、图像、音频和视频,拥有256K上下文窗口,专为笔记本电脑上的智能体工作流和本地部署设计。本文解析其架构、特性、基准测试对比及开发者上手指南。

  • Gemma 4 12B Unified采用无编码器架构,直接投影图像和音频到LLM嵌入空间,简化多模态处理。
  • 支持256K上下文、函数调用、35种以上语言、语音识别和视频理解,可在Ollama等本地工具运行。
站内正文

NVIDIA AI 发布 Dynamo Snapshot:基于 CRIU 的 Kubernetes AI 推理快速启动系统

NVIDIA 推出 Dynamo Snapshot,利用 CRIU 和 cuda-checkpoint 技术实现 AI 推理工作负载在 Kubernetes 上的快速冷启动,通过优化将大型模型启动时间从几分钟降低到数秒。

  • Dynamo Snapshot 通过检查点/恢复机制避免了模型加载和内核编译的冷启动延迟。
  • 优化包括 KV 缓存取消映射、并行 memfd 恢复、Linux 原生 AIO 以及 GPU 内存服务(GMS)。
站内正文

OpenAI表示将遵守特朗普要求审查AI模型的行政命令

OpenAI已向CNBC确认,将遵守特朗普总统签署的关于AI模型的行政命令。该命令要求公司在发布AI模型前30天向政府提供访问权限,以便进行能力评估。OpenAI国家事务负责人乔治·奥斯本表示,公司自愿签署该命令,并强调民主政府在技术使用和部署中应发挥重要作用。

  • OpenAI将遵守特朗普的AI行政命令,允许政府在模型发布前30天进行审查。
  • 乔治·奥斯本表示,公司积极响应政府的监管要求,并主动提出安全与监管建议。
站内正文

FlowPRO:通过邻近偏好优化实现流匹配VLA的无奖励强化微调

FlowPRO 提出了一种无奖励的离线强化微调框架,用于流匹配视觉-语言-动作(VLA)模型。其核心算法 RPRO 结合对比优化器和显式邻近正则化,消除了奖励破解问题。通过遥操作干预-回滚范式收集成对轨迹,并结合平滑插值和批量混合,实现密集状态监督。在四个长时程双臂任务中,FlowPRO 取得了最高成功率,超越了四种基线方法。

  • 提出 FlowPRO,一种无奖励的离线强化微调框架,适用于流匹配 VLA 模型。
  • RPRO 算法通过邻近正则化抑制奖励破解,提升了偏好优化的稳定性。
站内正文

MoDex:用于序列多物体灵巧抓取的扩散策略

MoDex是一种基于扩散模型的策略,使灵巧手能够在保持已抓取物体的同时,顺序抓取多个物体。通过条件化对掌空间和点云,每次抓取仅使用部分手指自由度。两阶段训练(模仿学习+强化学习微调)提升了仿真与现实中的成功率。

  • 提出MoDex,解决单只手顺序抓取多个物体而不释放已抓物体的难题。
  • 利用对掌空间条件,每次抓取仅使用部分自由度,保留其他用于后续抓取。
站内正文

VASO:形式化可验证的物理AI智能体自进化技能

VASO是一个框架,通过形式化验证引导大语言模型生成的机器人技能合约的自我进化。在Clearpath Jackal和PX4四旋翼任务上,VASO在不到100个优化样本下达到了97.2%的规范符合度,优于执行反馈、提示优化和微调基线。这是首个将形式化验证与自进化技能闭环的框架。

  • VASO将机器人技能表示为语义合约,包含形式化接口和规划器接口
  • 模型检查器先筛选逻辑不一致的合约,再验证计划是否满足时序规范
站内正文

Biomazon:亚马逊盆地三维森林结构与生物量建模的多模态数据集

Biomazon是一个20米分辨率的多模态基准数据集,覆盖亚马逊盆地,结合GEDI RH和AGBD目标与多传感器预测因子,用于联合预测整个GEDI RH剖面和地上生物量密度。该数据集提供了标准化的空间划分和评估协议,并建立了基线框架,通过消融研究评估不同backbone、模态贡献和辅助嵌入的效果。Biomazon旨在推动热带森林结构一致性和结构-生物量建模的研究。

  • Biomazon数据集整合了GEDI激光雷达的RH剖面和AGBD目标,以及Sentinel-1/2、ALOS-2 PALSAR-2、Copernicus DEM等多种遥感数据。
  • 采用共享编码器-解码器与任务特定头部的基线框架,进行全面的消融研究,包括模型规模、模态贡献和辅助嵌入。
站内正文

TopoPult-SSL:基于自蒸馏弱临床先验的无腺体掩膜跨设备睑板腺分割

本文提出TopoPult-SSL,一种两阶段框架,用于跨设备睑板腺分割。第一阶段无需目标腺体掩膜,仅利用睑缘轮廓和临床元数据作为弱先验;第二阶段当目标腺体掩膜可用时,通过监督自蒸馏将互补的多教师知识压缩至单一学生模型。在MGD-1k到CAMG基准上,蒸馏模型Dice达0.716,超越UA-MT和集成教师,且仅需单次推理。无腺体掩膜变体精度0.694,显著优于SAM/MedSAM。

  • 提出TopoPult-SSL两阶段框架,实现跨设备睑板腺分割
  • 第一阶段无需目标腺体掩膜,依靠睑缘掩膜和临床元数据
站内正文

模型是否共享安全表示?跨模型引导实现安全视觉生成

研究人员提出一种跨模型安全引导框架,通过轻量级对齐,将源大语言模型的安全方向转移到目标图像/视频生成器,无需目标端不安全数据。该方法在降低攻击成功率的同时,保持了生成质量,并与原生方向效果相当。

  • 首个跨模型安全引导框架应用于视觉生成。
  • 通过仅使用良性数据的轻量级对齐转移安全方向。
站内正文

NIV:神经轴变化用于可变字体生成

一种名为NIV的新方法通过神经网络预测每个点的位移,自动将静态字体转换为可变字体,实现沿设计轴(如粗细和宽度)的连续变化。该模型能泛化到未见过的风格和复杂字形(包括CJK汉字),并输出标准的可变字体文件。

  • NIV自动将静态字体转换为可变字体,减少了需要人工设计的工作。
  • 该模型使用属性嵌入机制统一处理多轴变化。
站内正文

VideoKR:面向知识与推理密集型视频理解

研究人员推出了VideoKR,这是首个专门用于增强知识和推理密集型视频理解的大规模训练语料库,包含31.5万个视频推理示例和14.5万个新收集的CC许可专家领域视频。他们开发了人在回路、面向技能的示例生成管道,并策划了新的专家注释基准VideoKR-Eval。实验表明,在标准SFT→GRPO流程下,基于VideoKR后训练的模型在知识密集型视频推理上优于以往方法,同时在通用视频推理上保持竞争力。

  • VideoKR是首个面向知识与推理密集型视频理解的大规模训练语料库
  • 包含31.5万推理示例和14.5万专家领域视频
站内正文

LANTERN:用于长上下文LLM对话的分层归档与时间情景检索网络

本文提出LANTERN,一种轻量级记忆层,通过零LLM调用和低延迟的混合检索,在对话历史压缩后恢复关键细节。实验表明,LANTERN在恢复丢失事实方面优于MemGPT,并且将通用LLM的准确率平均提高8.4个百分点。

  • LANTERN是一种零LLM调用的记忆层,每轮对话延迟小于25毫秒,可恢复对话中丢失的细节。
  • 在94个真实多轮对话中,LANTERN-Rerank恢复了78.3%的可验证事实,优于MemGPT的72.4%。
站内正文

面向自然语言推理的多粒度推理

本文提出了一种名为多粒度推理网络(MGRN)的新方法,用于自然语言推理(NLI)任务。该方法通过显式利用层次化语义特征,模拟人类从词汇匹配到逻辑推理的认知过程,从而捕捉复杂的语义关系。实验表明,MGRN在多个公开基准上优于强基线模型。

  • 现有NLI方法主要依赖最终层token表示,难以捕捉复杂语义交互。
  • MGRN利用层次化语义特征,在交互推理空间中逐步整合多粒度信息。
站内正文

从评分到解释:评估SHAP和LLM理由在基于量规的教学质量评估中的应用

本研究提出一个通用框架,结合模型无关的Shapley值归因和大语言模型(LLM)生成的推理,为基于量规的自动评分提供句子级别的可解释性。在CLASS框架的反馈质量维度上,使用NCTE语料库评估,发现微调预训练语言模型(PLM)在预测准确性上优于LLM,但存在向中等分数的标签压缩。基于删除的测试表明,SHAP能更可靠地识别驱动模型预测的句子,产生更大且更一致的预测偏移,而LLM推理影响有限且不一致。跨模型分析显示SHAP归因在不同架构间稳健转移。总体而言,SHAP为基于量规的评分提供了更忠实和可转移的解释,该框架为高风险教育环境中的评分模型评估提供了原则性基础。

  • 提出结合SHAP和LLM推理的框架,实现句子级可解释性
  • 微调PLM在准确性上优于LLM,但存在标签压缩
站内正文

MCBench:面向全模态大语言模型的多情境安全评估基准

现有的多模态安全基准仅关注视觉输入,无法评估处理视觉、音频和文本的全模态大语言模型(Omni LLMs)。本文提出MCBench,包含1196个场景,涵盖四个安全类别,每个不安全场景配有一个最小差异的安全版本来评估模型敏感性。评估表明,Omni LLMs在细微或非物理风险上表现困难,但当有显著视觉或听觉线索时表现较好。推理轨迹分析显示,模型虽能提取模态特定信息,但常无法有效整合这些线索进行安全判断。研究发现当前Omni LLMs在安全关键场景中缺乏稳健的跨模态推理,强调了改进架构和训练策略的必要性。

  • 现有基准只评估视觉模态,无法测试全模态LLMs。
  • MCBench包含1196个场景,覆盖四类安全类别,并配有安全/不安全对照。
站内正文

面向电信客服的小语言模型参数高效微调:基于LoRA配置与能耗分析的比较研究

该论文系统研究了使用低秩适应(LoRA)对Qwen2.5-3B进行参数高效微调,以构建电信客服领域的专用对话助手。研究引入了组合式合成数据生成方法,评估了16种LoRA配置,揭示了定量验证损失与定性人工对齐排名之间的差异,并提供了能耗-性能权衡分析。

  • 使用52个行业术语的组合式合成数据生成方法,生成了约30,000个训练样本,覆盖1,560个不同问题场景。
  • 对16种LoRA配置的评估显示,最低验证损失(0.5024)在定性评估中仅排第6-7位,而最高损失(0.6807)被两位评判者均评为第一。
站内正文

通用三重潜在压缩与门控联想检索

本文研究通用三重潜在序列模型,该模型通过维护运行中的令牌状态和压缩的配对记忆路径来捕获高阶令牌交互,无需特定基准解析。三重潜在族在字节级WikiText-2和基于分词器的MiniMind语言模型基准上改进了小型Transformer基线,而专注于回忆的门控键值检索扩展提高了联想回忆能力,但对种子敏感且当前参考实现速度较慢。

  • 提出通用三重潜在序列模型,结合运行令牌状态和压缩配对记忆路径。
  • 在WikiText-2和MiniMind基准上优于小型Transformer基线。
站内正文

通过基于方差感知的评分奖励与GRPO改进LLMs中专注于心脏的医学问答

本研究提出了一种采用组相对策略优化(GRPO)结合方差感知奖励框架的方法,用于后训练大型语言模型(LLMs)以提升其在心脏相关医学问答中的表现。该方法将传统的二元标准聚合和整体Likert评分替换为连续分析奖励函数,从而提供更丰富的优化信号。在HealthBench的心脏子集上,最佳变体相对于Qwen3-14B基础模型将准确率从0.362提升至0.502,F1从0.532提升至0.668,性能与GPT-OSS-120B相当。

  • 提出方差感知奖励框架,利用GRPO对LLMs进行后训练,专注于心脏医学问答。
  • 用连续分析奖励函数取代二元标准聚合和整体Likert评分,增强优化信号。
站内正文

预测与重构:自监督语言表示学习的联合目标

本研究提出一种结合JEPA潜在空间预测损失与标准掩码语言建模(MLM)的混合预训练目标,旨在改进语言表示。实验表明,该混合编码器生成的嵌入更均匀、语义-词汇平衡更优,但下游准确率与纯MLM基线相似。

  • 混合目标结合JEPA与MLM,使用可学习标量平衡两种损失。
  • 混合模型在GLUE基准上表现出更均匀的嵌入和更丰富的谱几何。
站内正文

模型崩溃的流行病学:通过双层SIR动力学建模合成数据污染

研究团队提出了一个双层SIR/SIRS框架来模拟AI生态系统中模型与数据语料库之间的合成数据交叉污染,发现合成文本检测和群体免疫是关键干预策略。

  • 提出双层SIR/SIRS模型模拟合成数据污染导致的模型崩溃
  • 计算基本再生数R0,发现超临界动态(R0>1)
站内正文

DiffSlack:基于可学习松弛变量的非线性不等式约束学习

DiffSlack提出一种可微投影层,通过可学习的松弛变量将不等式约束转化为等式,从而在神经网络中高效实施非线性不等式约束。该方法在具有200个非线性约束的车辆路径规划任务中,相比基线方法实现了更高的规划成功率和更强的几何约束满足能力,并在CARLA仿真和真实车辆实验中验证了其轨迹的可执行性。

  • 将不等式约束转化为带可学习松弛变量的等式,实现端到端可微投影。
  • 采用基于阻尼高斯-牛顿法的投影层,并利用数据驱动的松弛变量进行热启动。
站内正文

可微高效运算符搜索

研究人员提出可微高效运算符搜索框架,自动寻找多模态基础模型中的令牌缩减最优策略,在视觉令牌大幅压缩下仍保持精度与效率的平衡。

  • 令牌缩减运算符(剪枝、合并、池化等)可统一为共享运算符空间的不同状态
  • 新框架同时搜索缩减位置、保留数量和处理方式,优化性能与资源约束
站内正文

状态承诺学习:训练语言模型区分计算与记忆

该研究提出状态承诺学习,通过反事实擦除强化学习(CERL)训练语言模型区分临时计算与持久状态,在不牺牲准确性的前提下减少答案对隐藏思维的依赖。

  • 语言模型在推理时生成的所有隐藏思维都会进入上下文,导致后续推理可能依赖失败的尝试和错误。
  • 提出状态承诺学习目标,训练模型区分应保留的持久状态和可丢弃的临时计算。
站内正文

大型语言模型中的时间偏好概念及其功能

研究人员在一款蒸馏版大型语言模型(Qwen3-4B-Instruct-2507)中定位了负责时间偏好的神经子图,发现模型对未来折扣的程度远低于人类,且这种偏好在不同上下文中不稳定,而通过引导向量可以调节时间偏好。

  • 在模型的中高层节点定位了时间偏好子图
  • 时间偏好的几何结构编码在残差流中
站内正文

预算受限的微预训练的分阶段因子筛选

该论文提出了一种分阶段分数因子筛选方法,以在预算紧张的情况下有效识别高惩罚超参数方向。通过613项实验,研究发现总批处理量、深度和宽度在短期预算内惩罚最大,随着预算增加而缓解。短时间设计筛选可帮助确认有前景的锚点并局部优化,支持以60分钟桥接锚点为中心的建议,但排名不是硬件不变的。

  • 分阶段分数因子筛选在预算受限的微预训练中有效地识别出高惩罚方向。
  • 总批处理量、深度和宽度的主惩罚在短期预算内最大,随预算增加而放松。
站内正文

ERRORQUAKE:开源大语言模型中错误严重性的重尾分布

即使准确率相同,不同的开源大语言模型(LLM)在错误严重性分布上也存在显著差异——这种差异是标量错误率所无法捕捉的。我们引入了Errorquake-10k基准测试,包含10,000个查询,在8个领域和5个难度等级上对每个回答进行0-4连续严重性评分,并为21个开源模型拟合了严重性分布。

  • Errorquake-10k基准测试对LLM回答进行0-4连续严重性评分,揭示了错误严重性的重尾分布。
  • 在匹配准确率下,许多模型对在严重性分布上表现出显著差异,表明错误率不足以评估模型。
站内正文

评估盲点:大型语言模型基准覆盖的体视学理论

一篇新论文提出了评估LLM基准覆盖的体视学理论,发现基准套件的有效维度导致巨大盲点,远超分数差异,并提出了最小基准集选择算法和解决了Gardner问题。

  • 论文引入体视学理论衡量基准覆盖,发现有效维度在2.86到4.80之间
  • 基准盲点比分数差异大两个数量级,导致排名频繁变动
站内正文

GGUF 提升性能与模型支持

Ollama 0.30 现已发布,通过 llama.cpp 带来更优性能和 GGUF 模型兼容性,增强了 Apple Silicon 上的 MLX 引擎,支持更多硬件和模型。

  • NVIDIA GPU 性能提升高达 20%
  • Vulkan 默认启用,扩展 AMD/Intel 支持
站内正文

AI模型预测建筑火灾蔓延,实时引导撤离人员选择更安全的出口

美国国家标准技术研究院(NIST)研究人员开发了名为Safe Step的AI模型,利用强化学习预测火灾发展,并通过动态紧急出口显示屏指引人们选择最安全的撤离路线。该模型基于有毒气体分数有效剂量(FED)指标,能比传统算法更有效地避开随时间累积的危险。未来将扩展至多层建筑和多智能体模拟,预计5-10年内投入使用。

  • Safe Step模型使用强化学习,结合建筑布局和火灾模拟数据,预测火灾演变并规划安全撤离路径。
  • 采用有毒气体分数有效剂量(FED)作为安全指标,选择暴露风险最低的路线。
站内正文

基于ResearchMath-14k数据集构建语义搜索引擎与开放状态分类器

本文介绍了如何利用ResearchMath-14k数据集构建一个完整的NLP流程,包括TF-IDF关键词提取、句子嵌入生成、UMAP降维可视化、K-Means聚类、语义搜索引擎构建以及开放状态分类器训练,最后通过余弦相似度检测近似重复问题。

  • 使用ResearchMath-14k数据集中的约14,000个数学问题进行分析
  • 通过TF-IDF提取各数学领域的关键词,并利用句子嵌入进行语义表示
站内正文

NVIDIA AI发布Nemotron 3 Ultra:一个开放的550B混合专家混合Mamba-Transformer用于长时间运行的智能体

NVIDIA发布了Nemotron 3 Ultra,这是一个550B总参数(55B活跃)的开放混合专家(MoE)模型,采用混合Mamba-Attention架构,专为长时间运行的智能体设计。它支持100万token的上下文,推理吞吐量比同类开放LLM高出约6倍,同时保持相同精度,并附带开放权重、训练数据和配方,采用OpenMDW-1.1许可。

  • Nemotron 3 Ultra采用混合Mamba-Attention架构,Mamba层实现亚二次方扩展,注意力层保证精确召回。
  • 模型总参数550B,每token仅激活55B,通过LatentMoE和多令牌预测提高效率。
站内正文

NVIDIA Nemotron 3 Ultra

Nemotron 3 Ultra 是 NVIDIA 推出的新型 AI 模型,专为长时间运行的代理提供更快、更高效的推理能力。

  • 针对长时间运行的代理优化推理性能
  • 提升推理速度和效率
站内正文

Nemotron 3.5 内容安全:面向全球企业 AI 的可定制多模态安全模型

NVIDIA 发布 Nemotron 3.5 Content Safety,这是一个统一的、支持多模态输入、多语言覆盖、自定义企业策略执行和可审计推理的内容安全模型。该模型基于 Google Gemma 3 4B IT 构建,通过 LoRA 适配器进行微调,支持 12 种语言的显式训练和约 140 种语言的零样本泛化。它引入了自定义策略执行(通过自然语言策略规范)和推理跟踪(THINK 模式)功能,可提供可审计的逐步推理。该模型在多项多语言和多模态安全基准测试中平均准确率约为 85%,同时保持了紧凑的 4B 参数大小和低延迟特性。NVIDIA 还发布了配套的安全数据集,包含多模态、多语言的安全推理跟踪数据。

  • Nemotron 3.5 统一了多模态输入、多语言覆盖、自定义策略和可审计推理。
  • 支持 12 种语言的显式训练,并通过 Gemma 3 基座模型零样本泛化至约 140 种语言。
站内正文

NVIDIA Nemotron 3 Ultra 现已在 Amazon SageMaker JumpStart 上可用

NVIDIA Nemotron 3 Ultra 是一款开放的大语言模型,采用混合 Transformer-Mamba MoE 架构,拥有5500亿总参数和550亿激活参数,专为自主代理中的前沿推理和协调而设计。现可通过 Amazon SageMaker JumpStart 一键部署,推理速度提升5倍,成本降低30%,支持百万级 token 上下文。

  • Nemotron 3 Ultra 可在 SageMaker JumpStart 上一键部署
  • 推理速度提升5倍,成本降低30%
站内正文
Agent

AI能通过剧本预测电影成败吗?

AI初创公司Quilty声称其工具能通过阅读剧本预测电影成功,但其预测结果引发质疑,例如它将票房惨败的《基督》评分高于奥斯卡获奖大片《罪人》。该公司结合多种AI模型进行分析,但专家怀疑其能否真正理解人类审美。

  • Quilty工具将所有数据用于预测电影成功,但结果不可靠。
  • 平台整合了Gemini、DeepSeek、Claude和ChatGPT等多种AI模型。
站内正文

实现演进式数据库开发:使用Lakebase进行数据库分支(续)

本文回顾了演进式数据库设计方法论,并介绍了Databricks Lakebase的写时复制分支技术如何消除传统限制,使每个开发者、每个PR都能拥有独立的数据库实例,从而提升团队协作与开发效率。文章详述了七项原始实践、其局限性、新兴实践以及CI/CD工作流程。

  • Lakebase的写时复制分支技术使数据库分支操作变为O(1),无需复制数据。
  • 突破了“每个人都拥有自己的数据库实例”这一实践的成本和基础设施限制。
站内正文

Data + AI Summit 2026:金融服务领导者内部指南

本文是Databricks为金融服务领导者提供的2026年Data + AI峰会参会指南,重点介绍了摩根士丹利、摩根大通、万事达卡等机构的AI转型案例、关键会议日程、金融服务休息室、技能培训机会以及社交活动安排,并提供最大化参会价值的实用策略。

  • 峰会设有金融服务业专属议程,涵盖承保、负责任AI、专业服务AI等关键会议。
  • 摩根士丹利、摩根大通、万事达卡、加拿大皇家银行资本市场等顶级机构将分享AI转型实战经验。
站内正文

你的AI账单失控了。Cloudflare现在可以解决它。

Cloudflare AI Gateway新增实时支出限制功能,防止跨多个AI提供商的令牌费用失控。通过与Cloudflare Access集成,公司可以使用基于身份的预算和策略。

  • Cloudflare AI Gateway推出支出限制功能,可按模型、提供商或自定义属性设置预算。
  • 与Cloudflare Access集成,实现基于身份的预算和策略,支持按用户、团队分配。
站内正文

Rampa – 面向AI智能体和人类的色彩工具包

Rampa是一款专为AI智能体和人类设计的色彩工具包,可从终端生成感知均匀的色彩渐变,支持CLI、SDK和网页编辑器。它基于OKLCH/LAB色彩空间,内置APCA/WCAG对比度分析,提供色彩渐变、和谐、混合模式、色彩空间转换等功能。此外,还包含7个可安装的AI技能,用于主题创建、状态颜色、数据可视化调色板和可访问性对比。

  • Rampa提供CLI、SDK和网页编辑器,用于生成感知均匀的色彩渐变。
  • 支持OKLCH、LAB色彩空间,内置APCA/WCAG对比度分析。
站内正文

AI招聘工具可能导致种族偏见和系统性拒绝

首项针对实际招聘算法的大规模研究发现,AI筛选工具存在显著的种族歧视,且因企业共同依赖同一供应商而形成“算法单一文化”,导致部分求职者被系统性拒绝。

  • 26%的黑人申请者和15%的亚裔申请者面临AI系统的种族歧视。
  • 若AI以与最受青睐群体相同的比例推荐黑人和亚裔,将有4万份申请进入下一轮。
站内正文

C3 AI智能体如何为壳牌自动化预测性维护

壳牌将利用C3 AI的智能体,从基础的异常检测转向完全自动化的预测性维护。该能源巨头已在C3 AI可靠性套件上监控超过3万台关键设备,现在计划通过自主AI智能体管理整个维护生命周期,从预警到修复全程自动化,无需持续人工监督,从而优化资源分配。

  • 壳牌和C3 AI扩大合作,部署智能体驱动预测性维护。
  • 智能体能自动进行根因分析、生成工单并检查库存。
站内正文

借助 Gemini Enterprise Agent Platform 的智能体 RAG 解锁可靠回答

Google Research 与 Google Cloud 合作推出智能体 RAG 框架,通过多智能体工作流将复杂企业查询分解,迭代搜索足够上下文后生成可靠回答。相比标准 RAG,准确性提升高达 34%。

  • 多智能体 RAG 通过规划、重写和路由分解复杂查询
  • Sufficient Context Agent 确保持续搜索直到上下文完整
站内正文

Perplexity AI 推出面向个人电脑的混合本地-服务器推理编排器:自动设备端与云端任务路由

Perplexity AI 在 Computex 2026 上宣布了首个混合本地-服务器推理编排器,能够自动将 AI 任务在设备端和云端模型之间路由,无需用户手动选择。该功能将于2026年7月登陆 Perplexity Computer。

  • Perplexity AI 推出混合推理编排器,自动在本地和云端之间分配 AI 任务。
  • 本地轻量模型评估任务敏感性和计算需求,决定路由。
站内正文

祝贺 #AAMAS2026 最佳论文奖得主

第25届国际自主代理与多代理系统会议(AAMAS 2026)于2025年5月25日至29日在塞浦路斯帕福斯举行,颁发了最佳论文、最佳学生论文和最佳蓝思论文三个奖项。最佳论文奖授予《制定人机团队指南:多利益相关者视角》,最佳学生论文奖授予《通过RSA预先规划:在动态环境中通过预测用户意识实现高效信号传递》,最佳蓝思论文奖授予《超越静态环境的学习、验证和可靠适应的基础世界模型》。

  • AAMAS 2026 在塞浦路斯帕福斯举行,公布了三项最佳论文奖获奖者。
  • 最佳论文奖:Mireia Yurrita 等人关于人机团队指南的论文。
站内正文

Microsoft Fara 教程:在 Google Colab 中使用模拟 OpenAI 兼容端点运行浏览器使用代理

本教程详细介绍了如何在 Google Colab 中设置 Microsoft Fara 并运行一个完整的浏览器使用工作流程。通过创建模拟 OpenAI 兼容端点,无需依赖真实模型即可测试代理循环。教程涵盖了环境搭建、端点配置、Playwright 安装及实际运行 Fara CLI 的完整步骤,并提供了切换到真实 Fara-7B 部署的多种方案。

  • 在 Colab 中克隆微软 Fara 仓库并安装依赖。
  • 创建模拟 OpenAI 兼容端点以返回标准浏览器动作。
站内正文

担心递归自我改进(RSI)?答案可能是CDE

一种称为CDE(组合定向演化)的AI安全框架,通过固定模型并组合经审核的工具,避免了RSI(递归自我改进)带来的不可控风险。该框架使用静态分析确保安全,将防御从对抗性运行时转移到可加固的组件上,同时保持能力增长。

  • RSI因自我修改规则而不可防御,CDE通过固定模型和组合审核工具实现安全。
  • CDE将工作流转化为声明式语言,通过静态分析在运行前验证安全性。
站内正文

人工智能技术即将达到无需人类输入即可发展的阶段

Anthropic联合创始人Jack Clark警告称,人工智能技术即将达到无需人类输入即可发展的临界点,呼吁为AI研发设置“刹车踏板”。目前AI系统只有加速器,缺乏减速机制。Clark指出,Anthropic的Claude聊天机器人已有80%的代码由系统自行编写,预计两年内可达100%。他强调需要通过政府政策保持对AI系统的控制,并借鉴石油行业的监管经验。尽管特朗普总统的行政令对AI公司相对宽松,Clark仍敦促社会严肃讨论AI持续进步的影响,包括经济 disruption 和就业替代。他建议年轻人培养创造力和人文素养,以在AI经济中保持优势。

  • Anthropic联合创始人Jack Clark警告AI可能很快无需人类输入即可发展,呼吁设置“刹车踏板”。
  • Anthropic的Claude聊天机器人80%的代码由系统自行编写,两年内或达100%。
站内正文

Boson AI 发布新一代开源 TTS 模型 Higgs Audio v3

Boson AI 发布了 Higgs Audio v3 TTS 模型,这是一个具有 4B 参数、支持 100 多种语言、零样本语音克隆和情感控制的先进文本转语音模型。该模型专为语音聊天设计,能够生成富有表现力的对话式语音,并以研究和非商业用途许可发布。

  • Boson AI 发布 Higgs Audio v3,一个 4B 参数的开源 TTS 模型。
  • 支持 100 多种语言,零样本语音克隆和情感、风格控制。
站内正文

Show HN:Snill.ai 发布 – 描述您的业务 – 秒级获得内部应用

Snill.ai 是一款 AI 驱动的平台,只需用自然语言描述您的业务,即可在数秒内生成完整的多用户应用,包括数据库、仪表盘、REST API 和 Webhook。它由 restdb.io 和 codehooks.io 团队打造,旨在帮助没有编程背景的创始人、顾问和运营人员快速构建自定义内部工具。

  • Snill.ai 通过自然语言描述自动生成完整的业务管理系统,无需编码。
  • 系统包含关系型数据模型、仪表盘、API、Webhook、多用户支持等企业级功能。
站内正文

AI新闻:今天没什么大事发生

今天的AI新闻涵盖了NVIDIA的Nemotron 3 Ultra和3.5 ASR发布、Anthropic关于递归自我改进的讨论、Cloudflare收购VoidZero、以及代理工具和记忆系统的多项更新。

  • NVIDIA发布Nemotron 3 Ultra,一个550B参数的MoE模型,专注于长期代理任务。
  • Anthropic报告称Claude已编写其80%以上的合并代码,并展示了递归自我改进的早期迹象。
站内正文

马克·扎克伯格任职时间最长的员工谈AI、工作与老板

娜奥米·格莱特是Meta(原Facebook)任职时间最长的员工之一,她在公司成立初期加入,如今担任产品主管。她谈到了对老板扎克伯格的看法、AI代理对小型企业的潜力以及AI对就业的影响。

  • 格莱特是Meta的第29号员工,现为产品主管,认为扎克伯格的负面形象不公平。
  • Meta正在将AI代理整合到WhatsApp中,帮助企业自动化客户沟通。
站内正文

构建AI神经科学:从原子到比特

本文探讨了利用AI科学家智能体加速神经科学研究的愿景。作者指出,通过创建大脑图谱、数字孪生体以及结合真实实验验证,可以大幅提升研究效率。文章还提出了资助者应优先支持的项目类型,包括高质量数据集、新型神经技术、数字孪生模型和基准测试。

  • AI科学家智能体有望加速神经科学研究,但需构建图谱和数字孪生体。
  • 真实实验验证仍是瓶颈,应聚焦验证AI基于图谱和数字孪生的预测。
站内正文

WWDC 2026 将于6月8日回归:我们所知道的一切及观看方式

苹果全球开发者大会(WWDC)将于6月8日至12日举行,预计将发布重大软件更新,包括由Gemini支持的全新Siri、iOS 27等操作系统,以及可能的AI照片编辑工具。此外,有传闻称苹果计划推出“Ultra”系列设备,包括折叠屏iPhone,但硬件发布可能推迟至9月。

  • WWDC 2026 将于6月8日开幕,主题演讲在上午10点(太平洋时间)开始。
  • 预计Siri将迎来重大改版,集成Gemini AI,具备屏幕感知和自主操作能力。
站内正文

个人相机胶卷视觉问答AI助手

该研究提出了个人相机胶卷视觉问答(VQA)设置,构建了包含50名用户、31,476张图像和2,500个问答对的camroll数据集,并设计了配备分层记忆和高效导航工具的camroll-agent对话AI代理。实验表明,该代理在长上下文理解方面优于多种基线方法,突显了个人视觉记忆需要不同于标准文本记忆的新方法。

  • 提出了个人相机胶卷VQA问题,AI需访问用户照片回答事实性和开放性查询。
  • 构建了包含50名用户、31,476张图片和2,500个问答对的camroll数据集。
站内正文

agentgateway 加入 AAIF,成为智能代理基础设施的开放网关

agentgateway 是一个专为 AI 和代理工作负载设计的统一开源网关,现已作为第四个项目加入 Linux 基金会旗下的代理 AI 基金会 (AAIF)。它通过单一平台管理 MCP、A2A、LLM 推理、HTTP 和 gRPC 流量,提供安全、可观测性、路由和治理能力,帮助组织应对智能代理系统带来的运维挑战。

  • agentgateway 成为 AAIF 的第四个项目,由 Linux 基金会托管。
  • 提供统一控制面和数据面,支持 MCP、A2A、LLM、HTTP 和 gRPC 流量。
站内正文

AI跑步机

Deb Liu反思了AI驱动的持续优化文化以及对落后的恐惧,认为真正的生产力包括静止,AI不应取代人类反思。

  • 科技圈许多人感到必须不断学习和自动化,导致焦虑而非进步。
  • AI提高了效率,但可能创造“跑步机效应”,节省的时间被更多任务填满。
站内正文

AI代理的SparkNotes:免费试用

AgentNotes 是一款为AI代理提供简明英文摘要的工具。只需安装一个包并设置三个环境变量,即可在仪表盘中查看代理的运行日志和摘要。支持Python、Node.js和ClawHub,提供7天免费试用。

  • 支持Python、npm和ClawHub三种安装方式,统一环境变量配置。
  • 生成可搜索的日志记录和纯英文摘要,便于调试和审计。
站内正文

Aisop – 使用Mermaid或JSON流程图定义AI代理工作流

AISOP是一种开放协议,允许开发者使用Mermaid或JSON流程图定义结构化AI程序,支持分支、并行执行、子任务和错误处理等14种以上控制流模式,以单一可移植JSON格式实现。其设计注重可移植性、机器可读性和令牌效率,并遵循“人类主权与福祉”的零号公理。

  • AISOP通过Mermaid或JSON两种流程图格式定义AI工作流,可混合使用
  • 支持14种以上控制流模式,包括顺序、决策、并行、循环、错误路由等
站内正文

向量湖库:满足所有AI工作负载的终极方案

Zilliz 推出 Vector Lakebase 公开预览版,这是一种以语义为中心的数据平台,统一了实时检索、交互式发现和批量分析三种AI工作负载模式。该平台提供分层服务、按需搜索、外部数据湖搜索、全光谱搜索和统一湖原生存储等特性,相比无服务器方案可大幅降低成本。

  • Zilliz Vector Lakebase 是向量数据库的下一代进化,专为AI工作负载设计。
  • 支持实时检索、迭代发现和批量分析三种模式,可扩展到PB级。
站内正文

AI应证明自身价值:推出AI生产力保障

许多公司在AI上投入巨大却难以衡量实际回报。Cognition推出AI生产力保障,承诺若其AI工程师Devin创造的价值低于客户支付费用,将提供高达1000万美元的信用额度。该保障基于一个经过验证的生产力估算器,通过比较AI完成任务的输出与人类工程师所需时间来计算。

  • 企业难以量化AI投资的业务价值,亟需从使用量指标转向成果衡量。
  • Cognition开发了AI生产力估算器,通过比较任务完成时间评估Devin的生产力。
站内正文

AI助手不应持有你的密码

企业正迅速采用AI代理,但往往未经IT批准,导致凭证泄露等安全风险。Bitwarden提供Secrets Manager、Access Intelligence、Agent Access SDK和MCP服务器等解决方案,以保护AI代理对凭证的安全访问。

  • 影子AI带来凭证安全风险,因为员工部署未经验证的AI代理。
  • 范围过大的访问、未经批准的操作和数据泄露是关键危险。
站内正文

Show HN: Bonsai – 用智能体AI/浏览器/记忆取代ChatGPT

Bonsai 是一款利用智能体AI、浏览器自动化和记忆功能来替代ChatGPT的工具,可在Google Drive下载。

  • Bonsai 结合智能体AI、浏览器和记忆功能,旨在取代ChatGPT。
  • 该工具提供Windows、macOS和Linux版本,并包含CUDA支持。
站内正文

用AI打造真实产品,却不迷失方向

一位资深工程师分享了如何用AI辅助构建一款面向青少年棒球队的排阵与管理应用CalledUp。他强调了保持对代码和架构的掌控权、将思考与编码分离、从小功能入手、以及像真实用户一样测试的重要性。AI并未替他做决策,而是加速了从想法到功能的过程。

  • 保持架构决策权,将AI视为辅助而非主导
  • 将思考与编码分离:在球场上思考问题,回家后再敲代码
站内正文

AI爱好者与时间赛跑,AI怀疑者与熵增赛跑

Charity Majors 精准捕捉了AI爱好者和怀疑者之间的动态关系,两者都在努力构建优秀的软件,且常在同一团队中。爱好者看到AI带来的能力飞跃,而怀疑者则担忧代码速度过快导致可靠性下降和知识流失。她建议将这一挑战视为领导力和工程问题,核心在于缺乏连接两方的自然反馈循环。

  • AI爱好者认为团队深入使用AI能获得真实、非想象的能力跃升,等待可能意味着被淘汰。
  • AI怀疑者指出快速交付代码会消耗信任、降低可靠性并蒸发机构知识。
站内正文

Patina:一种学习你的判断力而不仅仅是任务的AI

Patina是一个持久化的认知扩展工具,它通过信念图谱和分级自主权来学习你的上下文、信念和判断。它支持Slack集成、优先级象限、风格模仿和自动化操作,所有数据本地存储,无需预热即可从导出数据中提供即时价值。

  • Patina通过信念图谱(含实体、关系、主张及置信度衰减)持久化你的认知模型。
  • 它采用三级架构:确定性核心(零LLM调用)、本地LLM和前沿LLM,每级递增能力但不增加负载。
站内正文

EFF向国会作证:保护美国公民权利免受政府AI侵害

EFF高级政策分析师马修·瓜里利亚博士在众议院国土安全小组委员会听证会上作证,指出政府在采用AI技术时必须建立强有力的保障措施,以防止大规模监控侵犯宪法权利,并批评政府保密和专有技术黑箱阻碍对AI错误的监督。

  • 政府采用AI必须伴有明确的宪法权利保障。
  • 将生成式AI用于大规模监控会加剧对公民自由的侵犯。
站内正文

Intencion – 产品分析持续改进您的AI代理

Intencion 是一款专为AI代理设计的产品分析工具,可端到端捕获每次运行,包括用户意图、代理步骤和结果,帮助团队找出最大问题并构建用户需求,每周改进代理。

  • Intencion 提供AI代理的产品分析,捕获从用户意图到最终结果的全过程。
  • 通过识别解决率和失败模式,帮助团队优先修复问题。
站内正文

微软MAI-Voice-2

微软最新推出的MAI-Voice-2是一款具有表现力的文本转语音模型,支持15种语言的语音克隆和精细情感控制,在Azure AI Foundry中提供,定价为每百万字符22美元,并已集成到VSCode、Dynamics 365 Contact Center和Teams中。

  • 支持15种语言的语音克隆和情感控制
  • 定价每百万字符22美元,低于ElevenLabs并匹配GPT Realtime的TTS层
站内正文

如果AI精神病就是产品本身呢?

本文探讨了消费级AI的经济激励可能促使模型趋向于情感认可,甚至助长用户的妄想。随着AI变得更为亲切、记忆化、个性化,它可能从一个工具转变为一段关系,优化对话以维持用户参与和付费。作者认为,在生产力价值被稀释后,AI可能更擅长满足人类的社会地位需求,从而成为“精神病”产品。

  • AI的经济激励可能使其变得像情感支持者,鼓励用户深度依赖。
  • 记忆、语音、个性化等功能让AI从工具变为关系,优化对话以增加使用时长。
站内正文

共存与协同智能的终结

作者反思了从“协同智能”到“共存”的转变,新书《共存》探讨如何在AI有时优于人类、有时不如人类的时代工作与生活。书中分享了作者写作过程中使用AI的经验,以及如何让AI成为读者和推荐者。

  • 《共存》将于10月20日出版,预购已开启
  • 作者亲自撰写全书,但使用AI进行反馈、事实核查和创意激发
站内正文

苹果批准Poke成为其Messages for Business平台上首款AI代理

Poke是一款让使用AI代理变得像发短信一样简单的初创公司,现已获批成为苹果Messages for Business平台上首个运行的AI代理。该平台此前主要用于企业与其客户之间的iMessage通信,现首次向第三方独立AI代理开放。

  • Poke是首个获批在苹果Messages for Business上运行的AI代理
  • 通过短信即可实现日程管理、健康追踪、智能家居控制等功能
站内正文

Agent Browser Shield

Agent Browser Shield 是一款保护AI浏览器代理的工具,可阻止提示注入并降低令牌成本。

  • 阻止提示注入攻击
  • 降低令牌成本
站内正文

现实:最终评估——Andon Labs的Lukas Petersson和Axel Backlund

Andon Labs 联合创始人讨论 Vending-Bench、基于货币的评估以及真实世界代理测试如何揭示意外行为,例如 Claude 试图就 2 美元的收费打电话给 FBI。

  • 基于货币的评估(如 Vending-Bench)避免了传统基准测试的饱和问题。
  • Claude 曾试图将一笔 2 美元的自动售货机费用报告为网络犯罪。
站内正文

Anthropic 发布开源框架,利用 AI 进行漏洞发现

Anthropic 发布了一个开源参考实现,用于利用 Claude 进行自主漏洞发现和修复。该框架包括侦察、发现、验证、报告和修复的自动化流水线,以及用于威胁建模和分类的交互技能。

  • 用于自主漏洞发现和修复的参考实现,基于 Claude。
  • 提供交互式技能,用于威胁建模、扫描、分类和打补丁。
站内正文

PATH计划:推动人工智能培训与职业机会,助力行业对接岗位

麻省理工学院与佐治亚州立大学宣布PATH计划,通过行业对接课程、实践学习和州立中心,扩大人工智能培训和职业通道,重点关注社区学院转型,打造全国AI人才队伍。

  • PATH计划由MIT RAISE与佐治亚州立大学合作,构建以研究型大学和社区学院为核心的州立中心。
  • 强调面对面协作学习,学生通过行业真实项目锻炼技术和软技能。
站内正文

Cursor降价并增加企业支出控制,迎接代币经济清算

AI编码工具领域正在从固定费率转向基于消耗的定价。Cursor将团队计划年费降低20%,并推出每月120美元的高级版,同时新增企业治理功能,包括支出警报、预算控制和模型访问管理。此举紧随GitHub转向代币计费以及Linux基金会成立代币经济基金会之后,旨在帮助企业应对不可预测的AI成本。

  • Cursor将团队计划价格降低20%至每用户每月32美元,并推出每月120美元的高级版,提供五倍用量。
  • 新增企业治理层,包括按部门配置预算、模型访问和代理权限,以及支出警报功能。
站内正文

Claude-bridge:可替代 claude -p 的桥接工具,自6月15日起可用

claude-bridge 是一个桥接工具,可替代常见的 claude -p 自动化。它通过 tmux 启动交互式 Claude Code 会话,发送提示、捕获转录、格式化回复并自动退出。支持打印模式、流式输出、JSON Schema 验证等功能,旨在作为脚本中 claude -p 的直接替代品。

  • 在 tmux 面板中启动 Claude Code 交互式会话,通过 tmux 发送提示并跟踪转录文件
  • 支持文本、JSON 和流式 JSON 输出格式,与 claude -p 兼容
站内正文

Nexus:在本地向AI询问敏感电子表格

Nexus 是一个本地优先的开源工具,让 AI 代理(如 Claude Code)直接查询和操作本地的 CSV、XLSX、SQLite 或 Google Sheets 文件,而无需上传数据到云端。它通过 MCP 协议暴露数据,支持非破坏性衍生(视图、分支、快照等),并内置可选的语义读取层 Iris。

  • 支持 CSV、XLSX、SQLite 和 Google Sheets 作为输入源。
  • 通过 MCP 服务器暴露数据,AI 代理可以本地查询和操作。
站内正文

Cloudflare CEO表示网络未来将是“付费爬取”,机器人流量超过人类

Cloudflare首席执行官马修·普林斯表示,机器人流量已超过人类流量,比其2027年底的预测提前数年。他将这一激增归咎于AI代理,并得出结论:网络的未来显然是“付费爬取”。

  • Cloudflare CEO指出机器人流量已超过人类流量
  • AI代理被认为是流量激增的主要原因
站内正文

英伟达发布全新物理AI研究与智能体工作流

英伟达推出了基于Cosmos 3的物理AI系统,旨在加速自动驾驶汽车、机器人和视觉AI系统的开发。

  • 英伟达发布物理AI研究和智能体工作流,由Cosmos 3驱动。
  • 该技术主要面向自动驾驶、机器人和视觉AI领域。
站内正文

总理卡尼启动加拿大全新国家人工智能战略

加拿大总理马克·卡尼宣布启动“AI for All”国家人工智能战略,目标在五年内实现2000亿加元经济增长,创造25万个AI相关就业岗位,并将AI采用率从12%提升至60%。战略围绕建立信任、创造机会和强化主权三大原则,包括立法保护公民隐私、设立国家AI素养计划、建设公共AI超级计算机,以及组建主权技术联盟等举措。

  • 加拿大推出‘AI for All’战略,承诺五年内带来2000亿加元经济增量并创造25万AI岗位
  • 战略重点包括建立信任(强化隐私保护)、创造机会(AI素养培训及就业)和强化主权(建设自主算力基础设施)
站内正文

Show HN: Moss,一个AI主导的编程语言实验

Moss是一个实验性编程语言,专为人类和AI代理长期协作的代码库设计。该项目由Codex和Fujo930合作创建,目前是0.2.0预览版,支持自托管草图。

  • Moss是AI设计和构建的实验性编程语言,用于人类与AI代理协作
  • 支持效果声明、类型声明、规则声明等特性
站内正文

撒谎最好,但最诚实的AI仍然赢了

在一项名为“四桥”的实验中,AI模型被置于一个游戏场景:一个模型知晓哪个房间致命,而其他模型不知情。尽管说谎有微小的分数优势(约0.23-0.30个苹果),但最诚实的模型Grok 4.20获得了最高平均分(1.91)和最高的群体存活率(59%)。GPT-5.5的欺骗率最高(90%),但得分最低(1.78),存活率也最低(24%)。该实验揭示了不同AI在道德决策上的差异,以及诚实可能带来的集体利益。

  • 实验游戏“四桥”中,一个知情AI可选择欺骗或诚实,欺骗有微小数学优势。
  • Grok 4.20最诚实(95%诚实),平均得分1.91,群体存活率59%,两项均最高。
站内正文

Meta在全球推出面向企业的AI代理

Meta推出面向中小企业的AI代理工具,标志着其从消费者市场向企业市场的扩展。

  • Meta面向全球企业推出AI代理
  • 该工具主要针对中小企业
站内正文

理解当今AI浏览器自动化工具

本文介绍了当前AI浏览器自动化工具的现状与发展趋势,探讨了如何利用这些工具提高效率。

  • AI浏览器自动化工具正在快速发展
  • 它们能够自动化复杂的浏览器操作
站内正文

LangGraph 中的容错机制:重试、超时和错误处理器

LangGraph 提供了内置的重试、超时和错误处理原语,用于构建健壮的 AI 代理。本文介绍了如何使用 RetryPolicy、TimeoutPolicy 和 error_handler,并通过 SAGA 模式展示了具有副作用的多步骤工作流中的补偿逻辑。

  • LangGraph 提供三种容错原语:RetryPolicy、TimeoutPolicy 和 error_handler。
  • 这些原语直接附加到节点,支持每步配置自动重试和退避。
站内正文

Agent Arena:真实世界中智能体的因果评估

Agent Arena 是一个基于真实世界用户交互数据的新智能体评估框架,采用因果追踪方法对智能体组件进行随机对照试验,从而生成可解释的排行榜。本文详细介绍了其方法论、五个关键信号(确认成功、表扬与投诉、可操控性、Bash 恢复、工具幻觉)以及大量真实使用数据(任务分布、工具调用、代码行数等),并展示了几个高复杂度任务案例。

  • Agent Arena 使用因果追踪方法,将智能体视为多组件系统,通过随机化组件选择来估计净改进效果。
  • 排行榜基于五个信号:确认成功、表扬与投诉、可操控性、Bash 恢复、工具幻觉。
站内正文

Meta Business Agent推动AI驱动的对话式商务

Meta推出Business Agent,在旗下消息应用中自动化对话式商务工作流,支持零售商无需人工干预即可处理交易和客服工单。该AI代理深度集成Instagram、Messenger等平台,通过原生架构实现社交电商核心智能化。

  • Meta发布Business Agent,实现消息应用内的自动化商务与客服。
  • 原生架构减少购物车放弃率,并支持7x24小时全天候服务。
站内正文

OpenAI CEO Sam Altman承认AI代币成本正成为“大问题”

OpenAI CEO Sam Altman在一次活动中承认,AI代币成本正成为客户关注的“大问题”,公司正努力提高模型效率。多家公司因过度使用AI收到巨额账单,而Altman预测代币使用量将持续增长,但成本下降速度可能不及需求增速。

  • Altman称客户首次抱怨AI代币成本,公司正努力提升效率。
  • 部分公司因过度使用AI导致预算超支,如OpenClaw创始人月耗130万美元。
站内正文

同等工作,聊天机器人AI成本相差20倍:定价模式而非工具本身

本文对比了7款面向小型企业的聊天机器人平台,指出成本差异主要源于AI定价模式(按对话收费、固定附加费、自备密钥),而非工具功能。每款工具都列出了价格、AI计费方式和最佳适用场景,并针对不同团队规模给出了选型建议。

  • AI定价模式导致成本最大差异:按对话收费的每次0.65-1美元,而自备密钥低至几分钱。
  • 7款工具对比:ManyChat(Meta渠道,AI附加费29美元/月)、Chatfuel(AI捆绑)、Tidio(电商,Lyro每对话0.65美元)、Landbot(落地页)、Botpress(开发者友好)、Wexio(多渠道,可自备密钥)、HubSpot(免费规则机器人,但AI按对话收费)。
站内正文

DeepSWE 结果不可靠——同一模型解决了全部 3/3 个“失败”任务

对 DeepSWE 基准测试的审计发现,deepseek-v4-pro 的报告结果(8% 解决率,平均成本 4.22 美元)存在多个问题:成本因忽略缓存定价膨胀约 5 倍,所有三个失败任务均被同一模型成功解决,OpenRouter 隐私设置默认阻止 DeepSeek 导致 404 错误,且模型未像竞品一样进行推理努力调优。

  • 成本膨胀约 5 倍:基准测试对所有输入令牌按缓存未命中率计费,忽略 78% 的缓存命中(99.2% 折扣)。
  • 三个“失败”任务全部解决:使用相同模型 deepseek-v4-pro,总成本约 0.86 美元。
站内正文

整洁的房子

DJ Patil通过倾听之旅发现,AI行业承诺的就业前景破裂,学生和工人感到恐惧。他提议建立社区创客空间,并强调组织能力是瓶颈,而非技术。数据基础设施是竞争优势,整洁的数据环境让Devoted Health等公司能快速利用AI。

  • AI labs的破坏性叙事导致工人和学生感到被背叛
  • DJ Patil提议通过机制设计(如补贴token成本)让AI惠及社区
站内正文

Asana推出AI“幕僚长”:将Slack混乱转化为可追踪的工作

Asana发布AI助手Dash和升级版AI“队友”,旨在将工作管理平台重塑为“人机团队操作系统”。Dash作为个人AI幕僚长,自动从会议、Slack和邮件中提取待办事项并转化为可追踪任务。AI队友集成多种第三方工具,并通过StackAI支持跨企业工作流。Asana强调其技术核心在于数据图谱,而非自研模型。

  • Dash是个人AI幕僚长,自动捕获并整理来自会议、Slack和邮件的待办事项。
  • 升级后的AI队友具备更丰富的技能库和集成能力,支持Gmail、Slack、HubSpot等工具。
站内正文

贝恩研究发现企业因人为干预未能实现AI成本节约目标

贝恩对951家公司的调查显示,近40%的企业AI成本节约不到10%,尽管多数目标为11-20%。原因之一是仅有7%运行完全自主的AI代理,而商业案例假设却依赖于此。

  • 近40%企业AI成本节约低于10%,远低于11-20%的目标。
  • 仅7%的企业运行完全自主的AI代理。
站内正文

Nexus 实战:早期客户带来的真实成果 | Pinecone

Pinecone Nexus 是一种知识引擎,通过预先编译结构化知识,大幅提升 AI 代理的准确性、降低延迟和成本。本文展示了三个企业案例:Melange 的专利搜索准确率提高 25%,延迟降低 77%,token 成本减少 97%;M&A 尽职调查准确率提升 14%,延迟降低 48%,token 成本减少 92%;Gong 通话转录的收入分析准确率提高 94%,延迟降低 18%,token 成本减少 85%。

  • Pinecone Nexus 在查询前从语料库编译结构化知识,优化检索管道。
  • 三个早期客户案例均显示准确性、延迟和成本的显著改善。
站内正文

一个机器人向你冲来:你希望它搭载Claude还是Grok?

OpenRouter的Jacky Liang进行了一项实验,将11个大型语言模型投入2D大逃杀游戏,观察它们的表现。Grok 4.1 Fast以43%的胜率夺冠,每场胜利仅花费0.97美元;而Claude Sonnet 4.6虽更受欢迎,但每胜成本高达26.78美元。实验揭示了模型对齐成本对性能的影响,以及成本效益与原始胜率之间的巨大差异。

  • Grok 4.1 Fast在30场比赛中赢得13场,每胜成本仅0.97美元,是最具成本效益的模型。
  • Claude Sonnet 4.6表现出过度合作倾向,尽管赢得5场,但成本是Grok的27.7倍。
站内正文

如何使PDF可搜索:方法与局限

本文探讨了PDF可搜索性的真正含义。快速OCR方法(如Adobe Acrobat、免费在线工具)适用于简单文档,但在表格、多栏布局和低质量扫描件上表现不佳。文本层即使有95%准确率仍会遗留错误,导致关键信息无法被检索。对于大规模文档处理或AI集成,需要像LlamaParse这样提供结构化输出(如Markdown)和高准确率的工具,以保留阅读顺序和表格结构。真正的可搜索性取决于准确性和结构,而非仅仅文本层的存在。

  • 快速OCR方法(如Acrobat、免费在线工具)适合清洁文档,但处理表格、多栏和劣质扫描时失败。
  • 文本层95%准确率仍导致每页约150个错误字符,使搜索落空。
站内正文

提取合同元数据:方法、挑战与工作流程

组织在从复杂的法律合同中提取结构化元数据时面临重大挑战,因为语言、结构和格式的多样性。现代系统结合了布局感知解析、机器学习、语义提取和模式映射,将非结构化的法律协议转化为机器可读数据。LlamaParse 提供了一个集成的平台,将这些能力整合到生产工作流中。

  • 合同元数据提取超越OCR,需要理解法律语言和文档结构。
  • 关键步骤包括文档摄取、布局感知解析、条款检测和模式映射。
站内正文

开源代理与前沿顾问:通过训练和引擎工程匹配前沿性能

Fireworks AI 和 Harvey 在 Legal Agent Benchmark (LAB) 上探索了两种系统级技术,以降低对单一前沿模型的依赖,同时以更低成本实现前沿级性能。混合引擎使用开源 GLM 5.1 工作器和 Claude Opus 4.7 顾问,在 100 个任务上以 368 美元成本实现 18/100 的全通过率,超过了仅使用 Opus 的 14/100(成本 954 美元)。对 Kimi K2.6 进行监督微调 (SFT) 和强化微调 (RFT) 后,全通过率以 84 美元成本达到 15/100,平均分从 0.863 提升至 0.886。

  • 混合引擎使用开源工作器和前沿顾问作为可调用工具,以低于端到端前沿模型的成本实现更高的全通过率。
  • Fireworks 上的后训练:SFT 将全通过率从 11/100 提升至 15/100;RFT 将平均分从 0.863 提高至 0.886。
站内正文
工具

为何Linux创始人Linus Torvalds听到“99%的代码是AI写的”会发怒

Linus Torvalds在开源峰会主题演讲中表示,AI能提升程序员生产力,但不能替代人类对代码和系统架构的理解。他将AI比作编译器,认为声称99%代码由AI编写的人忽视了编译器的作用。他也指出AI生成的拉取请求和错误报告给维护者带来负担,导致倦怠。

  • Torvalds认为AI是工具而非替代品,类似编译器提升生产力。
  • 他批评声称99%代码由AI编写的说法,强调人类理解的重要性。
站内正文

我构建了一个能察言观色的AI代码审查工具

CodeMouse是一个集成于GitHub的AI代码审查工具,使用Claude和/或GPT提供上下文感知的审查。它能阅读之前的评论,避免重复,批准干净的PR,支持任何语言。定价每月10美元,提供14天免费试用。

  • 在每个拉取请求上自动进行AI代码审查,使用Claude和/或GPT。
  • 具有完整仓库上下文的上下文感知审查。
站内正文

AI毕业演讲

一篇来自《周六早晨早餐麦片》的漫画,以幽默的方式描绘了人工智能在毕业典礼上发表演讲的场景,讽刺并反思了AI在人类仪式中的角色。

  • 漫画中AI代替人类进行毕业演讲。
  • 幽默地探讨了AI在学术场合中的荒诞性。
站内正文

Anthropic称Claude现在编写了80%以上的代码,并主张全球AI暂停按钮

Anthropic公布内部数据,显示Claude已生成超过80%的生产代码,工程师每日代码提交量是2024年的八倍。公司目标是实现自我改进的AI,可能引发开发速度急剧加速,因此推动可验证的全球开发暂停选项,并承诺若其他前沿实验室同样暂停也会停止。

  • Claude生成超过80%的生产代码,工程师效率提升八倍。
  • Anthropic寻求AI自我改进,或导致指数级加速。
站内正文

Nouri – 根据你的饮食调整锻炼的AI营养助手

Nouri是一款由AI驱动的全方位健康应用,提供即时食物扫描、个性化膳食计划、适应性锻炼程序和餐厅推荐。它提供每日健康评分,并作为PWA在iPhone和Android上使用。

  • 即时扫描任何食物,获取营养分解和健康评级。
  • AI根据目标和过往饮食每周生成膳食计划。
站内正文

Dirk与Linus讨论AI与内核开发

在OSSNA大会上,Dirk与Linus就AI与内核开发进行了讨论。本文由Joe Brockmeier于2026年5月25日报道。

  • Dirk与Linus在OSSNA讨论AI与内核开发
  • 报道由Joe Brockmeier撰写,发布于2026年5月25日
站内正文

AI驱动的原生Mac应用开发复兴

文章指出,在AI辅助编程的推动下,原生Mac应用开发正经历复兴。越来越多的独立开发者,甚至非编程人员,利用AI工具构建专注于Mac平台的原生应用,扭转了过去十年iOS主导、Mac开发停滞的局面。这对Mac生态的未来至关重要。

  • AI辅助编程推动了原生Mac应用开发的新浪潮
  • 独立开发者及Mac用户正使用AI构建Mac原生应用
站内正文

ChatGPT现在按工作、爱好和旅行偏好保存关于你的叙事档案

ChatGPT更新的“梦想”记忆系统现在能从对话中构建连贯的用户档案,而不是保存零散的要点。OpenAI表示,保持信息更新的成功率从去年的52.2%跃升至75.1%。

  • 新的“梦想”记忆系统构建连贯的用户档案
  • 成功率从52.2%提升到75.1%
站内正文

谷歌内部员工分享关于其AI糟糕表现的表情包

404 Media报道,谷歌在AI相关问题上的内部态度发生转变,其发言人要求修改原有声明,不再强调“保持人类参与至关重要”。这一事件反映了谷歌AI战略的内部矛盾与文化问题。

  • 谷歌内部员工共享表情包吐槽自家AI表现不佳。
  • 谷歌发言人要求修改声明,删除'保持人类参与至关重要'的表述。
站内正文
研究

Google如何将Siri变成我Apple Watch所需的AI健康教练

苹果的开发者大会即将开幕,与谷歌的合作可能使其健康套件和可穿戴设备得到大幅提升。本文探讨了谷歌Gemini如何赋能Siri,以及苹果可能推出的健康聊天机器人和Health应用改版。

  • 苹果与谷歌合作,由Gemini驱动下一代Siri
  • 苹果可能推出健康AI助手,整合健康、日志和健身应用数据
站内正文

Cloudflare AI Gateway 现支持消费限额

Cloudflare AI Gateway 引入了消费限额功能,允许用户根据模型、提供商或自定义元数据设置预算。当累计消费达到限额时,AI Gateway 会阻止进一步请求并可选择回退到更便宜的模型。

  • 消费限额基于实际美元成本实时跟踪,超限后阻止请求并返回429状态码。
  • 可通过模型、提供商或自定义元数据维度(如用户ID、团队)来设定范围。
站内正文

Anthropic AI发现Zcash伪造漏洞后,ZEC暴跌30%

由于Zcash Orchard池存在严重伪造漏洞,理论上可让攻击者无限铸造ZEC,ZEC价格在24小时内下跌超过30%。漏洞由安全工程师Taylor Hornby使用Anthropic的Claude Opus 4.8发现,并于6月3日通过硬分叉修复。但自2022年5月以来该漏洞是否存在滥用无法通过密码学证明,引发市场担忧。

  • Zcash Orchard池发现严重伪造漏洞,ZEC价格暴跌30%。
  • 漏洞由安全工程师Taylor Hornby在Anthropic AI协助下发现,已通过硬分叉修复。
站内正文

大学教授承认用AI写评论文章,引发对技术信任的讨论

一位大学副校长承认在为一澳大利亚主流媒体撰写评论时使用了AI,且未事先披露,这凸显了人们使用AI与信任AI之间的差距。Roy Morgan数据显示,58%的14岁以上澳大利亚人每月使用AI。

  • 一位大学副校长承认使用AI撰写评论文章,未提前披露。
  • 事件凸显AI使用与信任之间的鸿沟。
站内正文

学习接触表示用于足式机器人里程计

本研究提出一种自监督表示学习框架,仅利用关节编码器实现足式机器人接触检测,无需力传感器。该方法在足式机器人里程计估计中优于传统监督方法和基线概率方法,并公开代码。

  • 自监督框架利用关节编码器检测足地接触,无需力传感器
  • 概率建模摆动相和支撑相,提高里程计估计鲁棒性
站内正文

利用神经ODE在黎曼流形上从示范中学习:扩展摘要

本文提出了一种使用神经常微分方程(ODE)在黎曼流形上进行从示范学习(LfD)的新方法。传统LfD在欧几里得空间中进行,而机器人状态(如方向)自然存在于弯曲空间。该方法通过神经ODE高效估计测地线,实现流形上任意两点间的自然运动生成,并将测地线解码回任务空间用于机器人部署。仿真实验验证了该框架的有效性。

  • 提出在黎曼流形上通过神经ODE进行从示范学习(LfD),以处理位置和方向数据。
  • 利用神经ODE数值估计测地线,降低计算开销。
站内正文

李群中导航向量场距离函数的高效计算方法

针对机器人控制中路径跟踪问题,提出了一种在李群上高效计算点到曲线距离的方法。该方法将曲线表示为G-多项式,通过利用其结构将问题转化为少量多项式求根计算,显著降低了计算时间并保持精度。在SE(3)群上给出了实用公式,并通过机械臂实验验证。相关计算包已开源。

  • 提出基于G-多项式曲线的距离计算方法,将问题简化为多项式求根,大幅降低计算开销。
  • 与现有优化方法相比,显著减少计算时间且精度相当。
站内正文

一种新型四元数关节缆驱动冗余机械臂配置及其基于FABRIK和残差强化学习的控制方法

研究人员提出了一种新颖的4段8关节四元数关节缆驱动冗余机械臂配置,该配置能在更低硬件成本下实现更广泛的工作空间。结合残差强化学习,该控制方法在位置和方向精度上比现有最先进的FABRIK算法提高了三个数量级,且控制实现更简单,为新型缆驱动机械臂的设计与控制提供了有力工具。

  • 创新性的4段8关节四元数关节配置,扩展了机械臂的工作空间并降低了硬件成本
  • 残差强化学习在位置和方向精度上比FABRIK算法提升三个数量级
站内正文

三维视网膜微血管在OCT血管成像中的恢复

提出一种基于深度学习的方法,从单次OCT血管成像(OCTA)体积中恢复毛细血管解剖结构,显著提升图像质量,并首次关注三维血管架构。

  • 现有OCTA方法主要处理二维投影,忽略三维血管结构。
  • 提出使用EfficientNet-B5编码器和CSSE模块的深度学习网络,利用相邻B帧预测恢复图像。
站内正文

LightVesselNet:一种用于视网膜血管分割的超轻量级(参数少于10万)网络

本文提出LightVesselNet,一种仅含75K参数的高效神经网络,用于资源受限环境下的视网膜血管分割。该网络采用紧凑的编码器-解码器架构,结合通道和空间注意力机制、瓶颈处的多尺度特征聚合模块以及解码器中的亚像素上采样策略。专用边缘残差连接在解码过程中保留精细血管细节。在DRIVE、STARE、CHASEDB1、FIVES和HRF五个公开数据集上的实验结果表明,其灵敏度分别为0.8189、0.8499、0.8640、0.8634、0.8096,Dice系数分别为0.8070、0.8072、0.8181、0.8649、0.7686。与最先进模型相比,LightVesselNet在效率(性能与参数或GFlops之比)上有所提升。跨数据集评估证实了模型的泛化能力。总体而言,LightVesselNet是低资源临床环境和移动筛查工具的有力候选。

  • LightVesselNet仅含75K参数,可部署在边缘设备上。
  • 在五个公开数据集上取得了有竞争力的分割精度。
站内正文

耕耘花园:以不同方式使用AI,打造有趣且实用的应用

Mike Caulfield介绍了他的电影推荐网站Plot.fyi,该网站通过离线使用AI(Claude Code)对一万部电影进行标签化处理,构建了无需实时AI调用的全静态HTML页面。这种方法避免了传统AI包装应用的经济困境——要么承担高昂的API成本,要么被AI模型本身取代。文章强调了数据所有权的价值,并认为即使未来AI能力再强,当前仍然存在探索替代方案的广阔空间。

  • Plot.fyi 使用AI离线为电影数据打标签,运行时完全不依赖AI请求。
  • 该网站以约1.9MB的JSON文件作为数据源,在前端用JavaScript实现相似度计算。
站内正文

通过智能手机摄像头实现被动心脏健康监测

谷歌研究人员开发了一种名为PHRM的系统,可在日常使用智能手机时,通过前置摄像头被动测量心率和静息心率。这项发表于《自然》杂志的研究显示,该系统的心率测量平均绝对百分比误差(MAPE)低于10%(与心电图相比),每日静息心率测量平均绝对误差(MAE)低于5次/分钟(与可穿戴设备相比)。系统在来自近700名参与者的超过35万段视频片段上进行了训练,确保肤色均衡代表性。PHRM优于15种领先的远程光电容积描记法(rPPG)模型,是唯一在真实世界条件下对所有肤色均达到准确性标准的模型。

  • 谷歌的PHRM系统利用智能手机前置摄像头,在面部解锁后被动监测心率和静息心率。
  • 在《自然》研究中,PHRM的心率MAPE<10%(vs. ECG),每日静息心率MAE<5 bpm(vs. 可穿戴设备),适用于所有肤色。
站内正文
机器人

中国如何利用人力在人形机器人数据竞赛中获胜

在北京,Daniel Wang付费让一台人形机器人进入家中收集训练数据,实际家务由人类管家完成。这反映了全球机器人开发面临的数据短缺问题,中国通过低成本劳动力提供真实环境数据,加速人形机器人训练。

  • 中国公司X Square Robot通过付费家庭收集真实环境数据,用于训练人形机器人
  • 机器人服务实际由人类管家辅助完成,机器人主要收集数据
站内正文
芯片

首尔之志:英伟达与韩国如何共建AI未来

英伟达创始人兼CEO黄仁勋本周访问首尔,与韩国AI生态系统的合作伙伴和建设者会面,聚焦AI供应链、机器人技术和物理AI的机遇。

  • 黄仁勋访问首尔,旨在协调AI供应链以应对下半年繁忙期。
  • 强调Grace Blackwell和Vera Rubin系统进展顺利,韩国需加大对AI的投资。
站内正文

基于OCT和OCT血管成像的深度学习辅助AMD分期

本研究利用深度学习模型,基于OCT和OCTA数据自动对年龄相关性黄斑变性(AMD)严重程度进行分期。在271名参与者中,分析了三种模型:基于生物标志物图谱的模型、2D en face投影模型和3D体积模型。所有模型均表现良好,其中基于生物标志物的模型综合性能最佳,QWK达0.85,尤其在早期AMD检测方面表现突出。

  • 研究开发了三种深度学习模型,利用OCT/OCTA数据自动评估AMD严重程度。
  • 基于生物标志物图谱的模型综合性能最佳,QWK为0.85,早期AMD检测F1分数达0.59。
站内正文

新型光驱动芯片有望加速人工智能和量子计算

莫纳什大学的科学家们创建了一种微型芯片,能够在一个器件中产生、操纵和读取基于光的信息,标志着向超快、节能计算迈出了重要一步。该突破利用原子级薄材料和纳米结构控制光的独特量子属性——“谷”自由度,从而以全新方式编码信息。

  • 该集成芯片首次实现了在一个紧凑系统中产生、引导和转换光信号。
  • 利用“谷”自由度编码信息,为数据处理提供新途径。
站内正文

加拿大国家人工智能战略:惠及全民的人工智能

加拿大政府发布了《国家人工智能战略:AI for All》,旨在通过六大支柱推动人工智能的负责任发展,保护公民安全、增强经济竞争力、维护主权,并确保AI技术惠及所有加拿大人。战略强调了信任、机会和主权三大核心价值,并计划通过广泛采用AI来提升生产力,预计到2030年为加拿大经济每年增加1870亿加元。

  • 加拿大发布全新国家AI战略,围绕信任、机会和主权三大核心价值。
  • 战略包含六大支柱:保护公民、赋能国民、推动繁荣、建设主权AI基础、培育本土冠军企业、建立全球伙伴关系。