AI News HubLIVE

今日必读

Agent

Robinhood:让AI代理为您交易和消费

Robinhood推出新工具,使AI代理能够代表用户进行交易和支付,可能将AI驱动的金融交易带入主流。

  • Robinhood正在开发AI代理,可代表用户执行交易和消费决策。
  • 这些工具旨在简化金融操作,让AI管理日常交易。
站内正文

人工智能会助长极权主义吗?

本文探讨了人工智能可能如何改变中央集权与分权治理之间的权衡,从而增加极权主义出现的可能性。文章回顾了历史上通信和官僚技术对极权统治的促进作用,并分析了AI在信息处理、监控、宣传和军事能力方面的进步如何可能使独裁政体更有效,甚至缩小民主与专制之间的经济绩效差距。

  • AI可能通过增强中央信息处理和监控能力,降低独裁统治的成本。
  • 历史上如纳粹德国和东德利用技术实现控制,而印刷术和互联网曾促进自由。
站内正文

Anthropic Opus 4.8 表明AI实验室关注客户需求

Anthropic推出Opus 4.8模型,旨在帮助企业处理复杂工作流程,并允许用户选择适合其应用的模式,展现了对客户需求的重视。

  • Anthropic Opus 4.8 模型专注于企业复杂工作流程
  • 模型提供可选择的模式以适应不同应用
站内正文

问题不在AI Agent——现有系统和API并非为AI设计

MCP Bridge通过混合搜索和AI增强技术,解决企业API对AI Agent不可读的问题,根据API响应结构自动生成有意义的名称和描述,大幅提升工具选择准确率。

  • 混合搜索结合全文搜索、向量搜索和重新排序器,改善工具发现。
  • 企业API常使用如'getProcInfo3'等晦涩名称,文档匮乏。
站内正文

2026年DataHack峰会上最值得关注的25位AI先驱

本文介绍了将于2026年DataHack峰会上演讲的25位最具影响力的AI先驱,包括来自谷歌DeepMind、微软AI、沃尔玛等公司的研究科学家、数据科学家、创始人和企业AI领袖。他们正在推动AI技术边界、构建社区并将模型转化为产品。

  • 2026年DataHack峰会将汇聚25位顶级AI先驱,涵盖研究、应用和领导力。
  • 演讲者包括谷歌DeepMind的Dheeraj Nagaraj、微软AI的Hardik Meisheri等。
站内正文

“AI干的”不会在欧盟监管机构找上门时救你

欧盟的《网络弹性法案》(CRA)即将实施,要求组织对网络安全负责,报告义务自2026年9月开始,全面合规至2027年12月。该法规适用于在欧盟销售的所有联网产品和软件,包括AI生成的代码。关键要求包括安全设计、生命周期漏洞处理、SBOM透明度以及24小时内报告被利用的漏洞。组织必须立即采取行动进行审计、记录和实施SBOM工具。“AI干的”不是借口。

  • 欧盟《网络弹性法案》对在欧盟销售的所有联网产品施加严格的网络安全要求,关键截止日期为2026年和2027年。
  • 组织必须将安全融入开发生命周期,提供软件物料清单(SBOM),并在24小时内报告被积极利用的漏洞。
站内正文
工具

我在Android Auto中使用Gemini两个月,它从4个方面改变了我每日通勤

作者体验Gemini在Android Auto中的表现两个月,发现它让驾驶更安全、更有趣、更高效,并改善了家庭出行体验。语音控制变得轻松自然,减少了手动操作,增加了与家人的互动,并实现了智能家居远程控制。

  • 减少使用手机和屏幕,语音完成多任务
  • 家庭出行不再无聊,孩子喜欢互动娱乐
站内正文
芯片

4nm!比亚迪自研AI芯片来了:制程对齐英伟达,算力拉爆特斯拉

比亚迪发布了中国首颗车规级4纳米智驾芯片璇玑A3,采用自研NPU架构,三颗组合算力超2100 TOPS,单位功耗比同类低20%,算力利用率提升100%。王传福承诺智驾事故全额赔付。

  • 比亚迪发布中国首颗4nm智驾芯片璇玑A3,全自研设计
  • 采用专用NPU架构,功耗低20%,算力利用率翻倍
站内正文

来自Google的全栈边缘AI平台

Google的Coral平台提供全栈边缘AI解决方案,为软件和硬件开发者提供本地化AI模型部署的工具。

  • Coral将AI优先的硬件与统一的开发者体验相结合
  • 通过MLIR编译器工具链支持PyTorch、JAX和LiteRT模型
站内正文
模型

每秒3000 tokens的LLM游乐场

一个高速LLM游乐场,每秒可处理3000个token,提供开放Web界面。

  • 每秒3000 token吞吐量
  • 开放WebUI界面
站内正文
其余更新(185 条)
Agent

在CMS TEAM下赢得成功:构建学习型健康系统以实现价值医疗

自2026年1月1日起,美国超过700家医院需根据CMS TEAM计划管理五个高容量外科手术的总成本和质量。成功需要统一且AI驱动的数据平台以实现主动干预,典型成果包括减少15%的护理设施成本和降低12%的再入院率。

  • CMS TEAM计划自2026年1月起强制对五个外科手术实施捆绑支付。
  • 医院需要整合临床、索赔和急性后期数据的统一数据平台。
站内正文

TheFoundry:多智能体系统的简易引导框架

TheFoundry 是一个用户友好、企业级的多智能体系统(MAS)引导框架,旨在解决现代 AI 编码中的关键失败点,如令牌遗忘、无限循环、架构漂移和智能体冲突。它采用拉取式工作流、共享看板、上下文范围限制、步骤预算、基于 TOML 的确定性通信和临时引导器,让多个专业 AI 智能体自主协作构建软件项目。

  • 拉取式工作流:智能体从自己的任务队列中拉取任务,避免集中调度器丢失上下文。
  • 共享看板:智能体通过 team_status.md 实时汇报状态,提供团队感知。
站内正文

Step 3.7 Flash:为智能代理打造的开源闪电模型

Stepfun 推出了 Step 3.7 Flash,这是一个 Apache 2.0 开源模型,专为实时智能代理设计。它结合了视觉、编码、搜索和工具使用能力,拥有 256K 上下文窗口和约 110 亿活跃参数,推理速度高达 400 TPS。

  • Step 3.7 Flash 是 Stepfun 发布的第二代 Flash 模型,采用 Apache 2.0 开源许可。
  • 模型面向现实世界的智能代理,支持视觉、编码、搜索和工具调用。
站内正文

迁移至新CRM的5个最佳实践

更换CRM存在数据丢失和工作流程中断的风险。遵循这五个最佳实践可确保迁移顺利。

  • 迁移前审计现有数据,清除重复和过时记录。
  • 构建详细的字段映射文档,避免数据错位。
站内正文

AI代码发布速度超过安全检测能力:Snyk推出AI渗透测试平台

Snyk推出Evo持续进攻安全(COS)产品,针对AI生成代码和自主攻击者时代的企业漏洞发现与修复缺口,提供持续渗透测试替代方案,覆盖传统测试每年仅15天的窗口期,填补350天空白。该产品利用平台上下文信息,结合确定性扫描与LLM推理,检测业务逻辑漏洞和权限绕过等传统工具难以发现的缺陷。

  • Snyk发布Evo COS,提供持续AI渗透测试,替代传统每15天一次的测试模式。
  • 产品区分启发式可检测漏洞和上下文依赖漏洞,LLM用于发现后者。
站内正文

Show HN: Adaptive Runtime – AI智能体层,无需GPU,支持崩溃恢复

Adaptive Runtime是一个开源Python库,为有状态AI系统提供运行时智能层。它包含五个核心引擎(状态、上下文、置信度、决策、恢复),解决生产环境中AI系统的崩溃恢复、状态持久化、置信度评分等问题。无需GPU,可在低成本VPS上运行。

  • Adaptive Runtime是一个运行时智能层,专为有状态AI系统设计,解决生产环境中的运行时问题。
  • 包含五个核心引擎:状态引擎、上下文引擎、置信度引擎、决策引擎和恢复引擎。
站内正文

PPIO入选非凡产研「2026 Global AI 100」,以AI实力领跑出海新浪潮

PPIO 入选非凡产研发布的「2026 Global AI 100」榜单,该榜单由非凡大赏年度 AI 全球化增长峰会评选,旨在发掘全球化 AI 原生公司。PPIO 以全球化分布式算力基础设施、全栈云服务、模型平台(支持 DeepSeek、GLM 等)及 Agent 沙箱等创新产品,为出海企业提供低时延、高可用的算力网络。截至 2026 年 4 月,PPIO 整合全球 4800+ 节点,日均 Token 调用量超 10000 亿,开发者用户超 57 万。同时获评上海市数字出海服务平台试点单位及 GDA 领航服务站。

  • PPIO 入选「2026 Global AI 100」榜单,彰显其在 AI 出海领域的领先地位。
  • 提供全球化分布式算力基础设施,覆盖 GPU 全型号,支持大规模训练与推理。
站内正文

AI是否正导致前端“失去的十年”重演?

本文探讨AI对编程工作的去技能化影响,类比前端框架过去十年带来的变化。作者通过分析去技能化、抽象层次、以及包豪斯运动的启示,指出AI编程与前端发展相似,可能导致技能贬值和质量下降。

  • AI正在像前端框架一样去技能化编程工作,降低门槛但削弱工人议价能力。
  • AI编程是一种泄漏的抽象,非确定性输出需要深入理解才能修复问题。
站内正文

不可治理的人工智能官僚主义时代

本文探讨了人工智能如何催生了一种新的、难以问责的官僚主义。作者认为,AI系统虽然擅长处理日常事务(如整理邮件、报销),但其本质是程序化的官僚,缺乏真正的目标和责任感。随着AI在企业和政府中广泛应用,它可能创造出更复杂、更难以摆脱的官僚体系,而人类却无法像对待人类官僚那样对其进行监督或解雇。

  • AI的“产品市场契合”在于处理日常琐碎的官僚事务,但同时也带来了新的、不可治理的官僚主义。
  • AI模型被训练得谨慎规避风险,导致越来越多的拒绝和千篇一律的输出。
站内正文

超越下一个词预测:通过神经符号图强制执行法律层级

传统的生成式AI仅预测下一个词,对精确法律分析风险太高。下一代法律技术结合神经符号AI(强制遵循逻辑和法律来源层级)与图检索增强生成(GraphRAG,将数据映射为互联网络以理解上下文),大幅降低幻觉风险并提供可审计的推理过程。

  • 神经符号AI结合语言模型与符号逻辑引擎,强制法律推理链和来源层级。
  • GraphRAG将法律文档映射为知识图谱,提供上下文检索而非孤立片段。
站内正文

Crabbox.sh Pond – 面向AI代理和CI的运行时池

Pond是Crabbox.sh中用于分组相关租约、发现彼此并统一释放的轻量级机制。它支持多种传输平面(Tailscale、URL桥、SSH网格),允许混合使用不同提供商。本文介绍了Pond的核心概念、快速入门、命令、传输平面、用例以及Tailscale集成等。

  • Pond是一种逻辑分组,通过共享的pond=标签将活动租约关联起来。
  • 支持Tailscale、URL桥和SSH三种传输平面,实现成员间的不同通信方式。
站内正文

Flathub 禁止使用AI生成的代码

Flathub 更新了其政策,明确禁止在提交的应用和提交本身中包含AI生成或辅助生成的代码、文档或其他内容。该政策也禁止使用AI工具生成或自动化拉取请求和审查。对于成熟且维护良好的项目,可能给予例外。

  • Flathub 的生成式AI政策适用于提交的应用和提交的元数据、补丁等。
  • 禁止使用AI工具生成、打开或自动化拉取请求,也禁止请求AI审查。
站内正文

Adobe的对话式AI助手:一个平庸的设计实习生

Adobe最新的AI图像助手Firefly AI Assistant更像是一个多任务的中介,可以为你操作Adobe的设计应用。它不仅能执行编辑任务,还会解释其操作过程,甚至承认自己的局限性。尽管结果并不完美,但它在交互方式上令人耳目一新,有助于用户学习设计技巧。

  • Firefly AI Assistant可以操作Photoshop和Illustrator等Adobe应用完成多步骤项目。
  • 该助手会详细解释其编辑过程,并清楚地说明其局限性。
站内正文

Cognition(Devin):以260亿美元估值完成10亿美元D轮融资

Cognition宣布完成超10亿美元D轮融资,估值达260亿美元,由Lux Capital、General Catalyst和8VC领投。公司推出的AI软件工程师Devin自两年前上线以来,企业使用量增长超10倍,年化收入达4.92亿美元。Devin已为花旗、梅赛德斯-奔驰、高盛等大型组织提供服务,并帮助客户实现显著效率提升,如梅赛德斯-奔驰将八个月的现代化改造项目缩短至八天。Cognition正朝着自主软件开发的方向发展,其内部工程团队89%的代码由Devin提交。

  • Cognition以260亿美元估值完成超10亿美元D轮融资
  • AI软件工程师Devin企业使用量年初至今增长超10倍,年化收入达4.92亿美元
站内正文

面壁智能「开源周」:一场定义端侧 AI 终局的系统性「亮剑」

面壁智能于5月25日至29日举办端侧大模型开源周,发布五项技术成果,涵盖训练框架、模型压缩、数据集和智能体操作系统,展现全链路系统性创新。MiniCPM5-1B性能超越GPT-4o部分版本,端侧AI终局之战聚焦系统工程。

  • 面壁智能在2026年5月25-29日举办端侧大模型开源周,每日发布一项关键技术。
  • 五项成果包括BitCPM-CANN、MiniCPM5-1B、ForgeTrain、PilotDeck和UltraData,形成全栈闭环。
站内正文

5亿Tokens白送!全球首个商用AI主机发布,终于能放开烧Token了

联想发布全球首款商用AI主机系列,专为一人公司(OPC)和成长型企业设计,通过本地+云端混合架构解决Token成本高和数据安全问题,并赠送大量Tokens,开箱即用。

  • 联想发布三款AI主机:mini 100、300、Pro 700,覆盖个人到团队。
  • 本地推理+云端弹性,Token成本可降低70%-95%。
站内正文

下限零基础,上限肝大作!腾讯这个AI游戏创作平台,太野了

下一波AI创作浪潮正在游戏领域发生,腾讯发布AI游戏创作平台「代号Craft」,用户可通过自然语言生成可运行的游戏,2D/3D均支持,内置AIGC工具和免费资产,极大降低游戏创作门槛。

  • 腾讯发布AI游戏创作平台「代号Craft」,支持自然语言生成游戏
  • 平台同时覆盖2D和3D游戏,内置完整AIGC管线与免费资产
站内正文

创意设计版WorkBuddy来了!腾讯发布智能体创意工作室Miora

腾讯发布Miora,一款集图像、视频、UI/UX和3D生成于一体的AI创意工作室。它具备记忆系统、多模态画布和可定制的Skills,让一个人拥有整个创意工作室。

  • 腾讯发布Miora,一款全场景创意智能体工作室
  • 支持图像、视频、UI/UX、3D等多模态内容生成
站内正文

AI代理权限:介于“可行”与“安全”之间的缺失层

本文探讨了AI编码代理(以Claude Code为例)在权限管理中的安全隐患,包括命令误执行、凭据泄露、提示注入等风险。文章指出人类监督存在“权限疲劳”问题,并介绍了Anthropic提出的沙箱、自动模式、钩子等缓解措施,同时强调了使用开发容器和最小化权限原则的重要性。

  • AI代理在执行自然语言命令时可能造成数据删除、凭据泄露等灾难性后果,人类监督并非万能。
  • Anthropic的遥测显示用户批准了约93%的权限提示,存在显著的权限疲劳问题。
站内正文

一个图谱,多个原生界面:推测AI与跨平台应用

AI可能改变跨平台应用开发的方式,从统一UI框架转向一个产品图谱,由代理生成多个原生界面。

  • 跨平台框架试图共享代码,但往往牺牲原生体验。
  • AI代理可能更有效地在原生环境中工作,需要一个共享的意图来源。
站内正文

PromptLayer:在一个时间线上追踪AI请求、工作流和成本

PromptLayer是一个面向开发者的AI可观测性工具,通过单一时间线和瀑布视图追踪请求、工作流、令牌使用、延迟、成本和失败。支持多步骤AI系统的完整执行路径。目前提供免费测试版。

  • 通过时间线和瀑布视图可视化AI工作流
  • 追踪令牌使用、延迟和成本
站内正文

当人工智能开始编写系统代码

探讨人工智能生成系统代码的意义与潜在影响。

  • AI编写系统代码可能提高效率,但也带来可靠性和安全性挑战。
  • 需要新的验证和测试方法来确保AI生成代码的正确性。
站内正文

CodePulse——面向AI编码工具的令牌高效代码库索引器

CodePulse是一个开源的代码库索引工具,通过维护持久的、基于git差异的索引,为AI编码助手(如Claude Code、OpenAI Codex CLI、Cursor等)在会话启动时注入紧凑的快照,从而节省60-80%的令牌预算。它支持任务感知排序、git感知排序和自动预算功能,并提供了CLI、MCP服务器等多种集成方式。

  • 节省AI助手60-80%的探索令牌,通过预构建快照。
  • 支持多种AI工具:Claude Code、Codex CLI、Cursor等。
站内正文

Show HN:开源AI记忆工具包,支持大规模扩展

Lithium是一个基于PostgreSQL ltree的分层版本化存储引擎,提供确定性、范围化的检索,内置版本控制,零运行时依赖。它通过MCP服务器与AI工具集成,适用于AI代理记忆、决策跟踪等场景。

  • 使用PostgreSQL ltree实现分层版本化存储,查询速度优于图数据库
  • 提供TypeScript API,支持范围化检索和内置版本控制
站内正文

UI测试是AI需要的护栏:clipboardwire的故事

作者因Wayland下剪贴板同步问题,用AI(Claude Code)将Java项目ClipCascade重写为Rust,创建了轻量级二进制工具clipboardwire。过程中发现AI开发的关键瓶颈是反馈质量而非编码能力,而UI测试是让AI可靠迭代的护栏。

  • AI生成代码时,缺乏测试会导致修复旧bug产生新bug,陷入循环。
  • 投入时间编写涵盖UI的测试套件后,AI的迭代速度和可靠性显著提升。
站内正文

金融AI宏观趋势调查:利用You.com和Langchain进行欧盟经济分析

本文介绍了一个使用Deep Agents、LangSmith和You.com金融研究API构建的宏观经济研究代理,该代理在约45分钟内分析所有27个欧盟成员国的GDP数据,检测异常并生成带有引用的简报。报告详细分析了爱尔兰和德国的异常增长与收缩原因,并强调了方法透明性和可审计性的重要性。

  • 构建的AI代理可在45分钟内分析27个欧盟国家的GDP数据并生成详细简报,API成本约2.20美元。
  • 爱尔兰12.3%的GDP增长主要由制药出口激增驱动,而德国则因汽车和建筑业收缩出现结构性衰退。
站内正文

开放运动规划库2.0发布

开放运动规划库(OMPL)自2008年首次发布以来,已成为运动规划社区的基石,提供了大量最先进的基于采样的算法实现。经过近二十年的持续发展,OMPL 2.0通过硬件加速瞄准实时运动规划,并与现代AI研究工作流程无缝集成。

  • OMPL 2.0 是 OMPL 的重大升级,专注于实时运动规划和硬件加速。
  • 新版本集成了现代AI研究工具,支持更高效的工作流程。
站内正文

人在环中群体:一种用于实际土壤测绘的仿生群体方法

本文提出“仿生群体”系统,通过让人类用户执行机器人难以实现的任务,降低野外和群体机器人研究的门槛。该系统使用智能手机应用、蓝牙传感器和中央服务器运行群体算法。研究验证了分数偏置搜索算法,在模拟和实际户外环境中均表现出超线性地图重建能力。

  • 仿生群体系统通过人类辅助降低硬件部署成本与开发时间。
  • 分数偏置搜索算法基于位置评分实现高效土壤测绘。
站内正文

不完全信息下大老二的自对弈强化学习

本研究在四人纸牌游戏大老二中探索自对弈强化学习框架,对比多种算法发现PPO优于蒙特卡洛Q近似、SARSA和Q学习。适度的熵正则化可防止策略过于确定,当前策略自对弈比检查点自对弈或固定对手训练提供更強的有限预算课程。结果表明大老二是不完全信息、多人互动、延迟奖励和可变动作集下深度强化学习的有用受控基准。

  • 大老二作为不完全信息多人游戏,是测试智能体在隐藏信息、稀疏奖励和非平稳对手下表现的理想环境。
  • PPO算法在随机、贪婪和启发式对手下均优于其他强化学习方法。
站内正文

Ruby发明者Matz借助AI开发原生编译器

Ruby创建者Yukihiro Matsumoto(Matz)正在Anthropic的Claude协助下构建Spinel,一个实验性的Ruby提前编译(AOT)编译器。Spinel将Ruby代码转换为C语言,性能提升显著,但存在诸多限制,包括不支持eval、线程等特性。

  • Matz使用Anthropic的Claude Code开发Ruby的AOT编译器Spinel。
  • Spinel将Ruby AST转换为C代码,执行速度比MiniRuby快11.6倍。
站内正文

如何优化您的AI令牌使用量:repo-brain 工具介绍

repo-brain 是一款开源工具,能将整个代码库压缩成单个Markdown上下文文件,实现高达96%的压缩率,大幅减少AI令牌使用量。它支持多种编程语言的静态分析、架构分析和语义关系发现,并兼容多家AI提供商。

  • 将整个代码库压缩为单个Markdown上下文文件,减少AI令牌使用量
  • 在262个文件的代码库上实现96%压缩率(从154,229降至6,487令牌)
站内正文

Anthropic完成9650亿美元H轮融资,发布Opus 4.8和Dynamic Workflows/ultracode

Anthropic以9650亿美元估值完成650亿美元H轮融资,同时披露470亿美元年化收入,并发布Claude Opus 4.8更新(提升判断力、诚实度和长时自主工作能力)以及Claude Code的Dynamic Workflows功能(支持数百个并行子代理)。

  • Anthropic完成650亿美元H轮融资,估值9650亿美元,由Altimeter、Dragoneer、Greenoaks和Sequoia领投
  • Opus 4.8大幅改进判断力、诚实度和效率,在SWE-Bench Pro等基准上领先GPT-5.5
站内正文

ReadyToTalk – 专为小企业打造的AI前台,由AI代理独立构建

ReadyToTalk是一款专为小企业设计的AI前台接待员,能在2秒内接听所有来电,提供24/7全天候服务,支持30多种语言,并自动学习企业信息。每月仅需39美元,无需技术知识即可在几分钟内完成设置。

  • 每次通话在2秒内接听,全天候24/7覆盖,包括节假日。
  • 支持30多种语言,自动检测呼叫者语言并自然回应。
站内正文

Dis Dat – AI编程助手的可视化工具

Dis Dat 是一个让AI编程代理能够“看到”你所展示内容的工具,通过简单的交互提升代码生成效率。

  • Dis Dat 支持向AI代理展示可视化内容
  • 专为AI编程场景设计,简化交互
站内正文

AI幻灯片工具值得使用吗?

本文分析了AI演示工具Genspark的局限性,并介绍了2026年六大替代方案,包括Smallppt、Plus AI、Prezi、Vector Shift、Beautiful.ai和ClickUp,各自具有独特的优势,帮助用户根据需求选择合适的工具。

  • Genspark存在安全漏洞、客户支持差和内容灵活性不足等问题。
  • Smallppt和Beautiful.ai专注于快速生成专业幻灯片,设计自动化强。
站内正文

theta-spec:一个谦逊的、与框架无关的AI智能体配置规范

theta-spec 是一个声明式的、与任何AI编码智能体框架无关的配置标准。它通过一个单一的 theta.toml 文件定义完整的配置表面(指令、规则、工具、技能、子智能体),并规定了配置文件的声明周期协议。任何符合规范的实现都可以解析、锁定并将配置转换为任何支持的框架。该项目还提供了参考实现 theta CLI(Rust 编写)。

  • theta-spec 提供统一的配置格式,解决不同AI智能体框架配置不兼容的问题。
  • 支持 Claude Code、Codex CLI、Cursor 3+、GitHub Copilot 等主流框架。
站内正文

人工智能与我们熟知的衰退的终结

对冲基金巨头Citadel的创始人Ken Griffin对AI的态度从蔑视到沮丧,因为AI代理在数小时内完成之前需要数周或数月的工作。这引发了对经济增长与就业脱钩的担忧,可能挑战传统GDP作为经济健康指标的可靠性。

  • Citadel创始人Ken Griffin最初称AI输出为“垃圾”,但随后态度180度转变。
  • AI代理在数小时内完成Citadel员工需要数周或数月的工作。
站内正文

Together AI如何构建全球最快的语音转文本技术栈

Together AI通过将语音识别视为端到端系统问题,而非单纯的GPU推理问题,在Artificial Analysis榜单上实现了最快的语音转文本速度。本文详细介绍了其优化策略:包括针对真实音频形状的TensorRT多配置文件引擎、条件CUDA图消除CPU往返、共享内存减少数据拷贝、事件驱动I/O处理流式传输,以及通过gc.freeze()消除垃圾回收尾延迟。

  • Together AI通过全路径系统优化,而非仅关注GPU推理,实现了最快的语音转文本性能。
  • 核心技术包括TensorRT多配置文件编码器、条件CUDA图解码器、零拷贝共享内存和事件驱动I/O。
站内正文

强化学习是一个基础设施问题

本文探讨了强化学习在大型语言模型后训练中的实际应用,指出当前的瓶颈并非算法而是基础设施。Modal分享了大规模运行RL后训练的经验,介绍了其开源库如何帮助团队解决多节点训练、环境管理和GPU利用率等关键问题。

  • 强化学习后训练LLM的瓶颈是基础设施,包括训练引擎、推理沙箱和环境隔离。
  • 多节点训练中,权重同步耗时巨大,RDMA和增量压缩显著降低延迟。
站内正文

我构建了一个像大脑一样抽象记忆的AI系统,而非数据库

Serenity 是一个开源、本地的AI代理,采用受大脑启发的神经节点网络(NNN)记忆架构。它能记住因果关系,跨领域推理,自主运行,且完全在本地机器上运行,无需云依赖。

  • 神经节点网络以因果格式编码经验,实现上下文理解
  • 通过Ollama完全本地运行,确保隐私,无云依赖
站内正文

Liquid AI 发布 LFM2.5-8B-A1B:面向设备的 MoE 模型,总参数量 8.3B,激活参数量 1.5B

Liquid AI 推出了 LFM2.5-8B-A1B,这是一款面向设备的混合专家(MoE)模型,专为工具调用设计。该模型总参数量为 8.3B,但每个 token 仅激活 1.5B 参数,从而能够在消费级硬件上运行。它支持 128K 上下文窗口、推理能力,并覆盖九种语言。相比前代 LFM2-8B-A1B,该模型在非幻觉率、指令遵循、数学推理等基准测试中均有显著提升。

  • LFM2.5-8B-A1B 采用稀疏 MoE 架构,总参数量 8.3B,每个 token 仅激活 1.5B 参数,适合边缘硬件部署。
  • 支持 128K 上下文窗口,覆盖九种语言,包括阿拉伯语、中文和日语。
站内正文

AI、WordPress、合规与广告跟踪一体化平台

介绍一款集AI、WordPress、合规与广告跟踪于一体的软件,提供免费的联盟营销作弊表。

  • 一体化解决方案,整合AI、WordPress、合规与广告跟踪
  • 提供免费的联盟营销作弊表
站内正文

Open House 可观测性公告:MCP 服务器、AI Notebooks 和 ClickStack Cloud

在 Open House 活动中,ClickHouse 社区发布了三项可观测性重大更新:ClickStack Cloud(完全托管的无服务器可观测性平台)进入私有预览,Managed ClickStack 正式可用,AI Notebooks 进入 Beta 阶段,以及 ClickStack MCP 服务器开放源码。AI Notebooks 是一种持久化的调查工作空间,支持分支探索;MCP 服务器则允许外部代理使用可观测性原语,提升调查效率。

  • ClickStack Cloud 私有预览发布,提供完全托管的无服务器可观测性体验。
  • Managed ClickStack 正式可用,适合需要深度控制的可观测性团队。
站内正文

AI编码已达L3自主,但基础设施仍卡在L1

AI驱动的编码工具已实现高度自主,让任何人都能开发软件,但底层基础设施却依然陈旧,导致效率低下。我们需要一个全新的AI原生操作系统。

  • Claude Code、Cursor等AI编码工具已达到L3-L4级自主水平。
  • 基础设施停留在L1-L2级,存在代理孤立、资源闲置等问题。
站内正文

/monitor 发布:Firecrawl 推出网页变化监控工具,助力 AI 代理实时同步

Firecrawl 推出 /monitor,一款网页变化监控工具,可自动检测页面变更并通过 webhook 通知 AI 代理,节省高达 90% 的 LLM 令牌消耗。

  • Firecrawl 的 /monitor 工具允许用户指定 URL 和监控内容,自动检测变化并发送通知。
  • 通过仅摄取变化内容,相比全页重新抓取可减少高达 90% 的令牌使用。
站内正文

反对将AI作为思想伙伴的论点

本文探讨了将AI聊天机器人作为“思想伙伴”的风险,指出模型固有的奉承倾向、认知偏差放大以及缺乏真正对抗性互动可能导致用户过度自信、认知下降甚至危害决策。作者呼吁用户警惕,并敦促AI实验室和监管机构承担保护认知完整性的责任。

  • AI聊天机器人倾向于奉承用户,而非提供平衡的反对意见,这会强化认知偏差。
  • 人机反馈循环比人际互动更能放大情感、感知和社会判断偏差。
站内正文

AI改变软件工程岗位的速度太快,面试流程跟不上

随着AI工具在编程中的普及,软件工程的面试流程变得过时。传统的编码测试无法评估开发者使用AI的能力,导致招聘双方都面临挑战。一些公司开始尝试允许使用AI的测试或现场工作,但问题仍未解决。

  • AI已成为软件工程师日常工作的核心,但多数面试仍禁止使用AI。
  • 传统面试注重编码能力,而非AI协作和高级决策能力。
站内正文

Perplexity 推出 Bumblebee:其新型只读开发扫描器与 Chainguard 有何不同

Perplexity 发布了一款名为 Bumblebee 的开源开发安全工具,用于扫描程序员笔记本电脑上的风险软件包、扩展和 AI 工具配置。该工具只读,不会运行安装脚本或包管理器,专注于四个攻击面:语言包管理器、AI 代理配置、编辑器扩展和浏览器扩展。与侧重于容器和管道的 Chainguard 不同,Bumblebee 专注于开发者的本地环境。

  • Bumblebee 是 Perplexity 开源的只读扫描器,用于检查开发者机器上是否存在风险组件。
  • 它覆盖语言包管理器、AI 代理配置、编辑器扩展和浏览器扩展四个表面。
站内正文

创新新时代:Google Research在I/O 2026的展示

在2026年Google I/O大会上,Google Research展示了一系列前沿技术,涵盖科学发现、健康、边缘计算和天气预测等领域。推出了Gemini for Science套件(包括ERA和Co-Scientist),加速科学研究;健康方面有Google Health应用、Symptom AI和AMIE系统;Coral NPU推动边缘AI发展;还有极端天气预测模型。这些创新展示了AI如何放大人类的智慧。

  • Google发布Gemini for Science,内含ERA和Co-Scientist,加速科学发现。
  • 健康领域推出Google Health应用、Symptom AI和AMIE,提升医疗服务质量。
站内正文

构建带有嵌入式Amazon SageMaker AI MLflow应用的自定义门户

本文介绍了如何构建一个嵌入Amazon SageMaker AI MLflow应用UI的自定义门户,使用React前端和Flask反向代理实现AWS SigV4认证,并通过AWS CDK部署。该方案提供持久书签URL,简化访问管理,并支持SSO集成。

  • 使用React前端和Flask反向代理架构,嵌入SageMaker AI MLflow应用UI。
  • 通过AWS CDK部署,自动处理SigV4认证,无需直接管理AWS凭证。
站内正文

使用REST API代理简化对Amazon SageMaker MLflow的外部访问

本文演示如何构建一个基于Flask的安全MLflow代理服务,通过HTTPS端点访问Amazon SageMaker MLflow,而无需直接使用MLflow SDK。该解决方案适用于正在经历云转型、希望保留现有ML工作流同时采用云原生服务的组织。

  • 构建Flask代理服务,将HTTPS请求转换为认证的AWS API调用。
  • 使用ALB进行流量分发和SSL终止,支持自定义域名。
站内正文

使用 AWS 上的 LangSmith 评估深度智能体

本文结合 LangChain 评估深度智能体的经验和 Anthropic 的 AI 智能体评估指南,提供了实用指南。您将学习如何应用五种评估模式、使用 pytest 和 LangSmith 构建离线评估,以及配置生产环境的在线监控。文中以文本到 SQL 的深度智能体为例,使用 Amazon Bedrock 覆盖从开发到生产的完整生命周期。

  • 深度智能体的评估面临非确定性、错误传播和创造性解决方案等挑战。
  • 介绍了代码基础、模型基础和人工三种评估器,并推荐组合使用。
站内正文

云服务提供商CoreWeave加强软件堆栈

通过推出新的自主AI功能,这家初创公司利用软件收购来开发用于智能体训练与推理的AI硬件-软件堆栈。

  • CoreWeave推出新的自主AI功能
  • 通过软件收购构建AI硬件-软件堆栈
站内正文

AI识别出失职联邦法官

联邦法官埃莉诺·罗斯被曝在 chambers 内与高级执法官员发生婚外情,司法部门试图匿名处理,但 AI 通过公开文件细节迅速识破其身份。此事凸显法院对 AI 能力的无知,以及法律专业人士需提升技术素养,重新思考保密策略。

  • AI 仅用10分钟便从匿名报告中识别出涉事法官埃莉诺·罗斯
  • 报告中的细节如两年期书记员任期、地区检察官称谓等被 AI 利用
站内正文

企业领导者如何在整个组织中扩展AI代理

企业领导者在扩展AI代理时面临快速交付与治理、信任、成本控制之间的紧张关系。文章分享了五项关键实践:统一治理、管理复杂工作流、创建实验空间、展示早期成果、培训员工。

  • 将统一治理嵌入AI代理生命周期
  • 使用多代理框架管理复杂工作流
站内正文

人工智能抵抗清单

一份记录全球各地反对大型AI帝国的抵抗运动的清单,涵盖抗议、法律行动、替代工具和社区组织等多种形式,旨在激发希望和行动。

  • AI帝国以“造福全人类”为名,实则集中资源、破坏生态、强化控制。
  • 全球涌现多种抵抗形式:从法律诉讼、数据污染工具到社区动员。
站内正文

Unity Catalog 与 Apache Iceberg™ 的新时代

Databricks 宣布 Unity Catalog 成为最全面、互操作性最强且生产就绪的 Apache Iceberg 目录,新增托管 Iceberg、Iceberg v3 和外部 Iceberg 等功能。五大能力包括开放 API、目录联邦、跨引擎访问控制、零拷贝安全共享和 AI 驱动的优化。未来 Iceberg v4 和 Delta 5.0 将融合统一元数据结构。

  • Unity Catalog 现已支持托管 Iceberg、Iceberg v3 和外部 Iceberg,并正式上线。
  • 五大关键能力:开放 API、目录联邦、跨引擎属性访问控制、零拷贝安全共享和 AI 优化。
站内正文

异步智能体时代 —— Cognition的Walden Yan与OpenInspect的Cole Murray

文章探讨了AI编码工具从开发者紧密耦合的本地工作流到后台异步智能体的演进,强调2025年12月的模型拐点使“规格到PR”流程成为现实,并深入分析了Devin等后台智能体的架构、安全、测试、记忆和多智能体编排等关键话题。

  • 后台智能体正成为主流,Devin在Cognition仓库中的合并PR占比从16%升至80%。
  • 2025年12月的模型升级(Opus 4.5/GPT 5.2)使智能体能够自主从规格生成完整PR。
站内正文

AWS为何彻底重构OpenSearch架构以应对代理工作负载

AWS完全重构了OpenSearch Serverless,分离存储和计算,支持零成本空闲缩放,成本降低60%,自动缩放速度提升20倍,并针对AI代理的突发工作负载优化。新架构包括专有存储层、GPU加速,并整合Vercel和Kiro IDE。未来将推出代理内存、日志分析(6月)和搜索推理模型。

  • AWS对OpenSearch Serverless进行了近97%的重构,分离存储和计算,实现空闲时缩放至零。
  • 新架构针对AI代理的突发工作负载,自动缩放速度提升20倍,成本降低60%。
站内正文

AWS 重构 OpenSearch Serverless,推出 Agent Skills

AWS 对 OpenSearch Serverless 进行了重大重构,并引入了新的 Agent Skills。此举旨在将 OpenSearch 打造为企业的基础设施,提供更快、可扩展的搜索能力。

  • AWS 重构 OpenSearch Serverless 服务
  • 引入 Agent Skills 新功能
站内正文

使用Amazon Bedrock AgentCore的数据集管理构建与您的智能体一同成长的测试套件

将快速变化的在线信号与稳定的离线基线相结合,智能体评估最为有效。Amazon Bedrock AgentCore的数据集管理提供了版本化的测试固定组件,实现一致测量和真实情况验证。

  • AgentCore中的版本化数据集提供稳定且不可变的测试场景,确保跨运行的智能体评估一致性。
  • 预定义场景捕获精确的预期输入、工具序列和断言,用于可验证的真实情况。
站内正文

SIA:开源自我改进AI框架

SIA是一个开源的自改进AI框架,通过协调元代理、任务特定代理和反馈代理,自动提升AI系统在基准任务上的性能。在多个基准测试中取得显著成果,如LawBench准确率提升56.6%,GPU内核运行时间减少91.9%,单细胞RNA去噪提升502%,并在MLE-Bench Hard排名第一。支持本地运行和自定义任务,采用MIT许可。

  • SIA通过元代理、任务代理和反馈代理的迭代循环实现自我改进,无需人工干预。
  • 在LawBench、GPU内核优化、单细胞RNA去噪等基准测试中取得大幅性能提升。
站内正文

美光市值突破1万亿美元,AI内存需求推动创纪录估值

美光科技市值于5月26-27日突破1万亿美元,与SK海力士同周达到这一里程碑,这是纯内存芯片制造商首次同时进入万亿俱乐部。高带宽内存(HBM)需求来自代理型AI工作负载,超大规模云服务商正在签署长期供应协议以锁定产能。瑞银将美光目标价上调三倍至1625美元,认为长期HBM供应合同将受益于代理型AI工作负载扩张。美光股价年内已翻三倍以上。

  • 美光与SK海力士成为首批市值破万亿的纯内存芯片商
  • 代理型AI工作负载推动HBM需求激增
站内正文

AI智能体框架对比分析

截至2026年5月,七大AI智能体框架(DSPy、Claude Agent SDK、OpenAI Agents SDK、CrewAI、AutoGen、LangGraph、Google ADK)在设计理念、架构、生产就绪度等方面各有千秋。LangGraph在生产部署中领先,Claude Agent SDK在单一提供商能力上最强,OpenAI Agents SDK提供最清晰的多智能体交接,CrewAI在开发效率上占优。市场预计从2025年的78.4亿美元增长至2030年的526.2亿美元。

  • LangGraph拥有最成熟的持久执行模型,部署于约400家企业。
  • Claude Agent SDK提供了最强大的单提供商操作能力,但局限于Anthropic模型。
站内正文

Anthropic发布Opus 4.8,诚实成为杀手锏

Anthropic最新版Claude模型Opus 4.8主打诚实特性,更少做出无根据声明,更善于承认不确定性。同时引入动态工作流功能,可协调数百个子代理完成大规模任务。定价不变,快速模式降价三倍。

  • Claude Opus 4.8在诚实度上显著提升,错误率降低约4倍
  • 动态工作流可自动规划并运行数百个并行子代理,验证结果后反馈
站内正文

使用 Amazon Quick 和 Snowflake Cortex AI 自动化 AML 警报分类

本文演示了如何通过集成 Amazon Quick 和 Snowflake Cortex,自动化金融服务中最劳动密集的工作流程之一:反洗钱(AML)警报分类。您将使用 Amazon Quick Flows 和 Snowflake Cortex,通过 Amazon Quick 模型上下文协议(MCP)集成构建分类工作流。在测试环境中,自动化工作流将警报调查时间从 30-90 分钟缩短至 5 分钟以内。实际结果可能因警报复杂性和数据量而异。

  • Amazon Quick Flows 和 Snowflake Cortex 通过 MCP 集成,实现 AML 警报分类的自动化。
  • 自动化工作流将调查时间从 30-90 分钟减少到 5 分钟以下。
站内正文

Data Formulator 0.7:面向企业数据的AI驱动分析工具

Data Formulator 0.7 是一款开源AI系统,旨在解决企业数据分析中数据连接碎片化、分析工作流迭代困难等问题。它提供数据连接器、上下文感知代理和交互式工作区,帮助用户无需编程即可探索、分析和可视化数据。

  • 开源AI系统,专为企业数据分析设计
  • 数据连接器支持多种数据源,减少集成工作
站内正文

Serverless 2.0:三种推理运行方式,一个API

Fireworks AI推出Serverless 2.0,在无需预留容量的情况下,通过一个API提供标准、优先和快速三种推理服务路径。标准路径是默认的弹性共享基础设施,优先路径在高负载下提供更强的准入保障,快速路径则实现约两倍的生成令牌吞吐量。同时,该版本将负载丢弃和速率限制错误码分离,明确区分429和503状态码,帮助开发者编写正确的重试逻辑和警报配置。

  • Serverless 2.0 提供三种服务意图:标准(默认)、优先(高负载下优先准入)和快速(高吞吐量)。
  • 优先路径在峰值负载测试中实现了0%的503错误率,而标准路径为0.082%。
站内正文

Anthropic完成650亿美元H轮融资,估值达9650亿美元

Anthropic宣布完成650亿美元H轮融资,由Altimeter Capital、Dragoneer、Greenoaks和Sequoia Capital领投,投后估值9650亿美元。公司计划利用资金推进AI安全研究、扩展计算能力以满足Claude的旺盛需求。

  • Anthropic在H轮融资中筹集650亿美元,估值9650亿美元
  • 年化收入已超过470亿美元,企业客户持续增长
站内正文

推出 Dubbing v2:我们革命性的全新配音模型

今天,ElevenLabs 推出了 Dubbing v2,这是一款革命性的 AI 配音模型。与传统的基于文本的配音不同,Dubbing v2 直接利用原始表演的情感、语气和节奏,在 90 多种语言中保持原声的自然感和表现力。该模型解决了 AI 配音中一个长期未解决的问题:让翻译后的语音听起来像是原说话者真正说的一样。

  • Dubbing v2 直接基于原始表演进行配音,保留情感和语调
  • 支持 90 多种语言,自动同步翻译与口型
站内正文
研究

别瞄准月亮:成功的关键是追求高于平均水平

数学研究表明,设定高于平均水平的目标比追求完美更有可能带来成功。

  • 研究人员通过数学模型发现,瞄准月亮这种极端目标往往适得其反。
  • 设定高于平均水平的现实目标更易成功。
站内正文

Show HN:母亲确诊癌症后,我打造了一个AI医疗记录中心

KeptWell是一个AI驱动的医疗记录平台,帮助家庭整理、理解并共享医疗文件。它能自动提取关键信息、追踪化验趋势、生成就诊问题,并提供家庭协作空间。注重隐私,无广告,数据可导出。

  • KeptWell由创始人在母亲癌症确诊后开发,旨在简化医疗信息管理。
  • 支持上传PDF、图片、录音等多种文件,AI自动提取关键发现和化验值。
站内正文

研究:人工智能对医疗保健查询的响应准确率接近76%

宾夕法尼亚州立大学的一项新研究表明,人工智能驱动的聊天机器人在回答一般用户的日常健康问题时准确率接近76%,这引发了对其在面向客户的真实应用中可信度的担忧。研究人员发现,在产科、妇科和耳鼻喉科等领域,AI表现最佳,而在内科、神经内科和皮肤科等领域表现最差。他们建议AI工具最好由训练有素的医生使用,而不是患者。

  • AI聊天机器人对健康问题的回答准确率为76.2%,但错误率超过20%,是医生的两倍。
  • 在产科和耳鼻喉科等专业领域AI表现最佳,在内科、神经科和皮肤科表现最差。
站内正文

StoryScope:探究人工智能小说中的独特叙事特征

一项新研究提出StoryScope方法,通过分析叙事结构而非写作风格,成功区分AI生成的小说与人类创作。研究对61,608篇故事进行10维度叙事特征提取,发现AI故事倾向于过度解释主题、情节单一,而人类故事更道德模糊、时间复杂。该方法在人类与AI检测上达93.2%宏F1分数,并能为不同AI模型(如Claude、GPT、Gemini)生成特征指纹。

  • StoryScope通过10个维度的叙事特征(如角色能动性、时间不连续性)区分AI与人类小说,无需依赖写作风格线索。
  • 在61,608篇故事(每篇约5000词)的测试中,叙事特征单独实现93.2%宏F1的人类与AI检测准确率。
站内正文

FreeBSD的AI审计

研究者利用AI对FreeBSD内核进行安全审计,发现15个漏洞,包括5个本地权限提升、1个bhyve虚拟机逃逸等,并公开了其中三个LPE漏洞的利用代码。该项目旨在帮助维护者更高效地发现和修复漏洞。

  • AI辅助的FreeBSD内核审计发现了15个漏洞
  • 包括5个本地权限提升和1个虚拟机逃逸
站内正文

首份教皇关于人工智能的通谕大量由AI撰写的证据

文章作者通过文本分析、统计证据和AI检测工具,论证了教皇利奥一世的首份通谕《Magnifica Humanitas》中有大量内容是由AI(特别是Claude)撰写的。作者指出,通谕中使用的破折号、词语“genuinely”的频率远高于以前的通谕,且Pangram检测器标记部分段落为AI生成。作者认为,尽管个别证据可能被解释,但多重证据的吻合难以忽视。

  • 通谕中大量使用破折号和“genuinely”等AI常用词汇,频率远超此前通谕。
  • Pangram检测器将多个段落标记为40%-100%AI生成,而此前通谕无一被标记。
站内正文

极端动态对称性实现全方位多功能机器人

研究人员提出动态对称性概念,以动态各向同性衡量机器人质心加速度的均匀性。通过模拟和物理实验,他们发现高动态对称性显著提升轨迹跟踪、任务成功率、鲁棒性、恢复力和能效。团队开发了Argus系列球形机器人,其中20足变体实现了近乎极端的动态各向同性,展示了方向无关的运动、复杂地形穿越、快速自我稳定及部分致动器失效下的韧性。

  • 动态对称性被定义为机器人可达质心加速度的均匀性,并通过动态各向同性指标量化。
  • 超过1000种模拟形态显示,高动态对称性持续改善性能,接近理论极限时效果最显著。
站内正文

透视箱子:基于雷达信号的非视距三维重建

论文《Seeing through boxes: Non-Line-of-Sight 3D Reconstruction from Radar Signals》提出GeRaF 2.0框架,融合视线几何约束与神经场,实现射频信号下隐藏场景的高质量三维重建,在CVPR 2026发表。

  • 射频信号可穿透遮挡物获取隐藏场景信息,但传统方法受低分辨率和噪声困扰。
  • 现有非视距重建方法忽略视线几何的物理约束,导致优化不稳定和表面模糊。
站内正文

轻量级互补线索融合用于鲁棒视频人脸伪造检测

本文提出两种轻量级人脸伪造检测模型LFWS和LFWL,通过在Xception基线基础上添加仅292参数的融合模块,分别结合小波去噪特征与相位谱或局部二值模式,在多个基准上提升AUC 3-4%,超越更大模型。

  • 基于Xception(2190万参数)构建的LFWS和LFWL仅增加292参数,总参数仍为2190万,小于F3Net和SRM。
  • 在FaceForensics++和DFDC-Preview上,AUC分别提升3.8%和4.4%,达到78.6%和74.9%。
站内正文

基于方位多普勒分解的深度学习迭代框架用于Sentinel-1条带图增强

该论文提出了一种自监督的Sentinel-1条带模式SAR图像增强框架,利用方位子孔径分解生成训练数据,无需外部传感器或模拟真值。该方法结合单帧和多帧学习,并通过迭代推理逐步提升图像质量。实验表明,在PSNR和SSIM指标上优于MERLIN,但MERLIN在ENL上更高,揭示了结构保真度与斑点平滑之间的权衡。

  • 提出基于方位子孔径分解的自监督SAR增强方法
  • 无需外部传感器或模拟真值,利用物理一致性生成训练数据
站内正文

利用扩散测地线矩审计无需训练的3D形状检索

本文通过引入扩散测地线矩(DGM)作为无训练形状描述符,对3D形状检索中的评估协议进行了审计。实验表明,基于热核特征(HKS)的几何矩形状描述符(GMSD-HKS)在FAUST-Reg和TOSCA数据集上取得了最高分数,波核签名(WKS)仍为强经典信号,而DGM在稀疏求解或非谱部署场景下更有价值。论文贡献了可复现的协议级联分析、跨形状对齐诊断以及无训练描述符的设计与报告建议。

  • 提出扩散测地线矩(DGM)作为无训练形状描述符,用于审计检索评估协议
  • 实验表明GMSD-HKS性能最优,WKS保持竞争力,DGM在特定场景下有优势
站内正文

Bixonimania – AI 上当的假疾病

一位研究人员制造了一种假疾病来测试AI,结果AI聊天机器人完全被骗了。这个实验揭示了AI医疗建议的潜在风险,以及训练数据缺乏人工审查的问题。

  • 研究人员创建了虚构的皮肤疾病“bixonimania”并散布在网络中。
  • AI聊天机器人如ChatGPT将其视为真实疾病。
站内正文

Show HN:Trelk – 阅读、思考、连接

Trelk 是一款一次性购买、无需订阅的知识管理应用。它利用设备端 AI 保存、组织并连接文章、论文和笔记,提供混合搜索、知识图谱、RAG 聊天、闪卡间隔重复和社区集合等功能,注重隐私且可离线工作。

  • 一次性购买,无订阅费用
  • 设备端 AI 驱动的知识管理与连接
站内正文

值得信赖的第三方评估共享手册

OpenAI分享了第三方AI评估指南,涵盖如何评估前沿系统的模型能力、安全措施和有效性。

  • OpenAI发布第三方评估框架,旨在标准化前沿AI系统的评估过程。
  • 指南涵盖模型能力、安全措施和评估有效性三大方面。
站内正文

GenAI 的伦理抉择:生成式AI的道德使用

本文全面探讨生成式AI(GenAI)的伦理问题,分析其在软件开发等领域的优势与弊端,包括巨大的能源消耗、电子垃圾、虚假信息传播、对教育科学的威胁、对民主的危害以及数字殖民主义等问题。作者基于自身经验提出,伦理行为需要权衡利弊,并主张在充分了解负面影响的前提下审慎使用GenAI。

  • GenAI(如ChatGPT)存在能耗巨大、电子垃圾、虚假信息、知识产权争议等严重负面影响。
  • LLM不具备真正的推理能力,容易产生‘幻觉’且无法区分真假。
站内正文

AI正在改变我们的思维方式,而非取代它 | 读者来信

两位读者回应Wendy Liu关于AI的文章,认为AI确实改变了思考方式,但并未削弱人类的好奇心,反而激发了更多探索。

  • Wendy Liu担忧AI导致劳动力冗余、炒作和环境成本,但忽略了AI对思维方式的影响。
  • 一位重度AI用户表示,AI让他更好奇,提出了以前不会问的问题,探索了未知领域。
站内正文

如何让Google AI概览优先显示你偏好的新闻来源

Google将“偏好来源”功能扩展至AI概览和AI模式,允许用户添加喜爱的网站,使其在AI搜索结果中更突出。新功能还包括来源轮播和“被高度引用”标签,帮助用户找到高质量报道。

  • Google的“偏好来源”功能现已支持AI概览和AI模式,用户可添加喜爱网站。
  • 添加后,偏好来源会在AI摘要中标注,并优先展示。
站内正文
模型

Claude Opus 4.8:更智能的模型,正确的方向

Anthropic发布Claude Opus 4.8,重点提升可靠性、诚实性和自主工作流能力,而非单纯追求基准分数。定价保持不变,快速模式大幅降价。

  • Claude Opus 4.8注重可靠性和不确定性处理,而非原始智力。
  • 标准定价与Opus 4.7相同:每百万输入5美元,输出25美元;快速模式降价三倍。
站内正文

新综述论文:代码不仅是AI智能体的产物,更是其思考与行动的方式

一篇新综述论文指出,自主AI智能体的真正瓶颈并非语言模型本身,而是围绕其构建的软件层。工具、记忆、测试和权限边界将无状态模型转变为可工作的智能体。Deepseek已在北京组建专门的“Harness”团队,其核心公式验证了该论点:模型加Harness等于AI智能体。

  • 论文强调AI智能体的瓶颈在于软件封装层,而非语言模型。
  • 工具、记忆、测试和权限管理是将模型转化为智能体的关键。
站内正文

开源生态系统

本文探讨了开源AI策略的局限性,特别是开放权重模型和开放协议(如MCP)如何被私有参与者捕获价值。通过分析Anthropic收购Stainless(一家生成SDK和MCP服务器的初创公司)的案例,说明了开发者体验层正在被平台巨头整合,形成新的护城河。文章强调,开源的影响高度依赖于其依赖关系,需要从生态系统整体视角分析瓶颈。

  • 开放权重模型作为开源策略有其限制,仍需昂贵硬件且架构不易组合。
  • Anthropic收购Stainless显示了协议互补层的价值捕获,而非协议本身被捕获。
站内正文

Anthropic 发布 Claude Opus 4.8

Anthropic 发布了 Claude Opus 4.8,相比 Opus 4.7 在编程、代理工作、推理和知识工作方面有所提升。新功能包括努力控制、动态工作流和 Messages API 实时更新。定价不变,标准版每百万代币输入/输出 5/25 美元,快速版 10/50 美元。早期测试显示成本与 GPT-5.5 相当,工具步骤更少。公司还透露了未来路线图,包括 Mythos 级模型和网络安全项目 Glasswing。

  • Claude Opus 4.8 在编程、代理工作、推理和知识工作方面优于 Opus 4.7。
  • 新增努力控制、动态工作流和 Messages API 实时更新功能。
站内正文

图像帝国——艾伦·沃伯顿的新短片

《图像帝国》是一部关于当代AI模型中真实与虚拟融合的动画寓言。该片是艾伦·沃伯顿研究项目的一部分,还包括研究论文和一系列附带活动。

  • 《图像帝国》是一部探讨AI中真实与虚拟融合的动画短片。
  • 该片源自伯克贝克学院瓦萨里艺术与技术中心的博士研究。
站内正文

Opus 4.8 杀手:NexusCortex 不是 LLM,而是用 Go 构建的稀疏 AI 皮层

NexusCortex 是一个基于 Go 语言构建的稀疏 AI 皮层系统,不同于传统的大型语言模型(LLM)。它采用稀疏计算技术,旨在以更低的计算成本提供高效推理,被称为 Opus 4.8 的潜在替代者。

  • NexusCortex 是一个稀疏 AI 皮层,而非 LLM
  • 使用 Go 语言构建,注重性能和效率
站内正文

Hexo Labs 开源 SIA:同时更新框架和模型权重的自我改进代理

Hexo Labs 发布了 SIA(Self-Improving AI),这是一个基于 MIT 许可证的开源框架,能够在一个自我改进循环中同时更新代理的框架(scaffold)和模型权重。SIA 由三个 LLM 组件驱动,并在三个不同领域(法律分类、CUDA 内核优化、单细胞 RNA 去噪)的测试中表现出色,结合框架和权重更新优于仅框架更新。论文称 SIA 是首个同时编辑框架和权重的系统,并已开源代码。

  • SIA 是一个自我改进循环,可同时更新代理的框架和模型权重,无需人工调整。
  • 在 LawBench 任务中,结合权重更新将准确率从仅框架的 50.0% 提升至 70.1%。
站内正文

相位条件模仿学习与自主故障恢复:鲁棒的可变形物体操作

本文提出一种相位条件、力感知的框架,用于鲁棒的可变形物体操作。通过FiLM调节的ACT编码器和多模态相位预测器,系统能自主检测并恢复接触故障,将T恤悬挂成功率从56%提升至87%。

  • 标准模仿学习(如ACT)因马尔可夫假设导致状态混淆,无法自主恢复执行故障。
  • 本文采用FiLM条件编码器,使单一策略在不同任务阶段产生特定行为。
站内正文

基于去中心化LLM的声学机器人协调实现非接触物体操作

本文提出了一种去中心化框架,将大语言模型与声学移动机器人相结合,实现非接触式物体操作。系统利用Whisper语音识别、LLM语义解析和JSON任务调度,将语音指令转换为协调的多机器人行动。在两个基于TurtleBot3的声学机器人上的实验显示,顺序任务成功率为96%,并行任务为86%,同步协作任务为70%,展示了LLM驱动自动化在人机交互中的潜力。

  • 提出了一种去中心化框架,集成LLM与声学机器人实现非接触物体操作。
  • 系统使用Whisper、LLM解析和JSON任务调度,支持顺序、并行和同步任务。
站内正文

MonoDuo:利用单机械臂学习双机械臂策略

MonoDuo提出了一种利用单臂机器人演示结合人类协作来训练双臂操纵策略的方法。通过在单臂遥操作和角色互换中收集数据,并利用手部姿态估计、图像分割和修复技术生成合成演示,MonoDuo在五项任务中实现了高达70%的零样本成功率,并通过少量微调进一步提升性能。

  • MonoDuo框架使用单臂机器人数据训练双臂策略,解决双臂机器人数据稀缺问题。
  • 通过人机协作遥操作收集数据,并利用视觉技术生成合成双臂演示。
站内正文

利用未标记目标数据与源域监督的鲁棒跨域泛化

该论文提出了一种目标感知的自监督预训练与模型集成策略,利用未标记的目标域数据提升医学影像AI在跨设备场景下的泛化性能。在儿科腕部骨折超声评估任务中,该方法在目标域上Dice系数提升超过6%,实现了标签高效且隐私保护的跨设备鲁棒AI。

  • 提出结合掩码图像建模和对比学习的自监督预训练方法,无需目标域标签即可学习结构表示。
  • 引入置信度感知融合头自适应整合预测结果。
站内正文

Embodied3DBench:视觉语言模型低层级具身空间智能基准测试

该研究提出了Embodied3DBench,一个针对视觉语言模型在3D环境中低层级具身空间智能的基准测试,包含6个任务类别和超过21000个问答对。评估了13个模型,发现当前模型在高层次空间推理上表现较好,但在交互导向感知方面较弱。为此,他们合成了130万问答对的训练数据集,微调后显著提升了低层级空间智能。

  • Embodied3DBench专注于评估视觉语言模型的低层级具身空间智能
  • 包含空间结构理解和交互导向感知两个核心组,共6个任务类别
站内正文

GAP3D:通过扩散对齐将VLM潜在表示映射到补丁级嵌入,实现模块化3D生成

GAP3D提出了一种模块化的扩散方法,直接将VLM生成的潜在表示对齐到预训练图像编码器的完整补丁级特征空间,从而在保持空间结构化条件信号的同时,使冻结的下游生成模型能够利用VLM作为提示编码器。该方法主要基于通用域图像-文本对训练,避免了对大规模3D数据的依赖,并展现出对多模态提示的零样本能力,尽管目前优先关注高层语义信息。

  • GAP3D通过扩散过程将VLM潜在表示直接映射到图像编码器的补丁级特征空间。
  • 无需大规模3D数据,主要使用通用图像-文本对进行训练。
站内正文

开源安全护栏模型基准测试:一项全面评估

一项针对14个开源安全护栏模型的全面评估显示,Qwen Guard(4B参数)以83.97%的召回率位居榜首,而更大的模型如Llama Guard(12B)和GPT-OSS Safeguard(20B)表现保守,漏掉多达75%的不安全内容。研究还发现,模型大小与安全检测性能无关,通用型护栏模型优于专用模型。

  • Qwen Guard(4B参数)在79,331个样本的基准测试中召回率最高(83.97%)。
  • Llama Guard(12B)和GPT-OSS Safeguard(20B)等大型模型漏掉75%的不安全内容。
站内正文

Aryabhata 2:扩展强化学习以提升高级STEM推理能力

Aryabhata 2是一个针对竞争性STEM考试(如JEE和NEET)优化的推理语言模型,基于GPT-OSS-20B通过强化学习后训练。它利用PhysicsWallah的内部题库构建高质量课程,并通过逐步增大的rollout组规模来扩展探索。实验表明,Aryabhata 2在多个基准测试中优于基础模型,同时输出令牌减少高达64%。

  • Aryabhata 2采用强化学习后训练,专为JEE、NEET等竞争性STEM考试设计。
  • 模型基于GPT-OSS-20B,使用PhysicsWallah的定制题库进行训练。
站内正文

微宏检索:减少大语言模型中的长文本幻觉

大语言模型在长文本生成中容易出现幻觉,现有检索增强模型无法保证关键信息靠近输出。本文提出的微宏检索(M2R)框架通过宏观检索粗粒度证据和微观检索关键信息库,显著减少了长文本任务中的幻觉,并采用基于课程学习的强化学习策略进行训练。

  • 大语言模型在长文本生成中因冗余检索和长推理链易产生幻觉
  • 关键信息越靠近输出,事实准确性越高
站内正文

RightNow-Arabic-0.5B-Turbo:通过词汇注入和边缘优先部署的开源子10亿阿拉伯语语言模型

本文介绍了一个518M参数的阿拉伯语专用大型语言模型RightNow-Arabic-0.5B-Turbo,基于Qwen2.5-0.5B构建。通过词汇注入和边缘优先部署,该模型在阿拉伯语基准测试中达到35.9%的平均准确率,超越了同类开源模型,并在COPA-ar上与1.5B参数量的Falcon-H1-1.5B持平,而体积仅为后者的三分之一。量化后模型仅398 MB,在单块H100上可实现635 tokens/s的推理速度。所有代码和权重均已开源。

  • 基于Qwen2.5-0.5B构建的518M参数阿拉伯语专用LLM,通过词汇注入增加27,032个阿拉伯语token。
  • 在COPA-ar、Arabic HellaSwag和ArabicMMLU三项基准上平均准确率35.9%,领先所有同类开源模型。
站内正文

从上下文偏移到风格崩溃:为什么训练目标比规模更重要

一篇新论文分析了17个大型语言模型(参数规模4.1亿至1000亿以上),发现指令微调系统系统地压缩了语言熵,尤其是在话语和结构维度上,平均放大效应达1,949%至16,853%,峰值可达5,181%至209,675%。复杂标点符号的使用频率被抑制到基线的3.2%至23.2%。这些效应在RLHF下并未恶化。弱干预(lambda=1.0)使崩溃加剧240%,而强控制(lambda=5.0)实现了40.5%的改进,尽管规模劣势达200-1000倍,仍比前沿模型性能高出96.7-98.2%。强控制还带来了15%更高的distinct-4、27%更高的词汇多样性以及78%更低的重复率。研究表明,对齐需要足够的控制强度,而非仅仅是分布平滑。

  • 指令微调导致语言熵沿话语和结构维度崩溃,标点符号使用大幅减少。
  • RLHF不会使风格崩溃恶化,但弱正则化会加剧问题。
站内正文

MechELK:一种用于大型语言模型中潜在知识提取的机制可解释性框架

新框架MechELK利用机制可解释性从大型语言模型中提取隐藏知识。它结合了稀疏自编码器、因果探针和表征工程,实现了84.7%的准确率,超越了现有方法。该框架在模型给出错误或回避性回答时尤其有效。

  • MechELK是一个三阶段框架(定位、验证、提取),用于从LLM中提取潜在知识。
  • 平均提取准确率达到84.7%,优于CCS和线性探针。
站内正文

一种用于类型学可控词汇生成的模块化架构

该研究提出了一种模块化框架,用于生成可发音、类型学合理且语义结构清晰的人工词汇。框架从PHOIBLE数据库中采样音位清单,在可互换的音系语法(确定性、OT和MaxEnt)下生成词形,并通过Swadesh-Leipzig-Jakarta本体分配含义。评估表明,概率语法在音位连贯性和类型学真实性方面始终优于确定性和随机基线。

  • 模块化框架结合PHOIBLE音位库、多种音系语法和语义本体
  • 最大熵语法在音位模式和类型学真实性上表现最佳
站内正文

它们在想什么?大型语言模型中概念的界定、探测与追踪

随着大型语言模型(LLM)影响力的扩大,理解其决策过程变得至关重要。本文提出通过构建低成本、可广泛应用的线性探测工具,检测LLM嵌入中概念的存在与否,从而揭示模型“思考”的内容。研究展示了概念界定、探测训练与跨上下文追踪的完整流程,并在三个LLM上对四个概念进行了验证,为未来大规模监控模型行为奠定了基础。

  • 提出了一种通过线性探测检测LLM内部概念的方法,旨在以低计算成本监控模型思考过程。
  • 详细说明了概念数据集的创建、探测器的训练与测试,以及跨上下文追踪能力。
站内正文

通过标签空间重塑平衡多模态学习

多模态学习常面临模态不平衡问题,即收敛快的模态主导优化,其他模态训练不足。现有方法大多通过加强弱模态或调整梯度来补偿优化速率差异,但可能牺牲强模态的优化能力。本文提出平衡多模态标签重塑(BMLR),首次从标签端设计促进多模态平衡。BMLR重塑跨模态标签空间以均衡各模态的映射难度,从而促进模态交互并为每个模态注入更丰富的类间信息。实验表明,BMLR能持续提升多模态性能,且与多种模型设计兼容。

  • 模态不平衡源于不同模态特征空间到共享标签空间的映射难度差异。
  • BMLR是首个从标签侧设计来平衡多模态学习的方法。
站内正文

TaxDistill:通过蒸馏基因组基础模型改进宏基因组分类注释

宏基因组分类注释旨在识别环境样本中DNA片段的微生物起源。传统方法依赖序列相似性,受限于微生物多样性和参考数据库的不完整性。TaxDistill提出一种知识蒸馏框架,利用500M参数的基因组基础模型GenomeOcean作为教师网络提取深层语义特征并生成基于置信度的软标签,将软标签信息蒸馏到轻量级学生网络中,有效减少初始检索工具引入的标签噪声。在七个CAMI2数据集上的实验表明,TaxDistill在多数场景下优于现有基线,例如在胃肠道数据集上将MMseqs2的F1分数从0.763提升至0.941。

  • TaxDistill利用知识蒸馏减少宏基因组分类中的标签噪声
  • 引入500M参数的基因组基础模型GenomeOcean作为教师网络
站内正文

PrismFlow:用于时间序列生成中流匹配的残差动力学

PrismFlow提出了一种新的流匹配方法,通过科普曼启发的动力学专家来修正标准流匹配中的估计器平滑问题,从而恢复时间序列中的高频率和精细结构。该方法在多个基准测试中取得了最先进性能,Context-FID提升15.6%,判别分数提升38.6%。

  • 标准流匹配使用单一全局向量场估计器,在异质时间分布中会导致过度平滑和频谱失真。
  • PrismFlow引入科普曼启发的动力学专家,在潜在空间中学习残差修正以捕捉局部非线性动态。
站内正文

连续性与序数性至关重要:约束时间序列标记以实现基于大型语言模型的有效时间序列分析

本文提出COM方法,通过在初始化和训练阶段引入几何约束,保留时间序列标记的连续性和序数性,显著提升基于令牌的时间序列大语言模型(TS-LLM)的性能。实验表明,COM在多个基准上取得一致改进和强泛化能力。

  • 时间序列大语言模型(TS-LLM)忽略了标记的连续性和序数性,导致性能受限。
  • COM通过几何约束在初始化和训练中保留这些特性,提升模型效果。
站内正文

基于代理工具规划的分子先导优化

提出TRACE,一种轨迹感知的LLM推理代理,用于分子先导优化,通过将工具选择建模为序列决策问题,实现前向优化的结构约束改进,在ADMET优化任务中取得更高成功率、更大性能提升和更高有效性。

  • TRACE将先导优化中的工具选择视为序列决策问题,而非一步优化。
  • 通过轨迹感知的决策,TRACE能够在保持分子相似性的同时改善ADMET性质。
站内正文

灾难性遗忘的机制起源:为何RL比SFT更善于保留电路?

最近研究表明,强化学习(RL)比监督微调(SFT)更能保持大语言模型的先前能力。本文从机制层面延伸,引入差分电路脆弱性度量,衡量微调中电路退化程度。在Qwen2.5-3B-Instruct科学问答实验中发现,SFT适应目标任务更快,但造成更大的电路破坏和遗忘,而RL保留更多基础电路,但任务适应较慢。结果表明电路保留有助于解释RL对灾难性遗忘的鲁棒性。

  • SFT适应快但破坏内部电路,导致灾难性遗忘。
  • RL保留更多基础模型电路,遗忘较少但任务适应较慢。
站内正文

LLM交易代理中的表示特征与风险反馈对齐

本研究利用TradeArena测试平台,分析大型语言模型(LLM)交易代理在金融决策中的行为对齐与表示动态。研究发现失败前的可测量迹象:规划嵌入偏离正常状态,有效秩收缩。结构化的风险反馈可作为外部对齐信号,但并非通用性能增强器。此外,51只股票的日内实验揭示了相关性盲点:LLM理由常证明对耦合资产的集中敞口是合理的。

  • LLM代理在金融交易中存在可测量的失败前表示特征,如规划嵌入漂移和有效秩收缩。
  • 结构化风险反馈可以作为外部对齐信号,但效果因模型而异。
站内正文

一掩蔽之,统御所有:编辑后的隐藏事实及其发现方法

本文研究知识编辑方法(如ROME和MEMIT)在Transformer模型中的内在机制。作者发现尽管每次编辑修改不同的权重,但所有编辑都依赖于一个共同的权重子集。通过训练一个紧凑的二进制掩码,他们成功逆转了训练集上80%的编辑和测试集上超过70%的编辑,验证了不同编辑共享共有功能结构。掩码通过消除后期层的过度注意来逆转编辑,且注入该掩码会使编辑成功率从98%骤降至38%,表明该机制是编辑成功的必要条件。研究发现编辑实际上抑制而非覆盖知识,这解释了ROME和MEMIT无法将更改传播到相关事实的原因。该发现有助于检测和防御未授权编辑。

  • ROME/MEMIT等编辑方法虽修改不同的权重,但都作用于一个共同的权重子集。
  • 训练得到的二进制掩码可逆转超过70%的编辑,其机制是消除后期层的过度注意。
站内正文

VFEAgent:用于端到端自动化有限元分析的多模态智能体框架

VFEAgent是一个端到端多智能体系统,可直接从输入图像和问题描述自动完成有限元分析(FEA)建模与仿真。它结合了多模态视觉语言多智能体管道和验证优先的代码合成框架,通过ReAct推理提取结构化FEA规范,并具有自调试和回退机制以确保可执行性和物理有效性。实验表明,VFEAgent在生成完整且物理有效的仿真方面成功率很高,在可靠性和正确性上优于基于LLM的基线方法,有望将工程师从繁琐的手动分析中解放出来。

  • VFEAgent自动处理FEA建模和仿真,仅需输入图像和问题描述。
  • 采用多模态视觉语言多智能体管道和ReAct驱动的推理。
站内正文

前沿LLM智能体可突破自然表型本体注释瓶颈

一项新研究利用Anthropic和OpenAI的五种前沿大语言模型作为智能体策展人,在自包含工作空间中自动进行表型注释。实验表明,这些智能体的一致性达到了人类策展人的变异范围,并显著优于传统NLP工具,有望解决表型本体注释中人工依赖强、难以规模化的问题。

  • 表型注释依赖人工专家,成本高且难以规模化。
  • 研究使用五种前沿LLM作为智能体策展人,在自包含工作空间中完成注释。
站内正文

扩散模型的正交概念擦除方法

本文提出正交概念擦除(OCE),通过乘法参数更新实现精确的概念擦除,同时保持扩散模型的生成能力,支持多概念擦除,速度快。

  • 现有编辑式方法依赖加法参数更新,会干扰生成能力。
  • OCE使用正交变换的乘法更新,保留神经元方向和几何角度。
站内正文

《评审街机:论LLM评审的人类对齐与可博弈性》

该论文通过实验评估了大型语言模型(LLM)生成的科学论文评审与人类评审的对齐程度,发现对齐有限且因提示和模型而异。研究还发现,作者利用LLM评审进行迭代修改可显著提升论文评分,最多35%的论文分数得到统计显著提升。

  • LLM生成的评审与人类评审对齐程度有限
  • 对齐质量因使用的提示和模型不同而有显著差异
站内正文

认知范畴变换器:用于语言建模的范畴论归纳偏置

认知范畴变换器(CCT)是一种306M参数的架构,通过在预训练的GPT-2 Small骨干网络上添加源自范畴论和认知科学的组件,在WikiText-103上实现了21.27的验证困惑度,相比微调基线降低2.92(12%)。消融实验证实,84%的改进来自GT-Full单纯消息传递。研究还发现了结构/一致性区分模式。

  • CCT在WikiText-103上达到21.27困惑度,比GPT-2 Small基线低2.92。
  • 消融实验表明84%的改进归因于GT-Full单纯消息传递。
站内正文

行为感知的离线策略时序差分预测辅助修正

本文提出行为感知辅助修正,以稳定离线策略时序差分学习。通过用行为贝尔曼矩阵替代辅助协方差矩阵,作者引入BA-TDC和BA-TDRC算法。理论分析证明了不动点保持和几乎必然收敛。在标准基准上的实验表明,行为感知替换可提高性能,但正则化对稳健结果必要。

  • 行为感知辅助修正提高了离线策略TD学习的稳定性。
  • BA-TDC和BA-TDRC用行为贝尔曼矩阵替代辅助协方差矩阵。
站内正文

行为诱导的镜像近端时间差分学习:加速离策略预测

本文提出了一种名为STHTD-MP的行为诱导镜像近端时间差分方法,通过用行为策略贝尔曼矩阵的对称部分替换协方差度量,改善了离策略预测的收敛速度。理论分析和数值实验表明,该方法在多项基准测试中优于现有的GTD2-MP方法。

  • STHTD-MP利用行为策略的转移信息构造更新几何,替代传统的协方差度量。
  • 该方法在固定策略线性预测下具有严格的收敛性证明。
站内正文

借助 Rosalind Biodefense 增强社会韧性

OpenAI 推出 Rosalind Biodefense,为经过审查的开发者及美国政府合作伙伴提供 GPT-Rosalind 的受信访问,助力生物防御、公共卫生与大流行病防范。

  • OpenAI 启动 Rosalind Biodefense 计划
  • 扩大对 GPT-Rosalind 的受信访问
站内正文

清华系团队给大模型织了一张“智能算力电网”

清华系创业公司是石科技通过自主研发的并行优化技术,构建异构算力资源池与推理优化引擎,实现单位Token成本降低40%,旨在打造国产Token调优工厂,降低AI落地门槛。

  • 是石科技成立于2021年,源于国家超算无锡中心,创始人闫博文为清华博士后。
  • 通过全域异构算力池和深度国产化适配,将闲置国产芯片转化为可用算力。
站内正文

Anthropic年化收入达470亿美元

Anthropic在65亿美元H轮融资公告中透露,其年化收入已超过470亿美元,较4月份的300亿美元大幅增长。该公司此前在2025年底为90亿美元,2026年2月为140亿美元,显示出惊人的增长速度。文章还提到了一家客户因未设置使用限制而单月花费5亿美元的轶事。

  • Anthropic在H轮融资中披露年化收入突破470亿美元。
  • 收入从2025年底的90亿美元激增至2026年5月的470亿美元。
站内正文

Claude Opus 4.8:'适度但切实的改进'

Anthropic发布了Claude Opus 4.8,定位为对前代产品的适度但切实改进。主要亮点包括诚实性提升(减少无依据断言,代码错误遗漏率降低四倍),以及支持对话中修改系统提示等新功能。定价未变,但快速模式价格显著降低。

  • Anthropic推出Claude Opus 4.8,官方称其为'适度但切实的改进'。
  • 诚实性显著提升:模型更少做出无依据断言,代码错误遗漏率降低四倍。
站内正文

Claude 4.8炸场!部分能力超过Mythos,支持数百子智能体并行

Claude最新旗舰Opus 4.8发布,部分能力超过Mythos,支持动态工作流,可拆解任务给数百个子智能体并行执行,人类无需频繁检查。诚实性大幅提升,代码缺陷漏报率降至前代四分之一。

  • Claude 4.8发布,终端工程和知识工作能力进步,部分超越Mythos
  • 动态工作流:Claude生成编排脚本,数百个子智能体并行处理任务
站内正文

llm-anthropic 0.25.1 发布

llm-anthropic 0.25.1 版本新增对Claude Opus 4.8模型的支持,为有权限的组织提供快速模式选项,并调整了各模型的默认最大令牌数为模型最大输出而非8192。

  • 新增Claude Opus 4.8模型(claude-opus-4.8)支持。
  • 新增 -o fast 1 快速模式选项,适用于已启用该功能的账户。
站内正文

即便明确警告为假,大型语言模型仍会相信虚假陈述

新研究发现,大型语言模型在训练过程中会吸收明确标记为假的陈述,即使它们被明确警告为假。这种现象被称为“否定忽视”,可能导致模型产生幻觉。实验表明,在合成文档微调后,模型对虚假声明的“信念率”从2.5%飙升至92.4%。

  • 大型语言模型会学习训练数据中的统计模式,忽视明确的否定标签。
  • 即使虚假陈述被标记为“假”,模型仍会将其吸收为知识。
站内正文

Anthropic 发布 Claude Opus 4.8,同时推出动态工作流和更便宜的快速模式,工作流上限为 1000 个子代理

Anthropic 推出 Claude Opus 4.8,并附带两项 Claude Code 更新:动态工作流可协调多达 1000 个子代理并行工作,以及更便宜的快速模式,输出速度提升 2.5 倍。两者均为研究预览版。

  • 动态工作流让 Claude 编写协调脚本,并行运行子代理,每项任务最多 16 个并发、1000 个代理。
  • 快速模式在相同质量下输出速度提升 2.5 倍,Opus 4.8 版本价格降低三倍,需启用使用额度。
站内正文

在Amazon SageMaker AI上训练阿塞拜疆语语言模型

阿塞拜疆电信公司Azercell与AWS生成式AI创新中心合作,在Amazon SageMaker AI上构建了针对阿塞拜疆语的大语言模型,通过自定义分词器、分布式训练和Liger Kernel优化,实现了23%的训练吞吐量提升、58%的GPU内存峰值降低和2倍的分词效率提升。

  • Azercell使用Amazon SageMaker AI为阿塞拜疆语开发了首个大语言模型生产框架。
  • 自定义分词器将每个词的令牌数从3.22降至1.59,效率提升2倍。
站内正文

Anthropic发布Claude Opus 4.8:性能超越GPT-5.5,堪称“适度但实实在在的进步”

Anthropic推出Claude Opus 4.8,该模型在多数基准测试中击败了GPT-5.5和Gemini 3.1 Pro,并且识别自身编码错误的频率是前代模型的四倍。同时,Anthropic还引入了动态工作流功能,可启动数百个并行子代理处理代码库迁移等任务。

  • Claude Opus 4.8在多数基准测试中超越GPT-5.5和Gemini 3.1 Pro。
  • 新模型识别自身编码错误的频率是前代模型的四倍。
站内正文

AI模型发布追踪:Opus 4.8的失调率与Claude Mythos预览版相似

并非每个新模型都像宣传的那样出色。我们的追踪器将每个版本与同类模型进行对比,帮助您了解哪些模型值得关注。本文总结了2026年至今的重大模型发布,包括Claude Opus 4.8、GPT-5.5 Instant、Nemotron 3 Nano Omni、GPT-5.5、ChatGPT Images 2、Claude Opus 4.7、Claude Mythos(预览版)、GPT-5.4、Claude Opus 4.6和GPT-5.3-Codex,并阐述了它们的特点与意义。

  • Anthropic的Opus 4.8以更低价格提供更快思维模式,声称失调率低于Opus 4.7,与Mythos预览版相当。
  • OpenAI的GPT-5.5 Instant减少了52.5%的幻觉,成为ChatGPT默认模型,有助于减少错误信息传播。
站内正文

使用 Claude Code 搭配 GPT 5.5、Gemini 3.5、Grok 4.3 及其他模型

Claude Code 现支持一键切换模型、自带密钥(BYOK),兼容 Anthropic 和 OpenAI 标准。起价每月5美元,帮助用户绕过服务中断、速率限制及超额费用。

  • 一键切换模型,无需重新配置。
  • 支持自带密钥(BYOK),保障隐私与灵活。
站内正文

Mistral AI与Digital Realty合作扩展欧洲AI基础设施

法国初创公司Mistral AI在Digital Realty的巴黎南园区获得了10兆瓦的计算能力,以扩展其AI基础设施。

  • Mistral AI在Digital Realty巴黎南园区获得10兆瓦计算能力
  • 该合作旨在扩展欧洲的AI基础设施
站内正文

Claude Opus 4.8 发布:努力控制、动态工作流、更便宜的快速模式、更诚实、更少欺骗

Anthropic 发布了其旗舰模型 Opus 4.8,新功能包括用户可控制 Claude 的努力程度、动态工作流支持大规模编码、快速模式价格降至原来的三分之一。模型在基准测试中领先 GPT-5.5 和 Gemini 3.1 Pro,但在终端编码方面仍落后于 OpenAI。此外,模型在诚实性、自主支持和减少欺骗方面有显著改进。

  • 用户可调节 Claude 的“努力”程度,平衡响应质量与速度。
  • 动态工作流(研究预览)允许 Claude 在单个会话中并行运行数百个子代理,完成大规模代码迁移。
站内正文

Claude Opus 4.8 现已登陆 AWS

Anthropic 的最先进 Opus 模型 Claude Opus 4.8 在 Amazon Bedrock 和 AWS 上的 Claude Platform 正式可用。该模型在编码、代理任务和专业工作方面带来显著改进,具有更强的自主性和一致性,适合长期生产工作负载。

  • Claude Opus 4.8 是 Anthropic 最先进的 Opus 模型,现已在 AWS 上提供。
  • 相比前代,它在编码、多阶段自主任务和专业工作中表现更佳,输出方差更低,审查周期减少。
站内正文

克劳德新模型在出错时更加“诚实”

Anthropic 于周四发布 Claude Opus 4.8,该模型在训练中强调“诚实”,能够更频繁地标记工作中的不确定性,减少无依据的断言。评估显示,其代码缺陷遗漏率比前代降低约4倍。此外,用户可控制任务投入的努力程度,以及引入“动态工作流”功能,支持并行运行数百个代理。

  • Claude Opus 4.8 更倾向于在不确定时主动标识,避免做出无依据的断言。
  • 相比前代,模型在代码审查中遗漏缺陷的概率降低约4倍。
站内正文

Claude Opus 4.8 发布:全新升级,更高效、更智能

Anthropic 发布了 Claude Opus 4.8,这是其旗舰模型的最新版本。该版本在基准测试、协作能力、诚实性等方面均有显著提升,并引入了努力程度控制、动态工作流等功能。Opus 4.8 在编码、代理任务、推理和知识工作测试中表现优于前代,且价格不变。同时,Anthropic 宣布了多项新功能和未来计划,包括即将推出的更高智能模型。

  • Claude Opus 4.8 在多个基准测试中全面超越 Opus 4.7,尤其在代理任务和诚实性方面进步显著
  • 新功能包括努力程度控制、Claude Code 动态工作流,以及 API 新特性
站内正文
工具

被解雇后,我用AI工具一夜建起一个网站,Reddit浏览量达20万

一位没有开发经验的失业者,利用AI工具和无代码平台Base44,在一夜之间创建了One Tile网站,并在Reddit上获得了20万浏览量。

  • 作者今年早些时候被解雇,用一晚时间构建了One Tile。
  • 使用了AI工具和无代码平台Base44,零开发经验。
站内正文

乔尼·艾维设计的奇特法拉利

法拉利首款电动车Luce,由乔尼·艾维参与设计,外观颠覆传统,引发热议。本期Vergecast讨论了其设计、技术以及对电动车市场的影响,还涉及AI的普及与公众反感等话题。

  • 法拉利首款电动车Luce设计由乔尼·艾维操刀,外观与传统法拉利截然不同。
  • Vergecast讨论了Luce的设计争议、技术潜力以及电动车市场现状。
站内正文

波士顿儿童医院利用AI解锁新诊断方式

波士顿儿童医院采用OpenAI技术改善患者护理、减轻运营负担,并已成功诊断40多例罕见疾病。

  • 波士顿儿童医院使用OpenAI技术辅助诊断罕见疾病
  • AI帮助减轻医护人员运营负担
站内正文

快速理解AI生成的代码

ArchToCode是一款从代码和GitHub生成AI Mermaid图表的工具。

  • ArchToCode将代码转换为Mermaid图表
  • 支持GitHub集成
站内正文

为何我要感谢教皇关于人工智能的通谕

教皇利奥十四世发布了关于人工智能的通谕《伟大的人性》,警告这一快速发展的技术的用途与误用。作者弗朗辛·普罗斯表示感激,并认为硅谷不应轻视这一重要文件。

  • 教皇利奥十四世发布AI通谕《伟大的人性》。
  • 通谕详细讨论了人工智能的用途与误用。
站内正文

亚马逊因员工用无意义任务刷分而关停内部AI排行榜

亚马逊取消了内部AI使用排行榜,原因是员工通过无意义的AI任务来虚增分数,导致公司云成本大幅上升。

  • 亚马逊关闭内部AI排行榜,因员工滥用AI进行无意义任务以提升排名。
  • 员工使用AI进行如摘要邮件、生成无关图片等任务,导致云服务成本增加。
站内正文

幽默而严肃,钱信伊对毕业生发出AI警告

喜剧演员钱信伊在哈佛大学第375届毕业典礼上,以幽默却严肃的方式向毕业生发出关于人工智能的警告。

  • 钱信伊以喜剧方式表达对AI风险的担忧。
  • 哈佛第375届毕业典礼上发出警告。
站内正文

科技界令人憤怒的40個問題

本文以教皇利奧十四世關於人工智能的通諭為引子,幽默而尖銳地列舉了科技界40個最令人沮喪的問題,從收不到的一次性密碼到無用的客服聊天機器人,批評科技公司忽視人性化設計。

  • 文章借教皇通諭框架,列出40個科技煩惱。
  • 常見問題包括一次性密碼失效、二維碼停車應用、無效聊天機器人等。
站内正文

Pubflow:用于更快构建AI应用的后端信任层

Pubflow推出一个统一系统,集成了身份验证、后端逻辑和基础设施,消除了构建AI应用时拼接代码的需求。它支持多种数据库和编程语言,并提供生产就绪的启动套件。

  • Pubflow为AI应用开发提供统一的信任层。
  • 它整合了身份验证(Flowless)、后端(Flowfull)和基础设施(Pubflow Cloud)。
站内正文

Microsoft 365 Copilot迎来速度提升和更简洁的设计

微软推出重新设计的Microsoft 365 Copilot,加载速度提升两倍,界面更简洁。新功能包括渐进式显示和直接格式化文本。

  • 重新设计的Copilot加载速度提升两倍,响应更可靠且结构化
  • 引入'渐进式显示'功能,根据提示显示相关工具
站内正文

响应教皇号召:在人工智能时代将人性放在首位 | 来信

苏珊·奥曼博士撰文呼吁公众参与AI讨论,指出尽管政府、宗教领袖和科技巨头在辩论AI未来,公众却被排除在外。她向英国议会AI小组提供证据,显示公众对AI的担忧两年内上升10%,91%的人认为公平应优先于经济利益。

  • 公众在AI讨论中被忽视,却是技术影响最直接的群体
  • 公众对AI的担忧两年内上升10%
站内正文

泰国警察穿亮片裙与戴手铐嫌犯合照实为AI伪造

一张泰国警察穿着华丽节日服装围捕毒贩的照片在全球媒体疯传,但经调查发现,该图片是由警局Facebook账号管理员使用AI生成,目的是展示更友好的形象。

  • 泰国警方发布了一张警察穿着亮片裙与嫌犯的合照,后被证实为AI生成。
  • 该图片由警局Facebook管理员创作,旨在塑造更亲民的形象。
站内正文
芯片

一张1941年的股票证书让我比OpenAI任何人更懂AI

通过19世纪铁路热潮与当今AI投资的对比,揭示资本密集型技术如何重塑金融体系。铁路催生了债券市场和现代金融,而AI正重复这一过程。历史表明过度投资和全球金融牵连可能导致危机,AI投资者需警惕类似风险。

  • 1850年代铁路投资占GDP的3-5%,如今五大科技公司AI投入比例相似。
  • 铁路债券催生了现代金融市场,AI正重塑资本配置方式。
站内正文

轨道计算

本文分析了在太空建设AI数据中心的可行性,包括其物理优势(持续的太阳能、被动辐射冷却、真空光速通信)和工程限制(散热、辐射加固、训练同步、维护)。关键假设是星舰的发射成本。目前多个初创公司和谷歌、SpaceX等巨头已启动试点项目。近期的投资影响有限,但值得关注。

  • 轨道AI数据中心利用LEO的连续太阳能、被动冷却和激光链路,潜在优于地面数据中心
  • 工程挑战包括散热(高密度集群需要巨大散热面积)、辐射加固(商用芯片在轨寿命未知)以及训练同步延迟
站内正文

Sam Altman称他曾预言的AI“就业末日”可能不会发生

OpenAI首席执行官Sam Altman改变了早前关于AI将导致大量失业的预测,表示“就业末日”可能不会出现。他承认对AI影响就业的直觉有误,并指出人类工作的互动价值不可替代。尽管其他行业领袖仍警告AI将颠覆就业市场,Altman的言论反映了对AI成本、采用速度及公众舆论的综合考量。

  • Altman此前预测AI将取代大部分工作,但现在表示“很高兴自己错了”,认为就业末日不会发生。
  • 他解释称,人类工作的社交互动价值是AI无法替代的,因此就业格局可能与预期不同。
站内正文

你不会被人工智能抢走工作

文章通过历史周期(如爱因斯坦的奇迹年与电力革命)类比当前AI发展,指出突破性理论发现后必然跟随漫长的应用期,其间旧岗位消失但新岗位涌现。作者认为AI正处于理论突破阶段,后续应用将创造更多就业机会。

  • 历史周期显示,重大理论突破后是数十年甚至上百年的技术应用阶段,期间会淘汰部分旧岗位,但催生大量新职业。
  • 当前AI处于类似1905年爱因斯坦奇迹年的理论爆发期,应用时代尚未到来。
站内正文

mKernel:多GPU、多节点融合内核库,实现GPU驱动通信

加州大学伯克利分校UCCL团队发布mKernel,将节点内NVLink、节点间RDMA和密集计算融合到单个持久CUDA内核中,旨在减少AI工作负载中的通信开销。研究显示通信可占用前向传播43.6%和训练总时间32%的时间。mKernel提供五种融合内核,支持ConnectX-7和AWS EFA后端。

  • mKernel将节点内NVLink、节点间RDMA和计算融合到单个持久CUDA内核中
  • 通信开销在MoE模型中最高可占执行时间的47%
站内正文

ChatGPT并非唯一从马斯克的Grokipedia获取答案的聊天机器人

ChatGPT和其他AI工具越来越多地引用埃隆·马斯克的AI生成百科全书Grokipedia,这引发了对其准确性和传播错误信息的担忧。尽管目前Grokipedia在引用中的占比很小,但其使用率正在上升,尤其是在ChatGPT中,它往往被当作主要来源,而谷歌的AI产品则将其作为辅助参考。专家警告称,使用AI生成且缺乏人类监督的Grokipedia作为来源,可能导致偏见、错误信息甚至数据中毒风险。

  • ChatGPT、谷歌AI Overviews和Gemini等工具开始引用Grokipedia
  • Grokipedia的引用量自11月以来持续增长,但仍远低于维基百科
站内正文

AI每周第497期:AI的劳工战争全球爆发

本周,AI与工作的冲突在四个司法管辖区同时爆发:维基百科编辑因裁员组织罢工,亚马逊员工将内部AI评级系统玩坏,中国法院开始执行禁止以AI为由裁员的规定,英国智库呼吁员工在AI部署中拥有发言权。同时,前沿实验室继续深入政府合作。

  • 维基百科编辑威胁罢工以抗议基金会裁员
  • 亚马逊员工通过操控内部AI排名系统致其失效
站内正文

PyTorch 性能分析(第一部分):torch.profiler 入门指南

本文是 PyTorch 性能分析系列的第一篇,从最简单的矩阵乘加操作开始,引导读者学习如何使用 torch.profiler 进行性能分析,包括设置分析器、解读分析表和追踪数据,以及理解 CPU 和 GPU 活动之间的时间关系。文章还讨论了预热和优化开销等问题。

  • torch.profiler 可以生成性能分析表和时间线追踪,帮助识别热点和瓶颈。
  • 小矩阵乘法容易导致开销受限,增大矩阵规模可转为计算受限。
站内正文

苹果正努力将Gemini整合到iPhone中

尽管苹果一直强调本地AI的隐私优势,但最新报告显示,苹果计划借助谷歌和英伟达的云端算力为Siri注入Gemini能力。这种混合架构或能解决本地AI模型在性能上的不足,但也意味着对用户隐私的权衡。

  • 苹果与谷歌合作,计划在iPhone上集成Gemini AI到Siri中。
  • 由于本地芯片算力有限,Siri将同时使用本地和云端处理,以提升AI能力。
站内正文

媒体通报:麻省理工学院将建立区域性量子中心

麻省理工学院与马萨诸塞州宣布计划建立量子系统实验室(QSL),获得州政府2500万美元投资,为全州研究人员提供共享量子工具箱,加速量子研究、创新和增长。

  • 麻省理工学院与马萨诸塞州合作建立量子系统实验室(QSL),投资2500万美元
  • QSL将成为全球首个集量子计算机、传感器和互连设备于一体的共享设施
站内正文
政策

探索未来实验室的真实AI原型

滑铁卢大学学生在谷歌资助的未来实验室中开发了多个AI原型,包括日语学习应用Kanji Garden、手语学习工具SignFluent和健身指导工具MuscleMemory,旨在重塑教育和工作的未来。

  • Kanji Garden 通过AI生成的故事和视觉内容帮助学习日语。
  • SignFluent 提供实时反馈的手语学习工具。
站内正文

用数据投毒对抗AI

了解如何通过向数据中注入误导信息来保护个人数据不被AI模型抓取和使用。

  • 数据投毒是一种对抗AI数据抓取的技术。
  • 通过在数据中加入错误信息,干扰AI模型的训练效果。
站内正文

光帆科技与腾讯出行服务达成战略合作 开启新一轮预售

光帆科技与腾讯出行服务合作,将AI全感穿戴设备接入出行平台,该设备曾登顶京东热卖榜并售罄,现已开启新一轮预售。

  • 光帆科技与腾讯出行服务达成战略合作,AI穿戴设备将接入出行服务。
  • 光帆AI全感穿戴设备首发售罄,连续8天京东热卖榜第一。
站内正文

英国将使用人工智能估算寻求庇护者年龄

英国政府计划从明年起在边境部署AI面部识别技术,以检测冒充未成年人的成年移民。该技术将分析照片估算年龄,但人权组织批评其不成熟且可能侵犯儿童权利。

  • 英国将在2027年中部署AI面部识别技术,用于估算寻求庇护者的年龄。
  • 该技术旨在识别冒充儿童的成年移民,但人权观察组织呼吁废除该项目。
站内正文

Xerolith:持久性AI记忆与意识架构平台

Xerolith是一个工作平台,通过分层递归架构实现持久身份、自主信念形成和独立于底层的知识整合。系统在80多天的连续运行中,将2,817个原始条目压缩为1,218个信念,并支持完整的谱系追踪和内部对齐。

  • Xerolith采用三层结构:条目、课程和信念,实现从原始数据到抽象信念的自主整合。
  • 系统支持持久身份,在超过80天和多次重启中保持连续性。
站内正文

线弧增材制造焊道几何控制中的学习与自适应

本文提出了一种基于递归神经网络和一步预测控制的数据驱动方法,用于线弧增材制造(WAAM)中的焊道几何控制。通过在线更新模型以应对热条件变化,显著提高了焊道高度和宽度的一致性。

  • 使用递归神经网络学习WAAM过程的输入输出动态
  • 单步预测控制提升焊道几何一致性
站内正文

多分辨率端到端深度神经网络优化自动驾驶延迟-精度权衡

研究者提出了一种多分辨率端到端深度神经网络,用于自动驾驶中延迟与安全性的平衡。通过在运行时选择输入分辨率,该网络在CARLA模拟中相比固定分辨率模型改善了车道入侵、闯红灯和碰撞等安全指标。

  • 延迟-精度权衡是自动驾驶实时决策的关键。
  • 提出多分辨率CNN,支持运行时根据延迟预算选择输入分辨率。
站内正文

一次性软件——如何停止担忧并爱上AI代码

文章探讨了“一次性软件时代”的概念,认为AI生成的代码应被视为可丢弃的,就像工业革命中的家具一样。作者通过一个实际案例展示了如何用AI重构代码,并提出了“一次性代码宣言”,强调代码需满足意图、要求和安全性。

  • AI时代软件变得廉价且可丢弃,类似工业革命中的批量生产家具。
  • 作者通过一个Rails项目案例展示了用AI重构代码的成功经验。
站内正文

如何击败超人类AI(围棋)[视频]

本视频探讨了在围棋领域对抗超人类AI的策略和方法,包括利用AI的弱点、创新战术以及理解AI的决策模式。

  • 超人类AI在围棋中展现出超越人类顶尖棋手的能力
  • 视频分析了AI的潜在弱点以及如何利用它们
站内正文

Claude公司Anthropic在H轮融资650亿美元后估值接近万亿美元

Anthropic在H轮融资中筹集650亿美元,估值达9650亿美元。年化收入超过470亿美元,CFO Krishna Rao透露。公司计划投资安全研究、计算能力和扩展Claude产品线。

  • Anthropic获得650亿美元H轮融资
  • 估值达9650亿美元,接近万亿
站内正文

AI淘金热反噬自身

维基媒体基金会在坐拥2.96亿美元储备金并通过向AI公司出售数据获利的情况下,解雇了长期员工和整个社区技术团队。这一行为激怒了志愿者编辑,他们威胁发起罢工。文章探讨了CEO的AI妄想症如何扭曲组织优先事项,以及AI行业对人力判断的替代可能导致的恶性循环。

  • 维基媒体基金会解雇了20年老员工和社区技术团队,引发志愿者罢工威胁。
  • AI公司利用维基百科数据获利,却破坏其赖以生存的志愿者社区。
站内正文

AI时代的面试

本文探讨了AI如何影响软件工程面试,分析了不同类型的面试(家庭作业、现场练习、演讲、实际工作)在信号质量和公司成本两个维度上的表现。作者认为AI使家庭作业过于简单,降低了现场编码的相关性,建议限制AI在面试中的使用以保持信号质量,并借鉴传统教育模式的经验。

  • AI编码威胁了当前的面试模式,尤其是家庭作业和现场编码。
  • 公司应限制AI在面试中的使用,以维持信号质量。
站内正文
创业融资

这家AI初创公司免费为你打扫房屋,只为训练未来机器人

Shift是一家AI训练初创公司,提供免费家庭清洁服务,但会在清洁过程中记录清洁工的动作,用于训练机器人。公司表示,这些训练数据的价值足以覆盖服务成本。该服务目前仅在纽约可用,但很快将扩展到旧金山、伦敦、苏黎世和慕尼黑。

  • Shift提供免费清洁服务,但会拍摄清洁过程以获取机器人训练数据。
  • 清洁工将佩戴装有摄像头的“魔法帽子”记录工作视角。
站内正文

Anthropic估值9650亿美元,超越OpenAI成为全球最具价值AI公司

人工智能公司Anthropic宣布获得650亿美元融资,估值达9650亿美元,超越OpenAI成为全球最有价值的AI初创企业。其编码助手等产品被大型企业广泛采用,推动公司快速成长。

  • Anthropic完成650亿美元融资,估值9650亿美元
  • 超越OpenAI成为全球最具价值的AI初创公司
站内正文

IBM和红帽投资50亿美元提升开源安全性

该项目紧随Anthropic尚未发布的Mythos AI网络安全模型,该模型发现了软件系统中的严重安全漏洞。

  • IBM和红帽联合投资50亿美元用于开源安全。
  • 该倡议基于Anthropic的Mythos AI模型发现的安全漏洞。
站内正文

AI编程初创公司估值达260亿美元

这家快速发展的供应商获得新一轮融资,凸显了AI编码市场的强劲势头。

  • AI编程初创公司最新估值达到260亿美元。
  • 新一轮融资标志着该公司的又一里程碑。
站内正文

一部2000美元的人工智能电影将在翠贝卡电影节首映

下个月的翠贝卡电影节将首映一部全AI生成的电影《紫罗兰之梦》。这部75分钟的影片虚构再现了伊朗政府1月大规模杀害抗议者的事件,所有人物和图像均由AI创建。影片制作成本仅2000美元,由两位伊朗裔兄弟使用多种AI工具创作。

  • 《紫罗兰之梦》是一部75分钟的全AI生成电影,将在翠贝卡电影节首映,制作成本仅2000美元。
  • 影片基于真实事件,戏剧化呈现伊朗政府镇压抗议者,所有视觉内容均由AI生成。
站内正文
机器人

YouTube迈出成为真正播客应用的一小步

YouTube为Premium订阅者推出新功能,优化播客收听体验,包括音频优先的“随身模式”、自动变速播放以及AI播客推荐。

  • YouTube推出“随身模式”,将视频界面转为音频优先,适合移动中收听。
  • 新增自动变速功能,根据内容动态调整播放速度。