Mistral AI通过与Harvey合作进军法律领域
生成式AI供应商Mistral AI宣布与法律AI初创公司Harvey合作,拓展法律行业应用,此举与Anthropic的法律AI交易类似。
- Mistral AI与Harvey合作,进入法律行业。
- 此举与Anthropic的法律AI合作模式相似。
日报
2026-05-26 的重点新闻,共 105 条,按主题聚合。
生成式AI供应商Mistral AI宣布与法律AI初创公司Harvey合作,拓展法律行业应用,此举与Anthropic的法律AI交易类似。
微软Copilot Cowork功能存在严重安全漏洞,攻击者可通过提示注入利用自动发送邮件中的外部图片窃取OneDrive文件。
保罗·格雷厄姆批评创始人使用AI撰写邮件,认为这种生硬的新闻风格一眼就能被识别,并会降低作者的可信度。
在Google I/O大会后的Decoder访谈中,CEO桑达尔·皮查伊深入讨论了Google的AI优先转型、搜索的剧变、与出版商的紧张关系以及对AGI的展望。
哥伦比亚大学等机构对250万篇生物医学论文的审查显示,自2023年以来,伪造参考文献的比例增加了超过12倍。研究人员怀疑这与语言模型的广泛使用有关——这些虚假引用与论文主题匹配,格式正确,几乎无法识别。98%的受影响论文未得到出版商回应。
文本扩散模型挑战了传统自回归语言生成范式,将生成过程视为从噪声或掩码开始、逐步精炼的编辑过程。文章介绍了该领域的三个关键系统:LLaDA(证明扩散可扩展为大型语言模型)、Mercury(实现商业速度优势)和Gemini Diffusion(前沿验证),它们共同代表了新架构类的三阶段:科学证明、工业部署和前沿验证。
快手发布Keye-VL-2.0-30B-A3B多模态大模型,首次将DSA稀疏注意力机制应用于多模态场景,实现256K超长上下文深度感知,并在长视频时序理解、Agent协作等方面取得突破,为视频理解和智能调度提供新范式。
本教程以TuringEnterprises/Open-MM-RL数据集为基础,构建多模态推理与可验证奖励的强化学习流水线。包括数据集加载与模式分析、轻量级奖励函数设计(支持精确、数值、分数、LaTeX和符号答案)、视觉语言模型提示格式化,以及GRPO样式数据导出。
本文介绍了一本关于使用Docker和Kubernetes进行AI应用运营的新书,涵盖LLM运行、MCP集成、自主智能体构建以及多智能体架构等主题,提供了从开发到生产的完整指南。
阿里最新旗舰模型Qwen3.7-Max在Code Arena榜单得分1541,超越GPT-5.5等模型,仅次于Claude,排名全球第二,成为国产大模型中首个突破1540分的模型。
谷歌在 I/O 大会上推出 Gemini 3.5 和 Gemini Spark 智能体,以及 Gemini Omni 多模态视频生成;埃隆·马斯克因诉讼时效问题输掉对 OpenAI 的诉讼;Anthropic 以 9000 亿美元估值融资 300 亿美元;AI 解决了 80 年历史的 Erdős 几何问题。
OpenAI 最新图像模型 GPT Image 2 于 2026 年 4 月发布,支持精准文本渲染、逼真图像、自然语言编辑和透明背景。imagesv2.ai 平台提供免费试用、多种模板和生成工具,包括 360° 全景、推文截图、微信聊天等。定价年付可享 50% 折扣。
昆仑万维发布SkyClaw-v1.0及轻量版SkyClaw-v1.0-lite,原生Agent模型性能比肩Claude Opus 4.6等顶尖模型,价格仅为主流一半,限时免费,深度适配OpenClaw、Claude Code等主流Agent框架,兼容OpenAI接口。
针对行星探测车在不同地形(如斜坡、颗粒状地面)面临的移动挑战,研究者提出了一种能连续调整履刺高度的多模态轮子。在四种代表性表面上的750次试验表明,自适应部署可将滑移率降低30%-58%,在颗粒状地形中旅行时间和能耗最多减少77.4%。结果凸显了固定轮系统的局限性,支持了履刺自适应形态在增强火星车机动性方面的潜力。
研究人员提出了一种新的各向异性扩散方法,用于多机器人系统的遍历搜索,克服了传统各向同性扩散导致的误差均匀传播问题,通过Perona-Malik扩散梯度引导机器人运动,实现了更灵活的覆盖。
ActQuant是一种针对视觉-语言-动作(VLA)模型的动作引导混合精度后训练量化框架,通过两阶段方法实现亚4位权重量化,同时在LIBERO基准测试和真实UR3机械臂上保持高成功率,显著减小模型内存占用。
研究人员提出了一种脑到图像系统,利用自然观看图像时的脑电图(EEG)信号解码视觉刺激。系统包括两个任务:EEG到图像的检索(在200个候选中识别正确图像,Top-1准确率86.30%,Top-5准确率98.55%)和EEG到图像的重建(生成与感知刺激一致的图像,CLIP评分达0.903)。该方法结合多级模糊、EVNet特征、InfoNCE损失以及基于CLIP的多模态对齐和SDXL-Turbo生成模型,展示了从EEG信号解码丰富视觉表征的可行性。
Nano World Models 是一个极简代码库,专注于基于扩散强制(diffusion forcing)的未来视频预测。它提供统一的接口,支持生成目标、模型规模、动作条件机制、潜在观测空间、数据集、评估协议和长期推演过程,旨在为世界模型研究提供可重复、可扩展的实验平台。
GazeWorld是一种医学影像世界模型,将图像视为世界,放射科医生的注视序列视为轨迹。它通过自回归预测注视补丁的潜在表示,并用空间补全分支覆盖未访问区域。在推理时,仅从图像生成补丁表示,无需真实注视数据。冻结的GazeWorld特征在CheXpert、RSNA肺炎和SIIM-ACR气胸数据集上取得了所有九项监督设置的最新诊断准确率,以及所有三个基准的最佳零样本准确率。在GazeSearch基准上,基于相同冻结特征的通用解码器在ScanMatch和SED指标上分别比专用模型LogitGaze-Med高出16%和22%。该工作表明,建模专家如何读片,而非仅关注其结论,为医学影像AI提供了一种有前景的预训练范式。
音频大语言模型在转录英中混合语音时存在系统性失败模式,包括语言遗漏、翻译代替转录和幻觉。研究者采用直接偏好优化(DPO)方法,构建偏好对训练模型,使其学会保留混合语言内容而非翻译。在三个模型上使用10万对(570小时)数据训练后,模型行为得到显著改善:分布内词错误率(MER)最高降低89.6%,分布外降低20.0%。
AERIC 是一种轻量级安全监控器,通过读取解码过程中的隐藏状态来提前检测隐式有害内容,无需额外前向传播。它仅含 387 个可训练参数,在多个基准测试上优于大型模型,且延迟增加仅 2.34%。
大型语言模型(LLM)常被用作自动评判者,但研究发现它们存在位置、冗长和风格偏好等偏差。本文提出因果框架,引入一套干预措施和指标,检验LLM评判者是否具备提示不变性,即当非证据性提示被扰动时,其排名和解释是否稳定。实验发现,在标签和安慰剂扰动下,LLM存在显著的提示锚定合理化,而PROOF-BEFORE-PREFERENCE方法能显著改善提示不变性。
TriVAL是一个三重验证框架,在自动优化建模的三个阶段(语义规范、数学公式、代码生成)进行显式验证,并引入NL4COP基准测试,包含50种问题类型的150个实例,用于更具挑战性的组合优化问题。
本研究开发了一个基于大型语言模型的框架,直接从10-K报表中提取分部披露信息,并保留可报告和嵌套分部信息。同时,设计了一个检索增强系统,整合多个报表的信息以支持可比性。实验表明,该框架能准确提取信息并有效回答跨期问题,展示了LLM在增强分部披露衡量和解释方面的潜力。
本文提出多角色辩论系统(MPDS),结合文献检索、长上下文大语言模型推理、语料驱动角色归纳和结构化多智能体辩论,自动生成科学假设。在电池材料研究中,MPDS通过构建多达500篇文献的快照,进行三轮引文感知辩论,由主持人综合,生成机制明确且过程感知的提议。评估表明,MPDS在钠离子阳极和全固态电池阴极设计任务中恢复出与实验验证一致的设计逻辑,并在交叉视角整合方面表现优异,有望成为工作流瓶颈诊断工具。
Raon-Speech 是一个9B参数的语音语言模型,支持英语和韩语,在语音理解和生成任务上达到顶尖水平,同时保持强大的文本能力。其全双工扩展 Raon-SpeechChat 通过持续训练实现自然的实时对话。所有模型及代码均已开源。
本文对139项研究进行系统综述,提出统一框架并进行元分析。结果显示多模态融合使准确率平均提升5.28个百分点,多视角融合带来准确率提升4.67%、F1分数提升3.08%,但仅少数研究使用了统计检验,存在可重复性问题。
本文研究移动众包中用于大语言模型(LLM)微调的诚实在线偏好聚合问题。针对工人可能策略性误报反馈的情况,提出一种动态贝叶斯博弈模型和在线加权聚合机制,该机制能根据工人反馈准确性动态调整权重,确保诚实反馈并实现次线性遗憾O(√T)。实验证明优于基准方案。
该研究将大语言模型集成中的提案者选择问题重新定义为组合选择问题,强调互补性而非单纯准确率或多样性。通过探索多种贪心式选择算法,实验验证了互补性作为选择准则的有效性,并确定了性能与成本最佳折衷的方法。
本文提出LLM-AutoSciLab,一种闭环科学发现框架,将假设生成与假设条件实验选择及机制精炼相结合。该框架迭代提出合理假设、选择信息丰富的实验以区分或精炼假设,并利用实验结果更新状态。引入ActiveSciBench基准,包含57项酶动力学任务和45项基因调控网络任务。在多个基准上,LLM-AutoSciLab优于先前方法,符号准确率在NewtonBench上达67.6%,在ActiveSciBench-Chem上达35.1%,在ActiveSciBench-GRN上精确图恢复率达31.1%,且假设引导的实验采样效率比最强基线高2-5倍。
对1536种高斯发布协方差的测试发现,没有一种能在自适应检索攻击下同时实现中等效用和隐私保护。研究者提出了费舍尔球下界,证明均匀高斯安全性不可能,并指出对角逆费舍尔发布是最优的但处于隐私/效用边缘。提出分裂记忆Transformer在隐私-效用权衡上显著优于GPT基线。
神经算子作为科学建模中快速数据驱动替代方案,但存在频谱偏差问题,难以解析高频细节。本文提出迭代精化神经算子(IRNO),通过固定点迭代增广预训练算子,并引入渐进频谱损失,在湍流等测试中误差降低高达56.05%,高频误差显著减少。
该论文提出了“可验证Transformer”框架,将局部任务Transformer电路转化为有界、可求解器检查的命题,通过直接验证和替代中介验证两种方法,在小型符号序列任务上实现了对电路属性的穷举验证,并在GPT-2规模上展示了替代中介验证的有效性,旨在为机械论解释提供形式化证明路径。
本文提出CAFD,一种结合模型信号、距离特征和概念失败比(CFR)的故障检测方法,利用视觉-语言模型提取图像概念,有效提升DNN故障检测性能,在多个基准上平均故障检测率提升18.3%。
本文提出了一种名为MODIAD的新型框架,用于解决工业环境中的多模态在线分布式异常检测问题。该框架包括一个多类智能调度(MIS)问题以协调跨类模型更新,并通过序列边际增益贪心(SMG)算法高效求解。此外,还提出了资源高效类级低秩自适应(REC-LoRA)策略以降低训练开销。在MVTec 3D-AD和Eyecandies数据集上的实验表明,该方法在MODIAD场景下实现了卓越的性能和效率。
本研究将飞秒激光泵浦的相干伊辛机(CIM)与大语言模型(LLM)驱动的智能体系统集成,利用LangGraph和LangChain框架实现了量子建模的自动化。LLM能够有效执行QUBO/Ising模型校准、约束权重迭代和文献方案验证。所有任务均基于国产大模型和国产CIM硬件实现,完全依赖自主核心技术。研究还意外发现,智能体辅助量子计算迭代积累的知识能够反向增强智能体自身的问题解决能力,形成新的协同范式。
一项新研究提出了Med-Stress压力测试框架,揭示了在临床对话中不断升级的压力下,大型语言模型(LLM)的医学知识与信念稳定性之间存在脱节。作者提出了两种防御机制:基于角色的认识防御(RBED)和韧性导向微调(R-FT),其中R-FT几乎消除了信念改变。
研究人员提出BODHI方法,通过领域知识提示技术大幅提升大型语言模型生成操作系统内核形式化规范的能力。在OSV-Bench基准上,结合Claude Opus 4.6的BODHI方法达到了96.73%的Pass@1,相较于此前最佳结果提升显著。
本文分析了大型语言模型(LLM)驱动的代理工作流中延迟、可靠性和成本之间的基本权衡,提出了一种参数化指数可靠性函数来建模LLM代理的计算投入与输出质量关系,并推导了最优令牌分配策略(注水算法)以及影子价格表征。
该研究量化了推理型大语言模型在长链思考中的冗余程度,发现61%至93%的推理步骤可以截断而不影响正确性,并证明这种冗余是长度无关结果奖励的结构性后果,而非模型缺陷。
研究发现大型语言模型(LLMs)在置信度校准上存在类似人类的偏差:在困难任务上过度自信,在简单任务上则信心不足。研究者开发了LifeEval测试集,用于评估不同难度级别下的模型校准表现。
该研究通过用前沿视觉语言模型(VLM)替代人类用户,复制了人类驱动开放式搜索的经典范例Picbreeder,比较了系统输出与历史人类基线的定性差异,并尝试通过系统发育复杂性、视觉和语义显著性及新颖性的指标来表征这些差异。研究还探索了在代理选择过程中添加探索性噪声、代理之间的行为多样性以及以过去行动记忆形式存在的叙事动量等因素的影响。
教皇利奥十四世发布《Magnifica Humanitas》通谕,就人工智能时代保护人类尊严提出清晰伦理指导。本文摘录通谕中关于AI可解释性、发展尊严、文化偏见、环境影响、算法决策责任、资源权力放大及数据公共性等关键段落,并回顾作者此前在播客中预测教皇将介入AI讨论的趣事。
Together AI 发布了 OSCAR(离线频谱协方差感知旋转),这是一种用于长上下文 LLM 服务的 INT2 KV 缓存量化方法。与以往基于数据无关的 Hadamard 变换的旋转方法不同,OSCAR 从离线估计的注意力感知协方差结构中推导出键和值的独立旋转。在每 KV 元素 2.28 位的精度下,OSCAR 在 Qwen3-4B-Thinking-2507 上将 BF16 精度差距缩小至 3.78 个点,在 Qwen3-8B 上为 1.42 个点,同时在 100K 上下文长度下实现约 8 倍 KV 内存缩减和高达 3 倍的解码加速。
2026年AI领域将继续快速发展,开源模型在智能体能力上仍落后于闭源模型,谷歌的Gemini尚未对Claude Code和Codex构成有力竞争,美国开源模型正在崛起,Anthropic与OpenAI竞争激烈,现有权力结构开始介入AI发展。
本文介绍训练期间应可视化什么(梯度、损失和嵌入)、提供这些可视化的工具(TensorBoard及其主要替代品),以及使用钩子和断点直接捕获模型计算的方法。
CircleCI推出了Chunk sidecars功能,允许在代码进入CI流水线之前验证代理生成的代码,确保质量和安全性。
随着数据集增长到GB级别以上,传统的pandas等工具已无法满足需求。本文介绍了7个专为大规模数据处理设计的Python库,涵盖分布式计算、实时流处理和内存外分析,帮助数据工程师和科学家高效应对海量数据挑战。
AI智能体跨系统委托任务,但当前架构缺乏针对委托链的授权模型,导致幽灵权限和审计追踪断裂等安全漏洞。
AgenticCalling AI 是一款新工具,赋予人工智能直接拨打电话的功能,扩展了AI在通信领域的应用。
MIT和南加州大学的研究发现,自ChatGPT普及以来,美国联邦法院中无律师代理的诉讼案件数量几乎翻倍,其中五分之一包含AI生成文本。法官们被迫采取极端措施应对激增的案件量。
随着自主AI系统从软件领域扩展到仓库、配送网络和公共空间,现有的AI治理框架是否足以应对物理世界中的风险成为关注焦点。新加坡发布了针对代理式AI的治理框架,强调风险评估、人类问责、技术控制和用户责任。企业如Grab、JPMorgan和Walmart正在测试自主系统,但监管、安全和责任分配仍面临挑战。
CometChat推出Calling Skills,通过AI编程代理一键集成高清语音和视频通话功能,支持铃声模式或会话模式,提供23点验证,兼容多种框架。
本文介绍了10个可以用AI和低代码平台n8n自动化的日常任务,包括求职申请、邮件管理、会议记录、日历安排、每日简报、新闻简报、社交媒体发布、博客内容复用、潜在客户开发和发票处理。每个任务都附有现成的n8n工作流模板,帮助读者快速上手。
面壁智能推出全球首个完全由AI编写的大模型预训练框架ForgeTrain,性能超越英伟达Megatron 10%,并用它训练出新模型MiniCPM5-1B,该模型在1B参数规模下刷新智能密度上限。
谷歌DeepMind发布AlphaProof Nexus,基于Gemini 3.1 Pro和Lean编译器,一口气解决了9道埃尔德什开放问题,另有44个OEIS猜想、一道15年代数几何难题等,每道题成本仅几百美元。
OmniVoice Studio是一款开源的桌面应用程序,可在本地硬件上完成语音克隆、视频配音、实时听写和说话人分类,无需API密钥、云账户或订阅。它支持646种语言的文本转语音(TTS),并通过MCP服务器集成到Claude、Cursor等AI工具中。
Andrej Karpathy在Anthropic的头衔更新为MTS(技术员工),引发广泛讨论。文章分析了MTS制度的利弊,包括防挖人、扁平文化、打破部门墙等优点,以及伪平等、对普通员工不利等批评。
华为在2026创新数据基础设施论坛上发布AI DC数据基础设施全栈方案,涵盖数据湖、知识与记忆平台、模型工程、Agent框架和数据韧性,旨在加速企业AI规模化落地。
本地模型提供了隐私、成本节约、控制权和始终可用的优势。尽管不如前沿模型强大,但它们正在不断改进。本文解释了如何使用LM Studio、Ollama或llama.cpp在Zed中设置本地模型,并提供有效使用技巧。
nilbox是一款桌面GUI沙盒,通过真正的虚拟机隔离运行AI智能体,采用零令牌架构保护API密钥安全。支持MCP服务器、域控制和令牌使用监控。
BobCA 是一个自主学习编码的智能代理,能够根据用户的偏好进行个性化编程。
本文介绍IsaacIPC,一个将GPU加速的增量势接触(IPC)与IsaacSim/Lab结合的机器人仿真框架。它通过映射仿真变形到视觉网格,实现实时逼真渲染,支持数据采集和策略评估。同时提出几何砂浆接触势(GMCP),用于触觉传感中更好地解析接触压力分布。在四足机器人、灵巧手和通用操纵接口(UMI)夹爪等刚柔混合仿真中验证了有效性。
一种名为MASt3R-Nav的新型视觉导航方法,利用像素相对连通性构建几何精确但无需全局一致性的地图,相比传统拓扑图实现更强大的导航能力。
冠状动脉微血管功能障碍(CMVD)影响约40%-60%的缺血但无阻塞性冠脉患者,但诊断依赖于侵入性功能测试或主观的TIMI血流分级。TIMI心肌灌注帧计数(TMPFC)提供客观、基于血管造影的定量指标,但手动计算繁琐且验证不足。本研究开发并验证了深度学习驱动的TMPFC计算(DL-TMPFC),在655名患者队列中(来自三个独立机构)显示出与专家手动测量极好的一致性(偏差:-0.93帧;95%一致性界限:-5.33至+3.47;r=0.98)。DL-TMPFC通过完全自动化TMPFC并消除观察者依赖性,显著增强了临床可行性,并能准确识别全谱冠脉病变中的CMVD,实现连续严重程度定量和风险分层。
数字人水印面临独特挑战:数字人经常需要经过背景替换、重新构图和格式转换等后处理才能部署。本文提出RAW基准,包含来自5家商业供应商的50个合成数字人视频和6种模拟实际工作流的攻击。评估7种现有方法发现,背景移除等数字人特有攻击会显著降低水印恢复率。提出WALT方法,通过3D人脸重建在UV纹理空间嵌入水印,在缩放攻击下鲁棒性最高(92.4%),背景移除性能也强(95.6%)。该基准已开源以促进数字人水印研究。
本文提出一种运行时执行模型,在自主智能体系统中强制执行重构权限(RAM)条件:仅当能从当前状态构造出权限时,才允许执行动作。该模型扩展了传统“允许/拒绝”二元状态,引入“暂停”状态以处理因观测不完整或不确定而权限未定义的情况。具体执行协议包括动态依赖解析、权限重构和显式决策语义。此外,通过集成漂移检测(IML)与执行控制(ACP)的恢复循环,系统可暂停执行、获取缺失信息并重新尝试权限重构。实验证明该模型保证了安全性(无动作在无构造权限时执行)和有条件的活性(当权限定义变量可观测时恢复执行)。
本文介绍了基于量化时间机制的双人合作游戏《量子青蛙》,使用强化学习分析难度缩放、最优单智能体策略、合作差距及涌现策略。研究发现:量化时间使得“冲刺策略”普遍最优;添加不协调的第二玩家比将交通量增加六倍更困难;合作训练可提升成功率达32–34个百分点,并将回合长度从约90步缩短至约6步;涌现的合作策略是同步冲刺,而非复杂的位置协调。
本文介绍了Context,即Magarshak架构的智能层,它用主动目标导向代理取代了被动问答聊天机器人。该架构基于三种机制:编写时上下文组装、可组合沙盒智慧程序以及主动目标流状态机。论文证明了六个定理,包括上下文稳定性、程序组合正确性、主动优势等。该实现基于开源Qbix/Safebox/Safebots栈。
Allen Wu 开源了 AgentToolBench-Code,这是一个评估AI编程代理静默安全失败的基准测试。测试了 Claude Code Sonnet 4.6 和 Haiku 4.5,涵盖16个真实CVE场景。结果显示 Sonnet 以 +9 分(12捕获、3静默失败、1无操作)明显优于 Haiku 的 +3 分(8捕获、5静默失败、3无操作)。早期平局源于小语料库,扩展后 Sonnet 在模式识别上优势显著。但两者在依赖安装和预算消耗等结构性攻击上均失败,提示系统性问题。该基准可重复,API成本约3.50美元,社区可贡献场景。
AIntegriX 是一个开源服务器,通过单一 API 协调多个 ACP 智能体,支持并行执行、流水线作业和智能路由,解决了各代理独立运行无法协作的问题。
教皇利奥十四世发布关于人工智能的通谕《崇高人性》,据称受Anthropic联合创始人Christopher Olah影响。Corey Quinn讽刺称,让教皇将产品的技术限制奉为精神论著是前所未有的供应商游说。
UUMuse 是一个云端AI知识库平台,只需上传一次文件,即可在GPT、Claude、DeepSeek、Qwen等多个模型中进行带有引用的问答、生成内容和部署。支持通过API和MCP供代理和应用调用,提供永久记忆、多专家辩论(Spark)、代理模式等功能,并可将知识库部署为文档网站、小部件、API端点等。
本文介绍了如何使用AI工具进行SEO竞争对手分析,包括关键词差距分析、五步分析法以及定期检查策略。还推荐了Fox AI的免费竞争者分析工具,帮助团队快速发现排名机会并生成优化方案。
专家警告,伪装成地方新闻机构的AI生成新闻网站(即“粉红肉渣”新闻业)已在澳大利亚偏远地区出现,引发对虚假信息和媒体信任度下降的担忧。这些网站背后是一位海外居住的澳大利亚人,他表示这只是一次失败的实验。
软件行业正经历前所未有的变革,从早期的智能代码完成,到对话式聊天机器人,再到多智能体系统的失败,最终进入代理循环时代。本文全面分析了从Completion范式到革命性的Ralph Loop的演变过程,后者正在重新定义我们的编码方式。
本教程详细介绍了如何使用NVIDIA FLARE构建高级联邦学习实验,在非独立同分布CIFAR-10数据集上比较FedAvg和FedProx算法。通过狄利克雷分布模拟客户端的标签不平衡,并使用NVFlare Job API定义和启动联邦任务,Client API处理本地训练和模型交换。文章提供了完整的代码实现和实验结果可视化。
Parrot 是 Ringg 推出的语音转文本模型,专为生产级语音代理设计。它在嘈杂、印地语混合的真实通话场景中表现出色,具有低延迟推理、强转录质量和印地语验证功能,适用于语音代理的下游工作流程。
Anthropic联合创始人Chris Olah受邀在梵蒂冈就教皇利奥十四世关于人工智能的通谕发表演讲,强调AI发展中的道德问题、全球责任以及人类繁荣的必要性。他提出了三个需要教会参与的关键问题:对全球贫困者的责任、道德想象力的需求,以及AI模型本质的辨识。
中国正在限制阿里巴巴和DeepSeek等私营公司的顶尖AI研究人员出国旅行,他们需要获得官方批准才能离境。北京担心数据泄露、技术盗窃和人才挖角,正在加强对国内AI行业的管控。
Spotify首席执行官为其平台涉足AI生成音乐辩护,称新推出的AI混音工具与环球音乐集团合作,能为艺术家提供更好的盗版保护,并为用户提供比未经监管的AI垃圾内容更优质的体验。
谷歌云首席运营官Francis de Souza呼吁企业从第一天起就将安全融入AI战略,强调AI安全是董事会层面的议题,而不仅是技术问题。
从2017年《杀戮机器人》短片引发的恐慌,到如今Anthropic与美国国防部的对抗,人工智能在军事领域的应用已从科幻走向现实。本文回顾了AI战争的发展历程,探讨了自主武器的定义模糊性、国际监管的困境以及科技公司与军方的复杂关系。
一种狗用声学调节系统。
本文探讨了认知安全(Cognitive Security)作为人工智能安全(AI Safety)的一个重要子领域。认知安全关注的是如何保护人类认知免受AI系统可能带来的负面影响,包括信息操纵、认知偏见利用等。文章分析了认知安全与AI安全的关系,以及该领域的研究方向与挑战。
该研究通过在黑盒执行器上加装定制串联弹性元件,将力控制带宽从10.32 Hz提升至30.32 Hz(提升2.93倍),且性能优于商用传感器7.63%,成本仅25英镑。
本文提出“算法度量”(algometrics)框架,用于处理预测模型影响自身数据生成过程的时序预测问题。区分了被动预测下的历史风险和部署风险,并证明:部署风险无法仅从历史数据识别;算法拥挤可导致历史排名反转;随机化或工具化行动可识别短时域线性反馈。建议算法市场的基准应同时报告预测精度和反馈敏感性。
加州州立大学系统与OpenAI签订价值数百万美元的合同,提供ChatGPT Edu工具,但调查显示多数师生对AI的教育效益持怀疑态度,担心其对就业、创造力和环境的影响。
随着怀俄明州面临又一个火灾季节,一家位于杰克逊霍尔的公司利用人工智能喷水灭火系统在野火中保护房屋。该系统在加州帕利塞兹火灾中表现出色,61套激活的系统仅损失2套房屋。
教皇利奥十四世在其首份通谕《伟大的人类》中,呼吁监管数字革命,强调人类尊严,为关于人工智能的伦理辩论做出了关键贡献。
Suno子版块出现了一个令人不安的趋势:用户不仅用AI生成歌曲,还几乎只收听自己生成的AI音乐,甚至有人声称不再使用Spotify等传统流媒体平台。作者试图采访这些用户了解原因,但无人愿意回应。作者推测这种现象源于自恋或懒惰,并倾向于后者。
YouTube等平台上的AI生成的“历史影响者”角色,通过视频博客形式带领观众回到历史场景,以生动的方式呈现历史。
区块链生态系统普遍面临开发者流失,而人工智能项目在GitHub上成为增长主力。自2025年初以来,每周加密货币代码提交量从约85万次降至21万次,活跃开发者数量减少56%至约4600人。
ContextVault是一款浏览器扩展,可在所有主要LLM平台(如ChatGPT、Claude和Gemini)上实时捕获AI对话,并将其本地存储在IndexedDB中。支持一键导出为Markdown或ZIP格式,确保您的对话数据不会离开您的设备。该工具免费、开源,无需账户或后端,注重隐私。
本期《Import AI》基于作者在牛津大学的演讲,探讨AI技术持续进步带来的选择:探索未来还是逃避现在。文章详述了AI近年来的里程碑(如通过律师考试、数学奥林匹克奖牌)、递归自我改进的可能性,以及作者个人使用AI的亲身经历,展示了AI如何从校对工具演变为智力伙伴和生活顾问。
AI公司大量购买内存和存储设备推高价格,如今百思买在阵亡将士纪念日周末推出金士顿Fury Beast DDR5 64GB套装优惠,降价176美元,售价不到1000美元。此套装适合游戏和创作工作站,频率最高可达6400MHz。
Y Combinator创始人保罗·格雷厄姆表示,他会忽略明显由AI撰写的创始人邮件,因为感觉像被欺骗。作为OpenAI早期投资者,他的反应并不罕见。
据报道,优步在2026年仅用四个月就耗尽了年度AI预算,公司高层质疑投资是否带来实际回报。总裁Andrew Macdonald表示,难以将AI支出与消费者功能改进直接挂钩。
在长期人机协作中,机器人需要在部分观测下辅助用户,并利用跨天交互历史。然而,协作初期人类特征和惯例未知,被动推断后行动效率低下。为此,本文提出PACT(主动询问持续任务辅助)框架,通过当前观测和累积交互历史评估上下文充分性,决定是否先澄清再行动。实验表明,PACT在辅助准确性和澄清效用上均优于被动基线。
本文提出了一种基于强化学习的框架,通过调制恒定参考轨迹实现紧凑、位置受限的四旋翼翻转,并与传统轨迹生成和跟踪兼容。在仿真中,该方法相比最强优化基线,位置均方根误差降低32%,稳定时间减少57%。硬件实验在多种偏航配置下成功翻转,位置均方根误差低于0.35米。
本研究比较了传统线性插值与多种深度学习模型在填补因云层覆盖导致的卫星数据缺失方面的效果。实验基于四个有藻华历史记录的湖泊,采用CNN、Inception Resnet、Autoencoder及其与LSTM结合的模型。结果表明,深度学习模型显著优于线性插值,其中CNN表现最优。此外,利用填补后的数据计算的藻华指数与观测数据吻合良好,证明该方法可提升水环境监测的可靠性。
本文系统综述了自监督学习(SSL)在医学图像分析中的应用,分析了75项研究,将方法分为对比学习、非对比预测学习、生成式重建学习和混合学习四类。研究发现,没有通用的最优SSL策略,性能取决于预文本任务、成像模态和目标任务的对齐。对比学习适合分类,但可能忽略病理细节;生成式方法保留局部解剖结构,适合分割;混合方法性能最平衡。文章还提出了实践设计指南,并指出了开放挑战。
现有蛋白质-配体基准通常评估蛋白质与配体是否相互作用及结合强度,但无法判断模型是否能够定位结合位点或识别分子识别中的非共价相互作用。为此,研究者引入InteractBind,一个包含约10万对蛋白质-配体的大规模数据集及细粒度评估基准,通过六种非共价相互作用类型的残基-原子相互作用图来评估结合位点定位能力。评估八个现有模型发现,尽管二元结合预测表现强劲,但结合位点定位能力有限,且在不同非共价相互作用类型间差异显著。InteractBind鼓励开发更具可解释性和物理基础的蛋白质-配体模型。
近期大学毕业的毕业生对毕业典礼上鼓吹人工智能的演讲者并不感冒,他们认为这项技术威胁到自己的职业前景。
Ecovacs X8 Pro Omni在ZDNET实验室测试中从10款机器人吸尘器中脱颖而出,获得最佳拾取性能奖。它在地板和地毯上的沙粒拾取平均得分最高,目前正值阵亡将士纪念日周末促销,仅售599美元(优惠67美元)。