头条
将Claude Code和Codex作为一条流水线
本文探讨了如何将Claude Code和OpenAI Codex结合使用,而非二选一。通过基准测试、上下文窗口行为、代币经济分析和MCP集成,作者展示了两种工具在设计哲学上的互补性,并提供了具体的工作流模式。
- Claude Code适合深度推理和审查,Codex适合终端工作和快速执行。
- 上下文窗口超过200-256K代币后,检索可靠性下降,需定期清理上下文。
头条
本文探讨了如何将Claude Code和OpenAI Codex结合使用,而非二选一。通过基准测试、上下文窗口行为、代币经济分析和MCP集成,作者展示了两种工具在设计哲学上的互补性,并提供了具体的工作流模式。
波士顿儿童医院与OpenAI合作,利用AI工具成功诊断了18名患有罕见疾病的儿童,这些病例此前一直未能得到确诊。该研究发表在《新英格兰医学杂志》AI特刊上,展示了AI在基因组分析中的潜力。
巴雷特·佐夫重返OpenAI仅五个月后再次离职。他于1月中旬回归,负责企业AI销售,此前曾在米拉·穆拉蒂的Thinking Machines Lab担任联合创始人兼CTO,因不当行为指控于1月离职。OpenAI已确认其离职。
尽管公众普遍认为AI发展过快,许多政客却呼吁加快AI adoption。本文探讨了这一矛盾背后的政治与经济原因,指出快速变革可能带来的社会冲击。
Sakha是一款集成在Slack中的AI入职助手,能够自动引导新员工完成入职流程、回答公司政策相关问题、审核合同并生成公司政策。该工具旨在解决传统入职流程中知识分散、管理者负担重等问题,提供从第一天到完全融入的自动化支持。
Ferrix AI代理专为产品经理设计,通过上下文层、发现、验证、规划、PRD生成、规格制定、设计反馈、验收标准、工单创建、执行情报、发布沟通和上线后监控等12个代理,自动化产品管理工作流,同时保持人工审核与控制。
OALABS 的研究人员发现,一名低技能攻击者利用 AI 代理 Claude 和 Codex,通过模糊的提示绕过防护措施,突破至少 14 家公司并窃取数据。攻击者的操作安全失误导致超过 1000 个会话日志被恢复,暴露了其身份和手法。
本文提出“计算可识别性”框架,区别于依赖渐近性质的理论可识别性,通过有限计算搜索过程为经验估计器提供可识别性保证。实验表明,该方法适用于小样本、模糊图标准、混合观测-干预数据及反事实场景。
本研究提出一种基于提示的不确定性分解方法,将动作信心与请求不确定性分离,使大语言模型代理能在任务规范模糊时主动请求澄清。作者引入两个新基准(WebShop-Clarification和ALFWorld-Clarification),其中50%的任务故意未明确指定,并在五个大型语言模型上评估该方法。结果表明,所提分解方法在澄清F1分数上显著优于现有方法。
本文提出积分变换网络(ITNet),通过一个可学习的积分核统一了卷积、自注意力和自回归循环三种架构。ITNet使用小型神经网络实现核函数,能够从数据中自适应行为,并在多个基准任务上达到或超越专用模型。
一种新方法使大型语言模型能够利用良知步骤和直接偏好优化进行自我伦理对齐,无需外部评判,从而在代码黑客等场景中实现涌现对齐,克服了以往的涌现错位问题。
本文提出REVEAL++,一种在对比学习中采用连续表型结构的方法,用于视网膜图像和临床风险叙述的视觉-语言对齐,以预测阿尔茨海默病风险。该方法通过可微分加权函数替代硬分组,实现分级监督和端到端学习。在UK Biobank数据集上的评估表明,其性能优于离散分组基线。
本研究比较了Qwen 2.5 7B和XGBoost在临床预测任务中的表现,通过归因分歧分析揭示了四个重要发现:LLM的口头置信度在认识论上是空洞的,存在逆向难度效应,少样本示例和SHAP特征证据的结合可显著提升准确率,且跨模型校准器能有效降低校准误差。
DeXposure-Claw是一个基于预测的代理监督系统,旨在解决通用LLM代理在去中心化金融风险监督中的不足。它通过图形时间序列基础模型预测风险网络,结合确定性监控和压力情景生成警报,并利用数据健康和置信度门控减少误报。此外,还开发了DeXposure-Bench评估套件,通过六轴评估(包括决策轴)衡量系统性能。实验基于五年周度真实数据,验证了系统的有效性。
本文提出了一种新的动态系统模型,用于解释多智能体LLM商议如何通过每个智能体的隐藏内部信念(锚点)影响群体决策。该模型揭示了经典共识规则无法解释的现象:智能体对正确答案的置信度可能超越初始信念的凸包范围。通过三个开源模型家族的实验,作者发现锚点的影响强度相近,但位置差异决定了商议是否能突破初始意见的限制。
本文对八种最先进的扩散语言模型(DLM)在推理、编码、翻译、知识和结构化问题解决等八个基准上进行了系统实验分析,同时考虑了生成质量和计算效率。研究发现,DLM的行为受生成时设计选择(如去噪步骤、上下文长度、块大小和平行解掩码策略)的强烈影响,导致性能与计算效率之间存在不同的权衡。该研究为当代DLM的能力和部署特性提供了实用见解。
一项新研究提出了一种人机协同的流程,用于衡量本科计算机科学课程与课程指南的契合度。应用于CS2013和CS2023时,发现覆盖率基本不变(约50%),但认知深度实现率从95%下降到76%,反映了新版标准要求的提高。同时还发现了并行计算、编程语言基础和系统基础等领域的持续差距。
一篇新论文提出了AgenticRei,这是一个义务政策框架,用于治理LLM驱动的自主智能体,解决了当前访问控制引擎无法处理的义务、豁免和策略冲突问题。
Sqim是一款新工具,允许开发者无需VPN或Tailscale,直接从Codex、Claude Code等编码代理将iOS应用构建安装到iPhone上。它通过Homebrew安装CLI工具,并提供一个构建仪表板方便重新访问之前构建。
作者尝试使用本地模型构建一个翻译管道,通过规划、执行、批评和修复循环来处理大型韩语到英语的翻译,但最终未能显著提高质量,并等待更好的模型的到来。
本教程实现了Salesforce CodeGen的端到端工作流程,从Hugging Face加载模型,超越基础推理,添加函数提取、语法检查、静态安全检查、单元测试验证、最佳N候选重排、多步骤程序合成、提示风格实验,最后可视化迷你基准并导出可复用文件。
DeepSWE v1.1 在保持原有长周期工程任务不变的基础上,改进了智能体的执行与评分方式,采用隔离环境验证代码补丁,使结果更易复现、审计和分析。新版引入了 Claude Fable 5 和 Kimi K2.7 Code 模型,整体通过率与模型排名与 v1 接近。
美国司法部介入孟菲斯居民诉xAI违反《清洁空气法》一案,以国家安全为由支持xAI。居民称xAI的未许可燃气轮机导致严重空气污染和噪音,而DOJ声称Grok对国防至关重要。
2026年6月12日,美国政府强制下线了Anthropic新发布的Claude Fable 5模型,至今仍未恢复。本文分析了四种可能情景:真诚的误会、模型能力确实危险、外国访问担忧以及政治因素。作者认为政治因素可能性最大,但也给出了其他情景的概率,并预测了每种情景下模型的恢复时间和形式。
在Linux基金会下,LF AI & Data Foundation组建了DocLang工作组,致力于开发一种AI友好的文档格式,以替代PDF、Markdown等现有格式。该格式由IBM、NVIDIA、Red Hat、ABBYY、HumanSignal和Forgis联合创立,通过1:1的令牌映射优化大语言模型的提示,降低成本并提高准确性。
Meta 宣布将其 AI 客服代理(现称为 Meta Business Agent)全球推广到 WhatsApp Business,该代理可回答问题、推荐产品、预约等,并已在印度和墨西哥测试近两年。
文章讨论了AI交互中一个隐性问题:为什么有些交互成功而另一些失败?这通常由不可见的因素如漂移、语气不匹配和怪异行为造成。作者提出观察层是解决这些问题的关键,并已为AI运行时构建了该层。
Datasette Apps 是一个新插件,允许用户在 Datasette 实例中通过严格沙盒化的 iframe 运行自包含的 HTML+JavaScript 应用程序。这些应用可以执行只读 SQL 查询,并可通过存储查询支持写操作。该插件利用 iframe sandbox 属性和内容安全策略(CSP)确保安全,使用 postMessage 和 MessageChannel 实现锁定 API,并支持通过可复制提示由 AI 生成应用代码。文章还讨论了安全漏洞修复、日志记录以及 Datasette 从数据展示向丰富工具生态系统演进的愿景。