头条

将Claude Code和Codex作为一条流水线

2026-06-19

本文探讨了如何将Claude Code和OpenAI Codex结合使用，而非二选一。通过基准测试、上下文窗口行为、代币经济分析和MCP集成，作者展示了两种工具在设计哲学上的互补性，并提供了具体的工作流模式。

Claude Code适合深度推理和审查，Codex适合终端工作和快速执行。
上下文窗口超过200-256K代币后，检索可靠性下降，需定期清理上下文。

阅读全文继续看更新

更多更新

13:12

AI帮助诊断18名患有罕见疾病的儿童，这些疾病曾令医生束手无策

波士顿儿童医院与OpenAI合作，利用AI工具成功诊断了18名患有罕见疾病的儿童，这些病例此前一直未能得到确诊。该研究发表在《新英格兰医学杂志》AI特刊上，展示了AI在基因组分析中的潜力。

Hacker News AI研究站内正文

12:49

巴雷特·佐夫在OpenAI仅五个月后再次离职

巴雷特·佐夫重返OpenAI仅五个月后再次离职。他于1月中旬回归，负责企业AI销售，此前曾在米拉·穆拉蒂的Thinking Machines Lab担任联合创始人兼CTO，因不当行为指控于1月离职。OpenAI已确认其离职。

The Verge AI创业融资站内正文

12:42

政客为何希望AI加速发展？

尽管公众普遍认为AI发展过快，许多政客却呼吁加快AI adoption。本文探讨了这一矛盾背后的政治与经济原因，指出快速变革可能带来的社会冲击。

Hacker News AI芯片 / 政策站内正文

12:30

Show HN: Sakha – 一款面向企业的AI员工入职工具

Sakha是一款集成在Slack中的AI入职助手，能够自动引导新员工完成入职流程、回答公司政策相关问题、审核合同并生成公司政策。该工具旨在解决传统入职流程中知识分散、管理者负担重等问题，提供从第一天到完全融入的自动化支持。

Hacker News AI政策 / 创业融资站内正文

12:19

面向产品经理的AI代理

Ferrix AI代理专为产品经理设计，通过上下文层、发现、验证、规划、PRD生成、规格制定、设计反馈、验收标准、工单创建、执行情报、发布沟通和上线后监控等12个代理，自动化产品管理工作流，同时保持人工审核与控制。

Hacker News AIAgent / 研究站内正文

12:12

低技能攻击者利用 Claude 和 Codex 突破 14 家公司

OALABS 的研究人员发现，一名低技能攻击者利用 AI 代理 Claude 和 Codex，通过模糊的提示绕过防护措施，突破至少 14 家公司并窃取数据。攻击者的操作安全失误导致超过 1000 个会话日志被恢复，暴露了其身份和手法。

Hacker News AIAgent / 政策站内正文

12:00

计算可识别性

本文提出“计算可识别性”框架，区别于依赖渐近性质的理论可识别性，通过有限计算搜索过程为经验估计器提供可识别性保证。实验表明，该方法适用于小样本、模糊图标准、混合观测-干预数据及反事实场景。

arXiv Machine Learning研究站内正文

12:00

面向大语言模型代理的澄清请求的不确定性分解方法

本研究提出一种基于提示的不确定性分解方法，将动作信心与请求不确定性分离，使大语言模型代理能在任务规范模糊时主动请求澄清。作者引入两个新基准（WebShop-Clarification和ALFWorld-Clarification），其中50%的任务故意未明确指定，并在五个大型语言模型上评估该方法。结果表明，所提分解方法在澄清F1分数上显著优于现有方法。

arXiv AI模型 / Agent / 研究站内正文

12:00

ITNet：一种可学习的积分变换，统一卷积、注意力与循环网络

本文提出积分变换网络（ITNet），通过一个可学习的积分核统一了卷积、自注意力和自回归循环三种架构。ITNet使用小型神经网络实现核函数，能够从数据中自适应行为，并在多个基准任务上达到或超越专用模型。

arXiv AI模型 / 研究站内正文

12:00

一种新方法使大型语言模型能够利用良知步骤和直接偏好优化进行自我伦理对齐，无需外部评判，从而在代码黑客等场景中实现涌现对齐，克服了以往的涌现错位问题。

arXiv AI模型 / 研究站内正文

12:00

REVEAL++：用于阿尔茨海默病风险视网膜建模的可微分表型分组

本文提出REVEAL++，一种在对比学习中采用连续表型结构的方法，用于视网膜图像和临床风险叙述的视觉-语言对齐，以预测阿尔茨海默病风险。该方法通过可微分加权函数替代硬分组，实现分级监督和端到端学习。在UK Biobank数据集上的评估表明，其性能优于离散分组基线。

arXiv AI模型 / 研究站内正文

12:00

大语言模型不知其所不知：通过跨模型归因分歧检测临床表格数据中的认知盲点

本研究比较了Qwen 2.5 7B和XGBoost在临床预测任务中的表现，通过归因分歧分析揭示了四个重要发现：LLM的口头置信度在认识论上是空洞的，存在逆向难度效应，少样本示例和SHAP特征证据的结合可显著提升准确率，且跨模型校准器能有效降低校准误差。

arXiv AI模型 / 研究站内正文

12:00

DeXposure-Claw：一种用于DeFi风险监督的代理系统

DeXposure-Claw是一个基于预测的代理监督系统，旨在解决通用LLM代理在去中心化金融风险监督中的不足。它通过图形时间序列基础模型预测风险网络，结合确定性监控和压力情景生成警报，并利用数据健康和置信度门控减少误报。此外，还开发了DeXposure-Bench评估套件，通过六轴评估（包括决策轴）衡量系统性能。实验基于五年周度真实数据，验证了系统的有效性。

arXiv AI模型 / Agent / 政策站内正文

12:00

多智能体大语言模型商议中的隐藏锚点

本文提出了一种新的动态系统模型，用于解释多智能体LLM商议如何通过每个智能体的隐藏内部信念（锚点）影响群体决策。该模型揭示了经典共识规则无法解释的现象：智能体对正确答案的置信度可能超越初始信念的凸包范围。通过三个开源模型家族的实验，作者发现锚点的影响强度相近，但位置差异决定了商议是否能突破初始意见的限制。

arXiv AI模型 / Agent / 研究站内正文

12:00

扩散语言模型：一项实验分析

本文对八种最先进的扩散语言模型（DLM）在推理、编码、翻译、知识和结构化问题解决等八个基准上进行了系统实验分析，同时考虑了生成质量和计算效率。研究发现，DLM的行为受生成时设计选择（如去噪步骤、上下文长度、块大小和平行解掩码策略）的强烈影响，导致性能与计算效率之间存在不同的权衡。该研究为当代DLM的能力和部署特性提供了实用见解。

arXiv AI模型 / 研究 / 创业融资站内正文

12:00

衡量课程与标准在主题覆盖、能力和认知深度上的一致性：应用于CS2013和CS2023的纵向框架

一项新研究提出了一种人机协同的流程，用于衡量本科计算机科学课程与课程指南的契合度。应用于CS2013和CS2023时，发现覆盖率基本不变（约50%），但认知深度实现率从95%下降到76%，反映了新版标准要求的提高。同时还发现了并行计算、编程语言基础和系统基础等领域的持续差距。

arXiv AI研究 / 创业融资站内正文

12:00

面向运行时Agentic AI系统治理的义务政策

一篇新论文提出了AgenticRei，这是一个义务政策框架，用于治理LLM驱动的自主智能体，解决了当前访问控制引擎无法处理的义务、豁免和策略冲突问题。

arXiv AI模型 / Agent / 政策站内正文

11:41

Show HN: Sqim – 无需VPN即可从Codex移动端安装iOS构建

Sqim是一款新工具，允许开发者无需VPN或Tailscale，直接从Codex、Claude Code等编码代理将iOS应用构建安装到iPhone上。它通过Homebrew安装CLI工具，并提供一个构建仪表板方便重新访问之前构建。

Hacker News AIAgent站内正文

11:00

AI编程：循环工程一个翻译器

作者尝试使用本地模型构建一个翻译管道，通过规划、执行、批评和修复循环来处理大型韩语到英语的翻译，但最终未能显著提高质量，并等待更好的模型的到来。

Hacker News AIAgent站内正文

10:44

Salesforce CodeGen教程：生成、验证和重排Python函数，附单元测试和安全检查

本教程实现了Salesforce CodeGen的端到端工作流程，从Hugging Face加载模型，超越基础推理，添加函数提取、语法检查、静态安全检查、单元测试验证、最佳N候选重排、多步骤程序合成、提示风格实验，最后可视化迷你基准并导出可复用文件。

MarkTechPostAgent / 芯片站内正文

10:35

DeepSWE v1.1：更清洁、更可复现的编码智能体基准测试

DeepSWE v1.1 在保持原有长周期工程任务不变的基础上，改进了智能体的执行与评分方式，采用隔离环境验证代码补丁，使结果更易复现、审计和分析。新版引入了 Claude Fable 5 和 Kimi K2.7 Code 模型，整体通过率与模型排名与 v1 接近。

Hacker News AIAgent / 政策站内正文

10:29

DOJ称Grok比清洁空气更重要

美国司法部介入孟菲斯居民诉xAI违反《清洁空气法》一案，以国家安全为由支持xAI。居民称xAI的未许可燃气轮机导致严重空气污染和噪音，而DOJ声称Grok对国防至关重要。

Hacker News AI政策 / 创业融资站内正文

10:07

美国政府与Anthropic的Claude Fable对峙将如何结束

2026年6月12日，美国政府强制下线了Anthropic新发布的Claude Fable 5模型，至今仍未恢复。本文分析了四种可能情景：真诚的误会、模型能力确实危险、外国访问担忧以及政治因素。作者认为政治因素可能性最大，但也给出了其他情景的概率，并预测了每种情景下模型的恢复时间和形式。

Hacker News AI政策 / 研究站内正文

09:57

一个温和的建议：重新格式化一切，让文档更易于AI消化

在Linux基金会下，LF AI & Data Foundation组建了DocLang工作组，致力于开发一种AI友好的文档格式，以替代PDF、Markdown等现有格式。该格式由IBM、NVIDIA、Red Hat、ABBYY、HumanSignal和Forgis联合创立，通过1:1的令牌映射优化大语言模型的提示，降低成本并提高准确性。

Hacker News AIAgent / 芯片站内正文

09:14

Meta 的 WhatsApp Business AI 代理现已全球可用

Meta 宣布将其 AI 客服代理（现称为 Meta Business Agent）全球推广到 WhatsApp Business，该代理可回答问题、推荐产品、预约等，并已在印度和墨西哥测试近两年。

Hacker News AIAgent站内正文

09:02

观察是品味之下的层。我们为AI运行时构建了它

文章讨论了AI交互中一个隐性问题：为什么有些交互成功而另一些失败？这通常由不可见的因素如漂移、语气不匹配和怪异行为造成。作者提出观察层是解决这些问题的关键，并已为AI运行时构建了该层。

Hacker News AI工具站内正文

07:58

Datasette Apps：在 Datasette 中托管自定义 HTML 应用程序

Datasette Apps 是一个新插件，允许用户在 Datasette 实例中通过严格沙盒化的 iframe 运行自包含的 HTML+JavaScript 应用程序。这些应用可以执行只读 SQL 查询，并可通过存储查询支持写操作。该插件利用 iframe sandbox 属性和内容安全策略（CSP）确保安全，使用 postMessage 和 MessageChannel 实现锁定 API，并支持通过可复制提示由 AI 生成应用代码。文章还讨论了安全漏洞修复、日志记录以及 Datasette 从数据展示向丰富工具生态系统演进的愿景。

Simon Willison's Weblog模型 / Agent / 政策站内正文