AI News HubLIVE
站内改写2 分钟阅读

Sakana AI 将 AB-MCTS 商业化,推出企业代理 Sakana Marlin,可生成多达 100 页的研究报告及幻灯片

东京的 Sakana AI 发布了其首个商业产品 Sakana Marlin,这是一个面向企业的自主研究代理。每个任务可自主运行长达 8 小时,生成数十至 100 页的报告和幻灯片。它基于 AB-MCTS(自适应分支蒙特卡洛树搜索)和 AI Scientist 工作流程。定价从按次付费(每次运行 100 积分,每积分 98 日元)开始。

来源MarkTechPost作者: Asif Razzaq

总部位于东京的 Sakana AI 本周发布了其首款商业产品“Sakana Marlin”。该公司将 Marlin 定位为虚拟首席战略官(Virtual CSO),是一款面向企业的 B2B 自主研究代理。

Marlin 并非像聊天机器人那样在几秒内给出回答。用户提交一个研究主题后,它会自主运行长达约八小时。每次运行返回一份长篇报告以及一套演示幻灯片。Sakana 表示,单次会话会发出数百到数千次 LLM 查询。

Marlin 是一款企业研究代理,而非聊天助手。用户给出一个主题或问题后,它会自主规划假设、浏览来源并验证发现。它可将数周的战略工作压缩至数小时。

交付物专为决策者设计。日语公告描述报告为数十页,英语公告则称报告可达约 100 页。在媒体体验中,报告篇幅为 60–100 页,引用 60–80 个来源。每份报告包括正文、参考文献和附录。演示幻灯片由图像生成 AI 创建。

Sakana 团队通过 2026 年 4 月的封闭测试对 Marlin 进行了优化。约 300 名专业人士在真实任务中测试了该产品,涵盖战略制定、市场研究、风险分析和竞争分析。Sakana 还与三菱 UFJ 金融集团合作,并获得了花旗的战略投资。

Marlin 的核心是 AB-MCTS(自适应分支蒙特卡洛树搜索),源于 Sakana 此前的研究“Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search”。AB-MCTS 将推理视为树搜索问题。在每一步,算法会做出一个决策:它可以“变宽”——生成一个新的候选答案,或者“变深”——完善一个已有前景的答案。标准重复采样只能并行地“变宽”,然后希望其中一个答案正确。

多 LLM 变体增加了第二个选择:它可以将步骤路由到完全不同的模型。在 Sakana 报告的 ARC-AGI-2 实验中,这种协作取得了成效:结合 o4-mini、Gemini 2.5 Pro 和 DeepSeek-R1 解决了约 27.5% 的任务,而单独使用 o4-mini 解决了约 23%。Marlin 将相同的自适应搜索应用于长期研究。

第二个关键组件是来自 Sakana 的 AI Scientist 项目的工作流自动化。该项目展示了自主科学发现,并发表在《自然》杂志上。

Marlin 在深度上竞争,而非速度。传统的深度研究工具在几分钟到几十分钟内给出答案。Marlin 有意花费数小时以提高输出质量。例如,OpenAI Deep Research 运行时间为几分钟到几十分钟,输出引用文本报告;Perplexity Deep Research 运行几分钟,输出带引用的文字答案;Google Gemini Deep Research 运行几分钟,输出引用文本报告。而 Marlin 最长约 8 小时,输出数十至 100 页的报告加幻灯片。

定价方面,Sakana 提供按次付费以及 Pro、Team 和 Enterprise 层级。按次付费每次运行 100 积分,每积分 98 日元。Pro 每月 15 万日元,包含 2000 积分。Team 每月 40 万日元,包含 6000 积分。Enterprise 定价定制,提供专用支持。

Marlin 适用于研究是瓶颈的高风险问题。具体用例包括:市场进入评估(如日本稳定币和代币化支付市场)、风险分析(如霍尔木兹海峡封锁的情景建模)、竞争分析(剖析三家竞争对手并排名定位差距)。每个案例对应一个提示和一次无人值守运行。

用户无法自行托管 Marlin,但可以运行其核心算法。Sakana 以 Apache 2.0 许可证开源了 AB-MCTS 作为 TreeQuest。安装后定义一个生成函数,即可在固定搜索预算下运行。

优势包括:经同行评审的基础(AB-MCTS 在 NeurIPS,AI Scientist 在《自然》);交付物完整(含参考文献、附录和幻灯片);自适应计算将资源投入最有前景的分支;核心开源便于研究。弱点包括:长运行时间导致迭代较慢;自动化报告可能包含难以发现的错误;定价和设计面向企业而非个人开发者;Marlin 本身闭源,仅开放底层算法。

关键要点:Sakana Marlin 每个任务自主运行约八小时;一次运行产生数十页报告及幻灯片;基于 AB-MCTS 和 AI Scientist 工作流;入门价格按次付费,每次运行 100 积分(每积分 98 日元);目标用户为金融、企业战略、咨询和智库团队。