AI News HubLIVE
站内改写2 分钟阅读

Show HN: Brontosaurus,一个语音驱动的生成式AI画布

Brontosaurus是一个基于网络的生成式画布,通过语音命令几乎瞬间创建小部件。受Thinking Machines和Ink & Switch的启发,它强调人机协作,以速度为核心,让用户通过语音快速将想法变为现实。

来源Hacker News AI作者: thomasdhughes2

Brontosaurus是一个创新的基于网络的生成式画布,用户只需通过语音说出想要看到的内容,它就能在不到一秒的时间内构建出一个小部件。底层代理运行在OpenAI的gpt-oss-120b模型上,由Cerebras以每秒3000个令牌的惊人速度提供服务,使得整个过程感觉像魔术一样。

这个项目受到了两篇博客文章的启发。第一篇来自Thinking Machines,他们发布了一个交互模型。从技术角度来看,他们设计了一种多模态(语音+视觉+文本)模型连接到更强大的后台代理,该代理可以悄无声息地执行请求而不打断对话流程。从哲学角度来看,他们认为当前关于AI代理的讨论错误地将重点放在代理的自主性上,即代理接收任务后可以连续工作数小时,而忽视了人类与AI的协作。Brontosaurus正是秉持这种协作精神,优先考虑以思维速度进行创造,让用户感觉一切皆有可能。

第二篇博客来自Ink & Switch,他们提出了一个生成式画布的愿景,称为“chitter chatter”。这篇文章像日记一样温暖友好,描绘了软件的可塑性。受此启发,作者决定构建类似于Brontosaurus的东西。

在技术层面,Brontosaurus采用了多代理编排。有两种代理类型:Conductor(指挥者)和Builder(构建者),都运行在gpt-oss-120b模型上。当用户点击空格键时,网页应用开始监听语音;再次点击时,通过Chrome内置的Web Speech API进行语音转文字。文本被传递给Conductor代理,同时传递当前画布上小部件的JSON数组。Conductor代理可以执行多种工具调用:移动或调整小部件大小、删除、清除、创建和编辑。创建和编辑指令会发送给Builder代理,Builder代理返回一个完整的自包含HTML文档,经过清理后在iframe中渲染。

设计上的巧妙之处在于:Conductor代理可以用一条指令进行多次工具调用;arrange调用不需要等待Builder代理完成即可移动小部件;Builder代理可以并行运行,同时创建多个小部件。

未来仍有很大的改进空间。例如,gpt-oss-120b模型已经存在9个月,参数只有120B,这意味着成本极低,但输出质量还有提升空间。如果使用更强大的模型,虽然成本增加,但可能构建出更复杂的小部件。此外,作者曾尝试通过Exa AI添加实时搜索功能,但延迟约0.9秒,破坏了即时体验。最重要的改进是虚拟文件系统,它可以让小部件持续存在,并允许用户迭代,同时使Brontosaurus能够有选择地将小部件内容纳入上下文,从而实现更智能的命令。

尽管存在这些待改进之处,但Brontosaurus当前架构已经能够产生令人惊叹的效果。作者邀请用户提出创意,并承诺会尝试并回复视频。这个项目不仅展示了技术上的突破,更体现了人机协作的哲学思考。