Show HN: Brontosaurus,一個語音驅動的生成式AI畫布
Brontosaurus是一個基於網絡的生成式畫布,通過語音命令幾乎瞬間創建小部件。受Thinking Machines和Ink & Switch的啓發,它強調人機協作,以速度為核心,讓用户通過語音快速將想法變為現實。
Brontosaurus是一個創新的基於網絡的生成式畫布,用户只需通過語音説出想要看到的內容,它就能在不到一秒的時間內構建出一個小部件。底層代理運行在OpenAI的gpt-oss-120b模型上,由Cerebras以每秒3000個令牌的驚人速度提供服務,使得整個過程感覺像魔術一樣。
這個項目受到了兩篇博客文章的啓發。第一篇來自Thinking Machines,他們發佈了一個交互模型。從技術角度來看,他們設計了一種多模態(語音+視覺+文本)模型連接到更強大的後台代理,該代理可以悄無聲息地執行請求而不打斷對話流程。從哲學角度來看,他們認為當前關於AI代理的討論錯誤地將重點放在代理的自主性上,即代理接收任務後可以連續工作數小時,而忽視了人類與AI的協作。Brontosaurus正是秉持這種協作精神,優先考慮以思維速度進行創造,讓用户感覺一切皆有可能。
第二篇博客來自Ink & Switch,他們提出了一個生成式畫布的願景,稱為“chitter chatter”。這篇文章像日記一樣温暖友好,描繪了軟件的可塑性。受此啓發,作者決定構建類似於Brontosaurus的東西。
在技術層面,Brontosaurus採用了多代理編排。有兩種代理類型:Conductor(指揮者)和Builder(構建者),都運行在gpt-oss-120b模型上。當用户點擊空格鍵時,網頁應用開始監聽語音;再次點擊時,通過Chrome內置的Web Speech API進行語音轉文字。文本被傳遞給Conductor代理,同時傳遞當前畫布上小部件的JSON數組。Conductor代理可以執行多種工具調用:移動或調整小部件大小、刪除、清除、創建和編輯。創建和編輯指令會發送給Builder代理,Builder代理返回一個完整的自包含HTML文檔,經過清理後在iframe中渲染。
設計上的巧妙之處在於:Conductor代理可以用一條指令進行多次工具調用;arrange調用不需要等待Builder代理完成即可移動小部件;Builder代理可以並行運行,同時創建多個小部件。
未來仍有很大的改進空間。例如,gpt-oss-120b模型已經存在9個月,參數只有120B,這意味着成本極低,但輸出質量還有提升空間。如果使用更強大的模型,雖然成本增加,但可能構建出更復雜的小部件。此外,作者曾嘗試通過Exa AI添加實時搜索功能,但延遲約0.9秒,破壞了即時體驗。最重要的改進是虛擬文件系統,它可以讓小部件持續存在,並允許用户迭代,同時使Brontosaurus能夠有選擇地將小部件內容納入上下文,從而實現更智能的命令。
儘管存在這些待改進之處,但Brontosaurus當前架構已經能夠產生令人驚歎的效果。作者邀請用户提出創意,並承諾會嘗試並回複視頻。這個項目不僅展示了技術上的突破,更體現了人機協作的哲學思考。